Оновлено 15 лютого 2023 року
Заборону індексації в Google та інших пошукових системах прописують у тому випадку, якщо певна сторінка або сайт не повинні потрапити до індексу пошукової системи. Це може знадобитися з кількох причин:
Нижче я представлю кілька способів заборони індексації сторінки та опишу методи їх реалізації. Також у статті ви дізнаєтеся про те, як перевірити заборону індексації сторінки на своєму сайті або заборону індексації на зовнішніх сайтах, наприклад, перевірка можливості індексації беклінків.
Директива noindex - це спеціальне правило, що забороняє Google та інші пошукові системи індексувати сторінку. Це правило не забороняє при цьому сторінку сканувати (читайте докладніше про різницю між індексуванням та скануванням у словнику).
Реалізація правила noindex можлива двома способами - за допомогою спеціального тегу noindex (#1.1), який потрібно помістити в <head>, або за допомогою http-відповіді (#1.2).
#1.1 Використання тега є більш простим варіантом. Код виглядає так
a) заборона індексування для всіх роботів пошукових систем
<meta name="robots" content="noindex" />
б) заборона індексування для Гуглбота:
<meta name="googlebot" content="noindex" />
Можна заборонити індексування будь-якого боту, для цього потрібно просто дізнатися назву бота в довідці пошукової системи або краулера.
Включити виведення тега noindex у певних CMS зазвичай можна завдяки спеціальним налаштуванням в інтерфейсі системи або завдяки плагінам. Наприклад, у WordPress із підключеним Yoast потрібно перейти на адмін-сторінку запису, проскролити до блоку Yoast Seo Premium, відкрити блок додатково та вибрати варіант "Ні" у питанні "Дозволити пошуковим системам показувати Сторінка в результатах пошуку?".
#1.2. Noindex в заголовоку HTTP
Noindex для заборони індексування сторінки можна також прописати в HTTP-відповіді. Виглядає це так:
HTTP/1.1 200 OK (...) X-Robots-Tag: noindex (...)
Цей метод підійде для тих, хто вміє працювати з конфігураціями на сервері, оскільки відповідь сервера можна редагувати саме там.
Метод з ноіндексом ідеально підходить у тих випадках, коли вам потрібно назавжди заборонити індексування технічної сторінки, або не індексувати сторінки, призначені лише для зареєстрованих та авторизованих користувачів. Докладніше в довідці.
За допомогою спеціальних правил на сервері або на CDN, можна заборонити Гуглботу або будь-якому іншому боту сканувати та індексувати сайт/сторінку. Якщо правильно прописати правило, боти отримуватимуть 403 відповіді сервера (заборона доступу).
Ось наприклад виглядає заборона сканування (і як результат - сторінка не потрапить в індекс) на cloudflare в розділі Firewall для Гуглбота. Таке правило можна створити у конфігураціях на сервері.
Під час перевірки url, для якого стоїть така заборона, ви побачите 403 відповідь сервера (тобто відсутність доступу на перегляд сторінки).
Цей спосіб заборони індексації підійде для нових сайтів, які тільки розробляються, і поки що не повинні скануватися або індексуватися. Зверніть увагу! Заборона доступу ботам не дає сторінці не тільки не потрапити в індекс, але й проскануватися. Подібним чином діє і заборона на сканування у файлі robots.txt, але з тією різницею, що урли в robots.txt все одно можуть потрапити у видачу, якщо, наприклад, на них стоїть багато посилань з інших джерел. З новими сайтами, повністю закритими від ботів на сервері або CDN, зазвичай такого не відбувається.
Між процесами сканування та індексування є різниця, проте перший процес завжди є попередником другого. Тому теоретично заборона сканування унеможливлює попадання у видачу, адже бот не може просканувати сторінку і зрозуміти, про що вона.
Заборона на сканування в Robots.txt здійснюється шляхом прописування у файлі Robots.txt заборони на сканування сторінки/сайту/підпапки(директорії)/типів файлів у такий спосіб:
User-agent: * Disallow: /user/* Disallow: /news/*
Це правило забороняє сканування всім роботам каталогів (підпапок) /user/ та /news/ та будь-яких файлів у цих каталогах.
Насправді цей метод не робітник у плані заборони індексації. "Файл robots.txt не призначений для того, щоб забороняти показ ваших матеріалів у результатах пошуку Google." - пряма цитата з довідки Google. Іншими словами, якщо сторінка, закрита від сканування, буде виявлена іншими методами, наприклад, на неї ведуть зовнішні посилання, вона все одно може потрапити в індекс (і в моїй практиці таке не раз траплялося).
Ще одна цитата для підтвердження:
Якщо доступ до сторінки заборонено у файлі robots.txt, вона все одно може бути проіндексована за посиланнями з інших сайтів. Google не буде безпосередньо сканувати та індексувати контент, заблокований у файлі robots.txt. Однак якщо на таку URL-адресу посилаються інші сайти, то він все одно може бути знайдений і доданий до індексу. Після цього сторінка може з'явитися в результатах пошуку (у багатьох випадках разом із текстом посилання, яке веде). Якщо вас це не влаштовує, рекомендуємо захистити файли на сервері паролем або використовувати директиву noindex у тезі meta або HTTP-заголовку відповіді. Альтернативне рішення повністю видалити сторінку.
Коротше, цей спосіб я можу порекомендувати використовувати в останню чергу тільки в тому випадку, якщо ви не можете відредагувати тег роботс в head, прописати відповідь сервера або налаштувати фаєрволл.
Спосіб подібний до способу #2 - він повертатиме ботам 403 відповідь сервера (заборона доступу). Ідеально підходить для сторінок, призначених лише для користувачів/користувачів за підпискою.
Для захисту сторінок паролем можна використовувати плагін обмеження контенту (для WordPress це, наприклад, Password Protected). Встановіть та активуйте його, потім перейдіть до «Налаштування» > «Захищено паролем» та увімкніть «Статус захисту паролем». Це дає більш тонкий контроль, дозволяючи занести до білого списку певні IP-адреси.
Це спосіб терміново (приблизно протягом години) видалити з індексу сторінки. Для підтвердженого в консолі сайту інструмент видалення знаходиться за адресою https://search.google.com/u/0/search-console/removals. Там можна запросити видалення цілого сайту чи каталогу.
Цей спосіб не забороняє індексацію, а просто тимчасово видаляє сторінки з індексу.
Для видалення проіндексованого контенту на своєму сайті не скористайтесь довідкою https://support.google.com/websearch/answer/6349986 (там буде посилання на інструмент). Щоб уникнути маніпуляцій сеошників, перевірка заявок на видалення контенту з чужого сайту здійснюється за певними критеріями і найчастіше не схвалюється. Також переважно видаляється не сторінка з індексу, а саме застарілий контент (скидається кеш).
#1 Сторінки сайту можна перевірити в Search Console за допомогою інструмента Test live Url. Він показує,
#1.1 якщо сторінку закрито від індексації за допомогою тега або відповіді сервера noindex:
#1.2 якщо у Гуглбота немає доступу до сторінки через захист паролем або фаєрвола (403 відповідь сервера):
#1.3 якщо сторінка не може бути просканована через обмеження у файлі robots.txt (проте ще раз повторю: така сторінка все одно може потрапити до індексу):
#2 Масово перевірити сторінки на можливість індексації (наприклад, перевірити свої беклінки) можна у спеціальних сервісах, наприклад Linkbox.Pro, а також за допомогою краулера ScreamingFrog SEO Spider (бажано з ліцензією).
Найпростіший і правильніший (рекомендований Google) спосіб - прописати в секції head тег Noindex.
<meta name="robots" content="noindex" />
Найпростіший спосіб перевірити індексність масово - використовувати сервіс ЛінкбоксПро.
Disallow у Robots.txt не забороняє індексацію сторінки. Якщо Google знаходить її в інших джерелах (зовнішніх посиланнях), вона може все одно потрапити до індексу.
Ні. У процесах оцінки сторінки спочатку йде сканування, потім індексування. Заборона сканування в robots.txt не дасть Гуглу врахувати той факт, що на сторінці noindex, і вона може потрапити до індексу все одно. Щоб noindex працював, сторінка має нормально скануватися.
Підтримуємо своїх!🇺🇦
Мій колега-сеошник став на захист України і зараз збирає на спорядження побратимові. Кожна гривня важлива!
Так, тобі дуже сподобався контент на сайті, але... ти ніколи ні на що не підписуєшся, вірно? Будь ласка, зроби виняток для мене. Я сильно єбашу для того, щоб сайт не тільки ріс, але також був максимально якісним. Підтримай не проект - підтримай мене в моєму прагненні писати класно.