Блог про сео




Як заборонити сторінці індексуватися

Запропонувати іншу тему
Аналіз індексабельності сторінок в Linkbox.Pro

Заборону індексації в Google та інших пошукових системах прописують у тому випадку, якщо певна сторінка або сайт не повинні потрапити до індексу пошукової системи. Це може знадобитися з кількох причин:

  1. Сторінка створювалася як технічна, не має цінності для пошукової системи і не повинна ранжуватися.
  2. Сторінка/сайт тимчасово не готові і поки не повинні потрапляти в індекс.
  3. Сторінка є копією, низькоякісною, з поганим контентом.
  4. Сторінка призначена для зареєстрованих та авторизованих користувачів, індексування та сканування її ботом не повинно здійснюватися.

Нижче я представлю кілька способів заборони індексації сторінки та опишу методи їх реалізації. Також у статті ви дізнаєтеся про те, як перевірити заборону індексації сторінки на своєму сайті або заборону індексації на зовнішніх сайтах, наприклад, перевірка можливості індексації беклінків.

Способи заборони індексації

#1 - noindex

Директива noindex - це спеціальне правило, що забороняє Google та інші пошукові системи індексувати сторінку. Це правило не забороняє при цьому сторінку сканувати (читайте докладніше про різницю між індексуванням та скануванням у словнику).

Реалізація правила noindex можлива двома способами - за допомогою спеціального тегу noindex (#1.1), який потрібно помістити в <head>, або за допомогою http-відповіді (#1.2).

#1.1 Використання тега є більш простим варіантом. Код виглядає так

a) заборона індексування для всіх роботів пошукових систем

  <meta name="robots" content="noindex" />

б) заборона індексування для Гуглбота:

  <meta name="googlebot" content="noindex" />

Можна заборонити індексування будь-якого боту, для цього потрібно просто дізнатися назву бота в довідці пошукової системи або краулера.

Включити виведення тега noindex у певних CMS зазвичай можна завдяки спеціальним налаштуванням в інтерфейсі системи або завдяки плагінам. Наприклад, у WordPress із підключеним Yoast потрібно перейти на адмін-сторінку запису, проскролити до блоку Yoast Seo Premium, відкрити блок додатково та вибрати варіант "Ні" у питанні "Дозволити пошуковим системам показувати Сторінка в результатах пошуку?".

Noindex в Wordpress через Yoast

#1.2. Noindex в заголовоку HTTP

Noindex для заборони індексування сторінки можна також прописати в HTTP-відповіді. Виглядає це так:

   HTTP/1.1 200 OK
                (...)
                X-Robots-Tag: noindex
                (...)

Цей метод підійде для тих, хто вміє працювати з конфігураціями на сервері, оскільки відповідь сервера можна редагувати саме там.

Метод з ноіндексом ідеально підходить у тих випадках, коли вам потрібно назавжди заборонити індексування технічної сторінки, або не індексувати сторінки, призначені лише для зареєстрованих та авторизованих користувачів. Докладніше в довідці.

#2 Заборона доступу ботам (403 відповідь сервера)

За допомогою спеціальних правил на сервері або на CDN, можна заборонити Гуглботу або будь-якому іншому боту сканувати та індексувати сайт/сторінку. Якщо правильно прописати правило, боти отримуватимуть 403 відповіді сервера (заборона доступу).

Ось наприклад виглядає заборона сканування (і як результат - сторінка не потрапить в індекс) на cloudflare в розділі Firewall для Гуглбота. Таке правило можна створити у конфігураціях на сервері.

Заборона в Cloudflare в разділі Firewall для Гуглбота

Під час перевірки url, для якого стоїть така заборона, ви побачите 403 відповідь сервера (тобто відсутність доступу на перегляд сторінки).

відсутність доступу на перегляд сторінки для Гуглбота

Цей спосіб заборони індексації підійде для нових сайтів, які тільки розробляються, і поки що не повинні скануватися або індексуватися. Зверніть увагу! Заборона доступу ботам не дає сторінці не тільки не потрапити в індекс, але й проскануватися. Подібним чином діє і заборона на сканування у файлі robots.txt, але з тією різницею, що урли в robots.txt все одно можуть потрапити у видачу, якщо, наприклад, на них стоїть багато посилань з інших джерел. З новими сайтами, повністю закритими від ботів на сервері або CDN, зазвичай такого не відбувається.

#3 Заборона сканування в Robots.txt (не рекомендований спосіб!)

Між процесами сканування та індексування є різниця, проте перший процес завжди є попередником другого. Тому теоретично заборона сканування унеможливлює попадання у видачу, адже бот не може просканувати сторінку і зрозуміти, про що вона.

Заборона на сканування в Robots.txt здійснюється шляхом прописування у файлі Robots.txt заборони на сканування сторінки/сайту/підпапки(директорії)/типів файлів у такий спосіб:

   User-agent: *
                Disallow: /user/*
                Disallow: /news/*

Це правило забороняє сканування всім роботам каталогів (підпапок) /user/ та /news/ та будь-яких файлів у цих каталогах.

Насправді цей метод не робітник у плані заборони індексації. "Файл robots.txt не призначений для того, щоб забороняти показ ваших матеріалів у результатах пошуку Google." - пряма цитата з довідки Google. Іншими словами, якщо сторінка, закрита від сканування, буде виявлена іншими методами, наприклад, на неї ведуть зовнішні посилання, вона все одно може потрапити в індекс (і в моїй практиці таке не раз траплялося).

Ще одна цитата для підтвердження:

Якщо доступ до сторінки заборонено у файлі robots.txt, вона все одно може бути проіндексована за посиланнями з інших сайтів. Google не буде безпосередньо сканувати та індексувати контент, заблокований у файлі robots.txt. Однак якщо на таку URL-адресу посилаються інші сайти, то він все одно може бути знайдений і доданий до індексу. Після цього сторінка може з'явитися в результатах пошуку (у багатьох випадках разом із текстом посилання, яке веде). Якщо вас це не влаштовує, рекомендуємо захистити файли на сервері паролем або використовувати директиву noindex у тезі meta або HTTP-заголовку відповіді. Альтернативне рішення повністю видалити сторінку.

Коротше, цей спосіб я можу порекомендувати використовувати в останню чергу тільки в тому випадку, якщо ви не можете відредагувати тег роботс в head, прописати відповідь сервера або налаштувати фаєрволл.

#4 Захист файлів паролем

Спосіб подібний до способу #2 - він повертатиме ботам 403 відповідь сервера (заборона доступу). Ідеально підходить для сторінок, призначених лише для користувачів/користувачів за підпискою.

Для захисту сторінок паролем можна використовувати плагін обмеження контенту (для WordPress це, наприклад, Password Protected). Встановіть та активуйте його, потім перейдіть до «Налаштування» > «Захищено паролем» та увімкніть «Статус захисту паролем». Це дає більш тонкий контроль, дозволяючи занести до білого списку певні IP-адреси.

#5 Ручне видалення з індексу

Це спосіб терміново (приблизно протягом години) видалити з індексу сторінки. Для підтвердженого в консолі сайту інструмент видалення знаходиться за адресою https://search.google.com/u/0/search-console/removals. Там можна запросити видалення цілого сайту чи каталогу.

Цей спосіб не забороняє індексацію, а просто тимчасово видаляє сторінки з індексу.

Для видалення проіндексованого контенту на своєму сайті не скористайтесь довідкою https://support.google.com/websearch/answer/6349986 (там буде посилання на інструмент). Щоб уникнути маніпуляцій сеошників, перевірка заявок на видалення контенту з чужого сайту здійснюється за певними критеріями і найчастіше не схвалюється. Також переважно видаляється не сторінка з індексу, а саме застарілий контент (скидається кеш).

Як перевірити, чи дозволяється індексація сторінки

#1 Сторінки сайту можна перевірити в Search Console за допомогою інструмента Test live Url. Він показує,

#1.1 якщо сторінку закрито від індексації за допомогою тега або відповіді сервера noindex:

сторінка закрита від індексації за допомогою тега або відповіді сервера noindex

#1.2 якщо у Гуглбота немає доступу до сторінки через захист паролем або фаєрвола (403 відповідь сервера):

відсутність доступу на перегляд сторінки для Гуглбота

#1.3 якщо сторінка не може бути просканована через обмеження у файлі robots.txt (проте ще раз повторю: така сторінка все одно може потрапити до індексу):

обмеження у файлі robots.txt

#2 Масово перевірити сторінки на можливість індексації (наприклад, перевірити свої беклінки) можна у спеціальних сервісах, наприклад Linkbox.Pro, а також за допомогою краулера ScreamingFrog SEO Spider (бажано з ліцензією).

Масово перевірити сторінки на можливість індексації в Лінкбокс Про

Швидкі відповіді

Найпростіший спосіб закрити сторінку від індексації?

Найпростіший і правильніший (рекомендований Google) спосіб - прописати в секції head тег Noindex.

Який синтаксис тега Noindex?

<meta name="robots" content="noindex" />

Який найпростіший спосіб масово перевірити індексованість сторінок?

Найпростіший спосіб перевірити індексність масово - використовувати сервіс ЛінкбоксПро.

Чому disallow у Robots.txt не допомагає заборонити індексацію?

Disallow у Robots.txt не забороняє індексацію сторінки. Якщо Google знаходить її в інших джерелах (зовнішніх посиланнях), вона може все одно потрапити до індексу.

Чи можна використовувати noindex і disallow у robots.txt для кращого ефекту?

Ні. У процесах оцінки сторінки спочатку йде сканування, потім індексування. Заборона сканування в robots.txt не дасть Гуглу врахувати той факт, що на сторінці noindex, і вона може потрапити до індексу все одно. Щоб noindex працював, сторінка має нормально скануватися.





Підтримуємо своїх!🇺🇦

Мій колега-сеошник став на захист України і зараз збирає на спорядження побратимові. Кожна гривня важлива!

Підпишись!

Так, тобі дуже сподобався контент на сайті, але... ти ніколи ні на що не підписуєшся, вірно? Будь ласка, зроби виняток для мене. Я сильно єбашу для того, щоб сайт не тільки ріс, але також був максимально якісним. Підтримай не проект - підтримай мене в моєму прагненні писати класно.