Блог про сео




Как запретить странице индексироваться

Предложить другую тему
Анализ индексируемости страниц в Linkbox.Pro

Информация обновлена 14 феврая 2023 года

Запрет индексации в Гугл и других поисковых системах прописывают в том случае, если определенная страница или сайт не должны попасть в индекс поисковой системы. Это может понадобиться по нескольким причинам:

  1. Страница создавалась как техническая, не имеет ценности для поисковой системы и не должна ранжироваться.
  2. Страница/сайт временно не готовы и пока не должны попадать в индекс.
  3. Страница является копией, низкокачественной, с плохим контентом.
  4. Страница предназначена для зарегистрированных и авторизованных пользователей, индексирование и сканирование ее ботом не должно осуществляться.

Ниже я представлю несколько способов запрета индексации страницы и опишу методы их реализации. Также в статье вы узнаете о том, как проверить запрет индексации страницы на своем сайте или запрет индексации на внешних сайтах, например проверка возможности индексации бэклинков.

Способы запрета индексации

#1 - noindex

Директива noindex - это специальное правило, запрещающее Google и других поисковым системам индексировать страницу. Данное правило не запрещает при этом страницу сканировать (читайте подробнее про разницу между индексированием и сканированием в словаре).

Реализация правила noindex возможна двумя способами - с помощью специального тега noindex (#1.1), который нужно поместить в <head>, или же с помощью http-ответа (#1.2).

#1.1 Использование тега является более простым вариантом. Код выглядит следующим образом

a) запрет индексирования для всех ботов поисковых систем

  <meta name="robots" content="noindex" />

б) запрет индексирования для Гуглбота:

  <meta name="googlebot" content="noindex" />

Можно запретить индексирование любому боту, для этого нужно просто узнать название бота в справке поисковой системы или краулера.

Включить вывод тега noindex в определенных CMS обычно можно благодаря специальным настройкам в интерфейсе системы или же благодаря плагинам. Например, в WordPress с подключенным Yoast нужно перейти на админ-страницу записи, проскроллить к блоку Yoast Seo Premium, открыть блок дополнительно и выбрать вариант "Нет" в вопросе "Разрешить поисковым системам показывать Страница в результатах поиска?".

Noindex в Wordpress через Yoast

#1.2. Заголовок HTTP-ответа

Noindex как правило запрета индексирования страницы можно также прописать в HTTP-ответе. Выглядит это следующим образом:

   HTTP/1.1 200 OK
                (...)
                X-Robots-Tag: noindex
                (...)

Данный метод подойдет для тех, кто умеет работать с конфигурациями на сервере, поскольку ответ сервера можно редактировать именно там.

Метод с ноиндексом идеально подходит в тех случаях, когда вам надо навсегда запретить индексирование технической страницы, или не индексировать страницы, предназначенных только для зарегистрированных и авторизованных пользователей. Читайте подробнее в справке.

#2 Запрет доступа ботам (403 ответ сервера)

С помощью специальных правил на сервере или на CDN, можно запретить Гуглботу или любому другому боту сканировать и индексировать сайт/страницу. Если правильно прописать правило, боты будут получать 403 ответ сервера (запрет доступа).

Вот так например выглядит запрет сканирования (и как результат - страница не попадет в индекс) на cloudflare в разделе Firewall для Гуглбота. Подобное правило можно создать в конфигурациях на сервере.

Запрет в Cloudflare в разделе Firewall для Гуглбота

При проверке url, для которого стоит такой запрет, вы увидите 403 ответ сервера (то есть отсутствие доступа на просмотр страницы).

отсутствие доступа на просмотр страницы для Гуглбота

Данный способ запрета индексации подойдет для новых сайтов, которые только разрабатываются, и пока не должны сканироваться или индексироваться. Обратите внимание! Запрет доступа ботам не дает странице не только не попасть в индекс, но также и просканироваться. Подобным образом действует и запрет на сканирование в файле robots.txt но с той разницей, что урлы в robots.txt все равно могут попасть в выдачу, если, например, на них стоит много ссылок с других источников. С новыми сайтами, полностью закрытыми от ботов на сервере или CDN, обычно такого не происходит.

#3 Запрет на сканирование в Robots.txt (не рекомендуемый способ!)

Между процессами сканирования и индексирования есть разница, однако первый процесс всегда является предшественником второго. Поэтому теоретически запрет сканирования исключает возможность попадания в выдачу, ведь бот не может просканировать страницу и понять, о чем она.

Запрет на сканирование в Robots.txt осуществляется путем прописывания в файле Robots.txt запрета на сканирование страницы/сайта/подпапки(директории)/типов файлов следующим способом:

   User-agent: *
                Disallow: /user/*
                Disallow: /news/*

Данное правило запрещает сканирование всем ботам каталогов (подпапок) /user/ и /news/ и любых файлов в этих каталогах.

На самом деле данный метод не рабочий в плане запрета индексации. "Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google." - прямая цитата из справки Гугл. Другими словами, если страница, закрытая от сканирования, будет обнаружена другими методами, например на нее ведут внешние ссылки, она все равно может попасть в индекс (и в моей практике такое не раз случалось).

Еще одна цитата для подтверждения:

Если доступ к странице запрещен в файле robots.txt, она все равно может быть проиндексирована по ссылкам с других сайтов. Google не будет напрямую сканировать и индексировать контент, который заблокирован в файле robots.txt. Однако если на такой URL ссылаются другие сайты, то он все равно может быть найден и добавлен в индекс. После этого страница может появиться в результатах поиска (во многих случаях вместе с текстом ссылки, которая на нее ведет). Если вас это не устраивает, рекомендуем защитить файлы на сервере паролем или использовать директиву noindex в теге meta или HTTP-заголовке ответа. Альтернативное решение – полностью удалить страницу.

Короче, этот способ я могу порекомендовать использовать в последнюю очередь только в том случае, если вы не можете отредактировать тег роботс в head, прописать ответ сервера или настроить файерволл.

#4 Защита файлов паролем

Способ подобный к способу #2 - он будет возвращать ботам 403 ответ сервера (запрет доступа). Идеально подходит для страниц, предназначенных только для пользователей/пользователей по подписке.

Для защиты страниц паролем вы можете использовать плагин ограничения контента (для WordPress это, например, Password Protected). Установите и активируйте его, затем перейдите в «Настройки» > «Защищено паролем» и включите «Статус защиты паролем». Это дает более тонкий контроль, позволяя занести в белый список определенные IP-адреса.

5 Ручное удаление из индекса

Это способ срочно (примерно в течении часа) удалить из индекса страницы. Для подтвержденного в консоли сайта инструмент удаления находится по адресу https://search.google.com/u/0/search-console/removals. Там можно запросить удаление целого сайта или каталога.

Данный способ не запрещает индексацию, а просто временно удаляет страницы из индекса.

Для удаления проиндексированного контента не своего сайта воспользуйтесь справкой https://support.google.com/websearch/answer/6349986 (там будет ссылка на инструмент). Чтобы избежать манипуляциям сеошников, проверка заявок на удаления контента с чужого сайта осуществляется по определенным критериям и чаще всего не одобряется. Также в основном удаляется не страница из индекса, а именно устаревший контент (скидывается кеш).

Как проверить, разрешена ли индексация страницы

#1 Страницы своего сайта можно проверить в Search Console с помощью инструмента Test live Url. Он показывает,

#1.1 если страница закрыта от индексации с помощью тега или ответа сервера noindex:

страница закрыта от индексации с помощью тега или ответа сервера noindex

#1.2 если у Гуглбота нет доступа к странице из-за защиты паролем или файервола (403 ответ сервера):

отсутствие доступа на просмотр страницы для Гуглбота

#1.3 если страница не может быть просканирована из-за ограничений в файле robots.txt (однако еще раз повторю: такая страница все равно может попасть в индекс):

ограничения в файле robots.txt

#2 Массово проверить страницы на возможность индексации (например, проверить свои бэклинки) можно в специальных сервисах, например Linkbox.Pro, а также с помощью краулера ScreamingFrog SEO Spider (желательно с лицензией).

Массово проверить страницы на возможность индексации в Линкбокс Про

Быстрые ответы

Самый простой способ закрыть страницу от индексации?

Самый простой и правильный (рекомендуемый Google) способ - прописать в секции head тег Noindex.

Какой синтаксис тега Noindex?

<meta name="robots" content="noindex" />

Какой самый простой способ массово проверить индексируемость страниц?

Самый простой способ проверить индексирумость массово - использовать сервис ЛинкбоксПро.

Почему disallow в Robots.txt не помогает запретить индексацию?

Disallow в Robots.txt не запрещает индексацию страницы. Если Гугл находит ее в других источниках (внешних ссылках), она может все равно попасть в индекс.

Можно ли использовать noindex и disallow в robots.txt для лучшего эффекта?

Нет. В процессах оценки страницы сначала идёт сканирование, потом индексирование. Запрет сканирования в robots.txt не даст Гуглу учесть тот факт, что на странице noindex, и она может попасть в индекс все равно. Чтобы noindex работал, страница должна нормально сканироваться.





Поддержите Украину!🇺🇦

Мы боремся за нашу независимость прямо сейчас. Поддержите нас финансово. Даже пожертвование в 1 доллар важно.

Подпишись!

Да, тебе очень понравился контент на сайте, но... ты никогда ни на что не подписываешься, правильно? Пожалуйста, сделай исключение для меня. Я сильно ебашу для того, чтобы сайт не только рос, но также этот был максимально качественным. Поддержи не проект - поддержи конкретно меня в моем стремлении писать классно.