Blog o SEO




Jak uniemożliwić indeksowanie strony

Zaproponuj inny temat
Analiza indeksowalności stron w Linkbox.Pro

Informacje zaktualizowane 15 lutego 2023 r

Zakaz indeksowania strony internetowej przez Google i inne wyszukiwarki obowiązuje w przypadkach, gdy strona lub serwis nie powinny być indeksowane przez wyszukiwarkę. Może to być konieczne z kilku powodów:

  1. Strona została utworzona jako strona techniczna, nie ma wartości w wyszukiwarkach i nie powinna być w rankingu.
  2. Strona/witryna chwilowo nie jest gotowa i nie powinna być jeszcze indeksowana.
  3. Strona jest kopią, niskiej jakości, ze złą zawartością.
  4. Strona jest przeznaczona dla zarejestrowanych i autoryzowanych użytkowników i nie powinna być indeksowana ani przeszukiwana przez bota.

Poniżej przedstawię kilka sposobów na wyłączenie indeksowania stron i opiszę metody ich implementacji. Z artykułu dowiesz się również, jak sprawdzić, czy strona nie jest zaindeksowana w Twojej witrynie lub nie jest zaindeksowana w witrynach zewnętrznych, na przykład sprawdzając, czy linki zwrotne są indeksowalne.

Sposoby wyłączenia indeksowania

#1 - nointex

Dyrektywa noindex to specjalna reguła, która uniemożliwia Google i innym wyszukiwarkom indeksowanie strony. Ta reguła nie zapobiega indeksowaniu strony (przeczytaj więcej o różnicach między indeksowaniem a skanowaniem w słowniku).

Implementacja reguły noindex jest możliwa na dwa sposoby - przy użyciu specjalnego tagu noindex (#1.1), który musi być umieszczony w sekcji <head> lub przy użyciu odpowiedzi http (#1.2).

#1.1 Użycie tagu jest łatwiejszą opcją. Kod wygląda tak

a) wyłącz indeksowanie dla wszystkich robotów wyszukiwarek

  <meta name="robots" content="noindex" />

b) wyłącz indeksowanie dla Googlebota:

  <meta name="googlebot" content="noindex" />

Możesz wyłączyć indeksowanie dla dowolnego bota, w tym celu wystarczy znaleźć nazwę bota w pomocy wyszukiwarki lub robota indeksującego.

Włączenie wyjścia tagu noindex w niektórych systemach CMS jest zwykle możliwe dzięki specjalnym ustawieniom w interfejsie systemu lub dzięki wtyczkom. Na przykład w WordPress z włączonym Yoast musisz przejść do strony administratora postu, przewinąć do bloku Yoast Seo Premium, otworzyć blok Zaawansowane i wybrać opcję „Nie” w pytaniu „Zezwalaj wyszukiwarkom na pokazywanie strony w wynikach wyszukiwania?”.

Noindex w Wordpress przez Yoast

#1.2. Nagłówek odpowiedzi HTTP

Noindex jako reguła zakazująca indeksowania strony może być również zapisana w odpowiedzi HTTP. Wygląda to tak:

   HTTP/1.1 200 OK
                (...)
                X-Robots-Tag: noindex
                (...)

Ta metoda jest odpowiednia dla tych, którzy wiedzą, jak pracować z konfiguracjami na serwerze, ponieważ można tam edytować odpowiedź serwera.

Metoda noindex jest idealna, gdy trzeba na stałe wyłączyć indeksowanie strony technicznej lub stron nieindeksowanych przeznaczonych tylko dla zarejestrowanych i autoryzowanych użytkowników. Więcej informacji znajdziesz w pomocy.

#2 Odmów dostępu botom (odpowiedź serwera 403)

Za pomocą specjalnych reguł na serwerze lub w sieci CDN można uniemożliwić Googlebotowi lub innym botom przeszukiwanie i indeksowanie witryny/strony. Jeśli reguła jest napisana poprawnie, boty otrzymają odpowiedź serwera 403 (odmowa dostępu).

Na przykład tak wygląda blokada indeksowania (a co za tym idzie - brak indeksacji strony) na cloudflare w sekcji Firewall dla Googlebota. Podobną regułę można utworzyć w konfiguracjach na serwerze.

Zablokuj w Cloudflare w sekcji Firewall dla Googlebota

Kiedy sprawdzisz adres URL, który ma taki zakaz, zobaczysz odpowiedź serwera 403 (to znaczy brak dostępu do przeglądania strony).

brak dostępu do przeglądania strony dla Googlebota

Ten sposób wyłączania indeksowania jest odpowiedni dla nowych witryn, które są dopiero opracowywane i nie powinny być jeszcze przeszukiwane ani indeksowane. Notatka! Odmowa dostępu botom uniemożliwia nie tylko nie dostanie się do indeksu, ale także indeksowanie. Zakaz indeksowania w pliku robots.txt działa na podobnej zasadzie, z tą różnicą, że adresy URL w pliku robots.txt wciąż mogą dostać się do wyników wyszukiwania, jeśli np. mają dużo linków z innych źródeł. W przypadku nowych witryn całkowicie zamkniętych przed botami na serwerze lub CDN, zwykle tak się nie dzieje.

#3 Wyłącz skanowanie w pliku Robots.txt (niezalecane!)

Istnieje różnica między indeksowaniem a indeksowaniem, ale pierwszy proces jest zawsze poprzednikiem drugiego. Dlatego teoretycznie zakaz indeksowania wyklucza możliwość dostania się do wyników wyszukiwania, ponieważ bot nie może zindeksować strony i zrozumieć, o co w niej chodzi.

Zakaz skanowania w pliku Robots.txt jest realizowany poprzez napisanie w pliku Robots.txt zakazu skanowania typu strony/witryny/podfolderu (katalogu)/pliku w następujący sposób:

   User-agent: *
                Disallow: /user/*
                Disallow: /news/*

Ta reguła uniemożliwia wszystkim botom skanowanie katalogów /user/ i /news/ (podfolderów) oraz wszelkich plików w tych katalogach.

W rzeczywistości ta metoda nie działa, jeśli chodzi o blokowanie indeksowania. „Plik robots.txt nie ma na celu uniemożliwienia wyświetlania treści w wynikach wyszukiwania Google.” to bezpośredni cytat z witryny Pomoc Google. Innymi słowy, jeśli strona zamknięta przed indeksowaniem zostanie wykryta innymi metodami, na przykład prowadzącymi do niej linkami zewnętrznymi, nadal może dostać się do indeksu (a zdarzyło mi się to więcej niż raz w mojej praktyce).

Jeszcze jeden cytat dla potwierdzenia:

Jeśli dostęp do strony jest zabroniony w pliku robots.txt, nadal można ją zaindeksować za pomocą linków z innych witryn. Google nie będzie bezpośrednio przeszukiwać ani indeksować treści zablokowanych w pliku robots.txt. Jeśli jednak do takiego adresu URL odwołują się inne witryny, nadal można go znaleźć i dodać do indeksu. Następnie strona może pojawić się w wynikach wyszukiwania (w wielu przypadkach wraz z treścią prowadzącego do niej linku). Jeśli Ci to nie odpowiada, zalecamy zabezpieczenie plików na serwerze hasłem lub użycie dyrektywy noindex w metatagu lub nagłówku odpowiedzi HTTP. Alternatywnym rozwiązaniem jest całkowite usunięcie strony.

Krótko mówiąc, polecam tę metodę w ostateczności tylko wtedy, gdy nie możesz edytować tagu robots w nagłówku, napisać odpowiedzi serwera lub skonfigurować zapory.

#4 Pliki chronione hasłem

Metoda jest podobna do metody nr 2 — zwraca odpowiedź serwera 403 (odmowa dostępu) do botów. Idealny dla stron przeznaczonych tylko dla użytkowników / subskrybentów.

Aby zabezpieczyć strony hasłem, możesz użyć wtyczki ograniczającej zawartość (w przypadku WordPress jest to na przykład Ochrona hasłem). Zainstaluj i aktywuj go, a następnie przejdź do Ustawienia > Ochrona hasłem i włącz Stan ochrony hasłem. Zapewnia to dokładniejszą kontrolę, umożliwiając umieszczenie określonych adresów IP na białej liście.

5 Ręczne usunięcie z indeksu

Jest to sposób na pilne (w ciągu około godziny) usunięcie strony z indeksu. W przypadku witryny zweryfikowanej za pomocą konsoli narzędzie do usuwania znajduje się pod adresem https://search.google.com/u/0/search-console/removals. Tam możesz poprosić o usunięcie całej witryny lub katalogu.

Ta metoda nie wyłącza indeksowania, ale po prostu tymczasowo usuwa strony z indeksu.

Aby usunąć zaindeksowane treści spoza Twojej witryny, użyj https://support.google.com/websearch/answer/6349986 (pojawi się link do narzędzia). Aby uniknąć manipulacji przez SEO, weryfikacja wniosków o usunięcie treści z cudzej witryny odbywa się według określonych kryteriów i najczęściej nie jest zatwierdzana. Ponadto to nie strona jest najczęściej usuwana z indeksu, ale nieaktualna treść (pamięć podręczna jest usuwana).

Jak sprawdzić, czy indeksowanie stron jest dozwolone

#1 Możesz przetestować strony swojej witryny w Search Console za pomocą narzędzia Testuj aktywny adres URL. Pokazuje

#1.1, jeśli indeksowanie strony jest zablokowane przez tag noindex lub odpowiedź serwera:

strona zamknięta z indeksowania za pomocą tagu noindex lub odpowiedzi serwera

#1.2, jeśli Googlebot nie może uzyskać dostępu do strony z powodu ochrony hasłem lub zapory sieciowej (odpowiedź serwera 403):

brak dostępu do przeglądania strony dla Googlebota

#1.3 jeśli strona nie może zostać zindeksowana ze względu na ograniczenia w pliku robots.txt (jednak powtarzam: taką stronę nadal można zaindeksować):

ograniczenia w pliku robots.txt

#2 Możesz masowo sprawdzać strony pod kątem możliwości indeksowania (np. sprawdzać swoje linki zwrotne) w specjalnych serwisach, np. Linkbox.Pro, a także ScreamingFrog SEO Spider (najlepiej z licencją).

Zbiorcze sprawdzanie stron do indeksowania w Linkbox Pro

Szybkie odpowiedzi

Najprostszy sposób na zatrzymanie indeksowania strony?

Najprostszym i najbardziej poprawnym (zalecanym przez Google) sposobem jest wpisanie tagu Noindex w sekcji head.

Jaka jest składnia tagu Noindex?

<meta name="robots" content="noindex" />

Jak najłatwiej zbiorczo sprawdzić indeksowalność strony?

Najłatwiejszym sposobem masowego sprawdzenia możliwości indeksowania jest skorzystanie z usługi LinkboxPro.

Dlaczego blokada w pliku Robots.txt nie zezwala na zapobieganie indeksowaniu?

Nie zezwalaj w pliku Robots.txt nie wyłącza indeksowania stron. Jeśli Google znajdzie go w innych źródłach (linkach zewnętrznych), może nadal być indeksowany.

Czy możemy użyć noindex i disallow w pliku robots.txt, aby uzyskać lepszy efekt?

Nie. W procesach oceny stron indeksowanie odbywa się najpierw, a następnie indeksowanie. Zakaz indeksowania w pliku robots.txt uniemożliwi Google uwzględnienie faktu, że strona nie jest indeksowana, a mimo to może dostać się do indeksu. Aby noindex działał, strona musi być prawidłowo indeksowana.





Wspieraj Ukrainę!🇺🇦

Walczymy teraz o naszą niepodległość. Wesprzyj nas finansowo. Nawet 1$ darowizny jest ważne.

Subskrybuj!

Tak, naprawdę podobały Ci się treści na stronie, ale… nigdy niczego nie subskrybujesz, prawda? Proszę zrobić dla mnie wyjątek. Ciężko pracuję, aby strona nie tylko rosła, ale również była jak najwyższej jakości. Wspieraj nie projekt - wspieraj mnie w chęci pisania fajnie.