SEO Lexicon: Robots.txt i Search Engine Optimization

  1. treść
  2. Co to jest robots.txt?
  3. Dlaczego potrzebuję robots.txt?
  4. Jak skonfigurować plik robots.txt?
  5. generatory robots.txt w Internecie
  6. Tabela: Polecenia dla pliku robots.txt
  7. Jak wyszukiwarki reagują na zablokowane treści?
  8. SEO: co jeśli zawartość jest już w indeksie Google?
  9. Co się stanie, jeśli wyłączę strony tylko przez robots.txt?
  10. Czy robots.txt gwarantuje, że strony nie wejdą do indeksu Google?
  11. Narzędzia Google dla webmasterów: sprawdź zablokowaną zawartość

Robots.txt jest ważnym narzędziem dla webmasterów i sprzedawców internetowych do kontrolowania wyszukiwarek i wykluczania ich z niektórych witryn. W tym artykule wiki porozmawiamy o robots.txt: co oznacza plik, jak skonfigurować robots.txt i co robi dla wyników wyszukiwania?

treść

podstawowa wiedza robots.txt

robots.txt i SEO

Jeśli nie podano inaczej, w tym artykule użyto wyszukiwarki Google i Googlebota na przykład.

Co to jest robots.txt?

Plik robots.txt (wymawiany „ tekst robota ”) jest plikiem w głównym katalogu witryny. Chociaż nie jest oficjalnym międzynarodowym standardem (takim jak HTML 5), plik i jego zawartość stały się standardem faktycznym.

Celem robots.txt jest przekazanie robotom indeksującym i botom instrukcji dotyczących zachowania na stronie internetowej. W szczególności wykluczenie botów z różnych katalogów i plików jest uregulowane w robots.txt. Na przykład wyszukiwarki takie jak Google są ostrzegane, że nie powinny lub nie powinny odwiedzać określonych witryn i innych treści.

Dlaczego potrzebuję robots.txt?

Jak wspomniano wcześniej, robots.txt jest ważnym narzędziem uniemożliwiającym wyszukiwarkom dostęp do określonych treści. Blokujemy wyszukiwarki takie jak Google, próbując uzyskać krytyczne strony. Obejmują one:

  • Administracja administracyjna (backend),
  • Strony z trasami rezerwacji i transakcjami zakupu,
  • tymczasowe katalogi i pliki,
  • Formularze rejestracyjne i kontaktowe,
  • Wyniki wyszukiwania stron
  • jak również wszelkiego rodzaju strony lub pliki, których wyraźnie nie chcemy widzieć w indeksie Google and Co.

Jak skonfigurować plik robots.txt?

Konfiguracja pliku robots.txt jest prosta.

  • Krok 1 : Otwórz edytor tekstu.
    • WSKAZÓWKA : Polecamy program → Notepad ++ , ale także normalny edytor (Notatnik) w Windows działa dobrze.
    • UWAGA : Microsoft Word i inne aplikacje do tworzenia dokumentów (takie jak Open Office Writer) nie nadają się do tworzenia pliku robots.txt!
  • Krok 2 : Wstaw odpowiednie polecenia, do których będziemy się odwoływać pod → Tabela: Polecenia dla pliku robots.txt wchodzić
  • Krok 3 : Zapisz plik jako robots.txt.
  • Krok 4 : Prześlij plik robots.txt do głównego katalogu swojej witryny.
    • Przykład: https://nextlevelseo.de/robots.txt
    • UWAGA : robots.txt nie jest zawarty w podfolderach. Przesyłanie pliku robots.txt nie ma tutaj sensu. (Przykład:

generatory robots.txt w Internecie

Aby szybko i łatwo utworzyć robots.txt dla Google i innych wyszukiwarek, zalecamy dwa generatory internetowe, za pomocą których możesz łatwo utworzyć plik robots.txt:

Tabela: Polecenia dla pliku robots.txt

Przejdźmy teraz do poleceń, które możemy zdeponować w robots.txt. Struktura jest zgodna ze spójnym schematem. Dlatego zwróć uwagę na dokładny styl pisania (wielkie i małe litery) oraz na fakt, że można zapisać jedno polecenie na linię. Poniżej tabeli znajdziesz przykłady jak to wszystko wygląda na końcu.

NOTA SMARTFONU W tej chwili wyświetlane są tylko najważniejsze opisy. Jeśli cię zdezorientują, spróbuj otworzyć stronę na swoim komputerze. Tam otrzymasz przegląd tabelaryczny, który jest łatwiejszy do zrozumienia. 😉

Polecenie Opis # Romb symbolizuje nutę . W przypadku botów oznacza to, że ignorują wszystko w tej linii od znaku diamentu. W ten sposób możesz dołączać własne notatki do poleceń, aby szybciej znaleźć właściwe miejsca przy wprowadzaniu zmian.Jeśli diament jest umieszczony na początku linii, cała linia jest ignorowana. Przykład: # To jest notatka. * Symbol gwiazdy (lub znak mnożenia) jest symbolem wieloznacznym, symbol wieloznaczny oznacza, że ​​coś może znajdować się na swoim miejscu zamiast symbolu gwiazdy. Więc jakakolwiek część adresu URL. User-agent: * Jeśli linia zaczyna się od user-agent: * , oznacza to, że wszystkie boty rozpoczynające się od tej linii powinny wziąć pod uwagę poniższe polecenia: Symbol gwiazdy (lub znak mnożenia) reprezentuje wszystkie boty jako symbole wieloznaczne, więc wszystkie Boty są adresowane. User-agent: Googlebot uruchamia linię z user-agent: Googlebot , więc tylko Google Bot zająć. Tylko on powinien rozważyć następujące wiersze, aż pojawi się nowy agent użytkownika: - dopóki nie pojawi się nowa linia, zaczynając od user-agent:. Inne roboty i boty nie biorą pod uwagę poleceń w nich zawartych, zamiast Googlebota możesz także wybiórczo sterować innymi botami:

  • User-agent: obraz Googlebota
  • User-agent: Bingbot
  • User-agent: Yahoo! Slurp
  • User-agent: YandexBot

Listę webcrawlerów i botów można znaleźć tutaj: useragentstring.com

Disallow: / Jeśli linia zaczyna się od Disallow: oznacza to, że wcześniej wspomniane boty i roboty nie mogą wprowadzać dołączonej ścieżki lub obszaru URL. Jest to, że tak powiem, znak stopu dla odpowiednich adresowanych botów. UWAGA : Jeśli nie jest zainstalowany żaden symbol wieloznaczny (symbol gwiazdy / znak mnożenia), obowiązuje:

  • Boty nie mogą pobierać stron, które zaczynają się od / w tym przykładzie.
  • NIE oznacza to, że boty nie mają dostępu do strony, która jest dokładnie taka sama jak ta, która została zdeponowana. Musisz użyć następującego polecenia ze znakiem dolara:

Disallow: /index.php$ Znak dolara na końcu ścieżki lub pliku mówi, że boty kończą się znakiem dolara. W tym przypadku index.php w głównym katalogu nie jest brany pod uwagę.Jeśli jest coś innego w adresie URL po index.php - jak na przykład z adresem URL /index.php?id=123 - boty będą rozważać tę stronę ponownie. Działa tylko z Googlebotem , Yahoo! Slurp, msnbot Disallow: / temp / W tym przypadku, odpowiednie boty nie mogą indeksować folderu / temp / i wszystkich plików i zawartości w nim. Więc: Struktury folderów mogą być blokowane przed dostępem przez wyszukiwarki. Disallow: /admin.php Blokuje plik admin.php dla wszystkich botów i robotów indeksujących oraz wszystkich podstron, które generują stronę Przykład: Disallow: /*.doc To polecenie określa, że ​​boty i przeszukiwacze nie mogą eksportować plików z Wpisz .DOC, aby przeczytać. Więcej przykładów:

  • Disallow: /*.pdf
  • Disallow: /*.jpg
  • Disallow: /*.mp4
  • Disallow: /*.xls

Disallow: /
Zezwól: / witryna / boty zazwyczaj sprawdzają plik robots.txt od góry do dołu. Jeśli sekcja została wcześniej zablokowana (jak cała strona internetowa), ale poniżej znajduje się Zezwalaj: udostępniony folder, boty i roboty indeksujące sprawdzą folder / stronę / katalog i uwzględnią go w indeksie Działa z: Googlebot, Ask.com, Yahoo! Slurp, msnbot (inne boty mogą zignorować zamówienie!) Mapa strony: <Robots> Robots.txt może być również używany do przechowywania mapy witryny XML. Boty i roboty indeksujące wiedzą to samo i sprawdzą mapę witryny XML, aby szybciej uwzględnić ich zawartość w indeksie. Przykład: opóźnienie indeksowania: <SECONDS> Specjalnie dla Yahoo! i MSNbot:
Ich boty mogą zostać poinstruowane, aby po określonych przedziałach czasu indeksowały nową stronę. Przykład:

  • Opóźnienie indeksowania: 300 # 300 sekund = co 5 minut

Najpierw plik robots.txt bez wyjaśnień, a następnie plik zawierający wyjaśnienia oznaczone jako notatki.

SMARTPHONE UWAGA: Odwróć telefon do widoku poziomego, aby zobaczyć lokalizację pliku robots.txt bez błędu. Jeśli ta informacja będzie się powtarzać, spójrz ponownie na stronę na swoim komputerze z pełną szerokością.

Agent użytkownika: *
Mapa witryny:
Disallow: / temp /
#
User-agent: Googlebot
Disallow: / uploads /
Zezwalaj: / przesyłaj / obrazy /
#
User-agent: discobot
Disallow: / * lista.
#
User-agent: msnbot
Disallow: /.js$

A teraz ten sam robots.txt z uwagami do wyjaśnienia. Notatki mogą być również zawarte w pliku robots.txt, ponieważ boty i roboty indeksujące ignorują notatki.

# robots.txt na stronie internetowej
#
# Romb na początku linii
# mówi, że to jest jeden
# Komentarz i boty
# nie w tym obszarze
# należy wziąć pod uwagę.
#
Agent użytkownika: *
# wszystkie boty
#
Mapa witryny:
# Przechowuje mapę witryny dla
# Roboty indeksujące i boty
#
Disallow: / temp /
# folder / temp / będzie dla wszystkich
# Boty zablokowane
#
User-agent: Googlebot
Disallow: / uploads /
# Googlebot nie jest dozwolony w
#Folder / uploads /
Zezwalaj: / przesyłaj / obrazy /
# Googlebot nadal jest dozwolony
# folder / uploads / images /
#
User-agent: discobot
Disallow: / * lista.
# Dyskobot może nie mieć żadnych plików
# i otwórz strony z listą.
Dołącz # w adresie URL.
# Wildcard (* znak) mówi
# nie ma znaczenia, co się dzieje
#list. położone.
#
User-agent: msnbot
Disallow: /.js$
# Bot MSN jest dozwolony dla javascriptów
# nie otwieraj. Jednak tylko
# jeśli pliki kończą się na .js.
# Jest nadal za nim
# coś, jak na
# script.js? date = 20141220, a następnie
# bot MSN staje się plikiem
# Szukaj.
#
# END

Jak wyszukiwarki reagują na zablokowane treści?

Robots

Stop Sign Zdjęcie: Michelle Kinsey Bruns (CC BY 2.0)

W przypadku Google i innych wyszukiwarek, a także dowolnego ukierunkowanego bota i robota, zablokowane treści są jak znak stopu. Nie możesz odwiedzać tych stron i zazwyczaj nie robisz tego. W rezultacie strony zablokowane przez robots.txt nie będą już wyświetlane przez Googlebota i inne roboty indeksujące i boty.

Jednak robots.txt należy raczej rozumieć jako szczególnie ważną notatkę dla każdego typu robota i robota. Podczas gdy duzi dostawcy, tacy jak Google, przestrzegają przepisów ruchu drogowego (symboliczny znak stopu), inni mali chuligani nie robią tego automatycznie.

Ponadto blokowanie treści nie gwarantuje braku włączenia do indeksu wyszukiwarek. Jeśli strona jest połączona wewnętrznie, wyszukiwarki lubią używać tekstu łącza jako nagłówka wyniku wyszukiwania. Ale ponieważ strony nie są przeszukiwane, wyszukiwarki ignorują treści takie jak noindex. Więcej na ten temat znajdziesz w artykule → Test SEO: Czy Google czyta zablokowane treści za pośrednictwem robots.txt?

Niemniej jednak główne i najważniejsze wyszukiwarki szukają tego.

SEO: co jeśli zawartość jest już w indeksie Google?

Jeśli strony znajdują się w indeksie Google, którego wolałbyś nie mieć w indeksie, nie powinieneś natychmiast blokować plików i katalogów przez robots.txt. Ponieważ wykluczenie botów i robotów indeksujących nie oznacza, że ​​wyszukiwarki automatycznie usuwają treści z indeksu.

Lepsza jest wtedy następująca procedura:

  • Krok 1 : Ustaw żądane strony na Noindex.
  • Krok 2 : Ponownie przeszukaj strony, które chcesz za pomocą Narzędzi Google dla webmasterówIndeksujPobierz jako Google .
    • Krok opcjonalny: zrób to samo za pomocą Narzędzi dla webmasterów Bing
  • Krok 3 : Usuń adresy URL w Narzędziach Google dla webmasterów: Przejdź do Google IndexUsuń adresy URL
  • Krok 4 : Poczekaj na usunięcie adresów URL
  • Krok 5 : Zablokuj ścieżki i pliki za pomocą robots.txt

Co się stanie, jeśli wyłączę strony tylko przez robots.txt?

Wynik wyszukiwania może nadal się pojawiać. Nie jest jednak wyświetlany żaden opis, ale uwaga:

Ze względu na robots.txt tej strony nie ma opisu dla tego wyniku. Dalsze informacje

Wynik wyszukiwania Google został zablokowany przez robots.txt

Czy robots.txt gwarantuje, że strony nie wejdą do indeksu Google?

Nie Boty i roboty indeksujące nie muszą postępować zgodnie z instrukcjami w pliku robots.txt. Są jak znak stopu, którego większość robotów i robotów się trzyma. To naprawdę nie jest bariera.

Niemniej jednak: większość dużych usług internetowych jest zgodna z tym internetowym StVO.

Narzędzia Google dla webmasterów: sprawdź zablokowaną zawartość

Aby sprawdzić, czy Google ocenia plik robots.txt poprawnie i poprawnie ocenia zapisany plik robots.txt, możesz skorzystać z Narzędzi dla webmasterów Google.

txt, możesz skorzystać z Narzędzi dla webmasterów Google

Narzędzia Google dla webmasterów: Tester robots.txt

W obszarze Indeksowanietester robots.txt to robots.txt, ponieważ Google ostatnio przejrzał. Jeśli chcesz wprowadzić nowe zmiany lub już je wprowadziłeś, możesz uzupełnić pole nowymi ustawieniami.

Następnie możesz przetestować adresy URL z różnymi botami w Narzędziach Google dla webmasterów.

  • Jeśli adres URL jest zablokowany, wskazuje również, która linia go blokuje.
  • Jeśli adres URL nie jest zablokowany, przycisk „Test” staje się zielonym przyciskiem „Zatwierdzony”.

Linki

Txt?
Txt?
Txt?
SEO: co jeśli zawartość jest już w indeksie Google?
Txt?
Txt gwarantuje, że strony nie wejdą do indeksu Google?
Txt i co robi dla wyników wyszukiwania?
Txt?
Txt?
Txt?