Jak wyszukiwarka analizuje plik robots.txt dla Twojej witryny Google

Automatyczne roboty wyszukiwarek, takie jak Google, przed obejściem zasobu, skontaktuj się z plik robots.txtktóry znajduje się w korzeni Twojej witryny. Ten plik zawiera instrukcje, które sekcje mogą skanować, a które nie. Ważne jest, aby zrozumieć, że taki protokół nie dotyczy usług użytkowników ani narzędzi bezpieczeństwa, które działają inaczej.

Co to jest plik robots.txt dla Twojej witryny Google

Aby ograniczyć roboty dostęp do niektórych sekcji zasobu, możesz utworzyć plik w witrynie robots.txtW którym zasady są przepisywane dla każdego robota. Przykład struktury:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

Ten plik reguluje, które części witryny można indeksować, a które - nie. Aby uczyć się od zera, zaleca się zacząć od zapoznania się z podstawowymi zasadami pracy robots.txt oraz zalecenia dotyczące jego kompilacji.

Gdzie zamieścić plik robots.txt na swojej stronie Google

Plik powinien być ściśle w rdzeniu witryny (na przykład https://ваш_сайт/robots.txt). Działa tylko dla tej kombinacji domeny, protokołu i portu, w którym jest umieszczana. Podomeni, inne porty i protokoły wymagają osobnego pliku robots.txt.

Przykłady poprawnych adresów pliku robots.txt Twojej witryny dla Google

https://example.com/robots.txt - Działa dla https://example.com/Ale nie dla http:// lub inne subdomeny.
https://www.example.com/robots.txt - tylko obejmują www.
ftp://example.com/robots.txt -Stosujemy wyłącznie do protokołu FTP.

Przetwarzanie błędów i kody odpowiedzi HTTP na Twojej stronie Google

W zależności od kodu odpowiedzi podczas próby uzyskania pliku robots.txt, Zachowanie robotów wyszukiwania zmienia się:

2xx kody - plik jest odczytany i używany.
Kody 3xx - jeśli więcej niż 5 przekierowuje, plik jest uważany za niedostępny.
Kody 4xx (z wyjątkiem 429) - Uważa się, że nie ma zakazów.
Kody 5xx - W przypadku błędów serwerów robot może tymczasowo zatrzymać witrynę witryny.

Jak Google buforuje plik robots.txt dla Twojej witryny

Roboty mogą buforować zawartość pliku do 24 godzin, ale w przypadku problemów (limity czasu, błędy) termin może wzrosnąć. Nagłówki Cache-Control Wpływają również na zachowanie buforowania.

Robots.txt Format i kodowanie witryny Google

Plik powinien znajdować się w kodowaniu UTF-8, z dzielnikami linii CR, CR/LF lub LF. Nieprawidłowe symbole lub -content są ignorowane. Maksymalny dopuszczalny rozmiar pliku wynosi 500 kib, reszta jest ignorowana.

Składnia i obsługiwane roboty.txt w Google dla Twojej witryny

Każda linia składa się z klucza, okrężnicy i wartości. Dozwolone jest dodawanie komentarzy po znaku #. Obsługiwane są następujące pola:

Agent użytkownika - Wskazuje, do którego robota mają zastosowanie reguły.
Umożliwić - dozwolona ścieżka.
Uniemożliwić - Zakazana ścieżka.
Mapa witryny - Pełny adres karty witryny.

Wszystkie ścieżki są wrażliwe na rejestr i powinny zacząć od /.

Objaśnienie przez użytkownika-agent: Jak określić reguły dla określonych robotów Twojej witryny w Google

Oznaczający user-agent Nie wrażliwe na rejestr. Użyj dokładnej nazwy robota, aby określić określone reguły, w przeciwnym razie używany jest szablon globalny *.

Co robi dyrektywa w pliku robots.txt Twojej witryny w Google

Ogranicza dostęp do robotów do określonych ścieżek. Jednak adres URL może nadal pojawiać się w wynikach wyszukiwania bez fragmentu strony.

Zezwalaj na funkcje: Jak zapewnić dostęp do sekcji swojej witryny w Google

Umożliwia dostęp do niektórych ścieżek, nawet jeśli częściowo podlegają one zasadom zakazu.

Jak wskazać mapę witryny w robots.txt dla swojej witryny Google

Dozwolone jest publikowanie linków do karty witryny. Może być ich kilka. Adres powinien być bezwzględny i poprawny. Mają one zastosowanie do wszystkich robotów, jeśli nie są zabronione osobno.

Grupowanie zasad w Robots.txt Twoja witryna w Google

Jeden zestaw reguł można zastosować jednocześnie do kilku agentów użytkownika, powtarzając linie użytkownika-agenta jednego po drugim przed podstawowymi regułami.

Określenie priorytetów dla agenta użytkownika w pliku robots.txt Twojej witryny w Google

Wybrany jest najbardziej specyficzny agent użytkownika. Jeśli znaleziono kilka zbiegów okoliczności, najdłuższe i najdokładniejsze jest przyjmowane. Ogólne zasady * Nie połączone z prywatnymi.

Przykłady grupowania Robots.txt na stronie w Google

Jeśli kilka bloków należy do jednego robota, są one automatycznie łączone. Pozostałe linie, takie jak mapa witryny, nie są brane pod uwagę podczas grupowania.

Jak porównywać trasy adresowe i roboty.

Ścieżka z reguły jest porównywana ze stroną strony. Symbole działają * (Każdy symbol, 0 lub więcej) i $ (koniec linii). Przykłady:

/ - Zbiega się z źródłem witryny i wszystkimi zainwestowanymi adresami URL.
/fish - Wszystkie ścieżki zaczynają się od /fish.
/fish/ - Tylko te, w których slash jest wyraźnie wskazany na końcu.
/*.php - Wszystkie pliki z rozszerzeniem .php.
/*.php$ - Tylko te, które kończą się w .php.

Priorytet reguł zezwoleń i niewolnie w pliku robots.txt w Twojej witrynie dla Google

Jeśli sprzeczne reguły są obecne w tym samym czasie, stosuje się to, co jest dłuższe po drodze i mniej restrykcyjne. Oznacza to, że w kontrowersyjnych przypadkach priorytetem jest najdokładniejsza reguła rozwiązywania.

Jeśli chcesz otrzymać pomoc w tworzeniu, sprawdzaniu lub konfigurowaniu pliku robots.txt dla Twojej witryny, skontaktuj się z agencją SEO CEO. Napisz na e -mailu: info@seo.computer Lub w WhatsApp: +7 920 204 44 61.

ID: 159