Automatyczne roboty wyszukiwarek, takie jak Google, przed obejściem zasobu, skontaktuj się z plik robots.txtktóry znajduje się w korzeni Twojej witryny. Ten plik zawiera instrukcje, które sekcje mogą skanować, a które nie. Ważne jest, aby zrozumieć, że taki protokół nie dotyczy usług użytkowników ani narzędzi bezpieczeństwa, które działają inaczej.
Aby ograniczyć roboty dostęp do niektórych sekcji zasobu, możesz utworzyć plik w witrynie robots.txtW którym zasady są przepisywane dla każdego robota. Przykład struktury:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
Ten plik reguluje, które części witryny można indeksować, a które - nie. Aby uczyć się od zera, zaleca się zacząć od zapoznania się z podstawowymi zasadami pracy robots.txt oraz zalecenia dotyczące jego kompilacji.
Plik powinien być ściśle w rdzeniu witryny (na przykład https://ваш_сайт/robots.txt). Działa tylko dla tej kombinacji domeny, protokołu i portu, w którym jest umieszczana. Podomeni, inne porty i protokoły wymagają osobnego pliku robots.txt.
https://example.com/robots.txt - Działa dla https://example.com/Ale nie dla http:// lub inne subdomeny.https://www.example.com/robots.txt - tylko obejmują www.ftp://example.com/robots.txt -Stosujemy wyłącznie do protokołu FTP.W zależności od kodu odpowiedzi podczas próby uzyskania pliku robots.txt, Zachowanie robotów wyszukiwania zmienia się:
Roboty mogą buforować zawartość pliku do 24 godzin, ale w przypadku problemów (limity czasu, błędy) termin może wzrosnąć. Nagłówki Cache-Control Wpływają również na zachowanie buforowania.
Plik powinien znajdować się w kodowaniu UTF-8, z dzielnikami linii CR, CR/LF lub LF. Nieprawidłowe symbole lub -content są ignorowane. Maksymalny dopuszczalny rozmiar pliku wynosi 500 kib, reszta jest ignorowana.
Każda linia składa się z klucza, okrężnicy i wartości. Dozwolone jest dodawanie komentarzy po znaku #. Obsługiwane są następujące pola:
Wszystkie ścieżki są wrażliwe na rejestr i powinny zacząć od /.
Oznaczający user-agent Nie wrażliwe na rejestr. Użyj dokładnej nazwy robota, aby określić określone reguły, w przeciwnym razie używany jest szablon globalny *.
Ogranicza dostęp do robotów do określonych ścieżek. Jednak adres URL może nadal pojawiać się w wynikach wyszukiwania bez fragmentu strony.
Umożliwia dostęp do niektórych ścieżek, nawet jeśli częściowo podlegają one zasadom zakazu.
Dozwolone jest publikowanie linków do karty witryny. Może być ich kilka. Adres powinien być bezwzględny i poprawny. Mają one zastosowanie do wszystkich robotów, jeśli nie są zabronione osobno.
Jeden zestaw reguł można zastosować jednocześnie do kilku agentów użytkownika, powtarzając linie użytkownika-agenta jednego po drugim przed podstawowymi regułami.
Wybrany jest najbardziej specyficzny agent użytkownika. Jeśli znaleziono kilka zbiegów okoliczności, najdłuższe i najdokładniejsze jest przyjmowane. Ogólne zasady * Nie połączone z prywatnymi.
Jeśli kilka bloków należy do jednego robota, są one automatycznie łączone. Pozostałe linie, takie jak mapa witryny, nie są brane pod uwagę podczas grupowania.
Ścieżka z reguły jest porównywana ze stroną strony. Symbole działają * (Każdy symbol, 0 lub więcej) i $ (koniec linii). Przykłady:
/ - Zbiega się z źródłem witryny i wszystkimi zainwestowanymi adresami URL./fish - Wszystkie ścieżki zaczynają się od /fish./fish/ - Tylko te, w których slash jest wyraźnie wskazany na końcu./*.php - Wszystkie pliki z rozszerzeniem .php./*.php$ - Tylko te, które kończą się w .php.Jeśli sprzeczne reguły są obecne w tym samym czasie, stosuje się to, co jest dłuższe po drodze i mniej restrykcyjne. Oznacza to, że w kontrowersyjnych przypadkach priorytetem jest najdokładniejsza reguła rozwiązywania.
Jeśli chcesz otrzymać pomoc w tworzeniu, sprawdzaniu lub konfigurowaniu pliku robots.txt dla Twojej witryny, skontaktuj się z agencją SEO CEO. Napisz na e -mailu: info@seo.computer Lub w WhatsApp: +7 920 204 44 61.
ID: 159