Jak wyszukiwarka przetwarza plik robots.txt dla Twojej witryny Google

Automatyczne roboty wyszukiwarek postępują zgodnie z regułami protokołu wykluczenia robotów (Rep.), Co oznacza: Przed skanowaniem strony wyszukiwarka odczytuje plik robots.txtAby ustalić, które sekcje witryny są dozwolone lub zabronione do indeksacji. Ten protokół nie dotyczy narzędzi kontrolowanych przez użytkowników lub pracowników celów bezpieczeństwa (na przykład skanowanie w poszukiwaniu złośliwego oprogramowania).

Materiał ten szczegółowo wyjaśnia, w jaki sposób interpretowane są dyrektywy przedstawiciela. Oryginalną specyfikację można znaleźć w RFC 9309.

Jaka jest witryna plików robots.txt w Google

Jeśli nie chcesz, aby niektóre części Twojej witryny były indeksowane przez wyszukiwarki, utwórz plik robots.txt z niezbędnymi regułami. Jest to prosty dokument tekstowy, który wskazuje, które wyszukiwanie buty dostęp jest dozwolony, a który jest zabroniony. Przykład struktury pliku:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Jeśli po raz pierwszy spotkasz roboty

Lokalizacja pliku i obszar akcji w Twojej witrynie Google

Plik robots.txt powinien znajdować się w katalogu głównym witryny i być dostępny w obsługiwanym protokole. Wyszukiwarka uwzględnia nazwę protokołu, portu i domeny. Na przykład plik będzie używany tylko dla tego samego hosta, co jego lokalizacja, w tym protokół i port.

Przykłady dopuszczalnego adresu URL pliku robots.txt w Google

Oto przykłady właściwych sposobów pliku i ich działania:

Https: // Przykład - Stosujemy tylko do tej domeny i portu.
Https: // vvv. Przykład - Tylko dla pododen www.
Https: // przykład.kom/ folder/ roboty - To nie jest akceptowalne.
Ftp: // Przykład -To dla aplikacji FTP.

Błędy przetwarzania i kody reagowania twojego serwera witryny w Google

Zachowanie robota wyszukiwania zależy od otrzymanego kodu HTTP po żądaniu pliku:

2xx - Plik jest przetwarzany.
3xx - Ponad pięć przekierowań uważa się za 404.
4xx (z wyjątkiem 429) - Uważa się, że plik jest nieobecny, nie ma żadnych ograniczeń.
5xx - Skanowanie jest zawieszone lub przełożone w zależności od warunków.

Robots.txt Buforing Search Google

Zawartość buforuje do 24 godzin, czasem dłużej - z błędami ładowania. Tytuł Cache-Control może wpływać na okres przechowywania kopii.

Robots.txt Format dla Twojej witryny Google

Plik powinien znajdować się w kodowaniu UTF-8, prostym tekście. Tłumaczenia linii są dopuszczalne w dowolnym formacie (Cr, LF, CRLF). Błędne linie są ignorowane, jak Bom, nieobsługiwane symbole.

Maksymalny dopuszczalny rozmiar pliku wynosi 500 kib. Wszystko, co przekracza ten tom, jest ignorowane.

Robots.txt Regury Składnia Składnia do Google

Każda linia zawiera pole, dwukropek i wartość. Obsługiwane są następujące pola:

user-agent - Określa, który bot należy do reguły;
disallow - zabrania dostępu do określonej ścieżki;
allow - Umożliwia dostęp do ścieżki (nawet jeśli istnieją zasady zakazujące);
sitemap -Widać lokalizację witryny XML witryny.

Agent użytkownika w pliku Robots.txt w Google

Jest to nazwa bota wyszukiwania, która zawiera te reguły. Wartość nie jest wrażliwa na rejestr.

Disallow: zakazanie stron Twojej witryny w Google

Zabrania dostępu do niektórych ścieżek. Jeśli ścieżka nie jest wskazana, reguła jest ignorowana. Wartość wrażliwa na rejestr.

Zezwolić: Zezwolenie na zeskanowanie treści witryny w Google

Umożliwia dostęp do adresu URL. Działa w połączeniu z innymi zasadami, z konfliktem, wybrano najmniej restrykcyjny.

Mapa witryny: Wskazanie karty witryny w Google

Witryna adresu URL witryny jest całkowicie wskazana. Pole można powtórzyć. Może być w innej domenie. Nie przywiązane do określonego bota.

Grupowanie reguł witryny użytkownika-agenta w Google

Możesz wskazać kilka grup z różnymi lub tym samym agentem użytkownika. Na przykład:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Priorytet reguł witryny użytkownika-agenta w Google

Każdy bot używa tylko jednej grupy reguł-najbardziej odpowiedniego nazywanego agenta użytkownika. Reguły ogólne str * Są one używane, jeśli nie ma już konkretnych.

Przykład przetwarzania agenta użytkownika w Robots.txt Twoja witryna Google

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Nerw bot-news Używa pierwszej grupy, bot - Po trzecie, wszystkie pozostałe są drugim.

W jaki sposób adres URL w Robots.txt używane w Google

Porównanie ścieżki z adresem URL uwzględnia rejestr, a także specjalne symbole. Utrzymany:

* - odpowiada dowolnej liczbie znaków;
$ - oznacza koniec adresu URL.

Przykłady zgodności sposobów na witrynę robots.txt w Google

/ - odpowiada wszystkim stronom;
/$ - tylko root;
/fish - Wszystko, co zaczyna się od /fish;
/*.php$ - URL, kończąc .php.

Priorytet reguł zezwoleń i niewolnie w robotach.txt Twojej witrynie Google

W konflikcie reguł o różnych długościach ścieżki używany jest dłuższy. O równej długości - mniej restrykcyjne.

Przykłady:

Zezwalaj na: /prywatny
Disallow: / - Zezwalaj;
Zezwalaj: /strona
Disallow: /*.htm - Używana jest odrzucona, ponieważ ścieżka jest dłuższa.

W przypadku wszystkich kwestii ustawień robots.txt Twojej witryny, a także innych aspektów SEO, możesz skontaktować się z zespołem Firmy SEO „SEO.COMPUTER” E -mailem: info@seo.computer lub przez WhatsApp: +79202044461

ID: 159