Automatyczne roboty wyszukiwarek postępują zgodnie z regułami protokołu wykluczenia robotów (Rep.), Co oznacza: Przed skanowaniem strony wyszukiwarka odczytuje plik robots.txtAby ustalić, które sekcje witryny są dozwolone lub zabronione do indeksacji. Ten protokół nie dotyczy narzędzi kontrolowanych przez użytkowników lub pracowników celów bezpieczeństwa (na przykład skanowanie w poszukiwaniu złośliwego oprogramowania).
Materiał ten szczegółowo wyjaśnia, w jaki sposób interpretowane są dyrektywy przedstawiciela. Oryginalną specyfikację można znaleźć w RFC 9309.
Jeśli nie chcesz, aby niektóre części Twojej witryny były indeksowane przez wyszukiwarki, utwórz plik robots.txt z niezbędnymi regułami. Jest to prosty dokument tekstowy, który wskazuje, które wyszukiwanie buty dostęp jest dozwolony, a który jest zabroniony. Przykład struktury pliku:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Jeśli po raz pierwszy spotkasz roboty
Plik robots.txt powinien znajdować się w katalogu głównym witryny i być dostępny w obsługiwanym protokole. Wyszukiwarka uwzględnia nazwę protokołu, portu i domeny. Na przykład plik będzie używany tylko dla tego samego hosta, co jego lokalizacja, w tym protokół i port.
Oto przykłady właściwych sposobów pliku i ich działania:
www.Zachowanie robota wyszukiwania zależy od otrzymanego kodu HTTP po żądaniu pliku:
Zawartość buforuje do 24 godzin, czasem dłużej - z błędami ładowania. Tytuł Cache-Control może wpływać na okres przechowywania kopii.
Plik powinien znajdować się w kodowaniu UTF-8, prostym tekście. Tłumaczenia linii są dopuszczalne w dowolnym formacie (Cr, LF, CRLF). Błędne linie są ignorowane, jak Bom, nieobsługiwane symbole.
Maksymalny dopuszczalny rozmiar pliku wynosi 500 kib. Wszystko, co przekracza ten tom, jest ignorowane.
Każda linia zawiera pole, dwukropek i wartość. Obsługiwane są następujące pola:
user-agent - Określa, który bot należy do reguły;disallow - zabrania dostępu do określonej ścieżki;allow - Umożliwia dostęp do ścieżki (nawet jeśli istnieją zasady zakazujące);sitemap -Widać lokalizację witryny XML witryny.Jest to nazwa bota wyszukiwania, która zawiera te reguły. Wartość nie jest wrażliwa na rejestr.
Zabrania dostępu do niektórych ścieżek. Jeśli ścieżka nie jest wskazana, reguła jest ignorowana. Wartość wrażliwa na rejestr.
Umożliwia dostęp do adresu URL. Działa w połączeniu z innymi zasadami, z konfliktem, wybrano najmniej restrykcyjny.
Witryna adresu URL witryny jest całkowicie wskazana. Pole można powtórzyć. Może być w innej domenie. Nie przywiązane do określonego bota.
Możesz wskazać kilka grup z różnymi lub tym samym agentem użytkownika. Na przykład:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Każdy bot używa tylko jednej grupy reguł-najbardziej odpowiedniego nazywanego agenta użytkownika. Reguły ogólne str * Są one używane, jeśli nie ma już konkretnych.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Nerw bot-news Używa pierwszej grupy, bot - Po trzecie, wszystkie pozostałe są drugim.
Porównanie ścieżki z adresem URL uwzględnia rejestr, a także specjalne symbole. Utrzymany:
* - odpowiada dowolnej liczbie znaków;$ - oznacza koniec adresu URL./ - odpowiada wszystkim stronom;/$ - tylko root;/fish - Wszystko, co zaczyna się od /fish;/*.php$ - URL, kończąc .php.W konflikcie reguł o różnych długościach ścieżki używany jest dłuższy. O równej długości - mniej restrykcyjne.
Przykłady:
W przypadku wszystkich kwestii ustawień robots.txt Twojej witryny, a także innych aspektów SEO, możesz skontaktować się z zespołem Firmy SEO „SEO.COMPUTER” E -mailem: info@seo.computer lub przez WhatsApp: +79202044461
ID: 159