Hoe de zoekmachine het robots.txt -bestand voor uw Google -site verwerkt

Automatische robots van zoekmachines volgen de Robots Exclusion Protocol (REP) -regels, wat betekent: voordat de site wordt gescand, leest de zoekmachine het bestand robots.txtOm te bepalen welke secties van de site zijn toegestaan of verboden voor indexering. Dit protocol is niet van toepassing op tools die worden beheerd door gebruikers of werknemers van beveiligingsdoelen (bijvoorbeeld scannen op kwaadaardige software).

Dit materiaal legt in detail uit hoe de richtlijnen van Rep worden geïnterpreteerd. De oorspronkelijke specificatie is te vinden in RFC 9309.

Wat is de site Robots.txt -bestand in Google

Als u niet wilt dat sommige delen van uw site worden geïndexeerd door zoekmachines, maakt u een robots.txt -bestand met de benodigde regels. Dit is een eenvoudig tekstdocument, dat aangeeft welke zoeklaarzen de toegang is toegestaan en welke verboden is. Een voorbeeld van een bestandsstructuur:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Als je voor het eerst robots.txt tegenkomt, begin dan met het bestuderen van de basisprincipes en praktische tips voor de creatie ervan.

Bestandslocatie en actiegebied op uw Google -site

Het bestand robots.txt moet zich in de rootcatalogus van de site bevinden en beschikbaar zijn in het ondersteunde protocol. De zoekmachine houdt rekening met het protocol-, poort- en domeinnaam. Het bestand wordt bijvoorbeeld alleen gebruikt voor dezelfde host als de locatie, inclusief het protocol en de poort.

Voorbeelden van de toegestane URL voor het robots.txt -bestand in Google

Hier zijn voorbeelden van de juiste manieren voor het bestand en hun actie:

Https: // voorbeeld - We zijn alleen van toepassing op dit domein en poort.
Https: // vvv. Voorbeeld - Alleen voor Pododen www.
Https: // voorbeeld.kom/ map/ robots - Het is niet acceptabel.
Ftp: // Voorbeeld -Alleen voor de FTP -toepassing.

Verwerkingsfouten en antwoordcodes van uw siteserver in Google

Het gedrag van de zoekrabot is afhankelijk van de HTTP -code die is ontvangen wanneer het bestand wordt gevraagd:

2xx - Het bestand wordt verwerkt.
3xx - Meer dan vijf omleidingen worden beschouwd als 404.
4xx (behalve 429) - Er wordt aangenomen dat het bestand afwezig is, er zijn geen beperkingen.
5xx - Scannen wordt opgeschort of uitgesteld, afhankelijk van de voorwaarden.

Robots.txt caching zoekmachine google

De inhoud is in de cache tot 24 uur, soms langer - met laadfouten. Titel Cache-Control kan de opslagperiode van een kopie beïnvloeden.

Robots.txt -indeling voor uw Google -site

Het bestand moet in de UTF-8-codering, eenvoudige tekst staan. Vertalingen van lijnen zijn toegestaan in elk formaat (CR, LF, CRLF). Fouleuze lijnen worden genegeerd, zoals, geboren, niet -ondersteunde symbolen.

De maximaal toegestane bestandsgrootte is 500 kib. Alles wat dit volume overschrijdt, wordt genegeerd.

Robots.txt regels Syntaxis Site naar Google

Elke regel bevat een veld, dikke darm en waarde. De volgende velden worden ondersteund:

user-agent - bepaalt welke bot tot de regel behoort;
disallow - verbiedt toegang tot een bepaald pad;
allow - Staat toegang toe tot het pad (zelfs als er verbodsregels zijn);
sitemap -Igteert de locatie van de XML -site van de site.

Gebruikersagent in het bestand robots.txt in Google

Dit is de naam van de zoekbot, die deze regels bevatten. De waarde is niet gevoelig voor het register.

Dis Slow: Pagina's van uw site in Google verbieden

Verbiedt toegang tot bepaalde paden. Als het pad niet wordt aangegeven, wordt de regel genegeerd. Waarde gevoelig voor het register.

Toestaan: toestemming om de inhoud van de site in Google te scannen

Staat toegang toe tot de URL. Het werkt in combinatie met andere regels, met een conflict, de minst beperkende is geselecteerd.

Sitemap: het aangeven van de sitekaart in Google

De site van de URL van de site is volledig aangegeven. Het veld kan worden herhaald. Het kan op een ander domein staan. Niet bevestigd aan een specifieke bot.

Groeperingsregels voor de gebruikers-agentsite in Google

U kunt verschillende groepen met verschillende of hetzelfde gebruikersagent aangeven. Bijvoorbeeld:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Prioriteit van de regels voor de gebruikersagentsite in Google

Elke bot gebruikt slechts één groep regels-de meest geschikte genaamd User-Agent. Algemene regels p * Ze worden gebruikt als er geen specifieke meer zijn.

Een voorbeeld van het verwerken van gebruikersagent in robots.txt uw Google-site

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Bot bot-news Gebruikt de eerste groep, bot - De derde, alle anderen zijn de tweede.

Hoe wordt de URL in de Robots.txt -regels gebruikt die in Google worden gebruikt

Een vergelijking van het pad met de URL houdt rekening met het register, evenals speciale symbolen. Ondersteund:

* - komt overeen met een willekeurig aantal tekens;
$ - geeft het einde van de URL aan.

Voorbeelden van naleving van manieren voor robots.txt -site in Google

/ - komt overeen met alle pagina's;
/$ - alleen wortel;
/fish - Alles wat begint met /fish;
/*.php$ - URL, eindigend op .php.

De prioriteit van de regels toestaan en niet toestaan in robots.txt uw Google -website

In het conflict van regels met verschillende padlengtes wordt een langer gebruikt. Met gelijke lengte - minder beperkend.

Voorbeelden:

Toestaan: /privé
Disalay: / - Toestaan wordt gebruikt;
Toestaan: /pagina
Disalay: /*.htm - Disalay wordt gebruikt, omdat het pad langer is.

Voor alle problemen van robots.txt -instellingen van uw site, evenals andere aspecten van SEO, kunt u contact opnemen met het team SEO -bedrijven "seo.computer" Per e -mail: info@seo.computer of via WhatsApp: +79202044461

ID: 159