Automatische robots van zoekmachines volgen de Robots Exclusion Protocol (REP) -regels, wat betekent: voordat de site wordt gescand, leest de zoekmachine het bestand robots.txtOm te bepalen welke secties van de site zijn toegestaan of verboden voor indexering. Dit protocol is niet van toepassing op tools die worden beheerd door gebruikers of werknemers van beveiligingsdoelen (bijvoorbeeld scannen op kwaadaardige software).
Dit materiaal legt in detail uit hoe de richtlijnen van Rep worden geïnterpreteerd. De oorspronkelijke specificatie is te vinden in RFC 9309.
Als u niet wilt dat sommige delen van uw site worden geïndexeerd door zoekmachines, maakt u een robots.txt -bestand met de benodigde regels. Dit is een eenvoudig tekstdocument, dat aangeeft welke zoeklaarzen de toegang is toegestaan en welke verboden is. Een voorbeeld van een bestandsstructuur:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Als je voor het eerst robots.txt tegenkomt, begin dan met het bestuderen van de basisprincipes en praktische tips voor de creatie ervan.
Het bestand robots.txt moet zich in de rootcatalogus van de site bevinden en beschikbaar zijn in het ondersteunde protocol. De zoekmachine houdt rekening met het protocol-, poort- en domeinnaam. Het bestand wordt bijvoorbeeld alleen gebruikt voor dezelfde host als de locatie, inclusief het protocol en de poort.
Hier zijn voorbeelden van de juiste manieren voor het bestand en hun actie:
www.Het gedrag van de zoekrabot is afhankelijk van de HTTP -code die is ontvangen wanneer het bestand wordt gevraagd:
De inhoud is in de cache tot 24 uur, soms langer - met laadfouten. Titel Cache-Control kan de opslagperiode van een kopie beïnvloeden.
Het bestand moet in de UTF-8-codering, eenvoudige tekst staan. Vertalingen van lijnen zijn toegestaan in elk formaat (CR, LF, CRLF). Fouleuze lijnen worden genegeerd, zoals, geboren, niet -ondersteunde symbolen.
De maximaal toegestane bestandsgrootte is 500 kib. Alles wat dit volume overschrijdt, wordt genegeerd.
Elke regel bevat een veld, dikke darm en waarde. De volgende velden worden ondersteund:
user-agent - bepaalt welke bot tot de regel behoort;disallow - verbiedt toegang tot een bepaald pad;allow - Staat toegang toe tot het pad (zelfs als er verbodsregels zijn);sitemap -Igteert de locatie van de XML -site van de site.Dit is de naam van de zoekbot, die deze regels bevatten. De waarde is niet gevoelig voor het register.
Verbiedt toegang tot bepaalde paden. Als het pad niet wordt aangegeven, wordt de regel genegeerd. Waarde gevoelig voor het register.
Staat toegang toe tot de URL. Het werkt in combinatie met andere regels, met een conflict, de minst beperkende is geselecteerd.
De site van de URL van de site is volledig aangegeven. Het veld kan worden herhaald. Het kan op een ander domein staan. Niet bevestigd aan een specifieke bot.
U kunt verschillende groepen met verschillende of hetzelfde gebruikersagent aangeven. Bijvoorbeeld:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Elke bot gebruikt slechts één groep regels-de meest geschikte genaamd User-Agent. Algemene regels p * Ze worden gebruikt als er geen specifieke meer zijn.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Bot bot-news Gebruikt de eerste groep, bot - De derde, alle anderen zijn de tweede.
Een vergelijking van het pad met de URL houdt rekening met het register, evenals speciale symbolen. Ondersteund:
* - komt overeen met een willekeurig aantal tekens;$ - geeft het einde van de URL aan./ - komt overeen met alle pagina's;/$ - alleen wortel;/fish - Alles wat begint met /fish;/*.php$ - URL, eindigend op .php.In het conflict van regels met verschillende padlengtes wordt een langer gebruikt. Met gelijke lengte - minder beperkend.
Voorbeelden:
Voor alle problemen van robots.txt -instellingen van uw site, evenals andere aspecten van SEO, kunt u contact opnemen met het team SEO -bedrijven "seo.computer" Per e -mail: info@seo.computer of via WhatsApp: +79202044461
ID: 159