Hoe de zoekmachine het robots.txt -bestand analyseert voor uw Google -site

Automatische robots van zoekmachines, zoals Google, voordat u rond de bron gaat, neemt u contact op met het bestand robots.txtdie zich in de wortel van uw site bevindt. Dit bestand bevat instructies, welke secties mogen scannen en welke niet. Het is belangrijk om te begrijpen dat een dergelijk protocol niet van toepassing is op gebruikersdiensten of veiligheidstools die anders werken.

Wat is een robots.txt -bestand voor uw Google -site

Om de toegang van robots tot bepaalde delen van de bron te beperken, kunt u een bestand op uw site maken robots.txtWaarin de regels voor elke robot worden voorgeschreven. Voorbeeld van de structuur:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

Dit bestand regelt welke delen van de site kunnen worden geïndexeerd en welke - nee. Om helemaal opnieuw te leren, wordt het aanbevolen om te beginnen met bekendheid met de basisprincipes van het werk robots.txt en aanbevelingen voor de compilatie ervan.

Waar u een robots.txt -bestand kunt plaatsen op uw Google -website

Het bestand moet strikt in de root van de site zijn (bijvoorbeeld, bijvoorbeeld https://ваш_сайт/robots.txt). Het werkt alleen voor die combinatie van het domein, protocol en poort waar het wordt geplaatst. Podomeni, andere poorten en protocollen vereisen een apart bestand robots.txt.

Voorbeelden van de juiste adressen van het robots.txt -bestand van uw site voor Google

https://example.com/robots.txt - Het werkt voor https://example.com/Maar niet waar http:// of andere subdomeinen.
https://www.example.com/robots.txt - alleen bedekt www.
ftp://example.com/robots.txt -We zijn uitsluitend van toepassing voor het FTP -protocol.

Foutverwerking en HTTP -reactiecodes op uw Google -website

Afhankelijk van de antwoordcode wanneer u probeert een bestand te krijgen robots.txt, het gedrag van zoekrobots verandert:

2xx -codes - Het bestand wordt gelezen en gebruikt.
3xx -codes - Als meer dan 5 omleidingen, wordt het bestand als niet toegankelijk beschouwd.
4xx codes (behalve 429) - er wordt aangenomen dat er geen verboden zijn.
5xx codes - Met fouten van servers kan de robot de site van de site tijdelijk stoppen.

Hoe Google het robots.txt -bestand voor uw site cacheert

Robots kunnen de inhoud van het bestand tot 24 uur in de cache gaan, maar in het geval van problemen (time -outs, fouten) kan de deadline toenemen. Krantenkoppen Cache-Control Beïnvloedt ook het gedrag van caching.

Robots.txt bestandsindeling en codering voor Google Site

Het bestand moet zich in de UTF-8-codering bevinden, met de scheiders van de CR-, CR/LF- of LF-lijnen. Onjuiste symbolen of -conflicten worden genegeerd. De maximaal toegestane bestandsgrootte is 500 kib, de rest wordt genegeerd.

Syntaxis en ondersteunde robots.txt richtlijnen in Google voor uw site

Elke regel bestaat uit een sleutel, dikke darm en waarden. Het mag na het bord opmerkingen toevoegen #. De volgende velden worden ondersteund:

gebruikersagent - Geeft aan welke robot de regels van toepassing zijn.
Toestaan - Het toegestane pad.
Niet toestaan - Verboden pad.
Sitemap - Volledig adres van de sitekaart.

Alle paden zijn gevoelig voor het register en moeten beginnen /.

Verklaring door gebruikersagent: hoe u de regels opgeeft voor specifieke robots van uw site in Google

Betekenis user-agent Niet gevoelig voor het register. Gebruik de exacte naam van de robot om specifieke regels op te geven, anders wordt de globale sjabloon gebruikt *.

Wat doet de niet -toegestane richtlijn in het robots.txt -bestand van uw site in Google

Beperkt de toegang van robots tot de opgegeven paden. De URL kan echter nog steeds in de zoekresultaten verschijnen zonder een pagina -fragment.

Functies toestaan: hoe u toegang kunt geven tot de secties van uw site in Google

Staat toegang toe tot bepaalde paden, zelfs als ze gedeeltelijk vallen onder het verbieden van regels.

Hoe u Sitemap in Robots.txt voor uw Google -site kunt aangeven

Het is toegestaan om links naar de sitekaart te plaatsen. Er kunnen er verschillende zijn. Het adres moet absoluut en correct zijn. Ze zijn van toepassing op alle robots, zo niet afzonderlijk verboden.

Groeperingsregels in robots.txt uw site in Google

De ene set regels kan tegelijk op verschillende gebruikersagent worden toegepast, waardoor de gebruikersagentregels de ene na de ander voor de basisregels worden herhaald.

Prioriteiten bepalen voor gebruikersagent in het robots.txt-bestand van uw site op Google

De meest specifieke gebruikersagent is geselecteerd. Als verschillende toevalligheden worden gevonden, wordt de langste en meest nauwkeurige genomen. Algemene regels * Niet gecombineerd met privé.

Voorbeelden van het groeperen van robots.txt regels op de site in Google

Als verschillende blokken tot één robot behoren, worden ze automatisch gecombineerd. De resterende lijnen, zoals Sitemap, worden niet in aanmerking genomen bij het groeperen.

Hoe u de URL -routes en Robots.txt -regels in Google kunt vergelijken voor uw site

Het pad van de regel wordt vergeleken met de pagina van de pagina. Symbolen werken * (elk symbool, 0 of meer) en $ (einde van de lijn). Voorbeelden:

/ - valt samen met de wortel van de site en alle geïnvesteerde URL's.
/fish - Alle paden beginnen /fish.
/fish/ - Alleen die waar Slash aan het einde duidelijk wordt aangegeven.
/*.php - Alle bestanden met de uitbreiding .php.
/*.php$ - Alleen die die eindigen in .php.

De prioriteit van de regels toestaan en niet toestaan in het bestand Robots.txt op uw site voor Google

Als tegenstrijdige regels tegelijkertijd aanwezig zijn, wordt het gebruikt dat langer is onderweg en minder beperkend. Dat wil zeggen, in controversiële gevallen wordt prioriteit gegeven aan de meest nauwkeurige oplossende regel.

Als u hulp wilt ontvangen bij het maken, controleren of instellen van een robots.txt -bestand voor uw site, neem dan contact op met het SEO -bureau CEO. Schrijf op e -mail: info@seo.computer Of in WhatsApp: +7 920 204 44 61.

ID: 159