Automatische robots van zoekmachines, zoals Google, voordat u rond de bron gaat, neemt u contact op met het bestand robots.txtdie zich in de wortel van uw site bevindt. Dit bestand bevat instructies, welke secties mogen scannen en welke niet. Het is belangrijk om te begrijpen dat een dergelijk protocol niet van toepassing is op gebruikersdiensten of veiligheidstools die anders werken.
Om de toegang van robots tot bepaalde delen van de bron te beperken, kunt u een bestand op uw site maken robots.txtWaarin de regels voor elke robot worden voorgeschreven. Voorbeeld van de structuur:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
Dit bestand regelt welke delen van de site kunnen worden geïndexeerd en welke - nee. Om helemaal opnieuw te leren, wordt het aanbevolen om te beginnen met bekendheid met de basisprincipes van het werk robots.txt en aanbevelingen voor de compilatie ervan.
Het bestand moet strikt in de root van de site zijn (bijvoorbeeld, bijvoorbeeld https://ваш_сайт/robots.txt). Het werkt alleen voor die combinatie van het domein, protocol en poort waar het wordt geplaatst. Podomeni, andere poorten en protocollen vereisen een apart bestand robots.txt.
https://example.com/robots.txt - Het werkt voor https://example.com/Maar niet waar http:// of andere subdomeinen.https://www.example.com/robots.txt - alleen bedekt www.ftp://example.com/robots.txt -We zijn uitsluitend van toepassing voor het FTP -protocol.Afhankelijk van de antwoordcode wanneer u probeert een bestand te krijgen robots.txt, het gedrag van zoekrobots verandert:
Robots kunnen de inhoud van het bestand tot 24 uur in de cache gaan, maar in het geval van problemen (time -outs, fouten) kan de deadline toenemen. Krantenkoppen Cache-Control Beïnvloedt ook het gedrag van caching.
Het bestand moet zich in de UTF-8-codering bevinden, met de scheiders van de CR-, CR/LF- of LF-lijnen. Onjuiste symbolen of -conflicten worden genegeerd. De maximaal toegestane bestandsgrootte is 500 kib, de rest wordt genegeerd.
Elke regel bestaat uit een sleutel, dikke darm en waarden. Het mag na het bord opmerkingen toevoegen #. De volgende velden worden ondersteund:
Alle paden zijn gevoelig voor het register en moeten beginnen /.
Betekenis user-agent Niet gevoelig voor het register. Gebruik de exacte naam van de robot om specifieke regels op te geven, anders wordt de globale sjabloon gebruikt *.
Beperkt de toegang van robots tot de opgegeven paden. De URL kan echter nog steeds in de zoekresultaten verschijnen zonder een pagina -fragment.
Staat toegang toe tot bepaalde paden, zelfs als ze gedeeltelijk vallen onder het verbieden van regels.
Het is toegestaan om links naar de sitekaart te plaatsen. Er kunnen er verschillende zijn. Het adres moet absoluut en correct zijn. Ze zijn van toepassing op alle robots, zo niet afzonderlijk verboden.
De ene set regels kan tegelijk op verschillende gebruikersagent worden toegepast, waardoor de gebruikersagentregels de ene na de ander voor de basisregels worden herhaald.
De meest specifieke gebruikersagent is geselecteerd. Als verschillende toevalligheden worden gevonden, wordt de langste en meest nauwkeurige genomen. Algemene regels * Niet gecombineerd met privé.
Als verschillende blokken tot één robot behoren, worden ze automatisch gecombineerd. De resterende lijnen, zoals Sitemap, worden niet in aanmerking genomen bij het groeperen.
Het pad van de regel wordt vergeleken met de pagina van de pagina. Symbolen werken * (elk symbool, 0 of meer) en $ (einde van de lijn). Voorbeelden:
/ - valt samen met de wortel van de site en alle geïnvesteerde URL's./fish - Alle paden beginnen /fish./fish/ - Alleen die waar Slash aan het einde duidelijk wordt aangegeven./*.php - Alle bestanden met de uitbreiding .php./*.php$ - Alleen die die eindigen in .php.Als tegenstrijdige regels tegelijkertijd aanwezig zijn, wordt het gebruikt dat langer is onderweg en minder beperkend. Dat wil zeggen, in controversiële gevallen wordt prioriteit gegeven aan de meest nauwkeurige oplossende regel.
Als u hulp wilt ontvangen bij het maken, controleren of instellen van een robots.txt -bestand voor uw site, neem dan contact op met het SEO -bureau CEO. Schrijf op e -mail: info@seo.computer Of in WhatsApp: +7 920 204 44 61.
ID: 159