I robot automatici dei motori di ricerca seguono le regole del protocollo di esclusione robot (REP), il che significa: prima di scansionare il sito, il motore di ricerca legge il file robots.txtPer determinare quali sezioni del sito sono consentite o vietate per l'indicizzazione. Questo protocollo non si applica agli strumenti controllati da utenti o dipendenti di obiettivi di sicurezza (ad esempio, scansionare per software dannoso).
Questo materiale spiega in dettaglio come vengono interpretate le direttive del rappresentante. La specifica originale è disponibile in RFC 9309.
Se non si desidera che alcune parti del tuo sito vengano indicizzate dai motori di ricerca, creare un file robot.txt con le regole necessarie. Questo è un semplice documento di testo, che indica quali stivali di ricerca è consentito l'accesso e quale è vietato. Un esempio di struttura di file:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Se incontri robots.txt per la prima volta, inizia studiando le basi e i suggerimenti pratici per la sua creazione.
Il file robots.txt dovrebbe trovarsi nel catalogo root del sito ed essere disponibile sul protocollo supportato. Il motore di ricerca tiene conto del protocollo, della porta e del nome di dominio. Ad esempio, il file verrà utilizzato solo per lo stesso host della sua posizione, incluso il protocollo e la porta.
Ecco esempi dei modi corretti per il file e la loro azione:
www.Il comportamento del robot di ricerca dipende dal codice HTTP ricevuto quando è richiesto il file:
Il contenuto è memorizzato nella cache fino a 24 ore, a volte più a lungo - con errori di caricamento. Titolo Cache-Control può influire sul periodo di archiviazione di una copia.
Il file dovrebbe essere nella codifica UTF-8, testo semplice. Le traduzioni di linee sono ammissibili in qualsiasi formato (CR, LF, CRLF). Le linee errate vengono ignorate, come, bom, simboli non supportati.
La dimensione massima del file consentita è 500 kib. Tutto ciò che supera questo volume viene ignorato.
Ogni riga include un campo, un colon e un valore. Sono supportati i seguenti campi:
user-agent - determina quale bot appartiene alla regola;disallow - proibisce l'accesso a un determinato percorso;allow - consente l'accesso al percorso (anche se esistono regole proibite);sitemap -I indica la posizione del sito XML del sito.Questo è il nome del bot di ricerca, che include queste regole. Il valore non è sensibile al registro.
Vieta l'accesso a determinati percorsi. Se il percorso non è indicato, la regola viene ignorata. Valore sensibile al registro.
Consente l'accesso all'URL. Funziona insieme ad altre regole, con un conflitto, il meno restrittivo è selezionato.
Il sito dell'URL del sito è completamente indicato. Il campo può essere ripetuto. Potrebbe essere su un altro dominio. Non attaccato a un bot specifico.
È possibile indicare diversi gruppi con un agente utente diverso o stesso. Per esempio:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Ogni bot utilizza solo un gruppo di regole, il più adatto agente utente. Regole generali p * Sono usati se non ce ne sono più specifici.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Bot bot-news Usa il primo gruppo, bot - Il terzo, tutti gli altri sono il secondo.
Un confronto tra il percorso con l'URL tiene conto del registro e dei simboli speciali. Supportato:
* - corrisponde a qualsiasi numero di caratteri;$ - indica la fine dell'URL./ - corrisponde a tutte le pagine;/$ - solo radice;/fish - Tutto ciò che inizia con /fish;/*.php$ - URL, finendo .php.Nel conflitto di regole con diverse lunghezze del percorso, viene utilizzata più lunga. Con uguale lunghezza - meno restrittivo.
Esempi:
Per tutti i problemi di Robots.txt Impostazioni del tuo sito, nonché altri aspetti della SEO, è possibile contattare la squadra SEO Companies "SEO.Computer" Tramite e -mail: info@seo.computer o tramite WhatsApp: +79202044461
ID: 159