Come il motore di ricerca analizza il file robot.txt per il tuo sito Google

I robot automatici dei motori di ricerca, come Google, prima di aggirare la risorsa, contattare il file robots.txtche si trova nella radice del tuo sito. Questo file contiene istruzioni, quali sezioni sono autorizzate a scansionare e quali no. È importante capire che un tale protocollo non si applica ai servizi utente o agli strumenti di sicurezza che funzionano in modo diverso.

Cos'è un file robots.txt per il tuo sito Google

Per limitare l'accesso ai robot a determinate sezioni della risorsa, è possibile creare un file sul tuo sito robots.txtIn cui le regole sono prescritte per ogni robot. Esempio della struttura:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

Questo file regola quali parti del sito possono essere indicizzate e quali - no. Per imparare da zero, si consiglia di iniziare con familiarizzazione con i principi di base del lavoro robots.txt e raccomandazioni per la sua compilation.

Dove pubblicare un file robots.txt sul tuo sito Web di Google

Il file dovrebbe essere rigorosamente nella radice del sito (ad esempio, https://ваш_сайт/robots.txt). Funziona solo per quella combinazione del dominio, del protocollo e della porta in cui è posizionato. Podomeni, altre porte e protocolli richiedono un file separato robots.txt.

Esempi degli indirizzi corretti del file robots.txt del tuo sito per Google

https://example.com/robots.txt - Funziona per https://example.com/ma non per http:// o altri sottodomini.
https://www.example.com/robots.txt - Solo coperte www.
ftp://example.com/robots.txt -Periamo esclusivamente per il protocollo FTP.

Elaborazione degli errori e codici di risposta HTTP sul tuo sito Web di Google

A seconda del codice di risposta quando si tenta di ottenere un file robots.txt, il comportamento dei robot di ricerca sta cambiando:

Codici 2xx: il file viene letto e utilizzato.
Codici 3xx - Se più di 5 reindirizzamenti, il file è considerato inaccessibile.
Codici 4xx (tranne 429) - Si ritiene che non ci siano divieti.
Codici 5xx - Con errori di server, il robot può interrompere temporaneamente il sito del sito.

Come Google sta memorizzando nella cache il file robots.txt per il tuo sito

I robot possono memorizzare nella cache il contenuto del file fino a 24 ore, ma nel caso di problemi (timeout, errori), la scadenza può aumentare. Titoli Cache-Control Influenza anche il comportamento della memorizzazione nella cache.

Robots.txt Formato file e codifica per il sito di Google

Il file dovrebbe essere nella codifica UTF-8, con i divisori delle linee CR, CR/LF o LF. I simboli e il contenuto errati vengono ignorati. La dimensione del file massima consentita è 500 kib, il resto viene ignorato.

Sintassi e robot supportati Direttive su Google per il tuo sito

Ogni riga è costituita da una chiave, colon e valori. È consentito aggiungere commenti dopo il cartello #. Sono supportati i seguenti campi:

agente utente - Indica per quale robot le regole sono applicabili.
Permettere - Il percorso consentito.
Non consentire - Percorso proibito.
Sitemap - Indirizzo completo della scheda del sito.

Tutti i percorsi sono sensibili al registro e dovrebbero iniziare /.

Spiegazione da parte dell'utente-agente: come specificare le regole per robot specifici del tuo sito su Google

Senso user-agent Non sensibile al registro. Utilizzare il nome esatto del robot per specificare regole specifiche, altrimenti viene utilizzato il modello globale *.

Cosa fa la direttiva Disallow nel file robots.txt del tuo sito in Google

Limita l'accesso dei robot ai percorsi specificati. Tuttavia, l'URL può ancora apparire nei risultati di ricerca senza un frammento di pagina.

Consenti funzioni: come dare accesso alle sezioni del tuo sito su Google

Consente l'accesso a determinati percorsi, anche se rientrano parzialmente in regole proibite.

Come indicare Sitemap in Robots.txt per il tuo sito Google

È consentito pubblicare collegamenti alla scheda del sito. Potrebbero essercene molti. L'indirizzo dovrebbe essere assoluto e corretto. Sono applicabili a tutti i robot, se non proibiti separatamente.

Raggruppando le regole in robot.txt il tuo sito in Google

Una serie di regole può essere applicata a più agenti utente contemporaneamente, ripetendo le linee dell'utente-agente una dopo l'altra di fronte alle regole di base.

Determinare le priorità per l'utente-agente nel file robots.txt del tuo sito su Google

Viene selezionato l'agente utente più specifico. Se vengono trovate diverse coincidenze, viene presa la più lunga e accurata. Regole generali * Non combinato con quelli privati.

Esempi di regole di raggruppamento di robot.txt sul sito in Google

Se diversi blocchi appartengono a un robot, vengono automaticamente combinati. Le linee rimanenti, come Sitemap, non sono prese in considerazione durante il raggruppamento.

Come confrontare le rotte URL e le regole robot.txt in Google per il tuo sito

Il percorso dalla regola viene confrontato con la pagina della pagina. I simboli funzionano * (qualsiasi simbolo, 0 o più) e $ (fine della linea). Esempi:

/ - coincide con la radice del sito e tutti gli URL investiti.
/fish - Tutti i percorsi che iniziano /fish.
/fish/ - Solo quelli in cui la barra è chiaramente indicata alla fine.
/*.php - Tutti i file con l'espansione .php.
/*.php$ - Solo quelli che finiscono in .php.

La priorità delle regole di consumo e non consentire nel file robots.txt sul tuo sito per Google

Se sono presenti regole contrastanti contemporaneamente, viene utilizzato ciò che è più lungo lungo la strada e meno restrittivo. Cioè, in casi controversi, viene data priorità alla regola di risoluzione più accurata.

Se si desidera ricevere aiuto nella creazione, controlla o impostare un file robots.txt per il tuo sito, contattare l'agenzia SEO Amministratore delegato. Scrivi via e -mail: info@seo.computer O in whatsapp: +7 920 204 44 61.

ID: 159