I robot automatici dei motori di ricerca, come Google, prima di aggirare la risorsa, contattare il file robots.txtche si trova nella radice del tuo sito. Questo file contiene istruzioni, quali sezioni sono autorizzate a scansionare e quali no. È importante capire che un tale protocollo non si applica ai servizi utente o agli strumenti di sicurezza che funzionano in modo diverso.
Per limitare l'accesso ai robot a determinate sezioni della risorsa, è possibile creare un file sul tuo sito robots.txtIn cui le regole sono prescritte per ogni robot. Esempio della struttura:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
Questo file regola quali parti del sito possono essere indicizzate e quali - no. Per imparare da zero, si consiglia di iniziare con familiarizzazione con i principi di base del lavoro robots.txt e raccomandazioni per la sua compilation.
Il file dovrebbe essere rigorosamente nella radice del sito (ad esempio, https://ваш_сайт/robots.txt). Funziona solo per quella combinazione del dominio, del protocollo e della porta in cui è posizionato. Podomeni, altre porte e protocolli richiedono un file separato robots.txt.
https://example.com/robots.txt - Funziona per https://example.com/ma non per http:// o altri sottodomini.https://www.example.com/robots.txt - Solo coperte www.ftp://example.com/robots.txt -Periamo esclusivamente per il protocollo FTP.A seconda del codice di risposta quando si tenta di ottenere un file robots.txt, il comportamento dei robot di ricerca sta cambiando:
I robot possono memorizzare nella cache il contenuto del file fino a 24 ore, ma nel caso di problemi (timeout, errori), la scadenza può aumentare. Titoli Cache-Control Influenza anche il comportamento della memorizzazione nella cache.
Il file dovrebbe essere nella codifica UTF-8, con i divisori delle linee CR, CR/LF o LF. I simboli e il contenuto errati vengono ignorati. La dimensione del file massima consentita è 500 kib, il resto viene ignorato.
Ogni riga è costituita da una chiave, colon e valori. È consentito aggiungere commenti dopo il cartello #. Sono supportati i seguenti campi:
Tutti i percorsi sono sensibili al registro e dovrebbero iniziare /.
Senso user-agent Non sensibile al registro. Utilizzare il nome esatto del robot per specificare regole specifiche, altrimenti viene utilizzato il modello globale *.
Limita l'accesso dei robot ai percorsi specificati. Tuttavia, l'URL può ancora apparire nei risultati di ricerca senza un frammento di pagina.
Consente l'accesso a determinati percorsi, anche se rientrano parzialmente in regole proibite.
È consentito pubblicare collegamenti alla scheda del sito. Potrebbero essercene molti. L'indirizzo dovrebbe essere assoluto e corretto. Sono applicabili a tutti i robot, se non proibiti separatamente.
Una serie di regole può essere applicata a più agenti utente contemporaneamente, ripetendo le linee dell'utente-agente una dopo l'altra di fronte alle regole di base.
Viene selezionato l'agente utente più specifico. Se vengono trovate diverse coincidenze, viene presa la più lunga e accurata. Regole generali * Non combinato con quelli privati.
Se diversi blocchi appartengono a un robot, vengono automaticamente combinati. Le linee rimanenti, come Sitemap, non sono prese in considerazione durante il raggruppamento.
Il percorso dalla regola viene confrontato con la pagina della pagina. I simboli funzionano * (qualsiasi simbolo, 0 o più) e $ (fine della linea). Esempi:
/ - coincide con la radice del sito e tutti gli URL investiti./fish - Tutti i percorsi che iniziano /fish./fish/ - Solo quelli in cui la barra è chiaramente indicata alla fine./*.php - Tutti i file con l'espansione .php./*.php$ - Solo quelli che finiscono in .php.Se sono presenti regole contrastanti contemporaneamente, viene utilizzato ciò che è più lungo lungo la strada e meno restrittivo. Cioè, in casi controversi, viene data priorità alla regola di risoluzione più accurata.
Se si desidera ricevere aiuto nella creazione, controlla o impostare un file robots.txt per il tuo sito, contattare l'agenzia SEO Amministratore delegato. Scrivi via e -mail: info@seo.computer O in whatsapp: +7 920 204 44 61.
ID: 159