Come il motore di ricerca elabora il file robot.txt per il tuo sito Google

Come il motore di ricerca elabora il file robot.txt per il tuo sito Google

I robot automatici dei motori di ricerca seguono le regole del protocollo di esclusione robot (REP), il che significa: prima di scansionare il sito, il motore di ricerca legge il file robots.txtPer determinare quali sezioni del sito sono consentite o vietate per l'indicizzazione. Questo protocollo non si applica agli strumenti controllati da utenti o dipendenti di obiettivi di sicurezza (ad esempio, scansionare per software dannoso).

Questo materiale spiega in dettaglio come vengono interpretate le direttive del rappresentante. La specifica originale è disponibile in RFC 9309.

Qual è il sito di file robots.txt in Google

Se non si desidera che alcune parti del tuo sito vengano indicizzate dai motori di ricerca, creare un file robot.txt con le regole necessarie. Questo è un semplice documento di testo, che indica quali stivali di ricerca è consentito l'accesso e quale è vietato. Un esempio di struttura di file:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Se incontri robots.txt per la prima volta, inizia studiando le basi e i suggerimenti pratici per la sua creazione.

Posizione del file e area di azione sul tuo sito Google

Il file robots.txt dovrebbe trovarsi nel catalogo root del sito ed essere disponibile sul protocollo supportato. Il motore di ricerca tiene conto del protocollo, della porta e del nome di dominio. Ad esempio, il file verrà utilizzato solo per lo stesso host della sua posizione, incluso il protocollo e la porta.

Esempi dell'URL consentito per il file robots.txt in Google

Ecco esempi dei modi corretti per il file e la loro azione:

  • Https: // esempio - Ci applichiamo solo a questo dominio e porta.
  • Https: // vvv. Esempio - Solo per pododen www.
  • Https: // esempio.kom/ cartella/ robot - Non è accettabile.
  • FTP: // Esempio -Solo per l'applicazione FTP.

Errori di elaborazione e codici di risposta del server del sito in Google

Il comportamento del robot di ricerca dipende dal codice HTTP ricevuto quando è richiesto il file:

  • 2xx - Il file viene elaborato.
  • 3xx - Più di cinque reindirizzamenti sono considerati 404.
  • 4xx (tranne 429) - Si ritiene che il file sia assente, non ci sono restrizioni.
  • 5xx - La scansione è sospesa o rinviata a seconda delle condizioni.

Robots.txt Caching Engine di ricerca Google

Il contenuto è memorizzato nella cache fino a 24 ore, a volte più a lungo - con errori di caricamento. Titolo Cache-Control può influire sul periodo di archiviazione di una copia.

Formato robots.txt per il tuo sito Google

Il file dovrebbe essere nella codifica UTF-8, testo semplice. Le traduzioni di linee sono ammissibili in qualsiasi formato (CR, LF, CRLF). Le linee errate vengono ignorate, come, bom, simboli non supportati.

La dimensione massima del file consentita è 500 kib. Tutto ciò che supera questo volume viene ignorato.

Robots.txt Rules Syntax Sito a Google

Ogni riga include un campo, un colon e un valore. Sono supportati i seguenti campi:

  • user-agent - determina quale bot appartiene alla regola;
  • disallow - proibisce l'accesso a un determinato percorso;
  • allow - consente l'accesso al percorso (anche se esistono regole proibite);
  • sitemap -I indica la posizione del sito XML del sito.

utente- agente nel file robots.txt in Google

Questo è il nome del bot di ricerca, che include queste regole. Il valore non è sensibile al registro.

Non voto: vietare le pagine del tuo sito in Google

Vieta l'accesso a determinati percorsi. Se il percorso non è indicato, la regola viene ignorata. Valore sensibile al registro.

Consenti: autorizzazione per scansionare il contenuto del sito in Google

Consente l'accesso all'URL. Funziona insieme ad altre regole, con un conflitto, il meno restrittivo è selezionato.

Sitemap: indicando la scheda del sito in Google

Il sito dell'URL del sito è completamente indicato. Il campo può essere ripetuto. Potrebbe essere su un altro dominio. Non attaccato a un bot specifico.

Raggruppando le regole per il sito dell'utente-agente in Google

È possibile indicare diversi gruppi con un agente utente diverso o stesso. Per esempio:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Priorità delle regole per il sito utente-agente in Google

Ogni bot utilizza solo un gruppo di regole, il più adatto agente utente. Regole generali p * Sono usati se non ce ne sono più specifici.

Un esempio di elaborazione dell'agente utente in robot.txt il tuo sito di Google

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Bot bot-news Usa il primo gruppo, bot - Il terzo, tutti gli altri sono il secondo.

Come viene inserito l'URL nelle regole robot.txt utilizzate in Google

Un confronto tra il percorso con l'URL tiene conto del registro e dei simboli speciali. Supportato:

  • * - corrisponde a qualsiasi numero di caratteri;
  • $ - indica la fine dell'URL.

Esempi di conformità di modi per il sito robot.txt in Google

  • / - corrisponde a tutte le pagine;
  • /$ - solo radice;
  • /fish - Tutto ciò che inizia con /fish;
  • /*.php$ - URL, finendo .php.

La priorità delle regole di consumo e non consentire in robot.txt il tuo sito Web di Google

Nel conflitto di regole con diverse lunghezze del percorso, viene utilizzata più lunga. Con uguale lunghezza - meno restrittivo.

Esempi:

  • Consenti: /privato
    Non consentire: / - viene utilizzato consentire;
  • Consenti: /pagina
    Non voto: /*.htm - Viene utilizzato, poiché il percorso è più lungo.

Per tutti i problemi di Robots.txt Impostazioni del tuo sito, nonché altri aspetti della SEO, è possibile contattare la squadra SEO Companies "SEO.Computer" Tramite e -mail: info@seo.computer o tramite WhatsApp: +79202044461

ID: 159

Invia una richiesta e ti forniremo una consulenza SU SEO promozione del tuo sito web