Comment le moteur de recherche traite le fichier robots.txt pour votre site Google

Les robots automatiques des moteurs de recherche suivent les règles des règles du protocole d'exclusion des robots (Rep), qui signifie: avant de numériser le site, le moteur de recherche lit le fichier robots.txtPour déterminer quelles sections du site sont autorisées ou interdites pour l'indexation. Ce protocole ne s'applique pas aux outils contrôlés par les utilisateurs ou les employés d'objectifs de sécurité (par exemple, la numérisation des logiciels malveillants).

Ce matériel explique en détail comment les directives de Rep sont interprétées. La spécification d'origine peut être trouvée dans RFC 9309.

Quel est le fichier robots.txt du site dans google

Si vous ne voulez pas que certaines parties de votre site soient indexées par les moteurs de recherche, créez un fichier robots.txt avec les règles nécessaires. Il s'agit d'un simple document texte, qui indique quelles bottes de recherche l'accès est autorisé et qui est interdit. Un exemple de structure de fichiers:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Si vous rencontrez d'abord des robots.txt, commencez par étudier les bases et les conseils pratiques pour sa création.

Emplacement du fichier et zone d'action sur votre site Google

Le fichier robots.txt doit être dans le catalogue racine du site et être disponible sur le protocole pris en charge. Le moteur de recherche prend en compte le protocole, le port et le nom de domaine. Par exemple, le fichier ne sera utilisé que pour le même hôte que son emplacement, y compris le protocole et le port.

Exemples de l'URL autorisée pour le fichier robots.txt dans Google

Voici des exemples des bonnes façons du fichier et de leur action:

Https: // exemple - Nous nous appliquons uniquement à ce domaine et à ce port.
Https: // vvv. Exemple - seulement pour Pododen www.
Https: // example.kom / dossier / robots - Ce n'est pas acceptable.
FTP: // Exemple -Un uniquement pour l'application FTP.

Traitement des erreurs et des codes de réponse de votre serveur de site dans Google

Le comportement du robot de recherche dépend du code HTTP reçu lorsque le fichier est demandé:

2xx - Le fichier est traité.
3xx - Plus de cinq redirectes sont considérés comme 404.
4xx (sauf 429) - On pense que le fichier est absent, il n'y a pas de restrictions.
5xx - La numérisation est suspendue ou reportée en fonction des conditions.

Moteur de recherche de cache Robots.txt Google

Le contenu cache jusqu'à 24 heures, parfois plus long - avec des erreurs de chargement. Titre Cache-Control peut affecter la période de stockage d'une copie.

Format robots.txt pour votre site Google

Le fichier doit être dans le codage UTF-8, texte simple. Les traductions des lignes sont autorisées dans n'importe quel format (Cr, LF, CRLF). Les lignes erronées sont ignorées, comme, bom, symboles non pris en charge.

La taille maximale de fichier autorisée est de 500 kib. Tout ce qui dépasse ce volume est ignoré.

Site de syntaxe Robots.Txt Règles sur Google

Chaque ligne comprend un champ, un côlon et une valeur. Les champs suivants sont pris en charge:

user-agent - détermine quel bot appartient à la règle;
disallow - interdit l'accès à un certain chemin;
allow - permet d'accéder au chemin (même s'il y a des règles d'interdiction);
sitemap -Indique l'emplacement du site XML du site.

Agent utilisateur dans le fichier robots.txt dans google

C'est le nom du bot de recherche, qui inclut ces règles. La valeur n'est pas sensible au registre.

Interdire: interdire les pages de votre site dans Google

Interdit l'accès à certains chemins. Si le chemin n'est pas indiqué, la règle est ignorée. Valeur sensible au registre.

Autoriser: autorisation de scanner le contenu du site dans Google

Permet d'accéder à l'URL. Il fonctionne en conjonction avec d'autres règles, avec un conflit, le moins restrictif est sélectionné.

Sitemap: indiquant la carte du site dans Google

Le site de l'URL du site est complètement indiqué. Le champ peut être répété. Cela peut être sur un autre domaine. Non attaché à un bot spécifique.

Regrouper les règles pour le site d'agent utilisateur dans Google

Vous pouvez indiquer plusieurs groupes avec un agent utilisateur différent ou le même. Par exemple:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Priorité des règles pour le site d'agent utilisateur dans Google

Chaque bot utilise un seul groupe de règles - l'agent utilisateur nommé le plus approprié. Règles générales P * Ils sont utilisés s'il n'y en a pas plus spécifiques.

Un exemple de traitement des agents utilisateur dans robots.txt votre site Google

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Bot bot-news Utilise le premier groupe, bot - Le troisième, tous les autres sont les seconds.

Comment l'URL est-elle mise dans les règles robots.txt utilisées dans Google

Une comparaison du chemin avec l'URL prend en compte le registre, ainsi que des symboles spéciaux. Soutenu:

* - correspond à n'importe quel nombre de caractères;
$ - désigne la fin de l'URL.

Exemples de conformité des moyens pour Robots.txt Site dans Google

/ - correspond à toutes les pages;
/$ - seulement root;
/fish - Tout ce qui commence par /fish;
/*.php$ - URL, se terminant .php.

La priorité des règles d'autorisation et de rendement dans Robots.txt votre site Web Google

Dans le conflit de règles avec différentes longueurs de chemin, une plus longue est utilisée. Avec une longueur égale - moins restrictive.

Exemples:

Autoriser: / privé
Désactiver: / - Autoriser est utilisé;
Autoriser: / page
Disallow: /*.htm - Désactiver est utilisé, car le chemin est plus long.

Pour tous les problèmes de paramètres de robots.txt de votre site, ainsi que d'autres aspects du référencement, vous pouvez contacter l'équipe SEO Compagnies "SEO .puter" Par e-mail: info@seo.computer ou via WhatsApp: +79202044461

ID: 159