Les robots automatiques des moteurs de recherche suivent les règles des règles du protocole d'exclusion des robots (Rep), qui signifie: avant de numériser le site, le moteur de recherche lit le fichier robots.txtPour déterminer quelles sections du site sont autorisées ou interdites pour l'indexation. Ce protocole ne s'applique pas aux outils contrôlés par les utilisateurs ou les employés d'objectifs de sécurité (par exemple, la numérisation des logiciels malveillants).
Ce matériel explique en détail comment les directives de Rep sont interprétées. La spécification d'origine peut être trouvée dans RFC 9309.
Si vous ne voulez pas que certaines parties de votre site soient indexées par les moteurs de recherche, créez un fichier robots.txt avec les règles nécessaires. Il s'agit d'un simple document texte, qui indique quelles bottes de recherche l'accès est autorisé et qui est interdit. Un exemple de structure de fichiers:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Si vous rencontrez d'abord des robots.txt, commencez par étudier les bases et les conseils pratiques pour sa création.
Le fichier robots.txt doit être dans le catalogue racine du site et être disponible sur le protocole pris en charge. Le moteur de recherche prend en compte le protocole, le port et le nom de domaine. Par exemple, le fichier ne sera utilisé que pour le même hôte que son emplacement, y compris le protocole et le port.
Voici des exemples des bonnes façons du fichier et de leur action:
www.Le comportement du robot de recherche dépend du code HTTP reçu lorsque le fichier est demandé:
Le contenu cache jusqu'à 24 heures, parfois plus long - avec des erreurs de chargement. Titre Cache-Control peut affecter la période de stockage d'une copie.
Le fichier doit être dans le codage UTF-8, texte simple. Les traductions des lignes sont autorisées dans n'importe quel format (Cr, LF, CRLF). Les lignes erronées sont ignorées, comme, bom, symboles non pris en charge.
La taille maximale de fichier autorisée est de 500 kib. Tout ce qui dépasse ce volume est ignoré.
Chaque ligne comprend un champ, un côlon et une valeur. Les champs suivants sont pris en charge:
user-agent - détermine quel bot appartient à la règle;disallow - interdit l'accès à un certain chemin;allow - permet d'accéder au chemin (même s'il y a des règles d'interdiction);sitemap -Indique l'emplacement du site XML du site.C'est le nom du bot de recherche, qui inclut ces règles. La valeur n'est pas sensible au registre.
Interdit l'accès à certains chemins. Si le chemin n'est pas indiqué, la règle est ignorée. Valeur sensible au registre.
Permet d'accéder à l'URL. Il fonctionne en conjonction avec d'autres règles, avec un conflit, le moins restrictif est sélectionné.
Le site de l'URL du site est complètement indiqué. Le champ peut être répété. Cela peut être sur un autre domaine. Non attaché à un bot spécifique.
Vous pouvez indiquer plusieurs groupes avec un agent utilisateur différent ou le même. Par exemple:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Chaque bot utilise un seul groupe de règles - l'agent utilisateur nommé le plus approprié. Règles générales P * Ils sont utilisés s'il n'y en a pas plus spécifiques.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Bot bot-news Utilise le premier groupe, bot - Le troisième, tous les autres sont les seconds.
Une comparaison du chemin avec l'URL prend en compte le registre, ainsi que des symboles spéciaux. Soutenu:
* - correspond à n'importe quel nombre de caractères;$ - désigne la fin de l'URL./ - correspond à toutes les pages;/$ - seulement root;/fish - Tout ce qui commence par /fish;/*.php$ - URL, se terminant .php.Dans le conflit de règles avec différentes longueurs de chemin, une plus longue est utilisée. Avec une longueur égale - moins restrictive.
Exemples:
Pour tous les problèmes de paramètres de robots.txt de votre site, ainsi que d'autres aspects du référencement, vous pouvez contacter l'équipe SEO Compagnies "SEO .puter" Par e-mail: info@seo.computer ou via WhatsApp: +79202044461
ID: 159