Comment le moteur de recherche analyse le fichier robots.txt pour votre site Google

Comment le moteur de recherche analyse le fichier robots.txt pour votre site Google

Les robots automatiques de moteurs de recherche, comme Google, avant de contourner la ressource, contactez le fichier robots.txtqui est situé à la racine de votre site. Ce fichier contient des instructions, quelles sections sont autorisées à scanner et qui ne le sont pas. Il est important de comprendre qu'un tel protocole ne s'applique pas aux services des utilisateurs ou aux outils de sécurité qui fonctionnent différemment.

Qu'est-ce qu'un fichier robots.txt pour votre site Google

Pour limiter l'accès des robots à certaines sections de la ressource, vous pouvez créer un fichier sur votre site robots.txtDans lequel les règles sont prescrites pour chaque robot. Exemple de la structure:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

Ce fichier régule les parties du site indexées et lesquelles - non. Pour apprendre de zéro, il est recommandé de commencer par la familiarisation avec les principes de base du travail robots.txt et des recommandations pour sa compilation.

Où publier un fichier robots.txt sur votre site Web Google

Le fichier doit être strictement dans la racine du site (par exemple, https://ваш_сайт/robots.txt). Il ne fonctionne que pour cette combinaison du domaine, du protocole et du port où il est placé. Les podoménites, d'autres ports et protocoles nécessitent un fichier séparé robots.txt.

Exemples des adresses correctes du fichier robots.txt de votre site pour Google

  • https://example.com/robots.txt - ça marche pour https://example.com/mais pas pour http:// ou d'autres sous-domaines.
  • https://www.example.com/robots.txt - Couvre uniquement www.
  • ftp://example.com/robots.txt -Nous appliquons exclusivement le protocole FTP.

Traitement des erreurs et codes de réponse HTTP sur votre site Web Google

En fonction du code de réponse lorsque vous essayez d'obtenir un fichier robots.txt, Le comportement des robots de recherche change:

  • Codes 2xx - Le fichier est lu et utilisé.
  • CODES 3XX - Si plus de 5 redirigent, le fichier est considéré comme inaccessible.
  • CODES 4XX (sauf 429) - On pense qu'il n'y a pas d'interdictions.
  • Codes 5xx - Avec des erreurs de serveurs, le robot peut temporairement arrêter le site du site.

Comment Google cache le fichier robots.txt pour votre site

Les robots peuvent mettre en cache le contenu du fichier jusqu'à 24 heures, mais en cas de problèmes (délais d'attente, erreurs), la date limite peut augmenter. Titres Cache-Control Affectent également le comportement de la mise en cache.

Format de fichier robots.txt et encodage pour le site Google

Le fichier doit être dans le codage UTF-8, avec les séparateurs des lignes CR, CR / LF ou LF. Les symboles incorrects ou le contenu sont ignorés. La taille maximale du fichier autorisé est de 500 kib, le reste est ignoré.

Syntaxe et directeurs de robots.txt pris en charge dans Google pour votre site

Chaque ligne se compose d'une clé, du côlon et des valeurs. Il est autorisé à ajouter des commentaires après le signe #. Les champs suivants sont pris en charge:

  • agent utilisateur - indique quel robot les règles sont applicables.
  • Permettre - le chemin autorisé.
  • Refuser - chemin interdit.
  • Sitemap - Adresse complète de la carte du site.

Tous les chemins sont sensibles au registre et devraient commencer par /.

Explication par User-Agent: Comment spécifier les règles de robots spécifiques de votre site dans Google

Signification user-agent Pas sensible au registre. Utilisez le nom exact du robot pour spécifier des règles spécifiques, sinon le modèle global est utilisé *.

Qu'est-ce que la directive interdite dans le fichier robots.txt de votre site dans Google

Limite l'accès des robots aux chemins spécifiés. Cependant, l'URL peut toujours apparaître dans les résultats de recherche sans fragment de page.

Autoriser les fonctions: comment donner accès aux sections de votre site dans Google

Permet d'accéder à certains chemins, même s'ils tombent partiellement sous les règles d'interdiction.

Comment indiquer le site de site dans robots.txt pour votre site Google

Il est autorisé à publier des liens vers la carte du site. Il peut y en avoir plusieurs. L'adresse doit être absolue et correcte. Ils s'appliquent à tous les robots, s'ils ne sont pas interdits séparément.

Regroupement des règles dans robots.txt votre site dans google

Un ensemble de règles peut être appliqué à plusieurs agents utilisateur à la fois, répétant les lignes d'agent utilisateur l'une après les autres devant les règles de base.

Déterminer les priorités pour l'agent utilisateur dans le fichier robots.txt de votre site sur Google

L'agent utilisateur le plus spécifique est sélectionné. Si plusieurs coïncidences sont trouvées, la plus longue et la plus précise est prise. Règles générales * Pas combiné avec des privés.

Exemples de regroupement de robots.txt Règles sur le site dans Google

Si plusieurs blocs appartiennent à un robot, ils sont automatiquement combinés. Les lignes restantes, telles que le plan du site, ne sont pas prises en compte lors du regroupement.

Comment comparer les routes URL et les règles Robots.txt dans Google pour votre site

Le chemin de la règle est comparé à la page de la page. Les symboles fonctionnent * (tout symbole, 0 ou plus) et $ (fin de la ligne). Exemples:

  • / - coïncide avec la racine du site et toutes les URL investies.
  • /fish - Tous les chemins commençant /fish.
  • /fish/ - Seuls ceux où la barre oblique est clairement indiquée à la fin.
  • /*.php - Tous les fichiers avec l'extension .php.
  • /*.php$ - Seuls ceux qui se terminent par .php.

La priorité des règles d'autorisation et de rendement dans le fichier robots.txt sur votre site pour google

Si des règles contradictoires sont présentes en même temps, il est utilisé ce qui est plus long en cours de route et moins restrictif. Autrement dit, dans les cas controversés, la priorité est donnée à la règle de résolution la plus précise.


Si vous souhaitez recevoir une aide pour créer, vérifier ou configurer un fichier robots.txt pour votre site, contactez l'agence SEO PDG. Écrivez sur le courrier électronique: info@seo.computer Ou dans WhatsApp: +7 920 204 44 61.

ID: 159

Envoyez une demande et nous vous fournirons une consultation sur SEO promotion de votre site internet