Google utilise KRALER et VILETS pour effectuer diverses actions pour ses produits, à la fois automatiquement et à la demande de l'utilisateur. Crowler (parfois aussi appelé «robot» ou «araignée») est un nom courant pour un programme qui est utilisé pour détecter et numériser automatiquement les sites Web. Les thets agissent comme un programme similaire à WGET et effectuent généralement une seule demande au nom de l'utilisateur. Les produits Google peuvent être divisés en trois catégories:
KRALER conventionnel utilisé pour les produits Google (par exemple, Googlebot) suivent toujours les règles Robots.txt pour la numérisation automatique.
Special Kraler est similaire à ceux ordinaires, mais ils sont utilisés dans des produits spécifiques où il existe un accord entre le site numérisé et le produit Google concernant le processus de numérisation. Par exemple, ADSBOT ignore Global Robots.txt User-Agent avec la résolution du propriétaire du site.
Les stiseurs de l’utilisateur font partie des fonctions de produit et de produit lorsque l’utilisateur final initie la demande. Par exemple, Google Site Verifier fonctionne à la demande de l'utilisateur.
Google Craolers et Veters sont conçus pour fonctionner simultanément sur des milliers de machines afin d'augmenter les performances et l'évolutivité à mesure que Internet se développe. Pour optimiser l'utilisation de la bande passante, ces clients sont distribués selon de nombreux centres de données à travers le monde, ils sont donc situés plus près des sites auxquels ils peuvent être contactés. Par conséquent, les visites de diverses adresses IP peuvent être indiquées dans vos journaux. Google Egress a principalement lieu avec les adresses IP aux États-Unis. Si Google constate que le site bloque les demandes des États-Unis, il peut essayer de scanner à partir d'adresses IP situées dans d'autres pays.
Google Craolers et Veters prennent en charge HTTP / 1.1 et HTTP / 2. Craolers utilisera la version du protocole, qui fournit les meilleures performances de balayage, et peut basculer entre les protocoles en fonction des statistiques des séances de numérisation précédentes. Par défaut, Google Kraler utilise le protocole HTTP / 1.1. Le scan via HTTP / 2 peut enregistrer les ressources informatiques (par exemple, CP, RAM) pour votre site et Googlebot, mais sinon, il ne donne aucun avantage spécifique pour le site (par exemple, cela n'affecte pas la note dans Google Search). Pour refuser la numérisation via HTTP / 2, définissez le serveur afin qu'il réponde avec l'état 421 lorsque Google essaie d'accéder à votre site via HTTP / 2. Si cela n'est pas possible, vous pouvez envoyer un message à l'équipe de numérisation (bien qu'il s'agisse d'une décision temporaire).
L'infrastructure de Google Coilers prend également en charge la numérisation via FTP (telle que définie dans RFC959 et ses mises à jour) et FTPS (telles que définies dans RFC4217 et ses mises à jour), cependant, le balayage à travers ces protocoles est rare.
Google Craolers et les testeurs prennent en charge les méthodes de compression suivantes du contenu (codage): gzip, dégonflage et brotli (BR). Le codage de contenu pris en charge pour chaque agent utilisateur de Google est indiqué dans l'en-tête d'acceptation pour chaque demande qu'ils font. Par exemple: accepter-codage: gzip, dégonfler, br.
Notre objectif est de scanner autant de pages de votre site que possible à chaque visite sans surcharger le serveur. Si votre site a du mal à servir les demandes de Google, vous pouvez réduire la vitesse de numérisation. Veuillez noter que l'envoi du mauvais statut HTTP à Google Kraolers peut affecter la façon dont votre site sera affiché dans Google Products.
L'infrastructure de Google Kraler prend en charge les sommes HTTP heuristiques, telles que déterminées par la norme de cache HTTP, en particulier par les gros titres de l'ETAG et du match nul, ainsi que par les en-têtes de lin MODIFIÉS ET MODIFIÉS-MODIFIED.
Remarque: il est recommandé de définir les valeurs d'ETAG et de dernier modification, quelles que soient les préférences de Google Cruls. Ces en-têtes sont également utilisés par d'autres applications telles que CMS.
Si les champs ETAG et dernier modifiés sont présents dans les en-têtes de retour, Google Kraler utilise la valeur ETAG, comme le nécessite la norme HTTP. Pour Google Coilers, nous vous recommandons d'utiliser ETAG au lieu de la dernière modification pour indiquer les préférences de la mise en cache, car ETAG n'a aucun problème avec la mise en forme des dates.
D'autres directives de mise en cache HTTP ne sont pas prises en charge.
Des Browlers séparés et Google Veters peuvent ou ne peuvent pas utiliser la mise en cache en fonction des besoins du produit avec lesquels ils sont associés. Par exemple, Googlebot prend en charge la mise en cache lors des URL de numérisation répétée pour la recherche Google, et StoreBot-Google prend en charge la mise en cache uniquement dans certaines conditions.
Pour implémenter le codage HTTP pour votre site, contactez votre fournisseur d'hébergement ou fournisseur du système de gestion de contenu.
L'infrastructure de Google Craul prend en charge ETAG et If-None-Match, tel que déterminé par la norme de cache HTTP. En savoir plus sur l'en-tête ETAG et sa demande If-None Gatch.
L'infrastructure de Google Kraler prend en charge la dernière modification et si modifiée, telle que déterminée par la norme de cache HTTP, avec les réservations suivantes:
En savoir plus sur le dernier titre modifié et sa demande si modifiée.
Google Craules s'identifie de trois manières:
Découvrez comment utiliser ces données pour vérifier Google Cholera et Frinders.
Si vous avez des questions sur le référencement ou si vous aurez besoin d'aide, contactez notre compagnon SEO par e-mail info@seo.computer ou via WhatsApp: +79202044461.
ID 61