Cet outil offre un large éventail de fonctions, allant de la vérification de l'exactitude des balises méta à l'analyse du micro-balisage, ce qui le rend indispensable pour une analyse détaillée de sites de différentes tailles.

Dans ce guide, nous examinerons les paramètres et fonctionnalités de base de SEO Spider qui vous aideront à analyser et à améliorer efficacement votre site.

Contenu:

Mise en place du programme
Méthodes de numérisation
Rechercher du contenu en double
Pages avec un contenu insuffisant
Trouver des pages vierges
Vérification de la disponibilité des compteurs analytiques
Analyse du titre, de la description et des rubriques (H1, H2)
Analyse des réponses du serveur
Intégration avec des API externes
Vérification de la disponibilité et de la taille des images
Vérification du micro-balisage

Mise en place du programme

Paramètres de mémoire

Ouvrez le menu Fichier → Paramètres → Allocation de mémoire.

Il est recommandé d'allouer 8 Go de mémoire pour les gros projets, soit la moitié de la mémoire disponible.

Configuration du stockage des données

Accédez à Fichier → Paramètres → Mode de stockage.

La valeur par défaut est Stockage mémoire. Il est recommandé de passer au stockage de base de données (disque dur), surtout si le disque est SSD, pour accélérer le processus d'analyse.

Installation de proxy

Dans les paramètres (Fichier → Paramètres → Proxy), vous pouvez définir un serveur proxy si votre IP est bloquée sur un certain site, ce qui aidera à contourner le blocage.

Définition de la vitesse de numérisation

Accédez à Configuration → Crawl Config → Vitesse.

La valeur optimale pour Max Threads est jusqu'à 5. L'augmentation du nombre de threads peut entraîner le blocage ou la surcharge du site pendant l'analyse.

Laissez le paramètre Limiter les URL/s à 2,0 URL par seconde. Pour les erreurs 5XX, réduisez la valeur à 1,0 ou 0,5 pour plus de stabilité.

Configuration du robot

Accédez à Configuration → Crawl Config → Spider → Crawl.

Si vous souhaitez analyser uniquement une section sélectionnée du site, décochez l'option "Vérifier les liens en dehors du dossier de démarrage". L'activation de « Explorer en dehors du dossier de démarrage » étend la zone d'exploration à tous les liens du site.

Si nécessaire, activez l'option « Explorer tous les sous-domaines » pour explorer les sous-domaines, et configurez également les liens d'exploration avec l'attribut nofollow.

Configuration du traitement du plan de site XML

N'oubliez pas d'activer l'option « Explorer les plans de site XML liés » pour analyser les pages qui n'ont peut-être pas de liens directs, mais qui sont répertoriées dans le plan du site.

Méthodes de numérisation

Mode araignée (par défaut)

Ce mode imite le comportement des moteurs de recherche : depuis la page principale, le site est exploré à l'aide de liens internes, en approfondissant les niveaux de la structure.

Mode liste

Vous pouvez télécharger un fichier avec les URL à explorer, les saisir manuellement ou utiliser un lien vers le plan du site XML.

À partir d'un fichier : téléchargez un fichier avec des URL.
Entrer manuellement : saisissez manuellement les URL.
Coller - collez les URL copiées.
Télécharger le plan du site XML : envoyez un lien vers le plan du site XML.

Mode SERP

Ce mode analyse uniquement le titre et la description. Le mode est utilisé moins fréquemment et convient aux vérifications simples des métadonnées.

Mode comparaison

Vous permet de comparer les résultats de différentes analyses, utile pour suivre les modifications ou dépanner les erreurs.

Rechercher du contenu en double

Accédez à Configuration → Crawl Config → Contenu → Doublons.

Lorsque l'option « Vérifier uniquement les doublons dans les pages indexables » est activée, le programme recherchera les doublons uniquement parmi les pages disponibles pour l'indexation.

L'option "Activer les quasi-doublons" vous permet de définir le pourcentage de correspondance du contenu, ce qui vous aide à trouver les doublons cachés.

Pages avec un contenu insuffisant

Vous pouvez voir les résultats dans la section Contenu → Tout, en triant les pages par nombre de mots. Les pages avec peu de contenu peuvent être moins utiles aux moteurs de recherche.

Trouver des pages vierges

Particulièrement utile pour les sites proposant des catalogues de produits, où vous pouvez identifier les pages dont le contenu unique est insuffisant. Définissez les classes ou identifiants corrects pour les fiches produits et configurez le filtrage.

Vérification des compteurs sur les pages

Pour vérifier la disponibilité des compteurs analytiques (par exemple, Yandex.Metrica ou Google Analytics), vous pouvez utiliser le mode de recherche par code de page en insérant le numéro du compteur dans les paramètres de recherche.

Analyse du titre, de la description et des rubriques (H1, H2)

Après avoir analysé le site, vous pouvez afficher les balises méta et les titres dans la section Titre de la page. Il est important de vérifier des points tels que :

Manquant : absence de balise de titre.
Duplicata - répétition du titre sur différentes pages.
Identique à H1 - si le titre correspond à H1.
Multiple : présence de plusieurs titres sur une seule page.

Analyse des réponses du serveur

Nous examinons les résultats dans la section Codes de réponse. Il est important de faire attention aux erreurs comme 4xx et 5xx ; elles doivent être corrigées pour que les pages se chargent correctement.

Envoyez une demande et nous vous fournirons une consultation sur SEO promotion de votre site internet

Guide d'utilisation de SEO Spider : partie 1