
该工具提供了广泛的功能,从检查元标记的正确性到分析微标记,这使得它对于各种规模的网站的详细分析不可或缺。
在本指南中,我们将了解基本的 SEO 蜘蛛设置和功能,它们将帮助您有效地分析和改进您的网站。
打开菜单文件→设置→内存分配。
对于大型项目,建议分配 8 GB 内存,或可用内存的一半。

转到文件 → 设置 → 存储模式。
默认为内存存储。建议切换到数据库存储(硬盘),特别是如果驱动器是SSD,以加快扫描过程。

在设置(文件 → 设置 → 代理)中,如果您的 IP 在某个站点上被阻止,您可以设置代理服务器,这将有助于绕过阻止。

转到配置 → 抓取配置 → 速度。
Max Threads(线程)的最佳值最多为 5。增加线程数可能会导致扫描期间站点阻塞或过载。
将限制 URL/s 参数保留为每秒 2.0 个 URL。对于 5XX 错误,请将值减小到 1.0 或 0.5 以保持稳定性。

转到配置→爬网配置→蜘蛛→爬网。
如果您只想扫描站点的选定部分,请取消选中“检查开始文件夹之外的链接”选项。启用“在开始文件夹之外抓取”会将抓取区域扩展到网站上的所有链接。
如有必要,请激活“抓取所有子域”选项以抓取子域,并使用 nofollow 属性配置抓取链接。

不要忘记启用“抓取链接的 XML 站点地图”选项来分析可能没有直接链接但在站点地图中列出的页面。

这种模式模仿搜索引擎的行为:从主页开始,使用内部链接对网站进行爬网,深入到结构的各个级别。
您可以上传包含要抓取的 URL 的文件、手动输入它们或使用 XML 站点地图的链接。

此模式仅分析标题和描述。该模式使用频率较低,适合简单的元数据检查。
允许您比较不同扫描的结果,对于跟踪更改或排除错误非常有用。
转到配置→抓取配置→内容→重复。
当启用“仅检查可索引页面的重复项”选项时,程序将仅在可用于索引的页面中搜索重复项。
“启用附近重复项”选项允许您设置内容匹配百分比,这有助于您找到隐藏的重复项。

您可以在“内容”→“全部”部分中查看结果,按字数对页面进行排序。内容很少的页面对于搜索引擎来说可能不太有用。

对于具有产品目录的网站特别有用,您可以在其中识别唯一内容不足的页面。为产品卡定义正确的类或 ID 并设置过滤。

要检查分析计数器(例如 Yandex.Metrica 或 Google Analytics)的可用性,您可以通过将计数器编号插入搜索设置来使用页面代码搜索模式。

扫描站点后,您可以在页面标题部分查看元标记和标题。检查以下几点很重要:

我们在响应代码部分查看结果。请务必注意 4xx 和 5xx 等错误;必须更正它们才能正确加载页面。