搜索引擎如何分析您的Google网站的robots.txt文件

搜索引擎如何分析您的Google网站的robots.txt文件

搜索引擎(例如Google)的自动机器人在浏览资源之前,请联系文件 robots.txt位于您网站的根源中。该文件包含指令,其中允许扫描哪些部分,哪些则不扫描。重要的是要了解,这种协议不适用于不同工作方式的用户服务或安全工具。

什么是abots.txt文件用于您的Google网站

为了限制机器人访问资源的某些部分,您可以在网站上创建一个文件 robots.txt其中为每个机器人规定规则。结构的示例:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

该文件调节网站的哪些部分可以索引,哪些 - 否。要从头开始学习,建议从熟悉工作原理开始 robots.txt 并建议其汇编。

在您的Google网站上在哪里发布abots.txt文件

该文件应严格在网站的根部(例如, https://ваш_сайт/robots.txt)。它仅适用于放置域,协议和端口的组合。 podomeni,其他端口和协议需要一个单独的文件 robots.txt

Google网站的robots.txt文件的正确地址的示例

  • https://example.com/robots.txt - 它适用于 https://example.com/但不适合 http:// 或其他子域。
  • https://www.example.com/robots.txt - 仅覆盖 www
  • ftp://example.com/robots.txt - 我们专门申请FTP协议。

Google网站上的错误处理和HTTP响应代码

尝试获取文件时的答案代码 robots.txt,搜索机器人的行为正在发生变化:

  • 2xx代码 - 文件已读取和使用。
  • 3xx代码 - 如果超过5个重定向,则该文件被认为无法访问。
  • 4XX代码(429号) - 据信没有禁令。
  • 5XX代码 - 机器人可以暂时停止站点的站点。

Google如何缓存robots.txt文件

机器人可以将文件内容缓存长达24小时,但是在问题(超时,错误)的情况下,截止日期可能会增加。头条新闻 Cache-Control 也影响缓存的行为。

robots.txt文件格式和Google网站编码

该文件应在UTF-8编码中,并带有CR,CR/LF或LF线的分隔线。忽略错误的符号或符号。最大允许的文件大小为500 KIB,其余的将忽略。

Google中的语法和支持的Robots.txt指令for your网站

每行都由一个钥匙,结肠和值组成。标志后允许添加评论 #。支持以下字段:

  • 用户代理 - 指示规则适用的机器人适用。
  • 允许 - 允许的路径。
  • 禁止 - 禁止路径。
  • 站点地图 - 网站卡的完整地址。

所有路径对寄存器敏感,应从 /

用户代理说明:如何在Google中指定网站特定机器人的规则

意义 user-agent 对寄存器不敏感。使用机器人的确切名称指定特定规则,否则使用全局模板 *

您网站的robots.txt文件中禁止指令在Google中

限制机器人进入指定路径的访问。但是,URL仍然可以出现在搜索结果中,而无需页面片段。

允许功能:如何访问Google中网站的各个部分

即使部分属于禁止的规则,也可以访问某些路径。

如何在Robots.txt中为您的Google网站指示SITEMAP

它可以发布到网站卡的链接。可能有几个。该地址应该是绝对和正确的。它们适用于所有机器人,即使不是单独禁止的话。

在robots.txt中分组规则在Google中

一组规则可以一次应用于几个用户代理,在基本规则的前面重复一个接一个用户代理行。

在Google上确定robots.txt文件中用户代理的优先级

Выбирается самый конкретный user-agent. Если найдено несколько совпадений, берётся самый длинный и точный. Общие правила * 不与私人的结合。

Google中该网站上的abrots.txt规则的示例

如果几个块属于一个机器人,则将它们自动组合。分组时未考虑其余的线,例如站点地图。

如何比较网站中的网站和机器人。TXT规则

将规则的路径与页面的页面进行了比较。符号工作 * (任何符号,0或更多)和 $ (线的结尾)。示例:

  • / - 与网站的根和所有投资URL相吻合。
  • /fish - 所有路径开始 /fish
  • /fish/ - 只有那些在末尾清楚地指示的斜线。
  • /*.php - 所有具有扩展.php的文件。
  • /*.php$ - 只有以.php结尾的人。

Google网站上的abrots.txt文件中允许和禁止规则的优先级

如果同时存在冲突的规则,则使用它在此过程中更长而限制性较小的情况。也就是说,在有争议的情况下,优先级是最准确的解决规则。


如果您想在创建,检查或设置robots.txt文件中获得帮助,请联系SEO代理商 首席执行官。在电子邮件中写信: info@seo.computer 或WhatsApp: +7 920 204 44 61

ID:159

发送请求,我们将提供咨询 在 谢奥 推广您的网站