搜索引擎如何分析您的Google网站的robots.txt文件

Name: 谢奥 科姆皮尤泰尔 搜索引擎如何分析您的Google网站的robots.txt文件 莫斯科
Address: 莫斯科

搜索引擎（例如Google）的自动机器人在浏览资源之前，请联系文件 robots.txt位于您网站的根源中。该文件包含指令，其中允许扫描哪些部分，哪些则不扫描。重要的是要了解，这种协议不适用于不同工作方式的用户服务或安全工具。

什么是abots.txt文件用于您的Google网站

为了限制机器人访问资源的某些部分，您可以在网站上创建一个文件 robots.txt其中为每个机器人规定规则。结构的示例：

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

该文件调节网站的哪些部分可以索引，哪些 - 否。要从头开始学习，建议从熟悉工作原理开始 robots.txt 并建议其汇编。

该文件应严格在网站的根部（例如， https://ваш_сайт/robots.txt）。它仅适用于放置域，协议和端口的组合。 podomeni，其他端口和协议需要一个单独的文件 robots.txt。

https://example.com/robots.txt - 它适用于 https://example.com/但不适合 http:// 或其他子域。
https://www.example.com/robots.txt - 仅覆盖 www。
ftp://example.com/robots.txt - 我们专门申请FTP协议。

尝试获取文件时的答案代码 robots.txt，搜索机器人的行为正在发生变化：

机器人可以将文件内容缓存长达24小时，但是在问题（超时，错误）的情况下，截止日期可能会增加。头条新闻 Cache-Control 也影响缓存的行为。

该文件应在UTF-8编码中，并带有CR，CR/LF或LF线的分隔线。忽略错误的符号或符号。最大允许的文件大小为500 KIB，其余的将忽略。

每行都由一个钥匙，结肠和值组成。标志后允许添加评论 #。支持以下字段：

所有路径对寄存器敏感，应从 /。

意义 user-agent 对寄存器不敏感。使用机器人的确切名称指定特定规则，否则使用全局模板 *。

限制机器人进入指定路径的访问。但是，URL仍然可以出现在搜索结果中，而无需页面片段。

即使部分属于禁止的规则，也可以访问某些路径。

它可以发布到网站卡的链接。可能有几个。该地址应该是绝对和正确的。它们适用于所有机器人，即使不是单独禁止的话。

一组规则可以一次应用于几个用户代理，在基本规则的前面重复一个接一个用户代理行。

Выбирается самый конкретный user-agent. Если найдено несколько совпадений, берётся самый длинный и точный. Общие правила * 不与私人的结合。

如果几个块属于一个机器人，则将它们自动组合。分组时未考虑其余的线，例如站点地图。

将规则的路径与页面的页面进行了比较。符号工作 * （任何符号，0或更多）和 $ （线的结尾）。示例：

如果同时存在冲突的规则，则使用它在此过程中更长而限制性较小的情况。也就是说，在有争议的情况下，优先级是最准确的解决规则。

如果您想在创建，检查或设置robots.txt文件中获得帮助，请联系SEO代理商 首席执行官。在电子邮件中写信： info@seo.computer 或WhatsApp： +7 920 204 44 61。

ID：159