搜索引擎如何处理您的Google网站的robots.txt文件

Name: 谢奥 科姆皮尤泰尔 搜索引擎如何处理您的Google网站的robots.txt文件 莫斯科
Address: 莫斯科

搜索引擎的自动机器人遵循机器人排除协议（REP）规则，这意味着：在扫描站点之前，搜索引擎读取文件 robots.txt确定允许或禁止该站点的哪些部分进行索引。该协议不适用于由用户或安全目标员工控制的工具（例如，扫描恶意软件）。

该材料详细说明了如何解释代表指令。原始规范可以在RFC 9309中找到。

Google中的abots.txt文件网站是什么

如果您不希望网站的某些部分被搜索引擎索引，请创建一个具有必要规则的robots.txt文件。这是一个简单的文本文档，指示哪些搜索启动允许访问并禁止访问。文件结构的一个示例：

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

如果您首先遇到机器人。

robots.txt文件应在网站的根目录中，并在受支持的协议上可用。搜索引擎考虑了协议，端口和域名。例如，该文件将仅用于与其位置相同的主机，包括协议和端口。

以下是文件及其操作的正确方法的示例：

请求文件时，搜索机器人的行为取决于收到的HTTP代码：

内容物的缓存最多24小时，有时更长 - 带有加载错误。标题 Cache-Control 可能会影响副本的存储期限。

该文件应在UTF-8编码，简单的文本中。线的翻译是任何格式允许的（CR，LF，CRLF）。错误的线被忽略，例如BOM，不支持的符号。

最大允许的文件大小为500 KIB。超过此卷的所有内容都被忽略了。

每行都包括一个字段，结肠和价值。支持以下字段：

这是搜索机器人的名称，其中包括这些规则。该值对寄存器不敏感。

禁止进入某些路径。如果未指示路径，则忽略规则。对寄存器敏感的价值。

允许访问URL。它与其他规则一起起作用，与冲突，选择最少的限制性。

该网站URL的站点已完全指示。可以重复该字段。它可能在另一个领域。未连接到特定机器人。

您可以指示几个具有不同或相同用户代理的组。例如：

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

每个机器人仅使用一组规则 - 最合适的用户代理。一般规则p * 如果没有更多的特定，则使用它们。

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

机器人 bot-news 使用第一组， bot - 第三，所有其他都是第二个。

该路径与URL的比较考虑了寄存器以及特殊符号。支持：

在不同路径长度的规则冲突中，使用了更长的路径。长度相等 - 限制性较小。

示例：

对于您网站的所有问题以及SEO的其他方面的所有问题，您可以联系团队 SEO公司“ seo.computer” 通过电子邮件： info@seo.computer 或通过whatsapp： +79202044461

ID：159