搜索引擎如何处理您的Google网站的robots.txt文件

搜索引擎如何处理您的Google网站的robots.txt文件

搜索引擎的自动机器人遵循机器人排除协议(REP)规则,这意味着:在扫描站点之前,搜索引擎读取文件 robots.txt确定允许或禁止该站点的哪些部分进行索引。该协议不适用于由用户或安全目标员工控制的工具(例如,扫描恶意软件)。

该材料详细说明了如何解释代表指令。原始规范可以在RFC 9309中找到。

Google中的abots.txt文件网站是什么

如果您不希望网站的某些部分被搜索引擎索引,请创建一个具有必要规则的robots.txt文件。这是一个简单的文本文档,指示哪些搜索启动允许访问并禁止访问。文件结构的一个示例:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

如果您首先遇到机器人。

您的Google网站上的文件位置和操作区域

robots.txt文件应在网站的根目录中,并在受支持的协议上可用。搜索引擎考虑了协议,端口和域名。例如,该文件将仅用于与其位置相同的主机,包括协议和端口。

Google中wobots.txt文件的允许URL的示例

以下是文件及其操作的正确方法的示例:

  • https://示例 - 我们仅应用于此域和端口。
  • https:// vvv。例子 - 仅适用于pododen www
  • https:// example.kom/文件夹/机器人 - 这是不可接受的
  • ftp://示例 - 仅适用于FTP应用程序。

在Google中处理网站服务器的错误和响应代码

请求文件时,搜索机器人的行为取决于收到的HTTP代码:

  • 2xx - 文件已处理。
  • 3xx - 超过五个重定向被认为是404。
  • 4xx(429除外) - 相信该文件不存在,没有限制。
  • 5xx - 根据条件,扫描被暂停或推迟。

robots.txt缓存搜索引擎Google

内容物的缓存最多24小时,有时更长 - 带有加载错误。标题 Cache-Control 可能会影响副本的存储期限。

robots.txt格式用于您的Google网站

该文件应在UTF-8编码,简单的文本中。线的翻译是任何格式允许的(CR,LF,CRLF)。错误的线被忽略,例如BOM,不支持的符号。

最大允许的文件大小为500 KIB。超过此卷的所有内容都被忽略了。

robots.txt规则语法网站to Google

每行都包括一个字段,结肠和价值。支持以下字段:

  • user-agent - 确定哪个机器人属于该规则;
  • disallow - 禁止进入某个路径;
  • allow - 允许访问路径(即使有禁止的规则);
  • sitemap - 指示该站点的XML站点的位置。

robots.txt文件中的用户代理在Google中

这是搜索机器人的名称,其中包括这些规则。该值对寄存器不敏感。

禁止:在Google中禁止您网站的页面

禁止进入某些路径。如果未指示路径,则忽略规则。对寄存器敏感的价值。

允许:允许在Google中扫描网站的内容

允许访问URL。它与其他规则一起起作用,与冲突,选择最少的限制性。

SITEMAP:在Google中指示网站卡

该网站URL的站点已完全指示。可以重复该字段。它可能在另一个领域。未连接到特定机器人。

Google中用户代理网站的规则分组

您可以指示几个具有不同或相同用户代理的组。例如:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Google用户代理网站规则的优先级

每个机器人仅使用一组规则 - 最合适的用户代理。一般规则p * 如果没有更多的特定,则使用它们。

robots.txt中用户代理处理的一个示例

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

机器人 bot-news 使用第一组, bot - 第三,所有其他都是第二个。

Google中使用的URL如何放入robots.txt规则

该路径与URL的比较考虑了寄存器以及特殊符号。支持:

  • * - 对应于任意数量的字符;
  • $ - 表示URL的末端。

google中的机器人方式的合规性示例

  • / - 对应于所有页面;
  • /$ - 只有根;
  • /fish - 从 /fish;
  • /*.php$ - URL,以 .php

abor.txt中的允许和禁止规则的优先级您的Google网站

在不同路径长度的规则冲突中,使用了更长的路径。长度相等 - 限制性较小。

示例:

  • 允许: /私人
    禁止: / - 允许使用;
  • 允许: /pag
    禁止:/*.htm-使用不允许,因为路径更长。

对于您网站的所有问题以及SEO的其他方面的所有问题,您可以联系团队 SEO公司“ seo.computer” 通过电子邮件: info@seo.computer 或通过whatsapp: +79202044461

ID:159

发送请求,我们将提供咨询 在 谢奥 推广您的网站