搜索引擎的自动机器人遵循机器人排除协议(REP)规则,这意味着:在扫描站点之前,搜索引擎读取文件 robots.txt确定允许或禁止该站点的哪些部分进行索引。该协议不适用于由用户或安全目标员工控制的工具(例如,扫描恶意软件)。
该材料详细说明了如何解释代表指令。原始规范可以在RFC 9309中找到。
如果您不希望网站的某些部分被搜索引擎索引,请创建一个具有必要规则的robots.txt文件。这是一个简单的文本文档,指示哪些搜索启动允许访问并禁止访问。文件结构的一个示例:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
如果您首先遇到机器人。
robots.txt文件应在网站的根目录中,并在受支持的协议上可用。搜索引擎考虑了协议,端口和域名。例如,该文件将仅用于与其位置相同的主机,包括协议和端口。
以下是文件及其操作的正确方法的示例:
www。请求文件时,搜索机器人的行为取决于收到的HTTP代码:
内容物的缓存最多24小时,有时更长 - 带有加载错误。标题 Cache-Control 可能会影响副本的存储期限。
该文件应在UTF-8编码,简单的文本中。线的翻译是任何格式允许的(CR,LF,CRLF)。错误的线被忽略,例如BOM,不支持的符号。
最大允许的文件大小为500 KIB。超过此卷的所有内容都被忽略了。
每行都包括一个字段,结肠和价值。支持以下字段:
user-agent - 确定哪个机器人属于该规则;disallow - 禁止进入某个路径;allow - 允许访问路径(即使有禁止的规则);sitemap - 指示该站点的XML站点的位置。这是搜索机器人的名称,其中包括这些规则。该值对寄存器不敏感。
禁止进入某些路径。如果未指示路径,则忽略规则。对寄存器敏感的价值。
允许访问URL。它与其他规则一起起作用,与冲突,选择最少的限制性。
该网站URL的站点已完全指示。可以重复该字段。它可能在另一个领域。未连接到特定机器人。
您可以指示几个具有不同或相同用户代理的组。例如:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
每个机器人仅使用一组规则 - 最合适的用户代理。一般规则p * 如果没有更多的特定,则使用它们。
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
机器人 bot-news 使用第一组, bot - 第三,所有其他都是第二个。
该路径与URL的比较考虑了寄存器以及特殊符号。支持:
* - 对应于任意数量的字符;$ - 表示URL的末端。/ - 对应于所有页面;/$ - 只有根;/fish - 从 /fish;/*.php$ - URL,以 .php。在不同路径长度的规则冲突中,使用了更长的路径。长度相等 - 限制性较小。
示例:
对于您网站的所有问题以及SEO的其他方面的所有问题,您可以联系团队 SEO公司“ seo.computer” 通过电子邮件: info@seo.computer 或通过whatsapp: +79202044461
ID:159