搜索引擎(例如Google)的自动机器人在浏览资源之前,请联系文件 robots.txt位于您网站的根源中。该文件包含指令,其中允许扫描哪些部分,哪些则不扫描。重要的是要了解,这种协议不适用于不同工作方式的用户服务或安全工具。
为了限制机器人访问资源的某些部分,您可以在网站上创建一个文件 robots.txt其中为每个机器人规定规则。结构的示例:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
该文件调节网站的哪些部分可以索引,哪些 - 否。要从头开始学习,建议从熟悉工作原理开始 robots.txt 并建议其汇编。
该文件应严格在网站的根部(例如, https://ваш_сайт/robots.txt)。它仅适用于放置域,协议和端口的组合。 podomeni,其他端口和协议需要一个单独的文件 robots.txt。
https://example.com/robots.txt - 它适用于 https://example.com/但不适合 http:// 或其他子域。https://www.example.com/robots.txt - 仅覆盖 www。ftp://example.com/robots.txt - 我们专门申请FTP协议。尝试获取文件时的答案代码 robots.txt,搜索机器人的行为正在发生变化:
机器人可以将文件内容缓存长达24小时,但是在问题(超时,错误)的情况下,截止日期可能会增加。头条新闻 Cache-Control 也影响缓存的行为。
该文件应在UTF-8编码中,并带有CR,CR/LF或LF线的分隔线。忽略错误的符号或符号。最大允许的文件大小为500 KIB,其余的将忽略。
每行都由一个钥匙,结肠和值组成。标志后允许添加评论 #。支持以下字段:
所有路径对寄存器敏感,应从 /。
意义 user-agent 对寄存器不敏感。使用机器人的确切名称指定特定规则,否则使用全局模板 *。
限制机器人进入指定路径的访问。但是,URL仍然可以出现在搜索结果中,而无需页面片段。
即使部分属于禁止的规则,也可以访问某些路径。
它可以发布到网站卡的链接。可能有几个。该地址应该是绝对和正确的。它们适用于所有机器人,即使不是单独禁止的话。
一组规则可以一次应用于几个用户代理,在基本规则的前面重复一个接一个用户代理行。
Выбирается самый конкретный user-agent. Если найдено несколько совпадений, берётся самый длинный и точный. Общие правила * 不与私人的结合。
如果几个块属于一个机器人,则将它们自动组合。分组时未考虑其余的线,例如站点地图。
将规则的路径与页面的页面进行了比较。符号工作 * (任何符号,0或更多)和 $ (线的结尾)。示例:
/ - 与网站的根和所有投资URL相吻合。/fish - 所有路径开始 /fish。/fish/ - 只有那些在末尾清楚地指示的斜线。/*.php - 所有具有扩展.php的文件。/*.php$ - 只有以.php结尾的人。如果同时存在冲突的规则,则使用它在此过程中更长而限制性较小的情况。也就是说,在有争议的情况下,优先级是最准确的解决规则。
如果您想在创建,检查或设置robots.txt文件中获得帮助,请联系SEO代理商 首席执行官。在电子邮件中写信: info@seo.computer 或WhatsApp: +7 920 204 44 61。
ID:159