Автоматические роботы поисковых систем следуют правилам Robots Exclusion Protocol (REP), что означает: перед сканированием сайта, поисковик считывает файл robots.txt, чтобы определить, какие разделы сайта разрешены или запрещены для индексации. Этот протокол не применяется к инструментам, управляемым пользователями или служащим целям безопасности (например, сканирование на вредоносное ПО).
Данный материал подробно объясняет, как интерпретируются директивы REP. Оригинальную спецификацию можно найти в RFC 9309.
Если вы не хотите, чтобы некоторые части вашего сайта индексировались поисковыми системами, создайте файл robots.txt с необходимыми правилами. Это простой текстовый документ, где указывается, каким поисковым ботам доступ разрешён, а каким — запрещён. Пример структуры файла:
User-agent: * Disallow: /includes/ User-agent: Гугл (Google)bot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Если вы впервые сталкиваетесь с robots.txt, начните с изучения основ и практических советов по его созданию.
Файл robots.txt должен находиться в корневом каталоге сайта и быть доступен по поддерживаемому протоколу. Поисковая система учитывает протокол, порт и доменное имя. Например, файл будет применяться только для того же хоста, что и его местоположение, включая протокол и порт.
Вот примеры корректных путей к файлу и их действие:
www.Поведение поискового робота зависит от HTTP-кода, полученного при запросе файла:
Содержимое кэшируется до 24 часов, иногда дольше — при ошибках загрузки. Заголовок Cache-Control может повлиять на срок хранения копии.
Файл должен быть в кодировке UTF-8, простым текстом. Переводы строк допустимы в любом формате (CR, LF, CRLF). Ошибочные строки игнорируются, как и , BOM, неподдерживаемые символы.
Максимальный допустимый размер файла — 500 KiB. Всё, что превышает этот объём, игнорируется.
Каждая строка включает поле, двоеточие и значение. Поддерживаются следующие поля:
user-agent — определяет, к какому боту относится правило;disallow — запрещает доступ к определённому пути;allow — разрешает доступ к пути (даже при наличии запрещающих правил);sitemap — указывает местоположение XML-карты сайта.Это имя поискового бота, к которому относятся указанные правила. Значение не чувствительно к регистру.
Запрещает доступ к определённым путям. Если путь не указан, правило игнорируется. Значение чувствительно к регистру.
Разрешает доступ к URL. Работает совместно с другими правилами, при конфликте выбирается наименее ограничительное.
Полностью указывается URL карты сайта. Поле может повторяться. Может находиться на другом домене. Не привязывается к конкретному боту.
Вы можете указывать несколько групп с разными или одинаковыми user-agent. Например:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Каждый бот использует только одну группу правил — наиболее подходящую по имени user-agent. Общие правила с * применяются, если нет более специфичных.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Бот bot-news использует первую группу, bot — третью, все остальные — вторую.
Сопоставление пути с URL учитывает регистр, а также специальные символы. Поддерживаются:
* — соответствует любому количеству символов;$ — обозначает конец URL./ — соответствует всем страницам;/$ — только корневая;/fish — всё, что начинается с /fish;/*.php$ — URL, заканчивающиеся на .php.При конфликте правил с разной длиной пути применяется более длинное. При равной длине — менее ограничительное.
Примеры:
По всем вопросам настройки robots.txt вашего сайта, а также другим аспектам SEO, вы можете связаться с командой seo-компании "seo.computer" по email: info@seo.computer или через WhatsApp: +79202044461
ID: 159