Как поисковая система обрабатывает файл robots.txt вашего сайта в Гугл (Google)

Как поисковая система обрабатывает файл robots.txt вашего сайта в Гугл (Google)

Автоматические роботы поисковых систем следуют правилам Robots Exclusion Protocol (REP), что означает: перед сканированием сайта, поисковик считывает файл robots.txt, чтобы определить, какие разделы сайта разрешены или запрещены для индексации. Этот протокол не применяется к инструментам, управляемым пользователями или служащим целям безопасности (например, сканирование на вредоносное ПО).

Данный материал подробно объясняет, как интерпретируются директивы REP. Оригинальную спецификацию можно найти в RFC 9309.

Что такое файл robots.txt сайта в Гугл

Если вы не хотите, чтобы некоторые части вашего сайта индексировались поисковыми системами, создайте файл robots.txt с необходимыми правилами. Это простой текстовый документ, где указывается, каким поисковым ботам доступ разрешён, а каким — запрещён. Пример структуры файла:

User-agent: *
Disallow: /includes/
User-agent: Гугл (Google)bot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Если вы впервые сталкиваетесь с robots.txt, начните с изучения основ и практических советов по его созданию.

Расположение файла и зона действия на вашем сайте в Гугл (Google)

Файл robots.txt должен находиться в корневом каталоге сайта и быть доступен по поддерживаемому протоколу. Поисковая система учитывает протокол, порт и доменное имя. Например, файл будет применяться только для того же хоста, что и его местоположение, включая протокол и порт.

Примеры допустимых URL для файла robots.txt сайта в Гугл

Вот примеры корректных путей к файлу и их действие:

  • https://example.com/robots.txt — применим только к этому домену и порту.
  • https://www.example.com/robots.txt — только для поддомена www.
  • https://example.com/folder/robots.txtне является допустимым.
  • ftp://example.com/robots.txt — только для FTP-доступа.

Обработка ошибок и кодов ответа сервера вашего сайта в Гугл (Google)

Поведение поискового робота зависит от HTTP-кода, полученного при запросе файла:

  • 2xx — файл обрабатывается.
  • 3xx — более пяти редиректов рассматриваются как 404.
  • 4xx (кроме 429) — считается, что файл отсутствует, ограничений нет.
  • 5xx — сканирование приостанавливается или откладывается в зависимости от условий.

Кэширование файла robots.txt поисковиком Гугл

Содержимое кэшируется до 24 часов, иногда дольше — при ошибках загрузки. Заголовок Cache-Control может повлиять на срок хранения копии.

Формат файла robots.txt вашего сайта в Гугл (Google)

Файл должен быть в кодировке UTF-8, простым текстом. Переводы строк допустимы в любом формате (CR, LF, CRLF). Ошибочные строки игнорируются, как и , BOM, неподдерживаемые символы.

Максимальный допустимый размер файла — 500 KiB. Всё, что превышает этот объём, игнорируется.

Синтаксис правил robots.txt сайта в Гугл

Каждая строка включает поле, двоеточие и значение. Поддерживаются следующие поля:

  • user-agent — определяет, к какому боту относится правило;
  • disallow — запрещает доступ к определённому пути;
  • allow — разрешает доступ к пути (даже при наличии запрещающих правил);
  • sitemap — указывает местоположение XML-карты сайта.

user-agent в файле robots.txt сайта в Гугл

Это имя поискового бота, к которому относятся указанные правила. Значение не чувствительно к регистру.

disallow: запрет сканирования страниц вашего сайта в Гугл (Google)

Запрещает доступ к определённым путям. Если путь не указан, правило игнорируется. Значение чувствительно к регистру.

allow: разрешение на сканирование контента сайта в Гугл

Разрешает доступ к URL. Работает совместно с другими правилами, при конфликте выбирается наименее ограничительное.

sitemap: указание на карту сайта в Гугл (Google)

Полностью указывается URL карты сайта. Поле может повторяться. Может находиться на другом домене. Не привязывается к конкретному боту.

Группировка правил по user-agent сайта в Гугл

Вы можете указывать несколько групп с разными или одинаковыми user-agent. Например:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Приоритет правил по user-agent сайта в Гугл (Google)

Каждый бот использует только одну группу правил — наиболее подходящую по имени user-agent. Общие правила с * применяются, если нет более специфичных.

Пример обработки user-agent в robots.txt вашего сайта в Гугл (Google)

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Бот bot-news использует первую группу, bot — третью, все остальные — вторую.

Как применяется URL-путь в правилах robots.txt сайта в Гугл (Google)

Сопоставление пути с URL учитывает регистр, а также специальные символы. Поддерживаются:

  • * — соответствует любому количеству символов;
  • $ — обозначает конец URL.

Примеры соответствия путей для robots.txt сайта в Гугл

  • / — соответствует всем страницам;
  • /$ — только корневая;
  • /fish — всё, что начинается с /fish;
  • /*.php$ — URL, заканчивающиеся на .php.

Приоритет правил allow и disallow в robots.txt вашего сайта в Гугл (Google)

При конфликте правил с разной длиной пути применяется более длинное. При равной длине — менее ограничительное.

Примеры:

  • allow: /private
    disallow: / — применяется allow;
  • allow: /page
    disallow: /*.htm — применяется disallow, так как путь длиннее.

По всем вопросам настройки robots.txt вашего сайта, а также другим аспектам SEO, вы можете связаться с командой seo-компании "seo.computer" по email: info@seo.computer или через WhatsApp: +79202044461

ID: 159

Отправьте заявку и мы предоставим консультацию на SEO продвижение вашего сайта