Автоматические роботы поисковых систем, таких как Гугл (Google), перед началом обхода ресурса обращаются к файлу robots.txt, который размещён в корне вашего сайта. Этот файл содержит инструкции, какие разделы разрешено сканировать, а какие — нет. Важно понимать, что такой протокол не применяется к пользовательским сервисам или инструментам безопасности, которые работают иначе.
Чтобы ограничить доступ роботов к определённым разделам ресурса, на вашем сайте можно создать файл robots.txt, в котором прописываются правила для каждого робота. Пример структуры:
User-agent: * Disallow: /includes/ User-agent: Гугл (Google)bot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
Этот файл регулирует, какие части сайта можно индексировать, а какие — нет. Чтобы научиться с нуля, рекомендуется начать с ознакомления с базовыми принципами работы robots.txt и рекомендациями по его составлению.
Файл должен находиться строго в корне сайта (например, https://ваш_сайт/robots.txt). Он работает только для той комбинации домена, протокола и порта, где он размещён. Поддомены, другие порты и протоколы требуют отдельного файла robots.txt.
https://example.com/robots.txt — работает для https://example.com/, но не для http:// или других поддоменов.https://www.example.com/robots.txt — охватывает только www.ftp://example.com/robots.txt — применим исключительно для FTP-протокола.В зависимости от кода ответа при попытке получить файл robots.txt, поведение поисковых роботов меняется:
Роботы могут кэшировать содержимое файла до 24 часов, но в случае проблем (тайм-аутов, ошибок) срок может увеличиваться. Заголовки Cache-Control также влияют на поведение кэширования.
Файл должен быть в кодировке UTF-8, с разделителями строк CR, CR/LF или LF. Неправильные символы или -контент игнорируются. Максимальный допустимый размер файла — 500 КиБ, остальное игнорируется.
Каждая строка состоит из ключа, двоеточия и значения. Допускается добавление комментариев после знака #. Поддерживаются следующие поля:
Все пути чувствительны к регистру и должны начинаться с /.
Значение user-agent не чувствительно к регистру. Используйте точное имя робота, чтобы указать специфичные правила, иначе применяется глобальный шаблон *.
Ограничивает доступ роботов к указанным путям. Однако URL всё ещё может появляться в результатах поиска без фрагмента страницы.
Разрешает доступ к определённым путям, даже если они частично попадают под запрещающие правила.
Допускается размещение ссылок на карту сайта. Их может быть несколько. Адрес должен быть абсолютным и корректным. Они применимы ко всем роботам, если не запрещены отдельно.
Один набор правил может быть применён сразу к нескольким user-agent, повторяя строки user-agent друг за другом перед основными правилами.
Выбирается самый конкретный user-agent. Если найдено несколько совпадений, берётся самый длинный и точный. Общие правила * не комбинируются с частными.
Если несколько блоков относятся к одному роботу, они автоматически объединяются. Остальные строки, такие как sitemap, не учитываются при группировке.
Путь из правила сравнивается с URL-адресом страницы. Работают символы * (любой символ, 0 и более) и $ (конец строки). Примеры:
/ — совпадает с корнем сайта и всеми вложенными URL./fish — все пути, начинающиеся на /fish./fish/ — только те, где явно указан слэш в конце./*.php — все файлы с расширением .php./*.php$ — только те, что заканчиваются на .php.Если одновременно присутствуют конфликтующие правила, применяется то, что длиннее по пути и менее ограничительно. То есть в спорных случаях приоритет отдаётся наиболее точному разрешающему правилу.
Если вы хотите получить помощь в создании, проверке или настройке файла robots.txt для вашего сайта, обратитесь в SEO-агентство seo.computer. Пишите на email: info@seo.computer или в WhatsApp: +7 920 204 44 61.
ID: 159