Специальные поисковые роботы используются отдельными сервисами, при этом между сайтом и сервисом устанавливаются особые договорённости по условиям сканирования. Например, отдельный робот может игнорировать общее правило в robots.txt для всех агентов (*), если есть согласие владельца сайта.
Такие роботы работают по другим IP-диапазонам, чем стандартные поисковые системы. Список этих IP-адресов размещён в специальном JSON-файле. Обратная DNS-запись этих IP может соответствовать шаблону rate-limited-proxy-***.***.***.***.google.com.
Ниже представлен перечень специальных роботов, используемых разными сервисами, их user-agent строки в HTTP-запросах, обозначения для robots.txt, а также описание влияния их настроек на поведение индексации. Список не является полным, но содержит наиболее часто встречающихся агентов в логах сайта.
User-Agent в HTTP-запросах: APIs-Гугл (Google)
User-agent token в robots.txt: APIs-Гугл (Google)
Общие правила, указанные через *, не учитываются этим роботом.
Пример настройки в robots.txt:
user-agent: APIs-Гугл (Google) allow: /archive/1Q84 disallow: /archive/
Настройки для этого user-agent влияют на доставку push-уведомлений через API.
User-Agent в HTTP-запросах: AdsBot-Гугл (Google)-Mobile
User-agent token в robots.txt: AdsBot-Гугл (Google)-Mobile
Общие директивы игнорируются.
user-agent: AdsBot-Гугл (Google)-Mobile allow: /archive/1Q84 disallow: /archive/
Этот агент проверяет качество рекламы на страницах вашего сайта, используемой в рекламных продуктах.
User-Agent в HTTP-запросах: AdsBot-Гугл (Google)
User-agent token в robots.txt: AdsBot-Гугл (Google)
Общий user-agent игнорируется.
user-agent: AdsBot-Гугл (Google) allow: /archive/1Q84 disallow: /archive/
Используется для оценки качества рекламного контента на страницах сайта.
User-Agent в HTTP-запросах: Mediapartners-Гугл (Google)
User-agent token в robots.txt: Mediapartners-Гугл (Google)
Игнорирует общие директивы в robots.txt.
user-agent: Mediapartners-Гугл (Google) allow: /archive/1Q84 disallow: /archive/
Используется для сканирования сайта с целью показа релевантной рекламы.
User-Agent в HTTP-запросах: Гугл (Google)-Safety
User-agent token в robots.txt: Не применяется — игнорирует правила.
Применяется для обнаружения вредоносных ссылок и другой подозрительной активности на страницах сайта. Этот агент не подчиняется настройкам robots.txt, так как служит для защиты пользователей.
Ниже перечислены агенты, которые ранее использовались, но в настоящее время больше не активны. Информация приводится для справки.
User-Agent: AdsBot-Гугл (Google)-Mobile
User-agent token: AdsBot-Гугл (Google)-Mobile
Применялся для оценки качества рекламы на мобильных устройствах, например, смартфонах.
User-Agent: DuplexWeb-Гугл (Google)
User-agent token: DuplexWeb-Гугл (Google)
Этот агент мог игнорировать общие правила, применялся в интерактивных сервисах.
User-Agent: Гугл (Google) Favicon
User-agent token: Гугл (Google)bot-Image, Гугл (Google)bot
Отвечал за сбор и отображение фавиконок сайта в различных интерфейсах.
User-Agent: AdsBot-Гугл (Google)-Mobile-Apps
User-agent token: AdsBot-Гугл (Google)-Mobile-Apps
Осуществлял сканирование страниц Android-приложений для оценки их качества и соответствия рекламе.
User-Agent: googleweblight
User-agent token: googleweblight
Использовался только при переходе реального пользователя через специальный режим поиска. Игнорировал robots.txt, так как не считался автоматическим сканером.
Этот агент проверял наличие заголовка no-transform на страницах сайта, чтобы оптимизировать их отображение при медленном соединении.
Если вам необходимо уточнить правила настройки robots.txt, поведения специальных роботов или любые другие SEO-вопросы, обратитесь в компанию seo.computer по email: info@seo.computer или WhatsApp: +7 920 204-44-61
ID: 86