Некоторые поисковые роботы используются не стандартной системой индексации, а отдельными продуктами, с которыми у владельцев вашего сайта может быть особая договорённость по условиям сканирования. Например, определённый робот может обходить глобальные директивы robots.txt, указанные для всех агентов (*), если на то есть разрешение.
Такие специализированные роботы работают с другими IP-диапазонами, чем обычные поисковые системы. Актуальные диапазоны перечислены в JSON-файле специального назначения. Их обратные DNS-записи имеют маску вида rate-limited-proxy-***-***-***-***.google.com.
Ниже приводится перечень таких агентов, их user-agent строки, используемые значения для robots.txt и описание влияния их настроек на работу сервисов. Список не исчерпывающий, но включает тех роботов, которые наиболее часто появляются в логах и вызывают вопросы у владельцев сайтов.
User-Agent: APIs-Гугл (Google)
Запись в robots.txt: user-agent: APIs-Гугл (Google)
Игнорирует глобальные правила *.
user-agent: APIs-Гугл (Google) allow: /archive/1Q84 disallow: /archive/
Используется сервисами API, чтобы контролировать доставку push-сообщений на ваш сайт.
User-Agent: AdsBot-Гугл (Google)-Mobile
Запись в robots.txt: user-agent: AdsBot-Гугл (Google)-Mobile
Также игнорирует глобальные правила.
user-agent: AdsBot-Гугл (Google)-Mobile allow: /archive/1Q84 disallow: /archive/
Применяется для анализа качества рекламы на мобильных версиях страниц вашего сайта.
User-Agent: AdsBot-Гугл (Google)
Запись в robots.txt: user-agent: AdsBot-Гугл (Google)
user-agent: AdsBot-Гугл (Google) allow: /archive/1Q84 disallow: /archive/
Робот проверяет эффективность и соответствие рекламы на страницах сайта.
User-Agent: Mediapartners-Гугл (Google)
Запись в robots.txt: user-agent: Mediapartners-Гугл (Google)
Обходит директиву *.
user-agent: Mediapartners-Гугл (Google) allow: /archive/1Q84 disallow: /archive/
Посещает ваш сайт для подбора релевантной рекламы и её размещения на страницах.
User-Agent: Гугл (Google)-Safety
robots.txt: Полностью игнорируется
Робот служит для выявления вредоносных ссылок и злоупотреблений на страницах сайта. Не подчиняется robots.txt, так как работает исключительно в целях безопасности.
Ниже указаны агенты, которые больше не используются, но раньше могли присутствовать в логах или влиять на поведение сканирования.
User-Agent: AdsBot-Гугл (Google)-Mobile (устаревший)
robots.txt: Игнорировал глобальные правила
Применялся для оценки качества рекламы на страницах, открываемых с мобильных устройств.
User-Agent: DuplexWeb-Гугл (Google)
robots.txt: Мог игнорировать директиву *
Использовался автоматизированными сервисами для взаимодействия с содержимым страниц сайта.
User-Agent: Гугл (Google) Favicon
robots.txt: Использовал стандартные токены Гугл (Google)bot-Image и Гугл (Google)bot
Отвечал за отображение и выбор иконок сайта в поисковых интерфейсах.
User-Agent: AdsBot-Гугл (Google)-Mobile-Apps
robots.txt: Следовал правилам AdsBot-Гугл (Google), игнорируя *
Анализировал страницы Android-приложений, чтобы оценить их соответствие рекламным требованиям.
User-Agent: googleweblight
robots.txt: Игнорировал правила, так как был активен только по пользовательскому запросу
Этот агент обеспечивал упрощённую версию страниц сайта при медленном соединении, проверяя наличие заголовка no-transform.
По всем вопросам настройки robots.txt, управления поведением сканеров, а также по SEO-оптимизации, вы можете обратиться в seo-компанию seo.computer: info@seo.computer WhatsApp: +7 920 204-44-61
ID: 86