Общие краулеры сайта используются для поиска информации и создания индексов поисковых систем Гугл (Google). Они также применяются для специфических задач продуктов и аналитики. Эти краулеры всегда соблюдают правила robots.txt при автоматическом обходе. Технические характеристики основных краулеров сайта распространяются и на общие краулеры.
Как правило, общие краулеры сайта работают с IP-адресов, перечисленных в специальном объекте googlebot.json, а обратные DNS-запросы к их хостнеймам соответствуют шаблонам crawl-***-***-***-***.googlebot.com или geo-crawl-***-***-***-***.geo.googlebot.com.
В представленном списке указаны общие краулеры сайта, их строки user-agent в HTTP-запросах, соответствующие токены user-agent для директив robots.txt, а также продукты, на которые влияют настройки краулинга для каждого краулера. Некоторые краулеры имеют несколько user-agent токенов — достаточно сопоставить один из них для применения правил. Список не исчерпывающий, он включает только наиболее часто встречающиеся запросы и те, по которым поступали вопросы.
Внимание: строку user-agent в HTTP-запросе можно подделать. Рекомендуется проверять, действительно ли посетитель является краулером сайта поисковой системы Гугл (Google).
Строки User-Agent в HTTP-запросах для Гугл (Google)bot бывают двух основных видов — для смартфонов и для настольных устройств. Пример для смартфонов: Mozilla/5.0 (Linux; Android) AppleWebKit/... Chrome/... Mobile Safari/... (compatible; Гугл (Google)bot/2.1; ...). Для настольных устройств — Mozilla/5.0 AppleWebKit/... (compatible; Гугл (Google)bot/2.1; ...).
Реже встречаются варианты типа Mozilla/5.0 (compatible; Гугл (Google)bot/2.1; ...) или просто Гугл (Google)bot/2.1 (...).
В robots.txt для управления этим краулером сайта используется токен Гугл (Google)bot.
Настройки краулинга для Гугл (Google)bot влияют на продукты поиска Гугл (Google), включая поиск, Discover, поиск изображений, видео и новости.
Строка User-Agent: Гугл (Google)bot-Image/1.0.
Токен в robots.txt: Гугл (Google)bot-Image.
Управление краулингом этим краулером сайта отражается на поиске изображений, Discover, видеоконтенте и отображении логотипов и фавиконов в результатах поиска Гугл (Google).
Строка User-Agent: Гугл (Google)bot-Video/1.0.
Токен в robots.txt: Гугл (Google)bot-Video.
Этот краулер сайта влияет на функции поиска видео и продукты, связанные с видеоконтентом.
Этот краулер сайта не использует отдельный HTTP User-Agent. Краулинг новостного контента выполняется с использованием разных Гугл (Google)bot user-agent строк.
Токен в robots.txt: Гугл (Google)bot-News.
Настройки краулинга влияют на сервисы новостей Гугл (Google), включая новости и мобильные приложения.
Строки User-Agent бывают для настольных и мобильных устройств с указанием Storebot-Гугл (Google).
Токен в robots.txt: Storebot-Гугл (Google).
Этот краулер сайта используется для сбора данных для торговых продуктов, таких как раздел покупок в поиске Гугл (Google).
Строки User-Agent для настольных и мобильных устройств содержат Гугл (Google)-InspectionTool.
Токен в robots.txt: Гугл (Google)-InspectionTool.
Этот краулер сайта применяется для инструментов тестирования поисковых результатов и не влияет на общие результаты поиска Гугл (Google).
Строки User-Agent: Mozilla/... (compatible; Гугл (Google)Other) для мобильных и настольных устройств.
Токен в robots.txt: Гугл (Google)Other.
Этот краулер сайта используется для различных однократных или внутренних задач, не влияя на результаты поиска Гугл (Google).
Строка User-Agent: Гугл (Google)Other-Image/1.0.
Токен в robots.txt: Гугл (Google)Other-Image.
Краулер сайта оптимизирован для сбора изображений, не влияя на конкретные продукты Гугл (Google).
Строка User-Agent: Гугл (Google)Other-Video/1.0.
Токен в robots.txt: Гугл (Google)Other-Video.
Используется для сбора видеофайлов без влияния на результаты поиска.
Строка User-Agent содержит Гугл (Google)-CloudVertexBot.
Токен в robots.txt: Гугл (Google)-CloudVertexBot.
Используется для краулинга, связанного с построением AI-агентов и не влияет на поисковую выдачу Гугл (Google).
Не имеет отдельной HTTP строки User-Agent. Токен в robots.txt: Гугл (Google)-Extended.
Позволяет владельцам сайта контролировать использование контента для обучения моделей ИИ, не влияя на ранжирование в поиске Гугл (Google).
Обозначение Chrome/W.X.Y.Z в строках User-Agent — это шаблон, обозначающий версию браузера Chrome, используемого краулером сайта. Номер версии со временем обновляется.
При поиске или фильтрации по user-agent в логах рекомендуется использовать подстановочные знаки для версии вместо точного номера.
По любым вопросам можно обратиться в seo компанию seo.computer по email info@seo.computer или через WhatsApp +79202044461.
id 141