Обзор Гугл (Google)-краулеров и фетчеров (пользовательских агентов) для вашего сайта в Гугл (Google)

Гугл (Google) использует краулеры и фетчеры для выполнения различных действий для своих продуктов, как автоматически, так и по запросу пользователя. Краулер (иногда называемый также «роботом» или «паучком») — это общее название для программы, которая используется для автоматического обнаружения и сканирования веб-сайтов. Фетчеры действуют как программа, аналогичная wget, и обычно выполняют одиночный запрос от имени пользователя. Продукты Гугл (Google) можно разделить на три категории:

Обычные краулеры для вашего сайта в Гугл (Google)

Обычные краулеры, используемые для продуктов Гугл (Google) (например, Гугл (Google)bot), всегда соблюдают правила robots.txt при автоматическом сканировании.

Особые краулеры для вашего сайта в Гугл (Google)

Особые краулеры похожи на обычные, но они используются в конкретных продуктах, где существует соглашение между сканируемым сайтом и продуктом Гугл (Google) относительно процесса сканирования. Например, AdsBot игнорирует глобальный robots.txt user-agent с разрешения владельца сайта.

Фетчеры, активируемые пользователем для вашего сайта в Гугл (Google)

Фетчеры, активируемые пользователем, являются частью инструментов и функций продукта, когда конечный пользователь инициирует запрос. Например, Гугл (Google) Site Verifier работает по запросу пользователя.

Технические характеристики краулеров и фетчеров Гугл (Google) для вашего сайта в Гугл (Google)

Краулеры и фетчеры Гугл (Google) разработаны для работы одновременно на тысячах машин с целью повышения производительности и масштабируемости по мере роста интернета. Чтобы оптимизировать использование полосы пропускания, эти клиенты распределены по множеству дата-центров по всему миру, так что они расположены ближе к сайтам, к которым могут обращаться. Поэтому в ваших логах могут быть указаны посещения с различных IP-адресов. Эгресс Гугл (Google) в основном происходит с IP-адресов в США. Если Гугл (Google) обнаружит, что сайт блокирует запросы из США, он может попытаться сканировать с IP-адресов, расположенных в других странах.

Поддерживаемые протоколы передачи для вашего сайта в Гугл (Google)

Краулеры и фетчеры Гугл (Google) поддерживают HTTP/1.1 и HTTP/2. Краулеры будут использовать версию протокола, которая обеспечивает наилучшую производительность сканирования, и могут переключаться между протоколами в зависимости от статистики предыдущих сессий сканирования. По умолчанию краулеры Гугл (Google) используют протокол HTTP/1.1. Сканиование через HTTP/2 может сэкономить ресурсы вычислений (например, ЦП, ОЗУ) как для вашего сайта, так и для Гугл (Google)bot, но в остальном это не дает никаких специфических преимуществ для сайта (например, это не влияет на рейтинг в Гугл (Google) Search). Чтобы отказаться от сканирования через HTTP/2, настройте сервер, чтобы он отвечал статусом 421 при попытке Гугл (Google) получить доступ к вашему сайту через HTTP/2. Если это невозможно, вы можете отправить сообщение в команду по сканированию (хотя это временное решение).

Инфраструктура краулеров Гугл (Google) также поддерживает сканирование через FTP (как определено в RFC959 и его обновлениях) и FTPS (как определено в RFC4217 и его обновлениях), однако сканирование через эти протоколы происходит редко.

Поддерживаемые методы сжатия контента для вашего сайта в Гугл (Google)

Краулеры и фетчеры Гугл (Google) поддерживают следующие методы сжатия контента (кодировки): gzip, deflate и Brotli (br). Поддерживаемые кодировки контента для каждого пользовательского агента Гугл (Google) указываются в заголовке Accept-Encoding каждого запроса, который они делают. Например: Accept-Encoding: gzip, deflate, br.

Скорость сканирования и нагрузка на хостинг для вашего сайта в Гугл (Google)

Наша цель — сканировать как можно больше страниц вашего сайта при каждом визите, не перегружая сервер. Если ваш сайт испытывает трудности с обслуживанием запросов от Гугл (Google), вы можете уменьшить скорость сканирования. Обратите внимание, что отправка неправильного HTTP-статуса краулерам Гугл (Google) может повлиять на то, как ваш сайт будет отображаться в продуктах Гугл (Google).

HTTP-кеширование для вашего сайта в Гугл (Google)

Инфраструктура краулеров Гугл (Google) поддерживает эвристическое HTTP-кеширование, как определено стандартом HTTP-кеширования, в частности через ответные заголовки ETag и If-None-Match, а также через ответные заголовки Last-Modified и If-Modified-Since.

Примечание: рекомендуется устанавливать значения ETag и Last-Modified, независимо от предпочтений краулеров Гугл (Google). Эти заголовки также используются другими приложениями, такими как CMS.

Если в ответных заголовках присутствуют оба поля ETag и Last-Modified, краулеры Гугл (Google) используют значение ETag, как это требует стандарт HTTP. Для краулеров Гугл (Google) мы рекомендуем использовать ETag вместо Last-Modified, чтобы указать предпочтения кеширования, так как ETag не имеет проблем с форматированием дат.

Другие директивы HTTP-кеширования не поддерживаются.

Отдельные краулеры и фетчеры Гугл (Google) могут или не могут использовать кеширование в зависимости от потребностей продукта, с которым они связаны. Например, Гугл (Google)bot поддерживает кеширование при повторном сканировании URL-адресов для Гугл (Google) Search, а Storebot-Гугл (Google) поддерживает кеширование только при определенных условиях.

Чтобы реализовать HTTP-кеширование для вашего сайта, обратитесь к вашему хостинг-провайдеру или поставщику системы управления контентом.

ETag и If-None-Match для вашего сайта в Гугл (Google)

Инфраструктура краулеров Гугл (Google) поддерживает ETag и If-None-Match, как определено стандартом HTTP-кеширования. Узнайте больше о заголовке ETag и его запросе If-None-Match.

Last-Modified и If-Modified-Since для вашего сайта в Гугл (Google)

Инфраструктура краулеров Гугл (Google) поддерживает Last-Modified и If-Modified-Since, как это определено стандартом HTTP-кеширования, с следующими оговорками:

Дата в заголовке Last-Modified должна быть отформатирована в соответствии с HTTP-стандартом. Чтобы избежать проблем с парсингом, мы рекомендуем использовать следующий формат даты: "Weekday, DD Mon YYYY HH:MM:SS Timezone". Например, "Fri, 4 Sep 1998 19:15:56 GMT".
Хотя это не обязательно, рассмотрите возможность установки поля max-age в заголовке Cache-Control, чтобы помочь краулерам определить, когда повторно сканировать конкретный URL. Установите значение max-age в ожидаемое количество секунд, в течение которых контент останется неизменным. Например, Cache-Control: max-age=94043.

Узнайте больше о заголовке Last-Modified и его запросе If-Modified-Since.

Проверка краулеров и фетчеров Гугл (Google) для вашего сайта в Гугл (Google)

Краулеры Гугл (Google) идентифицируют себя тремя способами:

HTTP-заголовок user-agent запроса.
IP-адрес источника запроса.
Обратный DNS-хостнейм источника IP.

Узнайте, как использовать эти данные для проверки краулеров и фетчеров Гугл (Google).

Если у вас возникнут вопросы по SEO или вам потребуется помощь, свяжитесь с нашей SEO-компанией по email info@seo.computer или через WhatsApp: +79202044461.

id 61