Гугл (Google) использует краулеры и фетчеры для выполнения различных действий для своих продуктов, как автоматически, так и по запросу пользователя. Краулер (иногда называемый также «роботом» или «паучком») — это общее название для программы, которая используется для автоматического обнаружения и сканирования веб-сайтов. Фетчеры действуют как программа, аналогичная wget, и обычно выполняют одиночный запрос от имени пользователя. Продукты Гугл (Google) можно разделить на три категории:
Обычные краулеры, используемые для продуктов Гугл (Google) (например, Гугл (Google)bot), всегда соблюдают правила robots.txt при автоматическом сканировании.
Особые краулеры похожи на обычные, но они используются в конкретных продуктах, где существует соглашение между сканируемым сайтом и продуктом Гугл (Google) относительно процесса сканирования. Например, AdsBot игнорирует глобальный robots.txt user-agent с разрешения владельца сайта.
Фетчеры, активируемые пользователем, являются частью инструментов и функций продукта, когда конечный пользователь инициирует запрос. Например, Гугл (Google) Site Verifier работает по запросу пользователя.
Краулеры и фетчеры Гугл (Google) разработаны для работы одновременно на тысячах машин с целью повышения производительности и масштабируемости по мере роста интернета. Чтобы оптимизировать использование полосы пропускания, эти клиенты распределены по множеству дата-центров по всему миру, так что они расположены ближе к сайтам, к которым могут обращаться. Поэтому в ваших логах могут быть указаны посещения с различных IP-адресов. Эгресс Гугл (Google) в основном происходит с IP-адресов в США. Если Гугл (Google) обнаружит, что сайт блокирует запросы из США, он может попытаться сканировать с IP-адресов, расположенных в других странах.
Краулеры и фетчеры Гугл (Google) поддерживают HTTP/1.1 и HTTP/2. Краулеры будут использовать версию протокола, которая обеспечивает наилучшую производительность сканирования, и могут переключаться между протоколами в зависимости от статистики предыдущих сессий сканирования. По умолчанию краулеры Гугл (Google) используют протокол HTTP/1.1. Сканиование через HTTP/2 может сэкономить ресурсы вычислений (например, ЦП, ОЗУ) как для вашего сайта, так и для Гугл (Google)bot, но в остальном это не дает никаких специфических преимуществ для сайта (например, это не влияет на рейтинг в Гугл (Google) Search). Чтобы отказаться от сканирования через HTTP/2, настройте сервер, чтобы он отвечал статусом 421 при попытке Гугл (Google) получить доступ к вашему сайту через HTTP/2. Если это невозможно, вы можете отправить сообщение в команду по сканированию (хотя это временное решение).
Инфраструктура краулеров Гугл (Google) также поддерживает сканирование через FTP (как определено в RFC959 и его обновлениях) и FTPS (как определено в RFC4217 и его обновлениях), однако сканирование через эти протоколы происходит редко.
Краулеры и фетчеры Гугл (Google) поддерживают следующие методы сжатия контента (кодировки): gzip, deflate и Brotli (br). Поддерживаемые кодировки контента для каждого пользовательского агента Гугл (Google) указываются в заголовке Accept-Encoding каждого запроса, который они делают. Например: Accept-Encoding: gzip, deflate, br.
Наша цель — сканировать как можно больше страниц вашего сайта при каждом визите, не перегружая сервер. Если ваш сайт испытывает трудности с обслуживанием запросов от Гугл (Google), вы можете уменьшить скорость сканирования. Обратите внимание, что отправка неправильного HTTP-статуса краулерам Гугл (Google) может повлиять на то, как ваш сайт будет отображаться в продуктах Гугл (Google).
Инфраструктура краулеров Гугл (Google) поддерживает эвристическое HTTP-кеширование, как определено стандартом HTTP-кеширования, в частности через ответные заголовки ETag и If-None-Match, а также через ответные заголовки Last-Modified и If-Modified-Since.
Примечание: рекомендуется устанавливать значения ETag и Last-Modified, независимо от предпочтений краулеров Гугл (Google). Эти заголовки также используются другими приложениями, такими как CMS.
Если в ответных заголовках присутствуют оба поля ETag и Last-Modified, краулеры Гугл (Google) используют значение ETag, как это требует стандарт HTTP. Для краулеров Гугл (Google) мы рекомендуем использовать ETag вместо Last-Modified, чтобы указать предпочтения кеширования, так как ETag не имеет проблем с форматированием дат.
Другие директивы HTTP-кеширования не поддерживаются.
Отдельные краулеры и фетчеры Гугл (Google) могут или не могут использовать кеширование в зависимости от потребностей продукта, с которым они связаны. Например, Гугл (Google)bot поддерживает кеширование при повторном сканировании URL-адресов для Гугл (Google) Search, а Storebot-Гугл (Google) поддерживает кеширование только при определенных условиях.
Чтобы реализовать HTTP-кеширование для вашего сайта, обратитесь к вашему хостинг-провайдеру или поставщику системы управления контентом.
Инфраструктура краулеров Гугл (Google) поддерживает ETag и If-None-Match, как определено стандартом HTTP-кеширования. Узнайте больше о заголовке ETag и его запросе If-None-Match.
Инфраструктура краулеров Гугл (Google) поддерживает Last-Modified и If-Modified-Since, как это определено стандартом HTTP-кеширования, с следующими оговорками:
Узнайте больше о заголовке Last-Modified и его запросе If-Modified-Since.
Краулеры Гугл (Google) идентифицируют себя тремя способами:
Узнайте, как использовать эти данные для проверки краулеров и фетчеров Гугл (Google).
Если у вас возникнут вопросы по SEO или вам потребуется помощь, свяжитесь с нашей SEO-компанией по email info@seo.computer или через WhatsApp: +79202044461.
id 61