Cómo el motor de búsqueda analiza el archivo robots.txt para su sitio de Google

Robots automáticos de motores de búsqueda, como Google, antes de rodear el recurso, comuníquese con el archivo robots.txtque se encuentra en la raíz de su sitio. Este archivo contiene instrucciones, qué secciones pueden escanear y cuáles no. Es importante comprender que dicho protocolo no se aplica a los servicios de usuarios o herramientas de seguridad que funcionan de manera diferente.

¿Qué es un archivo robots.txt para su sitio de Google?

Para limitar el acceso de los robots a ciertas secciones del recurso, puede crear un archivo en su sitio robots.txtEn el que se prescriben las reglas para cada robot. Ejemplo de la estructura:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

Este archivo regula qué partes del sitio se pueden indexar y cuál - no. Para aprender desde cero, se recomienda comenzar con la familiarización con los principios básicos del trabajo robots.txt y recomendaciones para su compilación.

Dónde publicar un archivo robots.txt en su sitio web de Google

El archivo debe estar estrictamente en la raíz del sitio (por ejemplo, https://ваш_сайт/robots.txt). Funciona solo para esa combinación del dominio, el protocolo y el puerto donde se coloca. Podomeni, otros puertos y protocolos requieren un archivo separado robots.txt.

Ejemplos de las direcciones correctas del archivo robots.txt de su sitio para Google

https://example.com/robots.txt - Funciona para https://example.com/Pero no para http:// u otros subdominios.
https://www.example.com/robots.txt - Solo cubre www.
ftp://example.com/robots.txt -Los aplicamos exclusivamente para el protocolo FTP.

Procesamiento de errores y códigos de respuesta HTTP en su sitio web de Google

Dependiendo del código de respuesta al intentar obtener un archivo robots.txt, el comportamiento de los robots de búsqueda está cambiando:

Códigos 2xx: se lee y usa el archivo.
Códigos 3xx: si se redirigen más de 5, el archivo se considera inaccesible.
Códigos 4xx (excepto 429): se cree que no hay prohibiciones.
Códigos 5xx: con errores de servidores, el robot puede detener temporalmente el sitio del sitio.

Cómo Google está almacenando en caché el archivo robots.txt para su sitio

Los robots pueden almacenar en caché el contenido del archivo hasta 24 horas, pero en el caso de problemas (tiempos de espera, errores), la fecha límite puede aumentar. Titulares Cache-Control También afecta el comportamiento del almacenamiento en caché.

Formato de archivo robots.txt y codificación para el sitio de Google

El archivo debe estar en la codificación UTF-8, con los divisores de las líneas CR, CR/LF o LF. Se ignoran los símbolos incorrectos o el contenido. El tamaño máximo de archivo permitido es de 500 kib, el resto se ignora.

Sintaxis y robots compatibles. Directivas txt en Google para su sitio

Cada línea consiste en una clave, colon y valores. Se le permite agregar comentarios después del signo #. Se admiten los siguientes campos:

agente de usuario - Indica para qué robot son aplicables las reglas.
Permitir - El camino permitido.
Rechazar - Camino prohibido.
Mapa del sitio - Dirección completa de la tarjeta del sitio.

Todas las rutas son sensibles al registro y deben comenzar con /.

Explicación por agente de usuario: cómo especificar las reglas para robots específicos de su sitio en Google

Significado user-agent No es sensible al registro. Use el nombre exacto del robot para especificar reglas específicas, de lo contrario se utiliza la plantilla global *.

¿Qué hace la directiva de no permitir en el archivo robots.txt de su sitio en Google?

Limita el acceso de los robots a las rutas especificadas. Sin embargo, la URL aún puede aparecer en los resultados de búsqueda sin un fragmento de página.

Permitir funciones: cómo dar acceso a las secciones de su sitio en Google

Permite el acceso a ciertas rutas, incluso si parcialmente caen bajo reglas prohibidas.

Cómo indicar el mapa del sitio en robots.txt para su sitio de Google

Se le permite publicar enlaces a la tarjeta del sitio. Puede haber varios de ellos. La dirección debe ser absoluta y correcta. Son aplicables a todos los robots, si no se prohíben por separado.

Agrupación de reglas en robots.txt su sitio en Google

Un conjunto de reglas se puede aplicar a varios agentes de usuario a la vez, repitiendo las líneas de agente de usuario una tras otra frente a las reglas básicas.

Determinar prioridades para el usuario-agente en el archivo robots.txt de su sitio en Google

Se selecciona el agente de usuario más específico. Si se encuentran varias coincidencias, se toma el más largo y preciso. Reglas generales * No combinado con los privados.

Ejemplos de agrupación de robots. Reglas de txt en el sitio en Google

Si varios bloques pertenecen a un robot, se combinan automáticamente. Las líneas restantes, como el mapa del sitio, no se tienen en cuenta al agruparse.

Cómo comparar las rutas de URL y los robots. Reglas de txt en Google para su sitio

La ruta de la regla se compara con la página de la página. Los símbolos funcionan * (cualquier símbolo, 0 o más) y $ (Fin de la línea). Ejemplos:

/ - Coincide con la raíz del sitio y todas las URL invertidas.
/fish - Todos los caminos que comienzan /fish.
/fish/ - Solo aquellos donde la barra se indica claramente al final.
/*.php - Todos los archivos con la expansión .php.
/*.php$ - Solo aquellos que terminan en .php.

La prioridad de las reglas Permitir y no permitir en el archivo robots.txt en su sitio para Google

Si las reglas conflictivas están presentes al mismo tiempo, se usa lo que es más largo en el camino y menos restrictivo. Es decir, en casos controvertidos, se da prioridad a la regla de resolución más precisa.

Si desea recibir ayuda para crear, verificar o configurar un archivo robots.txt para su sitio, comuníquese con la agencia de SEO CEO. Escribe por correo electrónico: info@seo.computer O en whatsapp: +7 920 204 44 61.

ID: 159