Cómo el motor de búsqueda procesa el archivo robots.txt para su sitio de Google

Cómo el motor de búsqueda procesa el archivo robots.txt para su sitio de Google

Los robots automáticos de los motores de búsqueda siguen las reglas del protocolo de exclusión de robots (REP), lo que significa: antes de escanear el sitio, el motor de búsqueda lee el archivo robots.txtPara determinar qué secciones del Sitio están permitidas o prohibidas para la indexación. Este protocolo no se aplica a las herramientas controladas por usuarios o empleados de los objetivos de seguridad (por ejemplo, escanear para software malicioso).

Este material explica en detalle cómo se interpretan las directivas de REP. La especificación original se puede encontrar en RFC 9309.

¿Cuál es el archivo robots.txt del sitio en google?

Si no desea que algunas partes de su sitio sean indexadas por los motores de búsqueda, cree un archivo robots.txt con las reglas necesarias. Este es un documento de texto simple, que indica qué botas de búsqueda se permite el acceso y cuál está prohibido. Un ejemplo de estructura de archivo:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Si encuentra por primera vez Robots.txt, comience por estudiar los conceptos básicos y los consejos prácticos para su creación.

Ubicación y área de acción del archivo en su sitio de Google

El archivo robots.txt debe estar en el catálogo raíz del sitio y estar disponible en el protocolo compatible. El motor de búsqueda tiene en cuenta el protocolo, el puerto y el nombre de dominio. Por ejemplo, el archivo se usará solo para el mismo host que su ubicación, incluido el protocolo y el puerto.

Ejemplos de la URL permitida para el archivo robots.txt en Google

Aquí hay ejemplos de las formas correctas al archivo y su acción:

  • Https: // ejemplo - Aplicamos solo a este dominio y puerto.
  • Https: // vvv. Ejemplo - Solo para pododen www.
  • Https: // ejemplo.kom/ carpeta/ robots - No es aceptable.
  • Ftp: // ejemplo -Solo para la aplicación FTP.

Errores de procesamiento y códigos de respuesta del servidor de su sitio en Google

El comportamiento del robot de búsqueda depende del código HTTP recibido cuando se solicita el archivo:

  • 2xx - El archivo se procesa.
  • 3xx - Más de cinco redireccionamientos se consideran 404.
  • 4xx (excepto 429) - Se cree que el archivo está ausente, no hay restricciones.
  • 5xx - El escaneo se suspende o pospone según las condiciones.

Robots.txt en caché del motor de búsqueda Google

El contenido se almacena en caché hasta 24 horas, a veces más tiempo, con errores de carga. Título Cache-Control puede afectar el período de almacenamiento de una copia.

Robots.txt formato para su sitio de Google

El archivo debe estar en la codificación UTF-8, texto simple. Las traducciones de las líneas están permitidas en cualquier formato (CR, LF, CRLF). Las líneas erróneas se ignoran, como, nacidos, símbolos no compatibles.

El tamaño máximo de archivo permitido es de 500 kib. Se ignora todo lo que excede este volumen.

Robots.txt Reglas Sitio de sintaxis a Google

Cada línea incluye un campo, colon y valor. Se admiten los siguientes campos:

  • user-agent - Determina qué bot pertenece a la regla;
  • disallow - prohíbe el acceso a una cierta ruta;
  • allow - permite el acceso a la ruta (incluso si hay reglas prohibidas);
  • sitemap -Nindica la ubicación del sitio XML del sitio.

Usuario- Agente en el archivo robots.txt en Google

Este es el nombre del bot de búsqueda, que incluye estas reglas. El valor no es sensible al registro.

No permitir: prohibir las páginas de su sitio en Google

Prohíbe el acceso a ciertas rutas. Si la ruta no está indicada, se ignora la regla. Valor sensible al registro.

Permitir: permiso para escanear el contenido del sitio en Google

Permite el acceso a la URL. Funciona junto con otras reglas, con un conflicto, se selecciona el menos restrictivo.

Sitemap: indicar la tarjeta de sitio en Google

El sitio de la URL del sitio está completamente indicado. El campo se puede repetir. Puede estar en otro dominio. No adjunto a un bot específico.

Reglas de agrupación para el sitio de agente de usuario en Google

Puede indicar varios grupos con un agente de usuario diferente o el mismo usuario. Por ejemplo:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Prioridad de las reglas para el sitio de agente de usuario en Google

Cada bot usa solo un grupo de reglas, el agente de usuario más adecuado nombrado. Reglas generales P * Se usan si no hay más específicos.

Un ejemplo de procesamiento de agentes de usuario en robots. Txt su sitio de Google

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Bot bot-news Usa el primer grupo, bot - El tercero, todos los demás son los segundos.

¿Cómo se coloca la URL en las reglas de robots?

Una comparación de la ruta con la URL tiene en cuenta el registro, así como símbolos especiales. Apoyado:

  • * - corresponde a cualquier número de caracteres;
  • $ - denota el final de la URL.

Ejemplos de cumplimiento de formas para robots.txt sitio en Google

  • / - corresponde a todas las páginas;
  • /$ - Solo raíz;
  • /fish - Todo lo que comienza con /fish;
  • /*.php$ - URL, terminando en .php.

La prioridad de las reglas de Permitir y no permitir en Robots.txt Su sitio web de Google

En el conflicto de reglas con diferentes longitudes de ruta, se usa una más larga. Con igual longitud - menos restrictivo.

Ejemplos:

  • Permitir: /Privado
    No se utiliza: / - Permitir;
  • Permitir: /página
    Desescribir: /*.htm - No se utiliza el no permitir, ya que la ruta es más larga.

Para todos los problemas de la configuración de robots.txt de su sitio, así como otros aspectos de SEO, puede comunicarse con el equipo Compañías de SEO "SEO.COMPUTER" Por correo electrónico: info@seo.computer o a través de whatsapp: +79202044461

ID: 159

Envíe una solicitud y le brindaremos una consulta. en SEO promoción de su sitio web