Los robots automáticos de los motores de búsqueda siguen las reglas del protocolo de exclusión de robots (REP), lo que significa: antes de escanear el sitio, el motor de búsqueda lee el archivo robots.txtPara determinar qué secciones del Sitio están permitidas o prohibidas para la indexación. Este protocolo no se aplica a las herramientas controladas por usuarios o empleados de los objetivos de seguridad (por ejemplo, escanear para software malicioso).
Este material explica en detalle cómo se interpretan las directivas de REP. La especificación original se puede encontrar en RFC 9309.
Si no desea que algunas partes de su sitio sean indexadas por los motores de búsqueda, cree un archivo robots.txt con las reglas necesarias. Este es un documento de texto simple, que indica qué botas de búsqueda se permite el acceso y cuál está prohibido. Un ejemplo de estructura de archivo:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://вашдомен.ру/sitemap.xml
Si encuentra por primera vez Robots.txt, comience por estudiar los conceptos básicos y los consejos prácticos para su creación.
El archivo robots.txt debe estar en el catálogo raíz del sitio y estar disponible en el protocolo compatible. El motor de búsqueda tiene en cuenta el protocolo, el puerto y el nombre de dominio. Por ejemplo, el archivo se usará solo para el mismo host que su ubicación, incluido el protocolo y el puerto.
Aquí hay ejemplos de las formas correctas al archivo y su acción:
www.El comportamiento del robot de búsqueda depende del código HTTP recibido cuando se solicita el archivo:
El contenido se almacena en caché hasta 24 horas, a veces más tiempo, con errores de carga. Título Cache-Control puede afectar el período de almacenamiento de una copia.
El archivo debe estar en la codificación UTF-8, texto simple. Las traducciones de las líneas están permitidas en cualquier formato (CR, LF, CRLF). Las líneas erróneas se ignoran, como, nacidos, símbolos no compatibles.
El tamaño máximo de archivo permitido es de 500 kib. Se ignora todo lo que excede este volumen.
Cada línea incluye un campo, colon y valor. Se admiten los siguientes campos:
user-agent - Determina qué bot pertenece a la regla;disallow - prohíbe el acceso a una cierta ruta;allow - permite el acceso a la ruta (incluso si hay reglas prohibidas);sitemap -Nindica la ubicación del sitio XML del sitio.Este es el nombre del bot de búsqueda, que incluye estas reglas. El valor no es sensible al registro.
Prohíbe el acceso a ciertas rutas. Si la ruta no está indicada, se ignora la regla. Valor sensible al registro.
Permite el acceso a la URL. Funciona junto con otras reglas, con un conflicto, se selecciona el menos restrictivo.
El sitio de la URL del sitio está completamente indicado. El campo se puede repetir. Puede estar en otro dominio. No adjunto a un bot específico.
Puede indicar varios grupos con un agente de usuario diferente o el mismo usuario. Por ejemplo:
user-agent: a disallow: /private user-agent: b disallow: /temp user-agent: c user-agent: d disallow: /files
Cada bot usa solo un grupo de reglas, el agente de usuario más adecuado nombrado. Reglas generales P * Se usan si no hay más específicos.
user-agent: bot-news disallow: /news-private user-agent: * disallow: / user-agent: bot disallow: /all
Bot bot-news Usa el primer grupo, bot - El tercero, todos los demás son los segundos.
Una comparación de la ruta con la URL tiene en cuenta el registro, así como símbolos especiales. Apoyado:
* - corresponde a cualquier número de caracteres;$ - denota el final de la URL./ - corresponde a todas las páginas;/$ - Solo raíz;/fish - Todo lo que comienza con /fish;/*.php$ - URL, terminando en .php.En el conflicto de reglas con diferentes longitudes de ruta, se usa una más larga. Con igual longitud - menos restrictivo.
Ejemplos:
Para todos los problemas de la configuración de robots.txt de su sitio, así como otros aspectos de SEO, puede comunicarse con el equipo Compañías de SEO "SEO.COMPUTER" Por correo electrónico: info@seo.computer o a través de whatsapp: +79202044461
ID: 159