Robots automáticos de motores de búsqueda, como Google, antes de rodear el recurso, comuníquese con el archivo robots.txtque se encuentra en la raíz de su sitio. Este archivo contiene instrucciones, qué secciones pueden escanear y cuáles no. Es importante comprender que dicho protocolo no se aplica a los servicios de usuarios o herramientas de seguridad que funcionan de manera diferente.
Para limitar el acceso de los robots a ciertas secciones del recurso, puede crear un archivo en su sitio robots.txtEn el que se prescriben las reglas para cada robot. Ejemplo de la estructura:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
Este archivo regula qué partes del sitio se pueden indexar y cuál - no. Para aprender desde cero, se recomienda comenzar con la familiarización con los principios básicos del trabajo robots.txt y recomendaciones para su compilación.
El archivo debe estar estrictamente en la raíz del sitio (por ejemplo, https://ваш_сайт/robots.txt). Funciona solo para esa combinación del dominio, el protocolo y el puerto donde se coloca. Podomeni, otros puertos y protocolos requieren un archivo separado robots.txt.
https://example.com/robots.txt - Funciona para https://example.com/Pero no para http:// u otros subdominios.https://www.example.com/robots.txt - Solo cubre www.ftp://example.com/robots.txt -Los aplicamos exclusivamente para el protocolo FTP.Dependiendo del código de respuesta al intentar obtener un archivo robots.txt, el comportamiento de los robots de búsqueda está cambiando:
Los robots pueden almacenar en caché el contenido del archivo hasta 24 horas, pero en el caso de problemas (tiempos de espera, errores), la fecha límite puede aumentar. Titulares Cache-Control También afecta el comportamiento del almacenamiento en caché.
El archivo debe estar en la codificación UTF-8, con los divisores de las líneas CR, CR/LF o LF. Se ignoran los símbolos incorrectos o el contenido. El tamaño máximo de archivo permitido es de 500 kib, el resto se ignora.
Cada línea consiste en una clave, colon y valores. Se le permite agregar comentarios después del signo #. Se admiten los siguientes campos:
Todas las rutas son sensibles al registro y deben comenzar con /.
Significado user-agent No es sensible al registro. Use el nombre exacto del robot para especificar reglas específicas, de lo contrario se utiliza la plantilla global *.
Limita el acceso de los robots a las rutas especificadas. Sin embargo, la URL aún puede aparecer en los resultados de búsqueda sin un fragmento de página.
Permite el acceso a ciertas rutas, incluso si parcialmente caen bajo reglas prohibidas.
Se le permite publicar enlaces a la tarjeta del sitio. Puede haber varios de ellos. La dirección debe ser absoluta y correcta. Son aplicables a todos los robots, si no se prohíben por separado.
Un conjunto de reglas se puede aplicar a varios agentes de usuario a la vez, repitiendo las líneas de agente de usuario una tras otra frente a las reglas básicas.
Se selecciona el agente de usuario más específico. Si se encuentran varias coincidencias, se toma el más largo y preciso. Reglas generales * No combinado con los privados.
Si varios bloques pertenecen a un robot, se combinan automáticamente. Las líneas restantes, como el mapa del sitio, no se tienen en cuenta al agruparse.
La ruta de la regla se compara con la página de la página. Los símbolos funcionan * (cualquier símbolo, 0 o más) y $ (Fin de la línea). Ejemplos:
/ - Coincide con la raíz del sitio y todas las URL invertidas./fish - Todos los caminos que comienzan /fish./fish/ - Solo aquellos donde la barra se indica claramente al final./*.php - Todos los archivos con la expansión .php./*.php$ - Solo aquellos que terminan en .php.Si las reglas conflictivas están presentes al mismo tiempo, se usa lo que es más largo en el camino y menos restrictivo. Es decir, en casos controvertidos, se da prioridad a la regla de resolución más precisa.
Si desea recibir ayuda para crear, verificar o configurar un archivo robots.txt para su sitio, comuníquese con la agencia de SEO CEO. Escribe por correo electrónico: info@seo.computer O en whatsapp: +7 920 204 44 61.
ID: 159