Como o mecanismo de pesquisa analisa o arquivo robots.txt para o seu site do Google

Como o mecanismo de pesquisa analisa o arquivo robots.txt para o seu site do Google

Robôs automáticos de mecanismos de pesquisa, como o Google, antes de contornar o recurso, entre em contato com o arquivo robots.txtque está localizado na raiz do seu site. Este arquivo contém instruções, quais seções podem digitalizar e quais não são. É importante entender que esse protocolo não se aplica a serviços de usuário ou ferramentas de segurança que funcionam de maneira diferente.

O que é um arquivo robots.txt para o seu site do Google

Para limitar os robôs o acesso a determinadas seções do recurso, você pode criar um arquivo no seu site robots.txtEm que as regras são prescritas para cada robô. Exemplo da estrutura:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://example.com/sitemap.xml

Este arquivo regula quais partes do site podem ser indexadas e quais - não. Para aprender do zero, é recomendável começar com a familiarização com os princípios básicos do trabalho robots.txt e recomendações para sua compilação.

Onde postar um arquivo robots.txt no site do seu Google

O arquivo deve estar estritamente na raiz do site (por exemplo, https://ваш_сайт/robots.txt). Funciona apenas para essa combinação do domínio, protocolo e porta onde é colocado. Podomeni, outras portas e protocolos requerem um arquivo separado robots.txt.

Exemplos dos endereços corretos do arquivo robots.txt do seu site para o Google

  • https://example.com/robots.txt - Funciona para https://example.com/mas não para http:// ou outros subdomínios.
  • https://www.example.com/robots.txt - cobre apenas www.
  • ftp://example.com/robots.txt -Pentamos aplicar exclusivamente para o protocolo FTP.

Códigos de processamento de erros e HTTP no site do seu Google

Dependendo do código de resposta ao tentar obter um arquivo robots.txt, o comportamento dos robôs de pesquisa está mudando:

  • Códigos 2xx - o arquivo é lido e usado.
  • Códigos 3xx - Se mais de 5 redirecionarem, o arquivo será considerado inacessível.
  • Códigos 4xx (exceto 429) - Acredita -se que não haja proibições.
  • Códigos 5xx - Com erros de servidores, o robô pode interromper temporariamente o site do site.

Como o Google está em cache no arquivo robots.txt para o seu site

Os robôs podem armazenar em cache o conteúdo do arquivo até 24 horas, mas no caso de problemas (tempo limite, erros), o prazo pode aumentar. Manchetes Cache-Control Também afetam o comportamento do cache.

Formato de arquivo robots.txt e codificação para o site do Google

O arquivo deve estar na codificação UTF-8, com os divisores das linhas CR, CR/LF ou LF. Símbolos incorretos ou conteúdo são ignorados. O tamanho máximo de arquivo permitido é de 500 kib, o restante é ignorado.

Sintaxe e Robots.txt Suportado Diretivas no Google para o seu site

Cada linha consiste em uma chave, cólon e valores. É permitido adicionar comentários após o sinal #. Os seguintes campos são suportados:

  • agente de usuário - indica para os quais o robô as regras são aplicáveis.
  • Permitir - O caminho permitido.
  • Proibir - Caminho proibido.
  • Sitemap - Endereço completo do cartão do site.

Todos os caminhos são sensíveis ao registro e devem começar com /.

Explicação do usuário-agente: Como especificar as regras para robôs específicos do seu site no Google

Significado user-agent Não é sensível ao registro. Use o nome exato do robô para especificar regras específicas, caso contrário, o modelo global é usado *.

O que a Diretiva desalunciada no arquivo robots.txt do seu site no Google

Limita o acesso de robôs aos caminhos especificados. No entanto, o URL ainda pode aparecer nos resultados da pesquisa sem um fragmento de página.

Permitir funções: como dar acesso às seções do seu site no Google

Permite o acesso a determinados caminhos, mesmo que eles se enquadram parcialmente sob regras proibindo.

Como indicar sitemap em robots.txt para o seu site do Google

É permitido postar links para o cartão do site. Pode haver vários deles. O endereço deve ser absoluto e correto. Eles são aplicáveis a todos os robôs, se não forem proibidos separadamente.

Agrupamento regras em robots.txt seu site no google

Um conjunto de regras pode ser aplicado a vários agentes do usuário de uma só vez, repetindo as linhas agentes do usuário uma após a outra na frente das regras básicas.

Determinando as prioridades para o agente do usuário no arquivo robots.txt do seu site no Google

O agente de usuário mais específico é selecionado. Se várias coincidências forem encontradas, a mais longa e precisa é tomada. Regras gerais * Não combinado com os privados.

Exemplos de agrupamento robots.txt Regras no site no Google

Se vários blocos pertencem a um robô, eles são combinados automaticamente. As linhas restantes, como o Sitemap, não são levadas em consideração ao agrupar.

Como comparar as rotas de URL e robots.txt Regras no Google para o seu site

O caminho da regra é comparado com a página da página. Símbolos funcionam * (qualquer símbolo, 0 ou mais) e $ (Fim da linha). Exemplos:

  • / - Coincide com a raiz do site e todos os URLs investidos.
  • /fish - Todos os caminhos começando /fish.
  • /fish/ - Somente aqueles em que Slash é claramente indicado no final.
  • /*.php - Todos os arquivos com a expansão .php.
  • /*.php$ - Somente aqueles que terminam em .php.

A prioridade das regras de permitir e não permitir no arquivo robots.txt no seu site para o Google

Se regras conflitantes estiverem presentes ao mesmo tempo, é usado o que é mais longo ao longo do caminho e menos restritivo. Ou seja, em casos controversos, é dada prioridade à regra de resolução mais precisa.


Se você deseja receber ajuda na criação, verificação ou configuração de um arquivo robots.txt para o seu site, entre em contato com a agência de SEO CEO. Escreva no e -mail: info@seo.computer Ou no WhatsApp: +7 920 204 44 61.

ID: 159

Envie uma solicitação e forneceremos uma consulta sobre SEO promoção do seu site