Robôs automáticos de mecanismos de pesquisa, como o Google, antes de contornar o recurso, entre em contato com o arquivo robots.txtque está localizado na raiz do seu site. Este arquivo contém instruções, quais seções podem digitalizar e quais não são. É importante entender que esse protocolo não se aplica a serviços de usuário ou ferramentas de segurança que funcionam de maneira diferente.
Para limitar os robôs o acesso a determinadas seções do recurso, você pode criar um arquivo no seu site robots.txtEm que as regras são prescritas para cada robô. Exemplo da estrutura:
User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
Este arquivo regula quais partes do site podem ser indexadas e quais - não. Para aprender do zero, é recomendável começar com a familiarização com os princípios básicos do trabalho robots.txt e recomendações para sua compilação.
O arquivo deve estar estritamente na raiz do site (por exemplo, https://ваш_сайт/robots.txt). Funciona apenas para essa combinação do domínio, protocolo e porta onde é colocado. Podomeni, outras portas e protocolos requerem um arquivo separado robots.txt.
https://example.com/robots.txt - Funciona para https://example.com/mas não para http:// ou outros subdomínios.https://www.example.com/robots.txt - cobre apenas www.ftp://example.com/robots.txt -Pentamos aplicar exclusivamente para o protocolo FTP.Dependendo do código de resposta ao tentar obter um arquivo robots.txt, o comportamento dos robôs de pesquisa está mudando:
Os robôs podem armazenar em cache o conteúdo do arquivo até 24 horas, mas no caso de problemas (tempo limite, erros), o prazo pode aumentar. Manchetes Cache-Control Também afetam o comportamento do cache.
O arquivo deve estar na codificação UTF-8, com os divisores das linhas CR, CR/LF ou LF. Símbolos incorretos ou conteúdo são ignorados. O tamanho máximo de arquivo permitido é de 500 kib, o restante é ignorado.
Cada linha consiste em uma chave, cólon e valores. É permitido adicionar comentários após o sinal #. Os seguintes campos são suportados:
Todos os caminhos são sensíveis ao registro e devem começar com /.
Significado user-agent Não é sensível ao registro. Use o nome exato do robô para especificar regras específicas, caso contrário, o modelo global é usado *.
Limita o acesso de robôs aos caminhos especificados. No entanto, o URL ainda pode aparecer nos resultados da pesquisa sem um fragmento de página.
Permite o acesso a determinados caminhos, mesmo que eles se enquadram parcialmente sob regras proibindo.
É permitido postar links para o cartão do site. Pode haver vários deles. O endereço deve ser absoluto e correto. Eles são aplicáveis a todos os robôs, se não forem proibidos separadamente.
Um conjunto de regras pode ser aplicado a vários agentes do usuário de uma só vez, repetindo as linhas agentes do usuário uma após a outra na frente das regras básicas.
O agente de usuário mais específico é selecionado. Se várias coincidências forem encontradas, a mais longa e precisa é tomada. Regras gerais * Não combinado com os privados.
Se vários blocos pertencem a um robô, eles são combinados automaticamente. As linhas restantes, como o Sitemap, não são levadas em consideração ao agrupar.
O caminho da regra é comparado com a página da página. Símbolos funcionam * (qualquer símbolo, 0 ou mais) e $ (Fim da linha). Exemplos:
/ - Coincide com a raiz do site e todos os URLs investidos./fish - Todos os caminhos começando /fish./fish/ - Somente aqueles em que Slash é claramente indicado no final./*.php - Todos os arquivos com a expansão .php./*.php$ - Somente aqueles que terminam em .php.Se regras conflitantes estiverem presentes ao mesmo tempo, é usado o que é mais longo ao longo do caminho e menos restritivo. Ou seja, em casos controversos, é dada prioridade à regra de resolução mais precisa.
Se você deseja receber ajuda na criação, verificação ou configuração de um arquivo robots.txt para o seu site, entre em contato com a agência de SEO CEO. Escreva no e -mail: info@seo.computer Ou no WhatsApp: +7 920 204 44 61.
ID: 159