Como o mecanismo de pesquisa processa o arquivo robots.txt para o seu site do Google

Como o mecanismo de pesquisa processa o arquivo robots.txt para o seu site do Google

Robôs automáticos dos mecanismos de pesquisa seguem as regras do Robots Exclusão Protocol (REP), o que significa: Antes de digitalizar o site, o mecanismo de pesquisa lê o arquivo robots.txtPara determinar quais seções do Site são permitidas ou proibidas para indexação. Esse protocolo não se aplica a ferramentas controladas por usuários ou funcionários de metas de segurança (por exemplo, digitalizando software malicioso).

Este material explica em detalhes como as diretivas do representante são interpretadas. A especificação original pode ser encontrada no RFC 9309.

Qual é o site de arquivo robots.txt no google

Se você não deseja que algumas partes do seu site sejam indexadas pelos mecanismos de pesquisa, crie um arquivo robots.txt com as regras necessárias. Este é um documento de texto simples, que indica qual pesquisa inicializa o acesso é permitido e qual é proibido. Um exemplo de uma estrutura de arquivo:

User-agent: *
Disallow: /includes/
User-agent: Googlebot
Allow: /includes/
Sitemap: https://вашдомен.ру/sitemap.xml

Se você encontrar pela primeira vez robots.txt, comece estudando o básico e as dicas práticas para sua criação.

Localização do arquivo e área de ação no seu site do Google

O arquivo robots.txt deve estar no catálogo raiz do site e estar disponível no protocolo suportado. O mecanismo de pesquisa leva em consideração o protocolo, a porta e o nome de domínio. Por exemplo, o arquivo será usado apenas para o mesmo host que sua localização, incluindo o protocolo e a porta.

Exemplos do URL permitido para o arquivo robots.txt no Google

Aqui estão exemplos das maneiras corretas para o arquivo e sua ação:

  • Https: // Exemplo - Aplicamos apenas a este domínio e porta.
  • Https: // vvv. Exemplo - Apenas para pododen www.
  • Https: // exemplo.kom/ pasta/ robots - Não é aceitável.
  • Ftp: // Exemplo -Pentado para o aplicativo FTP.

Erros de processamento e códigos de resposta do servidor do seu site no Google

O comportamento do robô de pesquisa depende do código HTTP recebido quando o arquivo é solicitado:

  • 2xx - O arquivo é processado.
  • 3xx - Mais de cinco redirecionamentos são considerados 404.
  • 4xx (exceto 429) - Acredita -se que o arquivo esteja ausente, não há restrições.
  • 5xx - A digitalização é suspensa ou adiada, dependendo das condições.

ROBOTS.TXT Caching Search Engine Google

O conteúdo está em cache de até 24 horas, às vezes mais longo - com erros de carregamento. Título Cache-Control pode afetar o período de armazenamento de uma cópia.

Formato Robots.txt para o seu site do Google

O arquivo deve estar na codificação UTF-8, texto simples. As traduções de linhas são permitidas em qualquer formato (CR, LF, CRLF). Linhas errôneas são ignoradas, como, nascidas, símbolos não suportados.

O tamanho máximo de arquivo permitido é de 500 kib. Tudo o que excede este volume é ignorado.

Robots.txt Regras Sitens Site para Google

Cada linha inclui um campo, cólon e valor. Os seguintes campos são suportados:

  • user-agent - determina qual bot pertence à regra;
  • disallow - proíbe o acesso a um determinado caminho;
  • allow - permite o acesso ao caminho (mesmo que existam regras proibindo);
  • sitemap -Indica a localização do site XML do site.

Usuário- agente no arquivo robots.txt no google

Este é o nome do bot de pesquisa, que inclui essas regras. O valor não é sensível ao registro.

Não permitir: proibir páginas do seu site no Google

Proíbe o acesso a certos caminhos. Se o caminho não for indicado, a regra será ignorada. Valor sensível ao registro.

Permitir: permissão para digitalizar o conteúdo do site no Google

Permite acesso ao URL. Funciona em conjunto com outras regras, com um conflito, o menos restritivo é selecionado.

Sitemap: indicando o cartão do site no Google

O site do URL do site é completamente indicado. O campo pode ser repetido. Pode estar em outro domínio. Não anexado a um bot específico.

Regras de agrupamento para o site agente do usuário no Google

Você pode indicar vários grupos com diferente ou o mesmo agente de usuário. Por exemplo:

user-agent: a
disallow: /private
user-agent: b
disallow: /temp
user-agent: c
user-agent: d
disallow: /files

Prioridade das regras para o site agente do usuário no Google

Cada bot usa apenas um grupo de regras-o agente de usuário mais adequado. Regras gerais p * Eles são usados se não houver mais específicos.

Um exemplo de processamento de agentes do usuário em robots.txt seu site do google

user-agent: bot-news
disallow: /news-private
user-agent: *
disallow: /
user-agent: bot
disallow: /all

Robô bot-news Usa o primeiro grupo, bot - O terceiro, todos os outros são o segundo.

Como o URL é colocado nas regras robots.txt usadas no Google

Uma comparação do caminho com o URL leva em consideração o registro, bem como os símbolos especiais. Suportado:

  • * - corresponde a qualquer número de caracteres;
  • $ - indica o fim do URL.

Exemplos de conformidade de maneiras de robots.txt site no google

  • / - corresponde a todas as páginas;
  • /$ - apenas raiz;
  • /fish - tudo o que começa com /fish;
  • /*.php$ - URL, terminando em .php.

A prioridade das regras de permitir e não permitir.

No conflito de regras com diferentes comprimentos de caminho, um mais longo é usado. Com igual comprimento - menos restritivo.

Exemplos:

  • Permitir: /privado
    Não permitir: / - permitir é usado;
  • Permitir: /página
    Não permitir: /*.htm - não é usado, pois o caminho é mais longo.

Para todas as questões do robots.txt Configurações do seu site, bem como outros aspectos do SEO, você pode entrar em contato com a equipe Empresas de SEO "SEO.computer" Por e -mail: info@seo.computer ou através do WhatsApp: +79202044461

ID: 159

Envie uma solicitação e forneceremos uma consulta sobre SEO promoção do seu site