O arquivo robots.txt é um componente essencial utilizado para orientar os rastreadores de mecanismos de busca sobre quais partes de um site podem ser acessadas e quais devem ser ignoradas durante o processo de rastreamento. Este arquivo é um documento de texto simples que contém um conjunto de regras com o objetivo de gerenciar o acesso automatizado, facilitando o controle sobre a indexação do conteúdo.
Por exemplo, o arquivo pode especificar que certos diretórios contendo arquivos CSS ou JS, que são cruciais para a renderização das páginas, estejam liberados para o rastreamento de bots específicos, enquanto outras áreas do site fiquem restritas a todos os rastreadores.
Se você ainda não está familiarizado com o conceito, é recomendável estudar a introdução ao robots.txt, que explica como criar e implementar esse arquivo de forma eficaz para otimizar o desempenho do seu site nos mecanismos de busca.
O arquivo robots.txt deve ser armazenado no diretório raíz do domínio, ou seja, em um local de nível superior, para que seja adequadamente reconhecido pelos rastreadores. Ele funciona com protocolos compatíveis como HTTP, HTTPS e FTP.
Vale destacar que o arquivo diferencia letras maiúsculas de minúsculas e é específico para a combinação exata de protocolo, domínio, subdomínio e número da porta. Isso significa que um arquivo colocado em https://example.com/robots.txt será válido somente para esse domínio e protocolo, não afetando subdomínios, diferentes portas ou versões HTTP distintas.
Para entender melhor a abrangência do arquivo em diferentes contextos, seguem exemplos práticos:
Ao solicitar o arquivo robots.txt, os rastreadores do Google interpretam o servidor de acordo com os códigos de status HTTP retornados:
Para otimizar o desempenho do rastreamento, o Google armazena uma cópia em cache do arquivo robots.txt por até 24 horas, podendo estender esse período em situações especiais, como erros contínuos na obtenção do arquivo. Esse cache pode ser compartilhado entre diferentes rastreadores, garantindo mais eficiência no processamento das regras de exclusão.
A duração do cache pode ser influenciada pelos cabeçalhos HTTP, especialmente o Cache-Control, que define por quanto tempo o conteúdo pode ser considerado válido.
O arquivo robots.txt precisa ser um documento de texto simples, codificado na codificação UTF-8. As linhas podem ser separadas por caracteres padrões como CR, LF ou CR/LF.
O Google ignora linhas inválidas, tais como aquelas que começam com a marca de ordem de bytes (BOM) ou que não sigam o formato esperado. Caso o conteúdo transferido seja HTML ou outra coisa inapropiada, o Google ainda tentará extrair regras válidas, descartando os demais elementos.
O arquivo deve respeitar o limite de 500 KiB. Caso ultrapasse, o Google irá ignorar o restante do arquivo, aconselhando os administradores a consolidar as regras para reduzir o tamanho e organização.
As regras no arquivo possuem um formato simples: cada linha contém um campo, seguido de dois pontos e um valor, com suporte a comentários iniciados pelo caractere #. Espaços são ignorados no início e no final das linhas para facilitar a leitura.
Os campos suportados pelo Google são:
As regras allow e disallow agem como diretivas que indicam acesso permitido ou proibido, respectivamente, iniciando pelo caminho raiz do domínio. Os caminhos devem começar com / e são sensíveis a maiúsculas e minúsculas.
A diretiva user-agent identifica qual rastreador será afetado pelas regras seguintes. O valor não diferencia letras maiúsculas e minúsculas e pode representar strings específicas para rastreadores do Google, como googlebot-news ou o genérico * para todos os bots.
Essa diretiva indica as áreas do site que o rastreador não deve explorar. Se estiver vazia, o Google considera que não há limitações. Apesar de não acessar o conteúdo, o Google ainda pode indexar a URL sem exibir snippets, dependendo de outras configurações.
Definem caminhos específicos do site que são permitidos para rastreamento mesmo quando estão dentro de áreas geralmente bloqueadas por uma regra disallow mais genérica.
Permite a inclusão do endereço completo de um sitemap para facilitar que os mecanismos de busca descubram e processem os arquivos de indexação do site. Esses links são públicos e acessíveis a todos os rastreadores, mesmo que haja restrições para outros caminhos.
Regras que se aplicam a múltiplos user-agent podem ser agrupadas repetindo a diretiva para cada rastreador e listando regras subsequentes que se aplicam a todos aqueles bots. O Google agrupa internamente esses blocos para aplicar as regras corretas.
Também é importante mencionar que os campos que não são allow, disallow ou user-agent são ignorados ao interpretar as regras, podendo impactar a organização do arquivo.
O Google seleciona o grupo de regras mais específico que corresponde ao user agent do rastreador. A ordem de declaração no arquivo é irrelevante, sendo a especificidade o que determina a prioridade. Caso haja múltiplos grupos relevantes, as regras são combinadas para aquele rastreador.
Exemplo: googlebot-news terá prioridade sobre googlebot, que por sua vez tem prioridade sobre o genérico *.
As regras de bloqueio e permissão são avaliadas comparando o valor do caminho especificado nas diretivas com o URL real que o bot pretende rastrear. O Google aceita uma forma limitada de caracteres curinga, incluindo:
A correspondência é sensível a letras maiúsculas e minúsculas e alguns exemplos demonstram que /fish bloqueia URLs começando com /fish, como /fish.html ou /fish/salmon.html, mas não /catfish.
Quando múltiplas regras allow e disallow são aplicadas a um URL, o Google utiliza a regra mais específica, que geralmente é aquela que tem o caminho mais longo correspondendo ao URL.
Em caso de conflito, a regra menos restritiva (geralmente allow) é escolhida para garantir um rastreamento otimizado.
Por exemplo, para a URL https://example.com/page:
Um correto uso do arquivo robots.txt é crucial para o sucesso do SEO de qualquer site. Ele permite:
Além disso, a avaliação adequada das respostas de status HTTP e a manutenção do arquivo atualizado garantem que o site tenha uma melhor performance e visibilidade no ranking dos motores de busca.
É fundamental testar o arquivo robots.txt com as ferramentas adequadas, como o Google Search Console, para garantir que as regras estão funcionando conforme o planejado. Também é indicado:
Essas práticas asseguram uma gestão mais eficaz das mídias digitais, otimizando o reconhecimento e a relevância do seu site nos resultados de busca.
Aproveite para compartilhar clicando no botão acima!
Visite nosso site e veja todos os outros artigos disponíveis!