Guia Completo sobre Robots.txt: Como Controlar o Rastreamento e Potencializar seu SEO
O que é um arquivo robots.txt
O arquivo robots.txt é um componente essencial utilizado para orientar os rastreadores de mecanismos de busca sobre quais partes de um site podem ser acessadas e quais devem ser ignoradas durante o processo de rastreamento. Este arquivo é um documento de texto simples que contém um conjunto de regras com o objetivo de gerenciar o acesso automatizado, facilitando o controle sobre a indexação do conteúdo.
Por exemplo, o arquivo pode especificar que certos diretórios contendo arquivos CSS ou JS, que são cruciais para a renderização das páginas, estejam liberados para o rastreamento de bots específicos, enquanto outras áreas do site fiquem restritas a todos os rastreadores.
Se você ainda não está familiarizado com o conceito, é recomendável estudar a introdução ao robots.txt, que explica como criar e implementar esse arquivo de forma eficaz para otimizar o desempenho do seu site nos mecanismos de busca.
Localização do arquivo e período de validade
O arquivo robots.txt deve ser armazenado no diretório raíz do domínio, ou seja, em um local de nível superior, para que seja adequadamente reconhecido pelos rastreadores. Ele funciona com protocolos compatíveis como HTTP, HTTPS e FTP.
Vale destacar que o arquivo diferencia letras maiúsculas de minúsculas e é específico para a combinação exata de protocolo, domínio, subdomínio e número da porta. Isso significa que um arquivo colocado em https://example.com/robots.txt será válido somente para esse domínio e protocolo, não afetando subdomínios, diferentes portas ou versões HTTP distintas.
Exemplos de URLs robots.txt válidos
Para entender melhor a abrangência do arquivo em diferentes contextos, seguem exemplos práticos:
- https://example.com/robots.txt: Aplica-se a todo o conteúdo do site no protocolo HTTPS e na porta padrão 443.
- https://www.example.com/robots.txt: Válido somente para o subdomínio www.example.com.
- https://example.com/folder/robots.txt: Este não é um arquivo válido, pois não pode estar dentro de subdiretórios.
- ftp://example.com/robots.txt: Válido para rastreadores que interajam via FTP.
- https://212.96.82.21/robots.txt: Quando o domínio é um endereço IP, o robots é válido apenas para esse IP.
Como lidar com erros e códigos de status HTTP
Ao solicitar o arquivo robots.txt, os rastreadores do Google interpretam o servidor de acordo com os códigos de status HTTP retornados:
- Códigos 2xx (Sucesso): Indicativo de que o arquivo foi encontrado com sucesso e deve ser processado.
- Códigos 3xx (Redirecionamento): O Googlebot segue até cinco redirecionamentos, mas caso esses sejam excessivos ou o arquivo não seja encontrado dentro desse limite, assume que o arquivo não existe.
- Códigos 4xx (Erro de cliente): Exceto pelo código 429 (muitas requisições), esses erros fazem o Google desprezar o arquivo, presumindo que não há restrições.
- Códigos 5xx (Erro de servidor): Inicialmente, o Google para de rastrear e tenta buscar o arquivo novamente, usando a última versão válida em cache para continuar as decisões de rastreamento. Após um período de 30 dias, o Google pode passar a assumir que não existem restrições, dependendo da disponibilidade do site.
- Outros erros: Problemas de DNS ou de rede equivalem a erros de servidor para fins do rastreamento de crawlers.
Armazenamento em cache
Para otimizar o desempenho do rastreamento, o Google armazena uma cópia em cache do arquivo robots.txt por até 24 horas, podendo estender esse período em situações especiais, como erros contínuos na obtenção do arquivo. Esse cache pode ser compartilhado entre diferentes rastreadores, garantindo mais eficiência no processamento das regras de exclusão.
A duração do cache pode ser influenciada pelos cabeçalhos HTTP, especialmente o Cache-Control, que define por quanto tempo o conteúdo pode ser considerado válido.
Formato do arquivo
O arquivo robots.txt precisa ser um documento de texto simples, codificado na codificação UTF-8. As linhas podem ser separadas por caracteres padrões como CR, LF ou CR/LF.
O Google ignora linhas inválidas, tais como aquelas que começam com a marca de ordem de bytes (BOM) ou que não sigam o formato esperado. Caso o conteúdo transferido seja HTML ou outra coisa inapropiada, o Google ainda tentará extrair regras válidas, descartando os demais elementos.
O arquivo deve respeitar o limite de 500 KiB. Caso ultrapasse, o Google irá ignorar o restante do arquivo, aconselhando os administradores a consolidar as regras para reduzir o tamanho e organização.
Sintaxe das regras
As regras no arquivo possuem um formato simples: cada linha contém um campo, seguido de dois pontos e um valor, com suporte a comentários iniciados pelo caractere #. Espaços são ignorados no início e no final das linhas para facilitar a leitura.
Os campos suportados pelo Google são:
user-agent: especifica a que rastreador as regras se aplicam;allow: caminho liberado para rastreamento;disallow: caminho bloqueado para rastreamento;sitemap: URL absoluto para sitemap do site.
As regras allow e disallow agem como diretivas que indicam acesso permitido ou proibido, respectivamente, iniciando pelo caminho raiz do domínio. Os caminhos devem começar com / e são sensíveis a maiúsculas e minúsculas.
user-agent
A diretiva user-agent identifica qual rastreador será afetado pelas regras seguintes. O valor não diferencia letras maiúsculas e minúsculas e pode representar strings específicas para rastreadores do Google, como googlebot-news ou o genérico * para todos os bots.
disallow
Essa diretiva indica as áreas do site que o rastreador não deve explorar. Se estiver vazia, o Google considera que não há limitações. Apesar de não acessar o conteúdo, o Google ainda pode indexar a URL sem exibir snippets, dependendo de outras configurações.
allow
Definem caminhos específicos do site que são permitidos para rastreamento mesmo quando estão dentro de áreas geralmente bloqueadas por uma regra disallow mais genérica.
sitemap
Permite a inclusão do endereço completo de um sitemap para facilitar que os mecanismos de busca descubram e processem os arquivos de indexação do site. Esses links são públicos e acessíveis a todos os rastreadores, mesmo que haja restrições para outros caminhos.
Agrupamento de linhas e regras
Regras que se aplicam a múltiplos user-agent podem ser agrupadas repetindo a diretiva para cada rastreador e listando regras subsequentes que se aplicam a todos aqueles bots. O Google agrupa internamente esses blocos para aplicar as regras corretas.
Também é importante mencionar que os campos que não são allow, disallow ou user-agent são ignorados ao interpretar as regras, podendo impactar a organização do arquivo.
Ordem de precedência para user agents
O Google seleciona o grupo de regras mais específico que corresponde ao user agent do rastreador. A ordem de declaração no arquivo é irrelevante, sendo a especificidade o que determina a prioridade. Caso haja múltiplos grupos relevantes, as regras são combinadas para aquele rastreador.
Exemplo: googlebot-news terá prioridade sobre googlebot, que por sua vez tem prioridade sobre o genérico *.
Correspondência de URLs com base em valores de caminho
As regras de bloqueio e permissão são avaliadas comparando o valor do caminho especificado nas diretivas com o URL real que o bot pretende rastrear. O Google aceita uma forma limitada de caracteres curinga, incluindo:
*: Corresponde a zero ou mais caracteres;$: Indica o fim do URL.
A correspondência é sensível a letras maiúsculas e minúsculas e alguns exemplos demonstram que /fish bloqueia URLs começando com /fish, como /fish.html ou /fish/salmon.html, mas não /catfish.
Ordem de precedência para regras
Quando múltiplas regras allow e disallow são aplicadas a um URL, o Google utiliza a regra mais específica, que geralmente é aquela que tem o caminho mais longo correspondendo ao URL.
Em caso de conflito, a regra menos restritiva (geralmente allow) é escolhida para garantir um rastreamento otimizado.
Por exemplo, para a URL https://example.com/page:
- Se houver uma regra
allow: /pe umadisallow: /, o Google irá aplicar a regraallowpor ser mais específica.
Importância para SEO e Gestão de Mídia
Um correto uso do arquivo robots.txt é crucial para o sucesso do SEO de qualquer site. Ele permite:
- Controlar quais conteúdos são disponibilizados aos rastreadores, evitando indexação de páginas irrelevantes ou duplicadas;
- Preservar o orçamento de rastreamento para áreas realmente importantes do site;
- Prevenir que informações confidenciais ou páginas temporárias sejam registradas nos resultados de busca;
- Facilitar a sinalização de sitemaps para que o Google e outros mecanismos compreendam melhor a estrutura do site.
Além disso, a avaliação adequada das respostas de status HTTP e a manutenção do arquivo atualizado garantem que o site tenha uma melhor performance e visibilidade no ranking dos motores de busca.
Recomendações para criação e manutenção
É fundamental testar o arquivo robots.txt com as ferramentas adequadas, como o Google Search Console, para garantir que as regras estão funcionando conforme o planejado. Também é indicado:
- Manter o arquivo enxuto, evitando duplicações e regras desnecessárias;
- Acompanhar os erros HTTP e corrigi-los para evitar problemas de rastreamento;
- Atualizar periodicamente para refletir alterações na arquitetura do site;
- Combinar o uso do
robots.txtcom outras técnicas, como metatagsnoindex, para maior controle de indexação.
Essas práticas asseguram uma gestão mais eficaz das mídias digitais, otimizando o reconhecimento e a relevância do seu site nos resultados de busca.
