Guia Completo sobre Robots.txt: Como Controlar o Rastreamento e Potencializar seu SEO

O que é um arquivo robots.txt

O arquivo robots.txt é um componente essencial utilizado para orientar os rastreadores de mecanismos de busca sobre quais partes de um site podem ser acessadas e quais devem ser ignoradas durante o processo de rastreamento. Este arquivo é um documento de texto simples que contém um conjunto de regras com o objetivo de gerenciar o acesso automatizado, facilitando o controle sobre a indexação do conteúdo. Leia mais

Por exemplo, o arquivo pode especificar que certos diretórios contendo arquivos CSS ou JS, que são cruciais para a renderização das páginas, estejam liberados para o rastreamento de bots específicos, enquanto outras áreas do site fiquem restritas a todos os rastreadores. Leia mais

Se você ainda não está familiarizado com o conceito, é recomendável estudar a introdução ao robots.txt, que explica como criar e implementar esse arquivo de forma eficaz para otimizar o desempenho do seu site nos mecanismos de busca. Leia mais

Localização do arquivo e período de validade

O arquivo robots.txt deve ser armazenado no diretório raíz do domínio, ou seja, em um local de nível superior, para que seja adequadamente reconhecido pelos rastreadores. Ele funciona com protocolos compatíveis como HTTP, HTTPS e FTP. Leia mais

Vale destacar que o arquivo diferencia letras maiúsculas de minúsculas e é específico para a combinação exata de protocolo, domínio, subdomínio e número da porta. Isso significa que um arquivo colocado em https://example.com/robots.txt será válido somente para esse domínio e protocolo, não afetando subdomínios, diferentes portas ou versões HTTP distintas. Leia mais

Exemplos de URLs robots.txt válidos

Para entender melhor a abrangência do arquivo em diferentes contextos, seguem exemplos práticos: Leia mais

https://example.com/robots.txt: Aplica-se a todo o conteúdo do site no protocolo HTTPS e na porta padrão 443. https://www.example.com/robots.txt: Válido somente para o subdomínio www.example.com. https://example.com/folder/robots.txt: Este não é um arquivo válido, pois não pode estar dentro de subdiretórios. ftp://example.com/robots.txt: Válido para rastreadores que interajam via FTP. https://212.96.82.21/robots.txt: Quando o domínio é um endereço IP, o robots é válido apenas para esse IP. Leia mais

Como lidar com erros e códigos de status HTTP

Ao solicitar o arquivo robots.txt, os rastreadores do Google interpretam o servidor de acordo com os códigos de status HTTP retornados: Leia mais

Códigos 2xx (Sucesso): Indicativo de que o arquivo foi encontrado com sucesso e deve ser processado. Códigos 3xx (Redirecionamento): O Googlebot segue até cinco redirecionamentos, mas caso esses sejam excessivos ou o arquivo não seja encontrado dentro desse limite, assume que o arquivo não existe. Códigos 4xx (Erro de cliente): Exceto pelo código 429 (muitas requisições), esses erros fazem o Google desprezar o arquivo, presumindo que não há restrições. Códigos 5xx (Erro de servidor): Inicialmente, o Google para de rastrear e tenta buscar o arquivo novamente, usando a última versão válida em cache para continuar as decisões de rastreamento. Após um período de 30 dias, o Google pode passar a assumir que não existem restrições, dependendo da disponibilidade do site. Outros erros: Problemas de DNS ou de rede equivalem a erros de servidor para fins do rastreamento de crawlers. Leia mais

Armazenamento em cache

Para otimizar o desempenho do rastreamento, o Google armazena uma cópia em cache do arquivo robots.txt por até 24 horas, podendo estender esse período em situações especiais, como erros contínuos na obtenção do arquivo. Esse cache pode ser compartilhado entre diferentes rastreadores, garantindo mais eficiência no processamento das regras de exclusão. Leia mais

A duração do cache pode ser influenciada pelos cabeçalhos HTTP, especialmente o Cache-Control, que define por quanto tempo o conteúdo pode ser considerado válido. Leia mais

Formato do arquivo

O arquivo robots.txt precisa ser um documento de texto simples, codificado na codificação UTF-8. As linhas podem ser separadas por caracteres padrões como CR, LF ou CR/LF. Leia mais

O Google ignora linhas inválidas, tais como aquelas que começam com a marca de ordem de bytes (BOM) ou que não sigam o formato esperado. Caso o conteúdo transferido seja HTML ou outra coisa inapropiada, o Google ainda tentará extrair regras válidas, descartando os demais elementos. Leia mais

O arquivo deve respeitar o limite de 500 KiB. Caso ultrapasse, o Google irá ignorar o restante do arquivo, aconselhando os administradores a consolidar as regras para reduzir o tamanho e organização. Leia mais

Sintaxe das regras

As regras no arquivo possuem um formato simples: cada linha contém um campo, seguido de dois pontos e um valor, com suporte a comentários iniciados pelo caractere #. Espaços são ignorados no início e no final das linhas para facilitar a leitura. Leia mais

Os campos suportados pelo Google são: Leia mais

user-agent: especifica a que rastreador as regras se aplicam; allow: caminho liberado para rastreamento; disallow: caminho bloqueado para rastreamento; sitemap: URL absoluto para sitemap do site. Leia mais

As regras allow e disallow agem como diretivas que indicam acesso permitido ou proibido, respectivamente, iniciando pelo caminho raiz do domínio. Os caminhos devem começar com / e são sensíveis a maiúsculas e minúsculas. Leia mais

user-agent

A diretiva user-agent identifica qual rastreador será afetado pelas regras seguintes. O valor não diferencia letras maiúsculas e minúsculas e pode representar strings específicas para rastreadores do Google, como googlebot-news ou o genérico * para todos os bots. Leia mais

disallow

Essa diretiva indica as áreas do site que o rastreador não deve explorar. Se estiver vazia, o Google considera que não há limitações. Apesar de não acessar o conteúdo, o Google ainda pode indexar a URL sem exibir snippets, dependendo de outras configurações. Leia mais

allow

Definem caminhos específicos do site que são permitidos para rastreamento mesmo quando estão dentro de áreas geralmente bloqueadas por uma regra disallow mais genérica. Leia mais

sitemap

Permite a inclusão do endereço completo de um sitemap para facilitar que os mecanismos de busca descubram e processem os arquivos de indexação do site. Esses links são públicos e acessíveis a todos os rastreadores, mesmo que haja restrições para outros caminhos. Leia mais

Agrupamento de linhas e regras

Regras que se aplicam a múltiplos user-agent podem ser agrupadas repetindo a diretiva para cada rastreador e listando regras subsequentes que se aplicam a todos aqueles bots. O Google agrupa internamente esses blocos para aplicar as regras corretas. Leia mais

Também é importante mencionar que os campos que não são allow, disallow ou user-agent são ignorados ao interpretar as regras, podendo impactar a organização do arquivo. Leia mais

Ordem de precedência para user agents

O Google seleciona o grupo de regras mais específico que corresponde ao user agent do rastreador. A ordem de declaração no arquivo é irrelevante, sendo a especificidade o que determina a prioridade. Caso haja múltiplos grupos relevantes, as regras são combinadas para aquele rastreador. Leia mais

Exemplo: googlebot-news terá prioridade sobre googlebot, que por sua vez tem prioridade sobre o genérico *. Leia mais

Correspondência de URLs com base em valores de caminho

As regras de bloqueio e permissão são avaliadas comparando o valor do caminho especificado nas diretivas com o URL real que o bot pretende rastrear. O Google aceita uma forma limitada de caracteres curinga, incluindo: Leia mais

*: Corresponde a zero ou mais caracteres; $: Indica o fim do URL. Leia mais

A correspondência é sensível a letras maiúsculas e minúsculas e alguns exemplos demonstram que /fish bloqueia URLs começando com /fish, como /fish.html ou /fish/salmon.html, mas não /catfish. Leia mais

Ordem de precedência para regras

Quando múltiplas regras allow e disallow são aplicadas a um URL, o Google utiliza a regra mais específica, que geralmente é aquela que tem o caminho mais longo correspondendo ao URL. Leia mais

Em caso de conflito, a regra menos restritiva (geralmente allow) é escolhida para garantir um rastreamento otimizado. Leia mais

Por exemplo, para a URL https://example.com/page: Leia mais

Se houver uma regra allow: /p e uma disallow: /, o Google irá aplicar a regra allow por ser mais específica. Leia mais

Importância para SEO e Gestão de Mídia

Um correto uso do arquivo robots.txt é crucial para o sucesso do SEO de qualquer site. Ele permite: Leia mais

Controlar quais conteúdos são disponibilizados aos rastreadores, evitando indexação de páginas irrelevantes ou duplicadas; Preservar o orçamento de rastreamento para áreas realmente importantes do site; Prevenir que informações confidenciais ou páginas temporárias sejam registradas nos resultados de busca; Facilitar a sinalização de sitemaps para que o Google e outros mecanismos compreendam melhor a estrutura do site. Leia mais

Além disso, a avaliação adequada das respostas de status HTTP e a manutenção do arquivo atualizado garantem que o site tenha uma melhor performance e visibilidade no ranking dos motores de busca. Leia mais

Recomendações para criação e manutenção

É fundamental testar o arquivo robots.txt com as ferramentas adequadas, como o Google Search Console, para garantir que as regras estão funcionando conforme o planejado. Também é indicado: Leia mais

Manter o arquivo enxuto, evitando duplicações e regras desnecessárias; Acompanhar os erros HTTP e corrigi-los para evitar problemas de rastreamento; Atualizar periodicamente para refletir alterações na arquitetura do site; Combinar o uso do robots.txt com outras técnicas, como metatags noindex, para maior controle de indexação. Leia mais

Essas práticas asseguram uma gestão mais eficaz das mídias digitais, otimizando o reconhecimento e a relevância do seu site nos resultados de busca. Leia mais

Gostou deste story?

Aproveite para compartilhar clicando no botão acima! Visite nosso site e veja todos os outros artigos disponíveis! Muvi