Guia Completo de Metatags Robots, X-Robots-Tag e Controle de Indexação para SEO Eficiente

Eduardo Storini

6 meses atrás

Guia Completo de Metatags Robots, X-Robots-Tag e Controle de Indexação para SEO Eficiente

Introdução às Metatags Robots e Controle da Indexação

As metatags Robots, o atributo data-nosnippet e o cabeçalho HTTP X-Robots-Tag são ferramentas essenciais para o controle da forma como o conteúdo de um site é indexado e exibido nos resultados das pesquisas, especialmente no Google. Esses elementos permitem que você defina regras específicas para mecanismos de busca, possibilitando desde a proibição da indexação de uma página até a restrição de exibição de trechos da página nos resultados.

Essa documentação esclarece como utilizar essas configurações a nível de página e conteúdo, garantindo maior precisão no controle da exposição do seu conteúdo para os usuários e mecanismos de busca.

Uso da Tag Robots Meta

A tag robots meta é inserida na seção <head> do HTML e serve para instruir os motores de busca sobre como tratarem aquela página específica. Seu uso permite a definição detalhada de regras para indexação e exibição do conteúdo.

Por exemplo, para impedir que uma página apareça nos resultados de pesquisa, adiciona-se a seguinte tag no <head>:

<meta name="robots" content="noindex">

Essa instrução faz com que todos os rastreadores respeitem a regra, deixando a página fora do índice. Caso queira especificar para um rastreador específico, como o Googlebot, deve-se substituir o valor do atributo name por tokens apropriados.

Os principais tokens compatíveis para o Google são:

googlebot – para o rastreador geral de pesquisas na web.
googlebot-news – para o rastreador focado em notícias.

Exemplo de tag para o Googlebot não mostrar trechos (snippets) da página:

<meta name="googlebot" content="nosnippet">

É possível ainda combinar múltiplas tags para diferentes crawlers ou múltiplas diretivas.

Uso do Cabeçalho HTTP X-Robots-Tag

Enquanto as tags meta robots são aplicadas a páginas HTML, o cabeçalho HTTP X-Robots-Tag permite aplicar diretivas específicas para URLs que não sejam HTML, como PDF, imagens, vídeos e outros recursos. Ele também possibilita regras globais para conjuntos de arquivos por meio da configuração no servidor web.

Exemplo de resposta HTTP com um cabeçalho que impede indexação:

HTTP/1.1 200 OK
X-Robots-Tag: noindex

Também é possível aplicar múltiplas regras ao mesmo tempo:

X-Robots-Tag: noimageindex
X-Robots-Tag: unavailable_after: 25 Jun 2025 15:00:00 PST

É importante destacar que diferentemente das metatags, o X-Robots-Tag é muito útil para controlar recursos estáticos e conteúdos não gerados em HTML, nos quais não há possibilidade de inserir uma tag no <head>.

Diretivas Válidas de Indexação e Exibição

Existem diversas diretivas que podem ser utilizadas tanto nas meta tags quanto no cabeçalho HTTP para controlar o comportamento dos rastreadores e a apresentação do conteúdo nos resultados de pesquisa. As mais comuns são:

all: padrão que não impõe restrições.
noindex: impede a exibição da página nos resultados.
nofollow: indica que os links da página não devem ser seguidos para indexação.
none: equivale a noindex, nofollow.
nosnippet: suprime o snippet de texto e pré-visualização de vídeo nos resultados, mas não bloqueia miniaturas de imagens estáticas.
indexifembedded: permite indexar o conteúdo quando ele é incorporado em outra página via iframe, mesmo se houver comanda noindex.
max-snippet:[número]: limita o tamanho máximo do snippet textual exibido; pode usar 0 para nenhum snippet, ou -1 para snippet ilimitado.
max-image-preview:[none/standard/large]: define o tamanho máximo da pré-visualização de imagens.
max-video-preview:[número]: limita a duração máxima (em segundos) do pré-snippet de vídeo; valor 0 restringe a exibir apenas imagens estáticas.
notranslate: evita que a página seja oferecida como traduzida em snippets.
noimageindex: bloqueia a indexação de imagens daquela página.
unavailable_after:[data/hora]: bloqueia a exibição da página após uma determinada data e hora.

Essas regras podem ser combinadas em uma lista separada por vírgulas ou em múltiplas tags meta, oferecendo flexibilidade para controlar o comportamento dos motores de busca.

Como Combinar Diretivas de Forma Prática

Para aplicar múltiplas instruções em uma única tag meta, basta separar as diretivas por vírgulas:

<meta name="robots" content="noindex, nofollow">

Ou ainda utilizar tags meta separadas para cada regra:

<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">

Em casos em que você precisa aplicar regras diferentes para diferentes rastreadores, combine tags específicas para cada um. Por exemplo:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Nesse cenário, o Googlebot aplicará noindex, nofollow, enquanto outros robôs aplicarão apenas nofollow.

Utilização do Atributo HTML data-nosnippet

O atributo data-nosnippet permite adicionar um controle fino sobre quais partes do conteúdo textual devem ser excluídas dos snippets de resultados de pesquisa. Esse atributo booleano pode ser inserido em elementos span, div e section para impedir que o texto contido seja exibido nos trechos.

Exemplo de uso:

<p>Este texto pode aparecer no snippet
  <span data-nosnippet>mas esta parte não será mostrada nos snippets</span>.
</p>

Para garantir o funcionamento correto, o HTML deve estar válido, com tags corretamente fechadas. Evite manipular esse atributo dinamicamente por JavaScript após o carregamento da página para não comprometer a interpretação dos rastreadores.

Uso de Dados Estruturados em Conjunto com as Tags Robots

Dados estruturados são recursos poderosos para indicar ao Google informações específicas sobre o conteúdo, aprimorando a forma como ele aparece nos resultados da pesquisa, como rich snippets e carrosséis. Apesar das tags robots meta controlarem o que pode ser extraído para o snippet, elas não limitam o uso dos dados estruturados declarados explicitamente.

Por exemplo, mesmo que haja uma limitação com max-snippet no snippet de texto, o conteúdo dos dados estruturados de um recipe pode ser mostrado no carrossel, desde que especificado.

Para gerenciar o que é disponibilizado via dados estruturados, é recomendável controlar diretamente os próprios dados e indicar somente as informações que devem estar acessíveis para pesquisa.

Implementação Prática do X-Robots-Tag em Servidores Web

O cabeçalho HTTP X-Robots-Tag deve ser configurado diretamente nas respostas HTTP enviadas pelo servidor. Isso pode ser feito por meio dos arquivos de configuração do servidor, dependendo da tecnologia utilizada.

Para servidores Apache, é possível adicionar regras no arquivo .htaccess ou httpd.conf:

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Em servidores NGINX, essa configuração é feita no arquivo de configuração principal:

location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Da mesma forma, é possível especificar regras para arquivos de imagem, assegurando que esses recursos não sejam indexados:

<Files ~ "\.(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

ou em NGINX:

location ~* \.(png|jpe?g|gif)$ {
  add_header X-Robots-Tag "noindex";
}

Para casos específicos de arquivos, é possível configurar o cabeçalho para um único arquivo:

<Files "arquivo.pdf">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

e em NGINX:

location = /caminho/arquivo.pdf {
  add_header X-Robots-Tag "noindex, nofollow";
}

Como as Regras do robots.txt se Relacionam com as Metatags e Cabeçalhos

As diretivas configuradas nas metatags robots e no cabeçalho HTTP X-Robots-Tag são avaliadas no momento do rastreamento da página. Para que esses comandos sejam lidos pelos mecanismos de busca, é necessário que o site conceda permissão para que os bots acessem as URLs ao menos até o ponto de lerem as metatags ou cabeçalhos HTTP.

Se o arquivo robots.txt proibir o rastreamento de uma página, as configurações de indexação e exibição presentes nessa página não serão consideradas, pois o Google não terá acesso a elas. Por isso, quando se deseja bloquear conteúdos da indexação, não é eficiente apenas bloquear via robots.txt. Deve-se garantir o acesso para que as metatags funcionem corretamente.

Considerações Finais

Controlar como o conteúdo do seu site é indexado e exibido nos resultados orgânicos é crucial para garantir a estratégia de SEO adequada e a proteção da propriedade intelectual ou dados sensíveis. O uso correto da tag robots meta, do cabeçalho X-Robots-Tag e do atributo data-nosnippet permite que você defina políticas precisas para a apresentação do seu conteúdo ao público.

Além disso, é fundamental entender as regras de precedência — em caso de conflito entre diretivas, a regra mais restritiva é aplicada, garantindo maior controle sobre a exibição do conteúdo.

Por fim, a consistência no acesso dos rastreadores, a validação do HTML e a revisão frequente das configurações são práticas recomendadas para manter a eficácia desse controle ao longo do tempo.