As metatags Robots, o atributo data-nosnippet e o cabeçalho HTTP X-Robots-Tag são ferramentas essenciais para o controle da forma como o conteúdo de um site é indexado e exibido nos resultados das pesquisas, especialmente no Google. Esses elementos permitem que você defina regras específicas para mecanismos de busca, possibilitando desde a proibição da indexação de uma página até a restrição de exibição de trechos da página nos resultados.
Essa documentação esclarece como utilizar essas configurações a nível de página e conteúdo, garantindo maior precisão no controle da exposição do seu conteúdo para os usuários e mecanismos de busca.
A tag robots meta é inserida na seção <head> do HTML e serve para instruir os motores de busca sobre como tratarem aquela página específica. Seu uso permite a definição detalhada de regras para indexação e exibição do conteúdo.
Por exemplo, para impedir que uma página apareça nos resultados de pesquisa, adiciona-se a seguinte tag no <head>:
Essa instrução faz com que todos os rastreadores respeitem a regra, deixando a página fora do índice. Caso queira especificar para um rastreador específico, como o Googlebot, deve-se substituir o valor do atributo name por tokens apropriados.
Os principais tokens compatíveis para o Google são:
Exemplo de tag para o Googlebot não mostrar trechos (snippets) da página:
É possível ainda combinar múltiplas tags para diferentes crawlers ou múltiplas diretivas.
Enquanto as tags meta robots são aplicadas a páginas HTML, o cabeçalho HTTP X-Robots-Tag permite aplicar diretivas específicas para URLs que não sejam HTML, como PDF, imagens, vídeos e outros recursos. Ele também possibilita regras globais para conjuntos de arquivos por meio da configuração no servidor web.
Exemplo de resposta HTTP com um cabeçalho que impede indexação:
Também é possível aplicar múltiplas regras ao mesmo tempo:
É importante destacar que diferentemente das metatags, o X-Robots-Tag é muito útil para controlar recursos estáticos e conteúdos não gerados em HTML, nos quais não há possibilidade de inserir uma tag no <head>.
Existem diversas diretivas que podem ser utilizadas tanto nas meta tags quanto no cabeçalho HTTP para controlar o comportamento dos rastreadores e a apresentação do conteúdo nos resultados de pesquisa. As mais comuns são:
Essas regras podem ser combinadas em uma lista separada por vírgulas ou em múltiplas tags meta, oferecendo flexibilidade para controlar o comportamento dos motores de busca.
Para aplicar múltiplas instruções em uma única tag meta, basta separar as diretivas por vírgulas:
Ou ainda utilizar tags meta separadas para cada regra:
Em casos em que você precisa aplicar regras diferentes para diferentes rastreadores, combine tags específicas para cada um. Por exemplo:
Nesse cenário, o Googlebot aplicará noindex, nofollow, enquanto outros robôs aplicarão apenas nofollow.
O atributo data-nosnippet permite adicionar um controle fino sobre quais partes do conteúdo textual devem ser excluídas dos snippets de resultados de pesquisa. Esse atributo booleano pode ser inserido em elementos span, div e section para impedir que o texto contido seja exibido nos trechos.
Exemplo de uso:
Para garantir o funcionamento correto, o HTML deve estar válido, com tags corretamente fechadas. Evite manipular esse atributo dinamicamente por JavaScript após o carregamento da página para não comprometer a interpretação dos rastreadores.
Dados estruturados são recursos poderosos para indicar ao Google informações específicas sobre o conteúdo, aprimorando a forma como ele aparece nos resultados da pesquisa, como rich snippets e carrosséis. Apesar das tags robots meta controlarem o que pode ser extraído para o snippet, elas não limitam o uso dos dados estruturados declarados explicitamente.
Por exemplo, mesmo que haja uma limitação com max-snippet no snippet de texto, o conteúdo dos dados estruturados de um recipe pode ser mostrado no carrossel, desde que especificado.
Para gerenciar o que é disponibilizado via dados estruturados, é recomendável controlar diretamente os próprios dados e indicar somente as informações que devem estar acessíveis para pesquisa.
O cabeçalho HTTP X-Robots-Tag deve ser configurado diretamente nas respostas HTTP enviadas pelo servidor. Isso pode ser feito por meio dos arquivos de configuração do servidor, dependendo da tecnologia utilizada.
Para servidores Apache, é possível adicionar regras no arquivo .htaccess ou httpd.conf:
Em servidores NGINX, essa configuração é feita no arquivo de configuração principal:
Da mesma forma, é possível especificar regras para arquivos de imagem, assegurando que esses recursos não sejam indexados:
ou em NGINX:
Para casos específicos de arquivos, é possível configurar o cabeçalho para um único arquivo:
e em NGINX:
As diretivas configuradas nas metatags robots e no cabeçalho HTTP X-Robots-Tag são avaliadas no momento do rastreamento da página. Para que esses comandos sejam lidos pelos mecanismos de busca, é necessário que o site conceda permissão para que os bots acessem as URLs ao menos até o ponto de lerem as metatags ou cabeçalhos HTTP.
Se o arquivo robots.txt proibir o rastreamento de uma página, as configurações de indexação e exibição presentes nessa página não serão consideradas, pois o Google não terá acesso a elas. Por isso, quando se deseja bloquear conteúdos da indexação, não é eficiente apenas bloquear via robots.txt. Deve-se garantir o acesso para que as metatags funcionem corretamente.
Controlar como o conteúdo do seu site é indexado e exibido nos resultados orgânicos é crucial para garantir a estratégia de SEO adequada e a proteção da propriedade intelectual ou dados sensíveis. O uso correto da tag robots meta, do cabeçalho X-Robots-Tag e do atributo data-nosnippet permite que você defina políticas precisas para a apresentação do seu conteúdo ao público.
Além disso, é fundamental entender as regras de precedência — em caso de conflito entre diretivas, a regra mais restritiva é aplicada, garantindo maior controle sobre a exibição do conteúdo.
Por fim, a consistência no acesso dos rastreadores, a validação do HTML e a revisão frequente das configurações são práticas recomendadas para manter a eficácia desse controle ao longo do tempo.
Aproveite para compartilhar clicando no botão acima!
Visite nosso site e veja todos os outros artigos disponíveis!