Os rastreadores do Google são ferramentas automatizadas essenciais para a criação e atualização do índice da Pesquisa Google, além de apoiar outras funcionalidades específicas dos produtos Google. Eles exploram a web, capturando informações importantes sobre os sites para garantir que os resultados da pesquisa sejam relevantes e atualizados. Importante destacar que todos esses rastreadores respeitam as regras definidas no arquivo robots.txt de cada site, o que permite que os proprietários controlem quais partes de seus sites podem ou não ser exploradas.
Além disso, os rastreadores operam dentro de intervalos de IP específicos e utilizam nomes de hosts que seguem uma estrutura padronizada, como crawl-***-***-***-***.googlebot.com e suas variações geográficas. Isso ajuda a garantir a autenticidade e segurança das ações desses robôs.
O Google utiliza uma variedade de rastreadores comuns, cada um deles com funções específicas e com strings de user-agent próprias que identificam suas solicitações HTTP. A seguir, detalhamos os principais rastreadores, suas características, tokens usados no robots.txt e os produtos que eles impactam.
O Googlebot é o principal rastreador usado para explorar o conteúdo da web para indexação geral na Pesquisa Google. Ele possui versões para desktop e dispositivos móveis (smartphones), refletindo o foco do Google na experiência mobile-first.
Com o avanço do Chromium, a versão do Chrome presente nesses user-agents é atualizada regularmente para refletir as versões mais recentes, o que melhora a capacidade de renderização e avaliação de páginas.
Este rastreador é especializado na coleta de imagens para o produto Imagens do Google, além de apoiar outros serviços onde imagens, logotipos e favicons são apresentados.
Rastreador responsável por explorar conteúdos de vídeo para análise e inclusão nos resultados da Pesquisa Google e demais produtos que utilizam vídeos.
Destinado à indexação e atualização de conteúdos noticiosos para o Google Notícias e seus aplicativos. Diferentemente dos outros, não possui uma user-agent distinta, utilizando as strings tradicionais do Googlebot.
Esse rastreador está vinculado ao Google Shopping e suas diversas plataformas, como a aba “Shopping” na Pesquisa Google e Google Shopping propriamente dito. Ele coleta informações sobre produtos para garantir que estejam atualizadas e sejam apresentadas corretamente.
Utilizado em ferramentas de teste da Pesquisa Google, como a inspeção de URLs e teste de resultados aprimorados, esse rastreador permite que desenvolvedores avaliem e corrijam problemas sem impactar diretamente o índice da Pesquisa Google.
Esses rastreadores representam uma categoria genérica usada para diferentes propósitos internos, como pesquisas de desenvolvimento e testes. Eles não têm impacto direto na inclusão ou classificação na Pesquisa Google.
É um rastreador vinculado ao serviço Vertex AI do Google Cloud, usado para criar agentes de inteligência artificial baseados em dados específicos do site. Ele respeita as preferências de rastreamento, mas não interfere na busca pública do Google.
Esta é uma identificação separada que permite aos proprietários de sites controlar se o conteúdo rastreado pode ser utilizado para treinar modelos de IA futuros, como os desenvolvidos pela plataforma Gemini do Google. Diferentemente de outros rastreadores, sua função está focada no treinamento de inteligência artificial, não influenciando a presença nos resultados de busca nem a classificação do site.
Nas strings de user agent dos rastreadores, a parte Chrome/W.X.Y.Z é um marcador indicando a versão do navegador Chrome utilizado para a solicitação. Esta versão é atualizada constantemente para refletir o Chromium mais recente, garantindo que o Googlebot tenha a mesma capacidade de renderização e compreensão das páginas que um navegador moderno.
Para administradores de websites e analistas de logs, é recomendado usar caracteres curingas ao filtrar registros por essas strings, pois as versões mudam frequentemente e não é eficaz filtrar por número fixo.
Os proprietários de sites podem utilizar arquivos robots.txt para direcionar como cada rastreador deve interagir com seu site, permitindo ou bloqueando o acesso a determinadas áreas. Isso é feito através da definição de regras para os tokens do user-agent listados anteriormente.
Por exemplo, para bloquear o acesso do Googlebot a uma seção específica, basta adicionar regras específicas no robots.txt com o token correspondente:
Além disso, é importante verificar a autenticidade dos rastreadores que acessam seu site, já que é possível que agentes maliciosos falsifiquem strings de user-agent do Googlebot. Para isso, o Google recomenda praticar a verificação de IP reverso e consulta aos intervalos de IP oficiais do Googlebot.
Conhecer os rastreadores comuns do Google e entender suas funções é fundamental para a gestão eficiente de um site e sua otimização para os motores de busca. Cada rastreador tem um papel específico na coleta de dados para diferentes produtos Google e respeita as configurações estabelecidas pelos proprietários.
Por isso, estratégias adequadas de SEO devem considerar como esses bots acessam e interpretam o conteúdo, garantindo não só a indexação correta, mas também a otimização para as diversas funcionalidades da Pesquisa Google e serviços relacionados. Além disso, administrar bem o acesso via robots.txt e garantir a segurança da verificação dos rastreadores são aspectos essenciais para uma presença online eficaz e segura.
Aproveite para compartilhar clicando no botão acima!
Visite nosso site e veja todos os outros artigos disponíveis!