Guia Completo dos Rastreadores do Google: Como Funcionam e Como Controlar o Acesso ao Seu Site

Introdução aos Rastreadores do Google

Os rastreadores do Google são ferramentas automatizadas essenciais para a criação e atualização do índice da Pesquisa Google, além de apoiar outras funcionalidades específicas dos produtos Google. Eles exploram a web, capturando informações importantes sobre os sites para garantir que os resultados da pesquisa sejam relevantes e atualizados. Importante destacar que todos esses rastreadores respeitam as regras definidas no arquivo robots.txt de cada site, o que permite que os proprietários controlem quais partes de seus sites podem ou não ser exploradas. Leia mais

Além disso, os rastreadores operam dentro de intervalos de IP específicos e utilizam nomes de hosts que seguem uma estrutura padronizada, como crawl-***-***-***-***.googlebot.com e suas variações geográficas. Isso ajuda a garantir a autenticidade e segurança das ações desses robôs. Leia mais

Principais Rastreadores e Seus Propósitos

O Google utiliza uma variedade de rastreadores comuns, cada um deles com funções específicas e com strings de user-agent próprias que identificam suas solicitações HTTP. A seguir, detalhamos os principais rastreadores, suas características, tokens usados no robots.txt e os produtos que eles impactam. Leia mais

Googlebot

O Googlebot é o principal rastreador usado para explorar o conteúdo da web para indexação geral na Pesquisa Google. Ele possui versões para desktop e dispositivos móveis (smartphones), refletindo o foco do Google na experiência mobile-first. Leia mais

User-Agent: strings variam conforme dispositivo, mas incluem o marcador Googlebot/2.1 e uma versão do Chrome em constante atualização. Token no robots.txt: Googlebot Produtos afetados: Pesquisa Google (incluindo Google Discover), Imagens do Google, Google Vídeo, Google Notícias, entre outros. Leia mais

Com o avanço do Chromium, a versão do Chrome presente nesses user-agents é atualizada regularmente para refletir as versões mais recentes, o que melhora a capacidade de renderização e avaliação de páginas. Leia mais

Googlebot Image

Este rastreador é especializado na coleta de imagens para o produto Imagens do Google, além de apoiar outros serviços onde imagens, logotipos e favicons são apresentados. Leia mais

User-Agent: Googlebot-Image/1.0 Tokens no robots.txt: Googlebot-Image e também Googlebot Produtos afetados: Imagens do Google, Google Discover e Google Vídeo. Leia mais

Googlebot Video

Rastreador responsável por explorar conteúdos de vídeo para análise e inclusão nos resultados da Pesquisa Google e demais produtos que utilizam vídeos. Leia mais

User-Agent: Googlebot-Video/1.0 Tokens no robots.txt: Googlebot-Video e Googlebot Produtos afetados: Serviços relacionados a vídeos da Pesquisa Google. Leia mais

Googlebot News

Destinado à indexação e atualização de conteúdos noticiosos para o Google Notícias e seus aplicativos. Diferentemente dos outros, não possui uma user-agent distinta, utilizando as strings tradicionais do Googlebot. Leia mais

User-Agent: Utiliza as mesmas variações do Googlebot. Tokens no robots.txt: Googlebot-News e Googlebot Produtos afetados: Google Notícias, disponível tanto na web via news.google.com quanto no aplicativo Google Notícias. Leia mais

Google StoreBot

Esse rastreador está vinculado ao Google Shopping e suas diversas plataformas, como a aba “Shopping” na Pesquisa Google e Google Shopping propriamente dito. Ele coleta informações sobre produtos para garantir que estejam atualizadas e sejam apresentadas corretamente. Leia mais

User-Agent: versões para desktop e dispositivos móveis incluem a identificação Storebot-Google/1.0, associada ao Chrome. Token no robots.txt: Storebot-Google Produtos afetados: Todas as plataformas relacionadas ao Google Shopping. Leia mais

Google-InspectionTool

Utilizado em ferramentas de teste da Pesquisa Google, como a inspeção de URLs e teste de resultados aprimorados, esse rastreador permite que desenvolvedores avaliem e corrijam problemas sem impactar diretamente o índice da Pesquisa Google. Leia mais

User-Agent: apresenta versões para desktop e dispositivos móveis, incluindo a string Google-InspectionTool/1.0. Tokens no robots.txt: Google-InspectionTool e Googlebot Produtos afetados: Ferramentas de teste e inspeção; não afeta o índice de Pesquisa Google. Leia mais

GoogleOther e suas variantes

Esses rastreadores representam uma categoria genérica usada para diferentes propósitos internos, como pesquisas de desenvolvimento e testes. Eles não têm impacto direto na inclusão ou classificação na Pesquisa Google. Leia mais

User-Agent: pode incluir GoogleOther e suas variações para imagens (GoogleOther-Image) e vídeo (GoogleOther-Video). Tokens no robots.txt: correspondentes aos usuários descritos, como GoogleOther, GoogleOther-Image, etc. Produtos afetados: Nenhum produto específico; usados para buscas internas e desenvolvimento. Leia mais

Google-CloudVertexBot

É um rastreador vinculado ao serviço Vertex AI do Google Cloud, usado para criar agentes de inteligência artificial baseados em dados específicos do site. Ele respeita as preferências de rastreamento, mas não interfere na busca pública do Google. Leia mais

User-Agent: contém a string Google-CloudVertexBot. Tokens no robots.txt: Google-CloudVertexBot e Googlebot. Produtos afetados: Rastreamento solicitado por proprietários para alimentar agentes da inteligência artificial Vertex AI. Leia mais

Google-Extended

Esta é uma identificação separada que permite aos proprietários de sites controlar se o conteúdo rastreado pode ser utilizado para treinar modelos de IA futuros, como os desenvolvidos pela plataforma Gemini do Google. Diferentemente de outros rastreadores, sua função está focada no treinamento de inteligência artificial, não influenciando a presença nos resultados de busca nem a classificação do site. Leia mais

User-Agent: não possui string específica; usa user-agents atuais do Google. Token no robots.txt: Google-Extended. Produtos afetados: Modelos de IA Gemini, API Vertex AI para Gemini e ferramentas relacionadas ao embasamento dos resultados. Leia mais

Importância da String Chrome/W.X.Y.Z nos User-Agents

Nas strings de user agent dos rastreadores, a parte Chrome/W.X.Y.Z é um marcador indicando a versão do navegador Chrome utilizado para a solicitação. Esta versão é atualizada constantemente para refletir o Chromium mais recente, garantindo que o Googlebot tenha a mesma capacidade de renderização e compreensão das páginas que um navegador moderno. Leia mais

Para administradores de websites e analistas de logs, é recomendado usar caracteres curingas ao filtrar registros por essas strings, pois as versões mudam frequentemente e não é eficaz filtrar por número fixo. Leia mais

Como Gerenciar o Acesso dos Rastreadores ao Seu Site

Os proprietários de sites podem utilizar arquivos robots.txt para direcionar como cada rastreador deve interagir com seu site, permitindo ou bloqueando o acesso a determinadas áreas. Isso é feito através da definição de regras para os tokens do user-agent listados anteriormente. Leia mais

Por exemplo, para bloquear o acesso do Googlebot a uma seção específica, basta adicionar regras específicas no robots.txt com o token correspondente: Leia mais

Além disso, é importante verificar a autenticidade dos rastreadores que acessam seu site, já que é possível que agentes maliciosos falsifiquem strings de user-agent do Googlebot. Para isso, o Google recomenda praticar a verificação de IP reverso e consulta aos intervalos de IP oficiais do Googlebot. Leia mais

Conclusão

Conhecer os rastreadores comuns do Google e entender suas funções é fundamental para a gestão eficiente de um site e sua otimização para os motores de busca. Cada rastreador tem um papel específico na coleta de dados para diferentes produtos Google e respeita as configurações estabelecidas pelos proprietários. Leia mais

Por isso, estratégias adequadas de SEO devem considerar como esses bots acessam e interpretam o conteúdo, garantindo não só a indexação correta, mas também a otimização para as diversas funcionalidades da Pesquisa Google e serviços relacionados. Além disso, administrar bem o acesso via robots.txt e garantir a segurança da verificação dos rastreadores são aspectos essenciais para uma presença online eficaz e segura. Leia mais

Gostou deste story?

Aproveite para compartilhar clicando no botão acima! Visite nosso site e veja todos os outros artigos disponíveis! Muvi