Ícone do site Muvi

Tudo o que você precisa saber sobre o Googlebot: funcionamento, controle e verificação para otimizar seu site

Tudo o que você precisa saber sobre o Googlebot: funcionamento, controle e verificação para otimizar seu site

O que é o Googlebot

Googlebot é o nome genérico dos rastreadores da Web utilizados pelo Google para coletar informações e indexar páginas na Pesquisa Google. Ele se divide principalmente em dois tipos: o Googlebot Smartphone, que simula um usuário navegando em dispositivos móveis, e o Googlebot para computadores, que simula um usuário em desktops. Ambos os rastreadores usam o mesmo token de user-agent para interagir com sites.

Na prática, a maior parte dos rastreamentos são feitos através do Googlebot Smartphone, pois o Google prioriza a indexação da versão móvel dos sites, devido ao crescimento do acesso via dispositivos móveis. O Googlebot Desktop realiza um percentual menor de rastreamentos, mas ainda é importante para capturar variações específicas da versão para desktop.

Como o Googlebot acessa seu site

O Googlebot acessa os sites segundo uma frequência que, na média, não ultrapassa uma solicitação a cada poucos segundos. A taxa de rastreamento pode parecer mais elevada em curtos períodos por causa de atrasos entre requisições. Caso o seu servidor apresente dificuldades em lidar com o volume de acessos do Googlebot, é possível solicitar uma redução da taxa de rastreamento para preservar recursos do servidor.

O Googlebot é capaz de rastrear até 15 MB do conteúdo HTML de uma página ou de arquivos de texto suportados. Cada um dos recursos externos referenciados na página, como folhas de estilo CSS e arquivos JavaScript, é buscado separadamente, obedecendo ao mesmo limite de tamanho.

Após alcançar o limite de 15 MB do arquivo, o Google interrompe o rastreamento e processa apenas o conteúdo baixado para fins de indexação. Outros rastreadores do Google, especializados em vídeos ou imagens, podem ter limites diferentes em relação ao tamanho do conteúdo analisado.

Vale destacar que, ao realizar essas conexões, o horário de referência do Googlebot é baseado no Horário do Pacífico dos Estados Unidos, o que pode ser relevante para análise de logs e monitoramento.

Como impedir o acesso do Googlebot ao seu site

Embora o Googlebot descubra URLs principalmente através de links encontrados em páginas rastreadas anteriormente, tentar manter um site completamente oculto é quase impossível, especialmente se houver links externos apontando para ele. Esses links podem expor URLs secretos nos registros de referência de outros sites.

Caso seja necessário impedir que o Googlebot rastreie certas partes do seu site, existem diversas ferramentas e métodos para controlar esse acesso. É fundamental compreender que bloquear o rastreamento e impedir a indexação não são a mesma coisa:

Bloquear o Googlebot afeta a visibilidade do conteúdo não apenas na Pesquisa Google tradicional, mas também em produtos relacionados como Google Discover, Google Imagens, Google Vídeo e Google Notícias, impactando a visibilidade geral do seu conteúdo.

Verificação do Googlebot

É comum que crawlers mal-intencionados ou bots de terceiros imitem o user-agent do Googlebot para tentar acessar seu site. Por isso, antes de tomar medidas baseadas no user-agent da requisição, é imprescindível confirmar se o acesso realmente está sendo feito pelo Googlebot genuíno.

Uma maneira eficaz de verificar a autenticidade do Googlebot é utilizar uma busca reversa DNS a partir do endereço IP de origem da requisição para checar se ele pertence à faixa de IPs do Google. Outra opção é comparar o IP de origem com as faixas oficiais divulgadas pelo Google para o Googlebot. Apenas após essa verificação a ação de bloqueio ou qualquer restrição deve ser aplicada.

Considerações finais

Entender o funcionamento do Googlebot e como ele interage com seu site é fundamental para otimizar a presença da sua marca no Google e garantir que seu conteúdo seja encontrado pelo público correto. Ajustes na taxa de rastreamento, controle de quais páginas devem ser rastreadas ou indexadas e a verificação dos bots que acessam seu domínio são práticas essenciais para manter a saúde e o desempenho do site nos mecanismos de pesquisa.

Ao trabalhar com estratégias de SEO, é vital garantir que o Googlebot possa rastrear e interpretar seu conteúdo de forma eficiente, priorizando experiências de usuário satisfatórias e aderindo às boas práticas recomendadas pelo Google.

Sair da versão mobile