Este guia avançado é direcionado principalmente para administradores e proprietários de sites que possuem um volume grande ou médio de páginas, especialmente quando essas páginas são atualizadas com frequência. Destina-se a:
Essas categorias indicam cenários em que a gestão eficiente da cota de rastreamento torna-se essencial para melhorar o desempenho de indexação no Google e garantir que as páginas importantes sejam atualizadas nos resultados de pesquisa.
A web é um ambiente imenso e em constante crescimento, o que torna impossível para o Googlebot rastrear e indexar todas as páginas existentes na internet a qualquer momento. Por isso, é estabelecido um limite chamado cota de rastreamento para cada site, que representa a quantidade de recursos que o Google destinam para o rastreamento daquele domínio específico em um dado período.
Nem todas as páginas rastreadas serão necessariamente indexadas; cada URL é avaliado e consolidado para que apenas o conteúdo relevante e útil seja incluído no índice de pesquisa.
A cota de rastreamento depende basicamente de dois fatores:
Esse limite é estabelecido para que o Googlebot possa rastrear seu site sem causar sobrecarga no servidor, garantindo uma experiência estável para os usuários. A capacidade está relacionada ao número de conexões simultâneas que o Googlebot pode abrir com o servidor, assim como ao espaçamento entre as requisições.
Alguns fatores influenciam essa capacidade:
A demanda se refere ao interesse do Google na quantidade e frequência de rastreamento do conteúdo do site, baseado em características como tamanho, taxa de atualização, qualidade e relevância geral.
Principais fatores que determinam a demanda:
Eventos como mudanças de estrutura do site ou lançamento de novos conteúdos também podem aumentar a demanda.
O Google define a cota de rastreamento com base na combinação entre a capacidade do servidor e a demanda do conteúdo. Mesmo que a capacidade permita mais rastreamento, uma baixa demanda refletirá em menos URLs rastreados.
Para garantir que o Googlebot utilize o tempo e recursos de forma eficiente ao rastrear seu site, siga as práticas abaixo:
Informe ao Google quais páginas devem ser priorizadas no rastreamento e quais devem ser excluídas. Gastar tempo rastreando URLs que não devem ser indexados pode prejudicar o desempenho do site no Google.
Quanto mais rápido o Googlebot carregar e processar as páginas, mais páginas poderão ser rastreadas em um mesmo período.
O Google suporta cabeçalhos HTTP que indicam se o conteúdo mudou desde o último rastreamento, como If-Modified-Since e If-None-Match. Isso ajuda a economizar recursos do servidor e otimiza rastreamentos.
Retornar um código 304 (Not Modified) para conteúdo que não foi alterado desde a última visita é uma prática recomendada.
Reduza o desperdício da cota de rastreamento bloqueando páginas que não agregam valor para os usuários na busca.
Exemplos comuns incluem:
Evite usar técnicas temporárias para ajustar a cota, como editar robots.txt para liberar cota ocasionalmente. Use bloqueios de forma consistente e permanente para as páginas que não deseja que o Google rastreie.
Utilize as ferramentas do Search Console para acompanhar o comportamento do Googlebot no seu site e identificar possíveis problemas.
Se o Googlebot estiver sobrecarregando seus servidores, siga estas estratégias temporárias:
É importante esclarecer conceitos comuns para melhor entender o funcionamento do rastreamento pelo Google:
Gerenciar a cota de rastreamento é essencial para manter grandes sites eficientes frente ao Google Search. Ao otimizar o inventário de URLs, melhorar a velocidade e a qualidade das páginas, monitorar e resolver problemas de disponibilidade, e adotar as melhores práticas técnicas indicadas, proprietários de sites podem garantir que o Googlebot gastará seus recursos no conteúdo mais importante, favorecendo a indexação adequada e a melhor visibilidade nos resultados de busca.
Aproveite para compartilhar clicando no botão acima!
Visite nosso site e veja todos os outros artigos disponíveis!