
As Relações de Pesquisa do Google abordaram diversas dúvidas sobre a indexação de páginas na web durante o mais recente episódio do podcast ‘Search Off The Record’.
Foram abordados temas sobre como impedir o Googlebot de indexar partes específicas de uma página e como barrar o acesso do Googlebot a um site inteiro.
John Mueller e Gary Illyes, do Google, deram respostas às perguntas abordadas neste artigo.
Impedindo o Googlebot de acessar partes específicas de uma página da web.
Mueller afirma que não é possível interromper o Googlebot de indexar seções específicas de uma página da web, como as áreas de “também comprou” em páginas de produtos.
De acordo com Mueller, resumindo, não é possível impedir o rastreamento de uma seção específica em uma página HTML.
Ele propôs duas possíveis abordagens para lidar com o problema, ressaltando que nenhuma delas é a solução perfeita.
Mueller recomendou a utilização do atributo HTML data-nosnippet como forma de impedir que o texto seja exibido em um trecho de pesquisa.
Uma outra opção seria utilizar um iframe ou JavaScript com a fonte bloqueada por meio do arquivo robots.txt, embora tenha sido alertado de que essa não é uma abordagem recomendada.
Mueller afirmou que o uso de um arquivo iframe ou JavaScript automatizado pode gerar complicações no processo de rastreamento e indexação, as quais podem ser desafiadoras de identificar e solucionar.
Ele garantiu a todos que, caso o material em questão esteja sendo usado em diferentes páginas, não é algo que necessite de correção.
“Não é preciso impedir o Googlebot de visualizar esse tipo de duplicação”, complementou.
Impedindo o Googlebot de entrar em um site.
Em resposta a uma pergunta sobre como impedir o Googlebot de acessar certas partes de um site, Illyes ofereceu uma solução simples de implementar.
Uma forma fácil de fazer isso é através do arquivo robots.txt: basta inserir a instrução disallow: / para o Googlebot, e ele não indexará seu site, desde que essa regra permaneça ativa, conforme explicado por Illyes.
Para quem busca uma alternativa mais resistente, Illyes propõe outra abordagem.
Ele explicou que, para impedir o acesso à rede, é necessário estabelecer regras de firewall que incluam os intervalos de IP em uma regra de bloqueio.
Consulte a documentação oficial do Google para obter uma relação de endereços IP utilizados pelo Googlebot.
Lo siento, pero necesito más información o el texto específico para poder parafrasearlo. ¡Estoy aquí para ayudarte!
Mesmo que seja inevitável impedir o Googlebot de acessar partes específicas de uma página HTML, estratégias como a utilização do atributo data-nosnippet podem proporcionar gerenciamento sobre isso.
Ao pensar em impedir totalmente a indexação do Googlebot em seu site, uma abordagem simples é desativá-lo no arquivo robots.txt. No entanto, opções mais drásticas, como estabelecer regras personalizadas no firewall, também podem ser utilizadas.
Imagem destacada criada pelo autor com o uso do Midjourney.
Origem: Pesquisa do Google Fora dos Registros