Google recomenda que os sites utilizem o arquivo Robots.txt para impedir o acesso a URLs específicas.

Redator Luccas4 de August de 2024

0 21 3 minutos lidos

Em um post publicado no LinkedIn, Gary Illyes, um analista do Google, reafirmou a recomendação de uso do arquivo robots.txt por parte dos donos de sites, a fim de evitar que os rastreadores da web acessem URLs que possam desencadear ações como adicionar itens a carrinhos de compras ou listas de desejos.

Illyes ressaltou que servidores frequentemente sofrem com excesso de tráfego de rastreadores não essenciais, que geralmente são causados por bots de busca que rastreiam URLs voltadas para interações do usuário.

Ele redigiu um texto.

Analisando as queixas que recebemos dos sites, percebemos que muitas vezes se referem a URLs de ação, como “adicionar ao carrinho” e “adicionar à lista de desejos”. Esses endereços são irrelevantes para os rastreadores e é possível que você não queira que eles os acessem.

Para evitar o desperdício de capacidade do servidor, a Illyes recomenda impedir que os robôs acessem o arquivo txt para endereços URL que contenham parâmetros como “?add_to_cart” ou “?add_to_wishlist”.

Como ilustração, ele propõe:

http://example.com/product/scented-candle-v1?add_to_wishlist

Você provavelmente precisará incluir uma regra de proibição para eles no seu arquivo robots.txt.

Ao optar pelo método HTTP POST, é possível dificultar o rastreamento de URLs, embora os rastreadores notados por Illyes ainda possam fazer solicitações POST. Portanto, é recomendável manter o arquivo robots.txt.

Relacionado: 8 perguntas frequentes sobre o arquivo Robots.txt e como resolvê-las.

Fortalecer as práticas recomendadas há décadas.

Alan Perkins, que participou do setor, destacou que essa recomendação segue os princípios da internet introduzidos na década de 1990 pelos mesmos motivos.

Citação de um texto do ano de 1993 intitulado “Estabelecendo um padrão para a exclusão de robôs”.

Nos anos de 1993 e 1994, ocorreram situações em que os robôs acessaram servidores da WWW sem serem bem-recebidos, por diversas razões. Os robôs exploraram áreas de servidores WWW que não eram apropriadas, como árvores de diretórios muito extensas, conteúdo duplicado, informações temporárias ou scripts cgi com consequências indesejadas, como votações.

Em 1994, o padrão robots.txt foi desenvolvido como uma solução de consenso entre os envolvidos na web, estabelecendo regras para controlar o acesso ao rastreador de forma adequada.

Relacionado: 6 Costumbres SEO Antiguas Que Perduran en el Tiempo

Cumprimento das regras e situações que fogem à regra.

Illyes declarou que os rastreadores do Google seguem rigorosamente as diretrizes do arquivo robots.txt, exceto em casos específicos relacionados a “cookies de usuário ou contratuais”, que são cuidadosamente documentados.

Essa adoção dos robôs e o protocolo txt têm sido fundamentais nas diretrizes de monitoramento online do Google.

Por qual motivo a SEJ se importa?

Apesar de parecer simples, o retorno dessa prática antiga destaca sua importância.

Usando o arquivo robots.txt padrão, os sites podem auxiliar na contenção de rastreadores excessivos que consomem largura de banda com solicitações inúteis.

Confira também: Maneiras de lidar com possíveis ameaças de segurança relacionadas aos arquivos Robots.txt.

De que forma isso pode ser benéfico para você.

Se você gerencia um blog pequeno ou uma plataforma de e-commerce grande, seguir a recomendação do Google de usar o arquivo robots.txt para impedir que o rastreador acesse determinadas URLs pode trazer diversos benefícios.

Redução da carga do servidor: É possível diminuir as solicitações desnecessárias ao servidor e o consumo de largura de banda ao evitar que os rastreadores acessem URLs que ativam ações como adicionar produtos a carrinhos de compras ou listas de desejos.
Melhorando a eficácia do Crawler: fornecendo diretrizes mais claras para seus robôs. Especificar as regras em um arquivo de texto para os rastreadores de URLs seguir pode resultar em um rastreamento mais eficiente das páginas/conteúdos desejados para indexação e classificação.
Reformulação: Ao direcionar os recursos do servidor para interações autênticas dos usuários, em vez de atividades de rastreamento inúteis, é provável que os usuários finais desfrutem de tempos de carregamento mais rápidos e de uma experiência mais fluida.
Mantenha seu site em conformidade com os padrões estabelecidos, implementando a orientação que é adotada por robôs amplamente reconhecidos. Os padrões de protocolo TXT têm sido considerados as melhores práticas da indústria por muitos anos.

Revisitar as diretrizes do arquivo robots.txt pode ser uma medida simples, porém significativa, para os sites que desejam ter mais controle sobre a ação dos rastreadores.

A declaração de Illyes sugere que as regras antigas para os robôs.txt ainda são importantes no cenário atual da internet.

A imagem destacada pertence a BestForBest/Shutterstock.

Google recomenda que os sites utilizem o arquivo Robots.txt para impedir o acesso a URLs específicas.

Fortalecer as práticas recomendadas há décadas.

Cumprimento das regras e situações que fogem à regra.

Por qual motivo a SEJ se importa?

De que forma isso pode ser benéfico para você.

Redator Luccas

Mullenweg enfrenta desafio no WordPress em nova ação judicial.

A Microsoft anuncia a forma de geração de receita a partir da inteligência artificial para colaboradores digitais.

Mais de 200 plugins ChatGPT agora estão disponíveis para um número ainda maior de usuários.

Como a implementação do atributo Hreflang x-default do Google pode aprimorar a experiência de navegação em um site.

Diretrizes sobre Princípios Cruzados

O ícone de bloqueio do HTTPS do Chrome está indo para longe

Fortalecer as práticas recomendadas há décadas.

Cumprimento das regras e situações que fogem à regra.

Por qual motivo a SEJ se importa?

De que forma isso pode ser benéfico para você.

Redator Luccas

Bluehost apresenta o criador de sites de imprensa AI Word.

O Google fornece aos vendedores informações atualizadas sobre como suas vendas são afetadas pelas pesquisas de compras.

Artigos relacionados

Possíveis inovações da Apple que poderiam transformar a forma como realizamos nossas atividades, segundo a WWDC 2023.

Web.com anuncia Gerador de Nomes de Domínio e Escritor de AI.

Escritores, criadores e profissionais de comunicação reagem à presença da inteligência artificial.

Bing – A funcionalidade de conversa por voz para injeção de plástico é agora disponível em computadores.

Mullenweg enfrenta desafio no WordPress em nova ação judicial.

A Microsoft anuncia a forma de geração de receita a partir da inteligência artificial para colaboradores digitais.

Mais de 200 plugins ChatGPT agora estão disponíveis para um número ainda maior de usuários.

Como a implementação do atributo Hreflang x-default do Google pode aprimorar a experiência de navegação em um site.

Diretrizes sobre Princípios Cruzados

O ícone de bloqueio do HTTPS do Chrome está indo para longe