Google oferece suporte técnico para computadores com foco na identificação e correção de vazamentos de dados.
Durante os feriados nos Estados Unidos, surgiram algumas publicações sobre um possível vazamento de informações referentes à classificação do Google. Os primeiros posts sobre esse vazamento, divulgados por Rand Fishkin e depois por Mike King, abordaram principalmente as opiniões de Rand Fishkin sem explorar profundamente o contexto das informações e seu real significado.
Conteúdos de Fundamentação: Banco de Dados de Inteligência Artificial de Documentos
O documento vazado está relacionado a uma plataforma pública do Google Cloud chamada Document AI Warehouse, a qual é utilizada para analisar, organizar, pesquisar e armazenar dados. De acordo com um post no Facebook, os dados vazados são uma versão interna da documentação do Document AI Warehouse que normalmente é visível publicamente. Este é o contexto dos dados vazados.
Captura de tela: Armazém de inteligência artificial do documento
@DavidGQuaid publicou no Twitter:
Eu entendo que se trata de uma interface de programação de aplicativos externa usada para criar um repositório de documentos, conforme indicado pelo seu nome.
Isso parece desestimular a ideia de que os dados vazados são informações confidenciais do Google Search.
Até onde temos conhecimento atualmente, os “dados de chumbo” apresentam semelhanças com o conteúdo da página do Armazém de IA no Documento Público.
Informações provenientes de uma pesquisa realizada internamente?
O texto original do SparkToro não menciona que os dados foram obtidos do Google Search. Ele destaca que a pessoa responsável por fornecer os dados a Rand Fishkin é quem fez essa declaração.
Uma das características que admiro em Rand Fishkin é a sua precisão minuciosa na escrita, especialmente ao lidar com ressalvas. Rand destaca de forma meticulosa que a pessoa fornecedora dos dados é quem os originou na Pesquisa do Google. Não há evidências, apenas uma alegação.
Ele redige.
Recebi um e-mail de alguém que alega ter acesso a uma grande quantidade de documentação de API vazada na área de pesquisa do Google.
O autor Fishkin não afirma que os dados foram confirmados por ex-funcionários do Google como provenientes do Google Search. Ele menciona que a pessoa que enviou os dados por e-mail fez essa alegação.
O e-mail também mencionou que os documentos vazados foram verificados como genuínos por ex-funcionários do Google, os quais, juntamente com outros ex-empregados, compartilharam informações confidenciais adicionais sobre as atividades de busca do Google.
Fishkin fala sobre uma reunião online posterior em que o vazamento revelou que ele estava em contato com ex-funcionários do Google com o objetivo de encontrá-los em um evento da indústria de pesquisa. É necessário confiar nas informações vazadas sobre o que os ex-Google disseram após uma análise detalhada dos dados, e não apenas em uma conversa informal.
Fishkin mencionou que ele se comunicou com três ex-funcionários do Google a respeito desse assunto. O que chama a atenção é que esses ex-funcionários não afirmaram claramente que os dados são provenientes internamente do Google Search. Eles apenas confirmaram que os dados se assemelham a informações internas do Google, sem confirmar que são originários do Google Search.
Fishkin relata as informações compartilhadas com ele por ex-funcionários do Google.
- “Durante o período em que estive lá, eu não tive a oportunidade de visualizar esse código. No entanto, aparenta ser autêntico.”
- Possui todas as características de uma interface de programação de aplicativos interna do Google.
- É uma interface de programação de aplicativos desenvolvida em Java. Foi dedicado um longo período à conformidade com os padrões internos do Google para documentação e nomenclatura.
- “Eu precisaria de um prazo adicional para confirmar, no entanto, isso está de acordo com os registros internos que conheço.”
- Não encontrei indícios que questionem a legitimidade disso durante a rápida revisão que fiz.
Expressar que algo provém da busca no Google e afirmar que algo tem origem no Google são conceitos distintos.
Mantenha-se receptivo às novas ideias.
É fundamental manter uma postura receptiva em relação aos dados, pois há muitas informações não confirmadas. Por exemplo, não há certeza se este documento pertence à equipe de busca. Portanto, não é aconselhável extrair orientações práticas de SEO desses dados.
Além disso, é desaconselhável utilizar a análise de dados para validar crenças antigas, pois isso pode levar a um viés de confirmação.
Uma explicação do viés de confirmação:
O viés de confirmação se refere à inclinação de buscar, interpretar, favorecer e lembrar informações de maneira que sustente ou reforce as crenças ou valores já existentes.
A tendência de confirmação pode fazer com que uma pessoa rejeite fatos empiricamente comprovados. Um exemplo disso é a crença de que o Google automaticamente coloca um novo site em destaque, conhecida como a teoria da Sandbox. Diariamente, indivíduos afirmam que seus novos sites e páginas são rapidamente classificados entre os dez melhores resultados da busca do Google.
Se você é uma pessoa que se recusa a mudar de ideia na Sandbox, a sua visão da realidade será abalada, mesmo que muitas pessoas testemunhem algo diferente.
Brenda Malone, uma Estrategista Técnica Sênior de SEO e Desenvolvedora Web freelancer, entrou em contato comigo para discutir sobre as alegações relacionadas ao Sandbox.
Do meu próprio conhecimento prático, posso afirmar que a teoria da Sandbox está equivocada. Recentemente, consegui indexar um blog pessoal com apenas dois posts em apenas dois dias. É impossível que um site pequeno com apenas dois posts tenha sido indexado se a teoria da Sandbox estivesse correta.
A ideia principal é que, se a documentação vem do Google Search, não é correto analisar os dados procurando confirmar crenças antigas.
Sobre o que se trata o vazamento de dados do Google?
Existem cinco aspectos a serem levados em consideração em relação aos dados que foram expostos:
- A origem da informação divulgada é incerta. Está associada ao Google Search? É utilizada para propósitos diferentes?
- Qual foi a finalidade dos dados? Eles foram empregados em estudos de pesquisa legítimos ou foram utilizados internamente para gestão ou manipulação de informações?
- Ex-funcionários do Google não afirmaram que os dados são exclusivos do Google Search. Apenas confirmaram que aparentemente provêm do Google.
- Mantenha-se receptivo. Se estiver buscando validação de suas crenças arraigadas, saiba que encontrará evidências delas em todos os lugares. Isso é conhecido como viés de confirmação.
- As provas indicam que as informações estão ligadas a uma interface de programação de aplicativos externa utilizada para desenvolver um repositório de documentos.
Opiniões de terceiros sobre documentos vazados.
Ryan Jones, que possui vasta experiência em SEO e um excelente conhecimento em ciência da computação, fez algumas considerações pertinentes sobre o chamado vazamento de dados.
Ryan fez uma postagem no Twitter.
Não temos certeza se é destinado à produção ou a testes. Acredito que seja principalmente para avaliar possíveis alterações.
Não temos conhecimento do que é utilizado para a web ou para outras áreas específicas. Alguns recursos podem ser direcionados apenas para determinados serviços do Google, como notícias, por exemplo.
Não temos certeza sobre o que constitui uma entrada para um algoritmo de aprendizado de máquina e o que é usado como dados de treinamento. Acredito que cliques não são diretamente utilizados como entrada, mas sim para treinar um modelo a prever a probabilidade de cliques (além de tendências crescentes).
Penso que determinados campos são relevantes apenas para os conjuntos de dados de treinamento e não para todos os sites.
Estou afirmando que o Google não mentiu? De forma alguma. No entanto, vamos analisar essa divulgação de modo imparcial, sem qualquer viés preestabelecido.
David G. Quaid publicou no Twitter:
“Não temos certeza se o objetivo é pesquisar no Google ou acessar arquivos armazenados na nuvem da Google.”
As APIs podem fazer escolhas, o que não é o ideal em relação à execução do algoritmo. Se um engenheiro deseja ignorar as verificações de qualidade, pode parecer que está tentando desenvolver um aplicativo de armazenamento de conteúdo para sua base de conhecimento empresarial.
As informações vazadas sobre o Google Search?
Neste momento, não há provas sólidas de que os dados vazados sejam provenientes do Google Search. Existe uma grande incerteza sobre a finalidade desses dados. Há sugestões de que eles possam ser utilizados como uma API externa para criar um repositório de documentos, e não estão diretamente ligados à classificação de sites no Google Search.
No momento, não se pode afirmar com certeza que esses dados não vieram do Google Search, mas as evidências indicam que é essa a tendência.
Foto principal fornecida por Shutterstock/Jaaak