A pesquisa do Google envolve o uso deste Dataset para suas pesquisas de inteligência artificial?

O Google divulgou um documento de estudo sobre um novo conjunto de dados utilizado para ensinar um modelo de linguagem a identificar frases que respondem de maneira precisa a perguntas em uma conversa aberta.
Não temos certeza se o Google está utilizando essa coleção de informações. No entanto, os estudiosos afirmam que ela é mais eficaz do que os modelos treinados em conjuntos de dados distintos.
Muitos estudos de pesquisa, como o mencionado no caso do LaMDA, omitem detalhes específicos sobre possíveis aplicações práticas.
Por exemplo, de acordo com o artigo de pesquisa LaMDA, a conclusão é apresentada de forma imprecisa.
“A LaMDA representa um avanço em direção a sistemas de diálogo abertos, eficientes e seguros, os quais têm o potencial de viabilizar uma variedade de aplicações práticas.”
Este estudo de investigação indica que o desafio em questão consiste em desenvolver um conjunto de dados para capacitar um sistema de inteligência artificial em diálogo aberto, através da seleção de frases extraídas de páginas web.
Qual é a importância deste conjunto de dados?
O motivo pelo qual este estudo desperta interesse é que os pesquisadores sugerem que ele poderia ser aplicado na criação de inteligência artificial generativa baseada em fatos, similar à nova pesquisa generativa do Google.
Considerando que o estudo foi exposto em uma conferência de Recuperação da Informação (Proceedings of the 45th International ACM SIGIR Conference on Research and Development), é seguro presumir que esse algoritmo está ligado à busca de informações, ou seja, pesquisa.
Uma observação final é que a pesquisa sobre esse novo conjunto de dados foi divulgada no ano passado, em 2022, mas passou despercebida… Até o momento atual.
Qual é o objetivo que o Google definiu para atingir com a nova coleção de informações?
Os pesquisadores detalham a sua área de interesse.
No artigo, focamos em conversas abertas, onde duas partes interagem em sequência sobre diversos assuntos, sem limitações quanto a mudanças de tema e estilo de discussão em cada tópico.
Além disso, a conversa não se baseia em um documento particular, ao contrário do método empregado em um projeto anterior…
A nossa missão consiste em recuperar frases de um conjunto de documentos que contenham informações relevantes para criar a próxima interação no diálogo, seja por meio automatizado ou por intervenção humana.
Percebemos que as trocas de diálogo podem consistir em perguntas, argumentos, declarações e outros tipos de interação.
Uma nova categoria de conjunto de informações para o treinamento de modelo de linguagem.
Os pesquisadores estão trabalhando para resolver a questão de como extrair uma frase de uma página da web para responder a perguntas abertas, que exigem respostas mais elaboradas do que simples “sim” ou “não”.
O artigo de pesquisa descreve que o elemento necessário para viabilizar essa habilidade em um dispositivo é um banco de dados de diálogos adequado.
Eles afirmam que os conjuntos de dados disponíveis são utilizados por dois motivos.
- Avaliar as respostas de um sistema de inteligência artificial que gera diálogos, porém não com o objetivo de utilizá-las no treinamento, mas sim para efetivamente obter as informações pertinentes para a resposta desejada.
- Conjuntos de dados destinados a serem utilizados por um mecanismo de busca ou de perguntas e respostas, concentrando-se em uma única passagem de pergunta e resposta.
Eles estão apontando as deficiências dos conjuntos de dados atuais.
Em muitos desses conjuntos de dados, os resultados da pesquisa obtidos não são considerados como integrantes da conversa.
No conjunto de dados de recuperação de passagem conversacional e de perguntas e respostas conversacionais, um usuário está fazendo perguntas ou consultas que mostram intenções claras de obter informações. Isso difere de diálogos naturais, nos quais as intenções podem ser expressas de forma implícita, como em declarações afirmativas.
Em resumo, os atuais conjuntos de dados de conversação não incluem diálogos naturais entre humanos juntamente com anotações pertinentes para frases extraídas de um extenso conjunto de documentos.
Portanto, elaboramos essa coleção de informações…
Como foi originado o novo conjunto de dados.
Os cientistas desenvolveram um conjunto de informações que possibilita o treinamento de um algoritmo capaz de identificar a frase correta em uma conversa aberta.
O conjunto de informações é formado por interações do Reddit que foram associadas a informações da Wikipedia, juntamente com avaliações feitas por humanos (classificações de importância) para esses conjuntos de perguntas e respostas.
As informações provenientes do Reddit foram obtidas do Pushshift.io, que é um arquivo contendo conversas do Reddit (Pushshift FAQ).
O texto do artigo de pesquisa aborda:
Para lidar com uma variedade maior de conversas em que qualquer tipo de diálogo pode ser utilizado, criamos um conjunto de informações que engloba conversas abertas do Reddit, frases candidatas da Wikipedia para cada diálogo e anotações feitas por humanos para essas frases.
O conjunto de informações contém 846 conversas originadas de discussões no Reddit.
Para cada conversa, foram extraídas 50 frases da Wikipédia por meio de um método de recuperação inicial não supervisionado.
Essas frases foram avaliadas pela multidão de trabalhadores com base em sua importância, ou seja, se continham informações úteis para avançar a conversa.
O grupo desenvolveu um dataset que está disponível no GitHub.
Exemplo de uma situação de conversa.
Qual surgiu primeiro, a galinha ou o ovo?
Uma ilustração de uma resposta que não tem importância.
As galinhas criadas em casa existem há aproximadamente 10.000 anos, enquanto os ovos estão presentes há centenas de milhões de anos.
Um modelo de frase adequada de uma página da internet que pode ser utilizada para responder é:
Em termos simples, Neil deGrasse Tyson questiona: “Qual veio primeiro, o frango ou o ovo? Um ovo foi posto por um pássaro que não era uma galinha.”
Abordagem para Recuperação de Informação.
Na seção de recuperação, mencionam estudos anteriores em modelos de linguagem e outras técnicas, optando por adotar a abordagem de supervisão limitada.
Eles fornecem explicações.
A calibração de modelos de recuperação necessita de etiquetas significativas para os exemplos de treinamento em uma determinada tarefa.
Por vezes, essas podem ser difíceis de encontrar ou não estar disponíveis.
Uma estratégia para lidar com essa situação é criar etiquetas automaticamente e treinar um modelo com supervisão fraca com base nessas marcações.
Seguimos o modelo de supervisão fraco em nosso treinamento, utilizando um novo annotador Reddit de baixa qualidade para recuperação em um cenário de diálogo.
O conjunto de dados obteve sucesso?
O Google e diversas outras entidades divulgam muitos estudos de pesquisa que apresentam variados graus de êxito.
Alguns estudos têm alcançado resultados modestos, avançando apenas um pouco, se é que avançam de fato, o estado da arte.
Os estudos de pesquisa que me interessam são aqueles que se destacam positivamente e superam o conhecimento atual na área.
Essa situação envolve a criação desse conjunto de dados específico para ensinar um modelo de linguagem a identificar frases que funcionem de forma precisa como respostas em um diálogo aberto.
Eles dizem que um modelo BERT treinado com esse conjunto de dados se torna ainda mais eficaz.
Eles estão redigindo.
Inadequado, apesar de a RANKBERTMS superar todos os modelos não ajustados, o modelo RANKBERTMS→R, que foi ajustado com mais precisão usando nosso conjunto de treinamento com supervisão fraca, apresenta uma melhoria no desempenho.
Esta técnica alcança o melhor rendimento, apresentando vantagens significativas em comparação com outras abordagens, de forma estatisticamente comprovada.
Esta descoberta também evidencia a eficácia de nosso sistema de anotação automatizada e de um conjunto de dados de treinamento com pouca supervisão, indicando que é possível aprimorar o desempenho sem a necessidade de anotações manuais para o treinamento.
Em diferentes locais, os estudiosos mencionam:
Demonstramos que um classificador de rede neural, treinado com supervisão fraca, superou todos os outros modelos avaliados, inclusive um classificador de rede neural submetido a ajustes finos no conjunto de dados de recuperação de passagens MS Marco.
Eles mencionam que, apesar do sucesso dessa abordagem, estão empenhados em aprimorar ainda mais o estado atual da técnica.
A pesquisa realizada chega à conclusão de que…
No futuro, planejamos desenvolver modelos de recuperação usando BERT, os quais serão treinados apenas com supervisão fraca, com base em um BERT pré-treinado, sem depender de extensos conjuntos de dados anotados como o MS Marco.
Gostaríamos também de embasar os modelos de linguagem gerativa em nossos modelos de recuperação e analisar as conversas que surgem desse embasamento.
Esta metodologia pode estar sendo utilizada?
O Google geralmente não confirma o uso de pesquisa específica, exceto em situações como o BERT, em que eles confirmam sua utilização.
Normalmente, a resposta comum é que, mesmo que o Google tenha publicado um estudo ou uma patente, isso não indica necessariamente que estejam aplicando isso em seu algoritmo de busca.
Após mencionar isso, o estudo de pesquisa publicado por volta de 2022 sugere a investigação sobre a possibilidade de embasar modelos de linguagem generativa, como o Bard e o Google Search Generative Experience.
Uma interação com inteligência artificial geradora de conversas pode levar a uma situação em que a IA realiza ações, fenômeno conhecido tecnicamente como alucinação.
A prática de aterramento envolve apoiar as respostas do chatbot com informações concretas, geralmente obtidas de fontes online, com o objetivo de prevenir a disseminação de informações falsas.
O Bing utiliza uma ferramenta chamada Bing Orchestrator que analisa páginas da web para validar as informações geradas pelo GPT.
Aterrar a saída de inteligência artificial é importante para manter uma base factual, algo que este conjunto de dados pode realizar ao escolher frases de páginas da web como parte de uma resposta.


Confira o livro de estudo.
Resumo da Página Web: Conjunto de Dados para Recuperação de Frases para Diálogos Abertos.
Texto parafraseado: Atual documento de pesquisa: Conjunto de informações para encontrar frases em conversas abertas.
Imagem principal fornecida por Shutterstock e creditada a Camilo Concha.