A pesquisa indica que a árvore do pensamento é mais eficaz do que a cadeia do pensamento como estímulo para o pensamento.

Os cientistas encontraram uma forma de superar as restrições de segurança nos modelos GPT4 e GPT4-Turbo, permitindo que produzam conteúdo nocivo e prejudicial ao enfrentar um modelo de linguagem grande com outro.
Os especialistas perceberam que utilizar a técnica de árvore de pensamento (ToT) foi benéfico para repetir e aprimorar uma abordagem específica, facilitando o desbloqueio de outro modelo de linguagem extenso.
Eles encontraram que a estratégia ToT teve êxito contra GPT4, GPT4-Turbo e PaLM-2, com um baixo número de consultas necessárias para realizar um jailbreak, geralmente menos de trinta consultas em média.
Pensamentos organizados em uma estrutura de árvore de raciocínio.
Um estudo realizado pelo Google em aproximadamente maio de 2022 identificou o Fenômeno de Estímulo ao Pensamento.
A Cadeia de Pensamento (CoT) é uma técnica de orientação adotada em inteligências artificiais geradoras, com o objetivo de guiá-las em uma série de etapas para solucionar um problema e executar uma atividade. Geralmente, o método CoT é explicado com exemplos para demonstrar ao modelo de linguagem como as etapas são aplicadas em um processo de raciocínio.
Dessa forma, em vez de simplesmente solicitar a uma inteligência artificial generativa como Midjourney ou ChatGPT para realizar uma tarefa, a abordagem de pensamento em cadeia orienta a IA a seguir uma sequência de etapas de raciocínio.
O conceito da Árvore dos Pensamentos (ToT), também conhecido como Árvore do Pensamento (singular), é basicamente uma versão aprimorada e diferente do CoT, embora haja distinções entre eles.
O conceito da árvore de pensamentos se assemelha ao CoT, com a distinção de que, em vez de instruir uma inteligência artificial generativa a seguir uma única sequência de raciocínio, o ToT é desenvolvido com um método que oferece diversas possibilidades para que a IA possa pausar, avaliar por si mesma e então propor alternativas.
O conceito da árvore de pensamentos foi criado em maio de 2023 em um estudo chamado “Árvore de Pensamentos: Resolução Deliberada de Problemas com Modelos de Linguagem de Grande Escala”.
O artigo científico apresenta a Árvore do Pensamento.
Apresentamos uma nova forma de inferir o modelo de linguagem, chamada Árvore dos Pensamentos (ToT), que amplia o conceito conhecido como Pensamento em Cadeia para aprimorar os modelos de linguagem. A ToT possibilita explorar unidades de texto coesas (pensamentos) que funcionam como etapas intermediárias na resolução de problemas.
O ToT possibilita aos LMs a realização de uma tomada de decisão cuidadosa, avaliando diversas opções de raciocínio e alternativas de autoavaliação para determinar a próxima ação a ser tomada. Além disso, permite considerar perspectivas passadas e futuras, quando necessário, para fazer escolhas abrangentes.
Nossas pesquisas indicam que o uso do ToT melhora consideravelmente as capacidades de resolução de problemas dos modelos de linguagem…
Abordagem de Pruning em uma Árvore de Ataques (APT).
Este método inovador de desbloqueio de modelos de linguagem de grande porte é denominado Árvore de Ataques com Pruning, ou TAP. O TAP emprega dois LLMs, um para realizar os ataques e outro para a avaliação.
A técnica da TAP consegue superar amplamente outros métodos de jailbreaking, necessitando apenas de acesso à caixa preta do LLM.
Uma caixa preta na área da computação é um local onde é possível observar a entrada e saída de um algoritmo, porém o funcionamento interno é desconhecido, tornando-a uma “caixa preta”.
A técnica de Árvore de Pensamentos (TAP) é empregada ao usar o raciocínio contra um modelo de linguagem de última geração (LLM) como o GPT-4, a fim de experimentar diversas abordagens de forma repetitiva, avaliar os resultados e, se preciso, ajustar o caminho caso a tentativa inicial não seja bem-sucedida.
Isso se refere ao método de iterar e podar. Cada tentativa de ataque é avaliada em relação à sua chance de sucesso. Se o ataque for considerado improvável de ter sucesso, o LLM irá descartar essa abordagem e tentar uma série de ataques mais eficaz.
Por essa razão, é denominado de “árvore”, já que, em vez de seguir um processo linear de raciocínio característico da cadeia de pensamento, a árvore de pensamento não segue um caminho linear, mas se ramifica para outras áreas de raciocínio, de forma semelhante ao pensamento humano.
O atacante apresenta uma sequência de estímulos, o examinador analisa as respostas a esses estímulos e, posteriormente, decide qual será o próximo passo do ataque, decidindo se o caminho atual é relevante ou não. Além disso, também avalia os resultados para prever o sucesso de estímulos ainda não avaliados.
O que se destaca nesta estratégia é que ela diminui a quantidade de estímulos necessários para realizar o jailbreak do GPT-4. Além disso, mais solicitações de jailbreaking são identificadas com o TAP do que com qualquer outra técnica de jailbreaking.
Os investigadores fazem uma observação.
Neste estudo, é proposto o método Árvore de Ataques com Pruning (TAP), que possibilita a criação de jailbreaks de forma automatizada apenas com o acesso de caixa preta ao LLM alvo.
A TAP emprega um método de aprendizado de máquina para melhorar progressivamente as requisições do postulante (ataque), fazendo uso de lógica em árvores até que uma das sugestões resulte no desbloqueio do objetivo.
Essencialmente, a TAP avalia os alertas antes de enviá-los ao alvo, descartando aqueles que são improváveis de resultar em jailbreaks.
Ao utilizar a técnica de árvore-de-pensamento, o TAP consegue explorar um extenso campo de possíveis sugestões de pesquisa, e a poda reduz o número total de consultas enviadas para o alvo.
Nas análises práticas, foi observado que a TAP produz sugestões que os modelos de linguagem de grande capacidade mais avançados para o jailbreak (como GPT4 e GPT4-Turbo) conseguem completar mais de 80% das sugestões, mesmo com um número limitado de consultas. Esse avanço representa uma melhoria considerável em relação aos métodos anteriores de geração de jailbreaks.
A árvore do pensamento cria uma sequência de pensamentos que levam ao raciocínio.
Outra descoberta relevante feita no estudo é que, neste contexto específico, o raciocínio ToT é mais eficaz do que o raciocínio CoT, mesmo quando a técnica de poda é aplicada ao método CoT, resultando na remoção e descarte de informações de tópicos.
Com o motor GPT 3.5 Turbo
Os especialistas identificaram que a performance do ChatGPT 3.5 Turbo foi insatisfatória ao ser utilizado com o CoT, o que evidenciou as restrições do GPT 3.5 Turbo. De fato, o desempenho do GPT 3.5 foi muito ruim, diminuindo de uma taxa de sucesso de 84% para apenas 4,2%.
Esta é a sua análise sobre o motivo pelo qual o desempenho do GPT 3.5 não é tão bom.
Observamos que a seleção do avaliador pode ter impacto no resultado da TAP: substituir o atacante do GPT4 pelo GPT3.5-Turbo diminui a taxa de sucesso de 84% para 4,2%.
A queda na taxa de sucesso ocorre devido ao fato de que o GPT3.5-Turbo erroneamente identifica o modelo alvo como jailbroken (para o propósito fornecido) e, por isso, toma medidas preventivas em relação ao método.
Como resultado, a variante envia consideravelmente menos solicitações do que o método original.
Qual é a importância disso para você?
Apesar de ser interessante que os pesquisadores utilizem o método ToT para comparar um LLM com outro LLM, isso também ressalta a importância do ToT para criar novas abordagens inesperadas na provocação, visando alcançar patamares mais avançados de produção.
- Resumo das principais ideias:
- Árvore do Pensamento que alimenta a sequência de técnicas de pensamento.
- O desempenho do GPT 3.5 foi substancialmente inferior ao do GPT 4 no teste ToT.
- Podar faz parte de uma estratégia eficaz de incentivo.
- Estudo demonstrou que a técnica ToT supera o CoT em uma atividade que exige intenso raciocínio, como realizar jailbreak em um LLM.
Confira o artigo original de pesquisa.
Resumo: Exploração de Vulnerabilidades em Sistemas de Segurança de Forma Automática.
Imagem principal fornecida por Shutterstock/THE. ESTUDIO.