ChatGPT foi aprimorado através de um novo método de treinamento onde o ChatGPT aprende com seus próprios erros.
- Publicidade -
De acordo com um novo artigo de pré-impressão, ainda a ser revisado por pares, uma equipe de pesquisadores pode ter descoberto uma maneira de aprimorar os chatbots de modelo de linguagem grande (LLM), incluindo aprimorar a precisão do ChatGPT-4 em aproximadamente 21%. A equipe conseguiu esse feito permitindo que os agentes de inteligência artificial (IA) refletissem sobre seus próprios erros.
Utilizando um processo chamado Reflexion, que equipa o agente com memória dinâmica e habilidades de auto-reflexão, a equipe conseguiu aprimorar o traço de raciocínio existente e as habilidades específicas de escolha de ação para tarefas designadas, como consta no artigo. Tal avanço pode representar uma nova abordagem promissora para aprimorar a eficiência de chatbots de LLMs.
- Publicidade -
Como explicado pela equipe em seu artigo no Substack, “a inteligência humana é notável por sua habilidade de aprender com os erros. Muitas vezes, não conseguimos resolver problemas na primeira tentativa, mas quando cometemos erros, geramos novas ideias para refinar nossa abordagem por meio da autorreflexão, analisando nossos erros”.
"Em busca de aprimorar a capacidade dos agentes de inteligência artificial (IA) em aprender com seus próprios erros, a equipe explorou a possibilidade de replicar essa habilidade humana, permitindo que os agentes de IA analisassem suas próprias ações e erros.
- Publicidade -
Para tal, foram propostos desafios aos agentes de IA, desde questões de codificação até testes no AlfWorld, um ambiente baseado em texto utilizado para treinar e testar a capacidade de agentes de IA. Nesse ambiente, o agente precisava completar diversas tarefas, mas a única maneira de fazê-lo era aprender sobre o ambiente a partir do texto e ser recompensado com observações, tal qual em um jogo de aventura em texto.
Ao testar o agente de inteligência artificial no AlfWorld sem a técnica reflexiva, sua precisão foi de apenas 63%. No entanto, ao permitir que o agente refletisse sobre suas ações e erros, sua precisão saltou para 97%, resolvendo com êxito 130 de 134 tarefas.
- Publicidade -
Um exemplo impressionante do sucesso desse método ocorreu quando a IA de linguagem natural foi desafiada a encontrar a resposta para a pergunta “Adultos estrelaram o ator mais conhecido por qual papel em ‘Allo’ Allo!?” Inicialmente, o modelo de linguagem buscou por “adultos” em uma lista de elenco e, em seguida, por “Allo ‘Allo!” para referência cruzada. Contudo, ao não conseguir obter a lista de elenco necessária, a IA falhou na tarefa.
“Pesquisei o título errado para o programa, ‘Allo’ Allo! “, explicou a IA seu processo de reflexão, “que não resultou em nenhum resultado. Eu deveria ter procurado o personagem principal do programa, Gorden Kaye, para encontrar o papel que ele era melhor conhecido no programa.”
- Publicidade -
Após a implementação deste modelo reflexivo, a IA recebeu a mesma tarefa novamente. E desta vez, aplicando o que aprendeu através da auto-reflexão, o agente completou a tarefa em menos etapas, acertando a resposta com sucesso.
Todos esses agentes de IA foram treinados usando as versões do ChatGPT-3 e GPT-3.5. Em uma atualização posterior, a equipe utilizou um agente baseado no ChatGPT-4 e descobriu que, ao aplicar o Reflexion, a IA alcançou uma precisão de 88% nas tarefas de codificação, em comparação com 67% quando o ChatGPT-4 operou de forma isolada.
- Publicidade -
“Não é todo dia que os humanos desenvolvem novas técnicas para alcançar padrões de ponta usando processos de tomada de decisão que antes eram considerados exclusivos da inteligência humana”, acrescentou a equipe no Substack. “Mas, isso é exatamente o que fizemos.”
O artigo é publicado no servidor de pré-impressão arXiv .