.
Um desafio muito maior para os investigadores da IA era o jogo da Diplomacia – um favorito de políticos como John F. Kennedy e Henry Kissinger. Em vez de apenas dois adversários, o jogo apresenta sete jogadores cujos motivos podem ser difíceis de ler. Para vencer, o jogador deve negociar, estabelecendo acordos cooperativos que qualquer um pode violar a qualquer momento. A diplomacia é tão complexa que um grupo do Meta ficou satisfeito quando, em 2022, a sua Programa de IA Cícero desenvolveu “jogo de nível humano” ao longo de 40 jogos. Embora não tenha vencido o campeão mundial, Cícero se saiu bem o suficiente para ficar entre os 10% melhores contra participantes humanos.
Durante o projeto, Jacob – membro da equipe Meta – ficou impressionado com o fato de Cícero contar com um modelo de linguagem para gerar seu diálogo com outros jogadores. Ele sentiu um potencial inexplorado. O objetivo da equipe, disse ele, “era construir o melhor modelo de linguagem que pudéssemos para jogar este jogo”. Mas e se, em vez disso, eles se concentrassem em construir o melhor jogo possível para melhorar o desempenho de grandes modelos de linguagem?
Interações Consensuais
Em 2023, Jacob começou a perseguir essa questão no MIT, trabalhando com Yikang Shen, Gabriele Farinae seu conselheiro, Jacó Andreas, sobre o que se tornaria o jogo do consenso. A ideia central surgiu de imaginar uma conversa entre duas pessoas como um jogo cooperativo, onde o sucesso ocorre quando o ouvinte entende o que o locutor está tentando transmitir. Em particular, o jogo de consenso é concebido para alinhar os dois sistemas do modelo de linguagem – o gerador, que trata das questões generativas, e o discriminador, que trata das questões discriminativas.
Depois de alguns meses de paradas e partidas, a equipe transformou esse princípio em um jogo completo. Primeiro, o gerador recebe uma pergunta. Pode vir de um ser humano ou de uma lista preexistente. Por exemplo, “Onde nasceu Barack Obama?” O gerador então obtém algumas respostas de candidatos, digamos Honolulu, Chicago e Nairobi. Novamente, essas opções podem vir de uma pesquisa humana, de uma lista ou de uma pesquisa realizada pelo próprio modelo de linguagem.
Mas antes de responder, o gerador também é informado se deve responder à pergunta corretamente ou incorretamente, dependendo dos resultados de um lançamento de moeda justo.
Se der cara, a máquina tentará responder corretamente. O gerador envia a pergunta original, juntamente com a resposta escolhida, ao discriminador. Se o discriminador determinar que o gerador enviou intencionalmente a resposta correta, cada um ganha um ponto, como uma espécie de incentivo.
Se a moeda cair em coroa, o gerador envia o que considera ser a resposta errada. Se o discriminador decidir que recebeu deliberadamente a resposta errada, ambos ganham um ponto novamente. A ideia aqui é incentivar o acordo. “É como ensinar um truque a um cachorro”, explicou Jacob. “Você dá a eles um presente quando eles fazem a coisa certa.”
O gerador e o discriminador também começam com algumas “crenças” iniciais. Estas assumem a forma de uma distribuição de probabilidade relacionada com as diferentes escolhas. Por exemplo, o gerador pode acreditar, com base nas informações coletadas na Internet, que há 80% de chance de Obama ter nascido em Honolulu, 10% de chance de ele ter nascido em Chicago, 5% de chance de Nairóbi e um 5% de chance de outros lugares. O discriminador pode começar com uma distribuição diferente. Embora os dois “jogadores” ainda sejam recompensados por chegarem a um acordo, eles também recebem pontos perdidos por se desviarem muito das suas convicções originais. Esse arranjo incentiva os jogadores a incorporarem o seu conhecimento do mundo – novamente extraído da Internet – nas suas respostas, o que deverá tornar o modelo mais preciso. Sem algo assim, eles podem concordar com uma resposta totalmente errada como Delhi, mas ainda assim acumular pontos.
.








