technology

OpenAI espreita a “caixa preta” das redes neurais com novas pesquisas

.

Uma imagem gerada por IA de robôs olhando dentro de um cérebro artificial.
Prolongar / Uma imagem gerada por IA de robôs olhando dentro de um cérebro artificial.

Difusão estável

Na terça-feira, a OpenAI publicou um novo trabalho de pesquisa detalhando uma técnica que usa seu modelo de linguagem GPT-4 para escrever explicações para o comportamento dos neurônios em seu modelo GPT-2 mais antigo, embora imperfeitamente. É um passo à frente para a “interpretabilidade”, que é um campo da IA ​​que busca explicar por que as redes neurais criam as saídas que criam.

Enquanto modelos de linguagem grande (LLMs) estão conquistando o mundo da tecnologia, os pesquisadores de IA ainda não sabem muito sobre suas funcionalidades e capacidades sob o capô. Na primeira frase do artigo da OpenAI, os autores escrevem: “Os modelos de linguagem tornaram-se mais capazes e mais amplamente implantados, mas não entendemos como eles funcionam”.

Para quem está de fora, isso provavelmente soa como uma admissão impressionante de uma empresa que não depende apenas da receita de LLMs, mas também espera acelerá-los a níveis além do humano de capacidade de raciocínio.

Mas essa propriedade de “não saber” exatamente como os neurônios individuais de uma rede neural trabalham juntos para produzir suas saídas tem um nome bem conhecido: a caixa preta. Você alimenta as entradas da rede (como uma pergunta) e obtém saídas (como uma resposta), mas o que quer que aconteça no meio (dentro da “caixa preta”) é um mistério.

Em uma tentativa de espiar dentro da caixa preta, os pesquisadores da OpenAI utilizaram seu modelo de linguagem GPT-4 para gerar e avaliar explicações de linguagem natural para o comportamento dos neurônios em um modelo de linguagem muito menos complexo, como o GPT-2. Idealmente, ter um modelo de IA interpretável ajudaria a contribuir para o objetivo mais amplo do que algumas pessoas chamam de “alinhamento de IA”, garantindo que os sistemas de IA se comportem conforme pretendido e reflitam os valores humanos. E ao automatizar o processo de interpretação, a OpenAI busca superar as limitações da tradicional inspeção humana manual, que não é escalável para redes neurais maiores com bilhões de parâmetros.

O site do jornal inclui diagramas que mostram o GPT-4 adivinhando quais elementos de um texto foram gerados por um determinado neurônio em uma rede neural.
Prolongar / O site do jornal inclui diagramas que mostram o GPT-4 adivinhando quais elementos de um texto foram gerados por um determinado neurônio em uma rede neural.

A técnica da OpenAI “busca explicar quais padrões no texto fazem com que um neurônio seja ativado”. Sua metodologia consiste em três etapas:

  • Explique as ativações do neurônio usando GPT-4
  • Simule o comportamento de ativação de neurônios usando GPT-4
  • Compare as ativações simuladas com ativações reais.

Para entender como funciona o método da OpenAI, você precisa conhecer alguns termos: neurônio, circuito e cabeça de atenção. Em uma rede neural, um neurônio é como uma pequena unidade de tomada de decisão que recebe informações, as processa e produz uma saída, assim como uma pequena célula cerebral tomando uma decisão com base nos sinais que recebe. Um circuito em uma rede neural é como uma rede de neurônios interconectados que trabalham juntos, passando informações e tomando decisões coletivamente, semelhante a um grupo de pessoas colaborando e se comunicando para resolver um problema. E uma cabeça de atenção é como um holofote que ajuda um modelo de linguagem a prestar mais atenção a palavras ou partes específicas de uma frase, permitindo entender e capturar melhor informações importantes durante o processamento do texto.

Ao identificar neurônios específicos e cabeças de atenção dentro do modelo que precisam ser interpretados, o GPT-4 cria explicações legíveis por humanos para a função ou papel desses componentes. Ele também gera uma pontuação de explicação, que a OpenAI chama de “uma medida da capacidade de um modelo de linguagem de comprimir e reconstruir ativações de neurônios usando linguagem natural”. Os pesquisadores esperam que a natureza quantificável do sistema de pontuação permita um progresso mensurável para tornar os cálculos de redes neurais compreensíveis para os humanos.

Então, quão bem isso funciona? Agora, não tão bom. Durante os testes, a OpenAI comparou sua técnica com um empreiteiro humano que realizou avaliações semelhantes manualmente, e eles descobriram que tanto o GPT-4 quanto o empreiteiro humano “pontuaram mal em termos absolutos”, o que significa que é difícil interpretar os neurônios.

Uma explicação apresentada pela OpenAI para essa falha é que os neurônios podem ser “polissemânticos”, o que significa que o neurônio típico no contexto do estudo pode exibir múltiplos significados ou estar associado a múltiplos conceitos. Em uma seção sobre limitações, os pesquisadores da OpenAI discutem os neurônios polissemânticos e também “características alienígenas” como limitações de seu método:

Além disso, os modelos de linguagem podem representar conceitos alienígenas para os quais os humanos não têm palavras. Isso pode acontecer porque os modelos de linguagem se preocupam com coisas diferentes, por exemplo, construções estatísticas úteis para tarefas de previsão do próximo token, ou porque o modelo descobriu abstrações naturais que os humanos ainda precisam descobrir, por exemplo, alguma família de conceitos análogos em domínios distintos.

Outras limitações incluem o uso intensivo de computação e o fornecimento apenas de explicações curtas em linguagem natural. Mas os pesquisadores da OpenAI ainda estão otimistas por terem criado uma estrutura para a interpretabilidade mediada por máquinas e os meios quantificáveis ​​de medir melhorias na interpretabilidade à medida que aprimoram suas técnicas no futuro. À medida que os modelos de IA se tornam mais avançados, os pesquisadores da OpenAI esperam que a qualidade das explicações geradas melhore, oferecendo melhores percepções sobre o funcionamento interno desses sistemas complexos.

A OpenAI publicou seu trabalho de pesquisa em um site interativo que contém exemplos de detalhamento de cada etapa, mostrando partes destacadas do texto e como elas correspondem a determinados neurônios. Adicionalmente. A OpenAI forneceu o código de “interpretabilidade automatizada” e seus neurônios GPT-2 XL e conjuntos de dados de explicações no GitHub.

Se eles descobrirem exatamente por que o ChatGPT inventa as coisas, todo o esforço valerá a pena.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo