Ciência e Tecnologia

OpenAI oferece uma espiada nas entranhas do ChatGPT

.

A abordagem do desenvolvedor do ChatGPT OpenAI para construir inteligência artificial foi criticada esta semana por ex-funcionários que acusam a empresa de assumir riscos desnecessários com tecnologia que pode se tornar prejudicial.

Hoje a OpenAI lançou um novo artigo de pesquisa aparentemente com o objetivo de mostrar que leva a sério o combate ao risco de IA, tornando seus modelos mais explicáveis. No papel, pesquisadores da empresa apresentam uma maneira de examinar o modelo de IA que alimenta o ChatGPT. Eles desenvolveram uma maneira de identificar como ele armazena certos conceitos – incluindo aqueles que talvez possam fazer com que um sistema de IA se comporte mal.

Embora a pesquisa torne mais visível o trabalho da OpenAI em manter a IA sob controle, ela também destaca a recente turbulência na empresa. A nova pesquisa foi realizada pela equipe de “superalinhamento” recentemente dissolvida da OpenAI, que se dedicava a estudar os riscos de longo prazo apresentados pela tecnologia.

Os co-líderes do antigo grupo, Ilya Sutskever e Jan Leike, que deixaram o OpenAI, são nomeados como coautores. Sutskever, cofundador da empresa e ex-cientista-chefe, estava entre os membros do conselho que votaram pela demissão do CEO da OpenAI, Sam Altman, em novembro passado, desencadeando alguns dias caóticos que culminaram no retorno de Altman como líder.

ChatGPT é alimentado por uma família de modelos de linguagem grandes, chamados GPT, baseados em uma abordagem de aprendizado de máquina conhecida como redes neurais artificiais. Estas redes matemáticas demonstraram grande poder para aprender tarefas úteis através da análise de dados de exemplo, mas o seu funcionamento não pode ser facilmente examinado como os programas de computador convencionais podem. A complexa interação entre as camadas de “neurônios” dentro de uma rede neural artificial torna a engenharia reversa o motivo pelo qual um sistema como o ChatGPT apresentou uma resposta específica extremamente desafiadora.

“Ao contrário da maioria das criações humanas, não compreendemos realmente o funcionamento interno das redes neurais”, escrevem os investigadores por detrás do trabalho. postagem no blog. Alguns pesquisadores proeminentes de IA acreditam que os modelos de IA mais poderosos, incluindo o ChatGPT, talvez pudessem ser usados ​​para projetar armas químicas ou biológicas e coordenar ataques cibernéticos. Uma preocupação a longo prazo é que os modelos de IA possam optar por ocultar informações ou agir de forma prejudicial para atingir os seus objetivos.

O novo artigo da OpenAI descreve uma técnica que diminui um pouco o mistério, identificando padrões que representam conceitos específicos dentro de um sistema de aprendizado de máquina com a ajuda de um modelo adicional de aprendizado de máquina. A principal inovação é refinar a rede usada para perscrutar o sistema de interesse, identificando conceitos, para torná-lo mais eficiente.

A OpenAI comprovou a abordagem identificando padrões que representam conceitos dentro do GPT-4, um de seus maiores modelos de IA. A empresa código liberado relacionado ao trabalho de interpretabilidade e uma ferramenta de visualização que pode ser usado para ver como as palavras em diferentes frases ativam conceitos, incluindo palavrões e conteúdo erótico no GPT-4 e outro modelo. Saber como um modelo representa certos conceitos pode ser um passo para ser capaz de reduzir aqueles associados a comportamentos indesejados, para manter um sistema de IA nos trilhos. Também poderia tornar possível ajustar um sistema de IA para favorecer determinados tópicos ou ideias.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo