.
O Openai acha que os benchmarks de IA estão quebrados. Agora, a empresa está lançando um programa para corrigir como os modelos de IA são pontuados.
O novo programa Pioneers Openai se concentrará na criação de avaliações para os modelos de IA que “definem a barra para o que é bom”, como o OpenAI formou -o em um Postagem do blog.
“À medida que o ritmo da adoção da IA acelera em todas as indústrias, é necessário entender e melhorar seu impacto no mundo”, continuou a empresa em seu cargo. “Criar evalas específicas de domínio é uma maneira de refletir melhor os casos de uso do mundo real, ajudando as equipes a avaliar o desempenho do modelo em ambientes práticos e de alto risco”.
Como ilustram a recente controvérsia com a referência de crowdsourcing LM Arena e o modelo Maverick de Meta, é difícil saber, hoje em dia, exatamente o que diferencia um modelo de outro. Muitos benchmarks de IA amplamente utilizados medem o desempenho das tarefas esotéricas, como resolver problemas de matemática no nível de doutorado. Outros podem ser jogados ou não se alinharem com as preferências da maioria das pessoas.
Através do programa Pioneers, o OpenAI espera criar referências para domínios específicos, como jurídico, finanças, seguros, assistência médica e contabilidade. O laboratório diz que, nos próximos meses, funcionará com “várias empresas” para projetar benchmarks personalizados e, eventualmente, compartilhar esses benchmarks publicamente, juntamente com avaliações “específicas da indústria”.
“A primeira coorte se concentrará nas startups que ajudarão a estabelecer as fundações do programa Pioneers Openai”, escreveu Openai na postagem do blog. “Estamos selecionando um punhado de startups para esta coorte inicial, cada uma trabalhando em casos de uso aplicado e de alto valor em que a IA pode gerar impacto no mundo real”.
As empresas do programa também terão a oportunidade de trabalhar com a equipe do OpenAI para criar melhorias no modelo por meio de ajuste fino de reforço, uma técnica que otimiza modelos para um conjunto estreito de tarefas, diz o OpenAI.
A grande questão é se a comunidade de IA adotará os benchmarks cuja criação foi financiada pelo Openai. O OpenAI já apoiou os esforços de benchmarking financeiramente antes e projetou suas próprias avaliações. Mas a parceria com os clientes para lançar testes de IA pode ser vista como uma ponte ética longe demais.
.