O parceiro Openai diz que tinha relativamente pouco tempo para testar o modelo O3 AI da empresa

Uma organização OpenAI frequentemente faz parceria para investigar as capacidades de seus modelos de IA e avaliá -los quanto à segurança, Metro, sugere que não foi muito tempo para testar um dos novos lançamentos altamente capazes da empresa.

Em uma postagem de blog publicada quarta -feiraO METR escreve que uma referência da O3 em equipes vermelha foi “conduzida em um tempo relativamente curto” em comparação com os testes da organização de um modelo anterior do Openai, O1. Dizem que isso é significativo, porque mais tempo de teste pode levar a resultados mais abrangentes.

“Essa avaliação foi realizada em um tempo relativamente curto e testamos apenas o modelo com andaimes simples de agentes”, escreveu Metro em uma postagem no blog. “Esperamos maior desempenho [on benchmarks] é possível com mais esforço de elicitação. ”

Relatórios recentes sugerem que o OpenAI, estimulado pela pressão competitiva, está apressando avaliações independentes. De acordo com o Financial TimesOpenai deu a alguns testadores menos de uma semana para verificações de segurança para um próximo lançamento.

Em declarações, o OpenAI contestou a noção de que se comprometeu com a segurança.

O METR diz que, com base nas informações que ele foi capaz de colher no tempo que possuía, a O3 tem uma “alta propensão” a “trapacear” ou “hackear” testes de maneiras sofisticadas para maximizar sua pontuação – mesmo quando o modelo entende claramente que seu comportamento está desalinhado com as intenções do usuário (e do OpenAI). A organização acha que é possível que a O3 se envolverá em outros tipos de comportamento adversário ou “maligno” – independentemente das reivindicações do modelo estarem alinhadas, “seguras pelo design” ou não têm nenhuma intenção própria.

“Embora não achemos que isso seja especialmente provável, parece importante observar que essa configuração de avaliação não captaria esse tipo de risco”, escreveu Metro em seu post. “Em geral, acreditamos que os testes de capacidade de pré-implantação não são uma estratégia de gerenciamento de riscos suficiente por si só, e atualmente estamos prototipando formas adicionais de avaliações”.

Outro dos parceiros de avaliação de terceiros da Openai, a Apollo Research, também observou comportamento enganoso da O3 e outro novo modelo Openai, O4-Mini. Em um teste, os modelos, receberam 100 créditos de computação para uma execução de treinamento de IA e disseram para não modificar a cota, aumentaram o limite para 500 créditos – e mentiram sobre isso. Em outro teste, solicitado a prometer não usar uma ferramenta específica, os modelos usavam a ferramenta de qualquer maneira quando se mostrou útil para concluir uma tarefa.

Em seu Relatório de segurança própria Para O3 e O4-mini, o OpenAI reconheceu que os modelos podem causar “danos menores no mundo real” sem os protocolos de monitoramento adequados no local.

“Embora relativamente inofensivo, é importante que os usuários comuns estejam cientes dessas discrepâncias entre as declarações e ações dos modelos”, escreveu a empresa. ““[For example, the model may mislead] sobre [a] erro resultando em código defeituoso. Isso pode ser avaliado ainda mais através da avaliação de traços de raciocínio interno. ”

Etiquetas

Astaabril 16, 2025

0 2 minutos de leitura

Mostrar mais

Ler o Próximo

O parceiro Openai diz que tinha relativamente pouco tempo para testar o modelo O3 AI da empresa

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA