.
Uma organização OpenAI frequentemente faz parceria para investigar as capacidades de seus modelos de IA e avaliá -los quanto à segurança, Metro, sugere que não foi muito tempo para testar um dos novos lançamentos altamente capazes da empresa.
Em uma postagem de blog publicada quarta -feiraO METR escreve que uma referência da O3 em equipes vermelha foi “conduzida em um tempo relativamente curto” em comparação com os testes da organização de um modelo anterior do Openai, O1. Dizem que isso é significativo, porque mais tempo de teste pode levar a resultados mais abrangentes.
“Essa avaliação foi realizada em um tempo relativamente curto e testamos apenas o modelo com andaimes simples de agentes”, escreveu Metro em uma postagem no blog. “Esperamos maior desempenho [on benchmarks] é possível com mais esforço de elicitação. ”
Relatórios recentes sugerem que o OpenAI, estimulado pela pressão competitiva, está apressando avaliações independentes. De acordo com o Financial TimesOpenai deu a alguns testadores menos de uma semana para verificações de segurança para um próximo lançamento.
Em declarações, o OpenAI contestou a noção de que se comprometeu com a segurança.
O METR diz que, com base nas informações que ele foi capaz de colher no tempo que possuía, a O3 tem uma “alta propensão” a “trapacear” ou “hackear” testes de maneiras sofisticadas para maximizar sua pontuação – mesmo quando o modelo entende claramente que seu comportamento está desalinhado com as intenções do usuário (e do OpenAI). A organização acha que é possível que a O3 se envolverá em outros tipos de comportamento adversário ou “maligno” – independentemente das reivindicações do modelo estarem alinhadas, “seguras pelo design” ou não têm nenhuma intenção própria.
“Embora não achemos que isso seja especialmente provável, parece importante observar que essa configuração de avaliação não captaria esse tipo de risco”, escreveu Metro em seu post. “Em geral, acreditamos que os testes de capacidade de pré-implantação não são uma estratégia de gerenciamento de riscos suficiente por si só, e atualmente estamos prototipando formas adicionais de avaliações”.
Outro dos parceiros de avaliação de terceiros da Openai, a Apollo Research, também observou comportamento enganoso da O3 e outro novo modelo Openai, O4-Mini. Em um teste, os modelos, receberam 100 créditos de computação para uma execução de treinamento de IA e disseram para não modificar a cota, aumentaram o limite para 500 créditos – e mentiram sobre isso. Em outro teste, solicitado a prometer não usar uma ferramenta específica, os modelos usavam a ferramenta de qualquer maneira quando se mostrou útil para concluir uma tarefa.
Em seu Relatório de segurança própria Para O3 e O4-mini, o OpenAI reconheceu que os modelos podem causar “danos menores no mundo real” sem os protocolos de monitoramento adequados no local.
“Embora relativamente inofensivo, é importante que os usuários comuns estejam cientes dessas discrepâncias entre as declarações e ações dos modelos”, escreveu a empresa. ““[For example, the model may mislead] sobre [a] erro resultando em código defeituoso. Isso pode ser avaliado ainda mais através da avaliação de traços de raciocínio interno. ”
.