Openai revela o GPT-4.5 ‘Órion’, seu maior modelo de IA ainda

A OpenAI anunciou na quinta-feira que está lançando o GPT-4.5, o tão esperado modelo da IA-nome do codinome Orion. O GPT-4.5 é o maior modelo da OpenAI até o momento, treinado usando mais poder de computação e dados do que qualquer um dos lançamentos anteriores da empresa.

Apesar de seu tamanho, o OpenAi notas em um Whitepaper que não considera o GPT-4.5 um modelo de fronteira.

Os assinantes do ChatGpt Pro, o plano de US $ 200 por mês da OpenAI, terão acesso ao GPT-4.5 no ChatGPT a partir de quinta-feira como parte de uma prévia da pesquisa. Os desenvolvedores em níveis pagos da API da OpenAI também poderão usar o GPT-4.5 a partir de hoje. Quanto a outros usuários do ChatGPT, os clientes se inscreveram no ChatGPT Plus e a equipe do ChatGPT devem obter o modelo na próxima semana, disse um porta -voz do Openai ao Strong The One.

A indústria manteve sua respiração coletiva para Orion, que alguns consideram um sino para a viabilidade das abordagens tradicionais de treinamento de IA. O GPT-4.5 foi desenvolvido usando a mesma técnica-chave-aumentando drasticamente a quantidade de poder de computação e dados durante uma fase de “pré-treinamento” chamada aprendizagem não supervisionada-que o OpenAI usou para desenvolver GPT-4, GPT-3, GPT-2 e GPT-1.

Em todas as gerações GPT antes do GPT-4.5, a ampliação levou a grandes saltos no desempenho entre domínios, incluindo matemática, escrita e codificação. De fato, o Openai diz que o aumento do tamanho do GPT-4.5 deu “um conhecimento mundial mais profundo” e “maior inteligência emocional”. No entanto, há sinais de que os ganhos com a ampliação de dados e a computação estão começando a se nivelar. Em vários benchmarks de IA, o GPT-4.5 fica aquém dos novos modelos de “raciocínio” da AI da empresa de IA chinesa Deepseek, Anthropic e Openai.

O GPT-4.5 também é muito caro de correr, o OpenAI admite-tão caro que a empresa diz que está avaliando se deve continuar servindo o GPT-4.5 em sua API a longo prazo.

“Estamos compartilhando o GPT – 4.5 como uma prévia de pesquisa para entender melhor seus pontos fortes e limitações”, disse o OpenAI em uma postagem de blog compartilhada com o Strong The One. “Ainda estamos explorando o que é capaz e estamos ansiosos para ver como as pessoas o usam de maneiras que talvez não esperássemos”.

Desempenho misto

O OpenAI enfatiza que o GPT-4.5 não deve ser um substituto para o GPT-4O, o modelo de cavalo de trabalho da empresa que alimenta a maior parte de sua API e ChatGPT. Enquanto o GPT-4.5 suporta recursos como uploads de arquivos e imagens e ferramenta de tela do ChatGPT, atualmente não possui recursos como suporte para o modo de voz bidirecional realista do ChatGPT.

Na coluna Plus, o GPT-4.5 é mais performante que o GPT-4O-e muitos outros modelos.

No benchmark Simpleqa do OpenAI, que testa modelos de IA em perguntas diretas e factuais, o GPT-4.5 supera os modelos de raciocínio GPT-4O e Openai, O1 e O3-mini, em termos de precisão. De acordo com o Openai, o GPT-4.5 alucina com menos frequência do que a maioria dos modelos, o que, em teoria, significa que deve ser menos provável que invente as coisas.

O OpenAI não listou um de seus modelos de raciocínio de IA com melhor desempenho, pesquisa profunda, no SimpleQA. Um porta -voz do Openai disse ao Strong The One que não relatou publicamente o desempenho da Deep Research nesse benchmark e afirmou que não é uma comparação relevante. Notavelmente, a startup de AI, a profunda modelo de pesquisa da Perplexity, que tem um desempenho semelhante em outros benchmarks para a pesquisa profunda do OpenAI, supera o GPT-4.5 sobre este teste de precisão factual.

Benchmarks simples da QA (crédito: OpenAI)

Em um subconjunto de problemas de codificação, a referência verificada do SWE-banche, GPT-4.5, corresponde aproximadamente ao desempenho do GPT-4O e da O3-mini, mas fica aquém do Openai’s Pesquisa profunda e Claude de 3,7 sonetos do Anthropic. Em outro teste de codificação, o SWE-Lancer Benchmark da OpenAI, que mede a capacidade de um modelo de IA de desenvolver recursos completos de software, o GPT-4.5 supera o GPT-4O e o O3-mini, mas fica aquém da pesquisa profunda.

Benchmark verificado do SWE do Openai (crédito: OpenAI)

O SWE-Lancer Diamond Benchmark do Openai (crédito: OpenAI)

O GPT-4.5 não atinge o desempenho dos principais modelos de raciocínio de IA, como O3-mini, R1 de Deepseek e Claude 3,7 sonetos (tecnicamente um modelo híbrido) em referências acadêmicas difíceis, como AIME e GPQA. Mas as correspondências do GPT-4.5 ou os melhores líderes de modelos que não são rucros nos mesmos testes, sugerindo que o modelo tem um bom desempenho em problemas relacionados à matemática e ciências.

OpenAI também afirma que o GPT-4.5 é qualitativamente Superior a outros modelos em áreas que os benchmarks não capturam bem, como a capacidade de entender a intenção humana. O GPT-4.5 responde em um tom mais quente e natural, diz Openai, e tem um bom desempenho em tarefas criativas, como escrita e design.

Em um teste informal, o OpenAI levou a GPT-4.5 e dois outros modelos, GPT-4O e O3-Mini, a criar um unicórnio no SVG, um formato para exibir gráficos baseados em fórmulas e código matemáticos. O GPT-4.5 foi o único modelo de IA a criar algo parecido com um unicórnio.

Esquerda: GPT-4.5, Middle: GPT-4O, à direita: O3-mini (Crédito: OpenAI)

Em outro teste, o Openai pediu ao GPT-4.5 e os outros dois modelos para responder ao aviso: “Estou passando por um momento difícil depois de falhar em um teste”. O GPT-4O e o O3-mini forneceram informações úteis, mas a resposta do GPT-4.5 foi a mais socialmente apropriada.

““[W]Esperamos obter uma imagem mais completa dos recursos do GPT-4.5 através deste lançamento ”, escreveu Openai no post do blog,“ porque reconhecemos os benchmarks acadêmicos nem sempre refletem a utilidade do mundo real ”.

Inteligência emocional do GPT-4.5 em ação (crédito: OpenAI)

As leis de escala desafiaram

O Openai afirma que o GPT – 4,5 está “na fronteira do que é possível no aprendizado sem supervisão”. Isso pode ser verdadeiro, mas as limitações do modelo também parecem confirmar especulações de especialistas de que as “leis de escala” pré-treinamento não continuarão a se manter.

O co-fundador e ex-cientista da Openai, Ilya Sutskever, disse em dezembro que “alcançamos dados de pico” e que “o pré-treinamento, como sabemos, será inquestionavelmente terminar”. Seus comentários ecoaram os investidores, fundadores e pesquisadores da IA compartilhados com o Strong The One para um recurso em novembro.

Em resposta aos obstáculos de pré-treinamento, a indústria-incluindo o OpenAI-adotou modelos de raciocínio, que levam mais tempo do que os modelos que não são de condução para executar tarefas, mas tendem a ser mais consistentes. Ao aumentar a quantidade de tempo e o poder de computação que os modelos de raciocínio de IA usam para “pensar” por meio de problemas, os laboratórios de IA estão confiantes de que podem melhorar significativamente os recursos dos modelos.

A Openai planeja eventualmente combinar sua série GPT de modelos com sua série de raciocínio O, começando com o GPT-5 ainda este ano. GPT-4.5, que segundo Era incrivelmente caro para treinar, atrasado várias vezes e não atendeu às expectativas internas, não pode levar a coroa de referência da IA por conta própria. Mas o Openai provavelmente o vê como um trampolim em direção a algo muito mais poderoso.

Etiquetas

Astafevereiro 27, 2025

0 5 minutos de leitura

Mostrar mais

Openai revela o GPT-4.5 ‘Órion’, seu maior modelo de IA ainda

Desempenho misto

As leis de escala desafiaram

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Desempenho misto

As leis de escala desafiaram

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA