Ciência e Tecnologia

O chatgpt agora interpreta as fotos melhor do que um crítico de arte e um investigador combinado

.

Os recursos recentes de geração de imagens do ChatGPT contestaram nossa subestimação anterior da mídia gerada pela IA. O modelo GPT-4O anunciado recentemente demonstra habilidades notáveis ​​de interpretar imagens com alta precisão e recriá-las com efeitos virais, como o inspirado pelo Studio Ghibli. Ele mesmo domina o texto em imagens geradas pela IA, que anteriormente foram difíceis para a IA. E agora, está lançando dois novos modelos capazes de dissecar imagens para pistas para obter muito mais informações que podem até falhar em um olhar humano.

A Openai anunciou dois novos modelos no início desta semana que aumentam as habilidades de pensamento do ChatGPT. Seu novo modelo O3, que o OpenAI chama de “modelo de raciocínio mais poderoso” melhora as habilidades de interpretação e percepção existentes, melhorando em “codificação, matemática, ciências, percepção visual e muito mais”, afirma a organização. Enquanto isso, o O4-mini é um modelo menor e mais rápido para o “raciocínio econômico” nas mesmas avenidas. As notícias seguem o recente lançamento do OpenAI da classe de modelos GPT-4.1, que traz processamento mais rápido e contexto mais profundo.

Chatgpt agora está “pensando com imagens”

Com melhorias em suas habilidades para a razão, ambos os modelos agora podem incorporar imagens em seu processo de raciocínio, o que os torna capazes de “pensar com imagens”. Openai proclama. Com essa mudança, os dois modelos podem integrar imagens em sua cadeia de pensamento. Indo além da análise básica das imagens, os modelos O3 e O4-Mini podem investigar as imagens mais de perto e até manipulá-las através de ações como corte, zoom, lançando ou enriquecendo detalhes para buscar pistas visuais das imagens que poderiam melhorar a capacidade do ChatGPT de fornecer soluções.

Apresentando o OpenAI O3 e O4-Mini-nossos modelos mais inteligentes e mais capazes até o momento.

Pela primeira vez, nossos modelos de raciocínio podem usar e combinar agente todas as ferramentas do ChatGPT, incluindo pesquisa na Web, Python, análise de imagens, interpretação de arquivos e geração de imagens. pic.twitter.com/rdaqv0x0we

– Openai (@openai) 16 de abril de 2025

Com o anúncio, diz -se que os modelos misturam raciocínio visual e textual, que podem ser integrados a outros recursos do ChatGPT, como pesquisa na Web, análise de dados e geração de código, e espera -se que se torne a base para agentes de IA mais avançados com análise multimodal.

Entre outras aplicações práticas, você pode incluir imagens de uma infinidade de itens, tais fluxogramas ou rabiscar de notas manuscritas a imagens de objetos do mundo real e esperar que o ChatGPT tenha um entendimento mais profundo para uma saída melhor, mesmo sem um prompt de texto descritivo. Com isso, o Openai está se aproximando dos Gemini do Google, que oferece a impressionante capacidade de interpretar o mundo real através do vídeo ao vivo.

Apesar das reivindicações ousadas, o OpenAI está limitando o acesso apenas a membros pagos, presumivelmente para impedir que suas GPUs “derretem” novamente, pois luta para manter a demanda de computação por novos recursos de raciocínio. A partir de agora, os modelos O3, O4-Mini e O4-Mini-Mini estarão disponíveis exclusivamente para os membros do ChatGPT Plus, Pro e da equipe, enquanto os usuários de camadas corporativas e educacionais o recebem em uma semana. Enquanto isso, os usuários gratuitos poderão ter acesso limitado ao O4-mini quando selecionarem o botão “Pense” na barra de prompt.






.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo