OpenAI dá ao ChatGPT uma voz para responder a solicitações e comandos

ChatGPT está definido para se tornar uma experiência interativa de IA generativa. A OpenAI revelou que o chatbot de IA líder mundial será capaz de falar e responder às dúvidas dos usuários usando uma voz sintetizada, presumivelmente gerada por IA.

Junto com sua voz recém-descoberta, o ChatGPT também será capaz de responder e discutir imagens específicas enviadas para ele ou capturadas durante o uso do aplicativo ChatGPT para Android ou iOS. O recurso de reconhecimento de imagem é semelhante ao Google Lens e outros aplicativos que usam redes neurais para detectar dados e informações com precisão.

OpenAI dá voz ao ChatGPT

Em 25 de setembro de 2023, o desenvolvedor do ChatGPT OpenAI revelou que daria voz ao seu chatbot de IA generativo líder mundial. Os usuários do ChatGPT podem falar diretamente com o chatbot e solicitar que ele responda, permitindo efetivamente que o ChatGPT converse diretamente por voz pela primeira vez.

O clipe de exemplo da OpenAI mostra uma mulher pedindo ao ChatGPT para criar uma história única para dormir, à qual o ChatGPT responde devidamente com uma voz feminina sintetizada.

Segundo a Wired, o novo modelo de conversão de texto em fala foi desenvolvido internamente. Ele pode gerar áudio “semelhante ao humano” a partir de texto e alguns segundos de amostra de fala (usando o modelo OpenAI Whisper) e falar em vários tons e estilos. Você pode encontrar uma variedade de exemplos de voz no blog da OpenAI.

Algumas empresas já estão colocando em uso o novo modelo de voz da OpenAI. Por exemplo, o Spotify está usando o modelo de conversão de texto em fala da OpenAI para traduzir podcasts para diferentes idiomas, combinando a capacidade de tradução de idiomas do ChatGPT com sua nova capacidade de fala.

O novo modelo de conversão de texto em fala do ChatGPT está disponível apenas para assinantes Plus e Enterprise que usam os aplicativos oficiais Android e iOS e deve ser lançado nas próximas duas semanas (a partir de 25 de setembro de 2023). Além disso, para começar, o novo recurso de voz está limitado ao inglês, embora esperemos que isso mude rapidamente.

ChatGPT pode reconhecer e analisar imagens e fotografias

A segunda parte da atualização ChatGPT do OpenAI é a capacidade de analisar e falar imagens enviadas para a ferramenta. A opção de análise visual de imagem foi apresentada nos vídeos de atualização do GPT-4, mas não foi muito discutida desde então (à parte o intérprete de código ChatGPT).

Agora, o ChatGPT ganha funcionalidade semelhante ao Google Lens. Você pode fazer upload de uma imagem para o ChatGPT ou tirar uma fotografia usando a câmera do seu smartphone no aplicativo ChatGPT, e ele detalhará a imagem, adicionando mais contexto quando necessário.

Chamá-lo de “semelhante ao Google Lens” é realmente uma injustiça. A capacidade de conversar sobre a imagem para obter mais informações e contexto a torna extremamente útil para uma ampla variedade de configurações. No entanto, é importante observar as letras miúdas, com a OpenAI deixando claro que limitou a “capacidade de analisar e fazer declarações diretas sobre as pessoas” do ChatGPT por razões de privacidade e precisão. Ainda assim, uma ferramenta “Quem é este” baseada em OpenAI poderia estar em desenvolvimento para o futuro? (Esperemos que não!)

Assim como o novo modelo de conversão de texto em fala, o OpenAI lançará o reconhecimento de imagem nas próximas duas semanas, embora esteja disponível em todas as plataformas, não apenas no aplicativo ChatGPT.

Privacidade, segurança e outros problemas

As implicações de um ChatGPT alimentado por voz são gritantes. Claro, é emocionante. No entanto, a capacidade de criar uma voz sintetizada exclusivamente usando apenas um pequeno trecho como exemplo apresenta problemas consideráveis de privacidade e segurança. O potencial para atores mal-intencionados explorarem essas ferramentas é enorme e, como acontece com qualquer ferramenta de IA generativa, uma vez que o gênio sair da garrafa, ele absolutamente não voltará. Nenhuma quantidade de regulamentação de IA por parte de governos ou líderes de pensamento pode voltar atrás. a maré.

Até mesmo o aviso da OpenAI sobre o assunto parece contornar o óbvio, apesar de mencionar os problemas:

No entanto, estas capacidades também apresentam novos riscos, como a possibilidade de intervenientes mal-intencionados se passarem por figuras públicas ou cometerem fraudes. É por isso que estamos usando essa tecnologia para potencializar um caso de uso específico: bate-papo por voz.

Dado que esta é a ponta do iceberg, espere uma reação contra a voz recém-descoberta do ChatGPT, especialmente quando houver um aumento previsível em manchetes desagradáveis alegando que o ChatGPT está sendo usado para cometer fraudes e assim por diante.

OpenAI está tornando o ChatGPT o aplicativo de IA ideal

Quanto mais o OpenAI adiciona recursos fáceis de usar ao ChatGPT, mais ele se torna o aplicativo de IA generativo ideal. Como o primeiro a alcançar fama generalizada durante o boom inicial da IA generativa, o ChatGPT ainda lidera e é o único aplicativo usado, apesar da concorrência de empresas como Google Bard (e potencialmente Google Gemini) e Claude da Anthropic.

Contanto que o OpenAI possa continuar a adicionar recursos que tornem o ChatGPT mais fácil de usar, ele manterá as pessoas presas e chegará cada vez mais perto de seu objetivo de uma ferramenta de IA verdadeiramente multimodal.

Nami Nunesjaneiro 31, 2025

0 3 minutos de leitura

Mostrar mais

Ler o Próximo

OpenAI dá ao ChatGPT uma voz para responder a solicitações e comandos

OpenAI dá voz ao ChatGPT

ChatGPT pode reconhecer e analisar imagens e fotografias

Privacidade, segurança e outros problemas

OpenAI está tornando o ChatGPT o aplicativo de IA ideal

Nami Nunes

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Deixe um comentário Cancelar resposta

OpenAI dá voz ao ChatGPT

ChatGPT pode reconhecer e analisar imagens e fotografias

Privacidade, segurança e outros problemas

OpenAI está tornando o ChatGPT o aplicativo de IA ideal

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA