.
ChatGPT está definido para se tornar uma experiência interativa de IA generativa. A OpenAI revelou que o chatbot de IA líder mundial será capaz de falar e responder às dúvidas dos usuários usando uma voz sintetizada, presumivelmente gerada por IA.
Junto com sua voz recém-descoberta, o ChatGPT também será capaz de responder e discutir imagens específicas enviadas para ele ou capturadas durante o uso do aplicativo ChatGPT para Android ou iOS. O recurso de reconhecimento de imagem é semelhante ao Google Lens e outros aplicativos que usam redes neurais para detectar dados e informações com precisão.
OpenAI dá voz ao ChatGPT
Em 25 de setembro de 2023, o desenvolvedor do ChatGPT OpenAI revelou que daria voz ao seu chatbot de IA generativo líder mundial. Os usuários do ChatGPT podem falar diretamente com o chatbot e solicitar que ele responda, permitindo efetivamente que o ChatGPT converse diretamente por voz pela primeira vez.
O clipe de exemplo da OpenAI mostra uma mulher pedindo ao ChatGPT para criar uma história única para dormir, à qual o ChatGPT responde devidamente com uma voz feminina sintetizada.
Segundo a Wired, o novo modelo de conversão de texto em fala foi desenvolvido internamente. Ele pode gerar áudio “semelhante ao humano” a partir de texto e alguns segundos de amostra de fala (usando o modelo OpenAI Whisper) e falar em vários tons e estilos. Você pode encontrar uma variedade de exemplos de voz no blog da OpenAI.
Algumas empresas já estão colocando em uso o novo modelo de voz da OpenAI. Por exemplo, o Spotify está usando o modelo de conversão de texto em fala da OpenAI para traduzir podcasts para diferentes idiomas, combinando a capacidade de tradução de idiomas do ChatGPT com sua nova capacidade de fala.
O novo modelo de conversão de texto em fala do ChatGPT está disponível apenas para assinantes Plus e Enterprise que usam os aplicativos oficiais Android e iOS e deve ser lançado nas próximas duas semanas (a partir de 25 de setembro de 2023). Além disso, para começar, o novo recurso de voz está limitado ao inglês, embora esperemos que isso mude rapidamente.
ChatGPT pode reconhecer e analisar imagens e fotografias
A segunda parte da atualização ChatGPT do OpenAI é a capacidade de analisar e falar imagens enviadas para a ferramenta. A opção de análise visual de imagem foi apresentada nos vídeos de atualização do GPT-4, mas não foi muito discutida desde então (à parte o intérprete de código ChatGPT).
Agora, o ChatGPT ganha funcionalidade semelhante ao Google Lens. Você pode fazer upload de uma imagem para o ChatGPT ou tirar uma fotografia usando a câmera do seu smartphone no aplicativo ChatGPT, e ele detalhará a imagem, adicionando mais contexto quando necessário.
Chamá-lo de “semelhante ao Google Lens” é realmente uma injustiça. A capacidade de conversar sobre a imagem para obter mais informações e contexto a torna extremamente útil para uma ampla variedade de configurações. No entanto, é importante observar as letras miúdas, com a OpenAI deixando claro que limitou a “capacidade de analisar e fazer declarações diretas sobre as pessoas” do ChatGPT por razões de privacidade e precisão. Ainda assim, uma ferramenta “Quem é este” baseada em OpenAI poderia estar em desenvolvimento para o futuro? (Esperemos que não!)
Assim como o novo modelo de conversão de texto em fala, o OpenAI lançará o reconhecimento de imagem nas próximas duas semanas, embora esteja disponível em todas as plataformas, não apenas no aplicativo ChatGPT.
Privacidade, segurança e outros problemas
As implicações de um ChatGPT alimentado por voz são gritantes. Claro, é emocionante. No entanto, a capacidade de criar uma voz sintetizada exclusivamente usando apenas um pequeno trecho como exemplo apresenta problemas consideráveis de privacidade e segurança. O potencial para atores mal-intencionados explorarem essas ferramentas é enorme e, como acontece com qualquer ferramenta de IA generativa, uma vez que o gênio sair da garrafa, ele absolutamente não voltará. Nenhuma quantidade de regulamentação de IA por parte de governos ou líderes de pensamento pode voltar atrás. a maré.
Até mesmo o aviso da OpenAI sobre o assunto parece contornar o óbvio, apesar de mencionar os problemas:
No entanto, estas capacidades também apresentam novos riscos, como a possibilidade de intervenientes mal-intencionados se passarem por figuras públicas ou cometerem fraudes. É por isso que estamos usando essa tecnologia para potencializar um caso de uso específico: bate-papo por voz.
Dado que esta é a ponta do iceberg, espere uma reação contra a voz recém-descoberta do ChatGPT, especialmente quando houver um aumento previsível em manchetes desagradáveis alegando que o ChatGPT está sendo usado para cometer fraudes e assim por diante.
OpenAI está tornando o ChatGPT o aplicativo de IA ideal
Quanto mais o OpenAI adiciona recursos fáceis de usar ao ChatGPT, mais ele se torna o aplicativo de IA generativo ideal. Como o primeiro a alcançar fama generalizada durante o boom inicial da IA generativa, o ChatGPT ainda lidera e é o único aplicativo usado, apesar da concorrência de empresas como Google Bard (e potencialmente Google Gemini) e Claude da Anthropic.
Contanto que o OpenAI possa continuar a adicionar recursos que tornem o ChatGPT mais fácil de usar, ele manterá as pessoas presas e chegará cada vez mais perto de seu objetivo de uma ferramenta de IA verdadeiramente multimodal.
.