.
A OpenAI está trazendo novos modelos de transcrição e IA geradora de voz para sua API que a empresa afirma que melhoram seus lançamentos anteriores.
Para o OpenAI, os modelos se encaixam em sua visão mais ampla “Agentic”: a criação de sistemas automatizados que podem realizar tarefas independentemente em nome dos usuários. A definição de “agente” pode estar em disputa, mas o chefe do produto Openi, Olivier Godemont, descreveu uma interpretação como um chatbot que pode falar com os clientes de uma empresa.
“Vamos ver mais e mais agentes surgirem nos próximos meses”, disse Godemont ao Strong The One durante um briefing. “E assim o tema geral está ajudando os clientes e desenvolvedores a aproveitar os agentes úteis, disponíveis e precisos.”
O OpenAI afirma que seu novo modelo de texto em fala, “GPT-4o-Mini-TTS”, não apenas fornece discurso mais sutil e realista, mas é mais “orientável” do que seus modelos de síntese de fala anterior. Os desenvolvedores podem instruir o GPT-4O-Mini-TTS sobre como dizer coisas na linguagem natural-por exemplo, “falar como um cientista louco” ou “usar uma voz serena, como um professor de atenção plena”.
Aqui está uma voz “verdadeira de estilo criminal”, desgastada:
E aqui está uma amostra de uma voz “profissional” feminina:
Jeff Haris, membro da equipe de produtos da Openai, disse ao Strong The One que o objetivo é permitir que os desenvolvedores adaptem a “experiência” da voz e o “contexto”.
“Em diferentes contextos, você não quer apenas uma voz plana e monótona”, continuou Harris. “Se você está em uma experiência de suporte ao cliente e deseja que a voz se desculpe porque cometeu um erro, você pode realmente ter a voz ter essa emoção nela […] Nossa grande crença, aqui, é que desenvolvedores e usuários querem realmente controlar não apenas o que é falado, mas como as coisas são faladas. ”
Quanto aos novos modelos de fala para texto do OpenAI, “GPT-4O-Transcrib” e “GPT-4O-Mini-Transcrib”, eles efetivamente substituem o modelo de transcrição de sussurros de longa data da empresa. Treinados em “conjuntos de dados de áudio diversos e de alta qualidade”, os novos modelos podem capturar melhor a fala acentuada e variada, alegações do Openai, mesmo em ambientes caóticos.
Eles também são menos propensos a alucinar, acrescentou Harris. O sussurro notoriamente tendia a fabricar palavras – e até passagens inteiras – em conversas, introduzindo tudo, desde comentários raciais a tratamentos médicos imaginados em transcrições.
““[T]Esses modelos são muito aprimorados versus sussurros nessa frente “, disse Harris.” Garantir que os modelos sejam precisos é completamente essencial para obter uma experiência de voz confiável e preciso [in this context] significa que os modelos estão ouvindo as palavras com precisão [and] Não estão preenchendo detalhes que eles não ouviram. ”
Sua milhagem pode variar dependendo do idioma transcrito, no entanto.
De acordo com os benchmarks internos da OpenAI, o GPT-4O-Transcrib, quanto mais preciso dos dois modelos de transcrição, possui uma “taxa de erro de palavra” que se aproxima de 30% para idiomas indic e dravidianos como Tamil, Telugu, Malayalam e Kannada. Isso significa que o modelo perde cerca de três em cada 10 palavras nesses idiomas.

Em uma pausa da tradição, o OpenAI não planeja disponibilizar abertamente seus novos modelos de transcrição. A empresa Historicamente lançado novas versões de sussurro Para uso comercial sob uma licença do MIT.
Harris disse que o GPT-4O-Transcribe e o GPT-4o-Mini-Transcribe são “muito maiores que o sussurro” e, portanto, não são bons candidatos para um lançamento aberto.
““[T]hey, não é o tipo de modelo que você pode simplesmente correr localmente em seu laptop, como sussurro “, continuou ele.”[W]e queremos ter certeza de que, se estamos lançando as coisas em código aberto, estamos fazendo isso de maneira cuidadosa e temos um modelo que é realmente aprimorado por essa necessidade específica. E achamos que os dispositivos do usuário final são um dos casos mais interessantes para modelos de código aberto. ”
.