Ciência e Tecnologia

OpenAai atualiza seus modelos de AI de transcrição e geração de voz

.

A OpenAI está trazendo novos modelos de transcrição e IA geradora de voz para sua API que a empresa afirma que melhoram seus lançamentos anteriores.

Para o OpenAI, os modelos se encaixam em sua visão mais ampla “Agentic”: a criação de sistemas automatizados que podem realizar tarefas independentemente em nome dos usuários. A definição de “agente” pode estar em disputa, mas o chefe do produto Openi, Olivier Godemont, descreveu uma interpretação como um chatbot que pode falar com os clientes de uma empresa.

“Vamos ver mais e mais agentes surgirem nos próximos meses”, disse Godemont ao Strong The One durante um briefing. “E assim o tema geral está ajudando os clientes e desenvolvedores a aproveitar os agentes úteis, disponíveis e precisos.”

O OpenAI afirma que seu novo modelo de texto em fala, “GPT-4o-Mini-TTS”, não apenas fornece discurso mais sutil e realista, mas é mais “orientável” do que seus modelos de síntese de fala anterior. Os desenvolvedores podem instruir o GPT-4O-Mini-TTS sobre como dizer coisas na linguagem natural-por exemplo, “falar como um cientista louco” ou “usar uma voz serena, como um professor de atenção plena”.

Aqui está uma voz “verdadeira de estilo criminal”, desgastada:

E aqui está uma amostra de uma voz “profissional” feminina:

Jeff Haris, membro da equipe de produtos da Openai, disse ao Strong The One que o objetivo é permitir que os desenvolvedores adaptem a “experiência” da voz e o “contexto”.

“Em diferentes contextos, você não quer apenas uma voz plana e monótona”, continuou Harris. “Se você está em uma experiência de suporte ao cliente e deseja que a voz se desculpe porque cometeu um erro, você pode realmente ter a voz ter essa emoção nela […] Nossa grande crença, aqui, é que desenvolvedores e usuários querem realmente controlar não apenas o que é falado, mas como as coisas são faladas. ”

Quanto aos novos modelos de fala para texto do OpenAI, “GPT-4O-Transcrib” e “GPT-4O-Mini-Transcrib”, eles efetivamente substituem o modelo de transcrição de sussurros de longa data da empresa. Treinados em “conjuntos de dados de áudio diversos e de alta qualidade”, os novos modelos podem capturar melhor a fala acentuada e variada, alegações do Openai, mesmo em ambientes caóticos.

Eles também são menos propensos a alucinar, acrescentou Harris. O sussurro notoriamente tendia a fabricar palavras – e até passagens inteiras – em conversas, introduzindo tudo, desde comentários raciais a tratamentos médicos imaginados em transcrições.

““[T]Esses modelos são muito aprimorados versus sussurros nessa frente “, disse Harris.” Garantir que os modelos sejam precisos é completamente essencial para obter uma experiência de voz confiável e preciso [in this context] significa que os modelos estão ouvindo as palavras com precisão [and] Não estão preenchendo detalhes que eles não ouviram. ”

Sua milhagem pode variar dependendo do idioma transcrito, no entanto.

De acordo com os benchmarks internos da OpenAI, o GPT-4O-Transcrib, quanto mais preciso dos dois modelos de transcrição, possui uma “taxa de erro de palavra” que se aproxima de 30% para idiomas indic e dravidianos como Tamil, Telugu, Malayalam e Kannada. Isso significa que o modelo perde cerca de três em cada 10 palavras nesses idiomas.

Openai foi GPT-4O-Transcrib
Os resultados dos benchmarks internos de reconhecimento de fala da OpenAI.Créditos da imagem:Openai

Em uma pausa da tradição, o OpenAI não planeja disponibilizar abertamente seus novos modelos de transcrição. A empresa Historicamente lançado novas versões de sussurro Para uso comercial sob uma licença do MIT.

Harris disse que o GPT-4O-Transcribe e o GPT-4o-Mini-Transcribe são “muito maiores que o sussurro” e, portanto, não são bons candidatos para um lançamento aberto.

““[T]hey, não é o tipo de modelo que você pode simplesmente correr localmente em seu laptop, como sussurro “, continuou ele.”[W]e queremos ter certeza de que, se estamos lançando as coisas em código aberto, estamos fazendo isso de maneira cuidadosa e temos um modelo que é realmente aprimorado por essa necessidade específica. E achamos que os dispositivos do usuário final são um dos casos mais interessantes para modelos de código aberto. ”

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo