technology

VALL-E AI pode imitar a voz de uma pessoa a partir de um trecho de 3 segundos • Strong The One

.

Pesquisadores da Microsoft estão trabalhando em um modelo de conversão de texto em fala (TTS) que pode imitar a voz de uma pessoa – completa com emoção e entonação – após apenas três segundos de treinamento.

A tecnologia – chamada VALL-E e descrita em uma pesquisa de 15 páginas papel lançado este mês no site de pesquisa arXiv – é um passo significativo para a Microsoft. TTS é um nicho altamente competitivo que inclui outros pesos pesados ​​como Google, Amazon e Meta.

Redmond já está usando inteligência artificial para processamento de linguagem natural (NLP) por meio de seu negócio nuance – que comprou por US$ 20 bilhões no ano passado, incluindo reconhecimento de fala e tecnologia TTS. E é agressivamente investindo dentro e usando a tecnologia da startup OpenAI – incluindo sua Ferramenta ChatGPT – possivelmente em seu mecanismo de busca Bing e em seu pacote de aplicativos Office.

Uma demonstração do VALL-E pode ser encontrado no GitHub.

No artigo, os pesquisadores argumentam que, embora o surgimento de redes neurais e a modelagem de ponta a ponta tenham melhorado rapidamente as tecnologias em torno da síntese de fala, ainda há problemas com a semelhança das vozes usadas e a falta de padrões naturais de fala no TTS. produtos. Eles não são as vozes robóticas de uma ou duas décadas atrás, mas também não parecem completamente humanos.

Ressalvas

Muito trabalho está sendo feito para melhorar isso, mas há sérios desafios de acordo com os cabeças de ovo da Microsoft. Alguns exigem dados de voz limpos de um estúdio de gravação para capturar fala de alta qualidade. E eles precisam contar com quantidades relativamente pequenas de dados de treinamento – bibliotecas de fala em grande escala encontradas na internet não são limpas o suficiente para o trabalho.

Para os atuais geradores TTS zero-shot – onde o software usa amostras não incluídas no treinamento – o trabalho é complexo. Pode levar horas para o sistema aplicar a voz de uma pessoa ao texto digitado.

“Em vez de projetar uma rede complexa e específica para esse problema, a solução definitiva é treinar um modelo com dados grandes e diversos o máximo possível, motivado pelo sucesso no campo da síntese de texto”, escreveram os pesquisadores, observando que a quantidade de dados usados ​​em modelos de linguagem de texto nos últimos anos aumentou de 16 GB de texto não compactado para cerca de um terabyte.

O VALL-E é “a primeira estrutura TTS baseada em modelo de linguagem que aproveita dados de fala grandes, diversos e de vários falantes”, de acordo com os boffins.

Eles treinaram VALL-E com Libri-Light – um conjunto de dados de código aberto da Meta que inclui 60.000 horas de fala em inglês com mais de 7.000 falantes únicos. Em comparação, outros sistemas TTS são treinados usando dezenas de horas de dados de um alto-falante ou centenas de horas com dados de vários alto-falantes.

VALL-E pode manter o ambiente acústico da voz. Portanto, se o trecho de voz usado como prompt acústico no modelo for gravado no telefone, o texto falado sintetizado também soaria como se estivesse vindo do telefone.

A captura da emoção é semelhante, afirmam os pesquisadores. Se os segundos da voz gravada do prompt acústico estiverem expressando raiva, a fala sintetizada com base nessa voz também exibirá raiva.

O resultado é um modelo TTS que supera outros em áreas como fala com som natural e similaridade de alto-falante. Os testes também indicam que “a fala sintetizada de falantes invisíveis é tão natural quanto as gravações humanas”, afirmam.

Os pesquisadores notaram alguns problemas que precisam ser resolvidos – incluindo que algumas palavras na fala sintetizada acabam faltando, não são claras ou são duplicadas. Também não há cobertura suficiente de falantes com sotaque, e é preciso haver uma maior diversidade de estilos de fala.

Estima-se que o mercado global de TTS cresça para dezenas de bilhões de dólares até o final da década, com players estabelecidos e startups impulsionando o desenvolvimento da tecnologia. O negócio Nuance da Microsoft tem seu produto TTS e o gigante do software oferece serviço TTS no Azure. Amazon tem Polly, Meta tem Meta-TTS e Google Cloud também oferece um serviço.

Tudo isso contribui para um espaço lotado.

A rápida melhoria na tecnologia levanta várias questões éticas e legais. A voz de uma pessoa pode ser capturada e sintetizada para uso em uma ampla variedade de áreas – de anúncios ou chamadas de spam a videogames ou chatbots. Eles também podem ser usados ​​em deepfakes, com a voz de um político ou celebridade combinada com uma imagem para espalhar desinformação ou fomentar a raiva.

Patrick Harr, CEO da empresa anti-phishing SlashNext, disse Strong The One O TTS também pode se tornar mais uma ferramenta para cibercriminosos, que podem usá-lo para campanhas de vishing – ataques usando chamadas telefônicas fraudulentas ou mensagens de voz que se acredita serem de um contato que a vítima conhece. Também pode ser usado em ataques de phishing mais tradicionais.

“Esta tecnologia pode ser extremamente perigosa nas mãos erradas”, disse Harr.

Os pesquisadores da Microsoft observaram o risco da fala sintetizada que retém a identidade do falante. Eles disseram que seria possível construir um modelo de detecção para discernir se um clipe de áudio é real ou sintetizado usando o VALL-E.

Harr disse que, dentro de alguns anos, todos poderão ter “um padrão de DNA digital exclusivo alimentado por blockchain que pode ser aplicado à sua voz, conteúdo que escrevem, avatar virtual etc. para representação de voz de executivos da empresa, por exemplo, porque essas representações não terão a ‘impressão digital’ do executivo real.”

Aqui está a esperança, de qualquer maneira. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo