News

Microsoft revela VALL-E, AI de áudio que pode simular qualquer voz a partir de prompts de 3 segundos

.

Pesquisadores da Microsoft anunciaram recentemente o VALL-E, um novo modelo de IA de conversão de texto em fala que pode imitar com precisão a voz de uma pessoa quando recebe uma amostra de áudio de três segundos. Depois de aprender uma voz específica, o VALL-E pode sintetizar o áudio dessa pessoa dizendo qualquer coisa – enquanto tenta reter o tom emocional do falante. Quando combinado com outros modelos generativos de IA como o GPT-3, os criadores do VALL-E acreditam que ele pode ser usado para aplicativos de conversão de texto em fala de alta qualidade, edição de fala em que uma gravação de uma pessoa pode ser editada e alterada de uma transcrição de texto (fazendo com que digam algo que não disseram) e criação de conteúdo de áudio.

De acordo com a Microsoft, o VALL-E é principalmente um “modelo de linguagem de codec neural” e é baseado no EnCodec, que a Meta revelou em outubro de 2022. O VALL-E cria códigos de codec de áudio discretos a partir de prompts de texto e acústicos, em oposição a outros codecs de texto. métodos to-speech que normalmente sintetizam a fala manipulando formas de onda. Ele processa como uma pessoa soa, divide os dados relevantes em componentes discretos (referidos como “tokens”) usando EnCodec e, em seguida, usa dados de treinamento para combinar o que “sabe” sobre como essa voz pode soar se falasse outras frases além a amostra de três segundos.

A Microsoft treinou as funcionalidades de síntese de fala do VALL-E usando a biblioteca de áudio LibriLight da Meta. Inclui 60.000 horas de fala em inglês de mais de 7.000 falantes, provenientes principalmente de audiolivros de domínio público LibriVox. A voz na amostra de três segundos deve se parecer muito com uma voz no algoritmo de aprendizado para VALL-E produzir um bom resultado.

A gigante tecnológica americana oferece dezenas de exemplos de áudio do modelo de IA em ação no site de exemplo VALL-E. O conjunto de dados “Speaker Prompt” é o áudio de três segundos fornecido ao VALL-E que ele deve tentar emular. O “Ground Truth” é uma versão gravada anteriormente do mesmo falante dizendo uma frase específica para fins comparativos (como o “controle” no experimento). A amostra “Baseline” é gerada por um método tradicional de síntese de texto para fala, e a amostra “VALL-E” é gerada pelo modelo VALL-E.

Diagrama de bloco Microsoft VALL E Microsoft VALL-E Microsoft

Um diagrama de blocos do VALL-E, conforme mostrado no site de exemplo por pesquisadores da Microsoft
Crédito da foto: Microsoft

Os pesquisadores forneceram apenas a amostra de três segundos “Speaker Prompt” e uma sequência de texto (o que eles gostariam que a voz dissesse) ao VALL-E para obter esses resultados. Alguns resultados do VALL-E parecem gerados por computador, mas outros podem ser mal interpretados pela fala humana, que é o objetivo do modelo. Devido ao potencial do VALL-E para alimentar irregularidades e enganos, a Microsoft não disponibilizou o código VALL-E para outros explorarem. Os pesquisadores parecem estar cientes do potencial dano social que essa tecnologia pode causar.

Eles escrevem na conclusão do artigo: “Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, pode acarretar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico. Para mitigar esses riscos, é possível para construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E. Também colocaremos os Princípios de IA da Microsoft em prática ao desenvolver os modelos.”


Os links de afiliados podem ser gerados automaticamente – consulte nossa declaração de ética para obter detalhes.

Confira as novidades do Consumer Electronics Show no Strong The One, em nosso hub CES 2023.

Poco C55 deve ser um Redmi 12C renomeado, com lançamento previsto para breve

Vídeo destaque do dia

CES 2023: Lenovo Tab Extreme, Smart Paper e mais revelados

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo