technology

Ouça Elvis cantando Baby Got Back usando IA – e aprenda como foi feito

.

Uma ilustração colorida de um rockstar elegante com cabelo grande.

Getty Images / Benj Edwards

Recentemente, vários videoclipes virais de um canal do YouTube chamado There I Ruined It incluíram vozes geradas por IA de artistas musicais famosos cantando letras de músicas surpreendentes. Um exemplo recente imagina Elvis cantando letras para Sir Mix-a-Lot’s bebê voltou. Outro apresenta um falso Johnny Cash cantando a letra de Aqua’s Barbie.

(O vídeo original de Elvis foi retirado do YouTube devido a uma reivindicação de direitos autorais do Universal Music Group, mas graças à magia da Internet, você pode ouvi-lo de qualquer maneira.)

https://www.youtube.com/watch?v=IXcITn507Jk

Uma cópia do trecho do vídeo “Elvis Sings Baby Got Back”.

Obviamente, já que Elvis está morto há 46 anos (e Cash há 20), nenhum dos dois poderia ter cantado as músicas sozinhos. É aí que entra a IA. Mas, como veremos, embora a IA generativa possa ser incrível, ainda há muito talento e esforço humanos envolvidos na criação desses mash-ups musicais.

Para descobrir como Aí eu estraguei tudo faz sua mágica, primeiro procuramos o criador do canal, o músico Dustin Ballard. A resposta de Ballard foi pobre em detalhes, mas ele expôs o fluxo de trabalho básico. Ele usa um modelo de IA chamado so-vits-svc para transformar seus próprios vocais que ele grava nos de outros artistas. “Atualmente, não é um processo muito amigável (e o treinamento em si é ainda mais difícil)”, disse ele à Strong The One em um e-mail, “mas basicamente depois de ter o modelo treinado (baseado em uma grande amostra de referências de áudio limpas) , então você pode carregar sua própria faixa vocal e substituí-la pela voz que você modelou. Você então coloca isso em sua mixagem e constrói a música em torno dela.”

Mas vamos voltar um segundo: o que significa “so-vits-svc”? O nome se origina de uma série de tecnologias de código aberto sendo encadeadas. A parte “so” vem de “SoftVC” (VC para “conversão de voz”), que divide o áudio de origem (a voz de um cantor) em partes principais que podem ser codificadas e aprendidas por uma rede neural. A parte “VITS” é um acrônimo para “Variational Inference with adversarial learning for end-to-end Text-to-Speech”, cunhado neste artigo de 2021. O VITS obtém conhecimento do modelo vocal treinado e gera a saída de voz convertida. E “SVC” significa “conversão de voz cantada” – convertendo uma voz cantada em outra – em oposição à conversão da voz falada de alguém.

O recente Aí eu estraguei tudo as músicas usam IA principalmente em um aspecto: o modelo de IA depende da performance vocal de Ballard, mas muda o timbre de sua voz para o de outra pessoa, semelhante a como a tecnologia de voz para voz de Respeecher pode transformar a performance de Darth Vader de um ator em A voz de James Earl Jones. O resto da música vem do arranjo de Ballard em um aplicativo de música convencional.

Um processo complicado – no momento

A interface GUI para uma bifurcação de so-vits-svc.
Prolongar / A interface GUI para uma bifurcação de so-vits-svc.

Michael van Voorst

Para obter mais informações sobre o processo de clonagem de voz musical com so-vits-svc-fork (uma versão alterada do so-vits-svc original), localizamos Michael van Voorst, o criador do modelo de AI de voz de Elvis que Ballard usado em seu bebê voltou vídeo. Ele nos guiou pelas etapas necessárias para criar um mash-up de IA.

“Para criar uma réplica precisa de uma voz, você começa criando um conjunto de dados de amostras de áudio vocal limpo da pessoa para a qual está construindo um modelo de voz”, disse van Voorst. “As amostras de áudio precisam ser de qualidade de estúdio para obter os melhores resultados. Se forem de qualidade inferior, isso refletirá de volta no modelo vocal.”

No caso de Elvis, van Voorst usou faixas vocais do famoso cantor Aloha do Havaí concerto em 1973 como material fundamental para treinar o modelo de voz. Após cuidadosa triagem manual, van Voorst extraiu 36 minutos de áudio de alta qualidade, que ele dividiu em blocos de 10 segundos para processamento correto. “Ouvi atentamente qualquer interferência, como ruído da banda ou do público, e a removi do meu conjunto de dados”, disse ele. Além disso, ele tentou capturar uma grande variedade de expressões vocais: “A qualidade do modelo melhora com amostras mais variadas.”

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo