.

Strong The One
Uma empresa de síntese de voz com sede em Dubai publicou uma entrevista fictícia em podcast entre Joe Rogan e Steve Jobs usando vozes realistas clonadas digitalmente de ambos os homens. Acontece durante o “primeiro episódio” de uma suposta série de podcasts chamada “Podcast.ai”, criada pela Play.ht, que vende serviços de síntese de voz.
Na entrevista, você primeiro ouve uma replicação da voz de Rogan criada por tecnologia de clonagem de voz semelhante à que abordamos antes em Ars. A tecnologia de aprendizado profundo permitiu que os modelos de IA replicassem vozes distintas com alto grau de precisão, como no caso de Darth Vader no filme da Disney. Obi wan Kenobi Série de TV.
Para conseguir o efeito, alguém deve primeiro treinar o modelo de IA em amostras existentes da voz que serão clonadas. Rogan é o principal alvo para o treinamento de voz de IA por modelos de aprendizado profundo, porque existem amplas quantidades de sua voz isolada em seus podcasts. Na verdade, The Verge cobriu um golpe de relações públicas de uma empresa de IA chamada Dessa sintetizando Rogan em 2019.
Onde esse exemplo de tolice da IA se torna mais interessante é que o Play.ht também inclui a voz do falecido CEO da Apple, Steve Jobs. Sua voz, embora às vezes robotizada, lembra suas palestras da Apple e entrevistas All Things Digital do final dos anos 2000. E o Play.ht afirma que o texto da entrevista também foi gerado pela IA, possivelmente a partir de um modelo de linguagem grande (LLM) semelhante ao GPT-3.
“As transcrições são geradas com modelos de linguagem ajustados”, escreve Play.ht no site Podcast.ai. “Por exemplo, o episódio de Steve Jobs foi treinado em sua biografia e todas as gravações dele que pudemos encontrar online para que a IA pudesse trazê-lo de volta à vida com precisão”.
De acordo com suas raízes LLM, a entrevista de 19 minutos não faz muito sentido. Depois de um tempo, partes da entrevista fictícia começam a soar como mashups conceituais de pontos de discussão comuns de Jobs, incluindo estética, produtos revolucionários, concorrentes como Google, Microsoft e Adobe, e os triunfos do Macintosh original.
Por exemplo, durante uma parte da entrevista, o falso Jobs mergulha em críticas à Microsoft que são muito semelhantes ao que o verdadeiro Jobs disse em uma famosa entrevista de 1995 para Triunfo dos Nerds, mas não é uma cópia carbono – e você pode dizer que a voz é sintetizada se comparar os dois. “Esse é o problema que sempre tive com a Microsoft”, diz Jobs falso. “Em muitos aspectos, eles são pessoas inteligentes e fizeram um bom trabalho, mas nunca tiveram bom gosto. Nunca tiveram senso estético.”
Se é legal usar as semelhanças vocais de Jobs ou Rogan dessa maneira – principalmente para promover um produto comercial – continua a ser visto. E apesar da natureza de dublê de relações públicas do podcast, o conceito de podcasts de celebridades inteiramente fictícios chamou nossa atenção. À medida que a síntese de voz se torna mais difundida e potencialmente indetectável, estamos olhando para um futuro em que os artefatos de mídia de qualquer época provavelmente serão completamente fluidos e maleáveis, moldáveis para se adequar a qualquer narrativa. Neste mundo fictício em particular, Jobs é um grande fã de Rogan.
“É bom sentar no carro e ouvir você reclamar”, diz ele.
.