.
A síntese de voz já percorreu um longo caminho desde o brinquedo Speak & Spell de 1978, que já impressionou as pessoas com sua capacidade de última geração de ler palavras em voz alta usando uma voz eletrônica. Agora, usando modelos de IA de aprendizagem profunda, o software pode criar não apenas vozes com som realista, mas também imitar de forma convincente vozes existentes usando pequenas amostras de áudio.
Nesse sentido, a OpenAI anunciou esta semana o Voice Engine, um modelo de IA de conversão de texto em fala para criar vozes sintéticas com base em um segmento de 15 segundos de áudio gravado. Ela forneceu amostras de áudio do Voice Engine em ação em seu site.
Depois que uma voz é clonada, o usuário pode inserir texto no Voice Engine e obter um resultado de voz gerado por IA. Mas a OpenAI não está pronta para divulgar amplamente sua tecnologia. A empresa planejou inicialmente lançar um programa piloto para desenvolvedores se inscreverem na API Voice Engine no início deste mês. Mas depois de mais considerações sobre as implicações éticas, a empresa decidiu reduzir as suas ambições por enquanto.
“Em linha com a nossa abordagem à segurança da IA e com os nossos compromissos voluntários, optamos por pré-visualizar, mas não divulgar amplamente esta tecnologia neste momento”, escreve a empresa. “Esperamos que esta prévia do Voice Engine ressalte seu potencial e também motive a necessidade de reforçar a resiliência da sociedade contra os desafios trazidos por modelos generativos cada vez mais convincentes.”
A tecnologia de clonagem de voz em geral não é particularmente nova – existem vários modelos de síntese de voz de IA desde 2022, e a tecnologia está ativa na comunidade de código aberto com pacotes como OpenVoice e XTTSv2. Mas a ideia de que a OpenAI está avançando para permitir que qualquer pessoa use sua marca específica de tecnologia de voz é notável. E, de certa forma, a reticência da empresa em divulgá-lo integralmente pode ser a grande história.
A OpenAI afirma que os benefícios de sua tecnologia de voz incluem fornecer assistência de leitura por meio de vozes com som natural, permitir alcance global para criadores traduzindo conteúdo enquanto preserva sotaques nativos, apoiar indivíduos não-verbais com opções de fala personalizadas e ajudar os pacientes a recuperar sua própria voz após condições que prejudicam a fala.
Mas também significa que qualquer pessoa que tenha 15 segundos da voz gravada de alguém poderia efetivamente cloná-la, e isso tem implicações óbvias para um possível uso indevido. Mesmo que a OpenAI nunca lance amplamente seu Voice Engine, a capacidade de clonar vozes já causou problemas na sociedade por meio de golpes telefônicos em que alguém imita a voz de um ente querido e chamadas automáticas de campanha eleitoral com vozes clonadas de políticos como Joe Biden.
Além disso, pesquisadores e repórteres mostraram que a tecnologia de clonagem de voz pode ser usada para invadir contas bancárias que usam autenticação de voz (como o Voice ID do Chase), o que levou o senador americano Sherrod Brown, de Ohio, presidente do Comitê Bancário do Senado dos EUA. , Habitação e Assuntos Urbanos, para enviar uma carta aos CEO de vários grandes bancos em maio de 2023 para perguntar sobre as medidas de segurança que os bancos estão a tomar para neutralizar os riscos alimentados pela IA.
A OpenAI reconhece que a tecnologia pode causar problemas se for amplamente divulgada, por isso está inicialmente tentando contornar esses problemas com um conjunto de regras. Ela vem testando a tecnologia com um conjunto de empresas parceiras selecionadas desde o ano passado. Por exemplo, a empresa de síntese de vídeo HeyGen tem usado o modelo para traduzir a voz de um locutor para outros idiomas, mantendo o mesmo som vocal.
.