.

OpenAI continua a ultrapassar os limites da tecnologia de IA. Primeiro, lançou uma ferramenta que pode evocar imagens digitais apenas com uma descrição. Em seguida, revelou o Sora, uma tecnologia que gera vídeos em movimento com qualidade de Hollywood. E agora está entrando no reino da recriação de voz.
O que há de mais recente no OpenAI é um recurso que lê texto em voz alta com uma voz notavelmente humana. Este avanço na inteligência artificial marca um avanço significativo, mas também levanta preocupações sobre o potencial de manipulação de deepfakes (via Bloomberg).
A empresa revelou os primeiros resultados dos testes desse recurso, oferecendo demonstrações, que você pode ouvir aqui. Apelidado de Voice Engine, este modelo de conversão de texto em fala está atualmente em fase de teste limitada com cerca de 10 desenvolvedores. A OpenAI optou por uma abordagem cautelosa em vez de um lançamento generalizado.
Seguindo o feedback das partes interessadas, como decisores políticos e educadores, a OpenAI decidiu reduzir a sua implementação inicial. A empresa reconhece os sérios riscos de gerar um discurso humano, especialmente em tempos delicados como um ano eleitoral.
A empresa escreveu em uma postagem no blog:
Reconhecemos que gerar um discurso que se assemelhe às vozes das pessoas acarreta sérios riscos, que são especialmente importantes num ano eleitoral. Estamos nos envolvendo com parceiros dos EUA e internacionais do governo, mídia, entretenimento, educação, sociedade civil e outros para garantir que incorporamos seus comentários à medida que construímos.
Ao contrário dos projetos de áudio anteriores, o Voice Engine se destaca pela capacidade de imitar vozes individuais com notável precisão, capturando nuances de cadência e entonação. E bastam apenas 15 segundos para replicar a voz de uma pessoa.
Entre os parceiros da OpenAI está o Norman Prince Neurosciences Institute da Lifespan, onde a tecnologia é usada para ajudar pacientes na reabilitação vocal. Por exemplo, foi usado para restaurar a fala de um paciente jovem que tinha dificuldade para falar claramente devido a um tumor cerebral. A IA aprendeu com gravações anteriores de um projeto escolar.
Além de suas aplicações na área da saúde, o modelo de fala personalizada tem chamado a atenção de empresas como o Spotify, que vê potencial na tradução de conteúdo de áudio, como podcasts, para vários idiomas. No entanto, a OpenAI enfatiza as diretrizes éticas para o uso da tecnologia, incluindo a obtenção do consentimento dos palestrantes originais e a divulgação de conteúdo gerado por IA aos ouvintes. Além disso, antes de considerar um lançamento mais amplo, a OpenAI está solicitando feedback e incentivando a conscientização do público sobre os desafios colocados pela tecnologia avançada de IA. . Isto inclui defender a eliminação progressiva da autenticação de voz em áreas sensíveis como o setor bancário.
OpenAI adicionou em sua postagem no blog:
É importante que as pessoas em todo o mundo compreendam para onde esta tecnologia se dirige, quer nós próprios a implementemos amplamente ou não.
Além disso, a empresa acrescenta que espera que esta prévia desencadeie uma conversa sobre como lidar com os riscos associados aos avanços da IA e promover a resiliência social.
.








