Estudos/Pesquisa

Humanos incapazes de detectar mais de um quarto das amostras de fala deepfake – Strong The One

.

O estudo, publicado hoje na PLOS UMé o primeiro a avaliar a capacidade humana de detectar fala gerada artificialmente em um idioma diferente do inglês.

Deepfakes são mídias sintéticas destinadas a se assemelhar à voz ou aparência de uma pessoa real. Eles se enquadram na categoria de inteligência artificial generativa (IA), um tipo de aprendizado de máquina (ML) que treina um algoritmo para aprender os padrões e características de um conjunto de dados, como vídeo ou áudio de uma pessoa real, para que possa reproduzir som ou imagens originais.

Embora os primeiros algoritmos de fala deepfake possam ter exigido milhares de amostras da voz de uma pessoa para gerar o áudio original, os algoritmos pré-treinados mais recentes podem recriar a voz de uma pessoa usando apenas um clipe de três segundos dela falando1. Algoritmos de código aberto estão disponíveis gratuitamente e, embora algum conhecimento seja benéfico, seria viável para um indivíduo treiná-los em alguns dias2.

A empresa de tecnologia Apple anunciou recentemente um software para iPhone e iPad que permite ao usuário criar uma cópia de sua voz usando 15 minutos de gravações3.

Pesquisadores da UCL usaram um algoritmo de conversão de texto em fala (TTS) treinado em dois conjuntos de dados disponíveis publicamente, um em inglês e outro em mandarim, para gerar 50 amostras de fala deepfake em cada idioma. Essas amostras foram diferentes das usadas para treinar o algoritmo para evitar a possibilidade de ele reproduzir a entrada original.

Essas amostras geradas artificialmente e amostras genuínas foram tocadas para 529 participantes para ver se eles podiam detectar a coisa real da fala falsa. Os participantes só conseguiram identificar a fala falsa em 73% das vezes, o que melhorou apenas um pouco depois de receberem treinamento para reconhecer aspectos da fala deepfake.

Kimberly Mai (UCL Computer Science), primeira autora do estudo, disse: “Nossas descobertas confirmam que os humanos são incapazes de detectar de forma confiável a fala deepfake, tenham ou não recebido treinamento para ajudá-los a detectar conteúdo artificial. Também vale a pena notar que o as amostras que usamos neste estudo foram criadas com algoritmos relativamente antigos, o que levanta a questão de saber se os humanos seriam menos capazes de detectar a fala deepfake criada usando a tecnologia mais sofisticada disponível agora e no futuro.”

O próximo passo para os pesquisadores é desenvolver melhores detectores de fala automatizados como parte dos esforços contínuos para criar recursos de detecção para combater a ameaça de áudio e imagens gerados artificialmente.

Embora existam benefícios da tecnologia de áudio AI generativa, como maior acessibilidade para aqueles cuja fala pode ser limitada ou que podem perder a voz devido a doenças, há temores crescentes de que essa tecnologia possa ser usada por criminosos e estados-nação para causar danos significativos. aos indivíduos e às sociedades.

Casos documentados de discurso deepfake sendo usado por criminosos incluem um incidente de 2019 em que o CEO de uma empresa de energia britânica foi convencido a transferir centenas de milhares de libras para um fornecedor falso por meio de uma gravação deepfake da voz de seu chefe4.

O professor Lewis Griffin (UCL Computer Science), autor sênior do estudo, disse: “Com a tecnologia de inteligência artificial generativa ficando mais sofisticada e muitas dessas ferramentas disponíveis abertamente, estamos prestes a ver inúmeros benefícios, bem como riscos. Seria prudente que governos e organizações desenvolvessem estratégias para lidar com o abuso dessas ferramentas, certamente, mas também devemos reconhecer as possibilidades positivas que estão no horizonte.”

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo