Você já se perguntou como sabemos com quem estamos falando ao telefone? É obviamente mais do que apenas o nome exibido na tela. Se ouvirmos uma voz desconhecida ao ser chamado de um número salvo, saberemos imediatamente que algo está errado. Para determinar com quem realmente estamos falando, notamos inconscientemente o timbre, a maneira e a entonação da fala. Mas quão confiável é nossa própria audição na era digital da inteligência artificial? Como mostram as últimas notícias, nem sempre vale a pena confiar no que ouvimos – porque as vozes podem ser falsas: deepfake.
Socorro, estou com problemas
Na primavera de 2023, golpistas no Arizona tentaram extorquir dinheiro de uma mulher por telefone. Ela ouviu a voz de sua filha de 15 anos implorando por ajuda antes que um homem desconhecido pegasse o telefone e exigisse um resgate, enquanto os gritos de sua filha ainda podiam ser ouvidos ao fundo. A mãe tinha certeza de que a voz era realmente de seu filho. Felizmente, ela descobriu rápido que estava tudo bem com a filha, levando-a a perceber que foi vítima de golpistas.
Não pode ser 100% comprovado que os atacantes usaram um deepfake para imitar a voz do adolescente. Talvez o golpe fosse de natureza mais tradicional, com a qualidade da ligação, o imprevisto da situação, o estresse e a imaginação da mãe fazendo sua parte para fazê-la pensar que ouviu algo que não ouviu. Mas mesmo que as tecnologias de rede neural não fossem usadas neste caso, os deepfakes podem e de fato ocorrem e, à medida que seu desenvolvimento continua, eles se tornam cada vez mais convincentes e perigosos. Para combater a exploração da tecnologia deepfake por criminosos, precisamos entender como ela funciona.
O que são deepfakes?
deepfake (“aprendizagem profunda” + “falso”) a inteligência artificial vem crescendo rapidamente nos últimos anos. O aprendizado de máquina pode ser usado para criar falsificações atraentes de imagens, vídeos ou conteúdo de áudio. Por exemplo, redes neurais podem ser usadas em fotos e vídeos para substituir o rosto de uma pessoa por outra, preservando as expressões faciais e a iluminação. Embora inicialmente essas falsificações fossem de baixa qualidade e fáceis de detectar, à medida que os algoritmos foram desenvolvidos, os resultados tornaram-se tão convincentes que agora é difícil distingui-los da realidade. Em 2022, o primeiro programa de TV deepfake do mundo foi lançado na Rússia, onde deepfakes de Jason Statham, Margot Robbie, Keanu Reeves e Robert Pattinson interpretam os personagens principais.
Versões deepfake de estrelas de Hollywood na série de TV russa PMJason. (Fonte)
conversão de voz
Mas hoje nosso foco está na tecnologia usada para criar deepfakes de voz. Isso também é conhecido como conversão de voz (ou “clonagem de voz” se você estiver criando uma cópia digital completa dela). A conversão de voz é baseada em autoencoders – um tipo de rede neural que primeiro comprime os dados de entrada (parte do ptcoder) em uma representação interna compacta e, em seguida, aprende a descompactá-lo de volta a partir dessa representação (parte do decoder) para restaurar os dados originais. Dessa forma, o modelo aprende a apresentar os dados em um formato compactado, destacando as informações mais importantes.
Para fazer deepfakes de voz, duas gravações de áudio são inseridas no modelo, com a voz da segunda gravação convertida na primeira. O codificador de conteúdo é usado para determinar o que foi dito da primeira gravação, e o codificador do alto-falante é usado para extrair as principais características da voz da segunda gravação – ou seja como a segunda pessoa fala. As representações comprimidas de o que deve ser dito e como dizem que são combinados e o resultado é gerado usando o decodificador. Assim, o que é dito na primeira gravação é dublado pela pessoa da segunda gravação.
Existem outras abordagens que usam autoencoders, por exemplo, aquelas que usam redes adversárias generativas (GAN) ou modelos de difusão. A pesquisa sobre como fazer deepfakes é apoiada principalmente pela indústria cinematográfica. Pense bem: com os deepfakes de áudio e vídeo, é possível substituir rostos de atores de filmes e programas de TV e dublar filmes com expressões faciais sincronizadas para qualquer idioma.
Como isso é feito
Enquanto pesquisávamos tecnologias deepfake, nos perguntamos o quão difícil pode ser tornar a própria voz deepfake? Acontece que existem muitas ferramentas gratuitas de código aberto para trabalhar com conversão de voz, mas não é tão fácil obter um resultado de alta qualidade com elas. É preciso experiência em programação Python e boas habilidades de processamento e, mesmo assim, a qualidade está longe de ser ideal. Além do código aberto, também existem soluções proprietárias e pagas disponíveis.
Por exemplo, no início de 2023, a Microsoft anunciou um algoritmo que poderia reproduzir uma voz humana com base em um exemplo de áudio de apenas três segundos! Este modelo também funciona com vários idiomas, para que você possa se ouvir falando em um idioma estrangeiro. Tudo isso parece promissor, mas até agora está apenas na fase de pesquisa. Mas a plataforma ElevenLabs permite que os usuários façam deepfakes de voz sem nenhum esforço: basta fazer upload de uma gravação de áudio da voz e das palavras a serem faladas, e pronto. Claro, assim que a notícia se espalhou, as pessoas começaram a brincar com essa tecnologia de várias maneiras.
A batalha de Hermione e um banco excessivamente confiante
Em total conformidade com a lei de Godwin, Emma Watson foi obrigada a ler “Mein Kampf”, e outro usuário usou a tecnologia ElevenLabs para “hackear” sua própria conta bancária. Parece assustador? Isso acontece conosco – especialmente quando você adiciona à mistura as histórias de horror populares sobre golpistas coletando amostras de vozes pelo telefone, fazendo com que as pessoas digam “sim” ou “confirme” enquanto fingem ser um banco, agência governamental ou serviço de pesquisa, e depois roubar dinheiro usando autorização de voz.
Mas, na realidade, as coisas não são tão ruins. Em primeiro lugar, leva cerca de cinco minutos de gravações de áudio para criar uma voz artificial no ElevenLabs, então um simples “sim” não é suficiente. Em segundo lugar, os bancos também estão cientes desses golpes, então a voz só pode ser usada para iniciar certas operações que não estão relacionadas à transferência de fundos (por exemplo, para verificar o saldo da sua conta). Portanto, o dinheiro não pode ser roubado dessa maneira.
Para seu crédito, a ElevenLabs reagiu ao problema rapidamente reescrevendo as regras do serviço, proibindo usuários gratuitos (ou seja, anônimos) de criar deepfakes com base em suas próprias vozes carregadas e bloqueando contas com reclamações sobre “conteúdo ofensivo”.
Embora essas medidas possam ser úteis, elas ainda não resolvem o problema do uso de deepfakes de voz para fins suspeitos.
De que outra forma os deepfakes são usados em golpes
A tecnologia deepfake em si é inofensiva, mas nas mãos de golpistas pode se tornar uma ferramenta perigosa com muitas oportunidades de engano, difamação ou desinformação. Felizmente, não houve nenhum caso em massa de golpes envolvendo alteração de voz, mas houve vários casos de destaque envolvendo deepfakes de voz.
Em 2019, os golpistas usaram essa tecnologia para abalar a empresa de energia com sede no Reino Unido. Em uma conversa telefônica, o golpista fingiu ser o principal executivo da controladora alemã da empresa e solicitou a transferência urgente de € 220.000 (US$ 243.000) para a conta de uma determinada empresa fornecedora. Depois que o pagamento foi feito, o golpista ligou mais duas vezes – a primeira vez para deixar a equipe do escritório do Reino Unido à vontade e informar que a controladora já havia enviado um reembolso e a segunda vez para solicitar outra transferência. Nas três vezes, o CEO do Reino Unido teve certeza absoluta de que estava falando com seu chefe porque reconheceu tanto seu sotaque alemão quanto seu tom e maneira de falar. A segunda transferência não foi enviada apenas porque o golpista errou e ligou de um número austríaco em vez de um alemão, o que deixou o SEO do Reino Unido desconfiado.
Um ano depois, em 2020, golpistas usaram deepfakes para roubar até $ 35.000.000 de uma empresa japonesa não identificada (o nome da empresa e a quantidade total de bens roubados não foram divulgados pela investigação).
Não se sabe quais soluções (de código aberto, pagas ou mesmo próprias) os golpistas usaram para falsificar vozes, mas em ambos os casos acima as empresas claramente sofreram – muito – com a fraude deepfake.
Qual é o próximo?
As opiniões divergem sobre o futuro dos deepfakes. Atualmente, a maior parte dessa tecnologia está nas mãos de grandes corporações e sua disponibilidade ao público é limitada. Mas, como mostra a história de modelos generativos muito mais populares, como DALL-E, Midjourney e Stable Diffusion, e ainda mais com grandes modelos de linguagem (ChatGPT, alguém?), Tecnologias semelhantes podem aparecer no domínio público em um futuro previsível. Isso é confirmado por um vazamento recente de correspondência interna do Google, na qual representantes da gigante da Internet temem perder a corrida da IA para soluções abertas. Obviamente, isso resultará em um aumento no uso de deepfakes de voz – inclusive para fraudes.
A etapa mais promissora no desenvolvimento dos deepfakes é a geração em tempo real, que garantirá o crescimento explosivo dos deepfakes (e das fraudes baseadas neles). Você consegue imaginar uma videochamada com alguém cujo rosto e voz são completamente falsos? No entanto, esse nível de processamento de dados requer enormes recursos disponíveis apenas para grandes corporações, portanto, as melhores tecnologias permanecerão privadas e os fraudadores não conseguirão acompanhar os profissionais. A barra de alta qualidade também ajudará os usuários a aprender como identificar falsificações facilmente.
Como se proteger
Agora, voltando à nossa primeira pergunta: podemos confiar nas vozes que ouvimos (isto é – se não forem as vozes em nossa cabeça)? Bem, provavelmente é exagero se ficarmos paranóicos o tempo todo e começarmos a criar palavras-chave secretas para usar com amigos e familiares; no entanto, em situações mais graves, essa paranóia pode ser apropriada. Se tudo se desenvolver com base no cenário pessimista, a tecnologia deepfake nas mãos de golpistas pode se transformar em uma arma formidável no futuro, mas ainda há tempo de se preparar e construir métodos confiáveis de proteção contra a falsificação: já há muita pesquisa sobre deepfakes , e grandes empresas estão desenvolvendo soluções de segurança. Na verdade, já falamos detalhadamente sobre as formas de combater os deepfakes de vídeo aqui.
Por enquanto, a proteção contra falsificações de IA está apenas começando, por isso é importante ter em mente que deepfakes são apenas outro tipo de engenharia social avançada. O risco de se deparar com fraudes como essa é pequeno, mas ainda existe, então vale a pena conhecer e ficar atento. Se receber uma chamada estranha, preste atenção à qualidade do som. Está em um tom monótono não natural, é ininteligível ou há ruídos estranhos? Sempre verifique as informações por meio de outros canais e lembre-se de que a surpresa e o pânico são o que os golpistas mais contam.








