.

É um grande privilégio ser um dos últimos humanos inteiros.
mais tecnicamente incorreto
Estou consciente de que no futuro tangível, os artistas anteriormente conhecidos como humanos serão um híbrido comovente de carne e osso.
Talvez eu não devesse ter ficado surpreso, então, quando os pesquisadores da Microsoft apareceram para apressar um pouco o futuro desesperador.
Tudo parecia tão inocente e tão científico. A manchete do artigo dos pesquisadores era criativamente opaca: “Modelos de linguagem de codecs neurais são sintetizadores de texto para fala zero-shot”.
O que você imagina que isso possa significar? Existe uma maneira nova e mais rápida de uma máquina escrever suas palavras faladas?
Também: A revolução do ChatGPT? Microsoft parece ter grandes planos para este chatbot de IA
O resumo dos pesquisadores começa de forma bastante benigna. Ele usa muitas palavras, frases e acrônimos que não são familiares para, digamos, muitos modelos leigos de linguagem humana. Ele explica que o modelo de linguagem do codec neural é chamado VALL-E.
Certamente esse nome deve amolecê-lo. O que poderia ser assustador em uma tecnologia que quase soa como aquele robozinho bonitinho de um filme emocionante?
Bem, talvez isto: “O VALL-E apresenta recursos de aprendizado no contexto e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação registrada de 3 segundos de um falante invisível como um prompt acústico”.
Muitas vezes eu quis emergir capacidades de aprendizagem. Em vez disso, tive que esperar que eles surgissem.
E o que emerge da última frase dos pesquisadores é um arrepio. Os grandes cérebros da Microsoft agora precisam apenas de 3 segundos de você dizendo algo para falsificar frases mais longas e talvez grandes discursos que não foram feitos por você, mas soam muito como você.
Não vou me aprofundar muito na ciência, pois nenhum de nós se beneficiaria com isso.
Vou apenas mencionar que o VALL-E usa uma biblioteca de áudio reunida por uma das empresas mais admiradas e confiáveis do mundo – a Meta. Chamado LibriLight, é um repositório de 7.000 pessoas conversando por um total de 60.000 horas.
Naturalmente, ouvi o trabalho de VALL-E.
Também: Veremos um tipo completamente novo de computador, diz Geoff Hinton, pioneiro da IA
Eu ouvi um homem falando por 3 segundos. Então, ouvi os 8 segundos que sua versão VALL-E foi solicitada a dizer: “Eles se moveram cautelosamente sobre a cabana tateando antes e sobre eles para encontrar algo para mostrar que Warrenton havia cumprido sua missão.”
Eu desafio você a notar muita diferença, se houver.
É verdade que muitos dos prompts soaram como trechos muito ruins da literatura do século XVIII. Exemplo: “Assim, esse pai humano e correto consolou sua filha infeliz, e sua mãe, abraçando-a novamente, fez tudo o que pôde para acalmar seus sentimentos.”
Mas o que eu poderia fazer além de ouvir mais exemplos apresentados pelos pesquisadores? Algumas versões do VALL-E eram um pouco mais suspeitas do que outras. A dicção não parecia certa. Eles se sentiram unidos.
O efeito geral, no entanto, é pertinentemente assustador.
Você já foi avisado, claro. Você sabe que quando os golpistas ligam para você, você não deve falar com eles, caso eles o gravem e depois recriem sua dicção para fazer sua voz abstraída encomendar nefastamente produtos caros.
Também: Use personalização baseada em IA para bloquear chamadas e textos indesejados
Isso, porém, parece outro nível de sofisticação. Talvez eu já tenha assistido a muitos episódios de “The Capture” de Peacock, onde os deepfakes são apresentados como uma parte natural do governo. Talvez eu realmente não devesse me preocupar porque a Microsoft é uma empresa tão legal e inofensiva hoje em dia.
No entanto, a ideia de que alguém, qualquer um, pode ser facilmente levado a acreditar que estou dizendo algo que não disse – e nunca diria – não me conforta. Especialmente porque os pesquisadores afirmam que também podem replicar a “emoção e o ambiente acústico” dos primeiros 3 segundos de fala.
Você ficará aliviado, então, porque os pesquisadores podem ter identificado esse potencial de desconforto. Eles oferecem: “Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode apresentar riscos potenciais no uso indevido do modelo, como falsificação da identificação da voz ou representação de um locutor específico”.
A solução? Construindo um sistema de detecção, dizem os pesquisadores.
O que pode deixar uma ou duas pessoas se perguntando: “Por que você fez isso, então?”
Muitas vezes, em tecnologia, a resposta é: “Porque podíamos”.
.








