.

Adobe
Recentemente, a Adobe lançou uma ferramenta gratuita de processamento de áudio com inteligência artificial que pode aprimorar algumas gravações de voz de baixa qualidade, removendo o ruído de fundo e tornando o som da voz mais forte. Quando funciona, o resultado soa como uma gravação feita em cabine de som profissional com microfone de alta qualidade.
A nova ferramenta, chamada Enhance Speech, surgiu como parte de um projeto de pesquisa de IA chamado Project Shasta. Recentemente, a Adobe mudou o nome do Projeto Shasta para Adobe Podcast.
O uso do Enhance Speech é gratuito, mas requer a criação de uma conta da Adobe e funciona melhor com um navegador da Web para desktop. Depois de registrados, os usuários podem fazer upload de um arquivo MP3 ou WAV de até uma hora ou 1 GB de tamanho. Após alguns minutos, você pode ouvir o resultado em seu navegador ou baixar o áudio limpo resultante.
Em nossos testes com o serviço, Enhance Speech funcionou melhor com áudio que continha uma voz sem diafonia ou ruído excessivo. Por exemplo, gravamos o áudio do microfone embutido de um iMac de uma pessoa a 3 metros de distância, incluindo o ruído do ventilador próximo, e o áudio resultante (uma vez processado pelo Enhance Speech) soou como se tivesse sido gravado de perto em um ambiente sem ruído estúdio com um microfone profissional.

Adobe
Como funciona? A Adobe não forneceu nenhum detalhe, mas suspeitamos que a empresa treinou um modelo de aprendizado profundo em muitas (possivelmente milhares) horas de áudio limpo e ruidoso. O modelo poderia então “aprender” a captar as frequências da voz humana e sintetizar um fac-símile que corresponda com precisão à fonte. Isso é especulação até que a Adobe forneça mais detalhes técnicos e entramos em contato com a empresa para comentar.
Nesse sentido, alguns comentaristas do Hacker News relataram resultados alucinados – saída inesperada como vozes fantasmas em que a IA interpreta mal o áudio de entrada – de áudio extremamente ruidoso (como fala gravada ao lado de uma cachoeira) ou de fontes em idiomas diferentes do inglês, o que sugere que Enhance Speech está fazendo mais do que apenas uma técnica convencional de redução de ruído.
O Enhance Speech não é a primeira ferramenta a fornecer esse tipo de capacidade de redução de ruído com IA. Um pacote de código aberto chamado mayavoz e um serviço comercial chamado Audo Studio fazem algo semelhante, por exemplo.
Vale a pena notar que o Enhance Speech faz parte de um grupo maior de ferramentas de podcasting com IA da Adobe, incluindo uma ferramenta Mic Check (atualmente disponível gratuitamente também) e uma ferramenta de edição de áudio baseada em transcrição que ainda está passando por um convite. apenas teste beta.
.