.
Os pesquisadores têm procurado maneiras de decompor o som em seus ingredientes básicos por mais de 200 anos. Na década de 1820, o cientista francês Joseph Fourier propôs que qualquer sinal, incluindo sons, pode ser construído usando um número suficiente de ondas senoidais. Essas ondas soam como assobios, cada uma com sua própria frequência, nível e hora de início, e são os blocos básicos de construção do som.
No entanto, alguns sons, como a flauta e uma voz humana ofegante, podem exigir centenas ou até milhares de senos para imitar exatamente a forma de onda original. Isso decorre do fato de tais sons conterem uma estrutura menos harmônica, mais ruidosa, onde todas as frequências ocorrem ao mesmo tempo. Uma solução é dividir o som em dois tipos de componentes, senoidais e ruído, com um número menor de ondas senoidais sibilantes e combinadas com ruídos variáveis, ou assobios, para completar a imitação.
Mesmo esse modelo de som de dois componentes ‘completo’ tem problemas com a suavização do início dos eventos sonoros, como consoantes na voz ou sons de bateria na música. Um terceiro componente, denominado transiente, foi introduzido por volta do ano 2000 para ajudar a modelar a nitidez de tais sons. Os transientes sozinhos soam como cliques. A partir de então, o som foi frequentemente dividido em três componentes: senos, ruído e transientes.
O modelo de três componentes de senos, ruído e transientes foi refinado por pesquisadores do Aalto University Acoustics Lab, usando ideias de percepção auditiva, lógica difusa e reconstrução perfeita.
A decomposição reflete a forma como ouvimos os sons
O pesquisador de doutorado Leonardo Fierro e o professor Vesa Välimäki perceberam que é importante a maneira como as pessoas ouvem os diferentes componentes e separam assobios, cliques e assobios. Se um clique se espalhar no tempo, ele começa a tocar e soar mais ruidoso; por outro lado, focar em sons muito breves pode causar alguma perda de tonalidade.
Esse insight da percepção auditiva foi associado à lógica difusa: a qualquer momento, parte do som pode pertencer a cada uma das três classes de senos, transientes ou ruído, não apenas a uma delas. Com o objetivo de uma reconstrução perfeita, o Fierro otimizou a forma como o som é decomposto.
No método aprimorado, senos e transientes são duas características opostas do som, e o som não pode pertencer a ambas as classes ao mesmo tempo. No entanto, qualquer um dos dois tipos de componentes opostos ainda pode ocorrer simultaneamente com o ruído. Assim, a ideia de lógica fuzzy está presente de forma restrita. O ruído funciona como um elo nebuloso entre os senos e os transientes, descrevendo todas as nuances do som que não são captadas por simples cliques e assobios. “É como encontrar a peça que faltava em um quebra-cabeça para conectar as duas partes que antes não se encaixavam”, diz Fierro.
Este método de decomposição aprimorada foi comparado com métodos anteriores em um teste de escuta. Onze ouvintes experientes foram solicitados individualmente a auditar vários trechos curtos de música e os componentes extraídos deles usando diferentes métodos.
O novo método surgiu como a forma vencedora de decompor a maioria dos sons, com base nas avaliações dos ouvintes. Somente quando há um forte vibrato em um som musical, como em uma voz cantada ou no violino, todos os métodos de decomposição lutam e, nesses casos, alguns métodos anteriores são superiores.
Um caso de uso de teste para o novo método de decomposição é a modificação da escala de tempo do som, especialmente a desaceleração da música. Isso foi testado em um teste de escuta preferencial contra o método anterior do próprio laboratório, que foi selecionado como a melhor técnica acadêmica em um estudo comparativo alguns anos atrás. Mais uma vez, o novo método de Fierro foi um vencedor claro.
‘O novo método de decomposição de som abre muitas possibilidades interessantes no processamento de som’, diz o professor Välimäki. ‘A desaceleração do som é atualmente nosso principal interesse. É impressionante que, por exemplo, no noticiário esportivo, os vídeos em câmera lenta sejam sempre mudos. O motivo provavelmente é que a qualidade do som nas ferramentas de áudio de desaceleração atuais não é boa o suficiente. Já começamos a desenvolver melhores métodos de modificação de escala de tempo, que usam uma rede neural profunda para ajudar a estender alguns componentes.’
A decomposição de som de alta qualidade também permite novos tipos de técnicas de remixagem de música. Um deles leva à compressão de faixa dinâmica sem distorção. Ou seja, o componente transiente geralmente contém os picos mais altos na forma de onda do som, portanto, simplesmente reduzir o nível do componente transiente e mixá-lo de volta com os outros pode limitar o valor pico a pico do áudio.
Leonardo Fierro demonstra como o aplicativo “SiTraNo” pode ser usado para quebrar o som em seus átomos – neste caso, ele mesmo fazendo rap, neste vídeo: https://youtu.be/nZldIAYzzOs
.