technology

Codec de áudio com inteligência artificial da Meta promete compressão de 10x em MP3

.

Uma representação ilustrada de dados em uma onda de áudio.
Prolongar / Uma representação ilustrada de dados em uma onda de áudio.

Meta AI

Na semana passada, a Meta anunciou um método de compactação de áudio com inteligência artificial chamado “EnCodec”, que pode compactar áudio 10 vezes menor que o formato MP3 a 64kbps sem perda de qualidade. Meta diz que essa técnica pode melhorar drasticamente a qualidade do som da fala em conexões de baixa largura de banda, como chamadas telefônicas em áreas com serviço irregular. A técnica também funciona para a música.

A Meta estreou a tecnologia em 25 de outubro em um artigo intitulado “High Fidelity Neural Audio Compression”, de autoria dos pesquisadores da Meta AI Alexandre Défossez, Jade Copet, Gabriel Synnaeve e Yossi Adi. A Meta também resumiu a pesquisa em seu blog dedicado ao EnCodec.

A Meta afirma que seu novo codificador/decodificador de áudio pode compactar áudio 10x menor que o MP3.
Prolongar / A Meta afirma que seu novo codificador/decodificador de áudio pode compactar áudio 10x menor que o MP3.

Meta AI

Meta descreve seu método como um sistema de três partes treinado para compactar áudio para um tamanho de destino desejado. Primeiro, o codificador transforma dados não compactados em uma representação de “espaço latente” de taxa de quadros mais baixa. O “quantizador” então comprime a representação para o tamanho do alvo enquanto mantém o controle das informações mais importantes que serão usadas posteriormente para reconstruir o sinal original. (Esse sinal compactado é o que é enviado através de uma rede ou salvo em disco.) Finalmente, o decodificador transforma os dados compactados de volta em áudio em tempo real usando uma rede neural em uma única CPU.

Um diagrama de blocos que ilustra como funciona a compactação EnCodec do Meta.
Prolongar / Um diagrama de blocos que ilustra como funciona a compactação EnCodec do Meta.

Meta AI

O uso de discriminadores do Meta prova a chave para criar um método para compactar o áudio o máximo possível sem perder os principais elementos de um sinal que o tornam distinto e reconhecível:

“A chave para a compressão com perdas é identificar mudanças que não serão perceptíveis por humanos, já que a reconstrução perfeita é impossível em baixas taxas de bits. Para isso, usamos discriminadores para melhorar a qualidade perceptiva das amostras geradas. jogo e-mouse onde o trabalho do discriminador é diferenciar entre amostras reais e amostras reconstruídas. O modelo de compressão tenta gerar amostras para enganar os discriminadores, empurrando as amostras reconstruídas para serem mais perceptivelmente semelhantes às amostras originais.”

Vale a pena notar que o uso de uma rede neural para compactação e descompactação de áudio está longe de ser novo – especialmente para compactação de fala – mas os pesquisadores da Meta afirmam que são o primeiro grupo a aplicar a tecnologia a áudio estéreo de 48 kHz (um pouco melhor que a taxa de amostragem de 44,1 kHz do CD ), o que é típico para arquivos de música distribuídos na Internet.

Quanto aos aplicativos, Meta diz que essa “hipercompressão de áudio” com inteligência artificial pode suportar “chamadas mais rápidas e de melhor qualidade” em condições de rede ruins. E, é claro, sendo Meta, os pesquisadores também mencionam as implicações do metaverso do EnCodec, dizendo que a tecnologia poderia eventualmente fornecer “experiências ricas do metaverso sem exigir grandes melhorias na largura de banda”.

Além disso, talvez também consigamos pequenos arquivos de áudio de música algum dia. Por enquanto, a nova tecnologia da Meta permanece em fase de pesquisa, mas aponta para um futuro em que áudio de alta qualidade pode usar menos largura de banda, o que seria uma ótima notícia para provedores de banda larga móvel com redes sobrecarregadas de mídia de streaming.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo