technology

Meta lança ferramentas de áudio AI de código aberto, AudioCraft

.

Ilustração Meta AudioCraft

meta

Na quarta-feira, a Meta anunciou que é o AudioCraft de código aberto, um conjunto de ferramentas de IA generativas para criar música e áudio a partir de prompts de texto. Com as ferramentas, os criadores de conteúdo podem inserir descrições de texto simples para gerar cenários de áudio complexos, compor melodias ou até mesmo simular orquestras virtuais inteiras.

O AudioCraft consiste em três componentes principais: AudioGen, uma ferramenta para gerar vários efeitos de áudio e paisagens sonoras; MusicGen, que pode criar composições musicais e melodias a partir de descrições; e EnCodec, um codec de compressão de áudio baseado em rede neural.

Em particular, a Meta diz que o EnCodec, que abordamos pela primeira vez em novembro, foi aprimorado recentemente e permite “geração de música de maior qualidade com menos artefatos”. Além disso, o AudioGen pode criar efeitos sonoros de áudio, como um cachorro latindo, uma buzina de carro ou passos em um piso de madeira. E o MusicGen pode criar músicas de vários gêneros do zero, com base em descrições como “faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeitos para a praia”.

A Meta forneceu várias amostras de áudio em seu site para avaliação. Os resultados parecem estar de acordo com sua rotulagem de última geração, mas sem dúvida eles não são de alta qualidade o suficiente para substituir efeitos de áudio ou música comerciais produzidos profissionalmente.

Meta observa que, embora os modelos de IA generativos centrados em texto e imagens estáticas tenham recebido muita atenção (e sejam relativamente fáceis para as pessoas experimentarem online), o desenvolvimento de ferramentas de áudio generativas ficou para trás. “Existe algum trabalho por aí, mas é altamente complicado e não muito aberto, então as pessoas não conseguem brincar com ele prontamente”, escrevem eles. Mas eles esperam que o lançamento do AudioCraft sob a licença MIT contribua para a comunidade mais ampla, fornecendo ferramentas acessíveis para experimentação musical e de áudio.

“Os modelos estão disponíveis para fins de pesquisa e para aumentar a compreensão das pessoas sobre a tecnologia. Estamos entusiasmados em dar aos pesquisadores e profissionais acesso para que possam treinar seus próprios modelos com seus próprios conjuntos de dados pela primeira vez e ajudar a avançar no estado da arte “, disse Meta.

A Meta não é a primeira empresa a experimentar geradores de áudio e música com inteligência artificial. Entre algumas das tentativas recentes mais notáveis, a OpenAI estreou sua Jukebox em 2020, o Google estreou o MusicLM em janeiro e, em dezembro passado, uma equipe de pesquisa independente criou uma plataforma de geração de texto para música chamada Riffusion usando uma base Stable Diffusion.

Nenhum desses projetos de áudio generativo atraiu tanta atenção quanto os modelos de síntese de imagem, mas isso não significa que o processo de desenvolvê-los não seja menos complicado, como Meta observa em seu site:

A geração de áudio de alta fidelidade de qualquer tipo requer a modelagem de sinais e padrões complexos em escalas variadas. A música é indiscutivelmente o tipo de áudio mais difícil de gerar porque é composta de padrões locais e de longo alcance, de um conjunto de notas a uma estrutura musical global com vários instrumentos. A geração de música coerente com IA tem sido frequentemente abordada por meio do uso de representações simbólicas como MIDI ou rolos de piano. No entanto, essas abordagens são incapazes de apreender totalmente as nuances expressivas e os elementos estilísticos encontrados na música. Alavancagem de avanços mais recentes aprendizagem de representação de áudio auto-supervisionada e vários modelos hierárquicos ou em cascata para gerar música, alimentando o áudio bruto em um sistema complexo para capturar estruturas de longo alcance no sinal enquanto gera áudio de qualidade. Mas sabíamos que mais poderia ser feito neste campo.

Em meio à controvérsia sobre material de treinamento não divulgado e potencialmente antiético usado para criar modelos de síntese de imagem como Stable Diffusion, DALL-E e Midjourney, é notável que a Meta diga que o MusicGen foi treinado em “20.000 horas de música de propriedade da Meta ou licenciada especificamente para este propósito.” Superficialmente, isso parece um movimento em uma direção mais ética que pode agradar a alguns críticos da IA ​​generativa.

Será interessante ver como os desenvolvedores de código aberto escolhem integrar esses modelos de áudio Meta em seu trabalho. Isso pode resultar em algumas ferramentas de áudio generativas interessantes e fáceis de usar em um futuro próximo. Por enquanto, os mais experientes em código entre nós podem encontrar pesos de modelo e código para as três ferramentas AudioCraft no GitHub.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo