.
Em janeiro de 2023, o Google anunciou o MusicLM, uma ferramenta experimental de IA que pode gerar música com base em descrições de texto. Juntamente com a notícia, o Google lançou um trabalho de pesquisa impressionante para MusicLM que deixou muitas pessoas deslumbradas com a capacidade de conjurar música do nada.
Dado um prompt de texto, o modelo prometia produzir música de alta fidelidade que entregasse todos os tipos de descrições, de gênero a instrumento, a legendas abstratas que descrevem obras de arte famosas. Agora que o MusicLM está aberto ao público, decidimos colocá-lo à prova.
A tentativa do Google de criar um gerador de música AI
Transformar um prompt de texto como “jazz relaxante” em uma faixa pronta para tocar é sem dúvida o santo graal dos experimentos em música de IA. Semelhante aos famosos geradores de imagem AI como Dall-E ou Midjourney, você não precisa ter um pingo de know-how musical para produzir uma faixa que tenha uma melodia e uma batida.
Em maio de 2023, aqueles que se inscreveram no AI Test Kitchen do Google puderam experimentar a demonstração pela primeira vez. Saudado por uma página da web amigável e algumas regras de orientação – instrumentos eletrônicos e clássicos funcionam melhor e não se esqueça de especificar uma “vibração” – produzir um trecho de música é inimaginavelmente fácil.
A velocidade é uma das poucas coisas que o MusicLM realmente oferece, juntamente com amostras de fidelidade relativamente alta. No entanto, o verdadeiro teste não deveria ser medido apenas com um cronômetro. O MusicLM pode produzir música real e audível com base em algumas palavras? Não exatamente (chegaremos a isso em breve).
Como usar o MusicLM na cozinha de teste de IA do Google
Usar o MusicLM é fácil, você pode se inscrever na lista de espera do AI Test Kitchen do Google se quiser tentar.
No aplicativo da web, você verá uma caixa de texto onde poderá compor um prompt de algumas palavras a algumas frases descrevendo o tipo de música que deseja ouvir. Para obter os melhores resultados, o Google aconselha você a “ser muito descritivo”, acrescentando que você deve tentar incluir o clima e a emoção da música.
Quando estiver pronto, pressione Enter para iniciar o processamento. Dentro de cerca de 30 segundos, dois trechos de áudio estarão disponíveis para você ouvir. Dos dois, você tem a opção de conceder um troféu à melhor amostra que corresponde ao seu prompt, o que, por sua vez, ajuda o Google a treinar o modelo e melhorar sua saída.
Como o MusicLM soa
Os humanos fazem música desde pelo menos 40.000 anos atrás, sem nenhuma ideia definitiva se a música veio antes, depois ou ao mesmo tempo que o desenvolvimento da linguagem. Então, de certa forma, não é surpreendente que o MusicLM não tenha decifrado o código dessa antiga arte universal.
O trabalho de pesquisa MusicLM do Google sugeriu que o MusicLM poderia gerar música a partir de legendas pertencentes a obras de arte famosas e seguir instruções como mudar de gênero ou humor de maneira suave, seguindo uma sequência de diferentes prompts.
Antes de chegar a tais pedidos altos, no entanto, descobrimos que o MusicLM tinha vários problemas fundamentais a serem superados primeiro.
Dificuldade em manter o ritmo
O trabalho mais básico de qualquer músico é simplesmente tocar no tempo. Em outras palavras, atenha-se ao ritmo. Surpreendentemente, isso não é algo que o MusicLM pode fazer 100% do tempo.
Na verdade, usando o mesmo prompt 10 vezes, que produz 20 faixas musicais, apenas três chegaram a tempo. As 17 amostras restantes foram mais rápidas ou mais lentas do que o andamento especificado, que foi escrito em “batidas por minuto”, um termo amplamente usado para descrever a música.
Neste exemplo, usamos o prompt “piano clássico solo tocado a 80 batidas por minuto, tranquilo e meditativo”. Ao ouvir mais de perto, a música geralmente acelerava ou desacelerava dentro do pequeno comprimento da amostra.
A música também carecia de uma batida forte e soava como se alguém tivesse tocado no meio da peça. Quer isso tenha sido intencional ou não, torna-se difícil julgar se o MusicLM pode realmente compor um começo ou fim adequado para uma peça musical, além de seguir o ritmo.
Seleção Aleatória de Instrumentos
Talvez o MusicLM ainda não tivesse aprendido a tocar no tempo certo, então passamos para outro parâmetro musical comum. Queríamos ver se isso atenderia nosso pedido de determinados instrumentos.
Escrevemos vários prompts diferentes que incluíam descrições como “Sintetizador solo” e “Baixo solo”. Outros eram conjuntos maiores como “String quartet” ou “Jazz band”. No geral, parecia uma chance de 50% de você conseguir o que pediu.
Uma teoria é que o modelo associa alguns instrumentos a gêneros musicais populares. Veja, por exemplo, o prompt “Sintetizador solo, progressão de acordes. Animado e otimista”. Em vez de obter um som de sintetizador por conta própria, o MusicLM produziu uma faixa eletrônica completa com bateria e baixo.
É possível que o modelo simplesmente não tenha dados e treinamento suficientes para entender a solicitação específica de um instrumento.
Vocais estão fora da equação
Pelas restrições da época, a modelo não produziria músicas com vocais. Os espinhosos problemas de direitos autorais do MusicLM e os vocais com bugs são um fator provável para o Google optar por jogar com segurança ao definir essa limitação.
Mas depois de experimentar o MusicLM por algum tempo, percebemos que o controle do Google sobre a saída do modelo não era exatamente rígido. Estranhamente, um prompt como “violão” produziria uma faixa que continha vocais fantasmagóricos no fundo que soavam abafados e distantes.
Embora isso não seja uma ocorrência comum, isso deixa você se perguntando sobre a capacidade do MusicLM de criar vocais convincentes em primeiro lugar.
Com software como o VOCALOID e o Synthesizer V liderando o caminho na tecnologia de síntese vocal assistida por IA, omitir os vocais do modelo atual nos deixa imaginando se ainda não é bom o suficiente para competir com a tecnologia existente. O MusicLM pode muito bem ter um longo caminho a percorrer antes que os músicos cantem seus louvores.
O futuro dos geradores de música AI
Embora o MusicLM tenha avançado com a tecnologia de música de IA generativa, ele precisa voltar para a escola e aprender mais algumas coisas antes de poder assumir o trabalho prático na indústria da música.
Até agora, a melhor tentativa de música de IA generativa era um modelo chamado JukeboxAI da OpenAI. Não estava exatamente pronto para uso e demorou nove horas para renderizar apenas um minuto de música.
Por seus esforços, era provável que você recuperasse uma faixa com som verdadeiramente alienígena repleta de distorções de áudio e artefatos. Por outro lado, você não ficaria entediado ouvindo as criações bizarras que o Jukebox evoca.
Diante disso, o MusicLM fez alguns avanços significativos em direção a um gerador de música AI fácil de usar. Quase poderíamos perdoar o modelo por suas saídas aleatórias quando você para para pensar em como é extremamente complicado gerar música em formato de áudio bruto.
Depois de colocar o modelo para funcionar, no entanto, o MusicLM parece incompleto quando comparado ao que o Google publicou em seu trabalho de pesquisa inicial. Raramente um gerador de imagem AI obtém a imagem de um Apple errado, da mesma forma que um gerador de música AI deve acertar alguns princípios básicos, como tempo e instrumentos.
MusicLM do Google fica aquém das expectativas
Com as empresas de tecnologia correndo para competir umas com as outras na frente da IA, o MusicLM sente como se tivesse entrado em testes públicos antes de estar pronto. Em vez de acertar os fundamentos, o modelo parece adotar uma abordagem muito mais vaga e subjetiva para produzir música.
O Google pode encorajá-lo a ser específico com seu prompt, mas não consegue lidar bem com o andamento e não há garantia de obter os instrumentos solicitados todas as vezes. O MusicLM pode ser interessante e uma boa demonstração dos poderosos avanços da IA, mas se a música é o objetivo final, ainda há um longo caminho a percorrer.
.








