.
os vídeos curtos dar a impressão de um flipbook, saltando trêmulo de um quadro surreal para o outro. Eles são o resultado de criadores de memes da Internet brincando com os primeiros geradores de IA de texto para vídeo amplamente disponíveis e retratam cenários impossíveis como Dwayne “The Rock” Johnson comendo pedras e o presidente francês Emmanuel Macron vasculhando e mastigando lixo, ou versões distorcidas do mundano, como Paris Hilton tirando uma selfie.
Essa nova onda de vídeos gerados por IA tem ecos definidos do Dall-E, que varreu a internet no verão passado quando realizou o mesmo truque com imagens estáticas. Menos de um ano depois, essas imagens instáveis de Dall-E são quase indistinguíveis da realidade, levantando duas questões: o vídeo gerado por IA avançará tão rapidamente e terá um lugar em Hollywood?
O ModelScope, um gerador de vídeo hospedado pela empresa de IA Hugging Face, permite que as pessoas digitem algumas palavras e recebam um vídeo surpreendente e instável em troca. A Runway, a empresa de IA que co-criou o gerador de imagens Stable Diffusion, anunciou um gerador de texto para vídeo no final de março, mas não o disponibilizou amplamente ao público. E o Google e o Meta anunciaram que estavam trabalhando na tecnologia de texto para vídeo no outono de 2022.
No momento, são vídeos chocantes de celebridades ou um ursinho de pelúcia pintando um auto-retrato. Mas, no futuro, o papel da IA no cinema pode evoluir para além do meme viral, permitindo que a tecnologia ajude a lançar filmes, modelar cenas antes de serem filmadas e até trocar atores dentro e fora das cenas. A tecnologia está avançando rapidamente e provavelmente levará anos até que esses geradores possam, digamos, produzir um curta-metragem inteiro baseado em prompts, se alguma vez conseguirem. Ainda assim, o potencial da IA no entretenimento é enorme.
“Da maneira como a Netflix interrompeu como e onde assistimos ao conteúdo, acho que a IA terá uma interrupção ainda maior na criação real desse conteúdo em si”, diz Sinead Bovell, futurista e fundador da empresa de educação em tecnologia WAYE.
Mas isso não significa que a IA substituirá totalmente escritores, diretores e atores em breve. E alguns obstáculos técnicos consideráveis permanecem. Os vídeos parecem nervosos porque os modelos AI ainda não conseguem manter a coerência total de quadro a quadro, o que é necessário para suavizar os visuais. Fazer um conteúdo que dure mais do que alguns segundos fascinantes e grotescos e mantenha sua consistência exigirá mais poder de computador e dados, o que significa grandes investimentos no desenvolvimento da tecnologia. “Você não pode ampliar facilmente esses modelos de imagem”, diz Bharath Hariharan, professor de ciência da computação na Cornell University.
Mas, mesmo que pareçam rudimentares, a progressão desses geradores está avançando “muito, muito rápido”, diz Jiasen Lu, cientista pesquisador do Allen Institute of Artificial Intelligence, uma organização de pesquisa fundada pelo falecido cofundador da Microsoft, Paul Allen.
A velocidade do progresso é resultado de novos desenvolvimentos que fortaleceram os geradores. ModelScope é treinado em dados de texto e imagem, como os geradores de imagem são, e também alimentados com vídeos que mostram o modelo como o movimento deve olha, diz Apolinário Passos, engenheiro de arte de aprendizado de máquina da Hugging Face. É a tática que também está sendo usada pela Meta. Ele remove o fardo de anotar vídeos ou rotulá-los com descritores de texto, o que simplifica o processo e deu início ao rápido desenvolvimento da tecnologia.
.