.

No domingo, um usuário do Reddit chamado “Ugleh” postou uma imagem gerada por IA de uma vila medieval em forma de espiral que rapidamente ganhou atenção nas redes sociais por suas notáveis qualidades geométricas. As postagens de acompanhamento receberam ainda mais elogios, incluindo um tweet com mais de 145.000 curtidas. Ugleh criou as imagens usando Difusão Estável e uma técnica de orientação chamada ControlNet.
As reações às obras de arte on-line variaram de admiração e espanto ao respeito pelo desenvolvimento de algo novo na arte generativa de IA. “Nunca vi fotos como esta. Algo novo no mundo da arte”, escreveu um usuário X. “Para ser honesto, eu vi MUITA arte de IA, estou neste espaço há muito tempo, e esta é uma das peças mais incríveis que já vi. Você se saiu tão bem”, escreveu a artista de IA Kali Yuga no X .
Talvez mais notavelmente, o cofundador do Y-Combinator e frequente comentarista de tecnologia de mídia social, Paul Graham, escreveu: “Este foi o ponto em que a arte gerada por IA passou no Teste de Turing para mim”. Embora Graham se referisse ao Teste de Turing (que pretende testar se o comportamento de uma máquina é indistinguível do humano) como uma metáfora e não literalmente, ele ficou claramente impressionado.
Nem todo mundo ficou impressionado, é claro, com alguns usuários do X tentando separar os elementos de composição da vila espiral gerada por IA. “É bom, mas há muitas decisões que um ser humano não tomaria”, escreveu um designer gráfico chamado Trent. “Muitas sombras não estão corretas e colocar chaminés logo acima das janelas não faz sentido. Aumentar o zoom também mostra os padrões de ruído reveladores da arte da IA.”
Em junho, cobrimos uma técnica que usava o modelo de síntese de imagem de IA Stable Diffusion e ControlNet para criar códigos QR que parecem obras de arte ricas, incluindo arte inspirada em anime. Ugleh pegou a mesma rede neural otimizada para criar esses códigos QR (que são formas geométricas) e inseriu nela imagens simples de espirais e padrões de tabuleiro de xadrez.
Quando guiado pelo prompt, “Cenário de vila medieval com ruas movimentadas e castelo ao longe (obra-prima: 1.4), (melhor qualidade), (detalhado)“O ControlNet renderizou cenas onde os elementos artísticos das imagens correspondem às formas perceptivas de espirais e tabuleiros de xadrez. Em uma imagem, as nuvens formam um arco acima e as pessoas ficam em uma curva suave para combinar com a orientação espiral. Em outra, quadrados de nuvens, sebes, rostos de edifícios e uma carroça compõem uma cena em formato de tabuleiro de xadrez.
A magia do ControlNet
Então, como isso funciona? Já cobrimos a Difusão Estável com frequência antes. É um modelo de rede neural treinado em milhões de imagens extraídas da Internet. Mas a chave aqui é ControlNet, que apareceu pela primeira vez em um artigo de pesquisa intitulado “Adding Conditional Control to Text-to-Image Diffusion Models” de Lvmin Zhang, Anyi Rao e Maneesh Agrawala em fevereiro de 2023, e rapidamente se tornou popular no Stable Diffusion. comunidade.
Normalmente, uma imagem de difusão estável é criada usando um prompt de texto (chamado text2image) ou um prompt de imagem (img2img). O ControlNet apresenta orientação adicional que pode assumir a forma de informações extraídas de uma imagem de origem, incluindo detecção de pose, mapeamento de profundidade, mapeamento normal, detecção de bordas e muito mais. Usando o ControlNet, alguém que gera arte de IA pode replicar com muito mais precisão a forma ou pose de um objeto em uma imagem.
-
Uma captura de tela do processo ControlNet de Ugleh, usado para criar algumas das imagens.
Ugleh
-
O padrão espiral usado para guiar a ControlNet na criação da vila medieval.
Ugleh
-
O padrão xadrez usado para criar alguns dos trabalhos de Ugleh.
Ugleh
Usando ControlNet e prompts semelhantes, é fácil replicar o trabalho de Ugleh, e outros fizeram isso com efeitos divertidos, incluindo personagens de anime xadrez, uma animação, “cabra” de vila medieval (surpreendentemente segura para o trabalho) e uma versão de vila medieval de “Garota com Brinco de Pérola.”
Apesar da enorme atenção e de muitas ofertas para transformar a arte em NFTs, Ugleh optou por manter a discrição por enquanto. No X, ele disse: “Agradeço todo o feedback positivo em relação à arte de IA, não pretendo ganhar dinheiro com minhas últimas gerações e não farei nenhuma entrevista oficial. Sou apenas um nerd normal de IA com experiência em tecnologia que experimentou uma nova técnica ControlNet.”
Se você quiser experimentar o ControlNet, este site tem um bom tutorial. Além disso, Ugleh postou um fluxo de trabalho passo a passo, incluindo os arquivos de modelo em espiral e tabuleiro de xadrez, no Imgur.
Embora a obra de arte seja notável, a atual política de direitos autorais dos EUA sugere que as imagens não atendem aos padrões para receber proteção de direitos autorais, portanto, podem ser de domínio público. Embora as obras de arte geradas pela IA ainda sejam um assunto controverso para muitos por motivos éticos e legais, os entusiastas criativos continuam a ultrapassar os limites do que é possível para um profissional não qualificado ou sem formação utilizar estas novas ferramentas. Ainda é incerto se ou como a lei algum dia reconhecerá a necessária centelha humana de inspiração que torna possíveis trabalhos como estes.
.