OpenAI adicionou uma nova função “outpainting” ao seu modelo de IA de texto para imagem DALL-E que permite que o sistema gere novos visuais que expandem as bordas de qualquer imagem.
No exemplo acima, você pode ver como DALL-E, com a ajuda de estímulo humano, “imagina” o que está fora do quadro do retrato de Johannes Vermeer “Garota com Brinco de Pérola”. Observe como, mesmo a partir das informações limitadas fornecidas pelo retrato, o sistema é capaz de combinar com o estilo de Vermeer, imitando as sombras e destaques do original.
No timelapse abaixo, você também pode ver como o artista responsável, August Kamp, teve que expandir a imagem em pequenas seções de cada vez, muitas vezes refazendo as gerações de DALL-E para obter o resultado ela queria. Não visto neste vídeo, mas definitivamente digno de destaque, é o fato de que o sistema não está gerando essas extensões sozinho. Tal como acontece com toda IA de texto para imagem, o modelo exige que os humanos descrevam os novos visuais.
Outpainting como uma função pode ser usada para expandir o conteúdo original, mas é claro que muitos usuários do DALL-E têm brincando com o recurso para ver o que está fora do quadro de imagens famosas. (Role para baixo para ver meu exemplo favorito absoluto…)
De uma perspectiva mais ampla, a pintura externa não expande realmente a funcionalidade básica dos sistemas de IA de texto para imagem, mas sim mostrar como a OpenAI provavelmente se posicionará no mercado crescente desses sistemas: tornando a usabilidade um argumento importante para os clientes.
Muitos modelos de IA text-to-image podem executar a mesma função essencial que outpainting, mas, como o próprio DALL-E antes desta atualização, exigia um pouco de manipulação manual. Tornar a pintura externa o mais fácil possível ajudará o DALL-E a se diferenciar da crescente concorrência de sistemas menores, mas comparáveis, como Midjourney e Stable Diffusion.
O próprio DALL-E agora está disponível por meio de um programa beta, com mais de um milhão de usuários atualmente com acesso. Cada usuário beta recebe 50 gerações de imagens gratuitas no primeiro mês e 15 usos adicionais a cada mês depois. Eles podem comprar 115 gerações de imagens extras por US$ 15.
Enquanto isso, porém, pinturas externas podem ser usadas para responder a alguns dos maiores mistérios da vida, como “e se o cara da Quaker Oats fosse um peituda garçonete?” Não se preocupe mais: