.

Na quarta-feira, a OpenAI anunciou o DALL-E 3, a versão mais recente de seu modelo de síntese de imagens de IA que apresenta integração total com ChatGPT. O DALL-E 3 renderiza imagens seguindo de perto descrições complexas e lidando com a geração de texto na imagem (como etiquetas e sinais), o que desafiava os modelos anteriores. Atualmente em visualização de pesquisa, estará disponível para clientes ChatGPT Plus e Enterprise no início de outubro.
Como seu antecessor, o DALLE-3 é um gerador de texto para imagem que cria novas imagens com base em descrições escritas chamadas prompts. Embora a OpenAI não tenha divulgado detalhes técnicos sobre o DALL-E 3, o modelo de IA no centro das versões anteriores do DALL-E foi treinado em milhões de imagens criadas por artistas e fotógrafos humanos, algumas delas licenciadas de sites de ações como o Shutterstock. É provável que o DALL-E 3 siga a mesma fórmula, mas com novas técnicas de treinamento e mais tempo de treinamento computacional.
A julgar pelos exemplos fornecidos pela OpenAI em seu blog promocional, o DALL-E 3 parece ser um modelo de síntese de imagem radicalmente mais capaz do que qualquer outro disponível em termos de seguir instruções. Embora os exemplos do OpenAI tenham sido escolhidos a dedo por sua eficácia, eles parecem seguir as instruções imediatas de maneira fiel e convincente para renderizar objetos com deformações mínimas. Comparado ao DALL-E 2, o OpenAI diz que o DALL-E 3 refina pequenos detalhes, como mãos, de forma mais eficaz, criando imagens envolventes por padrão, “sem necessidade de hacks ou engenharia imediata”.
-
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Uma ilustração de um abacate sentado na cadeira de um terapeuta, dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de um caroço no centro. O terapeuta, uma colher, rabisca notas.”
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com a sugestão: “Uma vasta paisagem feita inteiramente de várias carnes se espalha diante do espectador. Colinas tenras e suculentas de rosbife, coxinhas de frango, rios de bacon e pedras de presunto criam um ambiente surreal, cena ainda apetitosa. o céu está adornado com sol de calabresa e nuvens de salame.
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Um diorama de minimapa de um café adornado com plantas de interior. Vigas de madeira se cruzam acima, e uma estação de cerveja gelada se destaca com pequenas garrafas e copos.”
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Fotografia em close de um caranguejo eremita aninhado na areia molhada, com espuma do mar próxima e os detalhes de sua concha e textura da areia acentuados.”
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Uma arte artesanal em papel representando uma garota dando um abraço gentil em seu gato. Ambos estão sentados entre vasos de plantas, com o gato ronronando contente enquanto a garota sorri. A cena é adornada com artesanato flores e folhas de papel.”
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Cena de pixel art da Coit Tower erguida no Telegraph Hill, com uma vista panorâmica da cidade abaixo e pássaros voando ao redor.”
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com a mensagem: “Pequenos reis da batata usando coroas majestosas, sentados em tronos, supervisionando seu vasto reino da batata cheio de súditos e castelos de batata.”
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Uma ilustração de um coração humano feito de vidro translúcido, em pé sobre um pedestal em meio a um mar tempestuoso. Raios de luz solar perfuram as nuvens, iluminando o coração, revelando um pequeno universo dentro . A citação ‘Encontre o universo dentro de você’ está gravada em negrito no horizonte.
OpenAI
-
Uma imagem DALL-E 3 fornecida pela OpenAI com a mensagem: “Uma mulher de meia-idade de ascendência asiática, com cabelos escuros com mechas prateadas, parece fraturada e lascada, intrinsecamente incrustada em um mar de porcelana quebrada. A porcelana brilha com respingos de tinta padrões em uma mistura harmoniosa de azuis, verdes, laranjas e vermelhos brilhantes e foscos, capturando sua dança em uma justaposição surreal de movimento e quietude. Seu tom de pele, um tom claro como a porcelana, adiciona uma qualidade quase mística à sua forma. ”
OpenAI
Em comparação, Midjourney, um modelo concorrente de síntese de imagem de IA de outro fornecedor, renderiza bem detalhes fotorrealistas, mas ainda requer muitos ajustes contra-intuitivos com prompts para obter qualquer controle sobre a saída da imagem.
O DALL-E 3 também parece lidar com texto dentro de imagens de uma forma que seu antecessor não conseguia (alguns modelos concorrentes como Stable Diffusion XL e DeepFloyd estão cada vez melhores nisso). Por exemplo, um prompt que incluía as palavras “Uma ilustração de um abacate sentado na cadeira de um terapeuta, dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de um caroço no centro”, criou um abacate de desenho animado com a citação do personagem perfeitamente encapsulado em um balão de fala.
Notavelmente, a OpenAI afirma que o DALL-E 3 foi “construído nativamente” no ChatGPT e chegará como um recurso integrado do ChatGPT Plus, permitindo refinamentos de conversação nas imagens de uma forma que usará o assistente de IA como parceiro de brainstorming. Isso também significa que o ChatGPT será capaz de gerar imagens com base no contexto da conversa atual, o que pode levar a novos recursos. O assistente Bing Chat AI da Microsoft, também baseado na tecnologia OpenAI, é capaz de gerar imagens em conversas desde março.
.