O novo gerador de imagens de IA da OpenAI ultrapassa os limites em detalhes e solicita fidelidade

Uma série de imagens geradas usando o modelo de síntese de imagens DALL-E 3 da OpenAI.

Na quarta-feira, a OpenAI anunciou o DALL-E 3, a versão mais recente de seu modelo de síntese de imagens de IA que apresenta integração total com ChatGPT. O DALL-E 3 renderiza imagens seguindo de perto descrições complexas e lidando com a geração de texto na imagem (como etiquetas e sinais), o que desafiava os modelos anteriores. Atualmente em visualização de pesquisa, estará disponível para clientes ChatGPT Plus e Enterprise no início de outubro.

Como seu antecessor, o DALLE-3 é um gerador de texto para imagem que cria novas imagens com base em descrições escritas chamadas prompts. Embora a OpenAI não tenha divulgado detalhes técnicos sobre o DALL-E 3, o modelo de IA no centro das versões anteriores do DALL-E foi treinado em milhões de imagens criadas por artistas e fotógrafos humanos, algumas delas licenciadas de sites de ações como o Shutterstock. É provável que o DALL-E 3 siga a mesma fórmula, mas com novas técnicas de treinamento e mais tempo de treinamento computacional.

A julgar pelos exemplos fornecidos pela OpenAI em seu blog promocional, o DALL-E 3 parece ser um modelo de síntese de imagem radicalmente mais capaz do que qualquer outro disponível em termos de seguir instruções. Embora os exemplos do OpenAI tenham sido escolhidos a dedo por sua eficácia, eles parecem seguir as instruções imediatas de maneira fiel e convincente para renderizar objetos com deformações mínimas. Comparado ao DALL-E 2, o OpenAI diz que o DALL-E 3 refina pequenos detalhes, como mãos, de forma mais eficaz, criando imagens envolventes por padrão, “sem necessidade de hacks ou engenharia imediata”.

Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Uma ilustração de um abacate sentado na cadeira de um terapeuta, dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de um caroço no centro. O terapeuta, uma colher, rabisca notas.”

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com a sugestão: “Uma vasta paisagem feita inteiramente de várias carnes se espalha diante do espectador. Colinas tenras e suculentas de rosbife, coxinhas de frango, rios de bacon e pedras de presunto criam um ambiente surreal, cena ainda apetitosa. o céu está adornado com sol de calabresa e nuvens de salame.

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Um diorama de minimapa de um café adornado com plantas de interior. Vigas de madeira se cruzam acima, e uma estação de cerveja gelada se destaca com pequenas garrafas e copos.”

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Fotografia em close de um caranguejo eremita aninhado na areia molhada, com espuma do mar próxima e os detalhes de sua concha e textura da areia acentuados.”

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Uma arte artesanal em papel representando uma garota dando um abraço gentil em seu gato. Ambos estão sentados entre vasos de plantas, com o gato ronronando contente enquanto a garota sorri. A cena é adornada com artesanato flores e folhas de papel.”

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Cena de pixel art da Coit Tower erguida no Telegraph Hill, com uma vista panorâmica da cidade abaixo e pássaros voando ao redor.”

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com a mensagem: “Pequenos reis da batata usando coroas majestosas, sentados em tronos, supervisionando seu vasto reino da batata cheio de súditos e castelos de batata.”

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Uma ilustração de um coração humano feito de vidro translúcido, em pé sobre um pedestal em meio a um mar tempestuoso. Raios de luz solar perfuram as nuvens, iluminando o coração, revelando um pequeno universo dentro . A citação ‘Encontre o universo dentro de você’ está gravada em negrito no horizonte.

OpenAI
Uma imagem DALL-E 3 fornecida pela OpenAI com a mensagem: “Uma mulher de meia-idade de ascendência asiática, com cabelos escuros com mechas prateadas, parece fraturada e lascada, intrinsecamente incrustada em um mar de porcelana quebrada. A porcelana brilha com respingos de tinta padrões em uma mistura harmoniosa de azuis, verdes, laranjas e vermelhos brilhantes e foscos, capturando sua dança em uma justaposição surreal de movimento e quietude. Seu tom de pele, um tom claro como a porcelana, adiciona uma qualidade quase mística à sua forma. ”

OpenAI

Em comparação, Midjourney, um modelo concorrente de síntese de imagem de IA de outro fornecedor, renderiza bem detalhes fotorrealistas, mas ainda requer muitos ajustes contra-intuitivos com prompts para obter qualquer controle sobre a saída da imagem.

O DALL-E 3 também parece lidar com texto dentro de imagens de uma forma que seu antecessor não conseguia (alguns modelos concorrentes como Stable Diffusion XL e DeepFloyd estão cada vez melhores nisso). Por exemplo, um prompt que incluía as palavras “Uma ilustração de um abacate sentado na cadeira de um terapeuta, dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de um caroço no centro”, criou um abacate de desenho animado com a citação do personagem perfeitamente encapsulado em um balão de fala.

Notavelmente, a OpenAI afirma que o DALL-E 3 foi “construído nativamente” no ChatGPT e chegará como um recurso integrado do ChatGPT Plus, permitindo refinamentos de conversação nas imagens de uma forma que usará o assistente de IA como parceiro de brainstorming. Isso também significa que o ChatGPT será capaz de gerar imagens com base no contexto da conversa atual, o que pode levar a novos recursos. O assistente Bing Chat AI da Microsoft, também baseado na tecnologia OpenAI, é capaz de gerar imagens em conversas desde março.

Akanesetembro 21, 2023

0 4 minutos de leitura

Mostrar mais

Ler o Próximo

O novo gerador de imagens de IA da OpenAI ultrapassa os limites em detalhes e solicita fidelidade

Akane

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Deixe um comentário Cancelar resposta

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA