.

Difusão estável
Na quarta-feira, a Stability AI lançou o Stable Diffusion XL 1.0 (SDXL), seu modelo de síntese de imagem AI de pesos abertos de última geração. Ele pode gerar novas imagens a partir de descrições de texto e produzir mais detalhes e imagens de alta resolução do que as versões anteriores do Stable Diffusion.
Tal como acontece com o Stable Diffusion 1.4, que fez sucesso em agosto passado com um lançamento de código aberto, qualquer pessoa com o hardware adequado e conhecimento técnico pode baixar os arquivos SDXL e executar o modelo localmente em sua própria máquina gratuitamente.
A operação local significa que não há necessidade de pagar pelo acesso ao modelo SDXL, há poucas preocupações de censura e os arquivos de pesos (que contêm os dados de rede neutros que fazem o modelo funcionar) podem ser ajustados para gerar tipos específicos de imagens por amadores no futuro.
Por exemplo, com Stable Diffusion 1.5, o modelo padrão (treinado em um fragmento de imagens baixadas da Internet) pode gerar um amplo escopo de imagens, mas não funciona tão bem com assuntos de nicho. Para compensar isso, os amadores ajustaram o SD 1.5 em modelos personalizados (e mais tarde, modelos LoRA) que melhoraram a capacidade do Stable Diffusion de gerar certa estética, incluindo arte no estilo Disney, arte de anime, paisagens, pornografia sob medida, imagens de atores famosos ou personagens e muito mais. A Stability AI espera que a tendência de desenvolvimento orientada pela comunidade continue com o SDXL, permitindo que as pessoas estendam seus recursos de renderização muito além do modelo básico.
Atualizações sob o capô
Como outros geradores de imagem de difusão latente, o SDXL começa com ruído aleatório e “reconhece” imagens no ruído com base na orientação de um prompt de texto, refinando a imagem passo a passo. Mas o SDXL utiliza um “backbone UNet três vezes maior”, de acordo com a Stability, com mais parâmetros de modelo para realizar seus truques do que os modelos Stable Diffusion anteriores. Em linguagem simples, isso significa que a arquitetura SDXL faz mais processamento para obter a imagem resultante.
Para gerar imagens, o SDXL utiliza uma arquitetura de “conjunto de especialistas” que orienta um processo de difusão latente. Conjunto de especialistas refere-se a uma metodologia em que um único modelo inicial é treinado e depois dividido em modelos especializados que são treinados especificamente para diferentes estágios do processo de geração, o que melhora a qualidade da imagem. Nesse caso, há um modelo SDXL básico e um modelo “refinador” opcional que pode ser executado após a geração inicial para melhorar a aparência das imagens.

Notavelmente, o SDXL também usa dois codificadores de texto diferentes que dão sentido ao prompt escrito, ajudando a identificar imagens associadas codificadas nos pesos do modelo. Os usuários podem fornecer um prompt diferente para cada codificador, resultando em novas combinações de conceitos de alta qualidade. No Twitter, Xander Steenbrugge mostrou um exemplo de um elefante combinado e um polvo usando esta técnica.
E há melhorias nos detalhes e no tamanho da imagem. Enquanto o Stable Diffusion 1.5 foi treinado em imagens de 512 × 512 pixels (tornando esse o tamanho de imagem de geração ideal, mas faltando detalhes para pequenos recursos), o Stable Diffusion 2.x aumentou para 768 × 768. Agora, a Stability AI recomenda a geração de imagens de 1024 × 1024 pixels com Stable Diffusion XL, resultando em mais detalhes do que uma imagem de tamanho semelhante gerada pelo SD 1.5.
.








