Se você comprar algo de um link da Verge, a Vox Media pode ganhar uma comissão. Veja nossa declaração de ética.
A arte gerada por IA está silenciosamente começando a remodelar a cultura. Nos últimos anos, a capacidade dos sistemas de aprendizado de máquina de gerar imagens a partir de prompts de texto aumentou drasticamente em qualidade, precisão e expressão. Agora, essas ferramentas estão saindo dos laboratórios de pesquisa para as mãos de usuários comuns, onde estão criando novas linguagens visuais de expressão e, provavelmente, novos tipos de problemas.
Acredita-se que existam apenas algumas dezenas de IA geradoras de imagens de primeira linha, certo agora. Eles são complicados e caros de criar, exigindo acesso a milhões de imagens usadas para treinar o sistema (ele procura padrões nas imagens e as copia) e muito esforço computacional (cujos custos variam, mas um milhão de dólares preço não está fora de questão).
No momento, a saída desses sistemas é tratada principalmente como novidade quando é espalhada uma capa de revista ou usado para gerar memes. Mas enquanto falamos, artistas e designers estão integrando esse software em seu fluxo de trabalho e, em pouco tempo, a arte gerada e aumentada por IA estará em todos os lugares. Questões sobre direitos autorais (quem é o dono da imagem? Quem a fez?) e sobre perigos potenciais (como saída tendenciosa ou desinformação gerada por IA) terão que ser tratadas rapidamente.
À medida que a tecnologia se popularizar, uma empresa poderá receber algum crédito por sua ascendência: um laboratório de pesquisa de 10 pessoas chamado Midjourney, que faz um gerador de imagens de IA de mesmo nome acessado por meio de um servidor de bate-papo Discord. Embora o nome possa não ser familiar, você provavelmente já viu a saída do sistema do Midjourney flutuando em seus feeds de mídia social. Para gerar o seu próprio, basta entrar no Discord do Midjourney, digitar um prompt e o sistema cria uma imagem para você. “Muitas pessoas nos perguntam, por que você não faz uma Aplicativo para iOS que faz de você uma foto?” O fundador da Midjourney, David Holz, disse
em uma entrevista. “Mas as pessoas querem fazer coisas juntas e, se você faz isso no iOS, precisa criar sua própria rede social. E isso é bem difícil. Então, se você quer sua própria experiência social, o Discord é realmente ótimo.”
Cadastre-se para uma conta gratuita e receba 25 créditos, com todas as imagens geradas em salas de bate-papo públicas. Depois disso, você terá que pagar – $ 10 ou $ 30 por mês, dependendo do número de imagens que você deseja fazer e se elas são ou não privadas para você.
Esta semana, porém, Midjourney está expandindo o acesso ao seu modelo , permitindo que qualquer pessoa crie seu próprio servidor Discord com seu próprio gerador de imagens de IA. “Estamos indo de um universo Midjourney para um multiverso Midjourney ”, como Holz coloca. E ele acha que os resultados serão incríveis: uma explosão de criatividade aumentada por IA que ainda é apenas a ponta do iceberg.
Para saber mais sobre as ambições de Holz com Midjourney – sobre por que ele está construindo um “motor para a imaginação” e por que ele acha que a IA é mais como água do que um tigre – nós o chamamos para uma entrevista. E, claro, conseguimos Midjourney para ilustrar nossa conversa.
Esta entrevista abaixo foi condensada e levemente editada para maior clareza.
Seria ótimo começar com um pouco sobre você e Midjourney. Qual é o seu passado? Como você entrou nessa cena? E o que é Midjourney – uma empresa, uma comunidade? Como você descreveria isso?
Então, meu nome é David Holz, e acho que sou um empreendedor em série. Minha breve história seria: eu tinha um negócio de design no ensino médio. Fui para a faculdade de física em matemática. Eu estava trabalhando em um doutorado em mecânica dos fluidos enquanto trabalhava na NASA e Max Planck. Eu fiquei sobrecarregado em um ponto e coloquei todas essas coisas de lado. Então me mudei para São Francisco e abri uma empresa de tecnologia chamada Leap Motion por volta de 2011. E vendemos esses dispositivos de hardware que fariam captura de movimento em suas mãos, meio que inventando muito espaço de interface gestual.
Fundei a Leap Motion e administrou isso por 12 anos, eventualmente, eu estava procurando um ambiente diferente em vez de uma grande empresa de capital de risco, e saí para começar a Midjourney. No momento, é bem pequeno – somos tipo 10 pessoas, não temos investidores e não estamos realmente motivados financeiramente. Não estamos sob pressão para vender algo ou ser uma empresa pública. Trata-se apenas de ter uma casa pelos próximos 10 anos para trabalhar em projetos legais que importam – espero que não apenas para mim, mas para o mundo – e se divertir.
Estavam trabalhando em muitos projetos diferentes. Será um laboratório de pesquisa amplo e diversificado. Mas há temas: coisas como reflexão, imaginação e coordenação. E o que estamos começando a ficar conhecidos é esse material de criação de imagens. E não achamos que seja realmente sobre arte ou fazer deepfakes, mas – como expandimos os poderes imaginativos da espécie humana? E o que isso significa? O que significa quando os computadores são melhores em imaginação visual do que 99% dos humanos? Isso não significa que vamos parar de imaginar. Os carros são mais rápidos que os humanos, mas isso não significa que paramos de andar. Quando estamos movendo grandes quantidades de coisas por grandes distâncias, precisamos de motores, sejam aviões, barcos ou carros. E vemos essa tecnologia como um motor para a imaginação. Então é uma coisa muito positiva e humanista.
Muitos laboratórios e empresas estão trabalhando em tecnologias semelhantes que transformam texto em imagens. O Google tem
Há um centenas de projetos menores como Craiyon
De onde veio essa tecnologia, para onde você vê isso no futuro e como a visão de Midjourney difere de outras neste espaço?
Então, houve dois avanços [in AI that led to image generation tools]. Uma é a compreensão da linguagem e a outra é a capacidade de criar imagens. E quando você combina essas coisas, você pode criar imagens através da compreensão da linguagem. Vimos essas tecnologias surgindo e vimos as tendências – que elas serão melhores em fazer imagens do que pessoas – e será muito rápido. Dentro de um ou dois anos, você poderá criar conteúdo em tempo real: 30 quadros por segundo, alta resolução. Vai ser caro, mas será possível. Então, em 10 anos, você poderá comprar um Xbox com um processador de IA gigante, e todos os jogos são sonhos.
Do ponto de vista da tecnologia bruta, esses são apenas fatos, e não há como contornar isso. Mas do ponto de vista humano, o que diabos isso significa? “Todos os jogos são sonhos, e tudo é maleável, e teremos fones de ouvido AR” – o que diabos isso significa? Então, o elemento humanístico disso é meio insondável. E o software necessário para realmente fazer disso uma coisa que podemos usar, está completamente fora do mapa, e eu acho que é nosso foco.
Nós começamos começamos a testar a tecnologia bruta em setembro do ano passado, e imediatamente descobrimos coisas realmente diferentes. Descobrimos muito rapidamente que a maioria das pessoas não sabe o que quer. Você diz: “Aqui está uma máquina que você pode imaginar qualquer coisa com ela – o que você quer?” E eles dizem: “cachorro”. E você vai “sério?” e eles vão “cão rosa”. Então você dá a eles uma foto de um cachorro, e eles ficam “bem” e então vão fazer outra coisa.
Ao passo que se você colocá-los em um grupo, eles vão “cachorro” e outra pessoa vai “cachorro espacial” e outra pessoa vai “asteca cão espacial” e, de repente, as pessoas entendem as possibilidades, e você está criando essa imaginação aumentada – um ambiente onde as pessoas podem aprender e brincar com essa nova capacidade. Então descobrimos que as pessoas realmente gostam de imaginar juntas, e então tornamos [Midjourney] social. E temos essa comunidade gigante do Discord, como se fosse um dos maiores Discords, com cerca de um milhão de pessoas co-imaginando coisas nesses espaços compartilhados.
Bem, não há realmente um coletivo de máquinas. Toda vez que você pede à IA para fazer uma foto, ela realmente não se lembra ou sabe de mais nada que já fez. Não tem vontade, não tem objetivos, não tem intenção, não tem capacidade de contar histórias. Todo o ego e vontade e histórias – somos nós. É como um motor. Um motor não tem para onde ir, mas as pessoas têm para onde ir. É como uma mente coletiva de pessoas, superpoderosas com a tecnologia. Dentro da comunidade, você tem um milhão de pessoas fazendo imagens, e todas elas estão se divertindo e, por padrão, todos podem ver as imagens de todos os outros. Você tem que pagar mais para retirar a comunidade – e geralmente, se você fizer isso, significa que você é algum tipo de usuário comercial. Então todo mundo está roubando uns aos outros, e há toda essa nova estética. É quase como o aceleracionismo estético. E eles estão todos borbulhando e girando, e não são estéticas de IA. São estéticas humanas novas e interessantes que acho que vão se espalhar pelo mundo.
Prompt: “Uma comunidade de um milhão de humanos, sua imaginação aumentada pela IA.” Essa abertura também ajuda a manter as coisas seguras? Porque há muita discussão sobre geradores de imagens de IA sendo usados para gerar coisas potencialmente prejudiciais, sejam imagens diretamente desagradáveis – sangue e violência – ou desinformação. Como você impede que isso aconteça?Sim, então, é incrível. Quando você coloca o nome de alguém em todas as fotos que eles fazem, eles são muito mais disciplinados em como eles o usam. Isso ajuda muito.
Dito isso, ainda tivemos alguns problemas em que, infelizmente, como a maneira como a mídia social funciona em qualquer outro lugar, você pode ganhar a vida causando indignação, e há uma motivação para algumas pessoas entrarem na comunidade, pagar por privacidade, passar um mês tentando criar as imagens de choque mais ultrajantes e horríveis possíveis e depois tentar publicar isso no Twitter. Então temos que colocar nosso pé nisso e dizer: “Não é isso que estamos fazendo; esse não é o tipo de comunidade que queremos.”
Sempre que vemos isso, nós o criticamos. Proibimos palavras se for preciso. Coletamos palavras para coisas como ultragore fotorrealista e banimos todas as palavras dentro de um quilômetro e meio disso.
E quanto a rostos realistas — porque esse é outro vetor para criar desinformação. O modelo gera rostos realistas?
Irá gerar rostos de celebridades e coisas assim. Mas geralmente não – temos um estilo e aparência padrão, e é artístico e bonito, e é difícil afastar disso, o que significa que você não pode forçá-lo a fazer um deepfake agora . Talvez se você passar 100 horas tentando, você possa encontrar alguma combinação certa de palavras que faça parecer realmente realista, mas você tem que realmente trabalhar duro para fazer com que pareça uma foto. E, pessoalmente, não acho que o mundo precise de mais deepfakes, mas precisa de coisas mais bonitas, então estamos focados em tornar tudo bonito e artístico.
Prompt: “Pôster de propaganda da era soviética alertando sobre os perigos da IA desonesta.”
De onde você obteve os dados de treinamento do modelo?
Nossos dados de treinamento são praticamente de no mesmo lugar que todo mundo – que é praticamente a internet. Praticamente todo grande modelo de IA apenas extrai todos os dados que pode, todo o texto que pode, todas as imagens que pode. Cientificamente falando, estamos em um ponto inicial no espaço, onde todos pegam tudo o que podem, jogam em um arquivo enorme e meio que incendeiam para treinar algo enorme, e ninguém sabe ainda o que os dados na pilha realmente importam.
Então, por exemplo, nossa atualização mais recente fez tudo parecer muito, muito melhor , e você pode pensar que fizemos isso jogando um monte de pinturas. Mas nós não; nós apenas usamos os dados do usuário com base no que as pessoas gostaram de fazer. Não havia arte humana nele. Mas cientificamente falando, estamos muito, muito cedo. O espaço inteiro talvez tenha treinado apenas duas dúzias de modelos como este. Então é ciência experimental.
Quanto custou treinar o seu?
Eu diria, treinando modelos neste espaço, não posso falar sobre nossos custos específicos, mas posso falar coisas gerais. O treinamento de modelos de imagem provavelmente custa cerca de US$ 50.000 toda vez que você faz isso agora. E você nunca acerta em uma tentativa, então você tem que usar três tentativas ou 10 tentativas ou 20 tentativas – e você precisa de muito – então isso se soma. É caro. É mais do que a maioria das universidades poderia gastar, mas não é tão caro que você precise de um bilhão de dólares ou de um supercomputador.
Os custos, tenho certeza, cairão para ambos treino e corrida. Mas o custo para executá-lo é realmente muito alto. Cada imagem custa dinheiro. Cada imagem é gerada em um servidor de US$ 20.000 e temos que alugar esses servidores por minuto. Acho que nunca houve um serviço para consumidores em que eles estivessem usando milhares de trilhões de operações ao longo de 15 minutos sem pensar nisso. Provavelmente por um fator de 10, eu diria que é mais computação do que qualquer coisa que seu consumidor médio tenha tocado. Na verdade é meio louco.
Falando em dados de treinamento, um aspecto controverso aqui é a questão da propriedade. A lei atual dos EUA diz
você não pode ter direitos autorais de arte gerada por IA, mas não sabemos bem se as pessoas podem reivindicar direitos autorais sobre as imagens usadas nos dados de treinamento. Artistas e designers trabalham duro para desenvolver um estilo específico, mas o que acontece se seu trabalho agora puder ser copiado por bots de IA? Você já teve muitas discussões sobre isso?
Nós temos muitos artistas na comunidade, e eu diria que eles são universalmente positivos sobre a ferramenta, e eles acham que isso vai torná-los muito mais produtivos e melhorar muito suas vidas. E estamos constantemente conversando com eles e perguntando: “Você está bem? Você se sente bem com isso?” Também fazemos essas horas de expediente em que fico sentado na voz por quatro horas com 1.000 pessoas e apenas respondo perguntas.
Muitos dos artistas famosos que usam a plataforma estão todos dizendo a mesma coisa, e é muito interessante. Eles dizem: “Eu sinto que Midjourney é um estudante de arte, e tem seu próprio estilo, e quando você invoca meu nome para criar uma imagem, é como pedir a um estudante de arte para fazer algo inspirado pela minha arte. E geralmente, como artista, quero que as pessoas se inspirem nas coisas que faço.”
Mas certamente há um enorme viés de auto-seleção em ação porque os artistas que estão ativos no Midjourney Discord são os que serão excitado com isso. E as pessoas que dizem: “É besteira; Eu não quero
Minha arte para ser devorada por essas máquinas enormes.” Você permitiria que essas pessoas se removessem do seu sistema?
Ainda não temos um processo para isso, mas estamos abertos a isso. Até agora, eu diria que não tem tantos artistas assim. Não é um conjunto de dados tão profundo. E aqueles que conseguiram nos deram respostas do tipo “não nos sentimos intimidados por isso”. Agora, é tão novo; Acho que faz sentido tocar de ouvido e ser dinâmico. Então, estamos constantemente conversando com as pessoas. E, na verdade, o pedido número um que recebemos agora dos artistas é que eles querem que seja melhor em roubar seus estilos, para que possam usá-lo como parte de seu fluxo de arte ainda melhor. E isso tem sido surpreendente para mim.
Pode ser diferente para outros geradores [AI image] porque eles tentam fazer algo parecer a coisa exata. Mas temos mais um estilo padrão, então realmente parece um estudante de arte sendo inspirado por outra coisa. E a razão de fazermos isso é porque você sempre tem padrões, então se você disser “cachorro”, poderíamos lhe dar uma foto de um cachorro, mas isso é chato. Do ponto de vista humano, por que você quer isso? Basta acessar a pesquisa de imagens do Google. Então tentamos fazer as coisas parecerem artísticas.
Isso é algo que você mencionou algumas vezes em nossa conversa – o estilo de arte padrão de Midjourney – e estou realmente fascinado por isso ideia de que cada gerador de imagem de IA é seu próprio microcosmo de cultura, com suas próprias preferências e expressões. Como você descreveria o estilo particular de Midjourney, e como você o desenvolveu conscientemente?
[Laughing] É um pouco ad hoc! Tentamos muitas coisas, e cada vez que tentamos algo novo, renderizamos mil imagens. E não há realmente uma intenção para isso. Deve parecer geralmente bonito. Deve responder a coisas específicas e coisas vagas. Nós definitivamente queremos que não se pareça com fotos. Podemos fazer uma versão realista em um ponto, mas não queremos que seja o padrão. Fotos perfeitas me deixam um pouco desconfortável agora, embora eu possa ver razões legítimas para você querer algo mais realista.
Acho que o estilo seria um pouco extravagante, abstrato e estranho, e tende a misturar as coisas de maneiras que você não pode perguntar, de maneiras surpreendentes e bonitas. Ele tende a usar muitos azuis e laranjas. Tem algumas cores favoritas e alguns rostos favoritos. Se você der uma instrução muito vaga, ele tem que ir para seus favoritos. Então, não sabemos por que isso acontece, mas há um rosto de mulher em particular que ele gosta de desenhar – não sabemos de onde vem, de um dos nossos 12 conjuntos de dados de treinamento – mas as pessoas chamam de “Miss Journey”. E tem o rosto de um cara, que é meio quadrado e imponente, e ele também aparece de vez em quando, mas ainda não tem nome. Mas é como um artista que tem seus próprios rostos e cores.
Prompt: “Um retrato a óleo de Miss Journey.”
Falando nesses tipos de padrões, um grande desafio no espaço de geração de imagens é lidar com o viés. Há pesquisar que mostra que, se você pedir a um modelo de imagem de IA para desenhar um CEO, o CEO é sempre um homem branco, e quando você pede para um enfermeiro, o enfermeira é sempre uma mulher e muitas vezes uma pessoa de cor. Como você lidou com esse desafio? É um grande problema para Midjourney ou mais preocupante para empresas corporativas que querem rentabilizar esses sistemas?
Bem, Miss Journey é definitivamente mais um problema do que um recurso, e estamos trabalhando em algo agora que vai tentar quebrar os rostos e dar-lhe mais variedade. Mas também há desvantagens nisso. Tipo, nós tínhamos uma versão em que isso destruía completamente Miss Journey, mas se você realmente quisesse, digamos, Arnold Schwarzenegger como Danny DeVito, então destruiria completamente esse pedido
. E o complicado é fazer isso funcionar sem eliminar gêneros inteiros de expressão. Porque é muito fácil ter um interruptor que aumenta a diversidade, mas é difícil ligá-lo apenas quando deveria.
O que posso dizer é que nunca foi tão fácil fazer uma imagem com a diversidade que você quiser – basta usar a palavra. Você está sempre a uma palavra de distância de criar, sabe – tipo, eu estava brincando com “magos cyberpunk africanos”, e parece lindo, e é legal pra caralho, e tudo que eu precisava era de uma palavra para dizer ao modelo o que você querer.
Então, só para recuar um pouco, você falou muito sobre como você não veja o trabalho que você está fazendo em Midjourney como, digamos, prático. Quero dizer, é obviamente muito prático, mas sua motivação é mais abstrata – sobre a relação entre humanos e IA; sobre como podemos usar a IA dessa maneira humanista, como você colocou. Algumas pessoas no espaço da IA tendem a pensar nessa tecnologia nos termos mais grandiosos possíveis; eles a comparam a deuses, à vida senciente. Como você se sente sobre isso?
Por um tempo, eu tenho tentado descobrir fora “o que é
?” Porque você pode dizer que é como um motor para a imaginação, mas há outra coisa também. A primeira tentação é olhá-lo através de uma lente de arte. Para perguntar: isso é como a invenção da fotografia? Porque quando a fotografia foi inventada, as pinturas ficaram mais estranhas porque qualquer um podia tirar uma foto de um rosto, então por que eu pintaria essa imagem agora?
E é assim? Não, não é bem assim. É definitivamente mais estranho. No momento, parece a invenção de um mecanismo: tipo, você está fazendo um monte de imagens a cada minuto, e está se mexendo ao longo de uma estrada de imaginação, e isso é bom. Mas se você der mais um passo no futuro, onde em vez de fazer quatro imagens de cada vez, você está fazendo 1.000 ou 10.000, é diferente. E um dia, eu fiz isso: fiz 40.000 fotos em poucos minutos e, de repente, eu tinha essa enorme amplitude da natureza na minha frente – todas essas criaturas e ambientes diferentes – e levei quatro horas apenas para passar por tudo isso e, nesse processo, senti como se estivesse me afogando. Eu me senti como uma criança pequena, olhando para o fundo de uma piscina, tipo, sabendo que não sabia nadar e tendo essa sensação da profundidade da água. E, de repente, [Midjourney] não parecia um motor, mas uma torrente de água. E demorei algumas semanas para processar, e pensei sobre isso e pensei sobre isso, e percebi que – quer saber? — na verdade é água.
Neste momento, as pessoas entendem totalmente mal o que é a IA. Eles o vêem como um tigre. Um tigre é perigoso. Pode me comer. É um adversário. E há perigo na água também – você pode se afogar nela – mas o perigo de um rio de água corrente é muito diferente do perigo de um tigre. A água é perigosa, sim, mas você também pode nadar nela, pode fazer barcos, pode represar e fazer eletricidade. A água é perigosa, mas também é um motor da civilização, e estamos melhor como seres humanos que sabem viver e trabalhar com a água. É uma oportunidade. Não tem vontade, não tem rancor, e sim, você pode se afogar nele, mas isso não significa que devemos proibir a água. E quando você descobre uma nova fonte de água, é uma coisa muito boa.
E Midjourney é uma nova fonte de água?
[Laughing] Sim, isso é um pouco assustador quando você diz dessa maneira.
Eu acho que nós, coletivamente como espécie, descobrimos uma nova fonte de água, e o que Midjourney está tentando descobrir é, ok, como podemos usar isso para as pessoas? Como ensinar as pessoas a nadar? Como fazemos barcos? Como vamos represá-lo? Como vamos de pessoas que têm medo de se afogar para crianças no futuro que estão surfando na onda? Estamos fazendo pranchas de surf ao invés de fazer água. E acho que há algo profundo nisso.
Prompt: “Uma ilustração abstrata, mas detalhada, representando a inteligência artificial como água: uma força poderosa que pode ser aproveitada para o bem ou para o mal.”