.
O Google reconheceu recentemente que o recurso de geração de imagens em seu aplicativo de IA conversacional, Gemini, produziu alguns resultados imprecisos e talvez até ofensivos. A empresa pausou o recurso enquanto analisava o que precisava ser feito para corrigi-lo.
É fácil rir desses erros ou ficar ofendido com seu absurdo, e algumas pessoas chegam a pensar que há algum tipo de conspiração com conotações raciais.
Android e relaxamento
Uma das colunas de tecnologia mais antigas da web, Android & Chill, é sua discussão de sábado sobre Android, Google e todas as coisas relacionadas à tecnologia.
Isto é possível, mas extremamente improvável. O objetivo do Google é tentar dizer a você o que você deseja saber e a empresa não é nos negócios para tornar o mundo um lugar melhor. Seu objetivo é ganhar dinheiro, e a controvérsia não ajuda a conseguir isso.
Então, o que correu mal e porque é que a Gemini vacilou nas suas tentativas de produzir imagens realistas de pessoas?
Muito de uma coisa boa?
OK, presumi que as pessoas estavam exagerando com essas coisas, mas aqui está o primeiro pedido de imagem que tentei com o Gemini. pic.twitter.com/Oipcn96wMh21 de fevereiro de 2024
Um dos principais problemas foi o excesso de sintonia com a inclusão e a diversidade. O Google queria combater possíveis preconceitos em seu modelo de geração de imagens. Infelizmente, o ajuste teve efeitos colaterais indesejados. Em vez de simplesmente evitar estereótipos injustos, Gêmeos às vezes parecia inserir a diversidade onde ela não era historicamente precisa nem apropriada para o determinado momento. Um pedido de um “médico dos anos 1940” pode resultar em imagens de médicos de várias etnias, mesmo que essa não fosse uma representação precisa naquela época.
O Google precisa fazer isso e não tem nada a ver com estar “acordado”. As pessoas que programam e treinam modelos de IA não representam todos. Por exemplo, Joe, de Indiana, não tem muito em comum com Fadhila, da Tanzânia. Ambos podem usar o Google Gemini e esperam resultados inclusivos. O Google foi longe demais em uma direção.
Na tentativa de garantir a inclusão e evitar preconceitos, a geração de imagens da Gemini foi ajustada para priorizar a representação diversificada nos seus resultados. Porém, essa afinação estava errada em determinadas situações.
Quando os usuários solicitavam imagens de pessoas em contextos específicos, o modelo nem sempre gerava imagens precisas, priorizando a exibição de indivíduos de diversas origens, independentemente de sua adequação para o prompt específico. É por isso que vimos coisas como um afro-americano George Washington ou uma mulher papa. A IA é tão inteligente quanto o software que a alimenta, porque na verdade não é inteligente.
Para seu crédito, o Google percebe esse erro e não tentou se esquivar do problema. Em declarações ao New York Post, Jack Krawczyk, diretor sênior de gerenciamento de produtos do Google para Gemini Experiences, disse:
“Estamos trabalhando para melhorar esses tipos de representações imediatamente. A geração de imagens de IA do Gemini gera uma ampla gama de pessoas. E isso geralmente é uma coisa boa porque pessoas ao redor do mundo a usam. Mas aqui está errando o alvo.”
Além de ser ponderado pela diversidade e inclusão, o modelo também foi concebido para ser cauteloso ao evitar conteúdos nocivos ou replicar estereótipos prejudiciais. Essa cautela, embora bem-intencionada, tornou-se um problema. Em alguns casos, Gemini evitava gerar certas imagens, mesmo quando parecia não haver nenhuma intenção prejudicial por trás da mensagem.
Essas duas questões combinadas levaram a uma situação em que Gêmeos às vezes produzia imagens estranhas ou imprecisas, especialmente quando se tratava de representar pessoas. A IA generativa é muito diferente da IA que alimenta muitos dos outros produtos do Google que você instalou no seu telefone e requer mais atenção.
O caminho a seguir
O Google reconheceu essas questões e a necessidade de equilibrar a inclusão com a precisão histórica e contextual. É um desafio difícil para modelos generativos de IA. Embora prevenir o reforço de estereótipos prejudiciais seja um objectivo nobre, não deve ocorrer à custa do modelo simplesmente fazer o que lhe é pedido.
Encontrar esse equilíbrio é crucial para o sucesso futuro dos modelos de IA de geração de imagens. A Google, juntamente com outras empresas que trabalham neste espaço, terão de refinar cuidadosamente os seus modelos para alcançar resultados inclusivos e a capacidade de cumprir com precisão uma gama mais ampla de solicitações dos utilizadores.
É importante lembrar que estes são estágios iniciais deste tipo de tecnologia. Embora decepcionantes, estes contratempos são uma parte essencial do processo de aprendizagem que acabará por levar a uma IA generativa mais capaz e fiável.
Os modelos generativos de IA requerem ajustes finos para alcançar o equilíbrio entre inclusão e precisão. Ao tentar abordar possíveis distorções, os modelos podem tornar-se excessivamente cautelosos e produzir resultados incompletos ou enganosos – o desenvolvimento de uma IA de geração de imagens mais robusta é um desafio constante.
O que o Google errou foi não explicar o que aconteceu de uma forma que as pessoas comuns pudessem entender. Saber como os modelos de IA são treinados não é algo que interessa a muitas pessoas, e entender por que isso é feito de determinada maneira é importante neste contexto. O Google poderia ter escrito este artigo em um de seus muitos blogs e evitado grande parte da controvérsia sobre Gêmeos ser ruim em alguma coisa.
.