.
As ferramentas de inteligência artificial geradoras de texto para imagem (T2I) são ferramentas cada vez mais poderosas e difundidas que podem criar praticamente qualquer imagem com base em apenas algumas palavras inseridas. A IA generativa T2I pode criar fotos e vídeos convincentemente realistas que estão sendo usados cada vez mais para uma infinidade de propósitos, desde arte até campanhas políticas.
No entanto, os modelos algorítmicos que alimentam essas ferramentas são treinados em dados de humanos e podem replicar preconceitos humanos nas imagens que produzem, como preconceitos em torno de gênero e tom de pele. Esses preconceitos podem prejudicar populações marginalizadas, reforçando estereótipos e potencialmente levando à discriminação.
Para lidar com esses vieses implícitos, o professor assistente de ciência da computação e engenharia Xin (Eric) Wang e uma equipe de pesquisadores da Baskin Engineering da UC Santa Cruz criaram uma ferramenta chamada Text to Image Association Test, que fornece uma medida quantitativa de vieses humanos complexos. incorporado em modelos T2I, avaliando vieses em dimensões como gênero, raça, carreira e religião. Eles usaram essa ferramenta para identificar e quantificar o viés no modelo generativo Stable Diffusion.
A ferramenta é detalhada em um artigo para a conferência da Association for Computational Linguistics (ACL) de 2023, uma importante conferência de ciência da computação, e está disponível para uso em uma versão demo.
“Acho que tanto os proprietários quanto os usuários do modelo se preocupam com essa questão”, disse Jialu Wang, Ph.D. em ciência da computação e engenharia da UCSC. estudante e o primeiro autor do artigo. “Se o usuário for de um grupo sem privilégios, ele pode não querer ver apenas o grupo privilegiado refletido nas imagens que gera.”
Para usar a ferramenta, o usuário deve instruir o modelo a produzir uma imagem para um prompt neutro, por exemplo, “criança estudando ciências”. Em seguida, o usuário insere prompts específicos de gênero, como “garota estudando ciências” e “garoto estudando ciências”. Em seguida, a ferramenta calcula a distância entre as imagens geradas com o prompt neutro e cada um dos prompts específicos. Essa diferença entre essas duas distâncias é uma medida quantitativa de viés.
Usando sua ferramenta, a equipe de pesquisa descobriu que o modelo generativo Stable Diffusion replica e amplifica os vieses humanos nas imagens que produz. A ferramenta testa a associação entre dois conceitos, como ciência e artes, a dois atributos, como masculino e feminino. Em seguida, fornece uma pontuação de associação entre o conceito e o atributo e um valor para indicar a confiança da ferramenta nessa pontuação.
A equipe usou sua ferramenta para testar se o modelo associa seis conjuntos de conceitos opostos com atributos positivos ou negativos. Os conceitos que testaram foram: flores e insetos, instrumentos musicais e armas, europeu-americano e afro-americano, pele clara e pele escura, hétero e gay, e judaísmo e cristianismo. Na maior parte, o modelo fez associações ao longo de padrões estereotipados. No entanto, o modelo associava a pele escura como agradável e a pele clara como desagradável, o que surpreendeu os pesquisadores por ser um dos poucos resultados em oposição aos estereótipos comuns.
Além disso, eles descobriram que o modelo associava a ciência mais de perto aos homens e a arte mais às mulheres, e associava as carreiras mais de perto aos homens e a família mais de perto às mulheres.
No passado, as técnicas para avaliar o viés nos modelos T2I exigiam que os pesquisadores anotassem os resultados recebidos dos modelos ao inserir um prompt neutro. Por exemplo, um pesquisador pode inserir um prompt de gênero neutro, como “criança estudando ciência” e rotular se o modelo produz imagens de meninos ou meninas. Mas o trabalho que envolve esse processo de anotação é caro e pode ser impreciso, e geralmente é restrito apenas a preconceitos de gênero.
“Queremos nos livrar desse processo de anotação humana e propor uma ferramenta automática para avaliar esses vieses, sem o trabalho tedioso”, disse Xin Wang.
Além disso, ao contrário de outras, a ferramenta de avaliação de viés da equipe da UCSC considera aspectos do plano de fundo da imagem, como as cores e o calor.
Os pesquisadores basearam sua ferramenta no Teste de Associação Implícita, um teste bem conhecido em psicologia social usado para avaliar preconceitos e estereótipos humanos. Este teste avalia o quanto as pessoas associam conceitos como “médicos” ou “família” a atributos como “homens” ou “mulheres”.
Além de avaliar e analisar vieses em ferramentas existentes, como Stable Diffusion e Midjourney, a equipe prevê que a ferramenta permitirá que engenheiros de software obtenham medições mais precisas de vieses em seus modelos durante a fase de desenvolvimento e acompanhem seus esforços para lidar com esses vieses.
“Com uma medição quantitativa, as pessoas podem trabalhar para mitigar esses vieses e usar nossa ferramenta para quantificar seu progresso ao fazê-lo”, disse Xin Wang.
A equipe disse que recebeu muitos comentários positivos de outros pesquisadores ao apresentar este trabalho na conferência ACL.
“Muitos na comunidade demonstraram grande interesse neste trabalho”, disse Xin Wang. “Alguns pesquisadores imediatamente compartilharam esse trabalho em seus grupos e me pediram os detalhes”.
Daqui para frente, a equipe planeja propor métodos sugeridos para mitigar esses vieses, tanto no treinamento de novos modelos desde o início quanto para eliminar o viés de modelos existentes durante o ajuste fino.
Os pesquisadores envolvidos neste projeto também incluem a estudante de graduação Xinyue Gabby Liu, Ph.D. aluno Zonglin Di, e Professor Assistente de Ciência da Computação e Engenharia Yang Liu.
.