.
Legendas de gráficos que explicam tendências e padrões complexos são importantes para melhorar a capacidade do leitor de compreender e reter os dados apresentados. E para pessoas com deficiência visual, as informações em uma legenda geralmente fornecem o único meio de entender o gráfico.
Mas escrever legendas detalhadas e eficazes é um processo trabalhoso. Embora as técnicas de legenda automática possam aliviar esse fardo, elas geralmente têm dificuldade para descrever recursos cognitivos que fornecem contexto adicional.
Para ajudar as pessoas a criar legendas de gráficos de alta qualidade, os pesquisadores do MIT desenvolveram um conjunto de dados para melhorar os sistemas de legendas automáticas. Usando essa ferramenta, os pesquisadores poderiam ensinar um modelo de aprendizado de máquina para variar o nível de complexidade e o tipo de conteúdo incluído em uma legenda de gráfico com base nas necessidades dos usuários.
Os pesquisadores do MIT descobriram que os modelos de aprendizado de máquina treinados para legendas automáticas com seu conjunto de dados geraram legendas consistentemente precisas, semanticamente ricas e descreviam tendências de dados e padrões complexos. Análises quantitativas e qualitativas revelaram que seus modelos legendavam os gráficos de forma mais eficaz do que outros sistemas de legenda automática.
O objetivo da equipe é fornecer o conjunto de dados, chamado VisText, como uma ferramenta que os pesquisadores podem usar enquanto trabalham no espinhoso problema de legendas automáticas de gráficos. Esses sistemas automáticos podem ajudar a fornecer legendas para gráficos on-line sem legenda e melhorar a acessibilidade para pessoas com deficiência visual, diz a co-autora Angie Boggust, estudante de pós-graduação em engenharia elétrica e ciência da computação no MIT e membro do Grupo de Visualização na Ciência da Computação e Laboratório de Inteligência Artificial (CSAIL).
“Tentamos incorporar muitos valores humanos em nosso conjunto de dados para que, quando nós e outros pesquisadores construímos sistemas automáticos de legenda de gráficos, não acabemos com modelos que não são o que as pessoas querem ou precisam”, ela diz.
Boggust é acompanhado no artigo pelo co-autor principal e colega de pós-graduação Benny J. Tang e pelo autor sênior Arvind Satyanarayan, professor associado de ciência da computação no MIT que lidera o Visualization Group no CSAIL. A pesquisa será apresentada na Reunião Anual da Associação de Linguística Computacional.
Análise centrada no ser humano
Os pesquisadores foram inspirados a desenvolver o VisText a partir de um trabalho anterior no Visualization Group, que explorou o que torna uma boa legenda de gráfico. Nesse estudo, os pesquisadores descobriram que usuários com visão e usuários cegos ou com baixa visão tinham preferências diferentes para a complexidade do conteúdo semântico em uma legenda.
O grupo queria trazer essa análise centrada no ser humano para a pesquisa de legendas automáticas. Para fazer isso, eles desenvolveram o VisText, um conjunto de dados de gráficos e legendas associadas que podem ser usados para treinar modelos de aprendizado de máquina para gerar legendas precisas, semanticamente ricas e personalizáveis.
Desenvolver sistemas eficazes de autocaption não é uma tarefa fácil. Os métodos existentes de aprendizado de máquina geralmente tentam legendar os gráficos da mesma forma que fariam com uma imagem, mas as pessoas e os modelos interpretam as imagens naturais de maneira diferente de como lemos os gráficos. Outras técnicas ignoram totalmente o conteúdo visual e legendam um gráfico usando sua tabela de dados subjacente. No entanto, essas tabelas de dados geralmente não estão disponíveis depois que os gráficos são publicados.
Dadas as deficiências do uso de imagens e tabelas de dados, o VisText também representa gráficos como gráficos de cena. Os gráficos de cena, que podem ser extraídos de uma imagem de gráfico, contêm todos os dados do gráfico, mas também incluem contexto de imagem adicional.
“Um gráfico de cena é como o melhor dos dois mundos – ele contém quase todas as informações presentes em uma imagem e é mais fácil de extrair de imagens do que de tabelas de dados. Como também é texto, podemos aproveitar os avanços em modelos modernos de linguagem ampla para legendagem ”, explica Tang.
Eles compilaram um conjunto de dados que contém mais de 12.000 gráficos – cada um representado como uma tabela de dados, imagem e gráfico de cena – bem como legendas associadas. Cada gráfico tem duas legendas separadas: uma legenda de baixo nível que descreve a construção do gráfico (como seus intervalos de eixo) e uma legenda de nível superior que descreve estatísticas, relacionamentos nos dados e tendências complexas.
Os pesquisadores geraram legendas de baixo nível usando um sistema automatizado e legendas de alto nível de trabalhadores humanos.
“Nossas legendas foram informadas por duas peças-chave de pesquisas anteriores: diretrizes existentes sobre descrições acessíveis de mídia visual e um modelo conceitual de nosso grupo para categorizar o conteúdo semântico. Isso garantiu que nossas legendas apresentassem elementos gráficos importantes de baixo nível, como eixos, escalas, e unidades para leitores com deficiência visual, mantendo a variabilidade humana em como as legendas podem ser escritas”, diz Tang.
Traduzindo gráficos
Depois de reunir imagens e legendas de gráficos, os pesquisadores usaram o VisText para treinar cinco modelos de aprendizado de máquina para legendas automáticas. Eles queriam ver como cada representação — imagem, tabela de dados e gráfico de cena — e as combinações das representações afetavam a qualidade da legenda.
“Você pode pensar em um modelo de legenda de gráfico como um modelo para tradução de idioma. Mas, em vez de dizer, traduza este texto em alemão para o inglês, estamos dizendo traduza esse ‘idioma de gráfico’ para o inglês”, diz Boggust.
Seus resultados mostraram que os modelos treinados com grafos de cena tiveram um desempenho tão bom ou melhor do que aqueles treinados com tabelas de dados. Como os gráficos de cena são mais fáceis de extrair dos gráficos existentes, os pesquisadores argumentam que podem ser uma representação mais útil.
Eles também treinaram modelos com legendas de baixo e alto nível separadamente. Essa técnica, conhecida como ajuste de prefixo semântico, permitiu que eles ensinassem o modelo a variar a complexidade do conteúdo da legenda.
Além disso, eles realizaram um exame qualitativo das legendas produzidas por seu método de melhor desempenho e categorizaram seis tipos de erros comuns. Por exemplo, um erro direcional ocorre se um modelo diz que uma tendência está diminuindo quando na verdade está aumentando.
Essa avaliação qualitativa robusta e refinada foi importante para entender como o modelo estava cometendo seus erros. Por exemplo, usando métodos quantitativos, um erro direcional pode incorrer na mesma penalidade que um erro de repetição, em que o modelo repete a mesma palavra ou frase. Mas um erro direcional pode ser mais enganoso para um usuário do que um erro de repetição. A análise qualitativa os ajudou a entender esses tipos de sutilezas, diz Boggust.
Esses tipos de erros também expõem as limitações dos modelos atuais e levantam considerações éticas que os pesquisadores devem considerar enquanto trabalham para desenvolver sistemas de legendas automáticas, acrescenta ela.
Modelos generativos de aprendizado de máquina, como aqueles que alimentam o ChatGPT, demonstraram ter alucinações ou fornecer informações incorretas que podem ser enganosas. Embora haja um benefício claro em usar esses modelos para legendas automáticas de gráficos existentes, isso pode levar à disseminação de informações incorretas se os gráficos forem legendados incorretamente.
“Talvez isso signifique que não apenas legendamos tudo à vista com IA. Em vez disso, talvez forneçamos esses sistemas de legenda automática como ferramentas de autoria para as pessoas editarem. É importante pensar sobre essas implicações éticas durante todo o processo de pesquisa, não apenas em final quando tivermos um modelo para implantar”, diz ela.
Boggust, Tang e seus colegas querem continuar otimizando os modelos para reduzir alguns erros comuns. Eles também querem expandir o conjunto de dados do VisText para incluir mais gráficos e gráficos mais complexos, como aqueles com barras empilhadas ou várias linhas. E eles também gostariam de obter informações sobre o que esses modelos de legenda automática estão realmente aprendendo sobre os dados do gráfico.
Esta pesquisa foi apoiada, em parte, pelo Google Research Scholar Award, pela National Science Foundation, pela MLA@CSAIL Initiative e pelo United States Air Force Research Laboratory.
.