Estudos/Pesquisa

Estudo revela por que modelos de IA que analisam imagens médicas podem ser tendenciosos

.

Os modelos de inteligência artificial frequentemente desempenham um papel nos diagnósticos médicos, especialmente quando se trata de análise de imagens como raios-X. No entanto, estudos descobriram que estes modelos nem sempre têm um bom desempenho em todos os grupos demográficos, geralmente tendo um desempenho pior nas mulheres e nas pessoas de cor.

Esses modelos também demonstraram desenvolver algumas habilidades surpreendentes. Em 2022, pesquisadores do MIT relataram que os modelos de IA podem fazer previsões precisas sobre a raça de um paciente a partir de radiografias de tórax – algo que os radiologistas mais qualificados não conseguem fazer.

Essa equipe de pesquisa descobriu agora que os modelos mais precisos em fazer previsões demográficas também mostram as maiores “lacunas de imparcialidade” — ou seja, discrepâncias em sua capacidade de diagnosticar com precisão imagens de pessoas de diferentes raças ou gêneros. As descobertas sugerem que esses modelos podem estar usando “atalhos demográficos” ao fazer suas avaliações diagnósticas, o que leva a resultados incorretos para mulheres, negros e outros grupos, dizem os pesquisadores.

“Está bem estabelecido que modelos de aprendizado de máquina de alta capacidade são bons preditores de demografia humana, como raça, sexo ou idade autodeclarados. Este artigo demonstra novamente essa capacidade e, em seguida, vincula essa capacidade à falta de desempenho em diferentes grupos, o que nunca foi feito”, diz Marzyeh Ghassemi, professora associada de engenharia elétrica e ciência da computação do MIT, membro do Instituto de Engenharia Médica e Ciência do MIT e autora sênior do estudo.

Os pesquisadores também descobriram que poderiam retreinar os modelos de uma forma que melhorasse sua imparcialidade. No entanto, a sua abordagem ao “desprevenimento” funcionou melhor quando os modelos foram testados nos mesmos tipos de pacientes em que foram treinados, como pacientes do mesmo hospital. Quando estes modelos foram aplicados a pacientes de diferentes hospitais, as lacunas de justiça reapareceram.

“Acho que as principais conclusões são, primeiro, que você deve avaliar cuidadosamente quaisquer modelos externos em seus próprios dados, porque quaisquer garantias de imparcialidade que os desenvolvedores de modelos fornecem em seus dados de treinamento podem não ser transferidas para sua população. Segundo, sempre que dados suficientes estiverem disponíveis, você deve treinar modelos em seus próprios dados”, diz Haoran Zhang, um estudante de pós-graduação do MIT e um dos principais autores do novo artigo. O estudante de pós-graduação do MIT Yuzhe Yang também é um dos principais autores do artigo, que aparecerá em Medicina da Natureza. Judy Gichoya, professora associada de radiologia e ciências de imagem na Faculdade de Medicina da Universidade Emory, e Dina Katabi, professora Thuan e Nicole Pham de Engenharia Elétrica e Ciência da Computação no MIT, também são autoras do artigo.

Removendo o preconceito

Em maio de 2024, a FDA aprovou 882 dispositivos médicos habilitados para IA, sendo 671 deles projetados para uso em radiologia. Desde 2022, quando Ghassemi e os seus colegas mostraram que estes modelos de diagnóstico podem prever a raça com precisão, eles e outros investigadores mostraram que tais modelos também são muito bons na previsão do género e da idade, embora os modelos não sejam treinados nessas tarefas.

“Muitos modelos populares de aprendizado de máquina têm capacidade de previsão demográfica sobre-humana — radiologistas não conseguem detectar raça autorrelatada em uma radiografia de tórax”, diz Ghassemi. “Esses são modelos que são bons em prever doenças, mas durante o treinamento estão aprendendo a prever outras coisas que podem não ser desejáveis.” Neste estudo, os pesquisadores se propuseram a explorar por que esses modelos não funcionam tão bem para certos grupos. Em particular, eles queriam ver se os modelos estavam usando atalhos demográficos para fazer previsões que acabaram sendo menos precisas para alguns grupos. Esses atalhos podem surgir em modelos de IA quando eles usam atributos demográficos para determinar se uma condição médica está presente, em vez de depender de outras características das imagens.

Usando conjuntos de dados de radiografias de tórax disponíveis publicamente do Beth Israel Deaconess Medical Center, em Boston, os pesquisadores treinaram modelos para prever se os pacientes tinham uma de três condições médicas diferentes: acúmulo de líquido nos pulmões, colapso pulmonar ou aumento do coração. Em seguida, eles testaram os modelos em raios X retirados dos dados de treinamento.

No geral, os modelos tiveram um bom desempenho, mas a maioria deles apresentou “lacunas de imparcialidade” — isto é, discrepâncias entre as taxas de precisão para homens e mulheres, e para pacientes brancos e negros.

Os modelos também foram capazes de prever o sexo, a raça e a idade dos indivíduos radiografados. Além disso, houve uma correlação significativa entre a precisão de cada modelo na realização de previsões demográficas e o tamanho da sua lacuna de justiça. Isto sugere que os modelos podem estar a utilizar categorizações demográficas como um atalho para fazer as suas previsões de doenças.

Os investigadores tentaram então reduzir as lacunas de justiça utilizando dois tipos de estratégias. Para um conjunto de modelos, eles treinaram-nos para otimizar a “robustez do subgrupo”, o que significa que os modelos são recompensados ​​por terem melhor desempenho no subgrupo para o qual têm o pior desempenho, e penalizados se a sua taxa de erro para um grupo for superior à outros.

Num outro conjunto de modelos, os investigadores forçaram-nos a remover qualquer informação demográfica das imagens, utilizando abordagens de “grupo adversário”. Ambas as estratégias funcionaram bastante bem, descobriram os pesquisadores.

“Para dados em distribuição, você pode usar métodos de última geração existentes para reduzir as lacunas de imparcialidade sem fazer concessões significativas no desempenho geral”, diz Ghassemi. “Os métodos de robustez de subgrupos forçam os modelos a serem sensíveis à previsão incorreta de um grupo específico, e os métodos adversários de grupo tentam remover completamente as informações do grupo.”

Nem sempre é mais justo

No entanto, essas abordagens só funcionaram quando os modelos foram testados em dados dos mesmos tipos de pacientes em que foram treinados – por exemplo, apenas pacientes do conjunto de dados do Beth Israel Deaconess Medical Center.

Quando os pesquisadores testaram os modelos que foram “desviáveis” usando os dados do BIDMC para analisar pacientes de cinco outros conjuntos de dados hospitalares, eles descobriram que a precisão geral dos modelos permaneceu alta, mas alguns deles exibiram grandes lacunas de imparcialidade.

“Se você distorcer o modelo em um conjunto de pacientes, essa imparcialidade não será necessariamente mantida quando você passar para um novo conjunto de pacientes de um hospital diferente em um local diferente”, diz Zhang.

Isto é preocupante porque, em muitos casos, os hospitais utilizam modelos que foram desenvolvidos com base em dados de outros hospitais, especialmente nos casos em que é adquirido um modelo pronto a utilizar, dizem os investigadores.

“Descobrimos que mesmo modelos de última geração que têm desempenho ótimo em dados semelhantes aos seus conjuntos de treinamento não são ótimos — ou seja, eles não fazem o melhor trade-off entre desempenho geral e de subgrupo — em novos cenários”, diz Ghassemi. “Infelizmente, é assim que um modelo provavelmente será implantado. A maioria dos modelos é treinada e validada com dados de um hospital, ou uma fonte, e então amplamente implantados.”

Os pesquisadores descobriram que os modelos que foram desviados usando abordagens adversariais de grupo mostraram um pouco mais de justiça quando testados em novos grupos de pacientes do que aqueles desviados com métodos de robustez de subgrupo. Eles agora planejam tentar desenvolver e testar métodos adicionais para ver se conseguem criar modelos que façam um trabalho melhor de fazer previsões justas em novos conjuntos de dados.

As descobertas sugerem que os hospitais que usam esses tipos de modelos de IA devem avaliá-los em sua própria população de pacientes antes de começar a usá-los, para garantir que não forneçam resultados imprecisos para determinados grupos.

A pesquisa foi financiada pelo Google Research Scholar Award, pelo Programa de Desenvolvimento de Professores Médicos Harold Amos da Fundação Robert Wood Johnson, pelo RSNA Health Disparities, pelo Lacuna Fund, pela Gordon and Betty Moore Foundation, pelo National Institute of Biomedical Imaging and Bioengineering e pelo National Heart, Lung, and Blood Institute.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo