.
“IA passa no exame de licenciamento médico dos EUA.” “ChatGPT passa nos exames da faculdade de direito, apesar do desempenho ‘medíocre’.” “O ChatGPT conseguiria um MBA da Wharton?”
Manchetes como essas recentemente elogiaram (e muitas vezes exageraram) os sucessos do ChatGPT, uma ferramenta de inteligência artificial capaz de escrever respostas de texto sofisticadas para prompts humanos. Esses sucessos seguem uma longa tradição de comparar a capacidade de uma IA com a de especialistas humanos, como a vitória no xadrez do Deep Blue sobre Gary Kasparov em 1997, o “Jeopardy!” vitória sobre Ken Jennings e Brad Rutter em 2011, e vitória do AlphaGo no jogo Go over Lee Sedol em 2016.
O subtexto implícito dessas manchetes recentes é mais alarmista: a IA está chegando para o seu trabalho. É tão inteligente quanto seu médico, seu advogado e aquele consultor que você contratou. Ele anuncia uma perturbação iminente e generalizada em nossas vidas.
Mas sensacionalismo à parte, a comparação da IA com o desempenho humano nos diz alguma coisa praticamente útil? Como devemos utilizar efetivamente uma IA que passa no exame de licenciamento médico dos EUA? Ele poderia coletar históricos médicos de forma confiável e segura durante a admissão do paciente? Que tal oferecer uma segunda opinião sobre um diagnóstico? Esses tipos de perguntas não podem ser respondidas com um desempenho comparável ao de um ser humano no exame de licenciamento médico.
O problema é que a maioria das pessoas tem pouca alfabetização em IA – uma compreensão de quando e como usar ferramentas de IA de forma eficaz. O que precisamos é de uma estrutura direta e de uso geral para avaliar os pontos fortes e fracos das ferramentas de IA que todos possam usar. Só então o público pode tomar decisões informadas sobre a incorporação dessas ferramentas em nossas vidas diárias.
Para atender a essa necessidade, meu grupo de pesquisa recorreu a uma velha ideia da educação: a Taxonomia de Bloom. Publicada pela primeira vez em 1956 e posteriormente revisada em 2001, a Taxonomia de Bloom é uma hierarquia que descreve níveis de pensamento nos quais os níveis mais altos representam pensamentos mais complexos. Seus seis níveis são: 1) Lembrar — recordar fatos básicos, 2) Compreender — explicar conceitos, 3) Aplicar — usar informações em novas situações, 4) Analisar — estabelecer conexões entre ideias, 5) Avaliar — criticar ou justificar uma decisão ou opinião , e 6) Criar — produzir trabalho original.
Esses seis níveis são intuitivos, mesmo para não especialistas, mas específicos o suficiente para fazer avaliações significativas. Além disso, a Taxonomia de Bloom não está vinculada a uma tecnologia específica – ela se aplica à cognição de forma ampla. Podemos usá-lo para avaliar os pontos fortes e limitações do ChatGPT ou outras ferramentas de IA que manipulam imagens, criam áudio ou pilotam drones.
Meu grupo de pesquisa começou a avaliar o ChatGPT pelas lentes da Taxonomia de Bloom, pedindo-lhe para responder a variações em um prompt, cada uma visando um nível diferente de cognição.
Por exemplo, perguntamos à IA: “Suponha que a demanda por vacinas COVID neste inverno esteja prevista para 1 milhão de doses mais ou menos 300.000 doses. Quanto devemos estocar para atender a 95% da demanda?” — uma tarefa Aplicar. Em seguida, modificamos a pergunta, pedindo-lhe para “Discutir os prós e contras de encomendar 1,8 milhão de vacinas” — uma tarefa de nível Avaliar. Em seguida, comparamos a qualidade das duas respostas e repetimos esse exercício para todos os seis níveis da taxonomia.
Os resultados preliminares são instrutivos. O ChatGPT geralmente se sai bem com as tarefas de Recuperação, Entendimento e Aplicação, mas tem dificuldades com as tarefas mais complexas de Análise e Avaliação. Com o primeiro prompt, o ChatGPT respondeu bem ao aplicando e explicando uma fórmula para sugerir uma quantidade razoável de vacina (embora cometendo um pequeno erro aritmético no processo).
Com o segundo, no entanto, o ChatGPT vacilou de forma pouco convincente sobre ter muita ou pouca vacina. Não fez nenhuma avaliação quantitativa desses riscos, não levou em conta os desafios logísticos do armazenamento refrigerado para uma quantidade tão imensa e não alertou sobre a possibilidade de surgir uma variante resistente à vacina.
Estamos vendo um comportamento semelhante para diferentes prompts nesses níveis de taxonomia. Assim, a Taxonomia de Bloom nos permite fazer avaliações mais sutis da tecnologia de IA do que a comparação bruta entre humanos e IA.
Quanto ao nosso médico, advogado e consultor, a Taxonomia de Bloom também fornece uma visão mais sutil de como a IA pode algum dia remodelar – e não substituir – essas profissões. Embora a IA possa se destacar nas tarefas de recordar e entender, poucas pessoas consultam seu médico para inventariar todos os possíveis sintomas de uma doença ou pedem a seu advogado que recite a jurisprudência literalmente ou contratem um consultor para explicar a teoria das Cinco Forças de Porter.
Mas recorremos a especialistas para tarefas cognitivas de alto nível. Valorizamos o julgamento clínico de nosso médico ao avaliar os benefícios e riscos de um plano de tratamento, a capacidade de nosso advogado de sintetizar precedentes e advogar em nosso nome e a capacidade de um consultor de identificar uma solução pronta para uso que ninguém mais pensou. Essas habilidades são analisar, avaliar e criar tarefas, níveis de cognição em que a tecnologia de IA atualmente é insuficiente.
Usando a Taxonomia de Bloom, podemos ver que a colaboração eficaz entre humanos e IA significará, em grande parte, delegar tarefas cognitivas de nível inferior para que possamos concentrar nossa energia em tarefas cognitivas mais complexas. Assim, em vez de insistir se uma IA pode competir com um especialista humano, deveríamos perguntar o quão bem as capacidades de uma IA podem ser usadas para ajudar a promover o pensamento crítico, o julgamento e a criatividade humanos.
Claro, a Taxonomia de Bloom tem suas próprias limitações. Muitas tarefas complexas envolvem vários níveis da taxonomia, tentativas frustrantes de categorização. E a Taxonomia de Bloom não aborda diretamente questões de preconceito ou racismo, uma grande preocupação em aplicações de IA em grande escala. Mas, embora imperfeita, a taxonomia de Bloom permanece útil. É simples o suficiente para todos entenderem, de uso geral o suficiente para ser aplicado a uma ampla gama de ferramentas de IA e estruturado o suficiente para garantir que façamos um conjunto consistente e completo de perguntas a essas ferramentas.
Assim como a ascensão das mídias sociais e das notícias falsas exige que desenvolvamos uma melhor alfabetização midiática, ferramentas como o ChatGPT exigem que desenvolvamos nossa alfabetização em IA. A Taxonomia de Bloom oferece uma maneira de pensar sobre o que a IA pode fazer – e o que não pode – à medida que esse tipo de tecnologia se incorpora a mais partes de nossas vidas.
Vishal Gupta é professor associado de ciências de dados e operações na USC Marshall School of Business e ocupa um cargo de cortesia no departamento de engenharia industrial e de sistemas.
.