Desenvolvimentos em IA são uma alta prioridade para empresas e governos em todo o mundo. No entanto, um aspecto fundamental da IA permanece negligenciado: baixa qualidade dos dados.
Os algoritmos de IA dependem de dados confiáveis para gerar resultados ideais – se os dados são tendenciosos, incompletos, insuficientes e imprecisos, isso leva a consequências devastadoras.
Os sistemas de IA que identificam doenças de pacientes são um excelente exemplo de como a má qualidade dos dados pode levar a resultados adversos. Quando ingeridos com dados insuficientes, esses sistemas produzem diagnósticos falsos e previsões imprecisas, resultando em diagnósticos errados e tratamentos atrasados. Por exemplo, um estudo realizado na Universidade de Cambridge com mais de 400 ferramentas usadas para diagnosticar o Covid-19 encontrou relatórios gerados por IA totalmente inutilizáveis, causados por conjuntos de dados defeituosos.
Em outras palavras, suas iniciativas de IA terá consequências devastadoras no mundo real se seus dados não forem bons o suficiente.
Há bastante um debate sobre o que significam dados ‘suficientemente bons’. Alguns dizem que não existem dados bons o suficiente. Outros dizem que a necessidade de bons dados causa paralisia de análise – enquanto a HBR afirma abertamente que suas ferramentas de aprendizado de máquina são inúteis se suas informações forem ruins.
No WinPure, definimos dados bons o suficiente como
“dados completos, precisos e válidos que podem ser usados com confiança para processos de negócios com riscos aceitáveis, o nível do qual está sujeito a objetivos e circunstâncias individuais de um negócio.’
A maioria das empresas luta com a qualidade dos dados e governança mais do que admitem. Adicione à tensão; eles estão sobrecarregados e sob imensa pressão para implantar iniciativas de IA para se manterem competitivos. Infelizmente, isso significa que problemas como dados sujos não fazem parte das discussões da diretoria até que causem a falha de um projeto.
Como os dados ruins afetam os sistemas de IA?
Problemas de qualidade de dados surgem no início do processo quando o algoritmo se alimenta de dados de treinamento para aprender padrões. Por exemplo, se um algoritmo de IA recebe dados de mídia social não filtrados, ele detecta abusos, comentários racistas e comentários misóginos, como visto no bot de IA da Microsoft. Recentemente, a incapacidade da IA de detectar pessoas de pele escura também foi considerada devido a dados parciais.
Como isso está relacionado à qualidade dos dados?
A ausência de governança de dados , a falta de conscientização sobre a qualidade dos dados e visualizações de dados isoladas (onde tal disparidade de gênero pode ter sido notada) levam a resultados ruins.
O que fazer?
Quando as empresas percebem que têm um problema de qualidade de dados, entram em pânico com a contratação. Consultores, engenheiros e analistas são contratados cegamente para diagnosticar, limpar dados e resolver problemas o mais rápido possível. Infelizmente, meses se passam antes que qualquer progresso seja feito e, apesar de gastar milhões com a força de trabalho, os problemas parecem não desaparecer. Uma abordagem automática para um problema de qualidade de dados dificilmente é útil.
A mudança real começa no nível básico.
Aqui estão três etapas cruciais a serem seguidas se você deseja que seu projeto de IA/ML se mova na direção certa.
Criando consciência e reconhecendo problemas de qualidade de dados
Para começar, avalie a qualidade de seu dados através da construção de uma cultura de alfabetização de dados. Bill Schmarzo, uma voz poderosa no setor, recomenda o uso do design thinking para criar uma cultura em que todos entendam e possam contribuir para as metas e desafios de dados de uma organização.
No cenário de negócios atual, dados e qualidade de dados não é mais responsabilidade exclusiva das equipes de TI ou de dados. Os usuários de negócios devem estar cientes de problemas de dados sujos e dados inconsistentes e duplicados, entre outras questões.
Então, a primeira coisa crítica a fazer – tornar o treinamento de qualidade de dados um esforço organizacional e capacitar as equipes para reconhecer dados ruins atributos.
Aqui está uma lista de verificação que você pode usar para iniciar uma conversa sobre a qualidade de seus dados.
Lista de verificação de integridade de dados. Fonte: WinPure Company
Elabore um plano para atender às métricas de qualidade
As empresas muitas vezes cometem o erro de minar os problemas de qualidade de dados. Eles contratam analistas de dados para fazer as tarefas mundanas de limpeza de dados em vez de se concentrar no planejamento e no trabalho de estratégia. Algumas empresas usam ferramentas de gerenciamento de dados para limpar, desduplicar, mesclar e eliminar dados sem um plano. Infelizmente, ferramentas e talentos não podem resolver problemas isoladamente. Seria útil se você tivesse uma estratégia para atender às dimensões de qualidade de dados.
A estratégia deve abordar dados coleta, rotulagem, processamento e se os dados se encaixam no projeto de IA/ML. Por exemplo, se um programa de recrutamento de IA seleciona apenas candidatos do sexo masculino para uma função de tecnologia, é óbvio que os dados de treinamento para o projeto eram tendenciosos, incompletos (já que não coletavam dados suficientes sobre candidatas do sexo feminino) e imprecisos. Assim, esses dados não atenderam ao verdadeiro propósito do projeto de IA.
A qualidade dos dados vai além das tarefas mundanas de limpezas e correções. É melhor configurar padrões de integridade e governança de dados antes de iniciar o projeto. Isso evita que um projeto acabe mais tarde!
Fazer as perguntas certas e definir a responsabilidade
Não há padrões universais para ‘dados ou dados suficientemente bons níveis de qualidade. Em vez disso, tudo depende do sistema de gestão de informações do seu negócio, das diretrizes de governança de dados (ou da ausência delas) e do conhecimento de sua equipe e objetivos de negócios, entre vários outros fatores.
Aqui estão algumas perguntas para fazer à sua equipe antes de iniciar o projeto:
Qual é a origem de nossas informações e qual é o método de coleta de dados?
Quais questões afetam o processo de coleta de dados e ameaçam os resultados positivos?
Quais informações os dados fornecem? Está em conformidade com os padrões de qualidade de dados (ou seja, as informações são precisas, completamente confiáveis e constantes)?
Os indivíduos designados estão cientes da importância da qualidade e da má qualidade dos dados?
Os papéis e responsabilidades estão definidos? Por exemplo, quem é obrigado a manter agendas regulares de limpeza de dados? Quem é responsável por criar registros mestres?
Os dados são adequados à finalidade?
Faça as perguntas certas, atribua as funções certas, implemente padrões de qualidade de dados e ajude sua equipe a enfrentar os desafios antes que eles se tornem problemáticos!
Para concluir
A qualidade dos dados não é apenas corrigir erros de digitação ou erros. Ele garante que os sistemas de IA não sejam discriminatórios, enganosos ou imprecisos. Antes de lançar um projeto de IA, é necessário resolver as falhas em seus dados e enfrentar os desafios de qualidade de dados. Além disso, inicie programas de alfabetização de dados em toda a organização para conectar todas as equipes ao objetivo geral.
Os funcionários da linha de frente que manipulam, processam e rotulam os dados precisam de treinamento em qualidade de dados para identificar vieses e erros a tempo .
Crédito da imagem em destaque: Fornecido pelo autor; Obrigada!
Imagens do Artigo Interior: Fornecida pelo Autor; Obrigada!
Farah Kim
Farah Kim é uma consultora de marketing centrada no ser humano com talento para resolver problemas e simplificar informações complexas em insights acionáveis para líderes de negócios. Ela está envolvida em tecnologia, B2B e B2C desde 2011.