Estudos/Pesquisa

Um caminho mais simples para uma melhor visão computacional – Strong The One

.

Antes que um modelo de aprendizado de máquina possa concluir uma tarefa, como identificar câncer em imagens médicas, o modelo deve ser treinado. Os modelos de classificação de imagens de treinamento geralmente envolvem a exibição de milhões de imagens de exemplo reunidas em um conjunto de dados massivo.

No entanto, o uso de dados de imagens reais pode levantar questões práticas e éticas: as imagens podem entrar em conflito com as leis de direitos autorais, violar a privacidade das pessoas ou ser tendenciosas contra um determinado grupo racial ou étnico. Para evitar essas armadilhas, os pesquisadores podem usar programas de geração de imagens para criar dados sintéticos para treinamento de modelos. Mas essas técnicas são limitadas porque o conhecimento especializado geralmente é necessário para projetar manualmente um programa de geração de imagens que possa criar dados de treinamento eficazes.

Pesquisadores do MIT, do MIT-IBM Watson AI Lab e de outros lugares adotaram uma abordagem diferente. Em vez de projetar programas personalizados de geração de imagens para uma tarefa de treinamento específica, eles reuniram um conjunto de dados de 21.000 programas disponíveis publicamente na Internet. Em seguida, eles usaram essa grande coleção de programas básicos de geração de imagens para treinar um modelo de visão computacional.

Esses programas produzem diversas imagens que exibem cores e texturas simples. Os pesquisadores não organizaram ou alteraram os programas, cada um com apenas algumas linhas de código.

Os modelos que eles treinaram com esse grande conjunto de dados de programas classificaram as imagens com mais precisão do que outros modelos treinados sinteticamente. E, embora seus modelos tenham desempenho inferior aos treinados com dados reais, os pesquisadores mostraram que aumentar o número de programas de imagem no conjunto de dados também aumentou o desempenho do modelo, revelando um caminho para obter maior precisão.

“Acontece que usar muitos programas sem curadoria é realmente melhor do que usar um pequeno conjunto de programas que as pessoas precisam manipular. Os dados são importantes, mas mostramos que você pode ir muito longe sem dados reais”, diz Manel Baradad , estudante de graduação em engenharia elétrica e ciência da computação (EECS) que trabalha no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e principal autor do artigo que descreve essa técnica.

Os co-autores incluem Tongzhou Wang, um estudante de graduação da EECS em CSAIL; Rogerio Feris, principal cientista e gerente do MIT-IBM Watson AI Lab; Antonio Torralba, Professor de Eletrônica da Delta em Engenharia Elétrica e Ciência da Computação e membro do CSAIL; e autor sênior Phillip Isola, um professor associado em EECS e CSAIL; juntamente com outros no JPMorgan Chase Bank e Xyla, Inc. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.

Repensando o pré-treinamento

Os modelos de aprendizado de máquina geralmente são pré-treinados, o que significa que eles são treinados primeiro em um conjunto de dados para ajudá-los a criar parâmetros que podem ser usados ​​para lidar com uma tarefa diferente. Um modelo para classificar raios-X pode ser pré-treinado usando um enorme conjunto de dados de imagens geradas sinteticamente antes de ser treinado para sua tarefa real usando um conjunto de dados muito menor de raios-X reais.

Esses pesquisadores mostraram anteriormente que poderiam usar um punhado de programas de geração de imagens para criar dados sintéticos para o pré-treinamento do modelo, mas os programas precisavam ser cuidadosamente projetados para que as imagens sintéticas correspondessem a certas propriedades das imagens reais. Isso dificultou a ampliação da técnica.

No novo trabalho, eles usaram um enorme conjunto de dados de programas de geração de imagens sem curadoria.

Eles começaram reunindo um acervo de 21.000 programas de geração de imagens da internet. Todos os programas são escritos em uma linguagem de programação simples e compreendem apenas alguns trechos de código, de modo que geram imagens rapidamente.

“Esses programas foram desenvolvidos por desenvolvedores de todo o mundo para produzir imagens com algumas das propriedades que nos interessam. Eles produzem imagens que se parecem com arte abstrata”, explica Baradad.

Esses programas simples podem ser executados tão rapidamente que os pesquisadores não precisaram produzir imagens com antecedência para treinar o modelo. Os pesquisadores descobriram que poderiam gerar imagens e treinar o modelo simultaneamente, o que agiliza o processo.

Eles usaram seu enorme conjunto de dados de programas de geração de imagens para pré-treinar modelos de visão computacional para tarefas de classificação de imagens supervisionadas e não supervisionadas. No aprendizado supervisionado, os dados da imagem são rotulados, enquanto no aprendizado não supervisionado o modelo aprende a categorizar as imagens sem rótulos.

Melhorando a precisão

Quando eles compararam seus modelos pré-treinados com modelos de visão computacional de última geração que foram pré-treinados usando dados sintéticos, seus modelos foram mais precisos, o que significa que eles colocaram as imagens nas categorias corretas com mais frequência. Embora os níveis de precisão ainda fossem menores do que os modelos treinados em dados reais, sua técnica reduziu a diferença de desempenho entre os modelos treinados em dados reais e os treinados em dados sintéticos em 38%.

“É importante ressaltar que mostramos que, para o número de programas coletados, o desempenho aumenta logaritmicamente. Não saturamos o desempenho; portanto, se coletarmos mais programas, o modelo terá um desempenho ainda melhor. Portanto, existe uma maneira de estender nossa abordagem”, diz Manel.

Os pesquisadores também usaram cada programa de geração de imagem individual para pré-treinamento, em um esforço para descobrir fatores que contribuem para a precisão do modelo. Eles descobriram que quando um programa gera um conjunto mais diversificado de imagens, o modelo funciona melhor. Eles também descobriram que imagens coloridas com cenas que preenchem toda a tela tendem a melhorar mais o desempenho do modelo.

Agora que demonstraram o sucesso dessa abordagem de pré-treinamento, os pesquisadores querem estender sua técnica a outros tipos de dados, como dados multimodais que incluem texto e imagens. Eles também querem continuar explorando maneiras de melhorar o desempenho da classificação de imagens.

“Ainda há uma lacuna a ser preenchida com modelos treinados em dados reais. Isso dá à nossa pesquisa uma direção que esperamos que outros sigam”, diz ele.

.

Source link

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo