.
Muitos sistemas de computador com os quais as pessoas interagem diariamente exigem conhecimento sobre certos aspectos do mundo, ou modelos, para funcionar. Esses sistemas precisam ser treinados, muitas vezes precisando aprender a reconhecer objetos de dados de vídeo ou imagem. Esses dados geralmente contêm conteúdo supérfluo que reduz a precisão dos modelos. Assim, os pesquisadores encontraram uma maneira de incorporar gestos manuais naturais no processo de ensino. Dessa forma, os usuários podem ensinar mais facilmente as máquinas sobre objetos, e as máquinas também podem aprender de forma mais eficaz.
Você provavelmente já ouviu o termo aprendizado de máquina antes, mas está familiarizado com o ensino de máquina? O aprendizado de máquina é o que acontece nos bastidores quando um computador usa dados de entrada para formar modelos que podem ser usados posteriormente para executar funções úteis. Mas o ensino de máquina é a parte um pouco menos explorada do processo, de como o computador obtém seus dados de entrada para começar. No caso de sistemas visuais, por exemplo, aqueles que podem reconhecer objetos, as pessoas precisam mostrar objetos a um computador para que ele possa aprender sobre eles. Mas há desvantagens nas maneiras como isso é feito que pesquisadores do Laboratório de Sistemas Inteligentes Interativos da Universidade de Tóquio procuraram melhorar.
“Em um cenário típico de treinamento de objetos, as pessoas podem segurar um objeto na frente de uma câmera e movê-lo para que um computador possa analisá-lo de todos os ângulos para construir um modelo”, disse o estudante de pós-graduação Zhongyi Zhou. “No entanto, as máquinas não têm nossa capacidade evoluída de isolar objetos de seus ambientes, de modo que os modelos que eles fazem podem incluir inadvertidamente informações desnecessárias dos planos de fundo das imagens de treinamento. Isso geralmente significa que os usuários devem gastar tempo refinando os modelos gerados, o que pode ser um pouco tarefa técnica e demorada. Achamos que deveria haver uma maneira melhor de fazer isso, que fosse melhor tanto para usuários quanto para computadores, e com nosso novo sistema, LookHere, acredito que a encontramos.”
Zhou, trabalhando com o professor associado Koji Yatani, criou o LookHere para resolver dois problemas fundamentais no ensino de máquina: primeiro, o problema da eficiência do ensino, visando minimizar o tempo dos usuários e o conhecimento técnico necessário. E em segundo lugar, da eficiência do aprendizado – como garantir melhores dados de aprendizado para as máquinas criarem modelos. LookHere consegue isso fazendo algo novo e surpreendentemente intuitivo. Ele incorpora os gestos das mãos dos usuários na maneira como uma imagem é processada antes que a máquina a incorpore em seu modelo, conhecido como HuTics. Por exemplo, um usuário pode apontar ou apresentar um objeto para a câmera de uma maneira que enfatize seu significado em comparação com os outros elementos da cena. É exatamente assim que as pessoas podem mostrar objetos umas às outras. E ao eliminar detalhes irrelevantes, graças à ênfase adicionada ao que é realmente importante na imagem, o computador obtém melhores dados de entrada para seus modelos.
“A ideia é bastante simples, mas a implementação foi muito desafiadora”, disse Zhou. “Todo mundo é diferente e não há um conjunto padrão de gestos com as mãos. Então, primeiro coletamos 2.040 vídeos de exemplo de 170 pessoas apresentando objetos para a câmera no HuTics. Esses recursos foram anotados para marcar o que fazia parte do objeto e quais partes do objeto imagem eram apenas as mãos da pessoa. O LookHere foi treinado com HuTics e, quando comparado a outras abordagens de reconhecimento de objetos, pode determinar melhor quais partes de uma imagem recebida devem ser usadas para construir seus modelos. Para garantir que seja o mais acessível possível, os usuários podem usam seus smartphones para trabalhar com o LookHere e o processamento real é feito em servidores remotos. Também lançamos nosso código-fonte e conjunto de dados para que outros possam construí-lo, se desejarem.”
Considerando a demanda reduzida de tempo dos usuários que a LookHere oferece às pessoas, Zhou e Yatani descobriram que ela pode construir modelos até 14 vezes mais rápido do que alguns sistemas existentes. Atualmente, o LookHere lida com máquinas de ensino sobre objetos físicos e usa exclusivamente dados visuais para entrada. Mas, em teoria, o conceito pode ser expandido para usar outros tipos de dados de entrada, como dados sonoros ou científicos. E os modelos feitos a partir desses dados também se beneficiariam de melhorias semelhantes na precisão.
Fonte da história:
Materiais fornecidos por Universidade de Tóquio. Nota: O conteúdo pode ser editado para estilo e duração.
.





