.
Avanços recentes em inteligência artificial e aprendizado profundo revolucionaram muitos setores e poderão em breve ajudar a recriar sua vizinhança também. Dadas imagens de uma paisagem, a análise de modelos de aprendizagem profunda pode ajudar os paisagistas urbanos a visualizar planos de redesenvolvimento, melhorando assim o cenário ou evitando erros dispendiosos.
Para conseguir isso, entretanto, os modelos devem ser capazes de identificar e categorizar corretamente cada elemento em uma determinada imagem. Esta etapa, chamada segmentação de instâncias, continua desafiadora para as máquinas devido à falta de dados de treinamento adequados. Embora seja relativamente fácil coletar imagens de uma cidade, gerar a “verdade básica”, ou seja, os rótulos que informam ao modelo se sua segmentação está correta, envolve segmentar meticulosamente cada imagem, muitas vezes à mão.
Agora, para resolver esse problema, pesquisadores da Universidade de Osaka desenvolveram uma maneira de treinar esses modelos que consomem muitos dados usando simulação computacional. Primeiro, um modelo de cidade 3D realista é usado para gerar a verdade básica da segmentação. Em seguida, um modelo imagem a imagem gera imagens fotorrealistas a partir das imagens reais. O resultado é um conjunto de dados de imagens realistas semelhantes às de uma cidade real, completo com rótulos reais gerados com precisão que não requerem segmentação manual.
“Dados sintéticos já foram usados em aprendizagem profunda antes”, diz o autor principal Takuya Kikuchi. “Mas a maioria dos sistemas paisagísticos depende de modelos 3D de cidades existentes, que continuam difíceis de construir. Também simulamos a estrutura da cidade, mas fazemos isso de uma forma que ainda gera dados de treinamento eficazes para modelos no mundo real.”
Depois que o modelo 3D de uma cidade realista é gerado processualmente, imagens de segmentação da cidade são criadas com um mecanismo de jogo. Finalmente, uma rede adversária generativa, que é uma rede neural que usa a teoria dos jogos para aprender como gerar imagens de aparência realista, é treinada para converter imagens de formas em imagens com texturas urbanas realistas. -ver imagens.
“Isso elimina a necessidade de conjuntos de dados de edifícios reais, que não estão disponíveis publicamente. Além disso, vários objetos individuais podem ser separados, mesmo que se sobreponham na imagem”, explica o autor correspondente Tomohiro Fukuda. “Mas o mais importante é que esta abordagem economiza o esforço humano e os custos associados a isso, ao mesmo tempo que gera bons dados de treinamento.”
Para provar isso, um modelo de segmentação denominado ‘rede neural convolucional baseada em região de máscara’ foi treinado nos dados simulados e outro foi treinado em dados reais. Os modelos tiveram desempenho semelhante em instâncias de edifícios grandes e distintos, embora o tempo para produzir o conjunto de dados tenha sido reduzido em 98%.
Os pesquisadores planejam ver se as melhorias no modelo imagem a imagem aumentam o desempenho em mais condições. Por enquanto, esta abordagem gera grandes quantidades de dados com um esforço impressionantemente baixo. A conquista dos pesquisadores abordará a escassez atual e futura de dados de treinamento, reduzirá os custos associados à preparação de conjuntos de dados e ajudará a inaugurar uma nova era de paisagismo urbano assistido por aprendizagem profunda.
.