Estudos/Pesquisa

Nova técnica pode diminuir erros que prejudicam o desempenho de redes neurais ópticas analógicas super-rápidas – Strong The One

.

À medida que os modelos de aprendizado de máquina se tornam maiores e mais complexos, eles exigem hardware mais rápido e mais eficiente em termos de energia para realizar cálculos. Computadores digitais convencionais estão lutando para acompanhar.

Uma rede neural óptica analógica pode realizar as mesmas tarefas que uma rede digital, como classificação de imagem ou reconhecimento de fala, mas como os cálculos são executados usando luz em vez de sinais elétricos, as redes neurais ópticas podem funcionar muito mais rápido enquanto consomem menos energia.

No entanto, esses dispositivos analógicos são propensos a erros de hardware que podem tornar os cálculos menos precisos. Imperfeições microscópicas em componentes de hardware são uma das causas desses erros. Em uma rede neural óptica com muitos componentes conectados, os erros podem se acumular rapidamente.

Mesmo com técnicas de correção de erros, devido às propriedades fundamentais dos dispositivos que compõem uma rede neural óptica, algum erro é inevitável. Uma rede grande o suficiente para ser implementada no mundo real seria muito imprecisa para ser eficaz.

Os pesquisadores do MIT superaram esse obstáculo e encontraram uma maneira de dimensionar efetivamente uma rede neural óptica. Ao adicionar um pequeno componente de hardware aos comutadores ópticos que formam a arquitetura da rede, eles podem reduzir até mesmo os erros incorrigíveis que, de outra forma, se acumulariam no dispositivo.

O trabalho deles pode permitir uma rede neural analógica super rápida e com baixo consumo de energia que pode funcionar com a mesma precisão de uma rede digital. Com esta técnica, à medida que um circuito óptico se torna maior, a quantidade de erro em seus cálculos realmente diminui.

“Isso é notável, pois vai contra a intuição dos sistemas analógicos, onde circuitos maiores devem ter erros maiores, de modo que os erros estabelecem um limite para a escalabilidade. Este artigo nos permite abordar a questão da escalabilidade desses sistemas com um ‘sim’ inequívoco”, diz o principal autor Ryan Hamerly, cientista visitante do Laboratório de Pesquisa de Eletrônica (RLE) do MIT e do Laboratório de Fotônica Quântica e cientista sênior da NTT Research.

Os co-autores de Hamerly são o estudante de pós-graduação Saumil Bandyopadhyay e o autor sênior Dirk Englund, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, líder do Laboratório de Fotônica Quântica e membro do RLE. A pesquisa é publicada em Natureza Comunicações.

Multiplicando com luz

Uma rede neural óptica é composta de muitos componentes conectados que funcionam como espelhos reprogramáveis ​​e sintonizáveis. Esses espelhos sintonizáveis ​​são chamados de inferômetros de Mach-Zehnder (MZI). Os dados da rede neural são codificados em luz, que é disparada na rede neural óptica a partir de um laser.

Um MZI típico contém dois espelhos e dois divisores de feixe. A luz entra no topo de um MZI, onde é dividida em duas partes que interferem uma na outra antes de serem recombinadas pelo segundo divisor de feixe e então refletidas na parte inferior para o próximo MZI na matriz. Os pesquisadores podem aproveitar a interferência desses sinais ópticos para realizar operações complexas de álgebra linear, conhecidas como multiplicação de matrizes, que é como as redes neurais processam dados.

Mas os erros que podem ocorrer em cada MZI se acumulam rapidamente à medida que a luz se move de um dispositivo para outro. Pode-se evitar alguns erros identificando-os com antecedência e ajustando os MZIs para que erros anteriores sejam cancelados por dispositivos posteriores na matriz.

“É um algoritmo muito simples se você souber quais são os erros. Mas esses erros são notoriamente difíceis de verificar porque você só tem acesso às entradas e saídas do seu chip”, diz Hamerly. “Isso nos motivou a ver se é possível criar correção de erros sem calibração.”

Hamerly e seus colaboradores demonstraram anteriormente uma técnica matemática que foi um passo além. Eles puderam inferir com sucesso os erros e ajustar corretamente os MZIs de acordo, mas mesmo isso não removeu todos os erros.

Devido à natureza fundamental de um MZI, há casos em que é impossível ajustar um dispositivo para que toda a luz flua pela porta inferior para o próximo MZI. Se o dispositivo perder uma fração de luz a cada passo e a matriz for muito grande, no final restará apenas um pouquinho de energia.

“Mesmo com a correção de erros, há um limite fundamental para o quão bom um chip pode ser. Os MZIs são fisicamente incapazes de realizar certas configurações para as quais precisam ser configurados”, diz ele.

Assim, a equipe desenvolveu um novo tipo de MZI. Os pesquisadores adicionaram um divisor de feixe adicional ao final do dispositivo, chamando-o de 3-MZI porque possui três divisores de feixe em vez de dois. Devido à forma como este divisor de feixe adicional mistura a luz, torna-se muito mais fácil para um MZI atingir a configuração necessária para enviar toda a luz de fora através de sua porta inferior.

É importante ressaltar que o divisor de feixe adicional tem apenas alguns micrômetros de tamanho e é um componente passivo, portanto, não requer nenhuma fiação extra. Adicionar divisores de feixe adicionais não altera significativamente o tamanho do chip.

Chip maior, menos erros

Quando os pesquisadores realizaram simulações para testar sua arquitetura, descobriram que ela pode eliminar muitos dos erros incorrigíveis que prejudicam a precisão. E à medida que a rede neural óptica se torna maior, a quantidade de erros no dispositivo realmente diminui – o oposto do que acontece em um dispositivo com MZIs padrão.

Usando 3-MZIs, eles poderiam criar um dispositivo grande o suficiente para uso comercial com erro reduzido por um fator de 20, diz Hamerly.

Os pesquisadores também desenvolveram uma variante do projeto MZI especificamente para erros correlacionados. Isso ocorre devido a imperfeições de fabricação – se a espessura de um chip estiver ligeiramente errada, os MZIs podem estar todos errados aproximadamente na mesma quantidade, portanto, os erros são praticamente os mesmos. Eles encontraram uma maneira de alterar a configuração de um MZI para torná-lo robusto a esses tipos de erros. Essa técnica também aumentou a largura de banda da rede neural óptica para que ela funcione três vezes mais rápido.

Agora que eles demonstraram essas técnicas usando simulações, Hamerly e seus colaboradores planejam testar essas abordagens em hardware físico e continuar avançando em direção a uma rede neural óptica que possam efetivamente implantar no mundo real.

Esta pesquisa é financiada, em parte, por uma bolsa de pesquisa de pós-graduação da National Science Foundation e pelo Escritório de Pesquisa Científica da Força Aérea dos EUA.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo