.
A IBM Research desenvolveu um chip analógico de sinal misto para inferência de IA que, segundo ela, pode ser capaz de igualar o desempenho de equivalentes digitais, como GPUs, enquanto consome consideravelmente menos energia.
O chip, que é entendido como um projeto de pesquisa no momento, é detalhado em um papel publicado na semana passada na Nature Electronics. Ele usa uma combinação de memória de mudança de fase e circuitos digitais para realizar multiplicações matriz-vetor diretamente nos pesos de rede armazenados no chip.
Este não é o primeiro chip que a IBM desenvolveu como parte de sua HERMES projeto, mas a última encarnação compreende 64 ladrilhos, ou núcleos de computação, em oposição a um chip de 34 ladrilhos apresentado no simpósio IEEE VLSI em 2021. Ele também demonstra muitos dos blocos de construção que serão necessários para fornecer um baixo custo viável alimentar o chip acelerador de inferência de IA analógica, afirma a IBM.
Por exemplo, os 64 núcleos são interconectados por meio de uma rede de comunicação no chip, e o chip também implementa funções adicionais necessárias para o processamento de camadas convolucionais.
Redes neurais profundas (DNNs) impulsionaram muitos dos avanços recentes em IA, como modelos de fundação e IA generativa, mas nas arquiteturas atuais as unidades de memória e processamento são separadas.

Chip AI adiciona neurônios artificiais à RAM resistiva para uso em wearables e drones
Isso significa que tarefas computacionais envolvendo dados constantemente embaralhados entre a memória e as unidades de processamento, o que retarda o processamento e é uma fonte importante de ineficiência de energia, de acordo com a IBM.
O chip da IBM segue uma abordagem chamada computação analógica na memória (AIMC), usando células de memória de mudança de fase (PCM) para armazenar os pesos como um valor analógico e também realizar cálculos.
Cada um dos 64 núcleos do chip contém uma matriz PCM crossbar capaz de armazenar uma matriz de peso de 256 × 256 e realizar uma multiplicação analógica de matriz-vetor usando ativações de entrada fornecidas de fora do núcleo.
Isso significa que cada núcleo pode realizar os cálculos associados a uma camada de um modelo DNN, com os pesos codificados como valores de condutância analógica dos dispositivos PCM.
Os componentes digitais são compostos por uma linha de oito unidades globais de processamento digital (GDPUs) que fornecem recursos adicionais de pós-processamento digital necessários ao processar redes com camadas de memória convolucional e de longo prazo (LSTM).
O artigo destaca como as células PCM são programadas usando conversores digital-analógico que geram pulsos de programação com amplitudes de corrente e durações de tempo variáveis. Depois disso, o núcleo pode ser usado para realizar multiplicações matriz-vetor aplicando pulsos de tensão de leitura modulados por largura de pulso (PWM) ao arranjo PCM, cuja saída é digitalizada por um arranjo de 256 analógicos baseados em tempo. conversores digitais.
Isso é uma simplificação excessiva, é claro, já que o artigo da IBM publicado na Nature Electronics detalha exaustivamente como o circuito dentro de cada AIMC opera para processar os pesos de um modelo de aprendizado profundo.
O artigo também demonstra como o chip atinge a precisão de inferência quase equivalente ao software, que é de 92,81% no conjunto de dados de imagem CIFAR-10.
A IBM também reivindica a taxa de transferência de multiplicação de matriz-vetor medida por área de 400 giga-operações por segundo por milímetro quadrado (400 GOPS/mm2) é mais de 15 vezes maior do que os chips multicore anteriores baseados em memória resistiva, ao mesmo tempo em que alcança eficiência energética comparável.
A IBM não parece fornecer uma comparação útil de eficiência energética com outros sistemas de processamento de IA, como GPUs, mas menciona que durante os testes, uma única entrada para ResNet-9 foi processada em 1,52 μs e consumiu 1,51 μJ de energia.
O documento da IBM afirma que, com circuitos digitais adicionais para permitir as transferências de ativação de camada a camada e o armazenamento de ativação intermediária na memória local, deve ser possível executar cargas de trabalho de inferência de ponta a ponta totalmente pipeline em chips como este.
Os autores disseram que melhorias adicionais na densidade de peso também seriam necessárias para que os aceleradores AIMC se tornassem um forte concorrente das soluções digitais existentes, como GPUs.
Os chips usados nos testes foram fabricados usando um processo de 14 nm no Albany Nanotech Center da IBM em Nova York, e executados em uma frequência máxima de relógio de multiplicação matriz-vetor de 1 GHz.
A IBM não é a única empresa que trabalha com chips analógicos para IA. No ano passado, outro trabalho de pesquisa publicado na Nature descreveu um chip experimental que armazenou pesos em RAM resistiva (RRAM). Estima-se que o chip em questão consumiria menos de 2 microwatts de energia para executar uma tarefa típica de localização de palavras-chave em tempo real.
Por outro lado, a infraestrutura de computação típica usada para tarefas de IA usando GPUs está consumindo cada vez mais energia. Era relatado Este mês, alguns operadores de datacenter estão suportando até 70 quilowatts por rack para infraestrutura destinada ao processamento de IA, enquanto as cargas de trabalho tradicionais normalmente não exigem mais de 10 quilowatts por rack. ®
.