.
Entrevista O primeiro chip Prodigy da Tachyum ainda nem foi gravado – e muito menos entrou em produção em massa – mas um cliente, segundo nos disseram, se comprometeu a comprar centenas de milhares de processadores para alimentar um enorme supercomputador de 50 exaFLOPS.
Normalmente, quando vemos números como esse, a suposição óbvia é que eles estão falando sobre AI FLOPS usando precisão matemática de ponto flutuante de 8 ou 16 bits, e não os cálculos de precisão dupla de 64 bits normalmente usados em computação de alto desempenho. Mas Tachyum reivindicado o sistema será capaz de atingir 25 vezes o desempenho do “supercomputador convencional mais rápido do mundo construído apenas este ano”.
Isto parece ser uma referência ao recém-inaugurado supercomputador Aurora no Argonne National Labs, que possui mais de dois exaFLOPS de desempenho máximo de FP64.
Se a afirmação de Tachyum já não fosse suficientemente selvagem, o designer do processador afirma que o próximo sistema será capaz de oito zetaFLOPS de desempenho de IA para modelos de linguagem grande e contará com centenas de petabytes de memória DDR5, quando for concluído em 2025.
Um prodígio de papel
Para compreender completamente o escopo do que a Tachyum está planejando, precisamos dar uma olhada mais de perto no chip que a empresa passou os últimos anos desenvolvendo e redesenvolvendo.
Tachyum descreve o Prodigy como um processador universal. Como o nome sugere, este não é um chip especializado projetado exclusivamente para acelerar cargas de trabalho de IA ou HPC. Ele foi concebido como um componente de uso geral que pode executar qualquer carga de trabalho que você possa usar. O emulador QEMU foi portado para a arquitetura do Prodigy para executar o código x86, Arm e RISC-V atual.

Depois de abandonar o fornecedor de IP Cadence como parte de uma ação judicial no ano passado, a Prodigy recebeu outra reformulação agora com 192 núcleos. Clique para ampliar
É “uma CPU que integra IA e HPC gratuitamente. Essa é a nossa história”, disse o CEO Radoslav Danilak Strong The One.
Dando uma olhada nas últimas renderizações do Tachyum, podemos ver a maior parte dos 600mm do Prodigy2 die é dedicado aos seus 192 núcleos de processador de 64 bits. Portanto, também será um chip decentemente grande, mas não tão grande quanto o GH100 da Nvidia com 814 mm2. Os núcleos apresentam uma arquitetura de conjunto de instruções personalizado e executarão quatro instruções fora de ordem por ciclo de clock em frequências superiores a 5 GHz, de acordo com o Ficha de dados [PDF] pelo menos.
Para atrair os mercados Big Iron, os núcleos contarão com recursos duplos de processamento vetorial de 1024 bits com suporte nativo para matemática matricial. Isso, segundo Danilak, aumenta a “amortização da busca, decodificação, agendamento e assim por diante da sobrecarga da CPU em comparação com o caminho de dados em ordem de magnitude”.
De acordo com Tachyum, esses núcleos também são rápidos, com a parte de especificação superior supostamente capaz de 90 teraFLOPS de desempenho FP64 e 12 petaFLOPS de FP8 com dispersão. Ao empregar maiores graus de escassez, o novo negócio se orgulha de que o chip será capaz de 48 petaFLOPS.
“Estaremos mostrando, nos próximos 30 dias – publicando um artigo – essas medições a partir desses benchmarks padrão da indústria, onde basicamente alcançamos, incluindo treinamento, dois bits por peso”, disse Danilak.
Para colocar esses números em perspectiva, Tachyum está essencialmente dizendo que seu chip oferecerá 3x o desempenho dos módulos H100 SXM da Nvidia em cargas de trabalho de HPC e IA. Porém – notamos que, dado o cronograma – o H100 provavelmente não será o chip que o Prodigy terá de enfrentar; esperamos que a Nvidia anuncie seu acelerador de próxima geração na próxima primavera.
No entanto, uma área em que o Prodigy fica atrás da Nvidia é a largura de banda da memória. Com 16 canais de DDR5 e suporte para memória de 7.200 MB/s quando estiver disponível, esses núcleos estão sendo alimentados por 921 GB/s de largura de banda.
Isso Danilak admite que “não é suficiente”, mas observa que seus engenheiros desenvolveram “tecnologia de amplificação de largura de banda, que é uma palavra bonita, mas basicamente temos compressão de largura de banda para precisão dupla, precisão única e assim por diante… Então, temos a gentileza de de dois terabytes por segundo.”
Em comparação, a maioria dos outros chips construídos com IA em mente dependem de amontoar o máximo possível de memória de alta largura de banda (HBM) ao redor do chip de computação. A vantagem do HBM é a largura de banda. A memória HBM3e usada na última iteração dos GH200s da Nvidia – o nome de seus chips Grace Hopper CPU-GPU – aumenta largura de banda para 5 TB/s.
A desvantagem da HBM é a capacidade. Você só pode empacotar alguns módulos em torno de um dado antes de ficar sem espaço. Mas, com 16 canais de memória cada um suportando dois DIMMs, Tachyum diz que o chip pode suportar até 2 TB por soquete.
Uma ‘grande máquina’
Mesmo que o Prodigy seja tão poderoso quanto Tachyum espera, um supercomputador de 50 exaFLOPS será absolutamente enorme. “É uma máquina enorme, grande, grande”, exclamou Danilak.
Acreditando na palavra de Tachyum e assumindo que o Prodigy irá realmente gerenciar 90 teraFLOPS de desempenho FP64 por soquete, estimamos que tal máquina exigiria cerca de meio milhão de chips. Baseado em um papel branco detalhando um sistema menor lançado no início deste ano, essa grande fera terá pouco menos de 1.600 gabinetes 88U.
Danilak nos diz que nossa “matemática não está muito longe” e que a máquina – encomendada por um cliente dos EUA – exigirá “algumas centenas de milhares de soquetes. Não estamos divulgando o número exato”.
O que sabemos é que os servidores serão conectados em rede usando RDMA de 400 Gb/s sobre Ethernet Convergente (ROCE) usando tecnologia fornecida por um fornecedor terceirizado, embora, como muitas facetas do sistema, Tachyum ainda não tenha dito qual.
Comparada aos maiores supercomputadores dos EUA, a máquina detalhada por Tachyum é muito, muito maior. Sistema Aurora do Argonne National Lab concluído em junho pacotes 10.624 blades de computação contendo 63.744 GPUs Intel Ponte Vecchio e 21.248 processadores Intel Xeon Max Series em 166 racks e com consumo estimado de 60 MW.
Não está claro quanta energia um sistema de 50 exaFLOPS rodando no Prodigy consumirá, embora o whitepaper ofereça algumas pistas. Nesse exemplo, a empresa estimou que poderia espremer 3,3 exaFLOPS de desempenho FP64 em 6.000 pés quadrados de área útil com um orçamento de energia de 45,2 MW. Extrapolando isso, uma máquina 50-EF precisaria da ordem de 685 MW de potência.
Danilak nos garante que este não será o caso e que o consumo de energia não será linear a partir desse exemplo. “A energia é o problema mais difícil do projeto”, acrescentou. “Você não pode obter 200 MW, mas 700 MW também não é viável”.
Embora não tenha revelado onde a instalação seria construída nos Estados Unidos, ele disse que a energia estava sendo levada em consideração. “Para deixar claro, não estamos dizendo que faremos a instalação em nível de sistema. Não temos recursos para isso”, enfatizou Danilak. “O contrato está focado na entrega dos chips.”
Em outras palavras, se ou como o cliente misterioso de Tachyum pretende alimentar tal sistema não é realmente um problema da empresa de chips – eles só precisam fornecer o silício.
Uma estrada longa e acidentada
Se você notou que continuamos dizendo “vai” e não “faz” quando falamos sobre o Prodigy, é porque, apesar de insistir que o trabalho no enorme supercomputador começará no próximo ano, Tachyum ainda não gravou o chip para produção. Então, no momento, o Prodigy só existe no papel, em simulações ou em emulação de hardware rodando em um banco de FPGAs.
“Estamos quase lá; ainda não chegamos lá”, disse Danilak.
Nos cinco anos desde que a Tachyum anunciou pela primeira vez o desenvolvimento do Prodigy, a empresa anunciou planos de retirar fita adesiva apenas em caso de bloqueios de estradas para paralisar o projeto. E com cada um deles o chip ficou mais ambicioso.
Quando nosso site irmão A próxima plataforma olhei pela primeira vez para o Prodigy, a parte superior foi programado ter 64 núcleos e fita até o final de 2020. A data esperada de saída da fita caiu dois anos, mas dobrou o núcleo conta para 128. Mas antes que isso acontecesse, o negócio mudou os fornecedores de automação de design eletrônico (EDA) e bateu a contagem de núcleos chegou a 192 núcleos, mas novamente perdeu tempo no processo.
“As ferramentas se comportam de maneira diferente. O giro dos botões e as configurações – o que levamos de 18 a 24 meses para encontrar as configurações ideais em uma ferramenta. Quando você troca a ferramenta, fica completamente confuso”, explicou Danilak. “Então, levou mais de um ano – 15 meses – para basicamente chegarmos onde estávamos no lado físico. Simulação, mudamos em três meses.”
Como nós relatado na época, a última questão foi o resultado de uma ação judicial entre Tachyum e o fornecedor de IP de semicondutores Cadence em meio a alegações de travessuras.
“A jornada é um pouco mais longa do que o normal”, admitiu Danilak, explicando que a empresa sediada no Vale do Silício enfrentou uma série de desafios.
“No início, perdemos mais de um quarto, quase dois trimestres, por causa do OFAC”, disse Danilak, referindo-se às questões de obtenção de financiamento da série A para a América, ligadas ao Gabinete de Controlo de Ativos Estrangeiros dos EUA. “A segunda coisa: COVID-19 atingiu a série B [with] momento muito infeliz. E em terceiro lugar, temos que substituir as ferramentas agora.”
O último obstáculo, segundo Danilak, surgiu como resultado de uma solicitação de recurso exclusivo de um grande cliente. Quais são esses recursos, ele não disse, mas fomos informados de que exigiam tempo adicional de design e planejamento.
No entanto, em vez de fabricar dois chips, Danilak disse “haverá o Prodigy C – isso é para o cliente – e haverá o mercado geral do Prodigy. E é a mesma matriz, mas durante a fabricação, vamos queimar o fusível, o que desabilitará a funcionalidade para aquele cliente especial para todos os outros.”
O tempo está passando
O tempo está passando para o lançamento do Prodigy. A Tachyum terá que retirar a fita em breve se quiser fazer a entrega inicial dos chips no prazo.
Para acelerar o processo, a empresa utilizará uma “fita dividida”. Isso, explica ele, envolve fazer com que a fábrica comece a trabalhar nas camadas inferiores do wafer e conclua-o mais tarde. Ele afirma que isso permitirá que a empresa de chips faça alterações mais rapidamente à medida que problemas de fabricação e design forem descobertos.
“Esperamos precisar de um giro de metal no chip”, explicou ele. “Hoje, raramente o primeiro chip entra em produção.” Com isso ele quer dizer que serão feitas duas revisões do processador: a primeira, uma execução piloto, e a outra após a correção de quaisquer problemas. Isso é algo padrão.
De acordo com liberara primeira fase da implantação do supercomputador está programada para acontecer em 2024, com a maior parte da implantação prevista para 2025.
“Na primeira fase, [will] entregar um certo número de fichas para que eles [the customer] podem basicamente instalá-lo e começar a depuração, software de gerenciamento e assim por diante”, disse Danilak. “Depois de girar o metal, abriremos o soquete e substituiremos nosso chip… e arcaremos com o custo.”
Em outras palavras, Tachyum pode muito bem estar eliminando bugs depois que os primeiros chips forem implantados para teste e avaliação. Como dissemos, isso não é incomum. Fabricantes de chips como a Intel costumam testar chips para grandes clientes para fins de avaliação. Também não seria sem precedentes que um defeito de design paralisasse a implantação de um sistema importante. Os tão esperados Sapphire Rapids Xeons da Intel, por exemplo, foram responsável por atrasar a implantação do Aurora.
Se a fita de Prodigy será adiada novamente, ainda não se sabe, no entanto, Danilak está cautelosamente otimista.
“Depois de passarmos pela crise da indústria COVID e assim por diante, Deus sabe o que acontecerá basicamente no próximo ano, mas salvo algumas surpresas malucas, elas deveriam estar lá”, disse ele.
Dito isto, ele vê vários fatores de risco no horizonte. “O que acontece se houver guerra em Taiwan ou um bloqueio”, disse ele, acrescentando que a empresa tem planos de contingência para mitigar este risco “à custa do tempo”. ®
.