technology

A Nvidia pegou dois cartões H100 e os colou juntos • Strong The One

.

GTC A estratégia da Nvidia para capitalizar o hype generativo da IA: colar duas placas PCIe H100 juntas, é claro.

Na GTC esta semana, a Nvidia revelou uma nova versão de sua GPU H100, apelidada de H100 NVL, que diz ser ideal para inferir grandes modelos de linguagem como ChatGPT ou GPT4. E se parece que dois Placas PCIe H100 grudados, porque é exatamente isso. (Bem, também tem memória mais rápida, mais sobre isso depois.)

“Essas GPUs funcionam como uma só para implantar grandes modelos de linguagem e modelos GPT de qualquer lugar, de cinco bilhões de parâmetros a 200 [billion]”, disse o vice-presidente de computação acelerada da Nvidia, Ian Buck, durante uma coletiva de imprensa na segunda-feira.

O fator de forma é um pouco estranho para a Nvidia, que tem uma longa história de empacotar várias matrizes de GPU em uma única placa. Na verdade, os superchips Grace Hopper da Nvidia basicamente fazem exatamente isso, mas com uma CPU Grace e Hopper GH100. Se tivéssemos que adivinhar, a Nvidia pode ter tido problemas para empacotar circuitos de energia e memória suficientes em um fator de forma PCIe corporativo padrão.

Falando em fator de forma, o frankencard é enorme em qualquer trecho da imaginação, abrangendo quatro slots e possui um TDP para corresponder a cerca de 700W. A comunicação é feita por um par de slots PCIe 5.0 x16, porque são apenas dois H100s colados. A cola nesta equação parece ser três pontes NVLink que a Nvidia diz serem boas para 600 GB/s de largura de banda – ou um pouco mais de 4,5x a largura de banda de suas interfaces PCIe duplas.

Embora você possa esperar um desempenho equivalente a um par de H100s, a Nvidia afirma que a placa é realmente capaz de 2,4x-2,6x o desempenho, pelo menos em cargas de trabalho FP8 e FP16.

Esse desempenho provavelmente pode ser atribuído à decisão da Nvidia de usar memória HBM3 mais rápida em vez de HBM2e. Notaremos que a Nvidia já está usando HBM3 em suas GPUs SMX5 maiores. E a memória não tem apenas largura de banda maior – 4x em comparação com uma única placa PCIe H100 de 80 GB – também tem mais: 94 GB por matriz.

Os próprios cartões destinam-se à inferência de modelos de linguagem ampla. “O treinamento é a primeira etapa – ensinar um modelo de rede neural a executar uma tarefa, responder a uma pergunta ou gerar uma imagem. A inferência é a implantação desses modelos na produção”, disse Buck.

Embora a Nvidia já tenha seus SXM5 H100s maiores disponíveis para treinamento de IA, eles estão disponíveis apenas nos OEMs em conjuntos de quatro ou oito. E com 700 W cada, esses sistemas não são apenas quentes, mas potencialmente desafiadores para os datacenters existentes acomodarem. Para referência, a maioria dos racks de colocação fica entre 6-10KW.

Em comparação, o H100 NVL, de 700 W, deve ser um pouco mais fácil de acomodar. Pela nossa estimativa, um único soquete, sistema H100 NVL duplo (quatro matrizes GH100) estaria em algum lugar próximo a 2,5 KW.

No entanto, quem estiver interessado em pegar um desses terá que esperar. Embora a Nvidia possa ter escolhido o caminho mais fácil e colado duas placas juntas, a empresa diz que suas placas NVL não estarão prontas até o segundo semestre do ano.

E se você não precisar de uma GPU que cospe fogo?

Se você está procurando algo um pouco mais eficiente no mercado, a Nvidia também lançou o sucessor do venerável T4. O L4 baseado em Ada Lovelace é um GPU de slot único e de baixo perfil, com um TDP quase 1/10 do H100 NVL a 72W.

O L4 da Nvidia é um cartão de slot único de baixo perfil que consome apenas 72W.

O L4 da Nvidia é um cartão de slot único e discreto que consome apenas 72W (clique para ampliar)

Isso significa que a placa, como suas predecessoras, pode ser totalmente desligada do barramento PCIe. Ao contrário das placas NVL, projetadas para inferência em modelos grandes, a Nvidia está posicionando a L4 como sua “GPU universal”. Em outras palavras, é apenas outra GPU, mas menor e mais barata, para que possa ser compactada em mais sistemas – até oito para ser exato. De acordo com a ficha técnica da L4, cada placa é equipada com 24 GB de vRAM e até 32 teraflops de desempenho FP32.

“É para AI, vídeo e gráficos eficientes”, disse Buck, acrescentando que a placa é especificamente otimizada para cargas de trabalho de vídeo AI e apresenta novos aceleradores de codificador/decodificador.

“Um servidor L4 pode decodificar 1040 streams de vídeo provenientes de diferentes usuários móveis”, disse ele, deixando de fora exatamente quantas GPUs esse servidor precisa para fazer isso ou em que resolução esses streams são.

Essa funcionalidade se alinha com as placas da série 4 existentes da Nvidia, que são tradicionalmente usadas para decodificação, codificação, transcodificação e streaming de vídeo.

Mas, assim como seus irmãos maiores, o L40 e o H100, o cartão também pode ser usado para inferência de IA em uma variedade de modelos menores. Para esse fim, um dos primeiros clientes do L4 será o Google Cloud para sua plataforma Vertex AI e VMs da série G2.

O L4 está disponível em visualização privada no GCP e está disponível para compra na rede de parceiros mais ampla da Nvidia. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo