technology

Tesla protege apostas Dojo com cluster de GPU Nvidia H100 de 10K • Strong The One

.

A Tesla ainda sonha em abastecer seus motores com capacidades reais de direção totalmente autônoma (FSD) e está gastando muito dinheiro em infraestrutura de IA para atingir esse marco.

O mais recente investimento do fabricante americano de EV está em um cluster de computação de 10.000 GPU, revelado em um xeet pelo engenheiro de IA da Tesla, Tim Zaman, no fim de semana. O sistema, que ficou online na segunda-feira, ajudará a processar os dados coletados por seus veículos e a acelerar o desenvolvimento da funcionalidade FSD de que tanto ouvimos falar. A montadora se recusou a comentar mais.

Tesla foi provocando capacidades de condução totalmente autônomas desde 2016. Até agora, o que foi entregue é essencialmente controle de super-cruzeiro: um sistema de assistência ao motorista que não é verdadeiramente autônomo e requer que um ser humano mantenha as mãos no volante.

O CEO Elon Musk não tem problemas em investir dinheiro no seu objetivo de alcançar o FSD. No mês passado, Tesla revelou que iria investir US$ 1 bilhão para construir seu supercomputador Dojo entre agora e o final de 2024 para acelerar o desenvolvimento de seu software de direção autônoma.

Esse supercomputador de IA em particular usa os enormes blocos Dojo Training de 15 kW da empresa, seis dos quais constituem um sistema Dojo V1 de um exaFLOPS (BF16) que levamos em consideração. Olhe para ano passado. Cada bloco é composto por um conjunto de matrizes de chip D1, todas projetadas pela Tesla e fabricadas pela TSMC.

Não é nenhum segredo que Tesla ainda emprega milhares de GPUs em sua infraestrutura. Em 2021, a montadora implantou um cluster de 720 nós de GPU, cada um equipado com oito de seus aceleradores A100 de última geração, para um total de 5.760 GPUs. Combinado, o sistema ofereceu até 1,8 exaFLOPS de desempenho FP16.

“Na verdade, levaremos o hardware tão rápido quanto a Nvidia nos entregar”, Musk anteriormente disse. “Se eles pudessem nos fornecer GPUs suficientes, talvez não precisássemos do Dojo, mas eles não podem porque têm muitos clientes”.

Esta implantação mais recente é quase duas vezes maior e usa GPUs H100 de última geração da Nvidia, que oferecem cerca de três vezes o desempenho FP16 de seu antecessor. O chip também adicionou suporte para matemática FP8.

À medida que você desce na escala, você abre mão de alguma precisão em troca de um melhor desempenho. No caso do H100 da Nvidia, FP8 te pega pouco menos de quatro petaFLOPS de desempenho máximo com escassez.

Supondo que a Tesla esteja usando os módulos SXM5 H100 mais poderosos da Nvidia, que se conectam ao chassi HGX da gigante do acelerador, estamos olhando para 1.250 nós, cada um com oito GPUs. Combinados, estamos olhando para 39,5 exaFLOPS de desempenho do FP8.

De acordo com Zaman, o sistema é suportado por uma capacidade de cache de nível quente de mais de 200 petabytes.

Também sabemos que a Tesla não está apenas alugando um monte de GPUs de provedores de nuvem como Microsoft ou Google. Zaman diz que todo o sistema está instalado nas instalações da Tesla.

“Muitas organizações dizem ‘Temos’, o que geralmente significa ‘Alugamos’, poucas realmente possuem e, portanto, integram-se totalmente verticalmente. Isso me incomoda porque possuir e manter é difícil. Alugar é fácil”, ele escreveu.

A Tesla pode estar procurando expandir a área de seu datacenter para acomodar capacidade adicional. No início deste mês, a montadora postou um abertura de Trabalho para gerente sênior de programa de engenharia para datacenters, que “lideraria o projeto e a engenharia ponta a ponta dos primeiros datacenters desse tipo da Tesla e será um dos principais membros de sua equipe de engenharia”.

Embora só possamos especular o que um datacenter inédito desse tipo pode envolver, a inauguração sugere que esse indivíduo poderia supervisionar a construção de uma nova instalação. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo