.
Na Cúpula Global do Open Compute Project (OCP) de 2022 na terça-feira, a Meta apresentou seu hardware de datacenter alimentado por GPU de segunda geração para aprendizado de máquina e inferência – um sistema chamado Grand Teton.
“Estamos empolgados em anunciar Grand Teton, nossa plataforma de próxima geração para IA em escala que contribuiremos para a comunidade OCP”, disse Alexis Björlin, vice-presidente de engenharia da Meta, em nota para O registro. “Assim como acontece com outras tecnologias, levamos diligentemente plataformas de IA para a comunidade OCP há muitos anos e esperamos continuar a parceria.”
Ajustado para processamento rápido de cargas de trabalho de IA em grande escala em datacenters, o Grand Teton apresenta inúmeras melhorias em relação ao seu antecessor Siãocomo 4x a largura de banda do host para a GPU, 2x a largura de banda da rede de dados e computação e um envelope de energia 2x melhor.
Onde a plataforma Zion-EX consistia em vários subsistemas conectados, o Grand Teton unifica esses componentes em um único chassi de hardware.
De acordo com Björlin, Zion consiste em um nó principal de CPU, um sistema de sincronização de switch e um sistema de GPU, todos conectados por meio de cabeamento externo. O Grand Teton é uma caixa única com interfaces integradas de energia, computação e malha, resultando em melhor desempenho, integridade de sinal e desempenho térmico. O design supostamente facilita a integração do datacenter e aumenta a confiabilidade.
O Grand Teton foi projetado para lidar melhor com cargas de trabalho limitadas por largura de banda de memória, como modelos de recomendação de aprendizado profundo (DLRMs), que podem exigir um zetaflop de poder de computação apenas para treinar. Ele também é otimizado para cargas de trabalho vinculadas à computação, como compreensão de conteúdo.
Na esperança de que alguém queira visualizar seus projetos de datacenter usando os óculos de realidade virtual que vende, a Meta criou um site para hospedar modelos 3D de seus projetos de hardware, metainfrahardware. com. O negócio está focado em impulsionar o Metaverse, uma galáxia de mundos de realidade virtual interconectados, acessíveis usando fones de ouvido VR.
OCP foi fundada em 2011 pelo Facebook, que se reorganizou no ano passado sob uma controladora sem bagagem de escândalos chamada Meta. O OCP visa permitir que grandes consumidores de poder de computação compartilhem designs de hardware para servidores de datacenter e equipamentos relacionados otimizados para trabalho corporativo e em hiperescala. O OCP essencialmente permitiu que o Facebook, o Google e outros na nuvem especificassem exatamente as caixas que eles queriam, e os fabricantes contratados os produzissem sob demanda, em vez de os fornecedores de servidores ditarem os designs. Desde então, o projeto ampliou sua comunidade.
Isso significa que o OCP é uma coleção de especificações abertas, práticas recomendadas e outras coisas que as pessoas podem seguir ou explorar se quiserem construir equipamentos interoperáveis ou se inspirar nos gigantes da nuvem. Os designs contribuídos são úteis ou interessantes para ver para onde os grandes players estão indo em termos de suas necessidades de datacenter e quais decisões de design estão sendo tomadas para atingir a escala desejada.
O impacto de mercado do OCP tem sido bastante modesto: as empresas gastaram mais de US$ 16 bilhões no kit OCP em 2020 e esse número é projetado atingir US$ 46 bilhões até 2025. Espera-se que o mercado total de infraestrutura de datacenter seja cerca de US$ 230 bilhões em 2025.
A Meta também está falando do Open Rack v3 (ORV3), a mais recente iteração de sua arquitetura comum de rack e energia, que visa facilitar a implantação e a manutenção de equipamentos de TI montados em rack. O ORV3 possui uma prateleira de energia que pode ser instalada em qualquer lugar do rack.
“Múltiplas prateleiras podem ser instaladas em um único barramento para suportar racks de 30kW, enquanto a saída de 48VDC suportará maiores necessidades de transmissão de energia no futuro”, disse Björlin em um post no blog que será lançado hoje. “Ele também possui uma unidade de backup de bateria aprimorada, aumentando a capacidade para quatro minutos, em comparação com os 90 segundos do modelo anterior, e com uma capacidade de energia de 15kW por prateleira.”
O ORV3 foi projetado para acomodar diversas estratégias de resfriamento líquido, como resfriamento líquido assistido por ar e resfriamento a água de instalações.
“A tendência de aumento de energia que estamos vendo e a necessidade de avanços em refrigeração líquida estão nos forçando a pensar de maneira diferente sobre todos os elementos de nossa plataforma, rack e energia e design de data center”, explicou Björlin. ®
.