technology

Google é o primeiro com instâncias de computação desenvolvidas pela AmpereOne • Strong The One

.

Entrevista O Google parece prestes a se tornar o primeiro provedor de nuvem a oferecer instâncias de máquinas virtuais alimentadas pelo chip de datacenter AmpereOne de 192 núcleos da Ampere, que a Ampere agora está lançando como uma solução para cargas de trabalho de inferência de IA.

Ampere lançou seu mais recente processador de datacenter baseado em Arm de volta em maioe desde então vários provedores de nuvem têm construído infraestrutura baseada nele, de acordo com Ampere, mas o Google é o primeiro a anunciar instâncias C3A otimizadas para computação com tecnologia AmpereOne para acesso público.

No entanto, o anúncio em Próximo Google Cloud está para uma prévia privada a partir do próximo mês, o que significa que é concebível que outro provedor possa levá-los à disponibilidade pública real, se forem rápidos.

O Google disse que as instâncias C3A terão de 1 a 80 vCPUs com memória DDR5, SSD local e rede de até 100 Gbps, e oferecerão melhor custo-benefício do que máquinas virtuais comparáveis ​​baseadas em x86.

“As instâncias C3A são alimentadas pelo AmpereOne, então isso é muito significativo para nós porque é a primeira vez que alguém disponibiliza publicamente o AmpereOne para um grupo de usuários finais”, disse-nos o diretor de produtos da Ampere, Jeff Wittich.

“Obviamente, já estamos enviando para produção há alguns meses”, acrescentou Wittich. “Eles estão entrando em datacenters para desenvolver capacidade de abertura de capital, mas o Google será a primeira das nuvens a fazer anúncios. Veremos algumas outras nuvens logo atrás e então veremos o grande desfile de ODMs e OEMs.”

Os provedores de nuvem são o mercado-alvo da Ampere, por isso ela está focada em seus requisitos, com um grande número de núcleos de thread único otimizados para executar muitas cargas de trabalho em paralelo com desempenho previsível.

Diz-se que as cargas de trabalho nativas da nuvem que serão adequadas para as instâncias C3A do Google incluem microsserviços em contêineres, serviços da web, bancos de dados de alto desempenho, transcodificação de mídia, aplicativos Java em grande escala, jogos em nuvem e computação de alto desempenho (HPC).

No entanto, com a IA ainda sendo o tema quente do momento, a Ampere está empenhada em promover a adequação de seus chips para processar cargas de trabalho de IA, ou pelo menos a parte de inferência.

Na verdade, a Ampere afirma que seus chips de vários núcleos são a solução ideal para inferência de IA e publicou um white paper e postagem no blog sobre o tema. Tudo se resume ao “dimensionamento correto” ou à combinação cuidadosa dos recursos computacionais com as demandas dos aplicativos de IA, de acordo com a empresa.

“Todo mundo está realmente focado no treinamento de IA e no treinamento desses enormes modelos de linguagem (LLMs), e para fazer isso você quase precisa de um supercomputador para analisá-lo porque os modelos são enormes”, disse Wittich.

“O problema é que, uma vez treinado o modelo, agora você precisa realmente executá-lo e a inferência pode ter até 10 vezes mais capacidade computacional do que o estágio de treinamento realmente era”, afirmou.

Inferir ‘consideravelmente menos exigente em termos computacionais’… mas a escala que você precisa é fundamental – analista

Isso pode estar correto? A sabedoria convencional é que o treinamento requer uma enorme quantidade de recursos, como GPUs caras, para processar os dados, enquanto a inferência deveria ser muito menos exigente, por isso perguntamos a um especialista.

“A inferência é consideravelmente menos exigente em termos computacionais. No entanto, em muitos casos de uso, é necessário fazê-lo em uma escala muito maior do que o treinamento”, disse-nos Alexander Harrowell da Omdia, analista principal em computação avançada para IA.

“A ideia é treinar o modelo uma vez e depois usá-lo para quantas inferências forem necessárias. Nossa pesquisa coloca o multiplicador do treinamento para a inferência em 4-5. Mas se sua carga de trabalho for algo como o mecanismo de recomendação do YouTube, você podemos ver como essa seria uma grande demanda computacional, mesmo que o modelo fosse pequeno.”

Harrowell nos disse que o problema de usar GPUs de ponta para inferência não é tanto o fato de elas não fornecerem o suficiente, mas sim o fato de serem exageradas e excessivamente caras, e é por isso que a ideia de aceleradores de inferência especializados é atraente.

Se você está pensando em termos de computação em toda uma frota de servidores de inferência – como são os clientes de nuvem da Ampere – então pode ser certo que uma CPU seja a solução ideal, acrescentou.

A alegação da Ampere é que seus processadores de vários núcleos são melhores que os rivais e afirma que eles oferecem uma vantagem notável em eficiência energética, embora não quantifique isso.

Este último seria uma distinção importante, porque nos gráficos de benchmark mostrados pela Ampere, seu chip Altra Max de 128 núcleos existente é superado em desempenho de inferência pelos chips Epyc de 4ª geração de 96 núcleos da AMD, mas oferece melhor desempenho por watt e por dólar. , Ampere afirma.

O white paper da empresa afirma que as CPUs Ampere são “a melhor escolha para cargas de trabalho de IA” porque oferecem “o melhor desempenho, economia e eficiência de energia quando comparadas a qualquer outra CPU ou GPU”.

Essas são afirmações fortes, que sem dúvida serão postas à prova assim que as instâncias da máquina virtual AmpereOne estiverem disponíveis para os desenvolvedores se familiarizarem. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo