technology

AVX10 da Intel promete benefícios do AVX-512 sem bagagem • Strong The One

.

Desde a sua introdução, o AVX-512 ganhou um pouco de má reputação por ser quente, com fome de energia e inconsistente em sua implementação e conjunto de recursos.

Lembre-se de que o desenvolvedor do kernel Linux, Linus Torvalds, disse que esperava o conjunto de instruções SIMD “morreria uma morte dolorosa”.

Com o recente introdução do AVX10, a Intel sinalizou seus esforços para lidar com muitas dessas frustrações. Detalhado como parte das novas extensões de desempenho avançado da Intel, AVX10 [PDF] é essencialmente uma redefinição da especificação AVX da Intel.

Para atualizar, o AVX-512 apareceu pela primeira vez no peculiar processador baseado em PCIe da Intel Xeon Phi aceleradores por volta de 2013, mas finalmente deu o salto para os Xeons padrão com o lançar de Skylake em 2015.

No papel, o potencial de registros vetoriais massivos de 512 bits para acelerar cargas de trabalho era substancial, mas aproveitá-los, especialmente nos primeiros dias, veio com algumas concessões pesadas.

O SIMD (Single Instruction/Multiple Data) faz exatamente o que afirma: permite que a CPU execute instruções em vários conjuntos de dados simultaneamente. O benefício é maior paralelismo e, por extensão, um aumento no desempenho. A desvantagem é que essas instruções atingem a CPU com muito mais força, pois ela está trabalhando mais a cada ciclo de clock. Na prática, isso tem traduzido em maior consumo de energia e calor. Como resultado, a execução de cargas de trabalho AVX-512, pelo menos nos primeiros dias, resultou em grandes penalidades de frequência, que não eram boas para sistemas que executavam cargas de trabalho mistas.

“Isso deu uma espécie de olho roxo de ‘Ei, se eu usar o AVX-512, terei uma grande queda de frequência, então não posso usá-lo’”, disse Ronak Singhal, membro da Intel. Strong The One. “Nós nos esforçamos muito para garantir que isso realmente desapareça como uma barreira à adoção”.

Além de uma largura de registro mais ampla, o AVX-512 tem algumas vantagens sobre AVX2, SSE e outras instruções SIMD. Dois dos maiores, de acordo com o Intel Fellow Arjan van de Ven, são seus 32 registros, o dobro do AVX2, e a introdução de K-masks. “Muito do desempenho vem desses registradores extras [and] das máscaras K; não tanto o resto”, disse ele.

Outra inclusão recente na especificação AVX-512 foi o suporte para FP16 e bfloat 16 math. esta funcionalidade apareceu em Cooper Lake em 2019 e é comumente empregado em aplicativos de aprendizado de máquina.

Eles só estão disponíveis se você estiver usando o AVX-512. E isso significa que, mesmo que você não se importe com a largura maior dStrong The One, se quiser aproveitar qualquer um desses recursos, precisará usar o AVX-512, explicou Singhal.

Benefícios sem bagagem

Este é um dos problemas que o AVX10 procura resolver. “A ideia aqui é, como trago esses recursos, o valor desses recursos, para todos, independentemente de você investir ou não na criação de suporte para a largura de 512 bits?” disse Singhal. Com o AVX10, “agora, mesmo que eu esteja focado na largura de 256 bits, ainda posso obter o melhor de tudo no AVX-512”.

Nesse sentido, o AVX10 não é tanto a próxima evolução do AVX-512, mas uma redistribuição de recursos em toda a implementação do AVX da Intel. É “uma oportunidade para redefinir o que é a linha de base e a base com a qual o software pode contar”, disse ele.

Sob a nova especificação, os chips compatíveis com AVX10 irão, em sua maioria, compartilhar um conjunto de recursos comuns – incluindo 32 registradores, k-masks, suporte a FP16 – e suporte mínimo a registradores de 256 bits.

Van de Ven observa que a nova especificação deve abordar muitas das frustrações levantadas por Torvalds em 2020. “Ouvimos com muito cuidado o feedback dele … parte de sua reclamação era inconsistência”, disse ele. “A inconsistência torna mais difícil para as pessoas usá-lo e, se for difícil de usar, não é usado.”

Em termos de implementação, Van de Ven disse Strong The One que, uma vez totalmente desenvolvidos, a maioria dos aplicativos deve ser capaz de tirar proveito das novas instruções SIMD com nada mais do que uma recompilação. Embora, é claro, a Intel diga que fornecerá ferramentas adicionais para o 1% que deseja otimizar ainda mais seu código.

Outro benefício de desacoplar esses recursos do AVX-512 é a menor sobrecarga de energia. “Em termos de potência e térmicas, os registros extras e K-masks tornam o mesmo código mais eficiente. Isso oferece um benefício de desempenho, mas o benefício de desempenho também é um benefício de energia”, disse Van de Ven. “Por exemplo, se sua multiplicação de matrizes for repentinamente 10% mais rápida, você levará 10% menos tempo; seu consumo total de energia cairá 10% mais ou menos.”

O que o AVX10 significa para a linha da Intel

Embora o AVX-512 tenha sido um dos pilares dos processadores Xeon da Intel e pudesse ser obtido nas peças de desktop high-end (HEDT) do fabricante de chips, o conjunto de instruções apareceu apenas na plataforma de consumidor da Intel a partir de suas peças de 11ª geração em 2021.

No entanto, a disponibilidade das instruções AVX-512 no hardware do consumidor durou pouco. Com a introdução de seus processadores da série Core de 12ª geração, alguns meses depois, a Intel desativou e acabou fundido Suporte AVX-512 inteiramente. Disseram-nos que isso se devia em parte à arquitetura de núcleo híbrido do chip, que apresentava uma combinação de núcleos de desempenho e eficiência.

“Na época, nossos e-cores não suportavam AVX-512”, explicou Singhal. Portanto, para garantir a consistência entre as duas arquiteturas principais, o AVX-512 foi desativado nos p-cores por padrão.

Embora a introdução do AVX10 signifique que os chips ganhem muitos dos recursos do AVX-512, isso não significa necessariamente que veremos registros vetoriais de 512 bits nos núcleos eletrônicos da Intel em breve.

Por enquanto, vetores de 512 bits e registradores opmask de 64 bits estarão disponíveis em alguns processadores P-core para dar suporte a cargas de trabalho de computação pesada de vetores que se beneficiam do comprimento de vetor mais amplo. Portanto, também não há garantia de que os registradores de 512 bits voltem para as plataformas de consumo.

Singhal disse Strong The One a empresa está deixando algum espaço na especificação e essas instruções de 256 bits serão a largura mínima exigida pelo conjunto de instruções AVX10. Em outras palavras, a Intel não está descartando a possibilidade de registros vetoriais de 512 bits em chips e-core, mas não os espere tão cedo.

Isso faz sentido quando você considera que o roteiro Xeon da Intel incluirá p-cores e e-cores, mas não nos mesmos chips. O Sierra Forest será o primeiro Xeon da Intel totalmente baseado em e-cores. No entanto, parece que o Granite Rapids, que está programado para ser lançado algum tempo depois do Sierra Forest em 2024, será o primeiro a incluir suporte ao AVX10. Por enquanto, a Intel enfatiza que continuará a oferecer suporte ao AVX-512 em Xeons mais antigos.

Os planos da Intel para renovar seu AVX10 vem quase um ano depois da AMD lançado Suporte AVX-512 em seus processadores. No entanto, ainda não está claro se a ampla disponibilidade de hardware compatível levará a uma nova rodada de investimentos na tecnologia. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo