.
Hoje em dia, é difícil evitar o tema da inteligência artificial (IA) e do aprendizado de máquina (ML). Está em toda parte. Até mesmo os principais meios de comunicação social cobrem esta questão regularmente, principalmente com a curiosidade do seu vasto potencial tanto para inovação ilimitada como para ser uma força que perturba as antigas formas de fazer as coisas.
O que é interessante nessa tendência é que o conceito de IA/ML em si não é novo. Como tecnologia, existe desde 1956, quando pesquisadores de computação avançada da Universidade de Dartmouth cunharam pela primeira vez o termo “IA”. A IA/ML passou por uma série de ciclos de festa ou fome de investimento e desinteresse nas últimas sete décadas. Este novo ciclo, no entanto, parece ter continuidade e é provável que faça progressos, o que terá implicações tanto para os criadores de aplicações como para os fornecedores de infra-estruturas subjacentes.
Mas por mais poderosa que a IA/ML tenha se tornado, apoiá-la como uma carga de trabalho não é necessariamente uma novidade para os operadores de infraestrutura de rede. Muitas outras cargas de trabalho ao longo dos anos, incluindo voz, vídeo, armazenamento, computação de alto desempenho (HPC) e bancos de dados de alto desempenho (HPD) ajudaram a fortalecer as redes IP e Ethernet para melhorar a confiabilidade, diminuir a latência, garantir transmissão sem perdas e aumentar desempenho. A IA/ML como carga de trabalho na rede apresenta características e comportamentos semelhantes aos de HPC e HPD, o que significa que os provedores e operadoras de rede podem aplicar sua base de conhecimento existente para garantir que a IA/ML funcione como deveria.
Existem também extensões padrão da indústria que permitem a transmissão sem perdas na forma de Ethernet convergente e aprimorada (também conhecida como “Ethernet sem perdas”) que agora está amplamente disponível para fornecer alto rendimento e baixa latência, evitando quedas de tráfego em situações onde ocorre congestionamento. Esta é certamente uma mudança radical em relação à humilde história de origem da Ethernet como uma tecnologia de melhor esforço que se tornou o protocolo de rede de fato para consumidores e empresas devido ao ecossistema global de inovadores e fornecedores que se uniram para apoiá-la.
O que os profissionais de rede precisam saber sobre IA/ML
Isso não quer dizer que não haja nada único ou desafiador no suporte à IA/ML como carga de trabalho. A implantação e o gerenciamento de cargas de trabalho de IA/ML não são uma proposta do tipo “definir e esquecer”, porque a IA/ML em escala tem dois estágios de implantação distintos, cada um com seu próprio conjunto de requisitos.
A primeira etapa é aprendizagem profunda onde humanos treinam computadores de IA/ML para processar grandes quantidades de dados por meio de modelos e estruturas de aprendizagem. O objetivo é que as máquinas possam eventualmente reconhecer padrões complexos em imagens, textos, sons e outros dados para gerar insights, recomendações ou até produtos mais avançados. Geralmente, esse é um estágio de uso intensivo de computação que exige enorme poder de processamento e redes de alto desempenho em termos de velocidade e capacidade. É mais do que oportuno que a tecnologia Ethernet de 400 e 800 Gigabit esteja agora amplamente disponível nas plataformas de rede de última geração.
A segunda etapa é inferência, que é a parte do aplicativo de AI/ML. ChatGPT é um excelente exemplo que envolve humanos consultando máquinas em linguagem natural e essas plataformas respondendo na mesma moeda. As máquinas devem ser capazes de responder rapidamente a casos de uso, como reconhecimento de linguagem ou imagem, para garantir a melhor experiência do usuário. Reduzir a latência da rede e reduzir ou eliminar o congestionamento da rede são requisitos fundamentais nesta fase. Tecnologias como a versão mais recente do Remote Direct Memory Access over Converged Ethernet (RoCEv2) provarão seu valor como uma forma de alcançar uma rede sem perdas que aproveite dispositivos de alto rendimento e baixa latência para transferir informações entre computadores na memória-para- nível de memória, sem sobrecarregar os processadores de computação.”
Uma rede para gerenciar todos eles
Independentemente do estágio, é inevitável que os clusters de IA/ML cresçam em tamanho e complexidade. Isso exigirá que a indústria de redes evolua sua abordagem sobre como construir redes escaláveis e sustentáveis otimizadas para IA/ML.
Hoje, as organizações de TI normalmente executam redes separadas com base na carga de trabalho ou na tecnologia do processador. Não é nenhum segredo que a IA/ML funciona melhor em computadores equipados com unidades de processamento gráfico (GPUs), que são processadores altamente especializados sintonizados para aplicações sensíveis à latência. O protocolo de rede preferido para GPUs costuma ser o InfiniBand, uma tecnologia de back-end projetada para permitir comunicações de servidor para servidor de alta velocidade. Por outro lado, a TI tem usado a Ethernet como uma tecnologia front-end para suportar uma variedade de outras cargas de trabalho alimentadas por unidades de processamento central (CPUs) onipresentes.
A tendência crescente da TI é simplificar as operações sempre que possível, incluindo a redução do número de redes específicas para cargas de trabalho. O objetivo geral é reduzir a complexidade, diminuir os custos operacionais e permitir melhores práticas comuns. A ampla disponibilidade da tecnologia Ethernet convergente/sem perdas está tornando isso uma realidade. As organizações de TI podem aproveitar suas redes Ethernet existentes para oferecer suporte a clusters menores de IA/ML (construídos com relativamente poucas GPUs) simplesmente adicionando alguns novos switches leaf e fazendo pequenas alterações na configuração.
No entanto, para oferecer suporte a clusters de IA/ML em grande escala, deve haver uma medida de preparação futura para tornar a Ethernet o protocolo de rede preferido. Isso incluirá redes 400/800G (ou até superiores) fornecidas por meio de silício de rede com largura de banda ultra-alta que pode ser dimensionada atualmente para 51,2 terabits por chip. Além disso, os provedores de rede estão “preparando um molho especial” para melhorar ainda mais o comportamento sem perdas na Ethernet (por exemplo, o desenvolvimento de tecnologias como malhas programadas distribuídas (DSF)).
Por que não apenas “ir para a nuvem”?
Obviamente, uma opção para as empresas é simplesmente terceirizar toda a sua infraestrutura de computação, armazenamento e rede de IA/ML para um ou mais provedores de nuvem pública que oferecem isso como um serviço. Os provedores de nuvem pública fizeram investimentos consideráveis em GPUs, o que possibilita que seus clientes aumentem rapidamente, já que a disponibilidade de GPU no mercado é muito limitada. No entanto, como acontece com qualquer debate sobre nuvem pública versus nuvem híbrida, cada cliente deve considerar diferentes fatores para determinar seu melhor caminho a seguir quando se trata de construir seus clusters de IA/ML. Isso inclui custos, soberania de dados, conjuntos de habilidades disponíveis, tempo de obtenção de valor e outros fatores.
Como começar
Assim como Roma, a IA/ML não foi construída em um dia. Conforme mencionado anteriormente, o caminho para a adoção em massa de IA/ML tem sido longo, com muitos trancos e barrancos ao longo do caminho. As empresas devem ter isso em mente ao embarcarem em suas próprias jornadas de IA/ML. Algumas práticas recomendadas para ajudá-los podem incluir:
Primeiro, comece aos poucos e com o que eles já possuem, pois o hardware e o software de rede existentes podem ser suficientes para oferecer suporte à IA/ML como uma carga de trabalho nas fases iniciais, com algumas atualizações e ajustes.
Segundo, faça muitas perguntas e avalie suas opções. Muitos fornecedores de redes diferentes oferecerão uma ampla gama de soluções adaptadas para IA/ML. Há muitas maneiras de abordar o desafio de IA/ML, por isso é importante que as empresas trabalhem estrategicamente com os fornecedores em soluções sensatas e práticas que sejam otimizadas para suas necessidades.
Três, quando estiverem prontos, fazem o investimento para preparar sua rede para IA/ML e outras cargas de trabalho que ainda surgirão. As redes estão evoluindo mais do que nunca e é um ótimo momento para as empresas investirem na modernização da sua infraestrutura de rede para o que quer que o futuro reserve.
Sobre o autor: Thomas Scheibe é vice-presidente de gerenciamento de produtos da Cisco Data Center Networking. Ele tem mais de duas décadas de experiência no setor de redes, com conhecimento especializado em datacenters e tecnologias de interconexão óptica. Ele também atuou como membro do conselho da Ethernet Alliance e palestrou em diversos eventos e conferências do setor.
.