imagem001.jpg

GPU é o cérebro do computador de IA

Simplificando, a unidade de processamento gráfico (GPU) atua como o cérebro do computador de IA.

Como você deve saber, a unidade central de processamento (CPU) é o cérebro do computador. A vantagem de uma GPU é que ela é uma CPU especializada que pode realizar cálculos complexos. A maneira mais rápida de fazer isso é ter grupos de GPUs resolvendo um problema. No entanto, treinar um modelo de IA ainda pode levar semanas ou até meses. Uma vez construído, ele é colocado em um sistema de computação front-end e os usuários podem fazer perguntas ao modelo de IA, um processo chamado inferência.

Um computador de IA contendo várias GPUs

A melhor arquitetura para resolver problemas de IA é usar um cluster de GPUs em um rack, conectado a um switch na parte superior do rack. Vários racks de GPU podem ser conectados em uma hierarquia de rede. À medida que o problema se torna mais complexo, os requisitos de GPU aumentam, e alguns projetos podem precisar implantar clusters de milhares de GPUs.

Cada cluster de IA é uma pequena rede

Ao construir um cluster de IA, é necessário configurar uma pequena rede de computadores para conectar e permitir que as GPUs trabalhem juntas e compartilhem dados de forma eficiente.

imagem002.jpg
Um cluster de IA

A figura acima ilustra um cluster de IA onde os círculos na parte inferior representam os fluxos de trabalho executados em GPUs. As GPUs se conectam aos switches do topo do rack (ToR). Os switches ToR também se conectam aos switches do backbone da rede mostrados acima no diagrama, demonstrando a hierarquia de rede clara necessária quando várias GPUs estão envolvidas.

As redes são um gargalo na implantação da IA
No outono passado, no Open Computer Project (OCP) Global Summit, onde os delegados trabalharam juntos para construir a próxima geração de infraestrutura de IA, a delegada Loi Nguyen da Marvell Technology fez uma observação importante: “a rede é o novo gargalo”.

Tecnicamente, alta latência de pacotes ou perda de pacotes devido ao congestionamento da rede pode fazer com que os pacotes sejam reenviados, aumentando significativamente o tempo de conclusão da tarefa (JCT). Como resultado, milhões ou dezenas de milhões de dólares em GPUs de empresas são desperdiçados devido a sistemas de IA ineficientes, custando à empresa receita e tempo de lançamento no mercado.

A medição é uma condição fundamental para o funcionamento bem-sucedido das redes de IA

Para operar um cluster de IA com eficácia, as GPUs precisam ser capazes de utilizar toda a sua capacidade para reduzir o tempo de treinamento e colocar o modelo de aprendizado em uso para maximizar o retorno sobre o investimento. Portanto, é necessário testar e avaliar o desempenho do cluster de IA (Figura 2). No entanto, essa tarefa não é fácil, pois, em termos de arquitetura do sistema, existem muitas configurações e relacionamentos entre as GPUs e as estruturas de rede que precisam se complementar para resolver o problema.

imagem005.jpg
Plataforma de testes de data center de IA e como ela testa clusters de data center de IA

Isso cria muitos desafios na medição de redes de IA:

- Dificuldade em reproduzir redes de produção inteiras no laboratório devido a limitações de custo, equipamento, escassez de engenheiros qualificados em IA de rede, espaço, energia e temperatura.

- A medição no sistema de produção reduz a capacidade de processamento disponível do próprio sistema de produção.

- Dificuldade em reproduzir problemas com precisão devido às diferenças de escala e escopo dos problemas.

- A complexidade de como as GPUs são conectadas coletivamente.

Para enfrentar esses desafios, as empresas podem testar um subconjunto das configurações recomendadas em um ambiente de laboratório para comparar métricas-chave, como o tempo de conclusão da tarefa (JCT), a largura de banda que a equipe de IA consegue alcançar e compará-las à utilização da plataforma de comutação e à utilização do cache. Esse benchmarking ajuda a encontrar o equilíbrio certo entre a carga de trabalho da GPU/processamento e o projeto/configuração da rede. Uma vez satisfeitos com os resultados, os arquitetos de computador e engenheiros de rede podem colocar essas configurações em produção e mensurar novos resultados.

Laboratórios de pesquisa corporativos, instituições acadêmicas e universidades estão trabalhando para analisar todos os aspectos da construção e operação de redes de IA eficazes para enfrentar os desafios de trabalhar em grandes redes, especialmente com a constante evolução das melhores práticas. Essa abordagem colaborativa e repetível é a única maneira de as empresas realizarem medições repetíveis e testarem rapidamente cenários hipotéticos, que são a base para a otimização de redes para IA.

(Fonte: Keysight Technologies)