imagem001.jpg

GPU é o cérebro do computador de IA

Simplificando, a unidade de processamento gráfico (GPU) atua como o cérebro do computador de IA.

Como você deve saber, a unidade central de processamento (CPU) é o cérebro do computador. A vantagem de uma GPU é que ela é uma CPU especializada que pode realizar cálculos complexos. A maneira mais rápida de fazer isso é ter grupos de GPUs resolvendo o mesmo problema. No entanto, treinar um modelo de IA ainda pode levar semanas ou até meses. Uma vez construído, ele é colocado em um sistema de computador front-end e os usuários podem fazer perguntas ao modelo de IA, um processo chamado inferência.

Um computador de IA contendo várias GPUs

A melhor arquitetura para problemas de IA é usar um cluster de GPUs em um rack, conectado a um switch na parte superior do rack. Vários racks de GPU podem ser conectados em uma hierarquia de rede. À medida que o problema se torna mais complexo, os requisitos de GPU aumentam, e alguns projetos podem precisar implantar clusters de milhares de GPUs.

Cada cluster de IA é uma pequena rede

Ao construir um cluster de IA, é necessário configurar uma pequena rede de computadores para conectar e permitir que as GPUs trabalhem juntas e compartilhem dados de forma eficiente.

imagem002.jpg
Um cluster de IA

A figura acima ilustra um cluster de IA onde os círculos na parte inferior representam os fluxos de trabalho executados em GPUs. As GPUs se conectam aos switches de topo de rack (ToR). Os switches ToR também se conectam aos switches de backbone da rede mostrados acima no diagrama, demonstrando a hierarquia de rede clara necessária quando várias GPUs estão envolvidas.

As redes são um gargalo na implantação da IA
No outono passado, no Open Computer Project (OCP) Global Summit, onde os delegados estavam trabalhando para construir a próxima geração de infraestrutura de IA, o delegado Loi Nguyen da Marvell Technology fez uma observação importante: “a rede é o novo gargalo”.

Tecnicamente, alta latência de pacotes ou perda de pacotes devido ao congestionamento da rede pode fazer com que os pacotes sejam reenviados, aumentando significativamente o tempo de conclusão do trabalho (JCT). Como resultado, milhões ou dezenas de milhões de dólares em GPUs são desperdiçados pelas empresas devido a sistemas de IA ineficientes, custando-lhes receita e tempo de lançamento no mercado.

A medição é uma condição fundamental para o funcionamento bem-sucedido das redes de IA

Para executar um cluster de IA de forma eficaz, as GPUs precisam ser totalmente utilizadas para reduzir o tempo de treinamento e colocar o modelo de aprendizado em uso para maximizar o retorno sobre o investimento. Portanto, é necessário testar e avaliar o desempenho do cluster de IA (Figura 2). No entanto, essa tarefa não é fácil, pois, em termos de arquitetura do sistema, existem muitas configurações e relacionamentos entre GPUs e estruturas de rede que precisam se complementar para resolver o problema.

imagem005.jpg
Plataforma de testes de data center de IA e como ela testa clusters de data center de IA

Isso cria muitos desafios na medição de redes de IA:

- Dificuldade em reproduzir redes de produção inteiras no laboratório devido a limitações de custo, equipamento, escassez de engenheiros qualificados em IA de rede, espaço, energia e temperatura.

- A medição no sistema de produção reduz a capacidade de processamento disponível do próprio sistema de produção.

- Dificuldade em reproduzir os problemas com precisão devido às diferenças de escala e escopo dos problemas.

- A complexidade de como as GPUs são conectadas coletivamente.

Para enfrentar esses desafios, as empresas podem testar um subconjunto das configurações recomendadas em um ambiente de laboratório para comparar métricas-chave, como o tempo de conclusão do trabalho (JCT), a largura de banda que a equipe de IA pode alcançar e compará-las à utilização da plataforma de comutação e à utilização do cache. Esse benchmarking ajuda a encontrar o equilíbrio certo entre a carga de trabalho da GPU/processamento e o projeto/configuração da rede. Uma vez satisfeitos com os resultados, os arquitetos de computadores e engenheiros de rede podem levar essas configurações para produção e mensurar novos resultados.

Laboratórios de pesquisa corporativos, instituições acadêmicas e universidades estão trabalhando para analisar todos os aspectos da construção e operação de redes de IA eficazes para enfrentar os desafios de trabalhar em grandes redes, especialmente à medida que as melhores práticas continuam a evoluir. Essa abordagem colaborativa e repetível é a única maneira de as empresas realizarem medições repetíveis e testarem rapidamente cenários hipotéticos que são a base da otimização de redes para IA.

(Fonte: Keysight Technologies)