
GPU는 AI 컴퓨터의 두뇌입니다.
간단히 말해, 그래픽 처리 장치(GPU)는 인공지능 컴퓨터의 두뇌 역할을 합니다.
이미 알고 계시겠지만, 중앙처리장치(CPU)는 컴퓨터의 두뇌입니다. GPU의 장점은 복잡한 계산을 수행하는 데 특화된 CPU라는 점입니다. 이러한 계산을 가장 빠르게 처리하는 방법은 여러 개의 GPU를 그룹으로 묶어 함께 문제를 해결하는 것입니다. 그럼에도 불구하고 AI 모델을 학습시키는 데는 여전히 몇 주 또는 몇 달이 걸릴 수 있습니다. 모델이 완성되면 프런트엔드 컴퓨터 시스템에 배치되고, 사용자는 AI 모델에 질문을 할 수 있습니다. 이 과정을 추론이라고 합니다.
AI 컴퓨터에는 여러 개의 GPU가 포함되어 있습니다.
인공지능 문제를 해결하기 위한 최적의 아키텍처는 랙에 여러 개의 GPU를 장착하고, 랙 상단의 스위치에 연결하는 것입니다. 여러 개의 GPU 랙을 계층적 네트워크 연결 시스템으로 추가로 연결할 수도 있습니다. 해결해야 할 문제가 복잡해질수록 GPU 요구 사항도 증가하며, 일부 프로젝트에서는 수천 개의 GPU로 구성된 클러스터를 구축해야 할 수도 있습니다.
각 AI 클러스터는 작은 네트워크입니다.
AI 클러스터를 구축할 때는 GPU들이 서로 연결되고 효율적으로 데이터를 공유할 수 있도록 소규모 컴퓨터 네트워크를 설정해야 합니다.

위 다이어그램은 AI 클러스터를 보여줍니다. 아래쪽의 원들은 GPU에서 실행되는 워크플로우를 나타냅니다. GPU는 상단 랙(ToR)의 스위치에 연결됩니다. 이 ToR 스위치는 위 다이어그램에 표시된 네트워크 백본 스위치에도 연결되어 있으며, 이는 여러 GPU가 사용될 때 필요한 명확한 네트워크 계층 구조를 보여줍니다.
네트워크는 AI 배포의 병목 현상입니다.
지난 가을, 차세대 AI 인프라 구축을 위해 참가자들이 모였던 오픈 컴퓨터 프로젝트(OCP) 글로벌 서밋에서, 마벨 테크놀로지의 로이 응우옌 대표는 핵심적인 문제점을 지적했습니다. "네트워크가 새로운 병목 현상입니다."
기술적으로, 높은 패킷 지연 시간이나 네트워크 혼잡으로 인한 패킷 손실은 패킷 재전송을 유발하여 작업 완료 시간(JCT)을 크게 증가시킬 수 있습니다. 결과적으로, 수백만 또는 수천만 달러에 달하는 기업 소유의 GPU가 비효율적인 AI 시스템으로 인해 낭비되어 기업의 매출과 제품 출시 시간 측면에서 손해를 초래합니다.
테스트와 측정은 AI 네트워크의 성공적인 운영에 필수적인 조건입니다.
AI 클러스터를 효율적으로 운영하려면 GPU가 최대 용량을 활용하여 학습 시간을 단축하고 투자 대비 효과를 극대화하는 학습 모델을 구현해야 합니다. 따라서 AI 클러스터의 성능을 테스트하고 평가하는 것이 필수적입니다(그림 2). 그러나 시스템 아키텍처는 GPU와 네트워크 구조 간의 다양한 설정 및 상호 관계를 포함하므로, 이러한 요소들이 서로 보완적으로 작용해야 하기 때문에 이 작업은 쉽지 않습니다.

이로 인해 AI 네트워크를 측정하는 데 많은 어려움과 난점이 발생합니다.
실험실에서 전체 생산 네트워크를 복제하는 데 있어 어려운 점은 비용, 장비, 고도로 숙련된 AI 네트워크 엔지니어 부족, 공간, 전력 공급 및 온도 제한 때문입니다.
- 운영 시스템에서 테스트를 진행하면 운영 시스템 자체의 가용 처리 용량이 감소합니다.
- 문제의 규모와 범위의 차이로 인해 문제를 정확하게 재현하기 어렵다.
- GPU들이 서로 연결되는 방식의 복잡성.
이러한 문제를 해결하기 위해 기업은 실험실 환경에서 제안된 구성의 일부를 벤치마킹하여 JCT(작업 완료 시간), AI 팀이 활용할 수 있는 대역폭과 같은 주요 매개변수를 측정하고 이를 스위칭 플랫폼 사용량 및 캐싱 사용량과 비교할 수 있습니다. 이러한 벤치마킹을 통해 GPU/처리 작업 부하와 네트워크 설계/설치 간의 적절한 균형점을 찾을 수 있습니다. 결과에 만족하면 컴퓨터 설계자와 네트워크 엔지니어는 이러한 구성을 실제 운영 환경에 적용하고 새로운 결과를 측정할 수 있습니다.
기업 연구소, 연구 기관 및 대학들은 대규모 네트워크 운영의 어려움, 특히 끊임없이 변화하는 모범 사례에 대응하기 위해 효과적인 AI 네트워크 구축 및 운영의 모든 측면을 분석하는 데 주력하고 있습니다. 이러한 반복 가능한 협업 접근 방식만이 기업이 AI 기반 네트워크 최적화에 필수적인 반복 측정 및 신속한 "만약 ~라면" 시나리오 테스트를 수행할 수 있는 유일한 방법입니다.
(출처: 키사이트 테크놀로지스)
[광고_2]
출처: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html









