изображение001.jpg

Графический процессор — мозг компьютера с искусственным интеллектом

Проще говоря, графический процессор (GPU) действует как мозг компьютера ИИ.

Как вы, возможно, знаете, центральный процессор (ЦП) — это мозг компьютера. Преимущество графического процессора (GPU) заключается в том, что он представляет собой специализированный процессор, способный выполнять сложные вычисления. Самый быстрый способ решения этой задачи — использовать группы графических процессоров для решения одной и той же задачи. Однако обучение модели ИИ может занять недели или даже месяцы. После создания она помещается во фронтальную вычислительную систему, и пользователи могут задавать вопросы модели ИИ. Этот процесс называется выводом.

Компьютер ИИ, содержащий несколько графических процессоров

Оптимальная архитектура для задач искусственного интеллекта — кластер графических процессоров в стойке, подключенный к коммутатору, расположенному наверху. Несколько стоек графических процессоров можно объединить в иерархическую сеть. По мере усложнения задачи требования к графическим процессорам возрастают, и в некоторых проектах может потребоваться развертывание кластеров из тысяч графических процессоров.

Каждый кластер ИИ представляет собой небольшую сеть

При построении кластера ИИ необходимо настроить небольшую компьютерную сеть для подключения и обеспечения совместной работы графических процессоров и эффективного обмена данными.

изображение002.jpg
Кластер ИИ

На рисунке выше показан кластер ИИ, где круги внизу представляют рабочие процессы, выполняемые на графических процессорах. Графические процессоры подключаются к коммутаторам верхнего уровня (ToR). Коммутаторы ToR также подключаются к коммутаторам сетевой магистрали, показанным над схемой, что демонстрирует чёткую сетевую иерархию, необходимую при использовании нескольких графических процессоров.

Сети являются узким местом в развертывании ИИ
Осенью прошлого года на глобальном саммите Open Computer Project (OCP), где делегаты работали над созданием инфраструктуры ИИ следующего поколения, делегат Лой Нгуен из Marvell Technology высказал ключевую мысль: «Сети — это новое узкое место».

С технической точки зрения, высокая задержка пакетов или их потеря из-за перегрузки сети может привести к повторной отправке пакетов, что значительно увеличивает время выполнения задания (JCT). В результате компании тратят впустую миллионы или десятки миллионов долларов на графические процессоры из-за неэффективных систем искусственного интеллекта, что приводит к потере прибыли и сокращению времени вывода продуктов на рынок.

Измерение — ключевое условие успешной работы сетей ИИ

Для эффективной работы кластера искусственного интеллекта необходимо обеспечить полную загрузку графических процессоров, чтобы сократить время обучения и максимально эффективно использовать модель обучения для максимизации окупаемости инвестиций. Поэтому необходимо протестировать и оценить производительность кластера искусственного интеллекта (рис. 2). Однако эта задача непроста, поскольку с точки зрения архитектуры системы существует множество настроек и взаимосвязей между графическими процессорами и сетевыми структурами, которые должны дополнять друг друга для решения задачи.

изображение005.jpg
Платформа тестирования центров обработки данных ИИ и как она тестирует кластеры центров обработки данных ИИ

Это создает множество проблем при измерении сетей ИИ:

- Сложность воспроизведения целых производственных сетей в лабораторных условиях из-за ограничений по стоимости, оборудованию, нехватке квалифицированных инженеров сетевого ИИ, пространства, мощности и температуры.

- Измерение в производственной системе снижает доступную производительность обработки самой производственной системы.

- Трудность точного воспроизведения проблем из-за различий в масштабе и сфере охвата проблем.

- Сложность коллективного подключения графических процессоров.

Для решения этих задач компании могут протестировать подмножество рекомендуемых конфигураций в лабораторной среде, чтобы оценить ключевые показатели, такие как время выполнения задания (JCT), пропускную способность, которую может обеспечить команда ИИ, и сравнить их с использованием коммутационной платформы и кэша. Такой бенчмаркинг помогает найти оптимальный баланс между нагрузкой на GPU/вычислительную мощность и проектированием/настройкой сети. Получив удовлетворительные результаты, компьютерные архитекторы и сетевые инженеры могут запустить эти конфигурации в эксплуатацию и измерить новые результаты.

Корпоративные исследовательские лаборатории, академические институты и университеты работают над анализом всех аспектов создания и эксплуатации эффективных сетей ИИ, чтобы решать проблемы, возникающие при работе с большими сетями, особенно в условиях продолжающегося развития передовых практик. Этот совместный, воспроизводимый подход — единственный способ для компаний проводить повторяемые измерения и быстро тестировать сценарии «что если», которые лежат в основе оптимизации сетей для ИИ.

(Источник: Keysight Technologies)