Графический процессор — мозг компьютера с искусственным интеллектом
Проще говоря, графический процессор (GPU) действует как мозг компьютера ИИ.
Как вы, возможно, знаете, центральный процессор (ЦП) — это мозг компьютера. Преимущество графического процессора (GPU) заключается в том, что он представляет собой специализированный процессор, способный выполнять сложные вычисления. Самый быстрый способ решения этой задачи — использовать группы графических процессоров для решения одной и той же задачи. Однако обучение модели ИИ может занять недели или даже месяцы. После создания она помещается во фронтальную вычислительную систему, и пользователи могут задавать вопросы модели ИИ. Этот процесс называется выводом.
Компьютер ИИ, содержащий несколько графических процессоров
Оптимальная архитектура для задач искусственного интеллекта — кластер графических процессоров в стойке, подключенный к коммутатору, расположенному наверху. Несколько стоек графических процессоров можно объединить в иерархическую сеть. По мере усложнения задачи требования к графическим процессорам возрастают, и в некоторых проектах может потребоваться развертывание кластеров из тысяч графических процессоров.
Каждый кластер ИИ представляет собой небольшую сеть
При построении кластера ИИ необходимо настроить небольшую компьютерную сеть для подключения и обеспечения совместной работы графических процессоров и эффективного обмена данными.
На рисунке выше показан кластер ИИ, где круги внизу представляют рабочие процессы, выполняемые на графических процессорах. Графические процессоры подключаются к коммутаторам верхнего уровня (ToR). Коммутаторы ToR также подключаются к коммутаторам сетевой магистрали, показанным над схемой, что демонстрирует чёткую сетевую иерархию, необходимую при использовании нескольких графических процессоров.
Сети являются узким местом в развертывании ИИ
Осенью прошлого года на глобальном саммите Open Computer Project (OCP), где делегаты работали над созданием инфраструктуры ИИ следующего поколения, делегат Лой Нгуен из Marvell Technology высказал ключевую мысль: «Сети — это новое узкое место».
С технической точки зрения, высокая задержка пакетов или их потеря из-за перегрузки сети может привести к повторной отправке пакетов, что значительно увеличивает время выполнения задания (JCT). В результате компании тратят впустую миллионы или десятки миллионов долларов на графические процессоры из-за неэффективных систем искусственного интеллекта, что приводит к потере прибыли и сокращению времени вывода продуктов на рынок.
Измерение — ключевое условие успешной работы сетей ИИ
Для эффективной работы кластера искусственного интеллекта необходимо обеспечить полную загрузку графических процессоров, чтобы сократить время обучения и максимально эффективно использовать модель обучения для максимизации окупаемости инвестиций. Поэтому необходимо протестировать и оценить производительность кластера искусственного интеллекта (рис. 2). Однако эта задача непроста, поскольку с точки зрения архитектуры системы существует множество настроек и взаимосвязей между графическими процессорами и сетевыми структурами, которые должны дополнять друг друга для решения задачи.
Это создает множество проблем при измерении сетей ИИ:
- Сложность воспроизведения целых производственных сетей в лабораторных условиях из-за ограничений по стоимости, оборудованию, нехватке квалифицированных инженеров сетевого ИИ, пространства, мощности и температуры.
- Измерение в производственной системе снижает доступную производительность обработки самой производственной системы.
- Трудность точного воспроизведения проблем из-за различий в масштабе и сфере охвата проблем.
- Сложность коллективного подключения графических процессоров.
Для решения этих задач компании могут протестировать подмножество рекомендуемых конфигураций в лабораторной среде, чтобы оценить ключевые показатели, такие как время выполнения задания (JCT), пропускную способность, которую может обеспечить команда ИИ, и сравнить их с использованием коммутационной платформы и кэша. Такой бенчмаркинг помогает найти оптимальный баланс между нагрузкой на GPU/вычислительную мощность и проектированием/настройкой сети. Получив удовлетворительные результаты, компьютерные архитекторы и сетевые инженеры могут запустить эти конфигурации в эксплуатацию и измерить новые результаты.
Корпоративные исследовательские лаборатории, академические институты и университеты работают над анализом всех аспектов создания и эксплуатации эффективных сетей ИИ, чтобы решать проблемы, возникающие при работе с большими сетями, особенно в условиях продолжающегося развития передовых практик. Этот совместный, воспроизводимый подход — единственный способ для компаний проводить повторяемые измерения и быстро тестировать сценарии «что если», которые лежат в основе оптимизации сетей для ИИ.
(Источник: Keysight Technologies)
Источник: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
Комментарий (0)