Сетевое взаимодействие с искусственным интеллектом: 5 вещей, которые нужно знать

Графический процессор — мозг компьютера с искусственным интеллектом

Проще говоря, графический процессор (GPU) действует как мозг компьютера ИИ.

Как вы, возможно, знаете, центральный процессор (ЦП) — это мозг компьютера. Преимущество графического процессора (GPU) заключается в том, что это специализированный процессор, способный выполнять сложные вычисления. Самый быстрый способ решения задачи — использовать группы графических процессоров. Однако обучение модели ИИ может занять недели или даже месяцы. После завершения обучения она помещается во фронтальную вычислительную систему, и пользователи могут задавать модели ИИ вопросы. Этот процесс называется выводом.

Компьютер ИИ, содержащий несколько графических процессоров

Оптимальная архитектура для решения задач ИИ — использование кластера графических процессоров в стойке, подключенного к коммутатору наверху стойки. Несколько стоек графических процессоров можно объединить в иерархическую сеть. По мере усложнения задачи требования к графическим процессорам возрастают, и в некоторых проектах может потребоваться развертывание кластеров из тысяч графических процессоров.

Каждый кластер ИИ представляет собой небольшую сеть

При построении кластера ИИ необходимо настроить небольшую компьютерную сеть для подключения и обеспечения совместной работы графических процессоров и эффективного обмена данными.

На рисунке выше показан кластер ИИ, где круги внизу представляют рабочие процессы, выполняемые на графических процессорах. Графические процессоры подключаются к коммутаторам верхней стойки (ToR). Коммутаторы ToR также подключаются к коммутаторам сетевой магистрали, показанным над схемой, что демонстрирует чёткую сетевую иерархию, необходимую при использовании нескольких графических процессоров.

Сети являются узким местом в развертывании ИИ
Осенью прошлого года на глобальном саммите Open Computer Project (OCP), где делегаты работали вместе над созданием инфраструктуры ИИ следующего поколения, делегат Лой Нгуен из Marvell Technology высказал ключевую мысль: «Сетевые технологии — это новое узкое место».

С технической точки зрения, высокая задержка пакетов или их потеря из-за перегрузки сети может привести к повторной отправке пакетов, что значительно увеличивает время выполнения задания (JCT). В результате миллионы или десятки миллионов долларов, потраченных предприятиями на графические процессоры, тратятся впустую из-за неэффективных систем искусственного интеллекта, что приводит к потере прибыли и времени вывода продукта на рынок.

Измерение — ключевое условие успешной работы сетей ИИ

Для эффективной работы кластера искусственного интеллекта графические процессоры должны быть способны использовать всю свою мощность, чтобы сократить время обучения и максимально эффективно использовать модель обучения для максимизации окупаемости инвестиций. Поэтому необходимо протестировать и оценить производительность кластера искусственного интеллекта (рис. 2). Однако эта задача непроста, поскольку с точки зрения архитектуры системы существует множество настроек и взаимосвязей между графическими процессорами и сетевыми структурами, которые должны дополнять друг друга для решения задачи.

изображение005.jpg — Платформа тестирования центров обработки данных ИИ и как она тестирует кластеры центров обработки данных ИИ

Это создает множество проблем при измерении сетей ИИ:

- Сложность воспроизведения целых производственных сетей в лабораторных условиях из-за ограничений по стоимости, оборудованию, нехватке квалифицированных инженеров сетевого ИИ, пространства, мощности и температуры.

- Измерение в производственной системе снижает доступную производительность обработки самой производственной системы.

- Трудность точного воспроизведения проблем из-за различий в масштабе и сфере охвата проблем.

- Сложность коллективного подключения графических процессоров.

Для решения этих задач предприятия могут протестировать подмножество рекомендуемых конфигураций в лабораторной среде, чтобы оценить ключевые показатели, такие как время выполнения задания (JCT), пропускную способность, которую может обеспечить команда ИИ, и сравнить их с использованием коммутационной платформы и кэша. Такой бенчмаркинг помогает найти оптимальный баланс между рабочей нагрузкой на графические процессоры/вычислительную технику и проектированием/настройкой сети. Получив удовлетворительные результаты, компьютерные архитекторы и сетевые инженеры могут запустить эти конфигурации в эксплуатацию и оценить новые результаты.

Корпоративные исследовательские лаборатории, академические институты и университеты работают над анализом всех аспектов создания и эксплуатации эффективных сетей ИИ, чтобы решать проблемы, возникающие при работе с большими сетями, особенно в условиях продолжающегося развития передовых практик. Этот совместный, воспроизводимый подход — единственный способ для компаний проводить повторяемые измерения и быстро тестировать сценарии «что если», которые лежат в основе оптимизации сетей для ИИ.

(Источник: Keysight Technologies)

Источник: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html