
Графические процессоры — это «мозг» компьютеров с искусственным интеллектом.
Проще говоря, графический процессор (GPU) выступает в роли «мозга» компьютера с искусственным интеллектом.
Как вы, возможно, уже знаете, центральный процессор (ЦП) — это мозг компьютера. Преимущество графического процессора (ГП) заключается в том, что это специализированный ЦП для выполнения сложных вычислений. Самый быстрый способ выполнить эти вычисления — это заставить группы графических процессоров совместно решать задачу. Тем не менее, обучение модели ИИ может занять недели или даже месяцы. После создания модель размещается во фронтальной компьютерной системе, и пользователи могут задавать ей вопросы; этот процесс называется выводом.
Компьютер с искусственным интеллектом содержит несколько графических процессоров.
Наилучшей архитектурой для решения задач искусственного интеллекта является использование группы графических процессоров (GPU) в стойке, подключенных к коммутатору, расположенному сверху стойки. Несколько стоек с GPU могут быть дополнительно соединены в иерархическую систему сетевого подключения. По мере усложнения решаемых задач требования к GPU также возрастают, и в некоторых проектах может потребоваться развертывание кластеров из тысяч GPU.
Каждый кластер ИИ представляет собой небольшую сеть.
При создании кластера для искусственного интеллекта необходимо настроить небольшую компьютерную сеть для подключения и обеспечения совместной работы графических процессоров и эффективного обмена данными.

На приведенной выше диаграмме показан кластер ИИ, где круги внизу представляют рабочие процессы, выполняемые на графических процессорах (GPU). Графические процессоры подключаются к коммутаторам на верхнем уровне стойки (ToR). Эти коммутаторы ToR также подключаются к магистральным сетевым коммутаторам, показанным выше на диаграмме, демонстрируя четкую сетевую иерархию, необходимую при использовании нескольких графических процессоров.
Сети являются узким местом при внедрении ИИ.
Прошлой осенью на глобальном саммите Open Computer Project (OCP), где делегаты занимались созданием инфраструктуры искусственного интеллекта следующего поколения, представитель Marvell Technology Лой Нгуен указал на ключевую проблему: «сети стали новым узким местом».
С технической точки зрения, высокая задержка пакетов или потеря пакетов из-за перегрузки сети может привести к повторной отправке пакетов, что значительно увеличивает время выполнения задания (JCT). В результате миллионы или десятки миллионов долларов, потраченные предприятиями на графические процессоры, оказываются потраченными впустую из-за неэффективных систем искусственного интеллекта, что наносит ущерб бизнесу как с точки зрения доходов, так и времени выхода на рынок.
Тестирование и измерения являются важнейшими условиями для успешной работы сетей искусственного интеллекта.
Для эффективной работы кластера ИИ графические процессоры должны использовать всю свою мощность, чтобы сократить время обучения и реализовать модели обучения для максимизации отдачи от инвестиций. Поэтому необходимо тестирование и оценка производительности кластера ИИ (рис. 2). Однако эта задача непроста, поскольку архитектура системы включает множество настроек и взаимосвязей между графическим процессором и сетевой структурой, которые должны дополнять друг друга для решения проблемы.

Это создает множество трудностей и проблем при измерении производительности сетей искусственного интеллекта:
— Сложность воспроизведения всей производственной сети в лабораторных условиях обусловлена ограничениями по стоимости, оборудованию, нехваткой высококвалифицированных инженеров по сетевым технологиям в области ИИ, пространству, электроснабжению и температуре.
- Тестирование на производственной системе снижает доступную вычислительную мощность самой производственной системы.
- Сложности в точном воспроизведении проблем обусловлены различиями в масштабе и объеме этих проблем.
— Сложность механизма взаимодействия графических процессоров.
Для решения этих задач компании могут провести сравнительный анализ подмножества предлагаемых конфигураций в лабораторных условиях, чтобы оценить ключевые параметры, такие как JCT (время завершения задания), пропускную способность, достижимая для команды ИИ, и сравнить их с использованием коммутационной платформы и кэширования. Этот сравнительный анализ помогает найти правильный баланс между нагрузкой на графический процессор/процессор и проектированием/установкой сети. Удовлетворившись результатами, компьютерные архитекторы и сетевые инженеры могут применить эти конфигурации в производственной среде и оценить новые показатели.
Исследовательские лаборатории, научно-исследовательские институты и университеты работают над анализом всех аспектов построения и эксплуатации эффективных сетей на основе искусственного интеллекта, чтобы решить проблемы работы с крупными сетями, особенно в условиях постоянного изменения передовых методов. Такой повторяемый подход, основанный на сотрудничестве, является единственным способом для предприятий проводить повторяемые измерения и быстрое тестирование сценариев «если-то» — фундаментальный шаг для оптимизации сетей на основе ИИ.
(Источник: Keysight Technologies)
Источник: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html










