Мережі штучного інтелекту - 5 речей, які потрібно знати

Графічний процесор – це мозок комп'ютера зі штучним інтелектом

Простіше кажучи, графічний процесор (GPU) діє як мозок комп'ютера зі штучним інтелектом.

Як ви, можливо, знаєте, центральний процесор (CPU) – це мозок комп’ютера. Перевага графічного процесора (GPU) полягає в тому, що це спеціалізований CPU, який може виконувати складні обчислення. Найшвидший спосіб зробити це – залучити групи графічних процесорів до вирішення однієї й тієї ж задачі. Однак навчання моделі штучного інтелекту все ще може тривати тижні або навіть місяці. Після побудови вона розміщується у фронтенд-комп’ютерній системі, і користувачі можуть ставити запитання до моделі штучного інтелекту, цей процес називається логічним висновком.

Штучний комп'ютер, що містить кілька графічних процесорів

Найкраща архітектура для задач штучного інтелекту полягає у використанні кластера графічних процесорів у стійці, підключеного до комутатора зверху стійки. Кілька стійок з графічними процесорами можуть бути об'єднані в ієрархію мереж. Зі складнішою задачею вимоги до графічних процесорів зростають, і деяким проектам може знадобитися розгортання кластерів з тисяч графічних процесорів.

Кожен кластер штучного інтелекту – це невелика мережа

Під час побудови кластера штучного інтелекту необхідно налаштувати невелику комп'ютерну мережу для підключення та забезпечення спільної роботи графічних процесорів та ефективного обміну даними.

зображення002.jpg — Кластер штучного інтелекту

На рисунку вище показано кластер штучного інтелекту, де кола внизу представляють робочі процеси, що виконуються на графічних процесорах. Графічні процесори підключаються до комутаторів верхньої частини стійки (ToR). Комутатори ToR також підключаються до комутаторів магістральної мережі, показаних на схемі вище, демонструючи чітку ієрархію мережі, необхідну для використання кількох графічних процесорів.

Мережі є вузьким місцем у розгортанні штучного інтелекту
Минулої осені на Глобальному саміті Open Computer Project (OCP), де делегати працювали над створенням інфраструктури штучного інтелекту наступного покоління, делегат Лой Нгуєн з Marvell Technology висловив ключовий момент: «мережа — це нове вузьке місце».

Технічно, висока затримка пакетів або втрата пакетів через перевантаження мережі може призвести до повторного надсилання пакетів, що значно збільшує час виконання завдань (JCT). В результаті, через неефективні системи штучного інтелекту підприємства витрачають мільйони або десятки мільйонів доларів на графічні процесори, що коштує їм як доходу, так і часу виведення на ринок.

Вимірювання є ключовою умовою успішної роботи мереж штучного інтелекту

Для ефективної роботи кластера штучного інтелекту необхідно мати можливість повноцінно використовувати графічні процесори, що скорочує час навчання та дозволяє використовувати модель навчання для максимізації рентабельності інвестицій. Тому необхідно протестувати та оцінити продуктивність кластера штучного інтелекту (Рисунок 2). Однак це завдання непросте, оскільки з точки зору архітектури системи існує багато налаштувань та зв'язків між графічними процесорами та мережевими структурами, які повинні доповнювати один одного для вирішення проблеми.

зображення005.jpg — Платформа тестування центрів обробки даних зі штучним інтелектом та як вона тестує кластери центрів обробки даних зі штучним інтелектом

Це створює багато проблем у вимірюванні мереж штучного інтелекту:

- Складність відтворення цілих виробничих мереж у лабораторії через обмеження у вартості, обладнанні, нестачі кваліфікованих інженерів з мережевого штучного інтелекту, просторі, потужності та температурі.

- Вимірювання на виробничій системі зменшує доступну обробну потужність самої виробничої системи.

- Складність точного відтворення проблем через різницю в масштабі та обсязі проблем.

- Складність того, як графічні процесори колективно з'єднані.

Щоб вирішити ці проблеми, компанії можуть протестувати підмножину рекомендованих налаштувань у лабораторному середовищі для порівняння ключових показників, таких як час виконання завдання (JCT), пропускна здатність, яку може досягти команда ШІ, та порівняти їх з використанням комутаційної платформи та використанням кешу. Такий бенчмаркінг допомагає знайти правильний баланс між робочим навантаженням графічного процесора/обробки та проектуванням/налаштуванням мережі. Після того, як результати будуть задоволені, комп'ютерні архітектори та мережеві інженери можуть перенести ці налаштування у виробництво та виміряти нові результати.

Корпоративні дослідницькі лабораторії, академічні установи та університети працюють над аналізом кожного аспекту побудови та експлуатації ефективних мереж штучного інтелекту, щоб вирішити проблеми роботи у великих мережах, особливо з огляду на те, що передовий досвід продовжує розвиватися. Такий спільний, повторюваний підхід — єдиний спосіб для компаній виконувати повторювані вимірювання та швидко тестувати сценарії «що, якщо», які є основою оптимізації мереж для ШІ.

(Джерело: Keysight Technologies)

Джерело: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html