Благодаря усовершенствованным технологиям обучения искусственного интеллекта DeepSeek, чип Huawei Ascend продемонстрировал выдающуюся производительность. Фото: Reuters . |
Исследователи, работающие над большой языковой моделью (LLM) Pangu компании Huawei, 4 июня объявили, что им удалось усовершенствовать оригинальный подход DeepSeek к обучению искусственного интеллекта (ИИ), используя фирменное оборудование компании, сообщает SCMP .
В частности, в статье, опубликованной командой Pangu компании Huawei, в которую входят 22 основных сотрудника и 56 дополнительных исследователей, была представлена концепция смеси сгруппированных экспертов (MoGE) — усовершенствованная версия метода смеси экспертов (MoE), сыгравшая ключевую роль в экономически эффективных моделях ИИ DeepSeek.
Согласно статье, хотя MoE обеспечивает низкие затраты на выполнение для больших параметров модели и расширенные возможности обучения, он также часто приводит к неэффективности. Это происходит из-за неравномерной активации, что снижает производительность при параллельной работе на нескольких устройствах.
Между тем, по словам исследователей, MoGE совершенствуется командой экспертов в процессе отбора и лучше распределяет рабочую нагрузку «экспертов».
В обучении ИИ термин «эксперт» относится к специализированным подмоделям или компонентам более крупной модели. Каждая из этих моделей будет разработана для решения конкретных задач или обработки определённых типов данных. Это позволяет системе в целом использовать разнообразные экспертные знания для повышения производительности.
По данным Huawei, процесс обучения состоит из трёх основных этапов: предварительная тренировка, расширение в длительном контексте и посттренинг. Весь процесс включал предварительную тренировку на 13,2 триллиона токенов и расширение в длительном контексте с использованием 8192 чипов Ascend — самого мощного процессора Huawei для обработки искусственного интеллекта, используемого для обучения моделей искусственного интеллекта и призванного бросить вызов доминированию Nvidia в области разработки высокопроизводительных чипов.
Тестируя новую архитектуру на нейронном процессоре Ascend (NPU), специально разработанном для ускорения задач ИИ, исследователи обнаружили, что MoGE «приводит к лучшей балансировке экспертной нагрузки и более эффективной производительности как для обучения модели, так и для вывода».
В результате по сравнению с такими моделями, как DeepSeek-V3, Qwen2.5-72B от Alibaba и Llama-405B от Meta Platforms, Pangu превосходит большинство общих английских и все китайские бенчмарки, демонстрируя превосходную производительность при обучении в длительном контексте.
Источник: https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html
Комментарий (0)