Используя усовершенствованные методы обучения искусственного интеллекта DeepSeek, чип Huawei Ascend продемонстрировал выдающуюся производительность. Фото: Reuters . |
Исследователи, работающие над большой языковой моделью Pangu (LLM) компании Huawei, 4 июня объявили, что им удалось усовершенствовать оригинальный подход DeepSeek к обучению искусственного интеллекта (ИИ) за счет использования фирменного оборудования компании, сообщает SCMP .
В частности, в статье, опубликованной командой Pangu компании Huawei, в которую входят 22 основных сотрудника и 56 дополнительных исследователей, представлена концепция смеси сгруппированных экспертов (MoGE), усовершенствованная версия метода смеси экспертов (MoE), сыгравшего ключевую роль в экономически эффективных моделях ИИ DeepSeek.
Согласно статье, хотя MoE предлагает низкие затраты на выполнение для больших параметров модели и расширенные возможности обучения, он также часто приводит к неэффективности. Это происходит из-за неравномерной активации, которая снижает производительность при параллельной работе на нескольких устройствах.
Между тем, по словам исследователей, MoGE совершенствуется командой экспертов в процессе отбора и лучше распределяет рабочую нагрузку «экспертов».
В обучении ИИ термин «эксперт» относится к специализированным подмоделям или компонентам в рамках более крупной модели. Каждая из этих моделей будет разработана для обработки определенных задач или отдельных типов данных. Это позволяет всей системе использовать разнообразный опыт для повышения производительности.
По данным Huawei, процесс обучения состоит из трех основных фаз: предварительная подготовка, расширение длинного контекста и постобучение. Весь процесс включал предварительную подготовку на 13,2 триллиона токенов и расширение длинного контекста с использованием 8192 чипов Ascend — самого мощного процессора искусственного интеллекта Huawei, используемого для обучения моделей искусственного интеллекта и нацеленного на то, чтобы бросить вызов доминированию Nvidia в разработке высокопроизводительных чипов.
Протестировав новую архитектуру на нейронном процессоре Ascend (NPU), специально разработанном для ускорения задач ИИ, исследователи обнаружили, что MoGE «обеспечивает лучшую балансировку экспертной нагрузки и более эффективную производительность как для обучения модели, так и для вывода».
В результате по сравнению с такими моделями, как DeepSeek-V3, Qwen2.5-72B от Alibaba и Llama-405B от Meta Platforms, Pangu превосходит большинство общих английских тестов и все китайские тесты, демонстрируя превосходную производительность при обучении в длительном контексте.
Источник: https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html
Комментарий (0)