DeepSeek рассказывает, как им удалось создать дешёвую модель искусственного интеллекта. Фото: Bloomberg . |
В исследовательском отчете, опубликованном 15 мая, компания DeepSeek впервые поделилась подробностями о том, как ей удалось создать одну из самых мощных в мире систем искусственного интеллекта с открытым исходным кодом, потратив при этом лишь малую часть средств по сравнению с конкурентами.
Исследование под названием «Взгляд на DeepSeek-V3: проблемы масштабирования и размышления об аппаратном обеспечении для архитектур ИИ» было проведено в соавторстве с основателем компании Ляном Вэньфэном. DeepSeek объясняет свой успех параллельной разработкой аппаратного и программного обеспечения, что отличается от подхода многих компаний, сосредоточенных на оптимизации программного обеспечения изолированно.
«DeepSeek-V3, обученный на 2048 графических процессорах Nvidia H800, демонстрирует, как параллельные архитектуры могут эффективно решать эти задачи, обеспечивая эффективное обучение и вывод в больших масштабах», — пишет команда в статье. DeepSeek и хедж-фонд High-Flyer закупили чипы линейки H800 до того, как США запретили их экспорт в Китай в 2023 году.
Команда DeepSeek, осознавая ограничения оборудования и «чрезмерные затраты» на обучение больших языковых моделей (LLM), базовой технологии, лежащей в основе таких чат-ботов, как ChatGPT от OpenAI, реализовала ряд технических оптимизаций, которые повышают эффективность памяти, улучшают взаимодействие между чипами и повышают эффективность всей инфраструктуры ИИ, говорится в статье.
Кроме того, DeepSeek подчёркивает роль архитектуры Model of Expert (MoE). Это метод машинного обучения, который разделяет модель ИИ на подсети, каждая из которых обрабатывает отдельную часть входных данных и совместно работает над оптимизацией результатов.
MoE снижает затраты на обучение и ускоряет процесс вывода. Этот метод широко применяется в китайской технологической отрасли, включая новейшую модель Qwen3 от Alibaba.
Компания DeepSeek попала в заголовки новостей, выпустив свою базовую модель V3 в декабре 2024 года и модель логического мышления R1 в январе. Эти продукты вызвали ажиотаж на мировых рынках, способствуя резкому падению акций компаний, занимающихся технологиями ИИ.
Хотя DeepSeek в последнее время не раскрывала никаких дальнейших планов, компания поддерживала интерес сообщества, регулярно публикуя отчёты. В конце марта компания выпустила небольшое обновление DeepSeek-V3, а в конце апреля без лишнего шума выпустила систему Prover-V2 для обработки математических доказательств.
Источник: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
Комментарий (0)