Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek раскрывает свои секреты.

Компания DeepSeek впервые раскрыла секрет создания ведущей в мире модели искусственного интеллекта с открытым исходным кодом с низкими затратами благодаря одновременной разработке аппаратного и программного обеспечения.

ZNewsZNews19/05/2025

Компания DeepSeek раскрывает секреты создания недорогих моделей искусственного интеллекта. Фото: Bloomberg .

В исследовательском отчете, опубликованном 15 мая, компания DeepSeek впервые поделилась подробностями о том, как ей удалось создать одну из самых мощных в мире систем искусственного интеллекта с открытым исходным кодом, затратив на это значительно меньше средств, чем конкуренты.

Исследование под названием «Анализ DeepSeek-V3: проблемы масштабирования и размышления об аппаратном обеспечении для архитектур ИИ» написано в соавторстве с основателем компании Лян Вэньфэном. DeepSeek объясняет свой успех параллельным проектированием аппаратного и программного обеспечения, что является отличительной чертой многих компаний, которые по-прежнему сосредоточены на независимой оптимизации программного обеспечения.

«DeepSeek-V3, обученный на 2048 графических процессорах Nvidia H800, продемонстрировал, как параллельное проектирование может эффективно решать задачи, обеспечивая эффективное обучение и вывод результатов в масштабе», — написала исследовательская группа в отчете. DeepSeek и хедж-фонд High-Flyer накопили запасы чипов H800 до того, как США запретили их экспорт в Китай начиная с 2023 года.

Согласно статье, исследовательская группа DeepSeek прекрасно знала об аппаратных ограничениях и непомерных затратах на обучение больших языковых моделей (LLM), лежащей в основе таких чат-ботов, как ChatGPT от OpenAI. Поэтому они внедрили ряд технических оптимизаций для повышения производительности памяти, улучшения связи между чипами и повышения общей эффективности инфраструктуры ИИ.

Кроме того, DeepSeek подчеркивает роль архитектуры смешанной экспертной модели (Mixed Expert Model, MoE). Это метод машинного обучения, который разделяет модель ИИ на подсети, каждая из которых обрабатывает отдельную часть входных данных и работает совместно для оптимизации результатов.

Метод MoE помогает снизить затраты на обучение и ускорить скорость логического мышления. Этот метод сейчас широко применяется в китайской технологической индустрии, в том числе в новейшей модели Qwen3 от Alibaba.

Компания DeepSeek впервые привлекла внимание, выпустив в декабре 2024 года базовую модель V3, а в январе — модель логического мышления R1. Эти продукты вызвали ажиотаж на мировом рынке, способствуя повсеместному падению акций компаний, занимающихся разработкой технологий искусственного интеллекта.

Хотя DeepSeek в последнее время не раскрывала никаких новых планов, компания поддерживает интерес сообщества благодаря регулярным отчетам. В конце марта компания выпустила небольшое обновление для DeepSeek-V3, а к концу апреля незаметно запустила систему Prover-V2 для обработки математических доказательств.

Источник: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Комментарий (0)

Оставьте комментарий, чтобы поделиться своими чувствами!

Та же категория

Тот же автор

Наследство

Фигура

Предприятия

Актуальные события

Политическая система

Местный

Продукт

Happy Vietnam
Изящный

Изящный

РАДОСТЬ НАЦИОНАЛЬНОГО ФЕСТИВАЛЯ

РАДОСТЬ НАЦИОНАЛЬНОГО ФЕСТИВАЛЯ

Императорский город Хюэ

Императорский город Хюэ