Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek раскрывает секрет

DeepSeek впервые раскрывает, как создать ведущую в мире модель искусственного интеллекта с открытым исходным кодом при низких затратах благодаря одновременной разработке аппаратного и программного обеспечения.

Zing NewsZing News20/05/2025

DeepSeek рассказывает, как им удалось создать дешевую модель ИИ. Фото: Bloomberg .

В исследовательском отчете, опубликованном 15 мая, компания DeepSeek впервые поделилась подробностями о том, как ей удалось создать одну из самых мощных в мире систем искусственного интеллекта с открытым исходным кодом, затратив при этом всего лишь малую часть средств, необходимых ее конкурентам.

Соавтором исследования под названием «Взгляд на DeepSeek-V3: проблемы масштабирования и размышления об аппаратном обеспечении для архитектур ИИ» выступил основатель компании Лян Вэньфэн. DeepSeek связывает свой успех с параллельной разработкой аппаратного и программного обеспечения. Это необычный шаг в контексте того, что многие компании по-прежнему сосредоточены на оптимизации независимого программного обеспечения.

«DeepSeek-V3, обученный на 2048 графических процессорах Nvidia H800, продемонстрировал, как параллельная разработка может эффективно решать эти проблемы, обеспечивая эффективное обучение и вывод в больших масштабах», — написала команда в статье. DeepSeek и хедж-фонд High-Flyer запаслись чипами серии H800 до того, как США запретили их экспорт в Китай в 2023 году.

Согласно статье, команда DeepSeek хорошо осведомлена об ограничениях оборудования, а также о «чрезмерных затратах» на обучение больших языковых моделей (LLM), базовой технологии, лежащей в основе чат-ботов, таких как ChatGPT от OpenAI. В результате они реализовали ряд технических оптимизаций, которые повысили производительность памяти, улучшили связь между чипами и повысили эффективность всей инфраструктуры ИИ.

Кроме того, DeepSeek подчеркивает роль архитектуры модели эксперта (MoE). Это метод машинного обучения, который разделяет модель ИИ на подсети, каждая из которых обрабатывает отдельную часть входных данных и работает совместно для оптимизации результата.

MoE помогает сократить расходы на обучение и ускорить процесс вывода. Этот метод в настоящее время широко применяется в китайской технологической отрасли, включая последнюю модель Qwen3 от Alibaba.

Компания DeepSeek попала в заголовки газет, когда в декабре 2024 года выпустила свою базовую модель V3, а в январе — модель рассуждений R1. Эти продукты вызвали ажиотаж на мировых рынках, способствуя резкому падению акций компаний, занимающихся технологиями ИИ.

Несмотря на то, что в последнее время компания не раскрывала никаких дальнейших планов, DeepSeek поддерживает интерес сообщества, публикуя регулярные отчеты. В конце марта компания выпустила небольшое обновление DeepSeek-V3, а в конце апреля без лишнего шума запустила систему Prover-V2 для математической обработки доказательств.

Источник: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Комментарий (0)

No data
No data

Та же категория

Следуй за солнцем
Приезжайте в Сапу, чтобы окунуться в мир роз.
Дикая природа острова Катба
Огненно-красный восход солнца в Нгу Чи Сон

Тот же автор

Наследство

Фигура

Бизнес

No videos available

Новости

Политическая система

Местный

Продукт