Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek раскрывает секрет

DeepSeek впервые показывает, как создать ведущую в мире модель искусственного интеллекта с открытым исходным кодом при низких затратах благодаря одновременной разработке аппаратного и программного обеспечения.

ZNewsZNews19/05/2025

DeepSeek рассказывает, как им удалось создать дешёвую модель искусственного интеллекта. Фото: Bloomberg .

В исследовательском отчете, опубликованном 15 мая, компания DeepSeek впервые поделилась подробностями о том, как ей удалось создать одну из самых мощных в мире систем искусственного интеллекта с открытым исходным кодом, потратив при этом лишь малую часть средств по сравнению с конкурентами.

Исследование под названием «Взгляд на DeepSeek-V3: проблемы масштабирования и размышления об аппаратном обеспечении для архитектур ИИ» было проведено в соавторстве с основателем компании Ляном Вэньфэном. DeepSeek объясняет свой успех параллельной разработкой аппаратного и программного обеспечения, что отличается от подхода многих компаний, сосредоточенных на оптимизации программного обеспечения изолированно.

«DeepSeek-V3, обученный на 2048 графических процессорах Nvidia H800, демонстрирует, как параллельные архитектуры могут эффективно решать эти задачи, обеспечивая эффективное обучение и вывод в больших масштабах», — пишет команда в статье. DeepSeek и хедж-фонд High-Flyer закупили чипы линейки H800 до того, как США запретили их экспорт в Китай в 2023 году.

Команда DeepSeek, осознавая ограничения оборудования и «чрезмерные затраты» на обучение больших языковых моделей (LLM), базовой технологии, лежащей в основе таких чат-ботов, как ChatGPT от OpenAI, реализовала ряд технических оптимизаций, которые повышают эффективность памяти, улучшают взаимодействие между чипами и повышают эффективность всей инфраструктуры ИИ, говорится в статье.

Кроме того, DeepSeek подчёркивает роль архитектуры Model of Expert (MoE). Это метод машинного обучения, который разделяет модель ИИ на подсети, каждая из которых обрабатывает отдельную часть входных данных и совместно работает над оптимизацией результатов.

MoE снижает затраты на обучение и ускоряет процесс вывода. Этот метод широко применяется в китайской технологической отрасли, включая новейшую модель Qwen3 от Alibaba.

Компания DeepSeek попала в заголовки новостей, выпустив свою базовую модель V3 в декабре 2024 года и модель логического мышления R1 в январе. Эти продукты вызвали ажиотаж на мировых рынках, способствуя резкому падению акций компаний, занимающихся технологиями ИИ.

Хотя DeepSeek в последнее время не раскрывала никаких дальнейших планов, компания поддерживала интерес сообщества, регулярно публикуя отчёты. В конце марта компания выпустила небольшое обновление DeepSeek-V3, а в конце апреля без лишнего шума выпустила систему Prover-V2 для обработки математических доказательств.

Источник: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Комментарий (0)

No data
No data
Волшебное зрелище на холме с перевернутыми чашами чая в Пху Тхо
Три острова в Центральном регионе сравнивают с Мальдивами, привлекая туристов летом.
Полюбуйтесь сверкающим прибрежным городом Куинён в Гиалай ночью.
Изображение террасных полей в Пху Тхо, пологих, ярких и прекрасных, как зеркала перед началом посевной.
Фабрика Z121 готова к финалу Международного фестиваля фейерверков
Известный журнал о путешествиях назвал пещеру Шондонг «самой великолепной на планете»
Таинственная пещера привлекает западных туристов, ее сравнивают с пещерой Фонгня в Тханьхоа.
Откройте для себя поэтическую красоту залива Винь-Хи
Как обрабатывается самый дорогой чай в Ханое, стоимостью более 10 миллионов донгов за кг?
Вкус речного региона

Наследство

Фигура

Бизнес

No videos available

Новости

Политическая система

Местный

Продукт