DeepSeek зосереджується на дослідженнях та розробці нових моделей, а не на частій появі у ЗМІ. Фото: SCMP . |
У співпраці з дослідниками з Університету Цінхуа, DeepSeek представила новий метод для покращення можливостей логічного висновку моделей великих мов (LLM). Метод, опублікований у дослідницькій статті ввечері 4 квітня, допомагає LLM отримувати кращі та швидші результати для поширених запитів.
Ця методика поєднує два раніше успішні методи від DeepSeek. Один з них — це генеративне моделювання винагород (GRM), яке дозволяє моделі штучного інтелекту самостійно оцінювати та вдосконалювати свої відповіді на основі попередніх результатів, а інший — це саморегулювання критики.
Обидва методи спираються на аспект «самонавчання» штучного інтелекту, зменшуючи залежність від прямого зворотного зв'язку чи керівництва людини, але з метою отримання результатів, ближчих до людських очікувань.
За словами дослідників, незважаючи на те, що це новий метод, DeepSeek-GRM досягає видатних результатів і конкурує з найвідомішими та найефективнішими моделями штучного інтелекту, доступними на даний момент. DeepSeek планує зробити моделі GRM з відкритим вихідним кодом, але конкретні терміни поки що не вказані.
Після того, як DeepSeek досягла світового успіху завдяки своїй моделі платформи V3 та моделі логічного висновку R1, вона опублікувала цю академічну статтю в онлайн- науковому архіві arXiv, що викликало цікавість щодо наступного кроку компанії.
Агентство Reuters прогнозує, що DeepSeek-R2, наступник R1, може бути запущений у квітні, враховуючи постійну популярність свого попередника. DeepSeek-R1 раніше викликав світову сенсацію у світі технологій завдяки своїй переважній продуктивності відносно вартості, що зробило його конкурентоспроможним із сучасними провідними моделями.
DeepSeek зберігає мовчання щодо чуток. Однак, за даними місцевих джерел, обліковий запис служби підтримки клієнтів DeepSeek спростував цю інформацію в груповому чаті з корпоративними клієнтами.
Заснована в Ханчжоу у 2023 році підприємцем Лян Веньфенгом, компанія DeepSeek швидко привернула до себе світову увагу за останні кілька місяців. Але замість того, щоб скористатися своєю публічною славою, компанія зосереджує свої ресурси на дослідженнях та розробках.
Раніше DeepSeek оновив свою модель V3, випустивши версію DeepSeek-V3-0324. Згідно з оголошенням, це оновлення містить розширені можливості міркування, оптимізацію для розробки інтерфейсу користувача та покращені навички письма китайською мовою.
У лютому стартап також відкрив вихідний код п'яти репозиторіїв коду, підтвердивши свою відданість «прогресу з повною прозорістю». Також того ж місяця компанія оголосила про технічне дослідження «нативної розрідженої уваги», яке допомагає покращити продуктивність LLM під час обробки величезних обсягів даних.
DeepSeek вважається символом динамізму індустрії штучного інтелекту в Китаї, в той час, коли США намагаються стримати технологічний розвиток країни.
Джерело: https://znews.vn/deepseek-gay-to-mo-post1543900.html






Коментар (0)