DeepSeek បង្ហាញពីរបៀបដែលពួកគេបង្កើតគំរូ AI ថោក។ រូបថត៖ Bloomberg ។ |
នៅក្នុងរបាយការណ៍ស្រាវជ្រាវដែលបានចេញផ្សាយនៅថ្ងៃទី 15 ខែឧសភា DeepSeek បានចែករំលែកព័ត៌មានលម្អិតជាលើកដំបូងអំពីរបៀបដែលវាបង្កើតប្រព័ន្ធ AI ប្រភពបើកចំហដ៏មានឥទ្ធិពលបំផុតមួយ របស់ពិភពលោក ក្នុងតម្លៃប្រភាគនៃដៃគូប្រកួតប្រជែងរបស់ខ្លួន។
ការសិក្សានេះមានចំណងជើងថា "ការយល់ដឹងអំពី DeepSeek-V3: ការធ្វើមាត្រដ្ឋានបញ្ហាប្រឈម និងការឆ្លុះបញ្ចាំងលើផ្នែករឹងសម្រាប់ស្ថាបត្យកម្ម AI" ត្រូវបានសហការនិពន្ធដោយស្ថាបនិក Liang Wenfeng ។ DeepSeek សន្មតថាជោគជ័យរបស់វាចំពោះការរចនាផ្នែករឹង និងសូហ្វវែរស្របគ្នា។ នេះគឺជាការផ្លាស់ប្តូរខុសគ្នានៅក្នុងបរិបទដែលក្រុមហ៊ុនជាច្រើននៅតែផ្តោតលើការបង្កើនប្រសិទ្ធភាពកម្មវិធីឯករាជ្យ។
"DeepSeek-V3 ដែលត្រូវបានបណ្តុះបណ្តាលលើ 2,048 Nvidia H800 GPUs បានបង្ហាញពីរបៀបដែលការរចនាប៉ារ៉ាឡែលអាចដោះស្រាយបញ្ហាប្រឈមទាំងនេះប្រកបដោយប្រសិទ្ធភាព ដោយអនុញ្ញាតឱ្យមានការបណ្តុះបណ្តាលប្រកបដោយប្រសិទ្ធភាព និងការសន្និដ្ឋានតាមមាត្រដ្ឋាន"។ DeepSeek និងមូលនិធិការពារហានិភ័យ High-Flyer បានស្តុកទុកនៅលើបន្ទះឈីបស៊េរី H800 មុនពេលពួកគេត្រូវបានហាមឃាត់មិនឱ្យនាំចេញទៅកាន់ប្រទេសចិនដោយសហរដ្ឋអាមេរិកនៅឆ្នាំ 2023 ។
យោងតាមកាសែត ក្រុមការងារ DeepSeek ដឹងយ៉ាងច្បាស់អំពីដែនកំណត់ផ្នែករឹង ក៏ដូចជា "ការចំណាយហួសហេតុ" នៃការបណ្តុះបណ្តាលគំរូភាសាធំ (LLMs) ដែលជាបច្ចេកវិទ្យាមូលដ្ឋាននៅពីក្រោយ chatbots ដូចជា ChatGPT របស់ OpenAI ។ ជាលទ្ធផល ពួកគេបានអនុវត្តការបង្កើនប្រសិទ្ធភាពបច្ចេកទេសជាបន្តបន្ទាប់ ដែលបង្កើនដំណើរការនៃអង្គចងចាំ ធ្វើឱ្យប្រសើរឡើងនូវទំនាក់ទំនងរវាងបន្ទះឈីប និងបង្កើនប្រសិទ្ធភាពនៃហេដ្ឋារចនាសម្ព័ន្ធ AI ទាំងមូល។
លើសពីនេះទៀត DeepSeek សង្កត់ធ្ងន់លើតួនាទីនៃស្ថាបត្យកម្មគំរូនៃអ្នកជំនាញ (MoE) ។ នេះគឺជាវិធីសាស្រ្តរៀនម៉ាស៊ីនដែលបែងចែកគំរូ AI ទៅជាបណ្តាញរង ដែលនីមួយៗដំណើរការផ្នែកដាច់ដោយឡែកនៃទិន្នន័យបញ្ចូល ហើយធ្វើការសហការគ្នាដើម្បីបង្កើនប្រសិទ្ធភាពលទ្ធផល។
MoE ជួយកាត់បន្ថយការចំណាយលើការបណ្តុះបណ្តាល និងបង្កើនល្បឿនការសន្និដ្ឋាន។ វិធីសាស្រ្តនេះត្រូវបានទទួលយកយ៉ាងទូលំទូលាយនៅក្នុងឧស្សាហកម្មបច្ចេកវិទ្យារបស់ប្រទេសចិន រួមទាំងម៉ូដែល Qwen3 ចុងក្រោយបំផុតរបស់ក្រុមហ៊ុន Alibaba ផងដែរ។
DeepSeek បានបង្កើតចំណងជើងនៅពេលដែលវាចេញផ្សាយគំរូ V3 មូលដ្ឋានរបស់ខ្លួននៅក្នុងខែធ្នូ 2024 និងគំរូហេតុផល R1 របស់ខ្លួននៅក្នុងខែមករា។ ផលិតផលទាំងនេះបានបង្កឱ្យមានការរំជើបរំជួលនៅក្នុងទីផ្សារពិភពលោក ដែលរួមចំណែកដល់ការធ្លាក់ចុះយ៉ាងខ្លាំងនៃភាគហ៊ុនបច្ចេកវិទ្យាដែលទាក់ទងនឹង AI ។
ទោះបីជាមិនបានបង្ហាញពីផែនការបន្ថែមទៀតនាពេលថ្មីៗនេះក៏ដោយ DeepSeek បានរក្សាចំណាប់អារម្មណ៍សហគមន៍ដោយការបោះពុម្ពរបាយការណ៍ជាប្រចាំ។ នៅចុងខែមីនា ក្រុមហ៊ុនបានចេញផ្សាយការអាប់ដេតបន្តិចបន្តួចចំពោះ DeepSeek-V3 ហើយនៅចុងខែមេសា ពួកគេបានបើកដំណើរការប្រព័ន្ធ Prover-V2 ដោយស្ងាត់ស្ងៀមសម្រាប់ដំណើរការភស្តុតាងគណិតវិទ្យា។
ប្រភព៖ https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
Kommentar (0)