នៅថ្ងៃទី 5 ខែមីនា សមាគមគ្រឿងម៉ាស៊ីនកុំព្យូទ័របានប្រកាសពានរង្វាន់ Turing Award ដល់ អ្នកវិទ្យាសាស្ត្រ Andrew Barto និង Richard Sutton សម្រាប់ការស្រាវជ្រាវរបស់ពួកគេលើ "ការរៀនពង្រឹង" ដែលអនុញ្ញាតឱ្យ AI រៀនពី "ភាពរីករាយ" និង "ការឈឺចាប់" ក្នុងទម្រង់ឌីជីថល។
ពានរង្វាន់ Turing Award ដែលដាក់ឈ្មោះថា "រង្វាន់ណូបែលកុំព្យូទ័រ" ចាប់តាំងពីការបង្កើតឡើងក្នុងឆ្នាំ 1966 មកជាមួយនឹងរង្វាន់ 1 លានដុល្លារ ដែលអ្នកវិទ្យាសាស្ត្រទាំងពីរនឹងចែករំលែក។
ដំណើរនៃ "ការរៀនពង្រឹង" បានចាប់ផ្តើមនៅក្នុងឆ្នាំ 1977 នៅពេលដែល Andrew Barto បន្ទាប់មកអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Massachusetts ទីក្រុង Amherst បានស្នើទ្រឹស្តីថ្មីមួយ៖ ណឺរ៉ូននៅក្នុងខួរក្បាលរបស់មនុស្សដើរតួជា "hedonists" ដែលតែងតែស្វែងរកដើម្បីបង្កើនភាពរីករាយ និងកាត់បន្ថយការឈឺចាប់។
នៅឆ្នាំ 1978 លោក Richard Sutton បានចូលរួមជាមួយលោក Andrew Barto ដើម្បីបង្កើតគំនិតនេះដើម្បីពន្យល់ពីភាពវៃឆ្លាតរបស់មនុស្ស និងអនុវត្តវាទៅនឹងបញ្ញាសិប្បនិម្មិត (AI) ។ លទ្ធផលគឺកំណើតនៃ "ការរៀនពង្រឹង" ដែលជាវិធីសាស្រ្តដែលអនុញ្ញាតឱ្យប្រព័ន្ធ AI រៀនពី "ភាពរីករាយ" និង "ការឈឺចាប់" នៅក្នុងទម្រង់ឌីជីថល។
ការងាររបស់ពួកគេបានបង្កើតមូលដ្ឋានគ្រឹះសម្រាប់របកគំហើញសំខាន់ៗក្នុងរយៈពេលមួយទសវត្សរ៍កន្លងមកនេះ ចាប់ពីប្រព័ន្ធ AlphaGo របស់ Google យកឈ្នះលើអ្នកលេង Go លំដាប់ពិភពលោក Lee Sedol ក្នុងឆ្នាំ 2016 រហូតដល់ Chatbot របស់ OpenAI ដែលមានលក្ខណៈដូចមនុស្សគួរឱ្យភ្ញាក់ផ្អើលក្នុងសមត្ថភាពសន្ទនារបស់វា។
លោក Oren Etzioni សាស្ត្រាចារ្យកិត្តិយសនៅសាកលវិទ្យាល័យ Washington និងជាស្ថាបនិកវិទ្យាស្ថាន Allen សម្រាប់បញ្ញាសិប្បនិម្មិត ដែលសៀវភៅឆ្នាំ 1998 ដែលមានចំណងជើងថា "ការណែនាំអំពីការពង្រឹងការរៀនសូត្រ" និយាយថា "ពួកគេគឺជាអ្នកត្រួសត្រាយផ្លូវដែលមិនអាចប្រកែកបានក្នុងការរៀនពង្រឹង" នៅតែជាអត្ថបទស្តង់ដារនៅក្នុងវិស័យនេះ។
អ្នកចិត្តសាស្រ្តបានសិក្សាជាយូរមកហើយពីរបៀបដែលមនុស្ស និងសត្វរៀនពីបទពិសោធន៍របស់ពួកគេ។ នៅទសវត្សរ៍ឆ្នាំ 1940 អ្នកត្រួសត្រាយវិទ្យាសាស្ត្រកុំព្យូទ័រជនជាតិអង់គ្លេស Alan Turing បានស្នើថាម៉ាស៊ីនអាចរៀនតាមរបៀបស្រដៀងគ្នា។
ប៉ុន្តែវាគឺជាលោកបណ្ឌិត Barto និងលោកវេជ្ជបណ្ឌិត Sutton ដែលបានចាប់ផ្តើម ស្វែងយល់អំពី គណិតវិទ្យាអំពីរបៀបដែលវាអាចដំណើរការ ដោយបង្កើតទ្រឹស្ដីមួយដែលស្នើឡើងដោយ A. Harry Klopf ដែលជាអ្នកវិទ្យាសាស្ត្រកុំព្យូទ័រធ្វើការឱ្យរដ្ឋាភិបាល។ បន្ទាប់មក លោកវេជ្ជបណ្ឌិត Barto បានសាងសង់មន្ទីរពិសោធន៍នៅ UMass Amherst ដែលឧទ្ទិសដល់គំនិតនេះ ខណៈដែលលោកវេជ្ជបណ្ឌិត Sutton បានបង្កើតមន្ទីរពិសោធន៍ស្រដៀងគ្នានៅសាកលវិទ្យាល័យ Alberta ក្នុងប្រទេសកាណាដា។
"ការរៀនពង្រឹង" មិនមែនសម្រាប់តែហ្គេមប៉ុណ្ណោះទេ។ ដោយប្រើបច្ចេកទេស "ការពង្រឹងការរៀនពីមតិកែលម្អរបស់មនុស្ស" (RLHF) ChatGPT ត្រូវបានបណ្តុះបណ្តាលដោយអ្នកប្រើប្រាស់រាប់រយនាក់ ដើម្បីបង្កើនសមត្ថភាពឆ្លើយតបរបស់វា។
ថ្មីៗនេះក្រុមហ៊ុនដូចជា OpenAI និង DeepSeek ក៏បានបង្កើតប្រព័ន្ធរៀនដោយខ្លួនឯងដែលអនុញ្ញាតឱ្យ chatbots ដោះស្រាយបញ្ហាដោយខ្លួនឯង និងក្លែងធ្វើហេតុផលរបស់មនុស្ស ដែលនាំទៅដល់ការលេចចេញនូវប្រព័ន្ធ "ហេតុផល" ដូចជា OpenAI's o1 ឬ DeepSeek's R1 ។
សម្លឹងទៅមុខ អ្នកវិទ្យាសាស្ត្រទាំងពីរជឿថា "ការរៀនពង្រឹង" នឹងជួយមនុស្សយន្តឱ្យរៀនពីបទពិសោធន៍ក្នុងពិភពពិត ដូចមនុស្ស និងសត្វធ្វើដែរ។ លោក Barto បាននិយាយថា៖ «វាជារឿងធម្មជាតិណាស់ក្នុងការគ្រប់គ្រងសារពាង្គកាយមួយតាមរយៈ ការសិក្សាពង្រឹង ។
ជាមួយនឹងការរួមចំណែកបដិវត្តន៍របស់ពួកគេ Andrew Barto និង Richard Sutton មិនត្រឹមតែសមនឹងទទួលបានពានរង្វាន់ Turing ប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងបើកទ្វារទៅកាន់យុគសម័យថ្មីនៃបញ្ញាសិប្បនិម្មិតផងដែរ។
ប្រភព៖ https://vietnamnet.vn/giai-nobel-cua-nganh-dien-toan-2025-da-co-chu-2377820.html
Kommentar (0)