បញ្ញាសិប្បនិម្មិត (AI) កំពុងវាយតម្លៃមនុស្សដោយសម្ងាត់។

ជំនួសឲ្យការវាយតម្លៃពីមនុស្សដូចមុន Anthropic បានបញ្ច្រាសដំណើរការនេះ។ Claude នឹងវិភាគប្រវត្តិជជែករបស់អ្នកប្រើប្រាស់ដើម្បីដាក់ពិន្ទុលើ "កម្រិត" នៃការប្រើប្រាស់ AI របស់ពួកគេ។

ZNews•31/05/2026

លោក Chabot Claude កំពុងវាយតម្លៃជំនាញអ្នកប្រើប្រាស់ដោយផ្អែកលើអន្តរកម្ម។ រូបភាព៖ VectorStock ។

ការស្រាវជ្រាវចុងក្រោយរបស់ Anthropic ដែលមានចំណងជើងថា "សន្ទស្សន៍ភាពស្ទាត់ជំនាញរបស់ AI" បានបញ្ច្រាស់ប្រាជ្ញាធម្មតាដោយឱ្យ Claude ដែលជា chatbot វាយតម្លៃមនុស្ស។ តាមរយៈការវិភាគរចនាសម្ព័ន្ធនៃការសន្ទនា AI ចាត់ថ្នាក់ជំនាញរបស់អ្នកប្រើប្រាស់លើមាត្រដ្ឋាន 11 ចំណុច។

ដើម្បីបង្កើតក្របខ័ណ្ឌសមត្ថភាពដែលមានស្តង់ដារចំនួន 24 ក្រុមហ៊ុន Anthropic បានប្រើប្រាស់ឧបករណ៍វិភាគដើម្បីស្កេនការសន្ទនារបស់អ្នកប្រើប្រាស់ក្នុងជីវិតពិតចំនួន 9,830។

ក្នុងចំណោមនេះ លក្ខណៈវិនិច្ឆ័យចំនួន ១៣ កើតឡើងនៅខាងក្រៅអេក្រង់ ដូចជាថាតើអ្នកប្រើប្រាស់លាក់បាំងការប្រើប្រាស់ AI របស់ពួកគេពីថ្នាក់លើរបស់ពួកគេឬអត់។ លក្ខណៈវិនិច្ឆ័យចំនួន ១១ ដែលនៅសល់គឺជារង្វាស់ឥរិយាបថអ្នកប្រើប្រាស់ ដែលបែងចែកជាបីទិដ្ឋភាពសំខាន់ៗ៖ ការពិពណ៌នា ការអនុញ្ញាត និងការកំណត់អត្តសញ្ញាណ។

ភាពរីករាលដាលនៃសូចនាករអាកប្បកិរិយានីមួយៗនៅក្នុងអន្តរកម្ម AI ឆ្លងកាត់ការសន្ទនាចំនួន 9,830 ជាមួយ Claude។ រូបភាព៖ Anthropic។

ទីមួយ មានវិធីដែលសំណើត្រូវបានពិពណ៌នា ដែលអ្នកប្រើប្រាស់ត្រូវតែបង្ហាញពីការយល់ដឹងពិតប្រាកដអំពីអ្វីដែលពួកគេចង់បាន។ ជំនួសឱ្យការផ្តល់ពាក្យបញ្ជាមិនច្បាស់លាស់ បុគ្គលដែលទទួលបានពិន្ទុខ្ពស់តែងតែបញ្ជាក់យ៉ាងច្បាស់អំពីគោលដៅចុងក្រោយ និងពន្យល់ពីបរិបទឱ្យបានលម្អិត។ ពួកគេក៏ផ្តល់នូវតម្រូវការជាក់លាក់ទាក់ទងនឹងរចនាប័ទ្មបទបង្ហាញ ដូចជាការស្នើសុំឱ្យ AI បង្កើតតារាង ឬកំណត់ចំនួនពាក្យ។ ជាពិសេស ក្រុមនេះជារឿយៗរួមបញ្ចូលអត្ថបទគំរូជាច្រើនជាឧទាហរណ៍សម្រាប់ AI ដើម្បី "ធ្វើត្រាប់តាម" រចនាប័ទ្មត្រឹមត្រូវតាំងពីដំបូង។

ទិដ្ឋភាពទីពីរគឺរបៀបដែលភារកិច្ចត្រូវបានផ្ទេរ។ ការស្រាវជ្រាវបង្ហាញថាអ្នកប្រើប្រាស់ដែលមានជំនាញចាត់ទុក AI ជាដៃគូពិភាក្សា មិនមែនជាម៉ាស៊ីនដែលគ្មានគំនិតនោះទេ។ ភាពខុសគ្នាធំបំផុតស្ថិតនៅក្នុងការតស៊ូ។ ជំនួសឱ្យការផ្តល់ពាក្យបញ្ជាម្តង និងសម្រាប់ទាំងអស់គ្នា ពួកគេចូលរួមក្នុងការសន្ទនាទៅមកច្រើនជុំដើម្បីកែលម្អ និងឱ្យ AI កែប្រែចម្លើយរបស់វារហូតដល់ពួកគេពេញចិត្តទាំងស្រុង។ ឥរិយាបថនេះកើតឡើងនៅក្នុងការសន្ទនាដែលមានគុណភាពខ្ពស់។

ទិដ្ឋភាពចុងក្រោយគឺការទទួលស្គាល់ ដែលដើរតួជាតម្រងដើម្បីការពារមនុស្សពីការបំភាន់ដោយព័ត៌មានដែលផ្តល់ដោយ chatbots។ អ្នកប្រើប្រាស់ត្រូវសួរសំណួរជានិច្ចអំពីតក្កវិជ្ជានៃហេតុផល សុំឱ្យ AI ពន្យល់ពីបន្ទាត់កូដនីមួយៗ ឬស្នើសុំការដកស្រង់ច្បាស់លាស់។ ពួកគេក៏ត្រូវមានការយល់ដឹងគ្រប់គ្រាន់ដើម្បីកំណត់អត្តសញ្ញាណបរិបទដែលបាត់នៅក្នុងដំណោះស្រាយរបស់ AI ដើម្បីធ្វើការវាយតម្លៃ និងកែតម្រូវការសន្និដ្ឋានទាន់ពេលវេលា។

អ្នកប្រើប្រាស់ដែលមានបទពិសោធន៍ជាធម្មតាទទួលបានពិន្ទុប្រហែល 7-8 ពី Clade។ រូបថត៖ X។

ទោះជាយ៉ាងណាក៏ដោយ ការស្រាវជ្រាវនេះក៏ចង្អុលបង្ហាញពីអន្ទាក់ផ្លូវចិត្តដ៏គួរឱ្យព្រួយបារម្ភមួយ ដែលគេស្គាល់ថាជា "Beautiful Interface Paradox"។ នៅពេលដែលមុខងារ Artifacts របស់ Claude បង្កើតផលិតផលដែលទាក់ទាញភ្នែកដូចជាកូដរលោង ឬដ្យាក្រាមដ៏ល្អឥតខ្ចោះ ខួរក្បាលរបស់យើងមានទំនោរក្លាយជា "អ្នកគិតខ្ជិលច្រអូស" ភ្លាមៗ ហើយឈប់គិតរិះគន់។

ស្ថិតិនៃការសិក្សាបង្ហាញថា នៅពេលដែលអ្នកប្រើប្រាស់ឃើញចំណុចប្រទាក់ដែលបានកែលម្អ ភាគរយនៃពួកគេដែលកំពុងស្វែងរកចំណុចខ្វះខាតយ៉ាងសកម្មថយចុះភ្លាមៗ 5.2%។ សមត្ថភាពក្នុងការផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវនៃព័ត៌មានក៏ថយចុះ 3.7% ផងដែរ ហើយភាគរយនៃអ្នកដែលសង្ស័យលើតក្កវិជ្ជារបស់វាថយចុះ 3.1%។

អ្នកជំនាញនៅ Anthropic បានកត់សម្គាល់ថា "ប្រសិនបើអ្វីមួយមើលទៅល្អឥតខ្ចោះ អ្នកប្រើប្រាស់នឹងសន្មតដោយស្វ័យប្រវត្តិថាវាត្រឹមត្រូវ"។

វិធីសាស្រ្តប្រធានបទនេះមានគ្រោះថ្នាក់ខ្លាំងណាស់។ តាមពិតទៅ កិច្ចការកាន់តែស្មុគស្មាញ ឱកាសដែល AI នឹងធ្វើខុស ឬ "ប្រឌិត" ព័ត៌មានកាន់តែខ្ពស់។ ប្រសិនបើមនុស្សវិនិច្ឆ័យគុណភាពខាងក្នុងដោយផ្អែកតែលើរូបរាងខាងក្រៅប៉ុណ្ណោះ យើងនឹងងាយនឹងត្រូវ AI បោកបញ្ឆោត។

យោងតាមរបាយការណ៍នេះ អ្នកដែលចូលរួមជាប្រចាំក្នុងការសន្ទនាទៅវិញទៅមក និងចង្អុលបង្ហាញពីចំណុចខ្វះខាតរបស់ AI ត្រូវបានវាយតម្លៃខ្ពស់ជាងអ្នកប្រើប្រាស់ជាមធ្យម 5-6 ដង។ ពួកគេក៏ទំនងជារកឃើញចំណុចខ្វះខាត និងភាពមិនស៊ីសង្វាក់គ្នាច្រើនបើប្រៀបធៀបទៅនឹងក្រុមអ្នកប្រើប្រាស់ផ្សេងទៀត។ "អ្នកជំនាញ" ទាំងនេះជាធម្មតាទទួលបានពិន្ទុប្រហែល 7-8/11 ពី Claude។

ប្រភព៖ https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html