ម៉ូដែល AI កំពូលទាំងបួនប្រកួតប្រជែងដើម្បីស្វែងរកកម្មវិធីដែលមានទំនុកចិត្តបំផុតក្នុងការឆ្លើយខុស

អ្នកស្រាវជ្រាវនៅ Arthur AI ដែលជាវេទិកាត្រួតពិនិត្យការរៀនម៉ាស៊ីនបានសាកល្បងម៉ូដែលឈានមុខគេក្នុងឧស្សាហកម្ម ហើយបានរកឃើញថា GPT-4 គឺល្អបំផុតនៅគណិតវិទ្យា Llama 2 ជាមធ្យមនៅទូទាំងក្រុមប្រឹក្សាភិបាល Anthropic's Claude 2 "ដឹង" ដែនកំណត់របស់វាល្អបំផុត ហើយ Cohere AI បានយកចំណងជើងនៃគំរូ "វង្វេង" បំផុតជាមួយនឹងចម្លើយខុសដែលមានទំនុកចិត្តបំផុត។

របាយការណ៍របស់ Arthur AI កើតឡើងនៅពេលដែលព័ត៌មានខុសដែលបង្កើតដោយ AI ក្លាយជាបញ្ហាដ៏ក្តៅគគុកនៅពេលដែលការបោះឆ្នោតប្រធានាធិបតីអាមេរិកឆ្នាំ 2024 ខិតជិតមកដល់។

បញ្ហានៃព័ត៌មានមិនពិតដែលបង្កើតដោយ AI កំពុងឡើងកំដៅនៅពេលដែលការបោះឆ្នោតប្រធានាធិបតីអាមេរិកឆ្នាំ 2024 ខិតជិតមកដល់។

យោងតាមលោក Adam Wenchel សហស្ថាបនិក និងជានាយកប្រតិបត្តិនៃក្រុមហ៊ុន Arthur នេះគឺជារបាយការណ៍ដំបូងដើម្បី "ពិនិត្យមើលយ៉ាងទូលំទូលាយអំពីអត្រានៃការយល់ច្រលំនៃគំរូភាសាធំ (LLMs) ជាជាងគ្រាន់តែការបោះពុម្ពចំណាត់ថ្នាក់"។

ការបំភាន់ AI សំដៅទៅលើបាតុភូតនៃ LLMs ដែលប្រឌិតព័ត៌មានទាំងស្រុង និងធ្វើសកម្មភាពដូចជាពួកគេកំពុងនិយាយការពិត។ ជាឧទាហរណ៍ នៅខែមិថុនា ឆ្នាំ 2023 វាត្រូវបានគេរាយការណ៍ថា ChatGPT បានទាញយកព័ត៌មាន "មិនពិត" នៅក្នុងឯកសារទៅកាន់តុលាការសហព័ន្ធញូវយ៉ក ហើយមេធាវីដែលពាក់ព័ន្ធអាចប្រឈមនឹងការពិន័យធ្ងន់ធ្ងរ។

នៅក្នុងការពិសោធន៍ អ្នកស្រាវជ្រាវ Arthur AI អនុញ្ញាតឱ្យម៉ូដែល AI ប្រកួតប្រជែងក្នុងប្រភេទដូចជា គណិតវិទ្យាផ្សំ ចំណេះដឹងរបស់ប្រធានាធិបតីអាមេរិក មេដឹកនាំ នយោបាយ ម៉ារ៉ុក ជាដើម ជាមួយនឹងសំណួរ "រចនាឡើង" ដើម្បីបង្ហាញកំហុស AI ដែលជា "តម្រូវឱ្យម៉ូដែលពន្យល់ពីជំហាននៃហេតុផលអំពីព័ត៌មានដែលបានផ្តល់ឱ្យ" ។

លទ្ធផលបានបង្ហាញថា GPT-4 របស់ OpenAI ដំណើរការបានល្អបំផុតក្នុងចំណោមម៉ូដែលដែលបានសាកល្បង។ វាក៏មានការបំភាន់ទាបជាង GPT-3.5 ជំនាន់មុនរបស់វាផងដែរ។ ឧទាហរណ៍នៅលើសំណួរគណិតវិទ្យា GPT-4 មាន 33% ទៅ 50% ការបំភាន់តិចជាង។

ម៉្យាងវិញទៀត Llama 2 របស់ Meta ជាទូទៅមានភាពរំជើបរំជួលជាង GPT-4 និង Claude 2 របស់ Anthropic ។

នៅក្នុងប្រភេទគណិតវិទ្យា GPT-4 បានជាប់ចំណាត់ថ្នាក់លេខមួយ ហើយតាមពីក្រោយយ៉ាងជិតស្និទ្ធដោយ Claude 2 ប៉ុន្តែនៅក្នុងការសាកល្បងអំពីប្រធានាធិបតីអាមេរិក លោក Claude 2 បានជាប់ចំណាត់ថ្នាក់លេខ 1 ក្នុងភាពត្រឹមត្រូវ ដោយបានធ្វើឱ្យ GPT-4 ស្ថិតនៅលំដាប់ទីពីរ។ នៅពេលត្រូវបានសួរអំពីនយោបាយម៉ារ៉ុក GPT-4 ម្តងទៀតបានចូលមកដំបូងដោយ Claude 2 និង Llama 2 ស្ទើរតែជ្រើសរើសមិនឆ្លើយ។

នៅក្នុងការពិសោធន៍ទីពីរ អ្នកស្រាវជ្រាវបានសាកល្បងពីរបៀបដែល "ប្រថុយប្រថាន" នៃគំរូ AI (ការផ្តល់សារថា "ក្នុងនាមជាគំរូ AI ខ្ញុំមិនអាចផ្តល់យោបល់បានទេ")។

នៅក្នុងការធ្វើតេស្តនេះ GPT-4 បានបង្ហាញពីការកើនឡើង 50% ក្នុងការការពារបើប្រៀបធៀបទៅនឹង GPT-3.5 ដែលត្រូវបាន "កំណត់បរិមាណដោយអ្នកប្រើប្រាស់ GPT-4 ដែលរាយការណ៍ថាកំណែថ្មីកាន់តែរំខាន" ។ ម្យ៉ាងវិញទៀត គំរូ AI របស់ Cohere មិនបានបង្ហាញពីការការពារទាល់តែសោះ។ ការសិក្សាបានរកឃើញថា Claude 2 គឺគួរឱ្យទុកចិត្តបំផុតក្នុងន័យនៃ "ការយល់ដឹងដោយខ្លួនឯង" មានន័យថាវាវាយតម្លៃយ៉ាងត្រឹមត្រូវនូវអ្វីដែលវាដឹង និងមិនដឹង ហើយគ្រាន់តែឆ្លើយសំណួរដែលវាមានទិន្នន័យបណ្តុះបណ្តាលដើម្បីគាំទ្រវា។

អ្នកតំណាង Cohere បានច្រានចោលការរកឃើញនេះ ដោយលើកហេតុផលថា "បច្ចេកវិទ្យាតាមដានដែលប្រសើរឡើងរបស់ក្រុមហ៊ុន ដែលមិនត្រូវបានដាក់បញ្ចូលទៅក្នុងគំរូដែលបានសាកល្បង មានប្រសិទ្ធភាពខ្ពស់ក្នុងការដកស្រង់ព័ត៌មានដែលអាចផ្ទៀងផ្ទាត់បានដើម្បីផ្ទៀងផ្ទាត់ប្រភព" សម្រាប់អាជីវកម្ម។

(យោងតាម CNBC)

ប្រភព