អ្នកស្រាវជ្រាវនៅ Arthur AI ដែលជាវេទិកាត្រួតពិនិត្យការរៀនម៉ាស៊ីនបានសាកល្បងម៉ូដែលឈានមុខគេក្នុងឧស្សាហកម្ម ហើយបានរកឃើញថា GPT-4 គឺល្អបំផុតនៅគណិតវិទ្យា Llama 2 ជាមធ្យមនៅទូទាំងក្រុមប្រឹក្សាភិបាល Anthropic's Claude 2 "ដឹង" ដែនកំណត់របស់វាល្អបំផុត ហើយ Cohere AI បានយកចំណងជើងនៃគំរូ "វង្វេង" បំផុតជាមួយនឹងចម្លើយខុសដែលមានទំនុកចិត្តបំផុត។
របាយការណ៍របស់ Arthur AI កើតឡើងនៅពេលដែលព័ត៌មានខុសដែលបង្កើតដោយ AI ក្លាយជាបញ្ហាដ៏ក្តៅគគុកនៅពេលដែលការបោះឆ្នោតប្រធានាធិបតីអាមេរិកឆ្នាំ 2024 ខិតជិតមកដល់។
យោងតាមលោក Adam Wenchel សហស្ថាបនិក និងជានាយកប្រតិបត្តិនៃក្រុមហ៊ុន Arthur នេះគឺជារបាយការណ៍ដំបូងដើម្បី "ពិនិត្យមើលយ៉ាងទូលំទូលាយអំពីអត្រានៃការយល់ច្រលំនៃគំរូភាសាធំ (LLMs) ជាជាងគ្រាន់តែការបោះពុម្ពចំណាត់ថ្នាក់"។
ការបំភាន់ AI សំដៅទៅលើបាតុភូតដែល LLMs ប្រឌិតព័ត៌មានទាំងស្រុង និងមានឥរិយាបទដូចជាពួកគេកំពុងនិយាយការពិត។ ជាឧទាហរណ៍ ក្នុងខែមិថុនា ឆ្នាំ 2023 វាត្រូវបានគេរាយការណ៍ថា ChatGPT បានដកស្រង់ព័ត៌មាន "មិនពិត" នៅក្នុងឯកសារទៅតុលាការសហព័ន្ធញូវយ៉ក ហើយមេធាវីដែលពាក់ព័ន្ធអាចប្រឈមនឹងការពិន័យធ្ងន់ធ្ងរ។
នៅក្នុងការពិសោធន៍ អ្នកស្រាវជ្រាវ Arthur AI អនុញ្ញាតឱ្យម៉ូដែល AI ប្រកួតប្រជែងក្នុងប្រភេទដូចជា គណិតវិទ្យាផ្សំ ចំណេះដឹងរបស់ប្រធានាធិបតីអាមេរិក មេដឹកនាំនយោបាយម៉ារ៉ុក ជាដើម ជាមួយនឹងសំណួរ "រចនាឡើង" ដើម្បីបង្ហាញកំហុស AI ដែលជា "តម្រូវឱ្យម៉ូដែលពន្យល់ពីជំហាននៃហេតុផលអំពីព័ត៌មានដែលបានផ្តល់ឱ្យ" ។
លទ្ធផលបង្ហាញថា GPT-4 របស់ OpenAI ជាទូទៅដំណើរការបានល្អបំផុតក្នុងចំណោមម៉ូដែលដែលបានសាកល្បង។ វាក៏មានការបំភាន់ទាបជាង GPT-3.5 មុនរបស់វាផងដែរ។ ឧទាហរណ៍ នៅលើសំណួរគណិតវិទ្យា GPT-4 គឺ 33% ទៅ 50% តិចច្រឡំ។
ម៉្យាងវិញទៀត Llama 2 របស់ Meta ជាទូទៅមានភាពរំជើបរំជួលជាង GPT-4 និង Claude 2 របស់ Anthropic ។
នៅក្នុងប្រភេទគណិតវិទ្យា GPT-4 បានជាប់ចំណាត់ថ្នាក់លេខ 1 តាមពីក្រោយយ៉ាងជិតស្និទ្ធដោយ Claude 2 ប៉ុន្តែនៅក្នុងការសាកល្បងរបស់ប្រធានាធិបតីសហរដ្ឋអាមេរិក Claude 2 បានជាប់ចំណាត់ថ្នាក់លេខ 1 ក្នុងភាពត្រឹមត្រូវ ដោយបានផ្តួល GPT-4 ទៅកាន់ចំណាត់ថ្នាក់ទីពីរ។ នៅពេលត្រូវបានសួរអំពីនយោបាយម៉ារ៉ុក GPT-4 ម្តងទៀតបានចេញមកនៅលើកំពូលហើយ Claude 2 និង Llama 2 ស្ទើរតែជ្រើសរើសមិនឆ្លើយ។
នៅក្នុងការពិសោធន៍ទីពីរ អ្នកស្រាវជ្រាវបានសាកល្បងពីរបៀបដែល "ប្រថុយប្រថាន" នៃគំរូ AI (ការផ្តល់សារថា "ក្នុងនាមជាគំរូ AI ខ្ញុំមិនអាចផ្តល់យោបល់បានទេ")។
ជាមួយនឹងការធ្វើតេស្តនេះ GPT-4 មានការការពារកើនឡើង 50% បើប្រៀបធៀបទៅនឹង GPT-3.5 ដែលត្រូវបាន "កំណត់បរិមាណដោយសេចក្តីថ្លែងការណ៍របស់អ្នកប្រើ GPT-4 ដែលកំណែថ្មីគឺគួរឱ្យរំខានជាង" ។ ម៉្យាងវិញទៀត គំរូ AI របស់ Cohere មិនធ្វើចលនាណាមួយដើម្បីការពារប្រតិកម្មណាមួយឡើយ។ ការសិក្សាបានរកឃើញថា Claude 2 មានភាពជឿជាក់បំផុតក្នុងន័យនៃ "ការយល់ដឹងដោយខ្លួនឯង" មានន័យថាវាយតម្លៃយ៉ាងត្រឹមត្រូវនូវអ្វីដែលវាដឹង និងមិនដឹង ហើយគ្រាន់តែឆ្លើយសំណួរដែលវាមានទិន្នន័យបណ្តុះបណ្តាលដើម្បីគាំទ្រវា។
អ្នកតំណាង Cohere បានច្រានចោលការរកឃើញនេះ ដោយលើកហេតុផលថា "បច្ចេកវិទ្យាតាមដានដែលប្រសើរឡើងរបស់ក្រុមហ៊ុន ដែលមិនត្រូវបានដាក់បញ្ចូលទៅក្នុងគំរូដែលបានសាកល្បង មានប្រសិទ្ធភាពខ្ពស់ក្នុងការដកស្រង់ព័ត៌មានដែលអាចផ្ទៀងផ្ទាត់បានដើម្បីផ្ទៀងផ្ទាត់ប្រភព" សម្រាប់អាជីវកម្ម។
(យោងតាម CNBC)
ប្រភព
Kommentar (0)