OpenAI មិនបានបង្ហាញច្រើនអំពីរបៀបដែល ChatGPT-4 ត្រូវបានបណ្តុះបណ្តាល។ ទោះយ៉ាងណាក៏ដោយ គំរូភាសាធំ (LLMs) ជាធម្មតាត្រូវបានបណ្តុះបណ្តាលលើអត្ថបទដែលដកចេញពីអ៊ីនធឺណិត ដែលភាសាអង់គ្លេសគឺជាភាសារបារាំង។ ប្រហែល 93% នៃទិន្នន័យបណ្តុះបណ្តាលរបស់ ChatGPT-3 ជាភាសាអង់គ្លេស។

នៅក្នុង Common Crawl គ្រាន់តែជាសំណុំទិន្នន័យមួយដែលគំរូ AI ត្រូវបានបណ្តុះបណ្តាល ភាសាអង់គ្លេសបង្កើតបាន 47% នៃ corpus ជាមួយនឹងភាសាអឺរ៉ុបផ្សេងទៀតបង្កើតបាន 38% បន្ថែមទៀត។ ផ្ទុយទៅវិញ ចិន និងជប៉ុន រួមបញ្ចូលគ្នាមានត្រឹមតែ 9% ប៉ុណ្ណោះ។

រូបថតអេក្រង់ 2024 01 31 នៅ 151709.png
ទិន្នន័យភាគច្រើនដែលប្រើសម្រាប់ការបណ្តុះបណ្តាល LLM គឺជាភាសាអង់គ្លេស ឬភាសាអឺរ៉ុបផ្សេងទៀត។

នេះមិនមែនជាបញ្ហាដែលកំណត់ចំពោះ ChatGPT តែម្នាក់ឯងនោះទេ ដូចដែល Nathaniel Robinson អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Johns Hopkins និងសហការីរបស់គាត់បានរកឃើញ។ LLMs ទាំងអស់ដំណើរការបានល្អជាងលើភាសា "ធនធានខ្ពស់" ដែលទិន្នន័យបណ្តុះបណ្តាលមានច្រើន ជាងភាសា "ធនធានទាប" ដែលវាខ្វះខាត។

នេះគឺជាបញ្ហាសម្រាប់អ្នកដែលសង្ឃឹមថានឹងនាំយក AI ទៅកាន់ប្រទេសក្រីក្រ ដើម្បីកែលម្អតំបន់ពី ការអប់រំ ដល់សុខភាព។ ជាលទ្ធផល អ្នកស្រាវជ្រាវជុំវិញពិភពលោកកំពុងធ្វើការដើម្បីធ្វើឱ្យ AI កាន់តែមានពហុភាសា។

កាល​ពី​ខែ​កញ្ញា​កន្លង​ទៅ រដ្ឋាភិបាល ​ឥណ្ឌា​បាន​បើក​ដំណើរការ​ជជែក​កំសាន្ត​មួយ​ដើម្បី​ជួយ​កសិករ​បន្ត​ធ្វើ​បច្ចុប្បន្នភាព​ជាមួយ​នឹង​ព័ត៌មាន​ដែល​មាន​ប្រយោជន៍​ពី​រដ្ឋាភិបាល។

Shankar Maruwada នៃមូលនិធិ EkStep ដែលជាអង្គការមិនរកប្រាក់ចំណេញដែលបានជួយបង្កើត chatbot បាននិយាយថា bot ដំណើរការដោយការរួមបញ្ចូលគំរូភាសាពីរប្រភេទ ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ដាក់សំណួរជាភាសាកំណើតរបស់ពួកគេ។ សំណួរជាភាសាដើមទាំងនេះត្រូវបានបញ្ជូនទៅកម្មវិធីបកប្រែម៉ាស៊ីននៅឯកន្លែងស្រាវជ្រាវឥណ្ឌា ដែលបកប្រែវាជាភាសាអង់គ្លេស មុនពេលបញ្ជូនបន្តការឆ្លើយតបទៅ LLM ដែលដំណើរការការឆ្លើយតប។ ជាចុងក្រោយ ការឆ្លើយតបត្រូវបានបកប្រែត្រឡប់ទៅជាភាសាកំណើតរបស់អ្នកប្រើប្រាស់វិញ។

ដំណើរការនេះអាចដំណើរការបាន ប៉ុន្តែការបកប្រែសំណួរទៅជាភាសា "ពេញចិត្ត" របស់ LLM គឺជាដំណោះស្រាយដ៏ច្របូកច្របល់។ ភាសាគឺជាការឆ្លុះបញ្ចាំងពីវប្បធម៌ និង ទស្សនៈពិភពលោក ។ ក្រដាសឆ្នាំ 2022 ដោយ Rebecca Johnson អ្នកស្រាវជ្រាវនៅសកលវិទ្យាល័យ Sydney បានរកឃើញថា ChatGPT-3 ផលិតចម្លើយលើប្រធានបទដូចជា ការគ្រប់គ្រងកាំភ្លើង និងគោលនយោបាយជនភៀសខ្លួន ដែលអាចប្រៀបធៀបទៅនឹងតម្លៃរបស់អាមេរិក ដែលបានបង្ហាញនៅក្នុង World Values ​​Survey។

ជាលទ្ធផល អ្នកស្រាវជ្រាវជាច្រើនកំពុងព្យាយាមធ្វើឱ្យ LLMs ស្ទាត់ជំនាញក្នុងភាសាដែលមិនសូវប្រើជាទូទៅ។ តាមបច្ចេកទេស វិធីសាស្រ្តមួយគឺដើម្បីកែប្រែសញ្ញាសម្ងាត់សម្រាប់ភាសា។ ការចាប់ផ្តើមអាជីវកម្មរបស់ឥណ្ឌាដែលមានឈ្មោះថា Sarvam AI បានសរសេរនិមិត្តសញ្ញាដែលធ្វើឱ្យប្រសើរឡើងសម្រាប់ភាសាហិណ្ឌូ ឬគំរូ OpenHathi - ភាសា Devanagari ធ្វើឱ្យប្រសើរ LLM (ឥណ្ឌា) ដែលអាចកាត់បន្ថយការចំណាយក្នុងការឆ្លើយសំណួរយ៉ាងច្រើន។

វិធីមួយទៀតគឺធ្វើឱ្យប្រសើរឡើងនូវសំណុំទិន្នន័យដែល LLM ត្រូវបានបណ្តុះបណ្តាល។ នៅក្នុងខែវិច្ឆិកា ក្រុមអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Mohamed bin Zayed ក្នុងទីក្រុង Abu Dhabi បានចេញផ្សាយកំណែចុងក្រោយបំផុតនៃគំរូនិយាយភាសាអារ៉ាប់របស់ពួកគេដែលមានឈ្មោះថា "Jais" ។ វាមានមួយភាគប្រាំមួយនៃចំនួនប៉ារ៉ាម៉ែត្រនៃ ChatGPT-3 ប៉ុន្តែអនុវត្តផងដែរនៅលើភាសាអារ៉ាប់។

Timothy Baldwin ប្រធាននៃសាកលវិទ្យាល័យ Mohamed bin Zayed University បានកត់សម្គាល់ថា ទោះបីជាក្រុមរបស់គាត់បានធ្វើឌីជីថលជាច្រើននៃអត្ថបទអារ៉ាប់ក៏ដោយ អត្ថបទភាសាអង់គ្លេសមួយចំនួននៅតែត្រូវបានបញ្ចូលក្នុងគំរូនេះ។ គោល​គំនិត​ខ្លះ​គឺ​ដូចគ្នា​គ្រប់​ភាសា ហើយ​អាច​រៀន​បាន​គ្រប់​ភាសា។

វិធីសាស្រ្តទីបីគឺការកែសំរួលគំរូបន្ទាប់ពីពួកគេត្រូវបានបណ្តុះបណ្តាល។ ទាំង Jais និង OpenHathi មានគូសំណួរ-ចម្លើយដែលបង្កើតដោយមនុស្ស។ ដូចគ្នាដែរចំពោះ chatbots របស់លោកខាងលិច ដើម្បីការពារព័ត៌មានមិនពិត។

Ernie Bot ដែលជា LLM មកពីក្រុមហ៊ុន Baidu ដែលជាក្រុមហ៊ុនបច្ចេកវិទ្យាចិនដ៏ធំមួយ ត្រូវបានគេសម្រួលដល់ការនិយាយដែលអាចធ្វើឱ្យប៉ះពាល់ដល់រដ្ឋាភិបាល។ ម៉ូដែលក៏អាចរៀនពីមតិកែលម្អរបស់មនុស្សផងដែរ ដោយអ្នកប្រើប្រាស់វាយតម្លៃចម្លើយរបស់ LLM ។ ប៉ុន្តែវាជាការលំបាកក្នុងការធ្វើសម្រាប់ភាសាជាច្រើននៅក្នុងតំបន់ដែលមិនសូវអភិវឌ្ឍ ដោយសារតម្រូវការជួលមនុស្សដែលមានលក្ខណៈសម្បត្តិគ្រប់គ្រាន់ដើម្បីរិះគន់ការឆ្លើយតបរបស់ម៉ាស៊ីន។

(នេះ​បើ​តាម​អ្នក​សេដ្ឋកិច្ច)

កងទ័ពអាមេរិកប្រើ AI ដើម្បីប៉ាន់ប្រមាណតម្លៃនៃសារធាតុរ៉ែសំខាន់ៗ កងទ័ពអាមេរិកគ្រោងនឹងបង្កើតកម្មវិធីកុំព្យូទ័រដែលមានសមត្ថភាពប៉ាន់ស្មានតម្លៃ និងព្យាករណ៍ការផ្គត់ផ្គង់នីកែល កូបែល និងសារធាតុរ៉ែសំខាន់ៗផ្សេងទៀត។