OpenAI tidak banyak mendedahkan tentang cara ChatGPT-4 dilatih. Walau bagaimanapun, model bahasa besar (LLM) biasanya dilatih pada teks yang dikikis daripada internet, dengan bahasa Inggeris ialah lingua franca. Kira-kira 93% daripada data latihan ChatGPT-3 adalah dalam bahasa Inggeris.

Dalam Common Crawl, hanya salah satu set data di mana model AI dilatih, bahasa Inggeris membentuk 47% daripada korpus, dengan bahasa Eropah lain membentuk 38% lagi. Sebaliknya, gabungan Cina dan Jepun membentuk hanya 9%.

tangkapan skrin 2024 01 31 di 151709.png
Kebanyakan data yang digunakan untuk latihan LLM adalah dalam bahasa Inggeris atau bahasa Eropah yang lain.

Ini bukan masalah terhad kepada ChatGPT sahaja, seperti yang ditemui oleh Nathaniel Robinson, seorang penyelidik di Universiti Johns Hopkins, dan rakan-rakannya. Semua LLM menunjukkan prestasi yang lebih baik pada bahasa "sumber tinggi", di mana data latihan adalah banyak, daripada pada bahasa "sumber rendah", di mana ia adalah terhad.

Ini adalah masalah bagi mereka yang berharap untuk membawa AI ke negara miskin untuk menambah baik bidang daripada pendidikan kepada kesihatan. Akibatnya, penyelidik di seluruh dunia sedang berusaha untuk menjadikan AI lebih berbilang bahasa.

September lalu, kerajaan India melancarkan chatbot untuk membantu petani sentiasa dikemas kini dengan maklumat berguna daripada kerajaan.

Shankar Maruwada dari EkStep Foundation, organisasi bukan untung yang membantu membina chatbot, berkata bot itu berfungsi dengan menggabungkan dua jenis model bahasa, membolehkan pengguna menyerahkan pertanyaan dalam bahasa ibunda mereka. Pertanyaan bahasa ibunda ini dihantar ke perisian terjemahan mesin di kemudahan penyelidikan India, yang menterjemahkannya ke dalam bahasa Inggeris sebelum memajukan respons kepada LLM, yang memproses respons. Akhirnya, respons diterjemahkan kembali ke dalam bahasa ibunda pengguna.

Proses ini mungkin berfungsi, tetapi menterjemah pertanyaan ke dalam bahasa "pilihan" LLM adalah penyelesaian yang kekok. Bahasa adalah cerminan budaya dan pandangan dunia . Kertas kerja 2022 oleh Rebecca Johnson, seorang penyelidik di Universiti Sydney, mendapati ChatGPT-3 menghasilkan jawapan mengenai topik seperti kawalan senjata dan dasar pelarian yang setanding dengan nilai Amerika yang dinyatakan dalam Tinjauan Nilai Dunia.

Akibatnya, ramai penyelidik cuba menjadikan LLM fasih dalam bahasa yang kurang biasa digunakan. Secara teknikal, satu pendekatan ialah mengubah suai tokenizer untuk bahasa tersebut. Permulaan India yang dipanggil Sarvam AI telah menulis tokenizer yang dioptimumkan untuk Hindi, atau model OpenHathi - bahasa Devanagari yang dioptimumkan LLM (India) yang boleh mengurangkan kos menjawab soalan dengan ketara.

Satu lagi cara ialah menambah baik set data yang LLM dilatih. Pada bulan November, satu pasukan penyelidik di Universiti Mohamed bin Zayed di Abu Dhabi mengeluarkan versi terbaru model berbahasa Arab mereka, yang dipanggil "Jais." Ia mempunyai satu perenam bilangan parameter ChatGPT-3, tetapi berfungsi kira-kira juga pada bahasa Arab.

Timothy Baldwin, presiden Universiti Mohamed bin Zayed, menyatakan bahawa walaupun pasukannya mendigitalkan banyak teks Arab, beberapa teks Inggeris masih disertakan dalam model itu. Beberapa konsep adalah sama dalam semua bahasa dan boleh dipelajari dalam mana-mana bahasa.

Pendekatan ketiga ialah memperhalusi model selepas mereka dilatih. Kedua-dua Jais dan OpenHathi mempunyai beberapa pasangan soalan-jawapan yang dijana manusia. Begitu juga dengan chatbots Barat, untuk mengelakkan maklumat yang salah.

Ernie Bot, LLM dari Baidu, sebuah syarikat teknologi besar China, telah ditala untuk mengehadkan ucapan yang mungkin menyinggung perasaan kerajaan. Model ini juga boleh belajar daripada maklum balas manusia, dengan pengguna menilai jawapan LLM. Tetapi itu sukar dilakukan untuk banyak bahasa di kawasan kurang maju kerana keperluan untuk mengupah orang yang berkelayakan untuk mengkritik respons mesin.

(Menurut Economist)

Tentera AS Menggunakan AI untuk Menganggar Harga Mineral Kritikal Tentera AS merancang untuk membangunkan program komputer yang mampu menganggar harga dan meramalkan bekalan nikel, kobalt dan mineral kritikal yang lain.