ChatGPT telah lulus ujian penting pengenalan mesin-manusia

GPT-4.5 ialah model terbesar yang pernah dibina OpenAI. Sumber: The Verge .

Kajian baharu daripada Jabatan Sains Kognitif di University of California, San Diego menandakan satu kejayaan dalam bidang kecerdasan buatan: Model GPT-4.5 OpenAI telah mencapai prestasi unggul pada ujian Turing menggunakan pendekatan interaksi berasaskan "personaliti".

Ini dianggap sebagai sistem perbualan AI yang paling mirip manusia, membuka banyak aplikasi yang berpotensi dalam bidang kecerdasan sosial.

GPT-4.5 dibilkan oleh OpenAI sebagai "lonjakan besar ke hadapan dalam menskalakan pra-latihan dan pasca-latihan." Ia adalah model terbesar yang pernah dibina OpenAI, dengan saiz dan kuasa pengiraan yang mengatasi versi sebelumnya.

Menurut catatan blog rasmi OpenAI pada 27 Februari, GPT-4.5 mula dilancarkan kepada pengguna ChatGPT Pro pada hari pengumumannya.

Bolehkah AI menipu manusia?

Eksperimen itu membandingkan empat sistem AI perwakilan: ELIZA chatbot 1960-an, LLaMa-3.1-405B Meta AI, dan GPT-4o dan GPT-4.5 OpenAI. Pasukan itu mereka bentuk dua ujian bebas dengan 250 peserta setiap satu, untuk sejumlah 500 orang daripada platform dalam talian seperti Prolific. Para peserta terdiri daripada umur, jantina dan tahap pendidikan yang berbeza untuk memastikan sampel yang pelbagai.

Jadual perbandingan empat sistem AI biasa. Sumber: AIbase

Ujian menggunakan format Turing tradisional: setiap peserta bersembang melalui antara muka teks dengan dua subjek (seorang manusia, satu AI) selama 5 minit, kemudian nilaikan yang mana satu manusia.

Keputusannya mengejutkan: GPT-4.5 mencapai kadar "lulus ujian Turing" sehingga 73%, melepasi purata manusia (60-70%). Ini adalah kali pertama model AI benar-benar "lulus" ujian Turing standard. Sementara itu, GPT-4o menjaringkan sedikit lebih rendah, LLaMa-3.1-405B menghampiri atau mencapai prestasi manusia dalam beberapa konteks, dan ELIZA jatuh jauh.

Keupayaan untuk berinteraksi seperti manusia

Apa yang menonjol tentang GPT-4.5 bukan sahaja kefasihannya dalam bahasa, tetapi juga keupayaannya untuk meluahkan emosi dan menyesuaikan responsnya dengan nuansa komunikasi lawan bicaranya. Ramai peserta menggambarkannya sebagai "mesra" dan "tulen."

Terutama, apabila pengguna kelihatan keliru atau tertekan, GPT-4.5 boleh menawarkan respons lucu atau menghiburkan, menyebabkan ramai percaya bahawa mereka sedang bersembang dengan orang sebenar.

Perbualan antara dua subjek (satu AI, seorang manusia) semasa ujian. Foto: UC San Diego .

Sementara itu, LLaMa-3.1-405B, walaupun mengagumkan dari segi teknikal, adalah kurang ekspresif dan kurang penyesuaian kontekstual berbanding GPT-4.5. GPT-4o, walaupun berkuasa, adalah lebih rendah dari segi pemperibadian dan penyesuaian tindak balas situasi.

Kejayaan GPT-4.5 boleh membuka pelbagai aplikasi praktikal, daripada tutor maya kepada sokongan psikologi kepada penjagaan pelanggan. Walau bagaimanapun, apabila AI menjadi lebih seperti manusia, membezakan antara realiti dan maya dan mengawal selia cara teknologi ini digunakan akan menjadi cabaran utama masyarakat.

Penyelidikan itu datang di tengah-tengah kemajuan pesat dalam AI. Kejayaan GPT-4.5 bukan sahaja kejayaan teknikal untuk OpenAI, tetapi juga menimbulkan persoalan mendalam tentang hubungan antara manusia dan mesin. Seorang penguji mengulas bahawa dia berasa seperti sedang bercakap dengan rakan - sehingga dia menyedari itu semua hanyalah baris kod. Dialog antara manusia dan AI mungkin baru sahaja bermula.

Sumber: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html