ChatGPT ได้ผ่านการทดสอบที่สำคัญของการระบุตัวตนระหว่างเครื่องกับมนุษย์

GPT-4.5 ของ OpenAI ถือเป็นระบบการสนทนา AI ที่มีความคล้ายคลึงกับมนุษย์มากที่สุดเท่าที่มีมา โดยเปิดโอกาสให้มีการประยุกต์ใช้งานที่มีศักยภาพมากมายในด้านปัญญาทางสังคม

ZNews•03/04/2025

GPT-4.5 เป็นโมเดลที่ใหญ่ที่สุดที่ OpenAI เคยสร้างมา ที่มา: The Verge

การศึกษาวิจัยใหม่จากภาค วิชาวิทยาการ รู้คิด มหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก ถือเป็นก้าวสำคัญในสาขาปัญญาประดิษฐ์ โดยโมเดล GPT-4.5 ของ OpenAI ประสบความสำเร็จในด้านประสิทธิภาพที่เหนือกว่าในการทดสอบทัวริงโดยใช้แนวทางการโต้ตอบที่อิงตาม "บุคลิกภาพ"

นี่ถือเป็นระบบการสนทนาด้วย AI ที่มีความใกล้เคียงกับมนุษย์มากที่สุดเท่าที่มีมา และเปิดโอกาสให้มีการประยุกต์ใช้งานในด้านปัญญาทางสังคมได้มากมาย

OpenAI เรียก GPT-4.5 ว่าเป็น "ก้าวกระโดดครั้งสำคัญในการปรับขนาดการฝึกอบรมก่อนและหลังการฝึกอบรม" นับเป็นโมเดลที่ใหญ่ที่สุดที่ OpenAI เคยสร้างมา โดยมีขนาดและพลังการประมวลผลที่เหนือกว่าเวอร์ชันก่อนหน้า

ตามโพสต์บล็อกอย่างเป็นทางการของ OpenAI เมื่อวันที่ 27 กุมภาพันธ์ GPT-4.5 เริ่มเปิดตัวให้กับผู้ใช้ ChatGPT Pro ในวันเดียวกับที่มีการประกาศเปิดตัว

AI สามารถหลอกมนุษย์ได้หรือไม่?

การทดลองนี้ได้เปรียบเทียบระบบ AI ตัวแทนสี่ระบบ ได้แก่ แชทบอท ELIZA ในยุค 1960, LLaMa-3.1-405B ของ Meta AI และ GPT-4o และ GPT-4.5 ของ OpenAI ทีมวิจัยได้ออกแบบการทดสอบอิสระสองชุด โดยมีผู้เข้าร่วมชุดละ 250 คน รวมเป็น 500 คนจากแพลตฟอร์มออนไลน์อย่าง Prolific ผู้เข้าร่วมแต่ละชุดมีอายุ เพศ และระดับการศึกษาที่แตกต่างกัน เพื่อให้ได้กลุ่มตัวอย่างที่หลากหลาย

ตารางเปรียบเทียบระบบ AI ทั่วไปทั้งสี่ระบบ ที่มา: AIbase

การทดสอบใช้รูปแบบดั้งเดิมของทัวริง โดยผู้เข้าร่วมแต่ละคนจะสนทนาผ่านอินเทอร์เฟซข้อความกับผู้เข้าร่วม 2 คน (มนุษย์ 1 คน และ AI 1 คน) เป็นเวลา 5 นาที จากนั้นจึงให้คะแนนว่าใครเป็นมนุษย์

ผลลัพธ์น่าประหลาดใจ: GPT-4.5 มีอัตรา "ผ่านการทดสอบทัวริง" สูงถึง 73% ซึ่งสูงกว่าค่าเฉลี่ยของมนุษย์ (60-70%) นี่เป็นครั้งแรกที่โมเดล AI "ผ่าน" การทดสอบทัวริงมาตรฐานได้จริง ในขณะเดียวกัน GPT-4o ได้คะแนนต่ำกว่าเล็กน้อย LLaMa-3.1-405B มีคะแนนใกล้เคียงหรือเทียบเท่ากับมนุษย์ในบางบริบท และ ELIZA ก็ยังทำได้ไม่ถึง

ความสามารถในการโต้ตอบเหมือนมนุษย์

สิ่งที่โดดเด่นเกี่ยวกับ GPT-4.5 ไม่ใช่แค่ความคล่องแคล่วทางภาษาเท่านั้น แต่ยังรวมถึงความสามารถในการแสดงอารมณ์และปรับการตอบสนองให้เข้ากับรายละเอียดปลีกย่อยของการสื่อสารของคู่สนทนา ผู้เข้าร่วมหลายคนกล่าวว่า GPT-4.5 เป็นโปรแกรมที่ "เป็นมิตร" และ "จริงใจ"

ที่น่าสังเกตคือ เมื่อผู้ใช้ดูสับสนหรือเครียด GPT-4.5 อาจตอบกลับอย่างตลกขบขันหรือให้กำลังใจ จนทำให้หลายคนเชื่อว่าตนกำลังสนทนากับคนจริง

บทสนทนาระหว่างผู้เข้าร่วมการทดลองสองคน (คนหนึ่งเป็น AI อีกคนเป็นมนุษย์) ระหว่างการทดสอบ ภาพ: UC San Diego

ในขณะเดียวกัน LLaMa-3.1-405B แม้จะมีประสิทธิภาพทางเทคนิคที่น่าประทับใจ แต่กลับมีความสามารถในการแสดงออกและปรับตัวตามบริบทได้น้อยกว่า GPT-4.5 ส่วน GPT-4o แม้จะมีประสิทธิภาพ แต่กลับด้อยกว่าในแง่ของการปรับแต่งเฉพาะบุคคลและการปรับตัวตามสถานการณ์

ความก้าวหน้าครั้งสำคัญของ GPT-4.5 อาจเปิดกว้างการประยุกต์ใช้งานจริงได้หลากหลาย ตั้งแต่ติวเตอร์เสมือนจริง การสนับสนุนทางจิตวิทยา ไปจนถึงการดูแลลูกค้า อย่างไรก็ตาม เมื่อปัญญาประดิษฐ์ (AI) มีลักษณะคล้ายมนุษย์มากขึ้น การแยกแยะระหว่างความเป็นจริงและความเป็นจริงเสมือน รวมถึงการควบคุมวิธีการใช้เทคโนโลยีนี้จะกลายเป็นความท้าทายสำคัญของสังคม

งานวิจัยนี้เกิดขึ้นท่ามกลางความก้าวหน้าอย่างรวดเร็วของ AI ความสำเร็จของ GPT-4.5 ไม่เพียงแต่เป็นชัยชนะทางเทคนิคของ OpenAI เท่านั้น แต่ยังก่อให้เกิดคำถามเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่างมนุษย์และเครื่องจักรอีกด้วย นักทดสอบคนหนึ่งให้ความเห็นว่าเขารู้สึกเหมือนกำลังคุยกับเพื่อน จนกระทั่งเขาตระหนักว่าทั้งหมดเป็นเพียงโค้ดบรรทัดเดียว บทสนทนาระหว่างมนุษย์และ AI อาจเพิ่งเริ่มต้นขึ้นเท่านั้น

ที่มา: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html