ในช่วงสุดสัปดาห์กลางเดือนพฤษภาคม การประชุมลับของนักคณิตศาสตร์ได้เกิดขึ้น นักคณิตศาสตร์ชั้นนำ ของโลก 30 คนเดินทางไปยังเบิร์กลีย์ รัฐแคลิฟอร์เนีย สหรัฐอเมริกา อย่างลับๆ เพื่อเข้าร่วมการเผชิญหน้ากับแชทบอทที่สามารถ "ใช้เหตุผล" ได้ แชทบอทนี้ได้รับมอบหมายให้แก้ปัญหาที่นักคณิตศาสตร์เหล่านั้นคิดขึ้นเอง เพื่อทดสอบความสามารถในการแก้ปัญหาของมัน
หลังจากที่นักคณิตศาสตร์กลุ่มนี้ถูกทดสอบด้วยคำถามระดับศาสตราจารย์ติดต่อกันสองวัน พวกเขาก็ต้องประหลาดใจเมื่อพบว่าแชทบอทนี้สามารถแก้ปัญหาที่ยากที่สุดบางข้อในประวัติศาสตร์ได้
เคน โอโนะ ศาสตราจารย์จากมหาวิทยาลัยเวอร์จิเนีย ประธานและกรรมการตัดสินของการประชุม กล่าวกับ Scientific American ว่า "ผมเคยเห็นเพื่อนร่วมงานพูดตรงๆ ว่าแบบจำลองภาษาขนาดใหญ่ชิ้นนี้กำลังเข้าใกล้ระดับอัจฉริยะทางคณิตศาสตร์"
แชทบอทที่กล่าวถึงข้างต้นนั้นสร้างขึ้นจาก o4-mini ซึ่งเป็นแบบจำลองภาษาขนาดใหญ่ (LLM) ที่ออกแบบมาสำหรับการให้เหตุผลที่ซับซ้อน ผลิตภัณฑ์ของ OpenAI นี้ได้รับการฝึกฝนให้ดำเนินการตามขั้นตอนการให้เหตุผลที่ซับซ้อน แบบจำลองที่คล้ายกันจาก Google ที่ชื่อว่า Gemini 2.5 Flash ก็มีคุณสมบัติที่คล้ายกันเช่นกัน
เช่นเดียวกับโมเดล ChatGPT LLM รุ่นก่อนๆ o4-mini เรียนรู้ที่จะทำนายคำถัดไปในสตริงข้อความ อย่างไรก็ตาม ความแตกต่างอยู่ที่ว่า o4-mini เป็นเวอร์ชันที่เบากว่า ยืดหยุ่นกว่า ฝึกฝนด้วยข้อมูลเชิงลึก และได้รับการปรับแต่งอย่างใกล้ชิดจากมนุษย์ ซึ่งช่วยให้สามารถเจาะลึกเข้าไปในปัญหาทางคณิตศาสตร์ที่โมเดลรุ่นก่อนๆ ไม่สามารถทำได้
เพื่อทดสอบและประเมินความสามารถของ o4-mini ทาง OpenAI ได้มอบหมายให้ Epoch AI ซึ่งเป็นองค์กรไม่แสวงผลกำไรที่เชี่ยวชาญด้านการทดสอบโมเดล LLM สร้างคำถามทางคณิตศาสตร์ที่ไม่เคยเผยแพร่มาก่อนจำนวน 300 ข้อ ในขณะที่ LLM แบบดั้งเดิมสามารถแก้ปัญหาที่ซับซ้อนได้มากมาย แต่เมื่อเผชิญกับคำถามใหม่ทั้งหมด ส่วนใหญ่กลับแก้ได้ถูกต้องเพียงน้อยกว่า 2% เท่านั้น ซึ่งแสดงให้เห็นว่าพวกมันขาดความสามารถในการให้เหตุผลอย่างแท้จริง
ในโครงการประเมินผลล่าสุด Epoch AI ได้ดึงตัวเอลเลียต เกลเซอร์ นักคณิตศาสตร์รุ่นใหม่ที่กำลังจบปริญญาเอก มาเป็นหัวหน้าโครงการใหม่นี้ โดยโครงการใหม่นี้มีชื่อว่า FrontierMath และจะเปิดตัวในเดือนกันยายน ปี 2024
โครงการนี้ได้รวบรวมคำถามใหม่ๆ ในสี่ระดับความยาก ตั้งแต่ระดับปริญญาตรีและปริญญาโท ไปจนถึงระดับการวิจัยเชิงลึก ในเดือนเมษายน ปี 2025 เกลเซอร์พบว่า o4-mini สามารถแก้ปัญหาได้ประมาณ 20% ดังนั้น เขาจึงย้ายมันไปอยู่ในระดับ 4 ทันที ซึ่งกำหนดให้มันต้องแก้ปัญหาที่แม้แต่นักคณิตศาสตร์ระดับสูงก็ยังต้องพยายามอย่างหนัก
ผู้เข้าร่วมจะต้องลงนามในข้อตกลงรักษาความลับ โดยสื่อสารผ่านแอป Signal ที่เข้ารหัสลับเท่านั้น เนื่องจากการใช้อีเมลสามารถถูกสแกนและเนื้อหาในอีเมลนั้นสามารถ "เรียนรู้" โดย LLM ซึ่งอาจทำให้ข้อมูลการประเมินไม่ถูกต้องได้
สำหรับทุกปัญหาที่ o4-mini แก้ไม่ได้ ผู้ตั้งปัญหาจะได้รับรางวัล 7,500 ดอลลาร์สหรัฐ
คณะทำงานชุดแรกทำงานอย่างช้าๆ แต่ก็ค่อยเป็นค่อยไปในการคิดคำถามต่างๆ อย่างไรก็ตาม เกลเซอร์ตัดสินใจเร่งกระบวนการโดยจัดการประชุมแบบพบปะตัวจริงเป็นเวลาสองวันในวันที่ 17-18 พฤษภาคม มีนักคณิตศาสตร์เข้าร่วม 30 คน แบ่งออกเป็นกลุ่มละหกคน แข่งขันกันเอง—ไม่ใช่เพื่อแก้ปัญหา แต่เพื่อคิดค้นปัญหาที่ปัญญาประดิษฐ์ (AI) ไม่สามารถแก้ไขได้
เมื่อถึงเย็นวันที่ 17 พฤษภาคม เคน โอโนะ เริ่มรู้สึกหงุดหงิดกับแชทบอท ซึ่งแสดงให้เห็นถึงความสามารถทางคณิตศาสตร์ในระดับที่เกินความคาดหมาย ทำให้ทีมยากที่จะ "จับ" มันได้ "ผมคิดโจทย์ปัญหาขึ้นมาข้อหนึ่ง ซึ่งผู้เชี่ยวชาญในวงการจะมองว่าเป็นปัญหาที่ยังไม่ได้รับการแก้ไขในทฤษฎีจำนวน – เป็นปัญหาที่เหมาะสมสำหรับระดับปริญญาเอก" เขากล่าว
ด้วยเหตุนี้ เมื่อเขาถาม o4-mini เขาก็รู้สึกทึ่งที่เห็นแชทบอทวิเคราะห์ คิดหาเหตุผล และให้คำตอบที่ถูกต้องภายในเวลาเพียง 10 นาที โดยเฉพาะอย่างยิ่ง ในสองนาทีแรก มันได้ค้นคว้าและทำความเข้าใจข้อมูลที่เกี่ยวข้องทั้งหมด จากนั้น มันแนะนำให้ทดลองกับปัญหาเวอร์ชันที่ง่ายกว่าเพื่อเรียนรู้แนวทางแก้ไข
ห้านาทีต่อมา แชทบอทก็ให้คำตอบที่ถูกต้อง พร้อมกับน้ำเสียงที่มั่นใจ—หรืออาจจะดูหยิ่งเล็กน้อย—โอโนะเล่าว่า “มันเริ่มทำตัวเจ้าเล่ห์ และมันยังเสริมอีกว่า ‘ไม่ต้องอ้างอิงหรอก ฉันคำนวณเลขปริศนานั้นไว้แล้ว!’”
หลังจากพ่ายแพ้ต่อ AI ในเช้าวันที่ 18 พฤษภาคม โอโนะได้ส่งข้อความแจ้งเตือนไปยังทีมทันทีผ่านทาง Signal “ผมไม่พร้อมรับมือกับโมเดลแบบนี้เลย” เขากล่าว “ผมไม่เคยเห็นการให้เหตุผลแบบนี้ในโมเดลคอมพิวเตอร์มาก่อน มันคิดเหมือน นักวิทยาศาสตร์ จริงๆ และนั่นน่ากลัวมาก”
แม้ว่าในที่สุดนักคณิตศาสตร์จะประสบความสำเร็จในการค้นหาคำถาม 10 ข้อที่ทำให้ o4-mini ตอบไม่ได้ แต่พวกเขาก็ไม่อาจซ่อนความประหลาดใจต่อความเร็วในการพัฒนา AI ในช่วงเวลาเพียงหนึ่งปีได้
โอโนะเปรียบเทียบประสบการณ์การทำงานร่วมกับ o4-mini กับการทำงานร่วมกับเพื่อนร่วมงานที่มีความสามารถสูงมาก หยาง ฮุย เหอ นักคณิตศาสตร์จากสถาบันวิทยาศาสตร์คณิตศาสตร์ในลอนดอน และผู้บุกเบิกการประยุกต์ใช้ AI ในคณิตศาสตร์ ให้ความเห็นว่า “นี่คือสิ่งที่นักศึกษาปริญญาโทที่เก่งมาก ๆ สามารถทำได้ — และทำได้มากกว่านั้นด้วยซ้ำ”
และที่สำคัญคือ AI ทำงานได้เร็วกว่ามนุษย์มาก ในขณะที่มนุษย์ต้องใช้เวลาหลายสัปดาห์หรือหลายเดือนในการแก้ปัญหา แต่ o4-mini ใช้เวลาเพียงไม่กี่นาทีเท่านั้น
ความตื่นเต้นที่เกิดขึ้นรอบการประลองปัญญาของ o4-mini นั้นมาพร้อมกับความกังวลอย่างมาก ทั้งโอโนะและเหอต่างเตือนว่าความสามารถของ o4-mini อาจนำไปสู่ความมั่นใจมากเกินไป “เรามีการพิสูจน์โดยการอุปมา การพิสูจน์โดยการขัดแย้ง และตอนนี้ก็มีการพิสูจน์โดย…พลังที่เหนือกว่า” เหอกล่าว “ถ้าคุณพูดอะไรบางอย่างด้วยความมั่นใจมากพอ คนอื่นจะรู้สึกหวาดกลัว ผมคิดว่า o4-mini เชี่ยวชาญการพิสูจน์ประเภทนี้แล้ว ไม่ว่ามันจะพูดอะไรก็มีความแน่นอนมาก”
เมื่อการประชุมสิ้นสุดลง นักคณิตศาสตร์เริ่มไตร่ตรองถึงอนาคตของคณิตศาสตร์ พวกเขาพูดคุยถึงความเป็นไปได้ของ “ระดับที่ห้า” ซึ่งเป็นคำถามที่แม้แต่นักคณิตศาสตร์ที่เก่งที่สุดในโลกก็ไม่สามารถแก้ได้ หากปัญญาประดิษฐ์ (AI) ไปถึงระดับนั้น บทบาทของนักคณิตศาสตร์จะเปลี่ยนแปลงไปอย่างมาก พวกเขาอาจกลายเป็นผู้ตั้งคำถาม โต้ตอบและชี้นำ AI ในการใช้เหตุผลเพื่อ ค้นพบ ความจริงทางคณิตศาสตร์ใหม่ๆ คล้ายกับวิธีที่ศาสตราจารย์ทำงานร่วมกับนักศึกษาปริญญาโท
“ผมบอกกับเพื่อนร่วมงานมาสักพักแล้วว่า การสันนิษฐานว่าปัญญาประดิษฐ์ทั่วไปจะไม่มีวันเกิดขึ้น และเป็นเพียงแค่คอมพิวเตอร์นั้นเป็นความผิดพลาดอย่างร้ายแรง” โอโนะกล่าว “ผมไม่อยากตื่นตระหนก แต่ในบางแง่มุม โมเดลภาษาขนาดใหญ่เหล่านี้เริ่มทำงานได้ดีกว่านักศึกษาปริญญาโทที่เก่งที่สุดในโลกส่วนใหญ่แล้ว”
ที่มา: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






การแสดงความคิดเห็น (0)