เมื่อวันที่ 5 มีนาคม สมาคมเครื่องจักรคำนวณได้ประกาศรางวัลทัวริงให้แก่ นักวิทยาศาสตร์ Andrew Barto และ Richard Sutton สำหรับการวิจัยของพวกเขาเกี่ยวกับ "การเรียนรู้เสริมแรง" ซึ่งช่วยให้ AI เรียนรู้จาก "ความสุข" และ "ความเจ็บปวด" ในรูปแบบดิจิทัล
รางวัลทัวริงได้รับการขนานนามว่าเป็น "รางวัลโนเบลแห่งการคำนวณ" นับตั้งแต่มีการมอบรางวัลในปี พ.ศ. 2509 โดยมาพร้อมกับเงินรางวัล 1 ล้านดอลลาร์สหรัฐ ซึ่งนักวิทยาศาสตร์ทั้งสองคนจะแบ่งกัน
การเดินทางของ “การเรียนรู้แบบเสริมแรง” เริ่มต้นขึ้นในปีพ.ศ. 2520 เมื่อแอนดรูว์ บาร์โต ซึ่งขณะนั้นเป็นนักวิจัยที่มหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์ เสนอทฤษฎีใหม่: เซลล์ประสาทในสมองของมนุษย์ทำหน้าที่เป็น “นักสุขนิยม” โดยแสวงหาความสุขสูงสุดและลดความเจ็บปวดให้เหลือน้อยที่สุดอยู่เสมอ
ในปี 1978 Richard Sutton ได้ร่วมงานกับ Andrew Barto เพื่อพัฒนาแนวคิดนี้เพื่ออธิบายความฉลาดของมนุษย์และนำมาประยุกต์ใช้กับปัญญาประดิษฐ์ (AI) ผลลัพธ์ที่ได้คือ "การเรียนรู้แบบเสริมแรง" ซึ่งเป็นวิธีการที่ช่วยให้ระบบ AI สามารถเรียนรู้จาก "ความสุข" และ "ความเจ็บปวด" ในรูปแบบดิจิทัล
ผลงานของพวกเขาได้วางรากฐานสำหรับการพัฒนาก้าวกระโดดครั้งสำคัญในช่วงทศวรรษที่ผ่านมา นับตั้งแต่ระบบ AlphaGo ของ Google ที่เอาชนะนักเล่นโกะระดับโลก อย่าง Lee Sedol ได้ในปี 2016 ไปจนถึงแชทบอท ChatGPT ของ OpenAI ที่มีความสามารถในการสนทนาได้คล้ายมนุษย์อย่างน่าประหลาดใจ
Oren Etzioni ศาสตราจารย์กิตติคุณแห่งมหาวิทยาลัยวอชิงตันและผู้ก่อตั้งสถาบัน Allen Institute for Artificial Intelligence ซึ่งหนังสือเรื่อง “Introduction to Reinforcement Learning” ของเขาที่ตีพิมพ์ในปี 1998 ยังคงเป็นตำราเรียนมาตรฐานในสาขานี้ กล่าวว่า “พวกเขาเป็นผู้บุกเบิกที่ไม่มีใครโต้แย้งได้ในการเรียนรู้เชิงเสริมแรง”
นักจิตวิทยาได้ศึกษามานานแล้วว่ามนุษย์และสัตว์เรียนรู้จากประสบการณ์ของตนเองอย่างไร ในทศวรรษปี 1940 นักวิทยาศาสตร์คอมพิวเตอร์ชาวอังกฤษผู้บุกเบิก อลัน ทัวริง ได้เสนอว่าเครื่องจักรสามารถเรียนรู้ได้ในลักษณะเดียวกัน
แต่เป็นดร. บาร์โตและดร. ซัตตันที่เริ่ม ศึกษา คณิตศาสตร์ว่าสิ่งนี้อาจทำงานได้อย่างไร โดยอาศัยทฤษฎีที่เสนอโดยเอ. แฮร์รี คลอปฟ์ นักวิทยาศาสตร์คอมพิวเตอร์ที่ทำงานให้กับรัฐบาล จากนั้น ดร. บาร์โตจึงสร้างห้องปฏิบัติการที่มหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์ ซึ่งอุทิศให้กับแนวคิดนี้โดยเฉพาะ ในขณะที่ดร. ซัตตันก็จัดตั้งห้องปฏิบัติการที่คล้ายกันที่มหาวิทยาลัยแห่งอัลเบอร์ตาในแคนาดา
“การเรียนรู้แบบเสริมแรง” ไม่ใช่แค่สำหรับเกมเท่านั้น การใช้เทคนิค “การเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์” (RLHF) ทำให้ ChatGPT ได้รับการฝึกจากผู้ใช้หลายร้อยคนเพื่อปรับปรุงความสามารถในการตอบคำถาม
เมื่อเร็วๆ นี้ บริษัทต่างๆ เช่น OpenAI และ DeepSeek ได้พัฒนาระบบการเรียนรู้ด้วยตนเองที่ช่วยให้แชทบอทสามารถแก้ไขปัญหาด้วยตัวเองและจำลองการใช้เหตุผลของมนุษย์ ซึ่งนำไปสู่การเกิดขึ้นของระบบ "การใช้เหตุผล" เช่น o1 ของ OpenAI หรือ R1 ของ DeepSeek
เมื่อมองไปข้างหน้า นักวิทยาศาสตร์ทั้งสองเชื่อว่า “การเรียนรู้แบบเสริมแรง” จะช่วยให้หุ่นยนต์เรียนรู้จากประสบการณ์ในโลกแห่งความเป็นจริงได้ เช่นเดียวกับที่มนุษย์และสัตว์ทำได้ “เป็นเรื่องธรรมชาติมากที่จะควบคุมสิ่งมีชีวิตผ่าน การเรียนรู้แบบเสริมแรง ” บาร์โตกล่าว
ด้วยผลงานอันปฏิวัติวงการของพวกเขา Andrew Barto และ Richard Sutton ไม่เพียงสมควรได้รับรางวัล Turing Award เท่านั้น แต่ยังได้เปิดประตูสู่ยุคใหม่ของปัญญาประดิษฐ์อีกด้วย
ที่มา: https://vietnamnet.vn/giai-nobel-cua-nganh-dien-toan-2025-da-co-chu-2377820.html
การแสดงความคิดเห็น (0)