รางวัลทัวริงได้รับการขนานนามว่าเป็น "รางวัลโนเบลแห่งการคำนวณ" นับตั้งแต่มีการมอบรางวัลในปี พ.ศ. 2509 โดยมาพร้อมกับเงินรางวัล 1 ล้านดอลลาร์สหรัฐ ซึ่งนักวิทยาศาสตร์ทั้งสองคนจะแบ่งกัน

การเดินทางของ “การเรียนรู้แบบเสริมแรง” เริ่มต้นขึ้นในปีพ.ศ. 2520 เมื่อแอนดรูว์ บาร์โต ซึ่งขณะนั้นเป็นนักวิจัยที่มหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์ เสนอทฤษฎีใหม่: เซลล์ประสาทในสมองของมนุษย์ทำหน้าที่เป็น “นักสุขนิยม” โดยแสวงหาความสุขสูงสุดและลดความเจ็บปวดให้เหลือน้อยที่สุดอยู่เสมอ

ในปี 1978 Richard Sutton ได้ร่วมงานกับ Andrew Barto เพื่อพัฒนาแนวคิดนี้เพื่ออธิบายความฉลาดของมนุษย์และนำมาประยุกต์ใช้กับปัญญาประดิษฐ์ (AI) ผลลัพธ์ที่ได้คือ "การเรียนรู้แบบเสริมแรง" ซึ่งเป็นวิธีการที่ช่วยให้ระบบ AI สามารถเรียนรู้จาก "ความสุข" และ "ความเจ็บปวด" ในรูปแบบดิจิทัล

741892ab198395c98fd211f6f918a95144a8b819.jpeg
งานวิจัยของ Andrew Barto (ซ้าย) และ Richard Sutton (ขวา) จากมหาวิทยาลัยแมสซาชูเซตส์มีบทบาทสำคัญในระบบ AI ในปัจจุบัน ภาพ: NYT

ผลงานของพวกเขาได้วางรากฐานสำหรับการพัฒนาก้าวกระโดดครั้งสำคัญในช่วงทศวรรษที่ผ่านมา นับตั้งแต่ระบบ AlphaGo ของ Google ที่เอาชนะนักเล่นโกะระดับโลก อย่าง Lee Sedol ได้ในปี 2016 ไปจนถึงแชทบอท ChatGPT ของ OpenAI ที่มีความสามารถในการสนทนาได้คล้ายมนุษย์อย่างน่าประหลาดใจ

Oren Etzioni ศาสตราจารย์กิตติคุณแห่งมหาวิทยาลัยวอชิงตันและผู้ก่อตั้งสถาบัน Allen Institute for Artificial Intelligence ซึ่งหนังสือเรื่อง “Introduction to Reinforcement Learning” ของเขาที่ตีพิมพ์ในปี 1998 ยังคงเป็นตำราเรียนมาตรฐานในสาขานี้ กล่าวว่า “พวกเขาเป็นผู้บุกเบิกที่ไม่มีใครโต้แย้งได้ในการเรียนรู้เชิงเสริมแรง”

นักจิตวิทยาได้ศึกษามานานแล้วว่ามนุษย์และสัตว์เรียนรู้จากประสบการณ์ของตนเองอย่างไร ในทศวรรษปี 1940 นักวิทยาศาสตร์คอมพิวเตอร์ชาวอังกฤษผู้บุกเบิก อลัน ทัวริง ได้เสนอว่าเครื่องจักรสามารถเรียนรู้ได้ในลักษณะเดียวกัน

แต่เป็นดร. บาร์โตและดร. ซัตตันที่เริ่ม ศึกษา คณิตศาสตร์ว่าสิ่งนี้อาจทำงานได้อย่างไร โดยอาศัยทฤษฎีที่เสนอโดยเอ. แฮร์รี คลอปฟ์ นักวิทยาศาสตร์คอมพิวเตอร์ที่ทำงานให้กับรัฐบาล จากนั้น ดร. บาร์โตจึงสร้างห้องปฏิบัติการที่มหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์ ซึ่งอุทิศให้กับแนวคิดนี้โดยเฉพาะ ในขณะที่ดร. ซัตตันก็จัดตั้งห้องปฏิบัติการที่คล้ายกันที่มหาวิทยาลัยแห่งอัลเบอร์ตาในแคนาดา

“การเรียนรู้แบบเสริมแรง” ไม่ใช่แค่สำหรับเกมเท่านั้น การใช้เทคนิค “การเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์” (RLHF) ทำให้ ChatGPT ได้รับการฝึกจากผู้ใช้หลายร้อยคนเพื่อปรับปรุงความสามารถในการตอบคำถาม

เมื่อเร็วๆ นี้ บริษัทต่างๆ เช่น OpenAI และ DeepSeek ได้พัฒนาระบบการเรียนรู้ด้วยตนเองที่ช่วยให้แชทบอทสามารถแก้ไขปัญหาด้วยตัวเองและจำลองการใช้เหตุผลของมนุษย์ ซึ่งนำไปสู่การเกิดขึ้นของระบบ "การใช้เหตุผล" เช่น o1 ของ OpenAI หรือ R1 ของ DeepSeek

เมื่อมองไปข้างหน้า นักวิทยาศาสตร์ทั้งสองเชื่อว่า “การเรียนรู้แบบเสริมแรง” จะช่วยให้หุ่นยนต์เรียนรู้จากประสบการณ์ในโลกแห่งความเป็นจริงได้ เช่นเดียวกับที่มนุษย์และสัตว์ทำได้ “เป็นเรื่องธรรมชาติมากที่จะควบคุมสิ่งมีชีวิตผ่าน การเรียนรู้แบบเสริมแรง ” บาร์โตกล่าว

ด้วยผลงานอันปฏิวัติวงการของพวกเขา Andrew Barto และ Richard Sutton ไม่เพียงสมควรได้รับรางวัล Turing Award เท่านั้น แต่ยังได้เปิดประตูสู่ยุคใหม่ของปัญญาประดิษฐ์อีกด้วย

จีนใช้เส้นทางอ้อมเพื่อสั่งซื้อชิป AI ล้ำสมัยของ Nvidia ลูกค้าชาวจีนกำลังมองหาทางที่จะหลีกเลี่ยงข้อจำกัดการส่งออกของสหรัฐฯ เพื่อสั่งซื้อชิปใหม่ล่าสุดของ Nvidia