แชทบอทของ OpenAI กำลังพัฒนาไปด้วยเทคโนโลยีใหม่ๆ ภาพ: New York Times |
ในเดือนกันยายน พ.ศ. 2567 OpenAI ได้เปิดตัว ChatGPT เวอร์ชันที่บูรณาการโมเดล o1 ซึ่งสามารถให้เหตุผลในงานที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ได้
ต่างจาก ChatGPT เวอร์ชันก่อนหน้า เทคโนโลยีใหม่จะใช้เวลา "คิด" หาทางแก้ปัญหาที่ซับซ้อนก่อนที่จะตอบกลับ
หลังจาก OpenAI คู่แข่งหลายราย เช่น Google, Anthropic และ DeepSeek ก็ได้นำเสนอโมเดลการใช้เหตุผลที่คล้ายกันนี้ ถึงแม้จะไม่สมบูรณ์แบบ แต่ก็ยังคงเป็นเทคโนโลยีอัปเกรดแชทบอทที่นักพัฒนาหลายคนให้ความไว้วางใจ
AI ให้เหตุผลอย่างไร
โดยพื้นฐานแล้ว การใช้เหตุผลหมายถึงการที่แชทบอทสามารถใช้เวลาในการแก้ไขปัญหาที่ผู้ใช้เสนอได้มากขึ้น
“การใช้เหตุผลคือการที่ระบบจะทำงานได้มากขึ้นหลังจากได้รับคำถาม” Dan Klein ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ กล่าวกับ นิวยอร์กไทมส์
ระบบการใช้เหตุผลสามารถแบ่งปัญหาออกเป็นขั้นตอนแต่ละขั้นตอน หรือแก้ปัญหาด้วยการลองผิดลองถูก
เมื่อเปิดตัวครั้งแรก ChatGPT สามารถตอบคำถามได้ทันทีโดยการดึงและสังเคราะห์ข้อมูล ในขณะเดียวกัน ระบบการให้เหตุผลต้องใช้เวลาอีกไม่กี่วินาที (หรือหลายนาที) เพื่อแก้ปัญหาและตอบสนอง
![]() |
ตัวอย่างกระบวนการคิดเชิงเหตุผลของโมเดล o1 ในแชทบอทฝ่ายบริการลูกค้า ภาพ: OpenAI |
ในบางกรณี ระบบการใช้เหตุผลจะเปลี่ยนวิธีการแก้ปัญหา เพื่อปรับปรุงวิธีแก้ปัญหาอย่างต่อเนื่อง อีกทางเลือกหนึ่งคือ แบบจำลองอาจลองวิธีแก้ปัญหาหลาย ๆ วิธีก่อนที่จะตัดสินใจเลือกวิธีที่เหมาะสมที่สุด หรือทดสอบความแม่นยำของคำตอบก่อนหน้า
โดยทั่วไป ระบบการใช้เหตุผลจะพิจารณาคำตอบที่เป็นไปได้ทั้งหมดสำหรับคำถามนั้น คล้ายกับนักเรียนชั้นประถมศึกษาที่เขียนตัวเลือกต่างๆ ลงบนกระดาษก่อนจะเลือกวิธีที่เหมาะสมที่สุดในการแก้ปัญหาคณิตศาสตร์
นิวยอร์กไทมส์ รายงานว่า ปัจจุบัน AI สามารถให้เหตุผลเกี่ยวกับหัวข้อใดก็ได้ อย่างไรก็ตาม การทำงานนี้จะมีประสิทธิภาพสูงสุดเมื่อมีคำถามเกี่ยวกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์
ระบบทฤษฎีได้รับการฝึกอบรมอย่างไร?
ในแชทบอททั่วไป ผู้ใช้ยังสามารถขอคำอธิบายเกี่ยวกับกระบวนการหรือตรวจสอบความถูกต้องของการตอบกลับได้ อันที่จริง ชุดข้อมูลการฝึก ChatGPT หลายชุดมีกระบวนการแก้ไขปัญหาอยู่แล้ว
ระบบการใช้เหตุผลจะยิ่งก้าวหน้าไปอีกเมื่อสามารถดำเนินการบางอย่างได้โดยไม่ต้องมีการร้องขอจากผู้ใช้ กระบวนการนี้มีความซับซ้อนและครอบคลุมมากกว่า บริษัทต่างๆ ใช้คำว่า "การใช้เหตุผล" เพราะระบบทำงานในลักษณะเดียวกับการคิดของมนุษย์
บริษัทหลายแห่งอย่าง OpenAI ต่างเชื่อมั่นว่าระบบการให้เหตุผลคือวิธีที่ดีที่สุดในการพัฒนาแชทบอทในปัจจุบัน หลายปีที่ผ่านมา พวกเขาเชื่อว่าแชทบอทจะทำงานได้ดีที่สุดหากได้รับการฝึกฝนจากข้อมูลให้ได้มากที่สุดเท่าที่จะเป็นไปได้จากอินเทอร์เน็ต
ภายในปี 2024 ระบบ AI จะกินพื้นที่เกือบทั้งหมดที่มีอยู่บนอินเทอร์เน็ต นั่นหมายความว่าบริษัทต่างๆ จะต้องค้นหาโซลูชันใหม่ๆ เพื่อยกระดับแชทบอท ซึ่งรวมถึงระบบการให้เหตุผลด้วย
![]() |
สตาร์ทอัพ DeepSeek เคย "สร้างความฮือฮา" ด้วยโมเดลการให้เหตุผลที่มีค่าใช้จ่ายน้อยกว่า OpenAI ภาพ: Bloomberg |
ตั้งแต่ปีที่แล้ว บริษัทต่างๆ เช่น OpenAI มุ่งเน้นไปที่เทคนิคที่เรียกว่าการเรียนรู้แบบเสริมแรง ซึ่งเป็นกระบวนการที่โดยทั่วไปใช้เวลาหลายเดือนและเกี่ยวข้องกับพฤติกรรมการเรียนรู้ของ AI ผ่านการลองผิดลองถูก
ตัวอย่างเช่น การแก้ปัญหาหลายพันข้อทำให้ระบบสามารถเรียนรู้วิธีการที่เหมาะสมที่สุดในการได้รับคำตอบที่ถูกต้อง จากนั้น นักวิจัยจึงสร้างกลไกป้อนกลับที่ซับซ้อน ซึ่งช่วยให้ระบบเรียนรู้วิธีแก้ปัญหาที่ถูกต้องและผิด
“มันเหมือนกับการฝึกสุนัข ถ้ามันได้ผลดี คุณก็ให้รางวัลมัน แต่ถ้าไม่ได้ผล คุณก็บอกว่า ‘สุนัขตัวนั้นแย่’” เจอร์รี่ ทูเรก นักวิจัยจาก OpenAI กล่าว
AI คืออนาคตหรือเปล่า?
ตามที่ นิวยอร์กไทมส์ รายงาน การเรียนรู้เชิงเสริมแรงใช้ได้ดีกับคำถามทางคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ ซึ่งมีคำตอบที่ถูกหรือผิดที่กำหนดไว้อย่างชัดเจน
ในทางตรงกันข้าม การเรียนรู้แบบเสริมแรงนั้นไม่ได้ผลดีนักในการเขียน ปรัชญา หรือจริยธรรม ซึ่งยากที่จะแยกแยะระหว่างสิ่งที่ดีและไม่ดี แต่นักวิจัยกล่าวว่าเทคนิคนี้ยังสามารถปรับปรุงประสิทธิภาพของ AI ได้ แม้กระทั่งกับคำถามนอกเหนือจากคณิตศาสตร์
“ระบบจะเรียนรู้เส้นทางที่นำไปสู่ผลลัพธ์เชิงบวกและเชิงลบ” Jared Kaplan หัวหน้าฝ่ายวิทยาศาสตร์ของ Anthropic กล่าว
![]() |
เว็บไซต์ของ Anthropic สตาร์ทอัพเจ้าของโมเดล AI ชื่อ Claude ภาพ: Bloomberg |
สิ่งสำคัญที่ต้องทราบคือ การเรียนรู้แบบเสริมแรงและระบบการให้เหตุผลเป็นแนวคิดที่แตกต่างกัน กล่าวคือ การเรียนรู้แบบเสริมแรงเป็นวิธีการสร้างระบบการให้เหตุผล ซึ่งเป็นขั้นตอนสุดท้ายของการฝึกอบรมแชตบอตให้มีความสามารถในการใช้เหตุผล
เนื่องจากยังค่อนข้างใหม่ นักวิทยาศาสตร์จึงยังไม่สามารถยืนยันได้ว่าแชทบอทที่ใช้เหตุผลหรือการเรียนรู้แบบเสริมแรงจะช่วยให้ AI คิดได้เหมือนมนุษย์หรือไม่ สิ่งที่น่าสังเกตคือเทรนด์การฝึกอบรม AI ในปัจจุบันหลายอย่างพัฒนาอย่างรวดเร็วในช่วงแรกๆ แล้วก็ค่อยๆ ช้าลง
ยิ่งไปกว่านั้น แชทบอทที่ใช้เหตุผลก็ยังสามารถผิดพลาดได้ โดยพิจารณาจากความน่าจะเป็น ระบบจะเลือกกระบวนการที่ใกล้เคียงกับข้อมูลที่เรียนรู้มากที่สุด ไม่ว่าจะมาจากอินเทอร์เน็ตหรือผ่านการเรียนรู้แบบเสริมแรง ดังนั้น แชทบอทจึงยังคงสามารถเลือกวิธีการแก้ปัญหาที่ผิดหรือไม่สมเหตุสมผลได้
ที่มา: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html
การแสดงความคิดเห็น (0)