แชทบอทของ OpenAI ได้รับการปรับปรุงอย่างต่อเนื่องผ่านเทคโนโลยีใหม่ๆ ภาพ: New York Times |
ในเดือนกันยายน 2024 OpenAI เปิดตัว ChatGPT เวอร์ชันที่บูรณาการกับโมเดล o1 ซึ่งสามารถให้เหตุผลในงานที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ได้
ต่างจาก ChatGPT เวอร์ชันก่อนหน้านี้ เทคโนโลยีใหม่จะต้องใช้เวลาในการ "คิด" หาแนวทางแก้ปัญหาที่ซับซ้อน ก่อนที่จะให้คำตอบ
หลังจาก OpenAI คู่แข่งหลายราย เช่น Google, Anthropic และ DeepSeek ก็ได้แนะนำโมเดลการใช้เหตุผลที่คล้ายกันนี้ด้วย แม้ว่าจะไม่สมบูรณ์แบบ แต่ก็ยังถือเป็นเทคโนโลยีอัปเกรดแชทบอทที่นักพัฒนามากมายไว้วางใจ
AI ให้เหตุผลอย่างไร
โดยพื้นฐานแล้ว การใช้เหตุผลหมายถึงการที่แชทบอทจะสามารถใช้เวลาในการแก้ไขปัญหาที่ผู้ใช้เสนอได้มากขึ้น
“การใช้เหตุผลคือการที่ระบบทำงานได้มากขึ้นหลังจากที่ได้รับคำถาม” แดน ไคลน์ ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ กล่าวกับ นิวยอร์กไทมส์
ระบบการใช้เหตุผลสามารถแบ่งปัญหาออกเป็นขั้นตอนแต่ละขั้นตอน หรือแก้ปัญหาด้วยการลองผิดลองถูก
เมื่อเปิดตัวครั้งแรก ChatGPT สามารถตอบคำถามได้ทันทีโดยการดึงและสังเคราะห์ข้อมูล ในขณะเดียวกัน ระบบการใช้เหตุผลจะต้องใช้เวลาอีกสองสามวินาที (หรืออาจถึงหลายนาที) เพื่อแก้ไขปัญหาและตอบสนอง
![]() |
ตัวอย่างกระบวนการคิดเชิงเหตุผลของโมเดล o1 ในแชทบอทฝ่ายดูแลลูกค้า ภาพ: OpenAI |
ในบางกรณี ระบบการใช้เหตุผลจะเปลี่ยนวิธีการในการแก้ปัญหา เพื่อปรับปรุงวิธีแก้ปัญหาอย่างต่อเนื่อง นอกจากนี้ โมเดลยังสามารถทดสอบโซลูชันต่างๆ ได้หลายรายการก่อนที่จะตัดสินใจเลือกโซลูชันที่ดีที่สุด หรือตรวจสอบความแม่นยำของคำตอบก่อนหน้า
โดยทั่วไประบบการใช้เหตุผลจะพิจารณาวิธีที่เป็นไปได้ทั้งหมดในการตอบคำถาม เหมือนกับนักเรียนประถมที่เขียนตัวเลือกต่างๆ ลงไปบนกระดาษ ก่อนที่จะเลือกวิธีที่ดีที่สุดในการแก้โจทย์คณิตศาสตร์
ตามที่ นิวยอร์กไทมส์ รายงาน ปัจจุบัน AI มีความสามารถในการให้เหตุผลเกี่ยวกับหัวข้อใดๆ ก็ได้ อย่างไรก็ตาม งานดังกล่าวจะมีประสิทธิผลมากที่สุดเมื่อมีคำถามที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์
ระบบทฤษฎีอบรมอย่างไร?
ในแชทบอททั่วไป ผู้ใช้ยังสามารถขอคำอธิบายกระบวนการหรือตรวจสอบความถูกต้องของการตอบกลับได้ ในความเป็นจริง ชุดข้อมูลการฝึกอบรม ChatGPT จำนวนมากมีขั้นตอนการแก้ไขปัญหาอยู่แล้ว
ระบบการใช้เหตุผลมีความก้าวหน้ามากยิ่งขึ้นเมื่อสามารถดำเนินการบางอย่างได้โดยไม่ต้องให้ผู้ใช้สั่ง กระบวนการนี้มีความซับซ้อนและกว้างขวางมากขึ้น บริษัทต่างๆ ใช้คำว่า "การใช้เหตุผล" เนื่องจากระบบทำงานคล้ายกับวิธีคิดของมนุษย์
บริษัทหลายแห่ง เช่น OpenAI คาดหวังว่าระบบการใช้เหตุผลจะเป็นโซลูชั่นที่ดีที่สุดในการปรับปรุงแชทบอทในปัจจุบัน เป็นเวลาหลายปีที่พวกเขาเชื่อว่าแชทบอทจะทำงานได้ดีขึ้นหากได้รับการฝึกฝนจากข้อมูลบนอินเทอร์เน็ตให้ได้มากที่สุด
ภายในปี 2024 ระบบ AI จะบริโภคข้อความเกือบทั้งหมดที่มีอยู่บนอินเทอร์เน็ต นั่นหมายความว่าบริษัทต่างๆ จะต้องค้นหาโซลูชั่นใหม่ๆ เพื่ออัพเกรดแชทบอท รวมไปถึงระบบการใช้เหตุผลด้วย
![]() |
บริษัท Startup DeepSeek เคย "ก่อให้เกิดกระแส" ด้วยรูปแบบการใช้เหตุผลที่มีค่าใช้จ่ายน้อยกว่า OpenAI ภาพ: Bloomberg . |
ตั้งแต่ปีที่แล้ว บริษัทต่างๆ เช่น OpenAI มุ่งเน้นไปที่เทคนิคการเรียนรู้เชิงเสริมแรง กระบวนการนี้ปกติจะใช้เวลาหลายเดือน ซึ่งระหว่างนั้น AI จะเรียนรู้พฤติกรรมผ่านการลองผิดลองถูก
ตัวอย่างเช่น การแก้ไขปัญหาหลายพันข้อ ระบบจะสามารถเรียนรู้วิธีการที่ดีที่สุดเพื่อให้คำตอบที่ถูกต้องได้ จากนั้นนักวิจัยได้สร้างกลไกการป้อนกลับที่ซับซ้อนซึ่งช่วยให้ระบบสามารถจดจำโซลูชันที่ถูกต้องและไม่ถูกต้องได้
Jerry Tworek นักวิจัยจาก OpenAI กล่าวว่า “มันเหมือนกับการฝึกสุนัข ถ้ามันได้ผลดี คุณก็จะให้รางวัลมัน แต่ถ้าไม่ได้ผล คุณก็บอกว่า ‘สุนัขตัวนั้นไม่ดี’”
AI คืออนาคตหรือไม่?
ตามที่ นิวยอร์กไทมส์ รายงาน เทคนิคการเรียนรู้เชิงเสริมแรงใช้ได้ผลดีกับข้อกำหนดทางคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ นี่คือพื้นที่ที่มีคำตอบที่ถูกหรือผิดอย่างชัดเจน
ในทางตรงกันข้าม การเรียนรู้เชิงเสริมแรงนั้นไม่มีประสิทธิภาพในการเขียนเชิงสร้างสรรค์ ปรัชญา หรือจริยธรรม ซึ่งเป็นด้านที่ยากต่อการแยกแยะระหว่างดีและไม่ดี อย่างไรก็ตาม นักวิจัยยังคงอ้างว่าเทคนิคดังกล่าวสามารถปรับปรุงประสิทธิภาพของ AI ได้ แม้กระทั่งกับคำถามที่นอกเหนือจากคณิตศาสตร์
“ระบบจะเรียนรู้เส้นทางที่นำไปสู่ผลลัพธ์เชิงบวกและเชิงลบ” Jared Kaplan ประธานเจ้าหน้าที่ฝ่ายวิทยาศาสตร์ของ Anthropic กล่าว
![]() |
เว็บไซต์ของ Anthropic สตาร์ทอัพเจ้าของโมเดล AI อย่าง Claude ภาพ: Bloomberg . |
สิ่งสำคัญคือต้องทราบว่าระบบการเรียนรู้แบบเสริมแรงและระบบการใช้เหตุผลเป็นแนวคิดที่แตกต่างกันสองแบบ โดยเฉพาะอย่างยิ่งการเรียนรู้เชิงเสริมแรงเป็นวิธีการสร้างระบบเชิงทฤษฎี นี่คือขั้นตอนการฝึกอบรมขั้นสุดท้ายเพื่อให้แชทบอทสามารถให้เหตุผลได้
เนื่องจากยังค่อนข้างใหม่ นักวิทยาศาสตร์จึงยังไม่สามารถแน่ใจได้ว่าการใช้เหตุผลแบบแชทบอทหรือการเรียนรู้แบบเสริมแรงสามารถช่วยให้ AI คิดเหมือนมนุษย์ได้หรือไม่ ที่น่าสังเกตคือแนวโน้มการฝึกอบรม AI ในปัจจุบันหลายประการเติบโตอย่างรวดเร็วในช่วงแรกแล้วจึงเติบโตช้าลง
นอกจากนี้ การใช้เหตุผลแบบแชทบอทก็ยังสามารถเกิดข้อผิดพลาดได้ โดยพิจารณาจากความน่าจะเป็น ระบบจะเลือกกระบวนการที่มีความคล้ายคลึงกับข้อมูลที่เรียนรู้มากที่สุด ไม่ว่าจะมาจากอินเทอร์เน็ตหรือผ่านการเรียนรู้แบบเสริมแรงก็ตาม ดังนั้นแชทบอทยังสามารถเลือกโซลูชันที่ผิดหรือไม่สมเหตุสมผลได้
ที่มา: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html
การแสดงความคิดเห็น (0)