แชทบอทของ OpenAI กำลังพัฒนาอย่างต่อเนื่องด้วยเทคโนโลยีใหม่ๆ ภาพ: นิวยอร์กไทมส์ |
ในเดือนกันยายนปี 2024 OpenAI ได้เปิดตัว ChatGPT ซึ่งเป็น AI เวอร์ชันที่ผสานรวมโมเดล o1 เข้าด้วยกัน โดยมีความสามารถในการใช้เหตุผลในงานที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์
แตกต่างจาก ChatGPT เวอร์ชันก่อนหน้า เทคโนโลยีใหม่นี้จะใช้เวลาในการ "คิด" เพื่อหาทางแก้ไขปัญหาที่ซับซ้อนก่อนที่จะให้คำตอบ
หลังจาก OpenAI บริษัทคู่แข่งหลายแห่ง เช่น Google, Anthropic และ DeepSeek ก็ได้นำเสนอโมเดลการให้เหตุผลที่คล้ายคลึงกัน แม้จะไม่สมบูรณ์แบบ แต่ก็ยังเป็นเทคโนโลยีการพัฒนาแชทบอทที่นักพัฒนาหลายคนไว้วางใจ
ปัญญาประดิษฐ์ใช้เหตุผลอย่างไร
โดยพื้นฐานแล้ว การใช้เหตุผลหมายความว่าแชทบอทสามารถใช้เวลามากขึ้นในการแก้ปัญหาที่ผู้ใช้ถามเข้ามา
"การให้เหตุผลคือกระบวนการที่ระบบดำเนินการเพิ่มเติมหลังจากได้รับคำถาม" แดน ไคลน์ ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยแคลิฟอร์เนีย กล่าวกับ นิวยอร์กไทมส์
ระบบตรรกะสามารถแบ่งปัญหาออกเป็นขั้นตอนย่อยๆ หรือแก้ปัญหาโดยใช้วิธีลองผิดลองถูกได้
เมื่อเปิดตัวครั้งแรก ChatGPT สามารถตอบคำถามได้ทันทีโดยการดึงและสังเคราะห์ข้อมูล ในทางตรงกันข้าม ระบบการให้เหตุผลต้องใช้เวลาอีกไม่กี่วินาที (หรืออาจถึงหลายนาที) ในการแก้ปัญหาและให้คำตอบ
![]() |
ตัวอย่างกระบวนการให้เหตุผลของโมเดล O1 ในแชทบอทบริการลูกค้า ภาพ: OpenAI |
ในบางกรณี ระบบการให้เหตุผลจะเปลี่ยนวิธีการแก้ปัญหาอย่างต่อเนื่องเพื่อปรับปรุงวิธีการแก้ปัญหาให้ดียิ่งขึ้น นอกจากนี้ โมเดลอาจทดสอบวิธีการแก้ปัญหาหลายวิธี ก่อนที่จะเลือกวิธีที่ดีที่สุด หรือตรวจสอบความถูกต้องของคำตอบก่อนหน้า
โดยทั่วไป ระบบการให้เหตุผลจะพิจารณาคำตอบที่เป็นไปได้ทั้งหมดสำหรับคำถามนั้น ซึ่งคล้ายกับนักเรียนชั้นประถมศึกษาที่เขียนตัวเลือกมากมายลงบนกระดาษก่อนที่จะเลือกวิธีแก้ปัญหาทางคณิตศาสตร์ที่เหมาะสมที่สุด
จากรายงานของ นิวยอร์กไทมส์ ปัญญาประดิษฐ์ (AI) ในปัจจุบันสามารถใช้เหตุผลได้ในเกือบทุกหัวข้อ อย่างไรก็ตาม AI จะมีประสิทธิภาพมากที่สุดกับคำถามที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์
ระบบทฤษฎีได้รับการฝึกฝนอย่างไร?
ในแชทบอททั่วไป ผู้ใช้ยังสามารถขอคำอธิบายเกี่ยวกับกระบวนการหรือตรวจสอบความถูกต้องของคำตอบได้ ที่จริงแล้ว ชุดข้อมูลฝึกฝนของ ChatGPT จำนวนมากมีขั้นตอนการแก้ปัญหาอยู่แล้ว
ระบบการให้เหตุผลจะยิ่งล้ำหน้าขึ้นไปอีกเมื่อสามารถดำเนินการได้โดยไม่ต้องมีการป้อนข้อมูลจากผู้ใช้ กระบวนการนี้มีความซับซ้อนและครอบคลุมมากขึ้น บริษัทต่างๆ ใช้คำว่า "การให้เหตุผล" เพราะระบบทำงานคล้ายคลึงกับวิธีการคิดของมนุษย์
หลายบริษัท เช่น OpenAI คาดหวังว่าระบบการให้เหตุผลจะเป็นทางออกที่ดีที่สุดสำหรับการพัฒนาแชทบอทที่มีอยู่ในปัจจุบัน เป็นเวลานานแล้วที่พวกเขาเชื่อว่าแชทบอทจะทำงานได้ดีขึ้นเมื่อได้รับการฝึกฝนด้วยข้อมูลจากอินเทอร์เน็ตมากขึ้น
ภายในปี 2024 ระบบ AI จะใช้ข้อความเกือบทั้งหมดที่มีอยู่บนอินเทอร์เน็ต ซึ่งหมายความว่าบริษัทต่างๆ จำเป็นต้องหาวิธีแก้ปัญหาใหม่ๆ เพื่อยกระดับแชทบอท รวมถึงระบบการให้เหตุผลด้วย
![]() |
บริษัทสตาร์ทอัพ DeepSeek เคยสร้างความฮือฮาด้วยโมเดลการให้เหตุผลที่มีต้นทุนต่ำกว่า OpenAI ภาพ: Bloomberg |
ตั้งแต่ปีที่แล้ว บริษัทต่างๆ เช่น OpenAI ได้ให้ความสำคัญกับเทคนิคการเรียนรู้แบบเสริมแรง (reinforcement learning) กระบวนการนี้โดยทั่วไปใช้เวลาหลายเดือน ซึ่งในระหว่างนั้น AI จะเรียนรู้พฤติกรรมผ่านการลองผิดลองถูก
ตัวอย่างเช่น ด้วยการแก้ปัญหาหลายพันข้อ ระบบสามารถระบุวิธีการที่ดีที่สุดในการหาคำตอบที่ถูกต้องได้ จากนั้น นักวิจัยจะสร้างกลไกการป้อนกลับที่ซับซ้อนซึ่งช่วยให้ระบบสามารถแยกแยะระหว่างคำตอบที่ถูกต้องและไม่ถูกต้องได้
"มันคล้ายกับการฝึกสุนัข ถ้ามันทำงานได้ดี คุณก็ให้รางวัลมัน แต่ถ้าไม่ดี คุณก็บอกว่า 'สุนัขตัวนั้นดื้อ'" เจอร์รี ทวอเร็ก นักวิจัยจาก OpenAI กล่าว
ปัญญาประดิษฐ์คืออนาคตหรือไม่?
จากรายงานของ หนังสือพิมพ์นิวยอร์กไทมส์ เทคนิคการเรียนรู้แบบเสริมแรงมีประสิทธิภาพเมื่อนำไปใช้กับความต้องการในด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ ซึ่งเป็นสาขาที่สามารถกำหนดคำตอบที่ถูกต้องหรือผิดได้อย่างชัดเจน
ในทางกลับกัน การเรียนรู้แบบเสริมแรงนั้นไม่มีประสิทธิภาพในด้านการเขียน ปรัชญา หรือจริยธรรม ซึ่งเป็นสาขาที่การแยกแยะระหว่างดีและไม่ดีเป็นเรื่องยาก อย่างไรก็ตาม นักวิจัยยืนยันว่าเทคนิคนี้ยังคงสามารถปรับปรุงประสิทธิภาพของ AI ได้ แม้แต่กับคำถามที่ไม่เกี่ยวข้องกับคณิตศาสตร์ก็ตาม
"ระบบจะเรียนรู้เส้นทางที่นำไปสู่ผลลัพธ์ทั้งเชิงบวกและเชิงลบ" จาเร็ด แคปแลน หัวหน้าเจ้าหน้าที่วิทยาศาสตร์ของ Anthropic กล่าว
![]() |
เว็บไซต์ของ Anthropic สตาร์ทอัพที่เป็นเจ้าของโมเดล AI Claude ภาพ: Bloomberg |
สิ่งสำคัญที่ควรทราบคือ การเรียนรู้แบบเสริมแรงและระบบการให้เหตุผลเป็นสองแนวคิดที่แตกต่างกัน โดยเฉพาะอย่างยิ่ง การเรียนรู้แบบเสริมแรงเป็นวิธีการสร้างระบบการให้เหตุผล ซึ่งเป็นขั้นตอนการฝึกอบรมขั้นสุดท้ายเพื่อให้แชทบอทสามารถใช้เหตุผลได้
เนื่องจากเทคโนโลยีนี้ยังค่อนข้างใหม่ นักวิทยาศาสตร์จึงยังไม่แน่ใจว่าการให้เหตุผลของแชทบอทหรือการเรียนรู้แบบเสริมแรงจะช่วยให้ AI คิดเหมือนมนุษย์ได้หรือไม่ ควรสังเกตว่าแนวโน้มการฝึกอบรม AI ในปัจจุบันหลายอย่างพัฒนาไปอย่างรวดเร็วในช่วงเริ่มต้น แล้วค่อยๆ ชะลอตัวลงในภายหลัง
นอกจากนี้ การให้เหตุผลของแชทบอทยังคงอาจผิดพลาดได้ โดยระบบจะเลือกกระบวนการที่คล้ายคลึงกับข้อมูลที่เรียนรู้มามากที่สุดโดยอาศัยหลักความน่าจะเป็น ไม่ว่าจะเป็นข้อมูลจากอินเทอร์เน็ตหรือการเรียนรู้แบบเสริมแรง ดังนั้น แชทบอทจึงยังคงสามารถเลือกวิธีแก้ปัญหาที่ไม่ถูกต้องหรือไม่สมเหตุสมผลได้
ที่มา: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html










การแสดงความคิดเห็น (0)