ปัญญาประดิษฐ์สามารถคิดได้จริงหรือ?

บริษัทต่างๆ เช่น OpenAI และ DeepSeek กำลังผลักดันขีดจำกัดของแชทบอทเชิงตรรกะ ซึ่งสามารถทำงานได้ดีขึ้นในงานคำนวณบางอย่าง

ZNews•06/04/2025

แชทบอทของ OpenAI กำลังพัฒนาอย่างต่อเนื่องด้วยเทคโนโลยีใหม่ๆ ภาพ: นิวยอร์กไทมส์

ในเดือนกันยายนปี 2024 OpenAI ได้เปิดตัว ChatGPT ซึ่งเป็น AI เวอร์ชันที่ผสานรวมโมเดล o1 เข้าด้วยกัน โดยมีความสามารถในการใช้เหตุผลในงานที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์

แตกต่างจาก ChatGPT เวอร์ชันก่อนหน้า เทคโนโลยีใหม่นี้จะใช้เวลาในการ "คิด" เพื่อหาทางแก้ไขปัญหาที่ซับซ้อนก่อนที่จะให้คำตอบ

หลังจาก OpenAI บริษัทคู่แข่งหลายแห่ง เช่น Google, Anthropic และ DeepSeek ก็ได้นำเสนอโมเดลการให้เหตุผลที่คล้ายคลึงกัน แม้จะไม่สมบูรณ์แบบ แต่ก็ยังเป็นเทคโนโลยีการพัฒนาแชทบอทที่นักพัฒนาหลายคนไว้วางใจ

ปัญญาประดิษฐ์ใช้เหตุผลอย่างไร

โดยพื้นฐานแล้ว การใช้เหตุผลหมายความว่าแชทบอทสามารถใช้เวลามากขึ้นในการแก้ปัญหาที่ผู้ใช้ถามเข้ามา

"การให้เหตุผลคือกระบวนการที่ระบบดำเนินการเพิ่มเติมหลังจากได้รับคำถาม" แดน ไคลน์ ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยแคลิฟอร์เนีย กล่าวกับ นิวยอร์กไทมส์

ระบบตรรกะสามารถแบ่งปัญหาออกเป็นขั้นตอนย่อยๆ หรือแก้ปัญหาโดยใช้วิธีลองผิดลองถูกได้

เมื่อเปิดตัวครั้งแรก ChatGPT สามารถตอบคำถามได้ทันทีโดยการดึงและสังเคราะห์ข้อมูล ในทางตรงกันข้าม ระบบการให้เหตุผลต้องใช้เวลาอีกไม่กี่วินาที (หรืออาจถึงหลายนาที) ในการแก้ปัญหาและให้คำตอบ

AI ly luan, OpenAI o1 va ChatGPT, mo hinh ly luan, tri tue nhan tao anh 1

ตัวอย่างกระบวนการให้เหตุผลของโมเดล O1 ในแชทบอทบริการลูกค้า ภาพ: OpenAI

ในบางกรณี ระบบการให้เหตุผลจะเปลี่ยนวิธีการแก้ปัญหาอย่างต่อเนื่องเพื่อปรับปรุงวิธีการแก้ปัญหาให้ดียิ่งขึ้น นอกจากนี้ โมเดลอาจทดสอบวิธีการแก้ปัญหาหลายวิธี ก่อนที่จะเลือกวิธีที่ดีที่สุด หรือตรวจสอบความถูกต้องของคำตอบก่อนหน้า

โดยทั่วไป ระบบการให้เหตุผลจะพิจารณาคำตอบที่เป็นไปได้ทั้งหมดสำหรับคำถามนั้น ซึ่งคล้ายกับนักเรียนชั้นประถมศึกษาที่เขียนตัวเลือกมากมายลงบนกระดาษก่อนที่จะเลือกวิธีแก้ปัญหาทางคณิตศาสตร์ที่เหมาะสมที่สุด

จากรายงานของ นิวยอร์กไทมส์ ปัญญาประดิษฐ์ (AI) ในปัจจุบันสามารถใช้เหตุผลได้ในเกือบทุกหัวข้อ อย่างไรก็ตาม AI จะมีประสิทธิภาพมากที่สุดกับคำถามที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์

ระบบทฤษฎีได้รับการฝึกฝนอย่างไร?

ในแชทบอททั่วไป ผู้ใช้ยังสามารถขอคำอธิบายเกี่ยวกับกระบวนการหรือตรวจสอบความถูกต้องของคำตอบได้ ที่จริงแล้ว ชุดข้อมูลฝึกฝนของ ChatGPT จำนวนมากมีขั้นตอนการแก้ปัญหาอยู่แล้ว

ระบบการให้เหตุผลจะยิ่งล้ำหน้าขึ้นไปอีกเมื่อสามารถดำเนินการได้โดยไม่ต้องมีการป้อนข้อมูลจากผู้ใช้ กระบวนการนี้มีความซับซ้อนและครอบคลุมมากขึ้น บริษัทต่างๆ ใช้คำว่า "การให้เหตุผล" เพราะระบบทำงานคล้ายคลึงกับวิธีการคิดของมนุษย์

หลายบริษัท เช่น OpenAI คาดหวังว่าระบบการให้เหตุผลจะเป็นทางออกที่ดีที่สุดสำหรับการพัฒนาแชทบอทที่มีอยู่ในปัจจุบัน เป็นเวลานานแล้วที่พวกเขาเชื่อว่าแชทบอทจะทำงานได้ดีขึ้นเมื่อได้รับการฝึกฝนด้วยข้อมูลจากอินเทอร์เน็ตมากขึ้น

ภายในปี 2024 ระบบ AI จะใช้ข้อความเกือบทั้งหมดที่มีอยู่บนอินเทอร์เน็ต ซึ่งหมายความว่าบริษัทต่างๆ จำเป็นต้องหาวิธีแก้ปัญหาใหม่ๆ เพื่อยกระดับแชทบอท รวมถึงระบบการให้เหตุผลด้วย

AI ly luan, OpenAI o1 va ChatGPT, mo hinh ly luan, tri tue nhan tao anh 2

บริษัทสตาร์ทอัพ DeepSeek เคยสร้างความฮือฮาด้วยโมเดลการให้เหตุผลที่มีต้นทุนต่ำกว่า OpenAI ภาพ: Bloomberg

ตั้งแต่ปีที่แล้ว บริษัทต่างๆ เช่น OpenAI ได้ให้ความสำคัญกับเทคนิคการเรียนรู้แบบเสริมแรง (reinforcement learning) กระบวนการนี้โดยทั่วไปใช้เวลาหลายเดือน ซึ่งในระหว่างนั้น AI จะเรียนรู้พฤติกรรมผ่านการลองผิดลองถูก

ตัวอย่างเช่น ด้วยการแก้ปัญหาหลายพันข้อ ระบบสามารถระบุวิธีการที่ดีที่สุดในการหาคำตอบที่ถูกต้องได้ จากนั้น นักวิจัยจะสร้างกลไกการป้อนกลับที่ซับซ้อนซึ่งช่วยให้ระบบสามารถแยกแยะระหว่างคำตอบที่ถูกต้องและไม่ถูกต้องได้

"มันคล้ายกับการฝึกสุนัข ถ้ามันทำงานได้ดี คุณก็ให้รางวัลมัน แต่ถ้าไม่ดี คุณก็บอกว่า 'สุนัขตัวนั้นดื้อ'" เจอร์รี ทวอเร็ก นักวิจัยจาก OpenAI กล่าว

ปัญญาประดิษฐ์คืออนาคตหรือไม่?

จากรายงานของ หนังสือพิมพ์นิวยอร์กไทมส์ เทคนิคการเรียนรู้แบบเสริมแรงมีประสิทธิภาพเมื่อนำไปใช้กับความต้องการในด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ ซึ่งเป็นสาขาที่สามารถกำหนดคำตอบที่ถูกต้องหรือผิดได้อย่างชัดเจน

ในทางกลับกัน การเรียนรู้แบบเสริมแรงนั้นไม่มีประสิทธิภาพในด้านการเขียน ปรัชญา หรือจริยธรรม ซึ่งเป็นสาขาที่การแยกแยะระหว่างดีและไม่ดีเป็นเรื่องยาก อย่างไรก็ตาม นักวิจัยยืนยันว่าเทคนิคนี้ยังคงสามารถปรับปรุงประสิทธิภาพของ AI ได้ แม้แต่กับคำถามที่ไม่เกี่ยวข้องกับคณิตศาสตร์ก็ตาม

"ระบบจะเรียนรู้เส้นทางที่นำไปสู่ผลลัพธ์ทั้งเชิงบวกและเชิงลบ" จาเร็ด แคปแลน หัวหน้าเจ้าหน้าที่วิทยาศาสตร์ของ Anthropic กล่าว

AI ly luan, OpenAI o1 va ChatGPT, mo hinh ly luan, tri tue nhan tao anh 3

เว็บไซต์ของ Anthropic สตาร์ทอัพที่เป็นเจ้าของโมเดล AI Claude ภาพ: Bloomberg

สิ่งสำคัญที่ควรทราบคือ การเรียนรู้แบบเสริมแรงและระบบการให้เหตุผลเป็นสองแนวคิดที่แตกต่างกัน โดยเฉพาะอย่างยิ่ง การเรียนรู้แบบเสริมแรงเป็นวิธีการสร้างระบบการให้เหตุผล ซึ่งเป็นขั้นตอนการฝึกอบรมขั้นสุดท้ายเพื่อให้แชทบอทสามารถใช้เหตุผลได้

เนื่องจากเทคโนโลยีนี้ยังค่อนข้างใหม่ นักวิทยาศาสตร์จึงยังไม่แน่ใจว่าการให้เหตุผลของแชทบอทหรือการเรียนรู้แบบเสริมแรงจะช่วยให้ AI คิดเหมือนมนุษย์ได้หรือไม่ ควรสังเกตว่าแนวโน้มการฝึกอบรม AI ในปัจจุบันหลายอย่างพัฒนาไปอย่างรวดเร็วในช่วงเริ่มต้น แล้วค่อยๆ ชะลอตัวลงในภายหลัง

นอกจากนี้ การให้เหตุผลของแชทบอทยังคงอาจผิดพลาดได้ โดยระบบจะเลือกกระบวนการที่คล้ายคลึงกับข้อมูลที่เรียนรู้มามากที่สุดโดยอาศัยหลักความน่าจะเป็น ไม่ว่าจะเป็นข้อมูลจากอินเทอร์เน็ตหรือการเรียนรู้แบบเสริมแรง ดังนั้น แชทบอทจึงยังคงสามารถเลือกวิธีแก้ปัญหาที่ไม่ถูกต้องหรือไม่สมเหตุสมผลได้

ที่มา: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html