แชทบอทของ OpenAI ได้รับการพัฒนาอย่างต่อเนื่องด้วยเทคโนโลยีใหม่ๆ ภาพ: New York Times |
ในเดือนกันยายน พ.ศ. 2567 OpenAI ได้เปิดตัว ChatGPT เวอร์ชันที่บูรณาการโมเดล o1 ซึ่งสามารถให้เหตุผลในงานที่เกี่ยวข้องกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ได้
ต่างจาก ChatGPT เวอร์ชันก่อนหน้า เทคโนโลยีใหม่จะใช้เวลา "คิด" หาทางแก้ปัญหาที่ซับซ้อนก่อนที่จะตอบกลับ
หลังจาก OpenAI คู่แข่งหลายราย เช่น Google, Anthropic และ DeepSeek ก็ได้นำเสนอโมเดลการใช้เหตุผลที่คล้ายกันนี้ ถึงแม้จะไม่สมบูรณ์แบบ แต่ก็ยังคงเป็นเทคโนโลยีเพิ่มประสิทธิภาพแชทบอทที่นักพัฒนาจำนวนมากให้ความไว้วางใจ
AI ให้เหตุผลอย่างไร
โดยพื้นฐานแล้ว การใช้เหตุผลหมายถึงการที่แชทบอทสามารถใช้เวลาในการแก้ไขปัญหาที่ผู้ใช้เสนอได้มากขึ้น
“การใช้เหตุผลคือวิธีที่ระบบทำงานเพิ่มเติมหลังจากได้รับคำถาม” Dan Klein ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยแคลิฟอร์เนียกล่าวกับ นิวยอร์กไทมส์
ระบบการใช้เหตุผลสามารถแบ่งปัญหาออกเป็นขั้นตอนแต่ละขั้นตอน หรือแก้ปัญหาด้วยการลองผิดลองถูก
เมื่อเปิดตัวครั้งแรก ChatGPT สามารถตอบคำถามได้ทันทีโดยการดึงและสังเคราะห์ข้อมูล ในขณะเดียวกัน ระบบการให้เหตุผลก็ต้องใช้เวลาอีกสองสามวินาที (หรือหลายนาที) เพื่อแก้ปัญหาและให้คำตอบ
![]() |
ตัวอย่างกระบวนการคิดเชิงเหตุผลของโมเดล o1 ในแชทบอทฝ่ายบริการลูกค้า ภาพ: OpenAI |
ในบางกรณี ระบบการใช้เหตุผลจะเปลี่ยนวิธีการแก้ปัญหา เพื่อปรับปรุงวิธีแก้ปัญหาอย่างต่อเนื่อง อีกทางเลือกหนึ่งคือ แบบจำลองอาจลองวิธีแก้ปัญหาหลาย ๆ วิธีก่อนที่จะตัดสินใจเลือกวิธีที่เหมาะสมที่สุด หรือทดสอบความแม่นยำของคำตอบก่อนหน้า
โดยทั่วไป ระบบการใช้เหตุผลจะพิจารณาคำตอบที่เป็นไปได้ทั้งหมดสำหรับคำถามนั้น เปรียบเสมือนนักเรียนชั้นประถมศึกษาที่เขียนคำตอบที่เป็นไปได้ทั้งหมดลงบนกระดาษ ก่อนที่จะเลือกวิธีที่เหมาะสมที่สุดในการแก้ปัญหาคณิตศาสตร์
นิวยอร์กไทมส์ รายงานว่า ปัจจุบัน AI สามารถให้เหตุผลเกี่ยวกับหัวข้อใดก็ได้ อย่างไรก็ตาม การทำงานนี้จะมีประสิทธิภาพสูงสุดเมื่อมีคำถามเกี่ยวกับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์
ระบบทฤษฎีได้รับการฝึกอบรมอย่างไร?
ในแชทบอททั่วไป ผู้ใช้ยังคงสามารถขอคำอธิบายเกี่ยวกับกระบวนการหรือตรวจสอบความถูกต้องของคำตอบได้ อันที่จริง ชุดข้อมูลการฝึก ChatGPT หลายชุดมีกระบวนการแก้ไขปัญหาอยู่แล้ว
ระบบการใช้เหตุผลจะยิ่งก้าวหน้าไปอีกเมื่อสามารถดำเนินการบางอย่างได้โดยที่ผู้ใช้ไม่ต้องสั่ง กระบวนการนี้มีความซับซ้อนและครอบคลุมมากขึ้น บริษัทต่างๆ ใช้คำว่า "การใช้เหตุผล" เพราะระบบทำงานในลักษณะเดียวกับการคิดของมนุษย์
บริษัทหลายแห่ง เช่น OpenAI ต่างเชื่อมั่นว่าระบบการให้เหตุผลเป็นวิธีที่ดีที่สุดในการพัฒนาแชทบอท หลายปีที่ผ่านมา พวกเขาเชื่อว่าแชทบอทจะทำงานได้ดีขึ้นหากได้รับการฝึกฝนจากข้อมูลบนอินเทอร์เน็ตให้ได้มากที่สุด
ภายในปี 2024 ระบบ AI จะกินพื้นที่เกือบทั้งหมดที่มีอยู่บนอินเทอร์เน็ต นั่นหมายความว่าบริษัทต่างๆ จะต้องค้นหาโซลูชันใหม่ๆ เพื่อยกระดับแชทบอท ซึ่งรวมถึงระบบการให้เหตุผลด้วย
![]() |
สตาร์ทอัพ DeepSeek เคย "สร้างความฮือฮา" ด้วยโมเดลการให้เหตุผลที่มีค่าใช้จ่ายน้อยกว่า OpenAI ภาพ: Bloomberg |
ตั้งแต่ปีที่แล้ว บริษัทต่างๆ เช่น OpenAI มุ่งเน้นไปที่เทคนิคที่เรียกว่าการเรียนรู้แบบเสริมแรง ซึ่งเป็นกระบวนการที่โดยทั่วไปใช้เวลาหลายเดือน โดย AI จะเรียนรู้พฤติกรรมผ่านการลองผิดลองถูก
ตัวอย่างเช่น การแก้ปัญหาหลายพันข้อทำให้ระบบสามารถเรียนรู้วิธีการที่เหมาะสมที่สุดในการได้รับคำตอบที่ถูกต้อง จากนั้น นักวิจัยจึงสร้างกลไกป้อนกลับที่ซับซ้อน ซึ่งช่วยให้ระบบเรียนรู้วิธีแก้ปัญหาที่ถูกต้องและผิด
“มันเหมือนกับการฝึกสุนัข ถ้ามันดี คุณก็ให้รางวัลมัน ถ้าไม่ดี คุณก็บอกว่า ‘สุนัขตัวนั้นไม่ดี’” เจอร์รี่ ทูเรก นักวิจัยจาก OpenAI กล่าว
AI คืออนาคตหรือเปล่า?
ตามที่ นิวยอร์กไทมส์รายงาน การเรียนรู้เชิงเสริมแรงใช้ได้ดีกับคำถามในทางคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมคอมพิวเตอร์ ซึ่งมีคำตอบที่ถูกหรือผิดที่กำหนดไว้อย่างชัดเจน
ในทางตรงกันข้าม การเรียนรู้แบบเสริมแรงไม่ได้ผลกับงานเขียนเชิงสร้างสรรค์ ปรัชญา หรือจริยธรรม ซึ่งเป็นสาขาที่ยากจะแยกแยะระหว่างสิ่งที่ดีและไม่ดี แต่นักวิจัยกล่าวว่าเทคนิคนี้ยังสามารถพัฒนาประสิทธิภาพของ AI ได้ แม้กระทั่งกับคำถามนอกเหนือจากคณิตศาสตร์
“ระบบจะเรียนรู้เส้นทางที่นำไปสู่ผลลัพธ์เชิงบวกและเชิงลบ” Jared Kaplan หัวหน้าฝ่ายวิทยาศาสตร์ของ Anthropic กล่าว
![]() |
เว็บไซต์ของ Anthropic สตาร์ทอัพเจ้าของโมเดล AI ชื่อ Claude ภาพ: Bloomberg |
สิ่งสำคัญที่ต้องทราบคือ การเรียนรู้แบบเสริมแรงและระบบการให้เหตุผลเป็นแนวคิดที่แตกต่างกัน กล่าวคือ การเรียนรู้แบบเสริมแรงเป็นวิธีการสร้างระบบการให้เหตุผล ซึ่งเป็นขั้นตอนสุดท้ายของการฝึกอบรมแชตบอตให้มีความสามารถในการใช้เหตุผล
เนื่องจากยังค่อนข้างใหม่ นักวิทยาศาสตร์จึงไม่แน่ใจว่าแชทบอทที่ใช้เหตุผลหรือการเรียนรู้แบบเสริมแรงจะช่วยให้ AI คิดได้เหมือนมนุษย์หรือไม่ สิ่งสำคัญที่ต้องทราบคือ แนวโน้มปัจจุบันหลายอย่างในการฝึกอบรม AI พัฒนาอย่างรวดเร็วในช่วงแรก จากนั้นก็ค่อยๆ คงที่
ยิ่งไปกว่านั้น แชทบอทที่ใช้เหตุผลก็ยังสามารถผิดพลาดได้ โดยพิจารณาจากความน่าจะเป็น ระบบจะเลือกกระบวนการที่ใกล้เคียงกับข้อมูลที่เรียนรู้มากที่สุด ไม่ว่าจะมาจากอินเทอร์เน็ตหรือผ่านการเรียนรู้แบบเสริมแรง ดังนั้น แชทบอทจึงยังคงสามารถเลือกวิธีการแก้ปัญหาที่ผิดหรือไม่สมเหตุสมผลได้
ที่มา: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html













การแสดงความคิดเห็น (0)