จุดอ่อนร้ายแรงของ AI

ผลการวิจัยชี้ให้เห็นว่า แม้จะมีการกล่าวอ้างอย่างมั่นใจเกี่ยวกับความสามารถในการเขียนโปรแกรมของ AI แต่การจัดการข้อผิดพลาดก็ยังคงเป็นด้านที่มนุษย์ทำได้ดีกว่า

ZNews•12/04/2025

ปัญญาประดิษฐ์ยังไม่สามารถทดแทนมนุษย์ในด้านการเขียนโปรแกรมได้ ภาพ: จอห์น แม็กไกวร์

ในปัจจุบัน โมเดล AI ชั้นนำจาก OpenAI และ Anthropic ถูกนำมาใช้ในแอปพลิเคชันการเขียนโปรแกรมมากขึ้นเรื่อยๆ ChatGPT และ Claude มีหน่วยความจำและพลังการประมวลผลที่เพิ่มขึ้นเพื่อวิเคราะห์โค้ดหลายร้อยบรรทัด ในขณะที่ Gemini ผสานรวมคุณสมบัติการแสดงผลลัพธ์บน Canvas โดยเฉพาะสำหรับโปรแกรมเมอร์

ในเดือนตุลาคม 2024 ซุนดาร์ พิชัย ซีอีโอของ Google กล่าวว่า 25% ของโค้ดใหม่ของบริษัทถูกสร้างขึ้นโดย AI มาร์ค ซักเคอร์เบิร์ก ซีอีโอของ Meta ก็แสดงความตั้งใจที่จะนำโมเดลการเขียนโค้ด AI มาใช้ในวงกว้างภายในองค์กรเช่นกัน

อย่างไรก็ตาม การศึกษาใหม่จาก Microsoft Research ซึ่งเป็นแผนกวิจัยและพัฒนาของ Microsoft แสดงให้เห็นว่าโมเดล AI รวมถึง Claude 3.7 Sonnet ของ Anthropic และ o3-mini ของ OpenAI ไม่สามารถจัดการกับข้อผิดพลาดจำนวนมากในเกณฑ์มาตรฐานการเขียนโปรแกรมที่เรียกว่า SWE-bench Lite ได้

ผู้เขียนงานวิจัยได้ตรวจสอบโมเดล AI ที่แตกต่างกัน 9 แบบ ซึ่งรวมเอาเครื่องมือแก้ไขข้อบกพร่องต่างๆ เช่น ดีบักเกอร์ Python และสามารถจัดการปัญหาได้ด้วยคำสั่งเดียว โดยโมเดลเหล่านี้ได้รับมอบหมายให้แก้ไขข้อบกพร่องของซอฟต์แวร์ 300 ข้อที่คัดเลือกมาจากชุดข้อมูล SWE-bench Lite

อัตราความสำเร็จในการแก้ปัญหาการเขียนโปรแกรมจากชุดข้อมูล SWE-bench Lite ภาพ: ไมโครซอฟต์

แม้จะติดตั้งโมเดลที่ทรงพลังและใหม่กว่า ผลลัพธ์ก็แสดงให้เห็นว่าเอเจนต์ AI แทบจะไม่สามารถทำงานแก้ไขข้อผิดพลาดที่ได้รับมอบหมายได้สำเร็จเกินครึ่งหนึ่ง ในบรรดาโมเดลที่ทดสอบ Claude 3.7 Sonnet มีอัตราความสำเร็จเฉลี่ยสูงสุดที่ 48.4% ตามด้วย OpenAI o1 ที่ 30.2% และ o3-mini ที่ 22.1%

สาเหตุบางประการที่ทำให้ประสิทธิภาพการทำงานต่ำดังที่กล่าวมาข้างต้น ได้แก่ โมเดลบางรุ่นไม่เข้าใจวิธีการใช้งานเครื่องมือแก้ไขข้อผิดพลาดที่ให้มา นอกจากนี้ ผู้เขียนยังระบุว่าปัญหาที่ใหญ่กว่านั้นคือการขาดข้อมูลที่เพียงพอ

พวกเขาโต้แย้งว่าระบบฝึกฝนโมเดลยังขาดข้อมูลที่จำลองขั้นตอนการแก้ไขข้อผิดพลาดที่มนุษย์ดำเนินการตั้งแต่ต้นจนจบ กล่าวอีกนัยหนึ่งคือ AI ยังเรียนรู้ไม่เพียงพอเกี่ยวกับวิธีคิดและการกระทำของมนุษย์ทีละขั้นตอนเมื่อต้องรับมือกับข้อผิดพลาดของซอฟต์แวร์ในโลกแห่งความเป็นจริง

การฝึกฝนและปรับปรุงโมเดลจะช่วยให้โมเดลมีความเชี่ยวชาญมากขึ้นในการแก้ไขข้อบกพร่องของซอฟต์แวร์ "อย่างไรก็ตาม นี่จะต้องใช้ชุดข้อมูลเฉพาะสำหรับการฝึกฝน" ผู้เขียนกล่าว

งานวิจัยจำนวนมากชี้ให้เห็นถึงช่องโหว่ด้านความปลอดภัยและข้อผิดพลาดใน AI ระหว่างการสร้างโค้ด เนื่องมาจากจุดอ่อนต่างๆ เช่น ความเข้าใจตรรกะการเขียนโปรแกรมที่จำกัด การตรวจสอบล่าสุดของ Devin ซึ่งเป็นเครื่องมือเขียนโปรแกรมที่ใช้ AI พบว่ามันทำแบบทดสอบการเขียนโปรแกรมสำเร็จเพียง 3 ใน 20 รายการเท่านั้น

ความสามารถในการเขียนโปรแกรมของ AI ยังคงเป็นหัวข้อถกเถียงกันอย่างมาก ก่อนหน้านี้ เควิน ไวล์ ผู้อำนวยการฝ่ายผลิตภัณฑ์ของ OpenAI เคยกล่าวว่าภายในสิ้นปีนี้ AI จะแซงหน้าโปรแกรมเมอร์ที่เป็นมนุษย์ได้

ในทางกลับกัน บิล เกตส์ ผู้ร่วมก่อตั้งไมโครซอฟต์ เชื่อว่าการเขียนโปรแกรมจะยังคงเป็นอาชีพที่ยั่งยืนในอนาคต ผู้นำคนอื่นๆ เช่น อัมจาด มาซาด (ซีอีโอของ Replit), ท็อด แมคคินนอน (ซีอีโอของ Okta) และอาร์วินด์ คริชนา (ซีอีโอของ IBM) ก็ได้แสดงการสนับสนุนมุมมองนี้เช่นกัน

งานวิจัยของไมโครซอฟต์ แม้จะไม่ใช่เรื่องใหม่ แต่ก็เป็นเครื่องเตือนใจสำหรับโปรแกรมเมอร์ รวมถึงผู้จัดการ ให้คิดให้รอบคอบมากขึ้นก่อนที่จะมอบอำนาจการเขียนโค้ดทั้งหมดให้กับ AI

ที่มา: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html