AI ยังไม่สามารถแทนที่มนุษย์ในการเขียนโปรแกรมได้ ภาพ: John McGuire |
ในช่วงไม่กี่ปีที่ผ่านมา โมเดล AI ชั้นนำจาก OpenAI และ Anthropic ถูกนำมาใช้มากขึ้นในแอปพลิเคชันการเขียนโปรแกรม ChatGPT และ Claude ได้เพิ่มหน่วยความจำและพลังการประมวลผลเพื่อให้สามารถวิเคราะห์โค้ดหลายร้อยบรรทัดได้ หรือ Gemini ได้ผสานรวมการแสดงผล Canvas สำหรับโปรแกรมเมอร์โดยเฉพาะ
ในเดือนตุลาคม 2567 ซุนดาร์ พิชัย ซีอีโอของ Google กล่าวว่า 25% ของโค้ดใหม่ของบริษัทจะถูกสร้างขึ้นโดย AI มาร์ก ซักเคอร์เบิร์ก ซีอีโอของ Meta ก็ได้แสดงความทะเยอทะยานที่จะนำโมเดลการเขียนโค้ด AI มาใช้อย่างแพร่หลายภายในบริษัท
อย่างไรก็ตาม การศึกษาวิจัยใหม่จาก Microsoft Research ซึ่งเป็นแผนก R&D ของ Microsoft แสดงให้เห็นว่าโมเดล AI รวมถึง Claude 3.7 Sonnet ของ Anthropic และ o3-mini ของ OpenAI ไม่สามารถจัดการกับข้อผิดพลาดจำนวนมากในเกณฑ์มาตรฐานการทดสอบการเขียนโปรแกรมที่เรียกว่า SWE-bench Lite ได้
ผู้เขียนงานวิจัยได้ทดสอบโมเดล AI ที่แตกต่างกันเก้าโมเดล ซึ่งผสานรวมกับเครื่องมือแก้จุดบกพร่องที่หลากหลาย เช่น Python debugger และสามารถแก้ปัญหาได้ในคำสั่งเดียว โมเดลเหล่านี้ได้รับมอบหมายให้แก้จุดบกพร่องของซอฟต์แวร์ 300 รายการ ซึ่งเลือกมาจากชุดข้อมูล SWE-bench Lite
![]() |
อัตราความสำเร็จในการแก้ปัญหาการเขียนโปรแกรมจากชุดข้อมูล SWE-bench Lite ภาพ: Microsoft |
แม้จะติดตั้งโมเดลใหม่ที่มีประสิทธิภาพมากขึ้น ผลลัพธ์ก็แสดงให้เห็นว่าเอเจนต์ AI แทบจะไม่สามารถทำงานดีบักที่ได้รับมอบหมายได้สำเร็จเกินครึ่งหนึ่ง ในบรรดาโมเดลที่ทดสอบ Claude 3.7 Sonnet มีอัตราความสำเร็จเฉลี่ยสูงสุดที่ 48.4% ตามมาด้วย o1 ของ OpenAI ที่ 30.2% และ o3-mini ที่ 22.1%
สาเหตุบางประการที่ทำให้ประสิทธิภาพต่ำเช่นนี้ ได้แก่ โมเดลบางรุ่นไม่เข้าใจวิธีการใช้เครื่องมือแก้จุดบกพร่องที่ให้มา นอกจากนี้ ผู้เขียนยังระบุอีกว่า ปัญหาที่ใหญ่กว่านั้นอยู่ที่ข้อมูลไม่เพียงพอ
พวกเขาโต้แย้งว่าระบบที่ฝึกโมเดลยังขาดข้อมูลที่จำลองขั้นตอนการดีบักที่มนุษย์ทำตั้งแต่ต้นจนจบ กล่าวอีกนัยหนึ่งคือ AI ยังเรียนรู้ไม่เพียงพอเกี่ยวกับวิธีที่มนุษย์คิดและปฏิบัติทีละขั้นตอนเมื่อต้องรับมือกับบั๊กซอฟต์แวร์จริง
การฝึกอบรมและปรับแต่งโมเดลจะช่วยให้ดีบักซอฟต์แวร์ได้ดีขึ้น “อย่างไรก็ตาม สิ่งนี้จำเป็นต้องใช้ชุดข้อมูลการฝึกอบรมเฉพาะทาง” ผู้เขียนกล่าว
มีงานวิจัยจำนวนมากที่ชี้ให้เห็นถึงช่องโหว่ด้านความปลอดภัยและข้อผิดพลาดในการสร้างโค้ด AI อันเนื่องมาจากจุดอ่อนต่างๆ เช่น ความสามารถในการเข้าใจตรรกะการเขียนโปรแกรมที่จำกัด การตรวจสอบ Devin ซึ่งเป็นเครื่องมือการเขียนโปรแกรม AI ล่าสุดพบว่ามีการทดสอบการเขียนโปรแกรมเพียง 3 ครั้งจากทั้งหมด 20 ครั้ง
ความสามารถในการเขียนโปรแกรมของ AI ยังคงเป็นที่ถกเถียงกัน ก่อนหน้านี้ คุณเควิน ไวล์ ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ OpenAI เคยกล่าวไว้ว่าภายในสิ้นปีนี้ AI จะแซงหน้าโปรแกรมเมอร์ที่เป็นมนุษย์
ในทางกลับกัน บิล เกตส์ ผู้ร่วมก่อตั้งไมโครซอฟท์ เชื่อว่าการเขียนโปรแกรมยังคงเป็นอาชีพที่ยั่งยืนในอนาคต ผู้นำคนอื่นๆ เช่น อัมจาด มาซาด (ซีอีโอของ Replit), ท็อดด์ แมคคินนอน (ซีอีโอของ Okta) และอาร์วินด์ กฤษณะ (ซีอีโอของ IBM) ต่างก็แสดงการสนับสนุนแนวคิดนี้เช่นกัน
แม้ว่าการวิจัยของ Microsoft จะไม่ใช่เรื่องใหม่ แต่ก็เป็นการเตือนใจโปรแกรมเมอร์ รวมถึงผู้จัดการ ให้คิดให้รอบคอบมากขึ้นก่อนที่จะมอบการควบคุมการเขียนโค้ดเต็มรูปแบบให้กับ AI
ที่มา: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html
การแสดงความคิดเห็น (0)