AI กำลังประเมินมนุษย์อย่างลับๆ

แทนที่มนุษย์จะประเมิน AI เหมือนแต่ก่อน Anthropic ได้เปลี่ยนกระบวนการใหม่ โดย Claude จะวิเคราะห์ประวัติการแชทของผู้ใช้เพื่อให้คะแนน "ระดับ" การใช้งาน AI ของพวกเขา

ZNews•31/05/2026

Chabot Claude ประเมินความชำนาญของผู้ใช้โดยพิจารณาจากปฏิสัมพันธ์ต่างๆ ภาพ: VectorStock

งานวิจัยล่าสุดของ Anthropic ที่มีชื่อว่า "ดัชนีความเชี่ยวชาญด้าน AI" ได้พลิกโฉมความคิดเดิมๆ โดยให้แชทบอท Claude ประเมินความสามารถของมนุษย์ ด้วยการวิเคราะห์โครงสร้างของการสนทนา AI จะจัดอันดับความเชี่ยวชาญของผู้ใช้ในระดับ 11 ระดับ

เพื่อพัฒนาโครงร่างความสามารถซึ่งประกอบด้วยมาตรฐาน 24 ข้อ Anthropic ได้ใช้เครื่องมือวิเคราะห์เพื่อสแกนบทสนทนาของผู้ใช้จริงจำนวน 9,830 ครั้ง

ในจำนวนนี้ 13 เกณฑ์เกิดขึ้นภายนอกหน้าจอ เช่น ผู้ใช้ปกปิดการใช้งาน AI จากผู้บังคับบัญชาหรือไม่ ส่วนอีก 11 เกณฑ์ที่เหลือเป็นตัวชี้วัดพฤติกรรมผู้ใช้ ซึ่งแบ่งออกเป็น 3 ด้านหลัก ได้แก่ คำอธิบาย การอนุญาต และการระบุตัวตน

ความถี่ของการปรากฏของตัวบ่งชี้พฤติกรรมแต่ละอย่างในการโต้ตอบกับ AI จากการสนทนาทั้งหมด 9,830 ครั้งกับ Claude ภาพ: Anthropic

ประการแรก คือวิธีการอธิบายคำขอ ซึ่งผู้ใช้ต้องแสดงให้เห็นถึงความเข้าใจอย่างแท้จริงในสิ่งที่ตนต้องการ แทนที่จะให้คำสั่งคลุมเครือ ผู้ที่มีคะแนนสูงจะระบุเป้าหมายสุดท้ายอย่างชัดเจนและอธิบายบริบทโดยละเอียด พวกเขายังให้ข้อกำหนดที่เฉพาะเจาะจงมากเกี่ยวกับรูปแบบการนำเสนอ เช่น ขอให้ AI สร้างตารางหรือจำกัดจำนวนคำ ที่น่าสังเกตคือ กลุ่มนี้มักจะแนบตัวอย่างเรียงความหลายฉบับเพื่อให้ AI "เลียนแบบ" รูปแบบที่ถูกต้องตั้งแต่เริ่มต้น

แง่มุมที่สองคือวิธีการมอบหมายงาน การวิจัยแสดงให้เห็นว่าผู้ใช้ที่มีทักษะจะปฏิบัติต่อ AI ในฐานะคู่สนทนา ไม่ใช่เครื่องจักรที่ไร้ความคิด ความแตกต่างที่สำคัญที่สุดอยู่ที่ความต่อเนื่อง แทนที่จะออกคำสั่งเพียงครั้งเดียว พวกเขาจะสนทนาโต้ตอบกันหลายรอบเพื่อปรับปรุงและให้ AI แก้ไขคำตอบจนกว่าพวกเขาจะพอใจอย่างสมบูรณ์ พฤติกรรมนี้เกิดขึ้นในบทสนทนาที่มีคุณภาพสูงถึง 85.7%

องค์ประกอบสุดท้ายคือการจดจำ ซึ่งทำหน้าที่เป็นตัวกรองเพื่อป้องกันไม่ให้มนุษย์ถูกหลอกลวงด้วยข้อมูลที่ได้รับจากแชทบอท ผู้ใช้จำเป็นต้องตั้งคำถามเกี่ยวกับตรรกะของการให้เหตุผลอย่างต่อเนื่อง ขอให้ AI อธิบายโค้ดแต่ละบรรทัด หรือขออ้างอิงที่ชัดเจน พวกเขายังต้องมีความสามารถในการสังเกตเพื่อระบุบริบทที่ขาดหายไปในคำตอบของ AI เพื่อทำการประเมินและปรับเปลี่ยนข้อสรุปได้อย่างทันท่วงที

โดยทั่วไปผู้ใช้งานที่มีประสบการณ์จะได้รับคะแนนประมาณ 7-8 จาก Clade ภาพ: X.

อย่างไรก็ตาม งานวิจัยยังชี้ให้เห็นถึงกับดักทางจิตวิทยาที่น่ากังวล ซึ่งรู้จักกันในชื่อ "ปรากฏการณ์ความขัดแย้งของอินเทอร์เฟซที่สวยงาม" เมื่อฟีเจอร์ Artifacts ของ Claude สร้างผลิตภัณฑ์ที่ดึงดูดสายตา เช่น โค้ดที่ลื่นไหล หรือไดอะแกรมที่สมบูรณ์แบบ สมองของเรามักจะกลายเป็น "นักคิดที่เกียจคร้าน" และหยุดการคิดเชิงวิพากษ์ทันที

สถิติจากการศึกษาแสดงให้เห็นว่า เมื่อผู้ใช้เห็นอินเทอร์เฟซที่ได้รับการออกแบบอย่างสวยงาม เปอร์เซ็นต์ของผู้ใช้ที่พยายามค้นหาข้อบกพร่องจะลดลงทันที 5.2% ความสามารถในการตรวจสอบความถูกต้องของข้อมูลก็ลดลง 3.7% และเปอร์เซ็นต์ของผู้ที่ตั้งข้อสงสัยในตรรกะของข้อมูลลดลง 3.1%

ผู้เชี่ยวชาญจาก Anthropic ตั้งข้อสังเกตว่า "หากสิ่งใดดูสมบูรณ์แบบ ผู้ใช้จะสันนิษฐานโดยอัตโนมัติว่ามันถูกต้อง"

วิธีการประเมินแบบอัตวิสัยนี้อันตรายอย่างยิ่ง ที่จริงแล้ว ยิ่งงานซับซ้อนมากเท่าไหร่ โอกาสที่ AI จะทำผิดพลาดหรือ "สร้างข้อมูลเท็จ" ก็ยิ่งสูงขึ้นเท่านั้น หากมนุษย์ตัดสินคุณภาพภายในจากรูปลักษณ์ภายนอกเพียงอย่างเดียว เราจะถูก AI หลอกได้ง่ายมาก

จากรายงานระบุว่า ผู้ที่มักมีส่วนร่วมในการสนทนาโต้ตอบและชี้ให้เห็นข้อบกพร่องของ AI จะได้รับการประเมินคะแนนสูงกว่าผู้ใช้ทั่วไปถึง 5-6 เท่า นอกจากนี้ พวกเขายังมีแนวโน้มที่จะพบข้อบกพร่องและความไม่สอดคล้องกันได้มากกว่าผู้ใช้กลุ่มอื่นๆ โดยทั่วไปแล้ว "ผู้เชี่ยวชาญ" เหล่านี้จะได้รับคะแนนประมาณ 7-8/11 จาก Claude

ที่มา: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html