هوش مصنوعی مخفیانه در حال رتبه‌بندی انسان‌ها است.

به جای اینکه انسان‌ها مانند گذشته هوش مصنوعی را ارزیابی کنند، آنتروپیک این فرآیند را معکوس کرده است. کلود تاریخچه چت کاربران را تجزیه و تحلیل خواهد کرد تا "سطح" استفاده آنها از هوش مصنوعی را ارزیابی کند.

ZNews•31/05/2026

چابوت کلود بر اساس تعاملات، مهارت کاربر را ارزیابی می‌کند. تصویر: VectorStock .

آخرین تحقیق آنتروپیک با عنوان «شاخص تسلط هوش مصنوعی»، با وادار کردن چت‌بات کلود به ارزیابی انسان‌ها، دیدگاه مرسوم را تغییر داده است. این هوش مصنوعی با تجزیه و تحلیل ساختار مکالمات، مهارت کاربران را در مقیاسی ۱۱ امتیازی رتبه‌بندی می‌کند.

برای توسعه چارچوب شایستگی شامل ۲۴ استاندارد، شرکت آنتروپیک از ابزارهای تحلیلی برای بررسی ۹۸۳۰ مکالمه واقعی کاربران استفاده کرد.

از این تعداد، ۱۳ معیار در خارج از صفحه نمایش رخ می‌دهد، مانند اینکه آیا کاربران استفاده از هوش مصنوعی خود را از مافوق‌هایشان پنهان می‌کنند یا خیر. ۱۱ معیار باقی‌مانده، معیارهای رفتار کاربر هستند که به سه جنبه اصلی تقسیم می‌شوند: شرح، مجوز و شناسایی.

شیوع هر شاخص رفتاری در تعاملات هوش مصنوعی در ۹۸۳۰ مکالمه با کلود. تصویر: آنتروپیک.

اول، نحوه‌ی توصیف درخواست است، که در آن کاربران باید درک واقعی از آنچه می‌خواهند را نشان دهند. به جای دادن دستورات مبهم، افراد با امتیاز بالا همیشه هدف نهایی را به وضوح بیان می‌کنند و زمینه را با جزئیات توضیح می‌دهند. آنها همچنین الزامات بسیار خاصی در مورد سبک ارائه ارائه می‌دهند، مانند درخواست از هوش مصنوعی برای ایجاد جداول یا محدود کردن تعداد کلمات. نکته‌ی قابل توجه این است که این گروه اغلب شامل چندین مقاله‌ی نمونه به عنوان نمونه برای هوش مصنوعی است تا از همان ابتدا سبک صحیح را "تقلید" کند.

جنبه دوم، نحوه واگذاری وظایف است. تحقیقات نشان می‌دهد که کاربران ماهر، هوش مصنوعی را به عنوان یک شریک بحث در نظر می‌گیرند، نه یک ماشین بی‌مغز. بزرگترین تفاوت در پشتکار نهفته است. آنها به جای اینکه یک بار برای همیشه دستوری بدهند، در چندین دور مکالمه‌های رفت و برگشتی شرکت می‌کنند تا هوش مصنوعی پاسخ‌های خود را اصلاح کند و تا زمانی که کاملاً راضی شوند، آنها را اصلاح کند. این رفتار در ۸۵.۷٪ از مکالمات با کیفیت بالا رخ می‌دهد.

جنبه آخر، تشخیص است که به عنوان فیلتری برای جلوگیری از گمراه شدن انسان‌ها توسط اطلاعات ارائه شده توسط چت‌بات‌ها عمل می‌کند. کاربران باید دائماً منطق استدلال را زیر سوال ببرند، از هوش مصنوعی بخواهند هر خط کد را توضیح دهد یا درخواست استنادهای واضح کنند. آنها همچنین باید به اندازه کافی تیزبین باشند تا زمینه‌های از دست رفته در راه‌حل هوش مصنوعی را شناسایی کنند تا بتوانند ارزیابی‌ها و تنظیمات به موقع را در نتیجه‌گیری‌ها انجام دهند.

کاربران باتجربه معمولاً امتیازی حدود ۷-۸ از Clade دریافت می‌کنند. عکس: X.

با این حال، این تحقیق همچنین به یک تله روانشناختی نگران‌کننده اشاره می‌کند که به عنوان «پارادوکس رابط کاربری زیبا» شناخته می‌شود. وقتی ویژگی Artifacts کلود، محصولات بصری جذابی مانند یک قطعه کد روان یا یک نمودار بی‌نقص ایجاد می‌کند، مغز ما بلافاصله تمایل به تبدیل شدن به «متفکران تنبل» و توقف تفکر انتقادی دارد.

آمار این مطالعه نشان می‌دهد که وقتی کاربران یک رابط کاربری بی‌نقص را می‌بینند، درصد جستجوی فعال آنها برای یافتن نقص‌ها بلافاصله ۵.۲٪ کاهش می‌یابد. توانایی تأیید صحت اطلاعات نیز ۳.۷٪ کاهش می‌یابد و درصد کسانی که به منطق آن شک دارند ۳.۱٪ کاهش می‌یابد.

متخصصان آنتروپیک خاطرنشان کردند: «اگر چیزی بی‌نقص به نظر برسد، کاربران به‌طور خودکار فرض می‌کنند که آن درست است.»

این رویکرد ذهنی بسیار خطرناک است. در واقع، هر چه وظیفه پیچیده‌تر باشد، احتمال اینکه هوش مصنوعی اشتباه کند یا اطلاعات را «جعل» کند، بیشتر می‌شود. اگر انسان‌ها کیفیت داخلی را صرفاً بر اساس ظاهر قضاوت کنند، خیلی راحت فریب هوش مصنوعی را خواهیم خورد.

طبق این گزارش، کسانی که مرتباً در مکالمات متقابل شرکت می‌کنند و به نقص‌های هوش مصنوعی اشاره می‌کنند، ۵ تا ۶ برابر بیشتر از کاربران معمولی امتیاز می‌گیرند. آنها همچنین در مقایسه با بقیه گروه کاربران، احتمال بیشتری دارد که کاستی‌ها و تناقضات را تشخیص دهند. این "متخصصان" معمولاً از کلود امتیازی حدود ۷ تا ۸ از ۱۱ می‌گیرند.

منبع: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html