![]() |
چابوت کلود بر اساس تعاملات، مهارت کاربر را ارزیابی میکند. تصویر: VectorStock . |
آخرین تحقیق آنتروپیک با عنوان «شاخص تسلط هوش مصنوعی»، با وادار کردن چتبات کلود به ارزیابی انسانها، دیدگاه مرسوم را تغییر داده است. این هوش مصنوعی با تجزیه و تحلیل ساختار مکالمات، مهارت کاربران را در مقیاسی ۱۱ امتیازی رتبهبندی میکند.
برای توسعه چارچوب شایستگی شامل ۲۴ استاندارد، شرکت آنتروپیک از ابزارهای تحلیلی برای بررسی ۹۸۳۰ مکالمه واقعی کاربران استفاده کرد.
از این تعداد، ۱۳ معیار در خارج از صفحه نمایش رخ میدهد، مانند اینکه آیا کاربران استفاده از هوش مصنوعی خود را از مافوقهایشان پنهان میکنند یا خیر. ۱۱ معیار باقیمانده، معیارهای رفتار کاربر هستند که به سه جنبه اصلی تقسیم میشوند: شرح، مجوز و شناسایی.
![]() |
شیوع هر شاخص رفتاری در تعاملات هوش مصنوعی در ۹۸۳۰ مکالمه با کلود. تصویر: آنتروپیک. |
اول، نحوهی توصیف درخواست است، که در آن کاربران باید درک واقعی از آنچه میخواهند را نشان دهند. به جای دادن دستورات مبهم، افراد با امتیاز بالا همیشه هدف نهایی را به وضوح بیان میکنند و زمینه را با جزئیات توضیح میدهند. آنها همچنین الزامات بسیار خاصی در مورد سبک ارائه ارائه میدهند، مانند درخواست از هوش مصنوعی برای ایجاد جداول یا محدود کردن تعداد کلمات. نکتهی قابل توجه این است که این گروه اغلب شامل چندین مقالهی نمونه به عنوان نمونه برای هوش مصنوعی است تا از همان ابتدا سبک صحیح را "تقلید" کند.
جنبه دوم، نحوه واگذاری وظایف است. تحقیقات نشان میدهد که کاربران ماهر، هوش مصنوعی را به عنوان یک شریک بحث در نظر میگیرند، نه یک ماشین بیمغز. بزرگترین تفاوت در پشتکار نهفته است. آنها به جای اینکه یک بار برای همیشه دستوری بدهند، در چندین دور مکالمههای رفت و برگشتی شرکت میکنند تا هوش مصنوعی پاسخهای خود را اصلاح کند و تا زمانی که کاملاً راضی شوند، آنها را اصلاح کند. این رفتار در ۸۵.۷٪ از مکالمات با کیفیت بالا رخ میدهد.
جنبه آخر، تشخیص است که به عنوان فیلتری برای جلوگیری از گمراه شدن انسانها توسط اطلاعات ارائه شده توسط چتباتها عمل میکند. کاربران باید دائماً منطق استدلال را زیر سوال ببرند، از هوش مصنوعی بخواهند هر خط کد را توضیح دهد یا درخواست استنادهای واضح کنند. آنها همچنین باید به اندازه کافی تیزبین باشند تا زمینههای از دست رفته در راهحل هوش مصنوعی را شناسایی کنند تا بتوانند ارزیابیها و تنظیمات به موقع را در نتیجهگیریها انجام دهند.
![]() |
کاربران باتجربه معمولاً امتیازی حدود ۷-۸ از Clade دریافت میکنند. عکس: X. |
با این حال، این تحقیق همچنین به یک تله روانشناختی نگرانکننده اشاره میکند که به عنوان «پارادوکس رابط کاربری زیبا» شناخته میشود. وقتی ویژگی Artifacts کلود، محصولات بصری جذابی مانند یک قطعه کد روان یا یک نمودار بینقص ایجاد میکند، مغز ما بلافاصله تمایل به تبدیل شدن به «متفکران تنبل» و توقف تفکر انتقادی دارد.
آمار این مطالعه نشان میدهد که وقتی کاربران یک رابط کاربری بینقص را میبینند، درصد جستجوی فعال آنها برای یافتن نقصها بلافاصله ۵.۲٪ کاهش مییابد. توانایی تأیید صحت اطلاعات نیز ۳.۷٪ کاهش مییابد و درصد کسانی که به منطق آن شک دارند ۳.۱٪ کاهش مییابد.
متخصصان آنتروپیک خاطرنشان کردند: «اگر چیزی بینقص به نظر برسد، کاربران بهطور خودکار فرض میکنند که آن درست است.»
این رویکرد ذهنی بسیار خطرناک است. در واقع، هر چه وظیفه پیچیدهتر باشد، احتمال اینکه هوش مصنوعی اشتباه کند یا اطلاعات را «جعل» کند، بیشتر میشود. اگر انسانها کیفیت داخلی را صرفاً بر اساس ظاهر قضاوت کنند، خیلی راحت فریب هوش مصنوعی را خواهیم خورد.
طبق این گزارش، کسانی که مرتباً در مکالمات متقابل شرکت میکنند و به نقصهای هوش مصنوعی اشاره میکنند، ۵ تا ۶ برابر بیشتر از کاربران معمولی امتیاز میگیرند. آنها همچنین در مقایسه با بقیه گروه کاربران، احتمال بیشتری دارد که کاستیها و تناقضات را تشخیص دهند. این "متخصصان" معمولاً از کلود امتیازی حدود ۷ تا ۸ از ۱۱ میگیرند.
منبع: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html











نظر (0)