تصویر درس ۳۱.png
MIT در حال توسعه یک چارچوب آزمایشی برای کمک به تشخیص تصمیمات ناعادلانه هوش مصنوعی است. عکس: Midjourney

هوش مصنوعی به طور فزاینده‌ای برای بهینه‌سازی تصمیمات در زمینه‌های بحرانی به کار گرفته می‌شود. به عنوان مثال، یک سیستم خودران می‌تواند مقرون به صرفه‌ترین طرح توزیع برق را پیشنهاد دهد و در عین حال پایداری ولتاژ را حفظ کند.

با این حال، آیا یک راه حل «از نظر فنی بهینه» واقعاً منصفانه است؟ چه اتفاقی می‌افتد اگر یک استراتژی کم‌هزینه، مناطق کم‌درآمد را نسبت به مناطق ثروتمندتر در برابر قطع برق آسیب‌پذیرتر کند؟

برای کمک به ذینفعان در شناسایی زودهنگام ریسک‌های اخلاقی قبل از اجرا، تیم تحقیقاتی MIT یک روش ارزیابی خودکار توسعه داده است که شاخص‌های کمی (مانند هزینه و قابلیت اطمینان) را با مقادیر کیفی (مانند انصاف) متعادل می‌کند.

این سیستم، ارزیابی عینی را از ارزش‌های انسانی تعریف‌شده توسط کاربر جدا می‌کند و از یک مدل زبان بزرگ (LLM) به عنوان «نماینده» انسانی برای ثبت و ادغام اولویت‌های ذینفعان استفاده می‌کند.

چارچوب ارزیابی تطبیقی، مهم‌ترین سناریوها را برای تحلیل بیشتر انتخاب می‌کند و فرآیندی را که در صورت انجام دستی پرهزینه و زمان‌بر خواهد بود، ساده می‌کند. این سناریوها می‌توانند نشان دهند که چه زمانی یک سیستم هوش مصنوعی با ارزش‌های انسانی همسو می‌شود و همچنین چه زمانی معیارهای اخلاقی را برآورده نمی‌کند.

به گفته چوچو فن (MIT)، صرفاً تعیین قوانین یا «موانع ایمنی» برای هوش مصنوعی کافی نیست، زیرا این قوانین فقط از خطراتی که انسان‌ها می‌توانند پیش‌بینی کنند، جلوگیری می‌کنند. بنابراین، یک رویکرد سیستماتیک برای شناسایی «خطرات ناشناخته» قبل از ایجاد عواقب لازم است.

ارزیابی اخلاقی در سیستم‌های پیچیده

در سیستم‌های بزرگی مانند شبکه‌های برق، ارزیابی مناسب بودن اخلاقی پیشنهادهای تولید شده توسط هوش مصنوعی چالش برانگیز است، به خصوص زمانی که چندین هدف باید به طور همزمان در نظر گرفته شوند.