
آنتروپیک هشدار میدهد که وارد کردن دادههای مخرب برای تحریف پاسخهای هوش مصنوعی بسیار آسانتر از آن چیزی است که تصور میشود - عکس: FREEPIK
شرکت هوش مصنوعی Anthropic، توسعهدهندهی چتبات Claude، بهتازگی تحقیقاتی را منتشر کرده است که نشان میدهد «مسموم کردن» مدلهای زبانی بزرگ (LLM)، یعنی وارد کردن دادههای مخرب برای تحریف پاسخهای هوش مصنوعی، بسیار آسانتر از آن چیزی است که تصور میشود.
طبق گزارش سایبر نیوز، تنها ۲۵۰ سندِ دستکاریشدهی خاص کافی است تا یک مدل هوش مصنوعی مولد (GenAI) هنگام مواجهه با یک عبارت محرک خاص، پاسخهای کاملاً نادرستی ارائه دهد.
نگرانکننده اینجاست که اندازه مدل، این خطر را کاهش نمیدهد. پیش از این، محققان تصور میکردند که هر چه مدل بزرگتر باشد، برای نصب یک «درب پشتی» به دادههای مخرب بیشتری نیاز است.
اما آنتروپیک ادعا میکند که هم مدل ۱۳ میلیارد پارامتری - که با بیش از ۲۰ برابر داده آموزش دیده است - و هم مدل ۶۰۰ میلیون پارامتری را میتوان با همان تعداد کم اسناد «مسموم» به خطر انداخت.
آنتروپیک تأکید کرد: «این یافته، این فرض را که یک مهاجم باید درصد مشخصی از دادههای آموزشی را کنترل کند، به چالش میکشد. در واقع، آنها ممکن است فقط به مقدار ثابت بسیار کمی نیاز داشته باشند.»
این شرکت هشدار میدهد که این آسیبپذیریها میتوانند خطرات جدی برای امنیت سیستمهای هوش مصنوعی ایجاد کنند و کاربرد این فناوری را در حوزههای حساس تهدید کنند.
منبع: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
نظر (0)