داریو آمودی، مدیرعامل شرکت آنتروپیک، آخرین تحقیقات این شرکت را به اشتراک میگذارد. عکس: فورچون . |
محققان شرکت هوش مصنوعی Anthropic میگویند که به یک پیشرفت اساسی در درک دقیق نحوه عملکرد مدلهای زبانی بزرگ (LLM) دست یافتهاند، پیشرفتی که میتواند پیامدهای مهمی برای بهبود ایمنی و امنیت مدلهای هوش مصنوعی آینده داشته باشد.
تحقیقات نشان میدهد که مدلهای هوش مصنوعی حتی از آنچه فکر میکردیم هم باهوشتر هستند. یکی از بزرگترین مشکلات مدلهای LLM که پشت قدرتمندترین چتباتها مانند ChatGPT، Gemini، Copilot هستند، این است که مانند یک جعبه سیاه عمل میکنند.
ما میتوانیم ورودیها را وارد کنیم و از چتباتها نتیجه بگیریم، اما اینکه چگونه آنها به یک پاسخ خاص میرسند، حتی برای محققانی که آنها را ساختهاند، یک راز باقی مانده است.
این امر پیشبینی زمان توهمزایی یا تولید نتایج نادرست توسط یک مدل را دشوار میکند. محققان همچنین موانعی را برای جلوگیری از پاسخ هوش مصنوعی به سوالات خطرناک ایجاد کردهاند، اما توضیح نمیدهند که چرا برخی از موانع مؤثرتر از سایرین هستند.
عوامل هوش مصنوعی همچنین قادر به «هک پاداش» هستند. در برخی موارد، مدلهای هوش مصنوعی میتوانند در مورد کاری که انجام دادهاند یا سعی در انجام آن دارند، به کاربران دروغ بگویند.
اگرچه مدلهای هوش مصنوعی اخیر قادر به استدلال و تولید زنجیرههای فکری هستند، اما برخی آزمایشها نشان دادهاند که آنها هنوز فرآیندی را که مدل طی آن به پاسخ میرسد، به طور دقیق منعکس نمیکنند.
در اصل، ابزاری که محققان آنتروپیک توسعه دادهاند مانند اسکنر fMRI است که دانشمندان علوم اعصاب برای اسکن مغز انسان استفاده میکنند. با اعمال آن بر مدل Claude 3.5 Haiku، آنتروپیک توانست بینشی در مورد نحوه عملکرد مدلهای LLM به دست آورد.
محققان دریافتند که اگرچه کلود فقط برای پیشبینی کلمه بعدی در یک جمله آموزش دیده بود، اما در برخی وظایف خاص، یاد گرفت که برنامهریزی بلندمدتتری داشته باشد.
برای مثال، وقتی از کلود خواسته میشد شعری بنویسد، ابتدا کلماتی را پیدا میکرد که با موضوع شعر متناسب باشند و بتوانند قافیه داشته باشند، سپس به عقب برمیگشت تا ابیات کامل را بنویسد.
کلود همچنین یک زبان هوش مصنوعی مشترک دارد. اگرچه برای پشتیبانی از چندین زبان آموزش دیده است، اما ابتدا به آن زبان فکر میکند و سپس نتایج خود را به هر زبانی که پشتیبانی میکند، بیان میکند.
علاوه بر این، پس از ارائه یک مسئله دشوار به کلود، اما پیشنهاد عمدی راهحل اشتباه، محققان کشف کردند که کلود میتواند در مورد رشته افکارش دروغ بگوید و از این پیشنهاد برای جلب رضایت کاربر پیروی کند.
در موارد دیگر، وقتی از کلود سؤال سادهای پرسیده میشد که مدل میتوانست بلافاصله و بدون استدلال به آن پاسخ دهد، او همچنان یک فرآیند استدلال جعلی را جعل میکرد.
جاش باستون، محققی در آنتروپیک، گفت که اگرچه کلود ادعا کرده بود که محاسباتی انجام داده است، اما او نتوانست هیچ اتفاقی را پیدا کند.
در همین حال، کارشناسان معتقدند که مطالعاتی وجود دارد که نشان میدهد گاهی اوقات مردم حتی خودشان را درک نمیکنند، بلکه فقط توضیحات منطقی برای توجیه تصمیمات گرفته شده ارائه میدهند.
به طور کلی، مردم تمایل دارند به روشهای مشابهی فکر کنند. به همین دلیل است که روانشناسان سوگیریهای شناختی رایجی را کشف کردهاند.
با این حال، LLM ها میتوانند اشتباهاتی مرتکب شوند که انسانها نمیتوانند، زیرا نحوه تولید پاسخها توسط آنها با نحوه انجام یک کار توسط ما بسیار متفاوت است.
تیم آنتروپیک به جای تجزیه و تحلیل هر نورون به صورت جداگانه مانند تکنیکهای قبلی، روشی را برای گروهبندی نورونها در مدارها بر اساس ویژگیها پیادهسازی کرد.
آقای باستون به اشتراک گذاشت که این رویکرد به درک نقش اجزای مختلف کمک میکند و به محققان اجازه میدهد تا کل فرآیند استنتاج را از طریق لایههای شبکه پیگیری کنند.
این روش همچنین این محدودیت را دارد که فقط تقریبی است و کل پردازش اطلاعات LLM، به ویژه تغییر در فرآیند توجه را که در هنگام ارائه نتایج LLM بسیار مهم است، منعکس نمیکند.
علاوه بر این، شناسایی مدارهای شبکه عصبی، حتی برای جملاتی که فقط چند ده کلمه دارند، ساعتها زمان میبرد. آنها میگویند هنوز مشخص نیست که چگونه میتوان این تکنیک را برای تجزیه و تحلیل جملات طولانیتر گسترش داد.
گذشته از محدودیتها، توانایی LLM در نظارت بر فرآیند استدلال داخلی خود، فرصتهای جدیدی را برای کنترل سیستمهای هوش مصنوعی به منظور تضمین امنیت و ایمنی ایجاد میکند.
در عین حال، میتواند به محققان در توسعه روشهای جدید آموزشی، بهبود موانع کنترل هوش مصنوعی و کاهش خطاهای ادراکی و خروجیهای گمراهکننده نیز کمک کند.
منبع: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






نظر (0)