در یک آخر هفته در اواسط ماه مه، یک جلسه مخفی از دنیای ریاضیات برگزار شد. 30 نفر از ریاضیدانان برجسته جهان مخفیانه به برکلی، کالیفرنیا، ایالات متحده سفر کردند تا در جلسهای با یک ربات چت که قادر به "استدلال" بود، شرکت کنند. این ربات چت وظیفه داشت مسائلی را که توسط خود ریاضیدانان نوشته شده بود، حل کند تا تواناییهای حل مسئله آن را آزمایش کند.
پس از دو روز پرسش و پاسخ مداوم در سطح استادی، ریاضیدانان با کمال تعجب متوجه شدند که این چتبات میتواند برخی از دشوارترین مسائلی را که تاکنون در تاریخ حل شدهاند، حل کند.
کن اونو، استاد دانشگاه ویرجینیا و رئیس و داور این جلسه، به مجله Scientific American گفت: «من همکارانم را دیدم که صریحاً میگفتند این مدل زبانی بزرگ به سطح نبوغ ریاضی نزدیک میشود.»
چتباتی که توجه ما را جلب کرد، توسط o4-mini ، یک مدل زبان بزرگ (LLM) که برای استدلال پیچیده طراحی شده است، پشتیبانی میشود. این محصول OpenAI است و برای انجام استدلال پیچیده آموزش دیده است. مدل معادل آن از گوگل، Gemini 2.5 Flash، قابلیتهای مشابهی دارد.
مانند مدلهای قبلی ChatGPT LLM، مدل o4-mini یاد میگیرد که کلمه بعدی را در یک رشته متنی پیشبینی کند. با این حال، مدل o4-mini نسخه سبکتر و انعطافپذیرتری است که بر اساس دادههای عمیق آموزش دیده و توسط انسانها به دقت تنظیم شده است - که به آن اجازه میدهد تا به مسائل ریاضی که مدلهای قبلی نمیتوانستند به آنها برسند، بپردازد.
برای آزمایش تواناییهای o4-mini، OpenAI از Epoch AI، یک سازمان غیرانتفاعی متخصص در آزمایش مدلهای LLM، خواست تا 300 سوال ریاضی منتشر نشده قبلی را ایجاد کند. در حالی که LLM های سنتی میتوانند بسیاری از مسائل پیچیده را حل کنند، وقتی با سوالات کاملاً جدید به چالش کشیده میشوند، اکثر آنها کمتر از 2٪ پاسخ صحیح میدهند، که نشان میدهد آنها واقعاً قادر به استدلال نیستند.
در پروژه ارزیابی جدید، شرکت Epoch AI، ریاضیدان جوان دکتر الیوت گلیزر را به عنوان رهبر خود استخدام کرد. این پروژه جدید که FrontierMath نام دارد، از سپتامبر ۲۰۲۴ آغاز خواهد شد.
این پروژه سوالات جدیدی را در چهار سطح دشواری، از کارشناسی، کارشناسی ارشد تا تحقیقات پیشرفته، جمعآوری میکند. تا آوریل ۲۰۲۵، گلیزر دریافت که o4-mini میتواند حدود ۲۰٪ از مسائل را حل کند. بنابراین او تمام مسیر را به سطح ۴ تغییر داد - و از آن خواست مسائلی را حل کند که حتی ریاضیدانان پیشرفته نیز با آنها مشکل دارند.
شرکتکنندگان مجبور به امضای یک توافقنامه محرمانگی شدند و فقط میتوانستند از طریق برنامه رمزگذاریشده سیگنال ارتباط برقرار کنند، زیرا استفاده از ایمیل میتوانست به LLM اجازه دهد محتوا را اسکن و «استخراج» کند و در نتیجه دادههای ارزیابی را جعل کند.
هر مسئلهای که o4-mini نتواند حل کند، برای پرسشگر 7500 دلار آمریکا جایزه خواهد داشت.
تیم اولیه در طرح سوالات پیشرفت آهسته اما پیوستهای داشت. اما گلیزر تصمیم گرفت با برگزاری یک جلسه حضوری در ۱۷ و ۱۸ مه، به کارها سرعت ببخشد. ۳۰ ریاضیدان شرکتکننده به گروههای شش نفره تقسیم شدند و با یکدیگر رقابت کردند - نه برای حل مسائل، بلکه برای طرح مسائلی که هوش مصنوعی نمیتوانست حل کند.
عصر روز ۱۷ می، کن اونو کمکم از این چتبات ناامید شد، چرا که سطح مهارت ریاضی آن بسیار فراتر از حد انتظار بود و این امر «به دام انداختن» آن را برای تیم دشوار میکرد. او گفت: «من با مسئلهای روبرو شدم که متخصصان این حوزه آن را به عنوان یک مسئله حل نشده در نظریه اعداد تشخیص میدادند - مسئلهای مناسب برای دکترا.»
در نتیجه، وقتی از o4-mini پرسید، با کمال تعجب دید که چتبات فقط در عرض ۱۰ دقیقه تحلیل، استدلال و راهحل صحیح را ارائه میدهد. به طور خاص، در دو دقیقه اول، تمام اسناد مربوطه را یاد گرفت و درک کرد. سپس، پیشنهاد داد که یک نسخه سادهتر از مسئله را امتحان کند تا یاد بگیرد چگونه به آن نزدیک شود.
پنج دقیقه بعد، چتبات با لحنی مطمئن - و حتی متکبرانه - پاسخ صحیح را داد. اونو میگوید: «کمکم گستاخانه شد و اضافه کرد: 'نیازی به نقل قول نیست چون شماره مخفی را پیدا کردم!'»
اونو که در اوایل صبح ۱۸ می از هوش مصنوعی شکست خورده بود، بلافاصله از طریق سیگنال یک پیام هشدار به تیم فرستاد. او گفت: «من کاملاً برای مقابله با چنین مدلی آماده نبودم. من هرگز این نوع استدلال را در یک مدل کامپیوتری ندیده بودم. این مدل مانند یک دانشمند واقعی فکر میکرد. و این ترسناک بود.»
اگرچه ریاضیدانان سرانجام موفق شدند 10 سؤالی را که o4-mini را گیج کرده بود، پیدا کنند، اما هنوز هم نتوانستند شوک خود را از سرعت توسعه هوش مصنوعی تنها در یک سال پنهان کنند.
اونو تجربه کار با o4-mini را با همکاری با یک همکار بسیار با استعداد مقایسه میکند. و یانگ هوی هی، ریاضیدان موسسه علوم ریاضی لندن و پیشگام در بهکارگیری هوش مصنوعی در ریاضیات، اظهار میکند: «این کاری است که یک دانشجوی دکترای بسیار بسیار با استعداد میتواند انجام دهد - و حتی بیشتر.»
و باید توجه داشت که هوش مصنوعی این کار را بسیار سریعتر از انسانها انجام میدهد. در حالی که حل آن برای انسانها هفتهها یا ماهها طول میکشد، o4-mini فقط چند دقیقه طول میکشد.
هیجان پیرامون o4-mini بدون نگرانی هم نیست. هم اونو و هم هی هشدار میدهند که قابلیتهای o4-mini میتواند مردم را بیش از حد مطمئن کند. هی میگوید: «ما اثبات از طریق استقراء، اثبات از طریق تناقض و حالا اثبات از طریق... قاطعیت داریم. اگر چیزی را با اطمینان کافی بگویید، مردم مرعوب میشوند. من فکر میکنم o4-mini در این نوع اثبات استاد شده است: همه چیز را با اطمینان زیادی میگوید.»
با پایان جلسه، ریاضیدانان شروع به تفکر در مورد آینده ریاضیات کردند. آنها در مورد احتمال وجود «سطح پنجم» - سوالاتی که حتی بهترین ریاضیدانان جهان نیز نمیتوانند آنها را حل کنند - بحث کردند. اگر هوش مصنوعی به آن آستانه برسد، نقش ریاضیدانان به طرز چشمگیری تغییر خواهد کرد: شاید آنها به پرسشگرانی تبدیل شوند که با هوش مصنوعی تعامل داشته و استدلال آن را برای کشف حقایق جدید ریاضی هدایت میکنند - مشابه روشی که یک استاد با یک دانشجوی تحصیلات تکمیلی کار میکند.
اونو گفت: «مدتهاست که به همکارانم میگویم که فکر کردن به اینکه هوش مصنوعی عمومی هرگز اتفاق نخواهد افتاد و فقط یک کامپیوتر است، اشتباه بزرگی خواهد بود. نمیخواهم وحشت کنم، اما از برخی جهات، این مدلهای زبانی بزرگ در حال حاضر از اکثر دانشجویان دکترای برتر جهان پیشی گرفتهاند.»
منبع: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
نظر (0)