در یکی از آخر هفتههای اواسط ماه مه، جلسهای پشت درهای بسته با ریاضیدانان برگزار شد. سی نفر از ریاضیدانان برجسته جهان مخفیانه به برکلی، کالیفرنیا، ایالات متحده سفر کردند تا در رویارویی با یک ربات چت که قادر به «استدلال» بود، شرکت کنند. این ربات چت وظیفه داشت مسائلی را که توسط خود ریاضیدانان طراحی شده بود، حل کند تا تواناییهای حل مسئله آن آزمایش شود.
پس از دو روز متوالی بمباران سوالات در سطح استادی، ریاضیدانان با کمال تعجب دریافتند که این چتبات میتواند برخی از دشوارترین مسائلی را که تاکنون در تاریخ حل شدهاند، حل کند.
کن اونو، استاد دانشگاه ویرجینیا و رئیس و داور این جلسه، به مجله Scientific American گفت: «من همکارانم را دیدهام که صریحاً میگویند این مدل زبانی در مقیاس بزرگ به سطح نبوغ ریاضی نزدیک میشود.»
چتبات مذکور مبتنی بر o4-mini است، یک مدل زبان بزرگ (LLM) که برای استدلال پیچیده طراحی شده است. این محصول OpenAI برای انجام مراحل استدلال پیچیده آموزش دیده است. مدل مشابهی از گوگل، به نام Gemini 2.5 Flash، نیز قابلیتهای مشابهی دارد.
مانند مدلهای قبلی ChatGPT LLM، مدل o4-mini یاد میگیرد که کلمه بعدی را در یک رشته متنی پیشبینی کند. با این حال، تفاوت در این واقعیت نهفته است که o4-mini نسخهای سبکتر و انعطافپذیرتر است که بر اساس دادههای عمیق آموزش دیده و تنظیمات دقیقی را از انسان دریافت میکند - که به آن اجازه میدهد تا به مسائل ریاضی که مدلهای قبلی نمیتوانستند به آنها برسند، بپردازد.
برای به چالش کشیدن و ارزیابی قابلیتهای o4-mini، OpenAI از Epoch AI - یک سازمان غیرانتفاعی متخصص در آزمایش مدلهای LLM - خواست تا 300 سوال ریاضی منتشر نشده قبلی ایجاد کند. در حالی که LLM های سنتی میتوانند بسیاری از مسائل پیچیده را حل کنند، وقتی با سوالات کاملاً جدید به چالش کشیده میشوند، اکثر آنها فقط کمتر از 2٪ را به درستی حل میکنند. این نشان میدهد که آنها فاقد توانایی استدلال واقعی هستند.
شرکت Epoch AI در جدیدترین پروژه ارزیابی خود، الیوت گلیزر، دکترای جوان ریاضیات را به عنوان سرپرست خود استخدام کرده است. این پروژه جدید که FrontierMath نام دارد، در سپتامبر 2024 راهاندازی خواهد شد.
این پروژه سوالات جدیدی را در چهار سطح دشواری، از کارشناسی و کارشناسی ارشد گرفته تا تحقیقات عمیق، جمعآوری کرد. در آوریل ۲۰۲۵، گلیزر دریافت که o4-mini میتواند حدود ۲۰٪ از مسائل را حل کند. بنابراین، او بلافاصله آن را به سطح ۴ منتقل کرد - و از آن خواست مسائلی را حل کند که حتی ریاضیدانان بسیار پیشرفته نیز با آنها دست و پنجه نرم میکنند.
شرکتکنندگان ملزم به امضای یک توافقنامه محرمانگی بودند و فقط از طریق برنامه رمزگذاری شده سیگنال ارتباط برقرار میکردند، زیرا استفاده از ایمیل میتوانست توسط LLM اسکن شده و محتوای آن "یاد گرفته" شود و در نتیجه دادههای ارزیابی را جعل کند.
برای هر مسئلهای که o4-mini نتواند حل کند، طراح مسئله 7500 دلار جایزه دریافت خواهد کرد.
گروه کاری اولیه در طرح سوالات کند اما پیوسته عمل میکرد. با این حال، گلیزر تصمیم گرفت با برگزاری یک جلسه حضوری دو روزه در ۱۷ و ۱۸ مه، به کارها سرعت ببخشد. سی ریاضیدان در گروههای شش نفره شرکت کردند و با یکدیگر رقابت کردند - نه برای حل مسائل، بلکه برای طرح مسائلی که هوش مصنوعی قادر به حل آنها نبود.
عصر روز هفدهم ماه مه، کن اونو کمکم از این چتبات ناامید شد، چرا که این چتبات سطحی از توانایی ریاضی را نشان میداد که بسیار فراتر از انتظارات بود و «به دام انداختن» آن را برای تیم دشوار میکرد. او تعریف کرد: «من با مسئلهای روبرو شدم که متخصصان صنعت آن را به عنوان یک مسئله حل نشده در نظریه اعداد تشخیص میدادند - مسئلهای مناسب برای دکترا.»
در نتیجه، وقتی از o4-mini پرسید، با کمال تعجب دید که این چتبات تنها در عرض ۱۰ دقیقه تحلیل، استدلال و راهحل صحیح را ارائه میدهد. بهطور خاص، در دو دقیقه اول، تمام مطالب مرتبط را بررسی و درک کرد. سپس، پیشنهاد داد که برای یادگیری رویکرد، با یک نسخه سادهتر از مسئله آزمایش شود.
پنج دقیقه بعد، چتبات پاسخ صحیح را ارائه داد، همراه با لحنی مطمئن - و حتی تا حدودی متکبرانه -. اونو تعریف کرد: «شروع به موذیگری کرد و حتی اضافه کرد: 'نیازی به نقل قول نیست، من قبلاً عدد مرموز را محاسبه کردهام!'»
اونو که در مقابل هوش مصنوعی شکست خورده بود، صبح روز ۱۸ می، بلافاصله از طریق سیگنال یک پیام هشدار برای تیم فرستاد. او گفت: «من کاملاً برای مقابله با چنین مدلی آماده نبودم. من هرگز این نوع استدلال را در یک مدل کامپیوتری ندیده بودم. این مدل مانند یک دانشمند واقعی فکر میکرد. و این وحشتناک بود.»
اگرچه ریاضیدانان در نهایت موفق شدند 10 سوالی را که o4-mini را گیج کرده بود، پیدا کنند، اما نتوانستند حیرت خود را از سرعت توسعه هوش مصنوعی تنها در یک سال پنهان کنند.
اونو تجربه کار با o4-mini را با همکاری با یک همکار فوقالعاده بااستعداد مقایسه کرد. یانگ هوی هی، ریاضیدان موسسه علوم ریاضی لندن و پیشگام در بهکارگیری هوش مصنوعی در ریاضیات، اظهار داشت: «این کاری است که یک دانشجوی تحصیلات تکمیلی بسیار بسیار خوب میتواند انجام دهد - حتی بیشتر از آن.»
و شایان ذکر است که هوش مصنوعی بسیار سریعتر از انسانها عمل میکند. در حالی که حل این مسئله برای انسانها هفتهها یا ماهها طول میکشد، o4-mini فقط چند دقیقه طول میکشد.
هیجان پیرامون نبرد هوش با o4-mini با نگرانی قابل توجهی همراه بود. هم اونو و هم هی هشدار دادند که قابلیتهای o4-mini میتواند منجر به اعتماد به نفس بیش از حد شود. هی گفت: «ما اثبات از طریق استقراء، اثبات از طریق تناقض و اکنون اثبات از طریق... نیروی قاطع داریم. اگر چیزی را با اطمینان کافی بیان کنید، دیگران احساس ترس میکنند. من فکر میکنم o4-mini در این نوع اثبات استاد شده است: هر چه میگوید بسیار قطعی است.»
با پایان جلسه، ریاضیدانان شروع به تعمق در مورد آینده ریاضیات کردند. آنها در مورد احتمال وجود «سطح پنجم» - سوالاتی که حتی بهترین ریاضیدانان جهان نیز نمیتوانند آنها را حل کنند - بحث کردند. اگر هوش مصنوعی به آن سطح برسد، نقش ریاضیدانان به طرز چشمگیری تغییر خواهد کرد: آنها ممکن است به پرسشگرانی تبدیل شوند که با هوش مصنوعی تعامل داشته و آن را در استدلال خود برای کشف حقایق جدید ریاضی راهنمایی کنند - مشابه نحوه کار یک استاد با دانشجویان تحصیلات تکمیلی.
اونو گفت: «مدتی است که به همکارانم میگویم که فرض اینکه هوش مصنوعی عمومی هرگز ظاهر نخواهد شد و فقط یک کامپیوتر است، اشتباه بزرگی خواهد بود. نمیخواهم وحشت کنم، اما از برخی جهات، این مدلهای زبانی بزرگ از همین حالا شروع به پیشی گرفتن از اکثر بهترین دانشجویان تحصیلات تکمیلی جهان کردهاند.»
منبع: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






نظر (0)