جلسه‌ای قابل توجه که در آن ریاضیدانان به دنبال غلبه بر هوش مصنوعی هستند.

در یکی از آخر هفته‌های اواسط ماه مه، جلسه‌ای پشت درهای بسته با ریاضیدانان برگزار شد. سی نفر از ریاضیدانان برجسته جهان مخفیانه به برکلی، کالیفرنیا، ایالات متحده سفر کردند تا در رویارویی با یک ربات چت که قادر به «استدلال» بود، شرکت کنند. این ربات چت وظیفه داشت مسائلی را که توسط خود ریاضیدانان طراحی شده بود، حل کند تا توانایی‌های حل مسئله آن آزمایش شود.

پس از دو روز متوالی بمباران سوالات در سطح استادی، ریاضیدانان با کمال تعجب دریافتند که این چت‌بات می‌تواند برخی از دشوارترین مسائلی را که تاکنون در تاریخ حل شده‌اند، حل کند.

کن اونو، استاد دانشگاه ویرجینیا و رئیس و داور این جلسه، به مجله Scientific American گفت: «من همکارانم را دیده‌ام که صریحاً می‌گویند این مدل زبانی در مقیاس بزرگ به سطح نبوغ ریاضی نزدیک می‌شود.»

چت‌بات مذکور مبتنی بر o4-mini است، یک مدل زبان بزرگ (LLM) که برای استدلال پیچیده طراحی شده است. این محصول OpenAI برای انجام مراحل استدلال پیچیده آموزش دیده است. مدل مشابهی از گوگل، به نام Gemini 2.5 Flash، نیز قابلیت‌های مشابهی دارد.

مانند مدل‌های قبلی ChatGPT LLM، مدل o4-mini یاد می‌گیرد که کلمه بعدی را در یک رشته متنی پیش‌بینی کند. با این حال، تفاوت در این واقعیت نهفته است که o4-mini نسخه‌ای سبک‌تر و انعطاف‌پذیرتر است که بر اساس داده‌های عمیق آموزش دیده و تنظیمات دقیقی را از انسان دریافت می‌کند - که به آن اجازه می‌دهد تا به مسائل ریاضی که مدل‌های قبلی نمی‌توانستند به آنها برسند، بپردازد.

برای به چالش کشیدن و ارزیابی قابلیت‌های o4-mini، OpenAI از Epoch AI - یک سازمان غیرانتفاعی متخصص در آزمایش مدل‌های LLM - خواست تا 300 سوال ریاضی منتشر نشده قبلی ایجاد کند. در حالی که LLM های سنتی می‌توانند بسیاری از مسائل پیچیده را حل کنند، وقتی با سوالات کاملاً جدید به چالش کشیده می‌شوند، اکثر آنها فقط کمتر از 2٪ را به درستی حل می‌کنند. این نشان می‌دهد که آنها فاقد توانایی استدلال واقعی هستند.

شرکت Epoch AI در جدیدترین پروژه ارزیابی خود، الیوت گلیزر، دکترای جوان ریاضیات را به عنوان سرپرست خود استخدام کرده است. این پروژه جدید که FrontierMath نام دارد، در سپتامبر 2024 راه‌اندازی خواهد شد.

این پروژه سوالات جدیدی را در چهار سطح دشواری، از کارشناسی و کارشناسی ارشد گرفته تا تحقیقات عمیق، جمع‌آوری کرد. در آوریل ۲۰۲۵، گلیزر دریافت که o4-mini می‌تواند حدود ۲۰٪ از مسائل را حل کند. بنابراین، او بلافاصله آن را به سطح ۴ منتقل کرد - و از آن خواست مسائلی را حل کند که حتی ریاضیدانان بسیار پیشرفته نیز با آنها دست و پنجه نرم می‌کنند.

شرکت‌کنندگان ملزم به امضای یک توافقنامه محرمانگی بودند و فقط از طریق برنامه رمزگذاری شده سیگنال ارتباط برقرار می‌کردند، زیرا استفاده از ایمیل می‌توانست توسط LLM اسکن شده و محتوای آن "یاد گرفته" شود و در نتیجه داده‌های ارزیابی را جعل کند.

برای هر مسئله‌ای که o4-mini نتواند حل کند، طراح مسئله 7500 دلار جایزه دریافت خواهد کرد.

گروه کاری اولیه در طرح سوالات کند اما پیوسته عمل می‌کرد. با این حال، گلیزر تصمیم گرفت با برگزاری یک جلسه حضوری دو روزه در ۱۷ و ۱۸ مه، به کارها سرعت ببخشد. سی ریاضیدان در گروه‌های شش نفره شرکت کردند و با یکدیگر رقابت کردند - نه برای حل مسائل، بلکه برای طرح مسائلی که هوش مصنوعی قادر به حل آنها نبود.

عصر روز هفدهم ماه مه، کن اونو کم‌کم از این چت‌بات ناامید شد، چرا که این چت‌بات سطحی از توانایی ریاضی را نشان می‌داد که بسیار فراتر از انتظارات بود و «به دام انداختن» آن را برای تیم دشوار می‌کرد. او تعریف کرد: «من با مسئله‌ای روبرو شدم که متخصصان صنعت آن را به عنوان یک مسئله حل نشده در نظریه اعداد تشخیص می‌دادند - مسئله‌ای مناسب برای دکترا.»

در نتیجه، وقتی از o4-mini پرسید، با کمال تعجب دید که این چت‌بات تنها در عرض ۱۰ دقیقه تحلیل، استدلال و راه‌حل صحیح را ارائه می‌دهد. به‌طور خاص، در دو دقیقه اول، تمام مطالب مرتبط را بررسی و درک کرد. سپس، پیشنهاد داد که برای یادگیری رویکرد، با یک نسخه ساده‌تر از مسئله آزمایش شود.

پنج دقیقه بعد، چت‌بات پاسخ صحیح را ارائه داد، همراه با لحنی مطمئن - و حتی تا حدودی متکبرانه -. اونو تعریف کرد: «شروع به موذی‌گری کرد و حتی اضافه کرد: 'نیازی به نقل قول نیست، من قبلاً عدد مرموز را محاسبه کرده‌ام!'»

اونو که در مقابل هوش مصنوعی شکست خورده بود، صبح روز ۱۸ می، بلافاصله از طریق سیگنال یک پیام هشدار برای تیم فرستاد. او گفت: «من کاملاً برای مقابله با چنین مدلی آماده نبودم. من هرگز این نوع استدلال را در یک مدل کامپیوتری ندیده بودم. این مدل مانند یک دانشمند واقعی فکر می‌کرد. و این وحشتناک بود.»

اگرچه ریاضیدانان در نهایت موفق شدند 10 سوالی را که o4-mini را گیج کرده بود، پیدا کنند، اما نتوانستند حیرت خود را از سرعت توسعه هوش مصنوعی تنها در یک سال پنهان کنند.

اونو تجربه کار با o4-mini را با همکاری با یک همکار فوق‌العاده بااستعداد مقایسه کرد. یانگ هوی هی، ریاضیدان موسسه علوم ریاضی لندن و پیشگام در به‌کارگیری هوش مصنوعی در ریاضیات، اظهار داشت: «این کاری است که یک دانشجوی تحصیلات تکمیلی بسیار بسیار خوب می‌تواند انجام دهد - حتی بیشتر از آن.»

و شایان ذکر است که هوش مصنوعی بسیار سریع‌تر از انسان‌ها عمل می‌کند. در حالی که حل این مسئله برای انسان‌ها هفته‌ها یا ماه‌ها طول می‌کشد، o4-mini فقط چند دقیقه طول می‌کشد.

هیجان پیرامون نبرد هوش با o4-mini با نگرانی قابل توجهی همراه بود. هم اونو و هم هی هشدار دادند که قابلیت‌های o4-mini می‌تواند منجر به اعتماد به نفس بیش از حد شود. هی گفت: «ما اثبات از طریق استقراء، اثبات از طریق تناقض و اکنون اثبات از طریق... نیروی قاطع داریم. اگر چیزی را با اطمینان کافی بیان کنید، دیگران احساس ترس می‌کنند. من فکر می‌کنم o4-mini در این نوع اثبات استاد شده است: هر چه می‌گوید بسیار قطعی است.»

با پایان جلسه، ریاضیدانان شروع به تعمق در مورد آینده ریاضیات کردند. آنها در مورد احتمال وجود «سطح پنجم» - سوالاتی که حتی بهترین ریاضیدانان جهان نیز نمی‌توانند آنها را حل کنند - بحث کردند. اگر هوش مصنوعی به آن سطح برسد، نقش ریاضیدانان به طرز چشمگیری تغییر خواهد کرد: آنها ممکن است به پرسشگرانی تبدیل شوند که با هوش مصنوعی تعامل داشته و آن را در استدلال خود برای کشف حقایق جدید ریاضی راهنمایی کنند - مشابه نحوه کار یک استاد با دانشجویان تحصیلات تکمیلی.

اونو گفت: «مدتی است که به همکارانم می‌گویم که فرض اینکه هوش مصنوعی عمومی هرگز ظاهر نخواهد شد و فقط یک کامپیوتر است، اشتباه بزرگی خواهد بود. نمی‌خواهم وحشت کنم، اما از برخی جهات، این مدل‌های زبانی بزرگ از همین حالا شروع به پیشی گرفتن از اکثر بهترین دانشجویان تحصیلات تکمیلی جهان کرده‌اند.»

(ویتنام+)

منبع: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp