هوش مصنوعی فقط در 10 ثانیه مسئله امتحان فارغ التحصیلی دبیرستان را حل می‌کند

یک چت‌بات وجود دارد که به طور متوسط فقط ۱۰ ثانیه برای هر سوال در امتحان ریاضی فارغ‌التحصیلی دبیرستان ۲۰۲۵ وقت صرف می‌کند. نتایج کاملاً چشمگیر است، اما فرآیند استدلال هوش مصنوعی را به وضوح نشان نمی‌دهد.

ZNews•27/06/2025

بسیاری از داوطلبان اظهار داشتند که آزمون ریاضی طولانی و انجام آن در ۹۰ دقیقه دشوار است. با این حال، این مانعی برای هوش مصنوعی نیست. عکس: دوی هیو .

بعدازظهر ۲۶ ژوئن، داوطلبان آزمون ریاضی فارغ‌التحصیلی دبیرستان ۲۰۲۵ را با محدودیت زمانی ۹۰ دقیقه به پایان رساندند. این اولین آزمون پس از اعمال قالب جدید توسط وزارت آموزش و پرورش بود که گفته می‌شود دشوارتر از سال‌های گذشته خواهد بود.

در حالی که مسائل ریاضی امسال ممکن است به دلیل طولانی و زمان‌بر بودن برای داوطلبان دشوار باشد، چت‌بات‌های هوش مصنوعی زمان زیادی برای پردازش نمی‌برند. برای آزمایش اثربخشی هوش مصنوعی، Tri Thuc - Znews از 4 چت‌بات شامل ChatGPT، Google Gemini، Claude AI و Grok AI برای حل برخی از سوالات انشایی امتحان فارغ‌التحصیلی دبیرستان امسال استفاده کرد.

پردازش سریع، نتایج «یا اتفاقی یا از دست رفته»

از چت‌بات‌ها برای پاسخ به سوالات کوتاه کد آزمون 0109 استفاده شد. در میان آنها، ChatGPT و Gemini بیشترین نتایج صحیح را با کمترین تأخیر ارائه دادند. هر دو چت‌بات به 6 سوال با زمان 7-15 ثانیه برای هر سوال پاسخ دادند. با این حال، Gemini توانست مشکلات فوق را با مدل 2.5 Flash (بدون استدلال) حل کند که به پردازش سریع و جامع کمک می‌کند.

در همین حال، کلود کاملاً در محاسباتش شکست خورد و همیشه نتایج نادرستی ارائه می‌داد. با وجود اینکه از او خواسته شد دوباره محاسبه کند، چت‌بات آنتروپیک همچنان همان پاسخ را می‌داد. گروک به حدود نیمی از سؤالات به درستی پاسخ داد، اما با زمان پاسخگویی طولانی (بیش از ۲ دقیقه برای هر سؤال).

برای ChatGPT و Grok، حل این سوالات نیاز به نسخه استنتاج دارد که زمان بسیار بیشتری طول می‌کشد. Gemini بسیار سریع است، شاید ۵ ثانیه برای سریع‌ترین سوال، و فقط از مدل ۲.۵ Flash استفاده می‌کند.

ChatGPT فرآیند تفکر را بسیار واضح ارائه می‌دهد.

از نظر سرعت، Gemini سریع‌ترین زمان پردازش را داشت و به طور متوسط کمتر از ۱۰ ثانیه برای هر مسئله زمان صرف می‌کرد، اما راه‌حل‌های پیچیده‌تر، طولانی‌تر و دشوارتری داشت. مدل استنتاج ChatGPT در رتبه بعدی قرار داشت که به طور متوسط ۲۵ ثانیه زمان صرف کرد. در همین حال، Grok با وجود اینکه همچنان نتایج صحیح را ارائه می‌داد، زمان زیادی برای استدلال صرف کرد و ۱۴۸ ثانیه برای یک سؤال نسبتاً دشوار زمان برد.

اگرچه به زبان ویتنامی پرسیده شد، هر سه مدل فرآیند استدلال خود را به انگلیسی ارائه دادند. ChatGPT مختصرترین توضیحات را داشت، با تصاویر، نمودارها و تحلیل‌های آسان برای فهم فراوان. Gemini همچنین تفکر مدل را به ترتیب روشن و ارائه کرد.

به طور خاص، گروک بیشترین شباهت را به فرآیند تفکر انسانی دارد. این مدل دائماً از خود می‌پرسد «با این حال، صبر کن، برعکس»، دقیقاً مانند یک دانش‌آموز هنگام حل یک مسئله ریاضی. این می‌تواند باعث شود که چت‌بات بیش از حد به مسئله فکر کند و زمان پاسخ را کند کند.

۱۴۸ ثانیه طول کشید تا گروک نتایج خود را شرح دهد.

هوش مصنوعی ریاضی را متفاوت از انسان حل می‌کند

یک مطالعه از اپل نشان داد که مدل‌های استنتاج در واقع از مغز خود استفاده نمی‌کنند، بلکه فقط از داده‌های موجود به صورت طوطی‌وار یاد می‌گیرند. این مطالعه همچنین نشان می‌دهد که هوش مصنوعی فرآیند فکری کاملاً متفاوتی نسبت به انسان‌ها دارد، بنابراین سعی می‌کند از روشی که ما یک مسئله را حل می‌کنیم تقلید کند. با این حال، این امکان وجود دارد که فرآیند استدلال فقط توسط مدل ساخته شده باشد.

در شرایطی که امتحانات فارغ‌التحصیلی دبیرستان روز به روز دشوارتر می‌شود و به تفکر تحلیلی بالایی نیاز دارد، استفاده از هوش مصنوعی برای مرجع و یادگیری دیگر برای دانش‌آموزان عجیب نیست. در میان چت‌بات‌های مورد استفاده در بالا، ChatGPT و Gemini دو گزینه مناسب برای خودآموزان هستند تا به راه‌حل‌های مسائل دشوار مراجعه کنند.

دانش‌آموزان هانوی در آزمون فارغ‌التحصیلی دبیرستان ۲۰۲۵. عکس: ویت ها .

با این حال، اگرچه هوش مصنوعی به سرعت و به راحتی نتایج را تولید می‌کند، اما فرآیند استدلال آن هنوز توسط توسعه‌دهندگان به طور کامل درک نشده است. در یک محیط دانشگاهی، توانایی تفکر انسان هنوز عامل اصلی است. آقای توان نگوین، مدرس یک دانشگاه بین‌المللی در شهر هوشی مین، گفت که استفاده از هوش مصنوعی طبیعی است، اما دانشجویان باید درس را درک کنند، تفکر انتقادی را تمرین کنند و بر ابزارهای هوشمند تسلط پیدا کنند تا به طور مؤثرتری مطالعه کنند.

آقای تران مان تونگ، رئیس بخش ریاضیات دبیرستان نیوتن، اظهار داشت که این امتحان از نظر قالب مشابه امتحان نمونه‌ای بود که قبلاً توسط وزارت آموزش و پرورش منتشر شده بود. وی اظهار داشت: «با این حال، اگر آن را در مقیاس قرار دهیم، امتحان واقعی دشوارتر بود و تفاوت‌های بیشتری نسبت به امتحان آزمایشی داشت.»

آقای تونگ گفت، آزمون امسال از سه بخش مربوط به سه عدد رومی تشکیل شده است. دو بخش اول چندگزینه‌ای هستند و کسب امتیاز برای داوطلبان چندان دشوار نیست. با این حال، بخش‌های باقی‌مانده سوالات کوتاهی هستند که مشابه قالب انشایی سال‌های گذشته است، با این تفاوت که داوطلبان فقط باید نتایج را پر کنند و نیازی به ارائه آنها ندارند.

منبع: https://znews.vn/ai-chi-mat-10-giay-de-giai-bai-toan-thi-tot-nghiep-thpt-post1563990.html