Ένα Σαββατοκύριακο στα μέσα Μαΐου, πραγματοποιήθηκε μια συνάντηση μαθηματικών κεκλεισμένων των θυρών. Τριάντα από τους κορυφαίους μαθηματικούς του κόσμου ταξίδεψαν κρυφά στο Μπέρκλεϊ της Καλιφόρνια στις ΗΠΑ, για να συμμετάσχουν σε μια αντιπαράθεση με ένα chatbot ικανό για «συλλογιστική σκέψη». Αυτό το chatbot είχε ως αποστολή να λύσει προβλήματα που είχαν επινοήσει οι ίδιοι οι μαθηματικοί, προκειμένου να δοκιμάσουν τις ικανότητές του στην επίλυση προβλημάτων.
Μετά από δύο συνεχόμενες ημέρες βομβαρδισμού τους με ερωτήσεις καθηγητικού επιπέδου, οι μαθηματικοί έμειναν έκπληκτοι όταν ανακάλυψαν ότι αυτό το chatbot μπορούσε να λύσει μερικά από τα πιο δύσκολα προβλήματα που έχουν λυθεί ποτέ στην ιστορία.
«Έχω δει συναδέλφους να λένε απερίφραστα ότι αυτό το μεγάλης κλίμακας γλωσσικό μοντέλο πλησιάζει το επίπεδο της μαθηματικής ιδιοφυΐας», δήλωσε στο Scientific American ο Ken Ono, καθηγητής στο Πανεπιστήμιο της Βιρτζίνια και πρόεδρος και κριτής της συνάντησης.
Το προαναφερθέν chatbot βασίζεται στο o4-mini , ένα μεγάλο γλωσσικό μοντέλο (LLM) σχεδιασμένο για σύνθετη συλλογιστική. Αυτό το προϊόν του OpenAI είναι εκπαιδευμένο να εκτελεί εξελιγμένα βήματα συλλογισμού. Ένα παρόμοιο μοντέλο από την Google, που ονομάζεται Gemini 2.5 Flash, διαθέτει επίσης παρόμοιες δυνατότητες.
Όπως και τα προηγούμενα LLM του ChatGPT, το o4-mini μαθαίνει να προβλέπει την επόμενη λέξη σε μια συμβολοσειρά κειμένου. Ωστόσο, η διαφορά έγκειται στο γεγονός ότι το o4-mini είναι μια ελαφρύτερη και πιο ευέλικτη έκδοση, εκπαιδευμένη σε βαθιά δεδομένα και λαμβάνει στενή ανθρώπινη ρύθμιση, επιτρέποντάς της να εμβαθύνει σε μαθηματικά προβλήματα που τα προηγούμενα μοντέλα δεν μπορούσαν να προσεγγίσουν.
Για να αμφισβητήσει και να αξιολογήσει τις δυνατότητες του o4-mini, η OpenAI ανέθεσε στην Epoch AI — έναν μη κερδοσκοπικό οργανισμό που ειδικεύεται στη δοκιμή μοντέλων LLM — να δημιουργήσει 300 προηγουμένως αδημοσίευτες μαθηματικές ερωτήσεις. Ενώ οι παραδοσιακές LLM μπορούν να λύσουν πολλά σύνθετα προβλήματα, όταν αντιμετωπίζονται με εντελώς νέες ερωτήσεις, οι περισσότερες από αυτές έλυσαν σωστά μόνο λιγότερο από το 2%. Αυτό καταδεικνύει ότι δεν έχουν πραγματική ικανότητα συλλογισμού.
Στο τελευταίο της έργο αξιολόγησης, η Epoch AI προσέλαβε τον νεαρό διδακτορικό μαθηματικό Elliot Glazer ως επικεφαλής. Το νέο έργο, με την ονομασία FrontierMath , θα ξεκινήσει τον Σεπτέμβριο του 2024.
Το έργο συγκέντρωσε νέες ερωτήσεις σε τέσσερα επίπεδα δυσκολίας, που κυμαίνονταν από προπτυχιακά και μεταπτυχιακά έως εις βάθος έρευνα. Τον Απρίλιο του 2025, ο Glazer διαπίστωσε ότι το o4-mini μπορούσε να λύσει περίπου το 20% των προβλημάτων. Ως εκ τούτου, το μετέτρεψε αμέσως στο επίπεδο 4 – απαιτώντας να λύσει προβλήματα με τα οποία θα δυσκολεύονταν ακόμη και οι πιο προηγμένοι μαθηματικοί.
Οι συμμετέχοντες ήταν υποχρεωμένοι να υπογράψουν μια συμφωνία εμπιστευτικότητας, επικοινωνώντας μόνο μέσω της κρυπτογραφημένης εφαρμογής Signal, καθώς η χρήση του email μπορούσε να σαρωθεί και το περιεχόμενό του να «μαθευτεί» από τον LLM, παραποιώντας έτσι τα δεδομένα αξιολόγησης.
Για κάθε πρόβλημα που δεν μπορεί να λύσει το o4-mini, αυτός που το έθεσε θα λαμβάνει ένα βραβείο 7.500 δολαρίων.
Η αρχική ομάδα εργασίας ήταν αργή αλλά σταθερή στην υποβολή ερωτημάτων. Ωστόσο, ο Glazer αποφάσισε να επιταχύνει τα πράγματα οργανώνοντας μια διήμερη συνάντηση με φυσική παρουσία στις 17-18 Μαΐου. Παρευρέθηκαν τριάντα μαθηματικοί, χωρισμένοι σε ομάδες των έξι, οι οποίοι ανταγωνίζονταν μεταξύ τους — όχι για να λύσουν προβλήματα, αλλά για να επινοήσουν προβλήματα που η Τεχνητή Νοημοσύνη δεν μπορούσε να λύσει.
Μέχρι το βράδυ της 17ης Μαΐου, ο Ken Ono άρχισε να αισθάνεται απογοητευμένος με το chatbot, το οποίο επέδειξε ένα επίπεδο μαθηματικών ικανοτήτων που ξεπερνούσε κατά πολύ τις προσδοκίες, καθιστώντας δύσκολο για την ομάδα να το «παγιδεύσει». «Σκέφτηκα ένα πρόβλημα που οι ειδικοί του κλάδου θα αναγνώριζαν ως ανοιχτό πρόβλημα στη θεωρία αριθμών - ένα πρόβλημα κατάλληλο για διδακτορικό», αφηγήθηκε.
Ως αποτέλεσμα, όταν ρώτησε τον o4-mini, έμεινε έκπληκτος βλέποντας το chatbot να αναλύει, να συλλογίζεται και να παρέχει τη σωστή λύση σε μόλις 10 λεπτά. Συγκεκριμένα, στα πρώτα δύο λεπτά, ερεύνησε και κατανόησε όλο το σχετικό υλικό. Στη συνέχεια, του πρότεινε να πειραματιστεί με μια απλούστερη εκδοχή του προβλήματος για να μάθει την προσέγγιση.
Πέντε λεπτά αργότερα, το chatbot έδωσε τη σωστή απάντηση, συνοδευόμενη από έναν σίγουρο —έως και κάπως αλαζονικό— τόνο. «Άρχισε να συμπεριφέρεται πονηρά», αφηγήθηκε η Όνο, «Και πρόσθεσε μάλιστα: "Δεν χρειάζεται να παραθέσω, έχω ήδη υπολογίσει τον μυστηριώδη αριθμό!"».
Έχοντας αποτύχει ενάντια στην Τεχνητή Νοημοσύνη, το πρωί της 18ης Μαΐου, ο Όνο έστειλε αμέσως ένα μήνυμα ειδοποίησης στην ομάδα μέσω του Signal. «Ήμουν εντελώς απροετοίμαστος να αντιμετωπίσω ένα μοντέλο σαν κι αυτό», είπε. «Δεν είχα ξαναδεί τέτοιου είδους συλλογισμό σε ένα μοντέλο υπολογιστή. Σκεφτόταν όπως σκέφτεται ένας πραγματικός επιστήμονας . Και αυτό ήταν τρομακτικό».
Αν και οι μαθηματικοί τελικά κατάφεραν να βρουν 10 ερωτήσεις που μπέρδεψαν το o4-mini, δεν μπορούσαν να κρύψουν την έκπληξή τους από την ταχύτητα ανάπτυξης της Τεχνητής Νοημοσύνης σε μόλις ένα χρόνο.
Η Όνο συνέκρινε την εμπειρία της εργασίας με το o4-mini με τη συνεργασία με έναν εξαιρετικά ταλαντούχο συνάδελφο. Ο Γιανγκ Χούι Χε, μαθηματικός στο Ινστιτούτο Μαθηματικών Επιστημών στο Λονδίνο και πρωτοπόρος στην εφαρμογή της Τεχνητής Νοημοσύνης στα μαθηματικά, σχολίασε: «Αυτό μπορεί να κάνει ένας πολύ, πολύ καλός μεταπτυχιακός φοιτητής — ακόμη και περισσότερα από αυτό».
Και αξίζει να σημειωθεί ότι η Τεχνητή Νοημοσύνη λειτουργεί πολύ πιο γρήγορα από τους ανθρώπους. Ενώ οι άνθρωποι χρειάζονται εβδομάδες ή μήνες για να λύσουν το πρόβλημα, το o4-mini χρειάζεται μόνο λίγα λεπτά.
Ο ενθουσιασμός γύρω από τη μάχη της ευφυΐας με το o4-mini συνοδεύτηκε από σημαντική ανησυχία. Τόσο ο Όνο όσο και ο Χε προειδοποίησαν ότι οι δυνατότητες του o4-mini θα μπορούσαν να οδηγήσουν σε υπερβολική αυτοπεποίθηση. «Έχουμε απόδειξη μέσω επαγωγής, απόδειξη μέσω αντίφασης και τώρα απόδειξη μέσω... συντριπτικής δύναμης», είπε. «Αν δηλώσεις κάτι με αρκετή αυτοπεποίθηση, οι άλλοι θα νιώσουν εκφοβισμένοι. Νομίζω ότι το o4-mini έχει κατακτήσει αυτό το είδος απόδειξης: ό,τι λέει είναι πολύ βέβαιο».
Καθώς ολοκληρώθηκε η συνάντηση, οι μαθηματικοί άρχισαν να συλλογίζονται το μέλλον των μαθηματικών. Συζήτησαν την πιθανότητα ενός «πέμπτου επιπέδου» — ερωτήματα που ακόμη και οι καλύτεροι μαθηματικοί του κόσμου δεν μπορούν να λύσουν. Εάν η Τεχνητή Νοημοσύνη φτάσει σε αυτό το επίπεδο, ο ρόλος του μαθηματικού θα αλλάξει δραματικά: μπορεί στη συνέχεια να γίνει ερωτών, αλληλεπιδρώντας με την Τεχνητή Νοημοσύνη και καθοδηγώντας την στη συλλογιστική της για να ανακαλύψει νέες μαθηματικές αλήθειες — παρόμοια με τον τρόπο που ένας καθηγητής συνεργάζεται με μεταπτυχιακούς φοιτητές.
«Λέω στους συναδέλφους μου εδώ και καιρό ότι θα ήταν σοβαρό λάθος να υποθέσουμε ότι η γενική τεχνητή νοημοσύνη δεν θα εμφανιστεί ποτέ, ότι είναι απλώς ένας υπολογιστής», είπε ο Όνο. «Δεν θέλω να πανικοβληθώ, αλλά από ορισμένες απόψεις, αυτά τα μεγάλα γλωσσικά μοντέλα έχουν ήδη αρχίσει να ξεπερνούν τους περισσότερους από τους καλύτερους μεταπτυχιακούς φοιτητές στον κόσμο».
Πηγή: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp






Σχόλιο (0)