Ένα Σαββατοκύριακο στα μέσα Μαΐου, έλαβε χώρα μια μυστική συνάντηση του κόσμου των μαθηματικών. 30 από τους κορυφαίους μαθηματικούς του κόσμου ταξίδεψαν κρυφά στο Μπέρκλεϊ της Καλιφόρνια στις ΗΠΑ, για να παρακολουθήσουν μια αναμέτρηση με ένα chatbot ικανό για «συλλογιστική σκέψη». Το chatbot είχε την εντολή να λύσει προβλήματα που είχαν γράψει οι ίδιοι οι μαθηματικοί, για να δοκιμάσει τις ικανότητές του στην επίλυση προβλημάτων.
Μετά από δύο ημέρες συνεχούς υποβολής ερωτήσεων σε επίπεδο καθηγητή, οι μαθηματικοί εξεπλάγησαν όταν συνειδητοποίησαν ότι αυτό το chatbot θα μπορούσε να λύσει μερικά από τα πιο δύσκολα προβλήματα που έχουν λυθεί ποτέ στην ιστορία.
«Είδα συναδέλφους να λένε ευθέως ότι αυτό το μεγάλο γλωσσικό μοντέλο πλησιάζει το επίπεδο της μαθηματικής ιδιοφυΐας», δήλωσε στο Scientific American ο Ken Ono, καθηγητής στο Πανεπιστήμιο της Βιρτζίνια και πρόεδρος και κριτής της συνάντησης.
Το chatbot που τράβηξε την προσοχή μας υποστηρίζεται από το o4-mini , ένα μεγάλο μοντέλο γλώσσας (LLM) σχεδιασμένο για σύνθετη συλλογιστική. Είναι προϊόν του OpenAI και έχει εκπαιδευτεί να εκτελεί εξελιγμένη συλλογιστική. Το αντίστοιχο μοντέλο της Google, το Gemini 2.5 Flash, έχει παρόμοιες δυνατότητες.
Όπως και τα προηγούμενα LLM του ChatGPT, το o4-mini μαθαίνει να προβλέπει την επόμενη λέξη σε μια συμβολοσειρά κειμένου. Ωστόσο, το o4-mini είναι μια ελαφρύτερη, πιο ευέλικτη έκδοση, εκπαιδευμένη σε βαθιά δεδομένα και προσεκτικά ρυθμισμένη από ανθρώπους, επιτρέποντάς της να εμβαθύνει σε μαθηματικά προβλήματα που τα προηγούμενα μοντέλα δεν μπορούσαν να προσεγγίσουν.
Για να δοκιμάσει τις ικανότητες του o4-mini, η OpenAI ζήτησε από την Epoch AI, έναν μη κερδοσκοπικό οργανισμό που ειδικεύεται στη δοκιμή μοντέλων LLM, να δημιουργήσει 300 προηγουμένως αδημοσίευτες μαθηματικές ερωτήσεις. Ενώ τα παραδοσιακά LLM μπορούν να λύσουν πολλά σύνθετα προβλήματα, όταν τους ζητήθηκαν εντελώς νέες ερωτήσεις, οι περισσότεροι από αυτούς πέτυχαν λιγότερο από 2% σωστές απαντήσεις, γεγονός που υποδηλώνει ότι δεν ήταν πραγματικά ικανοί για συλλογισμό.
Στο νέο έργο αξιολόγησης, η Epoch AI προσέλαβε τον νεαρό μαθηματικό Δρ. Elliot Glazer ως επικεφαλής. Το νέο έργο, με την ονομασία FrontierMath , θα αναπτυχθεί από τον Σεπτέμβριο του 2024.
Το έργο συλλέγει νέες ερωτήσεις σε τέσσερα επίπεδα δυσκολίας, από προπτυχιακό, μεταπτυχιακό και προχωρημένη έρευνα. Μέχρι τον Απρίλιο του 2025, ο Glazer διαπίστωσε ότι το o4-mini μπορούσε να λύσει περίπου το 20% των προβλημάτων. Έτσι, προχώρησε στο επίπεδο 4 — ζητώντας του να λύσει προβλήματα με τα οποία θα δυσκολεύονταν ακόμη και οι προηγμένοι μαθηματικοί.
Οι συμμετέχοντες αναγκάστηκαν να υπογράψουν μια συμφωνία εμπιστευτικότητας και μπορούσαν να επικοινωνούν μόνο μέσω της κρυπτογραφημένης εφαρμογής Signal, καθώς η χρήση email θα μπορούσε να επιτρέψει στο LLM να σαρώσει και να «μυρίσει» το περιεχόμενο, παραποιώντας έτσι τα δεδομένα αξιολόγησης.
Κάθε πρόβλημα που το o4-mini δεν μπορεί να λύσει θα αποφέρει στον ερωτώντα ένα έπαθλο 7.500 δολαρίων ΗΠΑ.
Η αρχική ομάδα σημείωσε αργή αλλά σταθερή πρόοδο στη διατύπωση ερωτήσεων. Αλλά ο Glazer αποφάσισε να επιταχύνει τα πράγματα πραγματοποιώντας μια συνάντηση με φυσική παρουσία στις 17-18 Μαΐου. Οι 30 συμμετέχοντες μαθηματικοί χωρίστηκαν σε ομάδες των έξι, οι οποίοι ανταγωνίζονταν μεταξύ τους — όχι για να λύσουν προβλήματα, αλλά για να βρουν προβλήματα που η Τεχνητή Νοημοσύνη δεν μπορούσε να λύσει.
Το βράδυ της 17ης Μαΐου, ο Κεν Όνο άρχισε να απογοητεύεται με το chatbot, το οποίο έδειχνε ένα επίπεδο μαθηματικής επάρκειας πολύ πέρα από το αναμενόμενο, καθιστώντας δύσκολο για την ομάδα να το «παγιδεύσει». «Σκέφτηκα ένα πρόβλημα που οι ειδικοί στον τομέα θα αναγνώριζαν ως ανοιχτό πρόβλημα στη θεωρία αριθμών - ένα πρόβλημα κατάλληλο για διδακτορικό», είπε.
Ως αποτέλεσμα, όταν ρώτησε τον o4-mini, έμεινε έκπληκτος βλέποντας το chatbot να αναλύει, να συλλογίζεται και να καταλήγει στη σωστή λύση σε μόλις 10 λεπτά. Συγκεκριμένα, στα πρώτα δύο λεπτά, έμαθε και κατανόησε όλα τα σχετικά έγγραφα. Στη συνέχεια, πρότεινε να δοκιμάσει μια απλούστερη εκδοχή του προβλήματος για να μάθει πώς να το προσεγγίσει.
Πέντε λεπτά αργότερα, το chatbot έδωσε τη σωστή απάντηση, μιλώντας με έναν σίγουρο — ακόμη και αλαζονικό — τόνο. «Άρχισε να γίνεται θρασύ», λέει η Όνο, «Και πρόσθεσε: "Δεν χρειάζεται παράθεση γιατί ανακάλυψα τον μυστικό αριθμό!"».
Ηττημένος από την Τεχνητή Νοημοσύνη, νωρίς το πρωί της 18ης Μαΐου, ο Όνο έστειλε αμέσως ένα προειδοποιητικό μήνυμα στην ομάδα μέσω του Signal. «Ήμουν εντελώς απροετοίμαστος να αντιμετωπίσω ένα μοντέλο σαν κι αυτό», είπε. «Δεν είχα ξαναδεί τέτοιου είδους συλλογισμό σε ένα μοντέλο υπολογιστή. Σκεφτόμουν όπως θα σκεφτόταν ένας πραγματικός επιστήμονας . Και αυτό ήταν τρομακτικό».
Παρόλο που οι μαθηματικοί κατάφεραν τελικά να βρουν 10 ερωτήσεις που άφησαν το o4-mini άναυδο, δεν μπορούσαν να κρύψουν το σοκ τους από την ταχύτητα ανάπτυξης της Τεχνητής Νοημοσύνης σε μόλις ένα χρόνο.
Η Όνο συγκρίνει την εμπειρία της εργασίας με το o4-mini με τη συνεργασία με έναν πολύ ταλαντούχο συνάδελφο. Και ο Γιανγκ Χούι Χε, μαθηματικός στο Ινστιτούτο Μαθηματικών Επιστημών του Λονδίνου και πρωτοπόρος στην εφαρμογή της Τεχνητής Νοημοσύνης στα μαθηματικά, σχολιάζει: «Αυτό μπορεί να κάνει ένας πολύ, πολύ ταλαντούχος διδακτορικός φοιτητής — και ακόμη περισσότερα».
Και πρέπει να σημειωθεί ότι η Τεχνητή Νοημοσύνη το κάνει πολύ πιο γρήγορα από τους ανθρώπους. Ενώ οι άνθρωποι χρειάζονται εβδομάδες ή μήνες για να το λύσουν, το o4-mini χρειάζεται μόνο λίγα λεπτά.
Ο ενθουσιασμός γύρω από το o4-mini δεν είναι χωρίς ανησυχίες. Τόσο η Ono όσο και ο He προειδοποιούν ότι οι δυνατότητες του o4-mini μπορούν να κάνουν τους ανθρώπους να αισθάνονται υπερβολικά σίγουροι. «Έχουμε απόδειξη μέσω επαγωγής, απόδειξη μέσω αντίφασης και τώρα απόδειξη μέσω... συντριπτικής πλειοψηφίας», λέει ο He. «Αν πεις κάτι με αρκετή σιγουριά, οι άνθρωποι θα τρομάζουν. Νομίζω ότι το o4-mini έχει κατακτήσει αυτό το είδος απόδειξης: λέει τα πάντα με μεγάλη σιγουριά».
Καθώς η συνάντηση τελείωσε, οι μαθηματικοί άρχισαν να σκέφτονται το μέλλον των μαθηματικών. Συζήτησαν την πιθανότητα ενός «πέμπτου επιπέδου» — ερωτήματα που ακόμη και οι καλύτεροι μαθηματικοί του κόσμου δεν μπορούν να λύσουν. Εάν η Τεχνητή Νοημοσύνη φτάσει σε αυτό το όριο, ο ρόλος των μαθηματικών θα αλλάξει δραματικά: ίσως γίνουν ερωτώντες, αλληλεπιδρώντας και καθοδηγώντας τη συλλογιστική της Τεχνητής Νοημοσύνης για να ανακαλύψουν νέες μαθηματικές αλήθειες — παρόμοια με τον τρόπο που ένας καθηγητής συνεργάζεται με έναν μεταπτυχιακό φοιτητή.
«Λέω στους συναδέλφους μου εδώ και πολύ καιρό ότι θα ήταν τεράστιο λάθος να πιστεύουμε ότι η γενική Τεχνητή Νοημοσύνη δεν θα υπάρξει ποτέ, ότι είναι απλώς ένας υπολογιστής», είπε η Όνο. «Δεν θέλω να πανικοβληθώ, αλλά κατά κάποιο τρόπο αυτά τα μεγάλα γλωσσικά μοντέλα αρχίζουν ήδη να ξεπερνούν τους περισσότερους από τους καλύτερους διδακτορικούς φοιτητές στον κόσμο».
Πηγή: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
Σχόλιο (0)