OpenAIs chatbot fortsätter att förbättras genom nya tekniker. Foto: New York Times . |
I september 2024 släppte OpenAI en version av ChatGPT som integrerar o1-modellen, som kan resonera kring uppgifter relaterade till matematik, naturvetenskap och datorprogrammering.
Till skillnad från den tidigare versionen av ChatGPT kommer den nya tekniken att ta tid att "tänka" på lösningar på komplexa problem innan den ger ett svar.
Efter OpenAI introducerade många konkurrenter som Google, Anthropic och DeepSeek liknande resonemangsmodeller. Även om det inte är perfekt är detta fortfarande en teknik för att förbättra chatbotar som många utvecklare litar på.
Hur AI resonerar
I grund och botten innebär resonemang att chatboten kan lägga mer tid på att lösa problemet som användaren presenterar.
”Resonemang är hur systemet utför ytterligare arbete efter att det fått en fråga”, sa Dan Klein, professor i datavetenskap vid University of California, till New York Times .
Resonemangssystemet kan dela upp ett problem i enskilda steg, eller lösa det genom trial and error.
När ChatGPT först lanserades kunde det svara på frågor direkt genom att extrahera och syntetisera information. Samtidigt behövde resonemangssystemet några sekunder (eller till och med minuter) till för att lösa problemet och ge ett svar.
![]() |
Exempel på resonemangsprocessen för o1-modellen i en kundtjänstchatbot. Foto: OpenAI . |
I vissa fall kommer resonemangssystemet att ändra sitt tillvägagångssätt för problemet och kontinuerligt förbättra lösningen. Alternativt kan modellen prova flera lösningar innan den bestämmer sig för det optimala valet, eller testa noggrannheten i tidigare svar.
I allmänhet kommer resonemanget att beakta alla möjliga svar på frågan. Det är som en grundskoleelev som skriver ner många möjliga svar på ett papper innan han väljer det lämpligaste sättet att lösa ett matteproblem.
Enligt New York Times kan AI nu resonera om vilket ämne som helst. Uppgiften kommer dock att vara mest effektiv med frågor relaterade till matematik, naturvetenskap och datorprogrammering.
Hur tränas det teoretiska systemet?
I en typisk chatbot kan användare fortfarande be om en förklaring av processen eller kontrollera om ett svar är korrekt. Faktum är att många ChatGPT-träningsdataset redan inkluderar en problemlösningsprocess.
Ett resonemangssystem går ännu längre när det kan utföra en handling utan att användaren behöver be om det. Processen är mer komplex och långtgående. Företag använder ordet "resonemang" eftersom systemet fungerar på ett liknande sätt som mänskligt tänkande.
Många företag som OpenAI satsar på att resonemangssystem är det bästa sättet att förbättra chatbotar. I åratal trodde de att chatbotar skulle fungera bättre om de utbildades på så mycket information som möjligt på internet.
År 2024 kommer AI-system att ha konsumerat nästan all text som finns tillgänglig på internet. Det innebär att företag kommer att behöva hitta nya lösningar för att uppgradera chatbotar, inklusive resonemangssystem.
![]() |
Startupföretaget DeepSeek "orsakade en gång uppståndelse" med en resonemangsmodell som kostade mindre än OpenAI. Foto: Bloomberg . |
Sedan förra året har företag som OpenAI fokuserat på en teknik som kallas förstärkningsinlärning, en process som vanligtvis tar flera månader, där AI lär sig beteende genom trial and error.
Genom att till exempel lösa tusentals problem kan systemet lära sig den optimala metoden för att få rätt svar. Därifrån byggde forskarna komplexa feedbackmekanismer som hjälper systemet att lära sig rätt och fel lösningar.
”Det är som att träna en hund. Om den är bra ger du den en godbit. Om den är dålig säger du: ’Den där hunden är dålig’”, säger Jerry Tworek, forskare på OpenAI.
Är AI framtiden?
Enligt New York Times fungerar förstärkningsinlärning bra med frågor inom matematik, naturvetenskap och datorprogrammering, där det finns tydligt definierade rätt eller fel svar.
Däremot är förstärkningsinlärning inte lika effektivt inom kreativt skrivande, filosofi eller etik, områden där det är svårt att skilja mellan bra och dåligt. Men forskare säger att tekniken fortfarande kan förbättra AI-prestanda, även på frågor utanför matematik.
”System kommer att lära sig de vägar som leder till positiva och negativa resultat”, säger Jared Kaplan, vetenskapschef på Anthropic.
![]() |
Hemsida för Anthropic, startupföretaget som äger AI-modellen Claude. Foto: Bloomberg . |
Det är viktigt att notera att förstärkningsinlärning och resonemangssystem är två olika koncept. Mer specifikt är förstärkningsinlärning en metod för att bygga resonemangssystem. Detta är det sista träningssteget för att chatbotar ska ha resonemangsförmåga.
Eftersom de fortfarande är relativt nya kan forskare inte vara säkra på om resonemangsbaserade chatbotar eller förstärkningsinlärning kan hjälpa AI att tänka som människor. Det är viktigt att notera att många nuvarande trender inom AI-träning utvecklas mycket snabbt i början och sedan gradvis planas ut.
Dessutom kan resonemangsbaserade chatbotar fortfarande göra misstag. Baserat på sannolikhet kommer systemet att välja den process som är mest lik den data det har lärt sig, oavsett om den kommer från internet eller genom förstärkningsinlärning. Därför kan chatbotar fortfarande välja fel eller orimlig lösning.
Källa: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html













Kommentar (0)