Genom att använda kontradiktoriska träningsmetoder för att låta AI generera ny data publicerades forskningen av två studenter från Ho Chi Minh City University of Technology på AAAI - världens ledande AI-konferens.
Forskningen om flerspråkig modellträning med AI för att skapa synonymer, utförd av Pham Khanh Trinh och Le Minh Khoi, 23 år, publicerades i dokumenten från AAAI-24-konferensen om artificiell intelligens, som hölls i slutet av februari i Vancouver, Kanada.
Docent Dr. Quan Thanh Tho, biträdande dekanus vid fakulteten för datavetenskap och teknik, Ho Chi Minh City University of Technology, bedömde detta som ett berömvärt resultat. Herr Tho sa att AAAI anses av forskare och experter vara av högsta kvalitet vid vetenskapliga konferenser inom datavetenskap och artificiell intelligens, med en mycket låg andel artiklar som accepterats i år på 23,75 %.
Minh Khoi och Khanh Trinh (mitten) under sitt examensarbete 2023. Foto: Tillhandahållen av karaktären
Med samma passion för djupinlärning och naturlig språkbehandling valde Trinh och Khoi att forska om stora språkmodeller (LLM). Båda ville ta reda på begränsningarna med LLM:er och förbättra dem.
Khanh Trinh sa att Chat GPT:er eller LLM:er behöver tränas på en enorm mängd textdata för att skapa korrekta och mångsidiga svar för användarna. De två pojkarna insåg att med mindre populära språk som hindi, kazakiska eller indonesiska, ger Chat GPT:er och LLM:er ofta oväntade resultat eftersom de inte har studerat dessa språk så mycket, eller att dessa språk inte har tillräckligt med data för att de ska kunna lära sig.
”Varför skapar vi inte mer textdata från de ’lilla resurserna’ som dessa språk har för att träna AI:n ytterligare?”, frågade de två manliga studenterna. Därifrån föddes LAMPAT-modellen (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) – flerspråkig tolkning med hjälp av den adversarial training-metod som Trinh och Khoi forskat på.
LAMPAT kan generera en synonym från en given inmatningsmening för att generera mer textdata. Förklaringen "adversarial training" är en relativt ny metod för att träna stora språkmodeller. Givet en inmatningsmening genererar applikationen med traditionella träningsmetoder en utmatningsmening. Men med adversarial training kan applikationen kommentera och redigera utmatningsmeningen, "adversarial" till sig själv för att generera fler meningar.
LAMPATs flerspråkighet ligger i att modellen integrerar 60 språk samtidigt. Baserat på de insamlade datamängderna fortsätter teamet att träna LAMPAT för att generera synonymer. Mängden textdata som genereras från LAMPAT kommer att fortsätta användas för att träna LLM:er så att dessa modeller kan lära sig många olika sätt att uttrycka information för samma innehåll, och därigenom ge olika svar med högre sannolikhet att vara korrekta. Med denna funktion tror teamrepresentanten att LAMPAT kan integreras i applikationer som ChatGPT för att ytterligare finslipa modellen.
Dessutom tvingar bristen på data för Chat GPT eller LLM:er vissa företag att leta efter många externa källor som böcker, tidningar, bloggar,... utan att uppmärksamma upphovsrättsfrågor. Att skapa synonymer är också ett sätt att begränsa plagiat och upphovsrättsintrång, enligt Khanh Trinh.
Nam Sinh gav ett exempel på applikationer som Chat GPT. När en användare begär en sammanfattning av en befintlig text A genererar applikationen en sammanfattningstext B. Om gruppens forskningsmetod är integrerad, genererar applikationen flera texter med samma innehåll A1, A2, A3 baserat på mekanismen för att generera synonymer när texten tas emot A. Från vilka texten sammanfattas och många resultat produceras för användaren att välja mellan.
Under den inledande forskningsperioden hade teamet svårt att förbereda utvärderingsdata för 60 språk. Eftersom de inte kunde få tillgång till en tillräckligt stor mängd data sammanställde teamet en mångsidig och komplett datamängd med 13 språk för att objektivt utvärdera modellen, inklusive: vietnamesiska, engelska, franska, tyska, ryska, japanska, kinesiska, spanska, ungerska, portugisiska, svenska, finska och tjeckiska. Detta är också en tillförlitlig datamängd för det sista steget i den mänskliga utvärderingen.
Minh Khoi (vänster) och Khanh Trinh (höger) tog ett minnesfoto med läraren Quan Thanh Tho på examensdagen i november 2023. Foto: Tillhandahållet av karaktären
För vart och ett av språken engelska, vietnamesiska, tyska, franska och japanska valde teamet slumpmässigt ut 200 meningspar (ett par bestående av den utgående meningen och rätt etikett) för utvärdering. För vart och ett av ovanstående språk bad teamet fem språkexperter att oberoende poängsätta dem, baserat på tre kriterier: semantisk bevarande; ordval och ordförrådslikhet; samt flyt och sammanhang i den utgående meningen. Skalan beräknades från 1 till 5. Som ett resultat varierade det genomsnittliga utvärderingsresultatet från språkexperter på dessa fem språk från 4,2 till 4,6/5 poäng.
Exemplet visar ett par vietnamesiska meningar som får poängen 4,4/5, där inmatningsmeningen är: "Han förklarade problemet i detalj", och utmatningsmeningen är: "Han förklarade problemet i detalj".
Men det finns också meningspar med dålig kvalitet och felaktig semantik, som meningsparet "Vi äter medan soppan är varm - Vi äter soppa medan vi är varma", vilket bara får 2/5 poäng.
Khanh Trinh sa att det tog 8 månader att undersöka och slutföra projektet. Detta är också ämnet för Trinh och Khois examensarbete. Avhandlingen rankades först i Datavetenskapsrådet 2 med 9,72/10 poäng.
Enligt Mr. Quan Thanh Tho, även om LAMPAT har visat sin skicklighet i att generera människoliknande synonymfraser på flera språk, behöver det fortfarande förbättras för att hantera idiom, folksånger och ordspråk på olika språk.
Dessutom omfattar teamets utvärderingsdata endast 13 språk, vilket fortfarande utelämnar många, särskilt minoritetsspråk. Därför behöver teamet göra forskning för att förbättra och utöka kapaciteten hos nuvarande flerspråkiga tolkningsmodeller. Härifrån kan vi undanröja språkbarriären mellan länder och etniska grupper.
I slutet av 2023 tog Trinh och Khoi examen med en kandidatexamen i datavetenskap med utmärkelse och utmärkelse, med ett medelbetyg (GPA) på 3,7 respektive 3,9/4. Båda planerar att studera utomlands för en masterexamen och bedriva forskning inom artificiell intelligens och maskininlärning.
"Vi fortsätter att undersöka detta ämne med målet att tillämpa LAMPAT mer i kommande vetenskapliga projekt och skapa en pålitlig flerspråkig produkt för användarna", delade Trinh.
Le Nguyen
[annons_2]
Källänk






Kommentar (0)