Qwen3, az Alibaba által bevezetett új technológia. Fotó: SCMP . |
A mesterséges intelligencia világának legfrissebb benchmark tesztjei szerint az Alibaba újonnan kiadott mesterséges intelligencia modellje, a Qwen3 megelőzte a DeepSeek R1-ét, és a világ legmagasabb rangú nyílt forráskódú modellje lett.
Konkrétan a LiveBench, egy független platform adatai, amely a nagy nyelvi modelleket (LLM-eket) – a generatív mesterséges intelligencia szolgáltatások, például a ChatGPT alapjául szolgáló technológiát – teszteli, azt mutatják, hogy a Qwen3 felülmúlta az R1-et a tesztekben.
A nyílt forráskódú mesterséges intelligencia modellek képességeinek áttekintése magában foglalja a programozást, a matematikát, az adatelemzést és a nyelvi oktatást.
Az Alibaba április 28-án adta ki a Qwen3 nevű mesterséges intelligencia modellsorozatát. A vállalat azt állítja, hogy ez a chatbot összehasonlítható, sőt bizonyos esetekben felül is múlhatja az OpenAI vagy a Google jelenleg elérhető legjobb modelljeit.
Akár 235 milliárd paraméterrel a Qwen3 felveszi a versenyt a DeepSeek-V2 és az OpenAI GPT-4 modellekkel, amelyek körülbelül 236, illetve 175 milliárd paraméterrel rendelkeznek. A felhasználók hamarosan letölthetik nyílt licenc alatt a Hugging Face mesterséges intelligencia fejlesztő platformról és a Githubról, amint megjelenik a modellsorozat.
A cég szerint a Qwen3 kollekció hibrid modelleket is tartalmaz, ami azt jelenti, hogy rugalmasan tudják felhasználni az időt a következtetések levonására, hogy összetett problémákat oldjanak meg, vagy gyorsan reagáljanak az egyszerű kérésekre. Ebben az esetben a következtetés lehetővé teszi a modell számára az információk pontosságának önellenőrzését, de nagy késleltetéssel jár.
Ez a kialakítás megkönnyíti a felhasználók számára, hogy minden egyes feladathoz megfelelő költségvetést rendeljenek. Ezenkívül ez a modell a világ számos versenytársától is tanul.
A DeepSeekhez hasonló „szakértők keveréke” (MoE) architektúra használatával a Qwen3 a betanítási költségek töredékéért maximalizálhatja a számítási hatékonyságot. Ez egy olyan megközelítés, amely a feladatot különálló részekre bontja, és csak annyi mély adatot javasol, amennyit végre kell hajtani.
A fejlesztőcsapat szerint a Qwen3 akár 119 nyelvet is támogat, és közel 36 000 milliárd tokenből álló adathalmazon képzik, ami 27 000 milliárd szónak felel meg. A betanítási adatokat számos forrásból, például tankönyvekből, kérdés-válasz készletekből, programozási kódból vagy saját generált mesterséges intelligenciából nyerik...
Annak ellenére, hogy a nyílt forráskódú rangsor élén áll, a LiveBench átfogó tesztjei azt mutatják, hogy a Qwen3 lemarad a világ vezető zárt forráskódú MI-modelljei mögött, nevezetesen az OpenAI o3-a, a Google Gemini Pro 2.5-e és az Anthropic Claude 3.7-e mögött.
Jelenleg az OpenAI Microsoft által támogatott csúcsmodellje, az o3-mini high áll a világ összesített AI-modell rangsorának élén.
Forrás: https://znews.vn/deepseek-bi-soan-ngoi-post1551500.html










Hozzászólás (0)