A ChatGPT legnagyobb versenytársa

A Google Gemini logó. Fotó: Bloomberg .

A Google november végén mutatta be a Gemini 3 modellt. A vállalat számos figyelemre méltó fejlesztést vezetett be, például továbbfejlesztett kódolási képességeket, vizuális képalkotást és ügynököket, amelyek bizonyos feladatokat végeznek el a felhasználó nevében.

A Gemini 3 bemutatásakor a Google hangsúlyozta, hogy ez a vállalat „eddigi legokosabb modellje”. A valós tapasztalatok azt mutatják, hogy a modell gyorsabban dolgozza fel a feladatokat és jobb érvelési képességekkel rendelkezik, bár még mindig vannak fejlesztésre szoruló területek.

Interaktív felületek gyors létrehozása.

A Gemini 3 egyik legfontosabb fejlesztése a Canvashoz kapcsolódik. Ez egy interaktív munkaterület a Gemini-n belül, amely lehetővé teszi, hogy chatbotokat kérj meg kód írására, eredmények vizualizálására és tartalom szerkesztésére.

Amikor a Gemini 3-at arra kérik, hogy készítsen egy 3D-s modellt egy futball-labda, a Föld, a Nap és a Tejútrendszer méretkülönbségéről, az eszköz aktivál egy kódoló felületet, feldolgozza és létrehoz egy interaktív környezetet, amely lehetővé teszi a felhasználók számára, hogy kiválasszák és összehasonlítsák az objektumok méretét.

Gemini 3 la gi, danh gia Gemini 3, mo hinh Gemini 3, Google Gemini 3 Pro anh 1

Interaktív terek létrehozásának lehetősége a Gemini 3 Canvas funkciójával.

A Google demójához képest az eredmények képminőségben kissé gyengébbek. Az objektumokról szóló információk azonban világosak és könnyen érthetőek. A feldolgozási idő körülbelül 2 perc. A Canvas felületén a felhasználók közvetlenül szerkeszthetik a kódot, másolhatják vagy megoszthatják a tartalmat.

Egy másik paranccsal a Gemini 3-at arra kérték, hogy készítsen egy 3D-s kocka stílusú (voxel) modellt egy faágon ülő sasról. Az eszköz körülbelül 45 másodperc alatt elkészítette az eredményt, a felhasználók pedig az egérrel nagyíthatták és forgathatták a nézetet. A kép egyes részletei azonban grafikai hibákat tartalmaztak, és nem jelentek meg stabilan.

A faágon ülő sas is jelen volt, de a követelmény (egy 3D-s modell) nehezebb volt. A Gemini 3 által generált kód kezdetben hibás volt és nem futott. A módosítások kérése után a kép megjelent és interaktívvá vált.

Gemini 3 la gi, danh gia Gemini 3, mo hinh Gemini 3, Google Gemini 3 Pro anh 2

A Gemini 3 interaktív környezetek létrehozásának képessége.

Néhány fennmaradó probléma ellenére a kérdés-felelet modellről az együttműködésen alapuló, szerkesztésen alapuló megközelítésre való áttérés érdekes irány, így a Gemini 3 hasznos lehet összetett, hosszú távú feladatokhoz.

Természetesen a Gemini 3 nem csak grafikák vagy vizuális modellek készítésére szolgál. A Google egy „Generatív felhasználói felület” funkciót tesztel az AI Pro felhasználók számára. Bizonyos parancsokkal a modell interaktív, magazin stílusú felületeket vagy vizuális weboldalakat hozhat létre.

A Google szerint ezt a funkciót szakaszosan vezetik be. A The Verge tapasztalatai szerint a felhasználóknak ki kell választaniuk a Vizuális elrendezés funkciót, majd be kell írniuk egy parancsot, például a „3 napos római utazás megtervezése” parancsot.

A feldolgozás után a Gemini 3 egy utazási weboldalhoz hasonló eredményeket generál, útitervekkel, részletes képekkel és néhány kérdéssel az utazási preferenciákkal és étkezési szokásokkal kapcsolatban. A modell ezután ennek megfelelően módosítja a válaszokat. Ez a funkció olyan témákban is hasznos, mint például a számítógép összeszerelése vagy az akvárium építése.

Hatékonyabb érvelés és elemzés.

A Google szerint a Gemini 3 jobb érvelési képességekkel rendelkezik, mint elődje. A cég azt állítja, hogy a Gemini 3 Pro érvelési képessége eléri a doktori szintet, 37,5%-os eredményt elérve a Humanity's Last Exam és 91,9%-os eredményt a GPQA Diamond vizsgán.

Természetesen a felhasználók csak akkor értékelhetik igazán a különbséget, ha közvetlenül a modellel interakcióba lépnek. Amikor a GPQA Diamond referenciakérdéskészletéből (doktori szintre fókuszálva) származó probléma megoldására kérték őket, a Gemini 3 Pro körülbelül 30 másodperc alatt részletes megoldást adott, lépésről lépésre utasításokkal és szemléltető képekkel.

Gemini 3 la gi, danh gia Gemini 3, mo hinh Gemini 3, Google Gemini 3 Pro anh 3

Az Ikrek 3 képes összetett kérdésekre válaszolni, PhD szintű gondolkodási képességeket mutatva.

Az értékelés szerint a megoldás meglehetősen részletes és a helyes eljárást követi. Összehasonlításképpen, a GPT-5.1 esetében is körülbelül 30 másodpercre volt szükség a helyes válaszadáshoz, de a megoldás kevésbé volt részletes. Hasonlóképpen, a Claude 4.5 Sonnet is helyesen és gyorsabban válaszolt, mint a Gemini 3, de kevésbé részletes volt.

A Google szerint a Gemini 3 képes dokumentumokat egyszerre több forrásból kinyerni, például szövegből, képekből és videókból . A Gemini 3 olyan feladatokat is jobban kezel, amelyeket korábban még nem tanítottak be.

Gemini 3 la gi, danh gia Gemini 3, mo hinh Gemini 3, Google Gemini 3 Pro anh 4

A Gemini 3 videóelemző képességei.

Például, amikor egy 57 perces videó fő témájának elemzésére kérték a Gemini 3-at, mindössze körülbelül egy percre volt szüksége ahhoz, hogy eredményeket szolgáltasson, beleértve a kért argumentumokat és az időbélyegeket a videó megfelelő szegmenséhez. Hasonlóképpen, a modell helyesen azonosított egy teniszvideót, elemezve a mérkőzéseket és az egyes sportolók játékstílusát.

A felhasználók megkérhetik a Gemini 3-at, hogy egyszerre nézzen videókat és hivatkozzon külső forrásokra, sőt, mélyebb elemzés céljából kérdéseket is feltehessenek. Összességében a Gemini 3 meglehetősen gyorsan reagál az elemzési és dokumentumhivatkozási feladatokra, részben a Google Search adatbázisával való kapcsolatának köszönhetően.

Az ügynök segítőkész, de még mindig vannak problémák.

Az Agent funkció szintén figyelemre méltó fejlesztés a Gemini 3-on. Az AI Ultra csomag (jelenleg csak az amerikai piacon érhető el) felhasználói számára ez a mód összetett feladatokat is elvégezhet a felhasználó nevében, például e-mailek kategorizálását és rendszerezését, információk keresését és utazási jegyek foglalását.

A Gemini 3 indításakor a Google a Gmailben a beérkező levelek rendszerezésének lehetőségét használta példaként. A The Verge tapasztalatai szerint ez a funkció pontosan úgy működik, ahogyan kérték: egy hétig olvasatlan e-mailek teljes listáját készíti.

A Canvas funkcióhoz hasonlóan az e-mail listák és a javasolt műveletek külön területen jelennek meg. A Gemini számos lehetőséget kínál, például emlékeztetők beállítását a fontos e-mailekhez, promóciós e-mailek archiválását stb.

Gemini 3 la gi, danh gia Gemini 3, mo hinh Gemini 3, Google Gemini 3 Pro anh 5

A Gemini 3 ügynöki funkciója segít a Gmail beérkező leveleinek kezelésében. Kép: The Verge .

Amikor a rendszer kéri a számlafizetési emlékeztető létrehozását, a Gemini gyorsan beírja a vonatkozó információkat a Google Tasksbe. A fizetési feladatnál az ügynök automatikusan navigál, és megáll, amikor a felhasználónak meg kell adnia a fizetési információkat.

Összességében a Gemini 3 ügynöke meglehetősen hasznos az olyan e-mailek észlelésében, amelyeket a felhasználók hajlamosak elfelejteni. Az eszköz képes megtalálni és leiratkozni a hirdetési címekről érkező, már nem hasznos e-mailekről is.

Valójában egyes chatbotok, mint például a Perplexity és a ChatGPT ügynökei már támogatják a Gmaillel való integrációt. A Gemini azonban a legváltozatosabb integrációs lehetőségeket kínálja. Például a Perplexity felhasználóinak konkrétan meg kell adniuk, hogy mely e-maileket szeretnék megtartani vagy törölni, míg ezek a műveletek a Gemini gombjain keresztül végrehajthatók.

Gemini 3 la gi, danh gia Gemini 3, mo hinh Gemini 3, Google Gemini 3 Pro anh 6

A Gemini 3 interaktív felületkészítő funkciója. Fotó: The Verge .

A ChatGPT e-mail-rendezési funkciója szintén instabil. A Gemini e-mail-küldési sebessége azonban lassabb, mint a Perplexityé. Egyes feladatok, például az éttermi asztalfoglalás, időnként problémákba ütközhetnek.

Bár a bizalmas műveletek, például a fizetések vagy az e-mailek küldése előtt mindig felhasználói jóváhagyás szükséges, bizonyos feladatok mesterséges intelligenciára való delegálása továbbra is habozást vált ki a felhasználókból. A Gemini 3 ügynöki módja meglehetősen hasznos, de a felhasználóknak továbbra is figyelniük kell a kimenetet.

Forrás: https://znews.vn/gemini-3-tot-den-dau-post1607493.html