Компанії з материкового Китаю скорочують витрати, створюючи моделі, навчені на менших обсягах даних, що вимагають меншої обчислювальної потужності, але оптимізованого обладнання, сказав Лі Кай-Фу, засновник 01.ai та колишній керівник Google China.

Згідно з рейтингом, нещодавно оголошеним UC Berkeley SkyLab та LMSYS, модель Yi-Lingtning стартапу 01.ai посіла третє місце, розділивши його з Grok-2 від x.AI, поступаючись OpenAI та Google. Цей рейтинг базується на оцінках користувачів за відповіді на запити.

2d82e5b153faa85bf01e3f82affa4e298ec4f24e.avif.jpg
Зниження вартості операцій зі штучним інтелектом – це спосіб для Китаю конкурувати зі США. Фото: FT

01.ai та DeepSeek – це материкові компанії зі штучного інтелекту, які застосовують стратегію зосередження на менших наборах даних для навчання моделей, одночасно наймаючи дешеву, висококваліфіковану робочу силу.

FT повідомила, що вартість виведення Yi-Lightning становить 14 центів за мільйон токенів, порівняно з 26 центами для GPT o1-mini від OpenAI. Тим часом, GPT 4o коштує до 4,40 доларів за мільйон токенів. Кількість токенів, що використовуються для генерації відповіді, залежить від складності кожного запиту.

Засновники Yi-Lightning розповіли, що компанія витратила 3 ​​мільйони доларів на «початкове навчання», перш ніж провести доопрацювання для різних випадків використання. Лі сказав, що їхньою метою було «не створити найкращу модель», а побудувати конкуруючу модель, яка була б «у 5-10 разів дешевшою».

Метод, який застосували 01.ai, DeepSeek, MiniMax та Stepfun, називається «експертним моделюванням» – що просто означає об’єднання кількох нейронних мереж, навчених на специфічних для предметної області наборах даних.

Дослідники розглядають цей підхід як ключовий спосіб досягнення такого ж рівня інтелекту, як у моделей великих даних, але з меншою обчислювальною потужністю. Однак складність цього підходу полягає в тому, що інженери повинні організувати процес навчання з «кількома експертами», а не лише з однією загальною моделлю.

Через труднощі з доступом до високоякісних чіпів штучного інтелекту, китайські компанії звернулися до розробки високоякісних наборів даних, які можна використовувати для навчання експертних моделей, тим самим конкуруючи із західними конкурентами.

Лі сказав, що 01.ai має нетрадиційні способи збору даних, такі як сканування книг або збір статей у додатку для обміну повідомленнями WeChat, які недоступні на відкритому вебсайті.

Засновник вважає, що Китай має кращі позиції, ніж США, з його величезним резервом дешевих технічних талантів.

(За даними FT, Bloomberg)

Meta запускає модель штучного інтелекту з «самонавчанням» . Гігант соціальних мереж Meta щойно анонсував нову модель штучного інтелекту з функцією самонавчальної оцінки (STE), яка може звузити втручання людини в процес розробки штучного інтелекту.