Qwen3 — новая технология, запущенная Alibaba. Фото: Reuters . |
28 апреля китайский технологический гигант Alibaba запустил серию моделей искусственного интеллекта под названием Qwen3. Компания утверждает, что этот чат-бот может сравниться с лучшими текущими моделями OpenAI и Google, а в некоторых случаях даже превзойти их.
Qwen3, имеющий размер до 235 миллиардов параметров, сопоставим с DeepSeek-V2 и OpenAI GPT-4, которые имеют около 236 и 175 миллиардов параметров соответственно. Пользователи вскоре смогут скачать Qwen3 по открытой лицензии на платформе разработки ИИ Hugging Face и Github после выхода серии моделей.
Компания заявляет, что коллекция Qwen3 включает гибридные модели, то есть они могут гибко рассуждать для решения сложных задач или быстро реагировать на простые запросы. В этом случае способность к рассуждению позволяет модели самостоятельно проверять точность информации, но ценой высокой задержки.
Такая конструкция позволяет пользователям легко выделять соответствующий бюджет для каждой конкретной задачи. Кроме того, эта модель учитывает опыт многих конкурентов по всему миру .
Используя архитектуру «смешанных экспертов» (MoE), аналогичную DeepSeek, Qwen3 может максимизировать вычислительную эффективность при минимальной стоимости обучения. Это метод разбиения задачи на отдельные части и рекомендации только того объёма глубоких данных, который необходим для её выполнения.
По данным команды разработчиков, Qwen3 поддерживает до 119 языков и обучается на наборе данных, состоящем почти из 36 триллионов токенов, что эквивалентно 27 триллионам слов. Данные для обучения берутся из множества источников, таких как учебники, наборы вопросов и ответов, программный код или самогенерируемый ИИ.
Эти улучшения, наряду со многими другими, значительно расширили возможности чат-бота по сравнению с его предшественником Qwen2. Techcrunch отмечает, что, хотя Qwen 3 всё ещё не превосходит топовые модели, такие как o3 или o4-mini от OpenAI, он всё же демонстрирует впечатляющую производительность.
![]() |
Сравнение результатов оценочных тестов. Фото: Qwen/X. |
Qwen-3-235B-A22B, самая большая модель в коллекции, обошла OpenAI o3-mini и Google Gemini 2.5 Pro на Codeforces , популярной платформе для соревнований по программированию. Она также превзошла o3-mini в математических задачах AIME и BFCL, которые оценивают способность модели к рассуждению.
Qwen-3-235B-A22B пока официально не выпущен. Тем временем пользователи могут скачать Qwen3-32B. Эта модель превзошла OpenAI o1 по нескольким тестам, включая тест программирования LiveCodeBench.
По данным Alibaba, Qwen3 превосходно справляется с вызовом инструментов, выполнением инструкций и точным копированием форматов данных, чего не хватает многим другим инструментам. Исследования Университета Карнеги-Меллона показали, что многие ИИ фальсифицируют информацию и изменяют форматы, несмотря на определённые инструкции.
Помимо загрузки на вышеупомянутых платформах, пользователи могут найти Qwen3 через облачных провайдеров, таких как Fireworks AI и Hyperbolic. Это позволяет крупным и малым предприятиям, а также отдельным программистам получать доступ к проекту и экспериментировать с ним, невзирая на препятствия.
Появление китайских ИИ, таких как Qwen, усилило давление на американские исследовательские лаборатории, заставив их разрабатывать более мощные технологии, что побудило политиков США ввести ограничения на доступ Китая к чипам.
Тухин Шривастава, генеральный директор компании Baseten, занимающейся облачным хостингом ИИ, отметил, что Qwen3 — это еще один пример того, как модель с открытым исходным кодом догоняет системы с закрытым исходным кодом, такие как OpenAI.
Qwen3, несомненно, продолжит широко использоваться внутри страны, несмотря на ограничения правительства США. «Это показывает, что китайские технологические компании могут не только опираться на существующие модели, такие как Anthropic и OpenAI, но и разрабатывать собственное программное обеспечение», — сказал он.
Источник: https://znews.vn/them-loat-ai-manh-me-tu-trung-quoc-post1549756.html
Комментарий (0)