Qwen3, uma nova tecnologia lançada pela Alibaba. Foto: SCMP . |
De acordo com os mais recentes testes de benchmark do mundo da IA, o modelo de inteligência artificial Qwen3, recém-lançado pela Alibaba, ultrapassou o R1 do DeepSeek e se tornou o modelo de código aberto com a melhor classificação do mundo .
Especificamente, os dados do LiveBench, uma plataforma independente que avalia modelos de linguagem de grande porte (LLMs), a tecnologia que sustenta serviços de IA generativa como o ChatGPT, mostram que o Qwen3 superou o R1 nos testes.
A análise das capacidades dos modelos de IA de código aberto inclui programação, matemática, análise de dados e ensino de idiomas.
A Alibaba lançou, em 28 de abril, a série de modelos de IA chamada Qwen3. A empresa afirma que esse chatbot pode ser comparável e até mesmo superar, em alguns casos, os melhores modelos atualmente disponíveis da OpenAI ou do Google.
Com um tamanho de até 235 bilhões de parâmetros, o Qwen3 se equipara ao DeepSeek-V2 e ao OpenAI GPT-4, que possuem cerca de 236 bilhões e 175 bilhões de parâmetros, respectivamente. Os usuários poderão baixá-lo em breve sob uma licença aberta na plataforma de desenvolvimento de IA Hugging Face e no GitHub, assim que a série de modelos for lançada.
A empresa afirma que a coleção Qwen3 inclui modelos híbridos, o que significa que eles podem ajustar seu tempo para inferir e resolver problemas complexos ou responder rapidamente a solicitações simples. Nesse caso, a inferência permite que o modelo verifique a precisão das informações por conta própria, mas isso acarreta alta latência.
Este design facilita aos usuários a alocação do orçamento adequado para cada tarefa específica. Além disso, este modelo também aprende com diversos concorrentes ao redor do mundo.
Utilizando uma arquitetura de "mistura de especialistas" (MoE) semelhante à do DeepSeek, o Qwen3 consegue maximizar a eficiência computacional a uma fração do custo de treinamento. Essa abordagem divide uma tarefa em partes separadas e recomenda apenas os dados profundos necessários para a sua execução.
Segundo a equipe de desenvolvimento, o Qwen3 suporta até 119 idiomas e foi treinado com um conjunto de dados de quase 36 trilhões de tokens, o equivalente a 27 trilhões de palavras. Os dados de treinamento são provenientes de diversas fontes, como livros didáticos, conjuntos de perguntas e respostas, código de programação ou inteligência artificial gerada internamente.
Apesar de liderar o ranking de código aberto, testes extensivos realizados pelo LiveBench mostram que o Qwen3 fica atrás dos principais modelos de IA de código fechado do mundo, notadamente o o3 da OpenAI, o Gemini Pro 2.5 do Google e o Claude 3.7 da Anthropic.
Atualmente, o modelo de ponta da OpenAI, apoiado pela Microsoft, o o3-mini high, está no topo do ranking geral de modelos de IA do mundo.
Fonte: https://znews.vn/deepseek-bi-soan-ngoi-post1551500.html










Comentário (0)