Qwen3, una nueva tecnología lanzada por Alibaba. Foto: SCMP . |
Según las últimas pruebas comparativas de inteligencia artificial, el modelo de inteligencia artificial Qwen3 recientemente lanzado por Alibaba ha superado al R1 de DeepSeek para convertirse en el modelo de código abierto mejor calificado del mundo .
En concreto, los datos de LiveBench, una plataforma independiente que evalúa modelos de lenguaje grandes (LLM), la tecnología fundamental para servicios de IA generativa como ChatGPT, muestran que Qwen3 ha superado a R1 en las pruebas.
La evaluación de las capacidades de los modelos de IA de código abierto incluye programación, matemáticas, análisis de datos e instrucción de idiomas.
Alibaba lanzó su serie de modelos Qwen3 con IA el 28 de abril. La compañía afirma que este chatbot puede rivalizar, o incluso superar, en algunos casos a los mejores modelos actuales de OpenAI o Google.
Con un tamaño de hasta 235 mil millones de parámetros, Qwen3 tiene un rendimiento comparable al de DeepSeek-V2 y OpenAI GPT-4, que tienen aproximadamente 236 mil millones y 175 mil millones de parámetros, respectivamente. Los usuarios podrán descargarlo próximamente bajo licencia abierta en la plataforma de desarrollo de IA Hugging Face y Github, una vez que se publique esta serie de modelos.
La compañía afirmó que la colección Qwen3 incluye modelos híbridos, lo que significa que pueden asignar tiempo de razonamiento con flexibilidad para resolver problemas complejos o responder rápidamente a solicitudes sencillas. En este modelo, la capacidad de razonamiento permite la autoverificación de la precisión de la información, pero esto conlleva un retraso significativo.
Este diseño facilita a los usuarios la asignación adecuada del presupuesto a cada tarea específica. Además, este modelo también se basa en la experiencia de numerosos competidores a nivel mundial.
Utilizando una arquitectura de "mezcla de expertos" (MoE) similar a DeepSeek, Qwen3 puede optimizar el rendimiento computacional con una fracción del costo de entrenamiento. Este método divide las tareas en varias partes independientes y solo requiere una cantidad suficiente de datos con alto consumo de datos para realizarlas.
Según el equipo de desarrollo, Qwen3 admite hasta 119 idiomas y se entrena con un conjunto de datos de casi 36 billones de tokens, equivalentes a 27 billones de palabras. Los datos de entrenamiento provienen de diversas fuentes, como libros de texto, conjuntos de preguntas y respuestas, código de programación o incluso datos generados por IA, etc.
A pesar de liderar la clasificación de código abierto, la prueba de referencia extendida de LiveBench muestra que Qwen3 aún se encuentra por detrás de los principales modelos de IA de código cerrado del mundo. Entre ellos, los más destacados son o3 de OpenAI, Gemini Pro 2.5 de Google y Claude 3.7 de Anthropic.
Actualmente, el modelo OpenAI más avanzado compatible con Microsoft, o3-mini high, encabeza la clasificación general de modelos de IA en todo el mundo.
Fuente: https://znews.vn/deepseek-bi-soan-ngoi-post1551500.html






Kommentar (0)