Qwen3, una nueva tecnología lanzada por Alibaba. Foto: SCMP . |
Según las últimas pruebas de referencia del mundo de la IA, el modelo de inteligencia artificial Qwen3 recientemente lanzado por Alibaba ha superado al R1 de DeepSeek para convertirse en el modelo de código abierto de mayor rango del mundo .
En concreto, los datos de LiveBench, una plataforma independiente que evalúa los modelos de lenguaje grandes (LLM), la tecnología subyacente a los servicios de IA generativa como ChatGPT, muestran que Qwen3 superó a R1 en sus pruebas.
La revisión evalúa las capacidades de los modelos de IA de código abierto, incluida la programación, las matemáticas, el análisis de datos y la instrucción de idiomas.
La serie de modelos de IA llamada Qwen3 fue lanzada por Alibaba el 28 de abril. La compañía afirma que este chatbot puede ser comparable, e incluso superar, los mejores modelos actualmente disponibles de OpenAI o Google en algunos casos.
Con un tamaño de hasta 235 mil millones de parámetros, Qwen3 está a la par de DeepSeek-V2 y OpenAI GPT-4, que tienen aproximadamente 236 mil millones y 175 mil millones de parámetros, respectivamente. Los usuarios podrán descargarlo próximamente bajo licencia abierta en la plataforma de desarrollo de IA Hugging Face y Github, una vez que se publique la serie de modelos.
La compañía afirma que la colección Qwen3 incluye modelos híbridos, lo que significa que pueden razonar con flexibilidad para resolver problemas complejos o responder rápidamente a solicitudes sencillas. En este caso, la capacidad de razonamiento permite al modelo autocomprobar la precisión de la información, pero a costa de una alta latencia.
Este diseño facilita a los usuarios la asignación del presupuesto adecuado para cada tarea específica. Además, este modelo se basa en el aprendizaje de numerosos competidores a nivel mundial.
Utilizando una arquitectura de "mezcla de expertos" (MoE) similar a DeepSeek, Qwen3 puede maximizar la eficiencia computacional a una fracción del costo de entrenamiento. Este método consiste en dividir una tarea en partes separadas y recomendar solo la cantidad de datos profundos necesaria para realizarla.
Según el equipo de desarrollo, Qwen3 admite hasta 119 idiomas y se entrena con un conjunto de datos de casi 36 000 billones de tokens, equivalentes a 27 000 billones de palabras. Los datos de entrenamiento provienen de diversas fuentes, como libros de texto, conjuntos de preguntas y respuestas, código de programación o IA autogenerada.
A pesar de encabezar el ranking de código abierto, las pruebas exhaustivas de LiveBench muestran que Qwen3 aún está por detrás de los modelos de IA de código cerrado líderes en el mundo, en particular o3 de OpenAI, Gemini Pro 2.5 de Google y Claude 3.7 de Anthropic.
Actualmente, el modelo tope de gama de OpenAI respaldado por Microsoft, o3-mini high, se encuentra en la cima de la clasificación general de modelos de IA en el mundo.
Fuente: https://znews.vn/deepseek-bi-soan-ngoi-post1551500.html
Kommentar (0)