Huawei afirma que el entrenamiento de IA es mejor que DeepSeek

Gracias a las técnicas mejoradas del entrenamiento de IA de DeepSeek, el chip Huawei Ascend ha logrado un rendimiento excepcional. Foto: Reuters .

Los investigadores que trabajan en el modelo de lenguaje grande (LLM) Pangu de Huawei anunciaron el 4 de junio que habían mejorado el enfoque original de DeepSeek para entrenar la inteligencia artificial (IA) aprovechando el hardware propietario de la compañía, informó SCMP .

En concreto, el artículo publicado por el equipo Pangu de Huawei, que incluye 22 colaboradores principales y 56 investigadores adicionales, introdujo el concepto de Mezcla de Expertos Agrupados (MoGE), una versión mejorada de la técnica Mezcla de Expertos (MoE) que jugó un papel clave en los modelos de IA rentables de DeepSeek.

Según el artículo, si bien MoE ofrece bajos costos de ejecución para parámetros de modelo grandes y capacidades de aprendizaje avanzadas, también suele generar ineficiencias. Esto se debe a una activación desigual, lo que reduce el rendimiento al ejecutarse en varios dispositivos en paralelo.

Mientras tanto, MoGE es mejorado por un equipo de expertos en el proceso de selección y equilibra mejor la carga de trabajo de los "expertos", según los investigadores.

En el entrenamiento de IA, el término "experto" se refiere a submodelos o componentes especializados dentro de un modelo más amplio. Cada uno de estos modelos estará diseñado para gestionar tareas específicas o distintos tipos de datos. Esto permite que el sistema en su conjunto aproveche la diversidad de conocimientos para mejorar el rendimiento.

Según Huawei, el proceso de entrenamiento consta de tres fases principales: preentrenamiento, expansión de contexto largo y posentrenamiento. El proceso completo incluyó el preentrenamiento con 13,2 billones de tokens y la expansión de contexto largo utilizando 8192 chips Ascend, el procesador de IA más potente de Huawei, utilizado para entrenar modelos de IA y cuyo objetivo era desafiar el dominio de Nvidia en el diseño de chips de alta gama.

Al probar la nueva arquitectura en una unidad de procesamiento neuronal (NPU) Ascend diseñada específicamente para acelerar las tareas de IA, los investigadores descubrieron que MoGE "da como resultado un mejor equilibrio de carga de expertos y un rendimiento más eficiente tanto para el entrenamiento como para la inferencia del modelo".

Como resultado, en comparación con modelos como DeepSeek-V3, Qwen2.5-72B de Alibaba y Llama-405B de Meta Platforms, Pangu supera la mayoría de los puntos de referencia en inglés general y todos los puntos de referencia en chino, demostrando un rendimiento superior en el entrenamiento de contexto largo.

Fuente: https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html

Kommentar (0)

Top -Interessen

Neueste

No data