DeepSeek se centra en la investigación y el desarrollo de nuevos modelos, en lugar de aparecer frecuentemente en los medios de comunicación. Foto: SCMP . |
En colaboración con investigadores de la Universidad de Tsinghua, DeepSeek ha presentado un nuevo método para mejorar las capacidades de inferencia de los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés). Este método, publicado en un artículo científico la noche del 4 de abril, ayuda a los LLM a obtener resultados mejores y más rápidos para consultas comunes.
Esta técnica combina dos métodos que DeepSeek ha utilizado con éxito anteriormente. Uno es el modelado generativo de recompensas (GRM), que permite que el modelo de IA se autoevalúe y refine sus respuestas basándose en resultados anteriores, y el otro es el ajuste crítico basado en principios propios.
Ambos métodos se basan en el aspecto de "autoaprendizaje" de la IA, reduciendo la dependencia de la retroalimentación o la guía humana directa, pero con el objetivo de ofrecer resultados más cercanos a las expectativas humanas.
Según los investigadores, a pesar de ser un método nuevo, DeepSeek-GRM logra resultados sobresalientes y compite con los modelos de IA más conocidos y eficaces disponibles actualmente. DeepSeek planea liberar el código fuente de los modelos GRM, pero no se ha especificado un plazo.
Tras haber tenido un impacto global con su modelo de plataforma V3 y su modelo de inferencia R1, DeepSeek publicó este artículo académico en el archivo científico en línea arXiv, lo que despertó la curiosidad sobre el próximo paso de la compañía.
Según las previsiones de Reuters , DeepSeek-R2, sucesor de R1, podría lanzarse en abril, dada la continua popularidad de su predecesor. DeepSeek-R1 causó sensación en el mundo de la tecnología gracias a su rendimiento superior en relación con su coste, lo que lo convirtió en un competidor directo de los modelos líderes actuales.
DeepSeek no se ha pronunciado sobre los rumores. Sin embargo, según fuentes locales, una cuenta de atención al cliente de DeepSeek desmintió la información en un chat grupal con clientes empresariales.
Fundada en Hangzhou en 2023 por el emprendedor Liang Wenfeng, DeepSeek ha captado rápidamente la atención mundial en los últimos meses. Pero en lugar de capitalizar su fama, la empresa está centrando sus recursos en la investigación y el desarrollo.
Anteriormente, DeepSeek actualizó su modelo V3, lanzando la versión DeepSeek-V3-0324. Según el anuncio, esta actualización incluye capacidades de razonamiento mejoradas, optimización para el desarrollo de interfaces de usuario web front-end y habilidades de escritura en chino mejoradas.
En febrero, la startup también publicó cinco repositorios de código abierto, reafirmando su compromiso de "avanzar con total transparencia". Ese mismo mes, la compañía anunció un estudio técnico sobre "atención dispersa nativa", que ayuda a mejorar el rendimiento de los modelos LLM en el manejo de grandes cantidades de datos.
DeepSeek es visto como un símbolo del dinamismo de la industria de la IA en China, en un momento en que Estados Unidos está tratando de frenar el desarrollo tecnológico del país.
Fuente: https://znews.vn/deepseek-gay-to-mo-post1543900.html









Kommentar (0)