DeepSeek despierta curiosidad.

DeepSeek se centra en la investigación y el desarrollo de nuevos modelos, en lugar de aparecer frecuentemente en los medios. Foto: SCMP .

En colaboración con investigadores de la Universidad de Tsinghua, DeepSeek ha presentado un nuevo método para mejorar la capacidad de inferencia de los grandes modelos de lenguaje (LLM). El método, publicado en un artículo de investigación la tarde del 4 de abril, ayuda a los LLM a generar resultados mejores y más rápidos para consultas comunes.

Esta técnica combina dos métodos de DeepSeek que ya han tenido éxito. Uno es el modelado generativo de recompensa (GRM), que permite al modelo de IA autoevaluarse y refinar sus respuestas basándose en resultados previos, y el otro es el ajuste crítico basado en principios propios.

Ambos métodos se basan en el aspecto de "autoaprendizaje" de la IA, reduciendo la dependencia de la orientación o retroalimentación humana directa, pero con el objetivo de ofrecer resultados más cercanos a las expectativas humanas.

Según los investigadores, a pesar de ser un método nuevo, DeepSeek-GRM logra resultados excepcionales y compite con los modelos de IA más conocidos y eficaces disponibles actualmente. DeepSeek planea publicar los modelos GRM en código abierto, pero no se ha especificado un plazo.

Después de tener un impacto global con su modelo de plataforma V3 y su modelo de inferencia R1, DeepSeek publicó este artículo académico en el archivo científico en línea arXiv, despertando curiosidad sobre el próximo movimiento de la compañía.

Reuters predice que DeepSeek-R2, el sucesor del R1, podría lanzarse en abril, dada la continua popularidad de su predecesor. El DeepSeek-R1 causó sensación mundial en el mundo tecnológico gracias a su excelente rendimiento en relación calidad-precio, lo que lo hace competitivo con los modelos líderes actuales.

DeepSeek ha guardado silencio sobre los rumores. Sin embargo, según fuentes locales, una cuenta de atención al cliente de DeepSeek desmintió la información en un chat grupal con clientes empresariales.

Fundada en Hangzhou en 2023 por el empresario Liang Wenfeng, DeepSeek ha captado rápidamente la atención mundial en los últimos meses. Sin embargo, en lugar de capitalizar su fama pública, la empresa está centrando sus recursos en investigación y desarrollo.

Anteriormente, DeepSeek actualizó su modelo V3 y lanzó la versión DeepSeek-V3-0324. Según el anuncio, esta actualización ofrece capacidades de razonamiento mejoradas, optimización para el desarrollo de interfaces web front-end y mejoras en la escritura en chino.

En febrero, la startup también publicó cinco repositorios de código abierto, reafirmando su compromiso de avanzar con total transparencia. Ese mismo mes, la compañía anunció un estudio técnico sobre la "atención dispersa nativa", que ayuda a mejorar el rendimiento de los LLM al gestionar grandes cantidades de datos.

DeepSeek se considera un símbolo del dinamismo de la industria de inteligencia artificial de China, en un momento en que Estados Unidos está tratando de frenar el desarrollo tecnológico del país.

Kommentar (0)

A través de las ramas y la historia

Jirafa

Oso negro