DeepSeek은 미디어에 많이 등장하기보다는 새로운 모델의 연구와 개발에 집중하고 있습니다. 사진: SCMP . |
DeepSeek은 청화대학교 연구자들과 협력하여 대규모 언어 모델(LLM)의 추론 능력을 개선하는 새로운 방법을 도입했습니다. 4월 4일에 발표된 연구 논문에 발표된 이 방법은 LLM이 일반적인 질의에 대해 더 나은 결과를 더 빨리 얻는 데 도움이 됩니다.
이 기술은 DeepSeek의 두 가지 성공적인 방법을 결합한 것입니다. 하나는 AI 모델이 이전 결과를 기반으로 답변을 자체적으로 평가하고 개선할 수 있도록 하는 생성적 보상 모델링(GRM)이고, 다른 하나는 자기 원칙에 따른 비판적 튜닝입니다.
두 방법 모두 AI의 "자체 학습" 요소에 의존하여 직접적인 인간의 피드백이나 지침에 대한 의존도를 낮추지만, 인간의 기대에 더 가까운 결과를 산출하고자 합니다.
연구자들에 따르면, DeepSeek-GRM은 새로운 방법임에도 불구하고 여전히 뛰어난 성능을 달성하고 있으며 현재 가장 유명하고 효과적인 AI 모델과 경쟁할 수 있다고 합니다. DeepSeek은 GRM 모델을 오픈 소스로 공개할 계획이지만 아직 구체적인 일정은 밝히지 않았습니다.
DeepSeek은 V3 플랫폼 모델과 R1 추론 모델로 전 세계적인 화제를 모은 후 온라인 과학 저장소인 arXiv에 학술 논문을 게재하면서 많은 사람이 이 회사의 다음 행보에 관심을 갖게 되었습니다.
로이터는 이전 모델이 아직 인기를 끌지 못했기 때문에 R1의 후속 모델인 DeepSeek-R2가 4월에 출시될 수 있다고 예측했습니다. 이전에 DeepSeek-R1은 비용 대비 뛰어난 성능으로 글로벌 기술계에 충격을 주었으며, 오늘날의 주요 모델과도 충분히 경쟁력이 있습니다.
DeepSeek 측은 이러한 추측에 대해 아무런 입장도 밝히지 않았습니다. 그러나 현지 정보에 따르면 DeepSeek 고객 서비스 계정은 기업 고객과의 채팅 그룹에서 위 정보를 부인했습니다.
기업가 량원펑이 2023년 항저우에서 설립한 DeepSeek은 지난 몇 달 동안 빠르게 전 세계의 주목을 받았습니다. 하지만 회사는 대중의 명성을 활용하는 대신 연구 개발에 자원을 집중했습니다.
이전에 DeepSeek은 V3 모델을 업그레이드하여 DeepSeek-V3-0324 버전을 출시했습니다. 발표에 따르면, 이 업데이트는 추론 기능 강화, 프런트엔드 웹 개발 최적화, 중국어 쓰기 개선 등의 특징을 가지고 있습니다.
2월에는 이 스타트업이 5개의 코드 저장소를 오픈소스로 공개하면서 "완전한 투명성을 바탕으로 한 진전"에 대한 의지를 확인했습니다. 또한 이번 달에 회사는 대량의 데이터를 처리하는 데 있어 LLM의 성능을 개선하는 "네이티브 스파스 어텐션"에 대한 기술 논문을 발표했습니다.
DeepSeek은 미국이 중국의 기술 개발을 억제하려는 노력 속에서 중국 AI 산업의 회복력을 상징하는 것으로 여겨진다.
출처: https://znews.vn/deepseek-gay-to-mo-post1543900.html
댓글 (0)