딥시크의 새로운 AI가 뛰어난 성능으로 기술 업계에서 계속해서 화제를 불러일으키고 있다. 사진: SCMP |
DeepSeek은 대규모 모델링 언어(LLM) V3 제품군의 최신 버전인 DeepSeek V3-0324를 공식 출시했습니다.
이 모델은 이전 모델들과 마찬가지로 Hugging Face 플랫폼을 통해 무료로 오픈 소스로 배포되며, 특히 추론 및 프로그래밍 분야에서 이전 버전보다 크게 발전했습니다.
구체적으로 OpenRouter에 따르면 DeepSeek V3-0324는 일부 중국 AI 모델에서 매우 인기 있는 머신러닝 방법인 전문가 혼합 모델(Mixture of Experts, MoE)을 사용하여 구축되었으며 6,850억 개의 매개변수를 가지고 있습니다.
초기 평가에 따르면 이 모델은 다양한 작업에서 인상적인 성능을 보여줍니다. 한편, 레딧 게시물에 따르면 DeepSeek V3-0324가 코드 생성 테스트에서 구글의 Sonnet 3.7 모델과 동등한 수준에 도달했다고 합니다.
소식통에 따르면 DeepSeek V3-0324는 오류 없이 긴 코드 조각을 생성할 수 있다고 합니다. AI 분석 웹사이트인 Vidhya는 이 모델을 테스트한 결과 700줄의 코드를 매끄럽게 생성하는 능력을 확인했습니다.
X 플랫폼에서 DeepSeek V3-0324의 활용도 큰 화제를 모았습니다. 이를 증명하기 위해 사용자 Deepanshu Sharma는 이 AI 모델이 800줄이 넘는 코드로 구성된 웹사이트 전체를 매끄럽게 생성할 수 있음을 보여주는 영상을 게시했습니다.
딥시크는 2024년 12월 딥시크-V3를 출시하면서 가장 주목받는 중국 AI 기업으로 떠올랐습니다. 이 모델은 GPT-40과 비슷한 성능을 달성했지만, 컴퓨팅 자원은 훨씬 적게 사용했습니다.
얼마 후 DeepSeek은 DeepSeek-R1 추론 모델을 출시했습니다. TechCrunch 에 따르면 R1은 AIME, MATH-500, SWE-bench Verified 등의 벤치마크에서 OpenAI의 o1보다 우수한 성능을 보였습니다.
동시에, 딥시크 모델의 최종 학습에 소요된 560만 달러라는 수치는 미국 유수의 기업들이 모델 학습에 수억 달러를 투자하는 것과 비교하면 충격적입니다.
출처: https://znews.vn/at-chu-bai-moi-cua-deepseek-lo-dien-post1540831.html






댓글 (0)