DeepSeek은 저비용 AI 모델 구축 방법을 공개했습니다. 사진: 블룸버그 . |
5월 15일에 발표된 연구 보고서에서 DeepSeek은 경쟁사보다 훨씬 저렴한 비용으로 세계에서 가장 강력한 오픈 소스 AI 시스템 중 하나를 구축한 방법에 대한 세부 정보를 처음으로 공개했습니다.
"DeepSeek-V3에 대한 통찰: 확장성 문제 및 AI 아키텍처용 하드웨어에 대한 고찰"이라는 제목의 이 연구는 창립자인 량원펑과 공동으로 작성되었습니다. DeepSeek은 하드웨어와 소프트웨어의 병렬 설계를 성공의 비결로 꼽으며, 이는 소프트웨어 최적화에만 집중하는 많은 기업들과 차별화되는 접근 방식이라고 설명합니다.
"2,048개의 엔비디아 H800 GPU로 학습된 DeepSeek-V3는 병렬 설계가 어떻게 효율적으로 문제를 해결하고 대규모 학습 및 추론을 가능하게 하는지 보여주었습니다."라고 연구팀은 보고서에서 밝혔습니다. DeepSeek과 헤지펀드 High-Flyer는 미국이 2023년부터 중국으로의 H800 수출을 금지하기 전에 이 칩들을 비축해 두었습니다.
기사에 따르면, DeepSeek 연구팀은 하드웨어 한계와 대규모 언어 모델(LLM) 학습에 드는 막대한 비용을 잘 알고 있었습니다. 이는 OpenAI의 ChatGPT와 같은 챗봇의 기반 기술입니다. 따라서 DeepSeek 연구팀은 메모리 성능 향상, 칩 간 통신 개선, 그리고 AI 인프라의 전반적인 효율성 향상을 위해 일련의 기술적 최적화를 구현했습니다.
또한 DeepSeek은 혼합 전문가 모델(MoE) 아키텍처의 역할을 강조합니다. 이는 AI 모델을 하위 네트워크로 나누어 각 네트워크가 입력 데이터의 서로 다른 부분을 처리하고 협력하여 결과를 최적화하는 머신 러닝 방식입니다.
MoE는 훈련 비용을 절감하고 추론 속도를 향상시키는 데 도움이 됩니다. 이 방법은 현재 알리바바의 최신 Qwen3 모델을 포함하여 중국 기술 업계에서 널리 채택되고 있습니다.
딥시크는 2024년 12월 기본 모델인 V3를, 그리고 2023년 1월에는 추론 모델인 R1을 출시하면서 처음으로 주목을 받았습니다. 이 제품들은 전 세계 시장에 파장을 일으키며 인공지능 관련 기술주 전반의 하락세에 영향을 미쳤습니다.
딥시크는 최근 추가적인 계획을 공개하지는 않았지만, 정기적인 보고를 통해 커뮤니티의 관심을 꾸준히 유지해 왔습니다. 3월 말에는 딥시크-V3의 마이너 업데이트를 발표했고, 4월 말에는 수학적 증명 처리 시스템인 프로버-V2를 조용히 출시했습니다.
출처: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






댓글 (0)