DeepSeek이 저렴한 AI 모델을 구축한 방법을 공개했습니다. 사진: 블룸버그 |
DeepSeek은 5월 15일에 발행한 연구 보고서에서 경쟁사보다 훨씬 저렴한 비용으로 세계에서 가장 강력한 오픈소스 AI 시스템 중 하나를 구축한 방법에 대한 세부 정보를 처음으로 공유했습니다.
"DeepSeek-V3에 대한 통찰: AI 아키텍처 하드웨어 확장 과제 및 성찰"이라는 제목의 이 연구는 설립자 량 웬펑(Liang Wenfeng)과 공동 집필했습니다. DeepSeek은 하드웨어와 소프트웨어를 동시에 설계하는 것이 성공의 비결이라고 주장하는데, 이는 소프트웨어 최적화에만 집중하는 많은 기업들과는 다른 접근 방식입니다.
연구팀은 논문에서 "2,048개의 엔비디아 H800 GPU로 학습된 DeepSeek-V3는 병렬 설계가 이러한 과제를 효과적으로 해결하여 대규모로 효율적인 학습과 추론을 가능하게 하는 방법을 보여줍니다."라고 밝혔습니다. DeepSeek과 헤지펀드 High-Flyer는 미국이 2023년 중국 수출을 금지하기 전에 H800 칩 라인을 비축해 두었습니다.
논문에 따르면, DeepSeek 팀은 OpenAI의 ChatGPT와 같은 챗봇의 기반 기술인 대규모 언어 모델(LLM)을 훈련하는 데 있어 하드웨어적 한계와 "엄청난 비용"이 따른다는 사실을 인지하고 메모리 효율성을 높이고, 칩 간 통신을 개선하고, 전체 AI 인프라의 효율성을 개선하는 일련의 기술적 최적화를 구현했다고 합니다.
또한 DeepSeek은 전문가 모델(MoE) 아키텍처의 역할을 강조합니다. MoE는 AI 모델을 하위 네트워크로 분할하고, 각 하위 네트워크는 입력 데이터의 개별 부분을 처리하고 협업하여 결과를 최적화하는 머신 러닝 방법입니다.
MoE는 학습 비용을 절감하고 추론 속도를 높입니다. 이 방법은 현재 알리바바의 최신 Qwen3 모델을 포함하여 중국 기술 산업에서 널리 채택되고 있습니다.
DeepSeek은 2024년 12월 기본 V3 모델과 1월 R1 추론 모델을 출시하며 화제를 모았습니다. 이 제품들은 글로벌 시장에 큰 반향을 일으켰고, AI 관련 기술주들의 급락에 일조했습니다.
DeepSeek은 최근 추가 계획을 밝히지 않았지만, 정기적인 보고서를 통해 커뮤니티의 관심을 유지해 왔습니다. 3월 말에는 DeepSeek-V3에 대한 소규모 업데이트를 출시했고, 4월 말에는 수학적 증명 처리를 위한 Prover-V2 시스템을 조용히 출시했습니다.
출처: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
댓글 (0)