DeepSeek은 저렴한 AI 모델을 구축한 방법을 공개합니다. 사진: 블룸버그 . |
DeepSeek은 5월 15일에 발행한 연구 보고서에서 경쟁사보다 훨씬 저렴한 비용으로 세계에서 가장 강력한 오픈소스 AI 시스템 중 하나를 구축한 방법에 대한 세부 정보를 처음으로 공유했습니다.
"DeepSeek-V3에 대한 통찰력: AI 아키텍처를 위한 하드웨어 확장 과제와 성찰"이라는 제목의 이 연구는 설립자인 량웬펑과 공동으로 집필했습니다. DeepSeek은 하드웨어와 소프트웨어를 병렬로 설계한 것이 성공의 원인이라고 말합니다. 많은 회사가 여전히 독립적인 소프트웨어 최적화에 집중하고 있는 상황에서 이는 다른 움직임입니다.
연구팀은 논문에서 "2,048개의 Nvidia H800 GPU에서 학습된 DeepSeek-V3는 병렬 설계가 어떻게 이러한 과제를 효과적으로 해결하고 대규모 학습과 추론을 효율적으로 수행할 수 있는지를 보여주었습니다."라고 기술했습니다. DeepSeek과 헤지펀드 High-Flyer는 2023년 미국이 중국으로의 수출을 금지하기 전에 H800 시리즈 칩을 비축해 두었습니다.
논문에 따르면 DeepSeek 팀은 OpenAI의 ChatGPT와 같은 챗봇의 기반 기술인 대규모 언어 모델(LLM)을 훈련하는 데 드는 하드웨어적 한계와 "엄청난 비용"을 잘 알고 있습니다. 그 결과, 그들은 메모리 성능을 높이고, 칩 간 통신을 개선하고, 전체 AI 인프라의 효율성을 개선하는 일련의 기술적 최적화를 구현했습니다.
또한 DeepSeek은 전문가 모델(MoE) 아키텍처의 역할을 강조합니다. 이는 AI 모델을 여러 개의 하위 네트워크로 나누고, 각 하위 네트워크가 입력 데이터의 별도 부분을 처리하고 협업하여 결과를 최적화하는 머신 러닝 방법입니다.
MoE는 훈련 비용을 줄이고 추론 속도를 높이는 데 도움이 됩니다. 이 방법은 이제 알리바바의 최신 Qwen3 모델을 포함하여 중국의 기술 산업에서 널리 채택되었습니다.
DeepSeek은 2024년 12월에 기본 V3 모델을 출시하고 1월에 R1 추론 모델을 출시하며 화제를 모았습니다. 이러한 제품들은 글로벌 시장에 큰 반향을 일으켰고, 이로 인해 AI 관련 기술주가 급락하게 되었습니다.
DeepSeek은 최근에는 추가 계획을 공개하지 않았지만, 정기적인 보고서를 게시하여 커뮤니티의 관심을 유지해 왔습니다. 3월 말에 이 회사는 DeepSeek-V3에 대한 사소한 업데이트를 출시했고, 4월 말에는 수학적 증명 처리를 위한 Prover-V2 시스템을 조용히 출시했습니다.
출처: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
댓글 (0)