최근 중국에서 가장 주목받는 스타트업인 DeepSeek이 단 500만 달러로 OpenAI와 동등한 수준의 AI를 개발하겠다고 주장해 회의론이 일고 있다.
DeepSeek은 뱀의 해가 시작되면서 신문과 소셜 네트워크에 크게 등장했고, 글로벌 주식 시장을 격렬하게 흔들었습니다.
그러나 금융 자문 회사인 Bernstein의 최근 보고서에 따르면, 인상적인 실적에도 불구하고 OpenAI가 단 500만 달러만으로 자사와 비슷한 수준의 AI 시스템을 만들겠다는 주장은 부정확하다고 경고했습니다.
번스타인에 따르면, DeepSeek의 성명은 오해의 소지가 있으며 전체적인 상황을 반영하지 못한다.
보고서는 "DeepSeek이 '500만 달러로 OpenAI를 만들었다'고 생각하지 않는다. 모델은 훌륭하지만 마법과 같다고 생각하지 않는다. 주말에 있었던 공황은 과장된 것 같다"고 밝혔다.
DeepSeek은 DeepSeek-V3와 DeepSeek R1이라는 두 가지 주요 AI 모델을 개발합니다. 대규모 언어 모델인 V3는 MOE 아키텍처를 활용하여 소규모 모델을 결합하여 기존 모델보다 적은 컴퓨팅 리소스를 사용하면서도 높은 성능을 달성합니다.
반면, V3 모델은 6,710억 개의 매개변수를 가지고 있으며, 언제든지 370억 개의 매개변수가 활성화되어 있으며, 메모리 사용량을 줄이기 위해 MHLA와 같은 혁신 기술을 통합하고 효율성을 높이기 위해 FP8을 사용합니다.
V3 모델을 학습하는 데는 2,048개의 Nvidia H800 GPU 클러스터가 2개월 동안 필요했는데, 이는 550만 GPU 시간에 해당합니다. 일부 추정에 따르면 학습 비용은 약 500만 달러에 달하지만, 번스타인의 보고서는 이 수치가 컴퓨팅 리소스만을 의미하며 연구, 테스트 및 기타 개발과 관련된 상당한 비용은 고려하지 않았다고 강조합니다.
DeepSeek R1 모델은 V3를 기반으로 강화 학습(RL) 및 기타 기술을 사용하여 추론을 보장합니다.
R1 모델은 추론 작업에서 OpenAI 모델과 경쟁할 수 있습니다. 그러나 Bernstein은 R1 개발에 상당한 자원이 필요했지만, DeepSeek 보고서에는 자세히 설명되어 있지 않았다고 지적합니다.
번스타인은 DeepSeek에 대해 언급하며 인상적인 모델들을 언급했습니다. 예를 들어, V3 모델은 언어, 프로그래밍, 수학 분야에서 다른 주요 언어 모델들보다 더 나은 성능을 발휘하면서도 더 적은 리소스를 사용합니다.
V3 사전 학습 과정에는 270만 GPU 시간만 필요했는데, 이는 다른 주요 모델에 필요한 컴퓨팅 리소스의 9%에 불과합니다.
번스타인은 DeepSeek의 발전이 주목할 만하지만, 과장된 주장은 경계해야 한다고 결론짓습니다. 단돈 500만 달러로 OpenAI의 경쟁사를 만든다는 생각은 잘못된 것으로 보입니다.
(타임스 오브 인디아에 따르면)
[광고_2]
출처: https://vietnamnet.vn/deepseek-khong-the-lam-ai-tuong-duong-openai-voi-5-trieu-usd-2367340.html
댓글 (0)