
거대 기술 기업들은 인공지능(AI)에 "더 많이할수록 더 좋다"는 믿음을 가지고 수십억 달러를 투자했습니다.
그러나 DeepSeek의 획기적인 성과는 더 작은 모델이 훨씬 낮은 비용으로 비슷한 성능을 달성할 수 있음을 보여줍니다.
1월 말, DeepSeek은 R1 모델을 훈련하는 데 드는 최종 비용이 560만 달러 에 불과하다고 발표했습니다. 이는 미국 기업들이 청구하는 비용에 비하면 극히 일부에 불과합니다.
"기술 해적들"
DeepSeek이 선도적인 AI 제조업체 대열에 합류하면서 실리콘 밸리에서는 "증류"라고 불리는 프로세스에 대한 격렬한 논의가 촉발되었습니다.
수십만 개의 질문을 던지고 답변을 분석하여 새로운 시스템이 기존 시스템으로부터 학습하는 기술입니다.
증류를 통해 기업은 "교사" 모델이라고 하는 대규모 언어 모델(LLM)을 사용하게 되는데, 이 모델은 문장에 나타날 가능성이 가장 높은 다음 단어를 예측할 수 있습니다.
교사 모델은 데이터를 생성하고, 이 데이터는 더 작은 "학생" 모델을 학습하는 데 사용됩니다. 이 과정을 통해 더 큰 모델에서 더 작은 모델로 지식과 예측 역량을 빠르게 전달할 수 있습니다.
![]() |
DeepSeek은 수십억 달러를 들여 모델을 학습하는 대신, "증류" 기법을 통해 기존의 대규모 모델에서 학습하는 것만으로도 동일한 결과를 얻을 수 있습니다. 사진: Mint. |
증류는 수년간 널리 사용되어 왔지만, 최근의 발전으로 인해 업계 전문가들은 이 기술이 DeepSeek과 같은 스타트업에 점점 더 큰 이점이 될 것이라고 믿게 되었습니다.
OpenAI와 같은 업계 거대 기업과 달리, 이러한 회사는 항상 AI 기반 애플리케이션을 개발하기 위한 비용 효율적인 솔루션을 찾고 있습니다.
"증류(Distillation)는 정말 마법 같은 기술입니다. 크고 스마트한 엣지 모델을 가져와 더 작은 모델을 학습시키는 과정입니다. 특정 작업에 매우 강력하고, 비용도 저렴하며, 실행 속도도 매우 빠릅니다."라고 OpenAI 제품 책임자인 올리비에 고드망(Olivier Godement)은 말합니다.
수십억 달러 자본의 효율성에 대한 의문
OpenAI의 GPT-4, Gemini(Google), Llama(Meta)와 같은 LLM은 개발 및 유지 관리에 엄청난 양의 데이터와 컴퓨팅 성능이 필요한 것으로 악명이 높습니다.
각 회사에서는 정확한 비용을 공개하지 않지만, 이러한 모델을 훈련하는 데 수억 달러의 비용이 들 것으로 추정됩니다.
여기에는 구글, 오픈AI, 앤트로픽, 그리고 일론 머스크의 xAI가 포함됩니다. 트럼프 대통령 취임 후, 오픈AI는 소프트뱅크를 비롯한 여러 파트너들과의 파트너십을 통해 향후 5년간 AI 인프라에 5천억 달러를 투자하겠다고 발표했습니다.
하지만 증류(distillation) 덕분에 개발자와 기업은 훨씬 적은 비용으로 대규모 모델의 강력한 기능에 접근할 수 있습니다. 이를 통해 노트북이나 스마트폰과 같은 기기에서 AI 애플리케이션을 빠르게 실행할 수 있습니다.
![]() |
AI 모델 학습에 사용되는 "증류" 기법 모델. 사진: arXiv. |
실제로 WSJ는 DeepSeek의 성공 이후 실리콘 밸리 임원과 투자자들이 사업 모델을 재고하고 업계 리더십이 여전히 가치가 있는지 의문을 제기하고 있다고 보도했습니다.
하나비 캐피털의 베테랑 기술 임원이자 벤처 캐피털리스트인 마이크 볼피는 "팔로워보다 8배 더 많은 비용이 든다면, 선두가 되는 것이 경제적으로 가치가 있을까요?"라고 묻습니다.
CIO들은 앞으로 몇 년 안에 "증류" 기법을 사용하여 만들어진 고품질 AI 애플리케이션을 많이 볼 수 있을 것으로 예상합니다.
특히 AI 회사 허깅 페이스(Hugging Face)의 연구원들은 딥시크(DeepSeek)와 유사한 모델을 구축하기 시작했습니다. 선임 연구원 루이스 턴스톨(Lewis Tunstall)은 "가장 복제하기 쉬운 것은 증류 과정입니다."라고 말했습니다.
OpenAI와 Google의 AI 모델은 여전히 실리콘 밸리에서 널리 사용되는 차트에서 선두를 달리고 있습니다.
기술 대기업들은 가장 독창적인 연구를 통해 최첨단 시스템에서 우위를 유지할 수 있습니다. 그러나 많은 소비자와 기업은 훨씬 낮은 가격에 다소 열등한 기술을 기꺼이 받아들이고 있습니다.
![]() |
"증류" 기법은 새로운 아이디어는 아니지만, DeepSeek의 성공은 저비용 AI 모델도 수십억 달러짜리 모델만큼 효과적일 수 있음을 입증했습니다. 사진: Shutterstock. |
증류를 통해 제대로 작동하는 모델을 만들 수 있지만, 많은 전문가는 이 방법에도 한계가 있다고 경고합니다.
Microsoft Research의 Ahmed Awadallah는 "증류는 흥미로운 상충 관계를 초래합니다. 모델을 더 작게 만들면 필연적으로 성능이 저하됩니다."라고 설명합니다.
아와달라에 따르면, 증류 모델은 이메일을 요약하는 데는 매우 유용하지만, 다른 작업에는 전혀 적합하지 않습니다.
한편, IBM Research의 AI 모델링 부문 부사장인 데이비드 콕스는 대부분 기업이 자사 제품을 운영하는 데 거대한 모델이 필요하지 않다고 말했습니다.
정제된 모델은 이제 고객 서비스를 위한 챗봇과 같은 목적에 활용되거나 휴대전화와 같은 소형 기기에서 작동할 만큼 강력해졌습니다.
콕스는 "원하는 성과를 달성하면서도 비용을 절감할 수 있다면, 그렇게 하지 않을 이유가 없습니다."라고 덧붙였다.
출처: https://znews.vn/ky-thuat-chung-cat-ai-dang-dat-ra-cau-hoi-lon-post1535517.html
댓글 (0)