스탠포드와 워싱턴 대학의 연구원들은 추론 AI 모델을 만드는 데 단 50달러만을 썼습니다.
프로그래밍 및 수학 테스트 결과, S1(모델 이름)은 OpenAI의 o1, DeepSeek의 R1 등 최첨단 추론 AI 모델과 동등한 성능을 보이는 것으로 나타났습니다.
특히, S1은 누구나 접근할 수 있는 GitHub 저장소에 공개된 오픈 소스 모델입니다.
개발팀은 기본적으로 사용 가능한 모델에서 시작하여 "증류" 과정을 통해 이를 개선했다고 밝혔습니다. "증류" 과정은 다른 AI 모델의 답변을 학습시켜 "추론" 능력을 추출하는 과정입니다.
구체적으로 S1은 Google의 Gemini 2.0 Flash Thinking Experimental 모델에서 추출되었습니다. 증류 과정은 버클리 대학의 과학자들이 약 450달러짜리 모델을 만드는 데 사용한 과정과 비슷합니다.
s1을 개발한 연구진은 강력한 추론 성능을 달성하고 "테스트 중에 확장"하는 가장 간단한 방법을 찾아냈습니다. 즉, AI 모델이 질문에 답하기 전에 더 많이 생각할 수 있도록 하는 것입니다.
이는 DeepSeek과 다른 AI 연구실이 다양한 기술을 통해 복제하려고 시도했던 OpenAI의 o1에서 이룬 획기적인 성과 중 하나입니다.
S1 논문에서는 추론 모델이 지도 미세 조정(SFT)이라는 프로세스를 통해 비교적 작은 데이터 세트로 추출될 수 있음을 보여줍니다. 이 프로세스에서 AI 모델은 데이터 세트의 특정 동작을 모방하도록 명시적으로 지시받습니다.
SFT는 DeepSeek이 R1 모델을 학습하는 데 사용한 대규모 강화 학습 방식보다 일반적으로 저렴합니다.
Google은 Google AI Studio 플랫폼을 통해 일일 빈도 제한이 있긴 하지만 Gemini 2.0 Flash Thinking Experimental에 대한 무료 액세스를 제공하고 있습니다.
하지만 Google의 약관에 따르면 자사의 AI 제품과 경쟁하는 서비스를 개발하기 위해 자사 모델의 역엔지니어링을 하는 것은 금지되어 있습니다.
S1은 Alibaba가 소유한 AI 연구소 Qwen에서 제공하는 소규모 AI 모델을 기반으로 하며, 무료로 다운로드할 수 있습니다. 연구진은 S1을 훈련하기 위해 Google Gemini 2.0 Flash Thinking Experimental에서 신중하게 선택한 1,000개의 질문과 답변, 그리고 각 답변에 담긴 "사고" 과정으로 구성된 데이터 세트를 만들었습니다.
이 훈련 과정은 16개의 Nvidia H100 GPU로 30분도 채 걸리지 않았지만, 여전히 여러 AI 벤치마크에서 강력한 결과를 보여주었습니다. 스탠포드 대학의 연구원인 니클라스 뮤니히호프는 필요한 컴퓨팅 파워를 임대하는 데 드는 비용은 약 20달러에 불과하다고 말했습니다.
연구자들은 S1이 작업을 확인하고 "사고 시간"을 늘리도록 하기 위해 추론 과정에 "기다려"라는 단어를 추가하여 모델이 기다리도록 요청하는 등의 방법을 사용했는데, 이를 통해 모델이 더 정확한 답을 도출하는 데 도움이 되었습니다.
Meta, Google, Microsoft는 2025년까지 수천억 달러를 AI 인프라에 투자할 계획이며, 이 중 일부는 차세대 AI 모델을 훈련하는 데 사용될 예정입니다. AI 혁신을 추진하려면 이 정도의 투자가 여전히 필요할 수도 있습니다.
증류는 저렴한 비용으로 AI 모델 성능을 복제하는 좋은 방법임이 입증되었지만, 현재 존재하는 것보다 우수한 새로운 AI 모델을 만들어내지는 못합니다.
(테크크런치에 따르면)
[광고_2]
출처: https://vietnamnet.vn/he-lo-bi-mat-tao-ra-mo-hinh-ai-ly-luan-sieu-re-chua-den-2-trieu-dong-2369052.html
댓글 (0)