바이두의 'AI 괴물' ERNIE 5.1은 94% 더 낮은 비용으로 운영됩니다.

바이두의 주력 제품인 ERNIE가 최근 5.1 버전으로 업데이트되면서 전례 없는 비용 절감 기능으로 전 세계 기술 업계를 놀라게 하고 있습니다.

Báo Khoa học và Đời sống•15/05/2026

전 세계적으로 수십억 달러를 컴퓨팅 파워 확보에 쏟아붓는 인공지능 경쟁이 한창인 가운데, '중국의 구글'로 불리는 바이두가 빅 언어 모델인 ERNIE 5.1을 공식 출시하며 큰 파장을 일으켰다.

가장 주목할 만한 점은 뛰어난 처리 능력뿐만 아니라 놀라운 경제적 가치에도 있습니다. 이 모델의 학습 비용은 유사한 규모의 AI 시스템보다 약 94% 낮습니다. 이는 차세대 AI에서 자원 최적화 문제를 해결하는 새로운 해법으로 여겨집니다.

네트워크 압축 기술과 "한 번 학습으로 모든 것을 학습"하는 전략.

바이두가 어떻게 그토록 놀라운 수준으로 비용을 절감할 수 있었는지 이해하려면, 그들이 ERNIE 5.1을 어떻게 구축했는지 살펴볼 필요가 있습니다.

바이두는 기존처럼 완전히 새로운 모델을 처음부터 학습시키는 방식 대신 "다차원 탄력적 사전 학습" 방식을 채택했습니다. 구체적으로, ERNIE 5.1은 완전히 독립적인 모델이 아니라 이전 버전인 ERNIE 5.0(2026년 1월 출시)을 기반으로 개발되었습니다.

바이두는 "원스 포 올(Once-For-All)"이라는 탄력적인 학습 프레임워크를 사용했습니다. 각기 다른 모델 크기별로 개별적이고 비용이 많이 드는 학습을 진행하는 대신, 다양한 크기의 모델 "패밀리" 전체를 한 번의 실행으로 최적화합니다.

2ffca8ca25c14b56a38a3c3a7917bb8etplv-73owjymdk6-jj-mark-v1-0-0-0-0-5o6y6yer5oqa5pyv56s-5yy6ieagrwfzeuxmtq-q75.jpg — "다차원 탄력성" 훈련 방법은 Ernie 5.1의 비용을 94% 절감합니다.

이 모델들은 가중치는 공유하지만 깊이, 범위, 활성화된 전문가 블록의 개수에서 차이가 있습니다. 약 2조 4천억 개의 매개변수를 가진 방대한 ERNIE 5.0 아키텍처에서 Baidu는 최적화된 서브넷을 추출하여 ERNIE 5.1을 만들었습니다.

그 결과, 전체 매개변수 수가 원래의 약 3분의 1로 줄어든 간소화된 모델이 탄생했습니다. 특히, 실제로 대화에서 피드백을 처리하는 데 관여하는 작동 매개변수의 수가 절반으로 줄었습니다.

바이두가 예산을 최대 94%까지 절감할 수 있었던 비결은, 비용이 많이 드는 전체 학습 과정을 반복하지 않고 "모체" 모델로부터 방대한 지식 기반을 물려받는 데 있었습니다.

또한, 바이두는 강화 학습 시스템을 완전히 재구조화했습니다. 모델 업데이트, 피드백 생성, 실행 평가를 엄격하게 연결하는 대신, 이들을 중앙 제어 장치가 조정하는 독립적인 하위 시스템으로 분리했습니다.

이를 통해 각 구성 요소가 가장 적합한 하드웨어에서 실행될 수 있으므로 한 단계에서 병목 현상이 발생하더라도 전체 프로세스가 느려지지 않습니다.

혼합 전문가(MoE) 모델에서 발생하는 계산 편향 문제를 해결하기 위해 바이두는 표준화된 저정밀도 계산 라이브러리를 구현하여 처리 속도를 저하시키지 않으면서 불안정성을 절반으로 줄였습니다.

4단계 훈련 과정을 통해 "시소 효과"를 해결하세요.

대규모 AI 모델 학습에 내재된 어려움 중 하나는 "시소 효과"입니다. 개발자들이 AI에 여러 기능을 동시에 가르치려고 할 때, 한 분야의 향상이 다른 분야의 퇴보로 이어지는 경우가 많습니다.

예를 들어, 모델이 수학적 능력이 향상될수록 창의적인 글쓰기 능력은 오히려 저하될 수 있습니다.

이 문제를 해결하기 위해 바이두는 MOPD(다중 교사 정책 정제)라고 부르는 4단계 정제 프로세스를 구축했습니다.

0b5a83e4e4334df8a56ae72d29199bfdtplv-73owjymdk6-jj-mark-v1-0-0-0-0-5o6y6yer5oqa5pyv56s-5yy6ieagrwfzeuxmtq-q75.jpg — 바이두의 4단계 교육 과정.

첫 번째 단계는 대규모 데이터 세트를 사용한 표준화된 지도 학습으로 시작됩니다.

두 번째 단계에서 바이두는 프로그래밍, 논리적 추론, 에이전트 작업과 같은 분야에 대해 각각 고유한 평가 신호를 가진 여러 개의 개별 전문가 모델을 병렬로 학습시킵니다.

세 번째 단계에서는 하나의 "학생" 모델이 모든 전문가 "선생님"으로부터 동시에 학습하며, 스스로 답을 생성하고 이를 전문가들의 결과와 비교합니다.

마지막 단계는 열린 대화와 창의적인 과제를 위한 일반적인 강화 학습을 포함합니다.

바이두에 따르면, 이 마지막 단계는 매우 중요한데, 교사에서 학생으로 전달되는 과정에서 지나치게 다듬어졌지만 다양성이 부족한 답변이 나올 수 있기 때문입니다.

이러한 과정을 통해 ERNIE 5.1은 기능 수준의 균형을 이루어 어느 한 영역이 지나치게 강조되거나 다른 영역을 가리는 것을 방지합니다.

탁월한 실적과 글로벌 시장 지배를 향한 야망.

바이두의 최적화 노력은 권위 있는 순위에서 구체적인 성과를 보여주고 있습니다. 실제 사용자들이 실시간 웹 검색 작업을 통해 AI 모델을 평가하는 LMArena 검색 아레나에서 ERNIE 5.1은 5월 9일 기준 1,223점을 기록했습니다.

이 점수는 전 세계적으로 4위를 차지하며, 중국에서 개발된 모든 모델 중에서 최고 순위를 기록합니다.

ernie-5-1-01-lmarena-search-ranking-1778639140714-1778639141083628747758-4531.jpg — Ernie 5.1은 곧바로 LMArena 랭킹 4위권에 진입했습니다.

지식 및 추론에 대한 집중적인 테스트에서 ERNIE 5.1은 Google의 Gemini 3.1 Pro와 같은 서구의 주요 폐쇄형 소스 모델에 필적하는 성능을 보였습니다.

AIME26 수학 경시대회에서 이 모델은 추론 도구를 사용할 때 99.6%의 정확도를 달성하여 Gemini 3.1 Pro에 이어 2위를 차지했습니다.

특히 복잡한 스프레드시트 처리나 자동화된 다단계 웹 브라우징과 같은 "대리인 역량" 관련 작업에서 ERNIE 5.1은 이전에 중국에서 최고 기록을 보유했던 DeepSeek-V4-Pro 모델을 능가했습니다.

ERNIE 5.1의 효과에 대한 이야기는 2025년 초 DeepSeek R1이 미쳤던 영향과 유사합니다. 당시 DeepSeek은 OpenAI o1과 비슷한 성능을 98% 더 적은 비용으로 달성할 수 있음을 입증했습니다.

하지만 DeepSeek이 추론 효율성에 중점을 두는 반면, ERNIE 5.1은 초기 학습 단계부터 획기적인 발전을 이루었습니다.

바이두가 전하는 메시지는 분명합니다. 중국의 AI 연구소들은 단순히 시스템에 더 많은 하드웨어 성능을 투입하는 것에 의존하는 대신, "적은 자원으로 더 많은 것을 해내는" 혁신적인 방법을 끊임없이 모색하고 있다는 것입니다.

현재 ERNIE 5.1은 중국 내 10개 이상의 크리에이티브 플랫폼 및 에이전시에 광범위하게 배포되고 있습니다. 사용자들은 롤플레잉 플랫폼 이세계 제로, 단편 영화 제작 도구 스토리마스터, 그래픽 애플리케이션 디팅환류와 같은 애플리케이션을 통해 이 모델을 경험할 수 있습니다.

복호화, 디코더

출처: https://khoahocdoisong.vn/quai-vat-ai-ernie-51-cua-baidu-van-hanh-with-lower-cost-than-94-post2149100260.html