중국 AI, GPT-5를 이긴다

바이두는 자사의 AI가 ChatGPT, Gemini보다 뛰어나다고 주장합니다. 사진: 바이두

바이두 월드 2025 행사에서 중국 거대 기업 바이두는 차세대 플랫폼 모델, 일련의 AI 제품 업그레이드, 그리고 국제 확장 계획을 발표했습니다. 이에 따라 ERNIE 5.0은 텍스트, 이미지, 오디오, 비디오 등 다양한 형식의 콘텐츠를 처리하고 생성할 수 있는 자체 모델입니다.

이 그룹은 경쟁이 치열해지는 AI 시장에서 글로벌 기업으로 도약하는 것을 목표로 합니다. ERNIE 5.0은 OpenAI가 주력 플랫폼 모델을 GPT-5에서 GPT5.1로 업그레이드한 지 몇 시간 만에 출시되었습니다. GPT-5.1은 토큰 소비를 줄이고 더 많은 인간적인 옵션을 통해 상호작용 경험을 개선할 것을 약속했습니다.

최근 기업 친화적인 Apache 2.0 라이선스에 따라 출시된 오픈 소스 모델인 ERNIE-4.5-VL-28B-A3B-Thinking의 경우, 사용자는 Baidu의 ERNIE Bot 웹사이트와 기관 고객을 위한 Qianfan Cloud Platform API를 통해서만 새로운 챗봇에 액세스할 수 있습니다.

모델 버전은 ERNIE 5.0 Preview 1022로, 텍스트 중심 작업에 최적화되어 있으며, 여러 데이터 유형을 균형 있게 조정할 수 있는 일반 미리보기 버전도 함께 제공됩니다. 또한, Baidu는 "디지털 휴먼" 플랫폼, 노코드 도구, 그리고 범용 AI 에이전트에 대한 일련의 중요한 업그레이드를 도입했습니다.

ERNIE 5.0은 AI가 대규모로 구축되는 방식에 변화를 가져오며, 중국 시장을 넘어 AI 활용 범위를 확장하는 것을 목표로 합니다. CEO 로빈 리(Robin Li)는 "AI 내재화는 기업의 본질적인 역량이 되어 AI를 비용에서 생산성의 원천으로 전환할 것입니다."라고 말했습니다.

ERNIE 5.0은 그래프와 문서 이해에 있어 탁월한 성능을 보여줍니다. 사진: 바이두

테스트 결과에 따르면 ERNIE 5.0은 다양한 작업에서 주요 서구 플랫폼 모델과 유사하거나 동등한 성능을 보입니다. ERNIE 5.0 Preview는 다중 모드 추론, 문서 이해, 이미지 기반 질의응답 테스트에서 OpenAI의 GPT-5-High 및 Google의 Gemini 2.5 Pro보다 성능이 뛰어나거나 동등합니다.

동시에 이 모델은 강력한 언어 및 코드 실행 기능을 보여줍니다. 회사는 후처리 데이터 모드를 연결하는 대신, 동일 모델 내에서 다중 모드의 입출력 조합을 처리할 수 있는 능력을 강조하는데, 이는 팀에서 기술적 차별화 요소로 보고 있는 부분입니다.

이미지 작업 측면에서 ERNIE 5.0은 문서 인식, 콘텐츠 이해, 구조화된 데이터 추론을 측정하는 세 가지 벤치마크인 OCRBench, DocVQA, ChartQA에서 최고 점수를 받았습니다. 바이두는 이 모델이 문서 및 차트 관련 테스트에서 GPT-5-High와 Gemini 2.5 Pro보다 우수한 성능을 보였다고 밝혔습니다.

바이두 내부 평가에 따르면, 이미징 분야에서 ERNIE 5.0은 의미 매칭 및 이미지 품질 등의 측면에서 Google Veo3와 동등하거나 더 나은 결과를 달성했습니다. 이 모델의 다중 모드 통합 기능은 높은 수준의 맥락적 이해를 바탕으로 시각적 콘텐츠를 생성하고 해석할 수 있도록 지원합니다.

ERNIE 5.0은 알리바바 등 중국 경쟁사의 다른 고급 모델과 가격 및 세그먼트가 유사합니다. ERNIE 4.5 Turbo 등 이전 제품보다 가격이 높습니다. 하지만 미국 모델과 비교했을 때 챗봇의 가격은 여전히 중간 가격대입니다.

Venturebeat에 따르면, 이는 많은 트래픽을 처리하는 저비용 모델과 복잡한 작업 및 다중 모드 추론을 위한 고성능 모델을 명확히 구분하려는 Baidu의 전략을 보여줍니다.

출처: https://znews.vn/ai-trung-quoc-danh-bai-gpt-5-post1602692.html