Vietnam.vn - Nền tảng quảng bá Việt Nam

화웨이, AI 훈련이 딥시크보다 우수하다고 주장

화웨이는 미국 기술에 대한 의존도를 줄이고자 노력하면서 AI 모델링 아키텍처 분야에서 의미 있는 진전을 이루었습니다.

ZNewsZNews05/06/2025

DeepSeek의 AI 학습 기술을 개선하여 Huawei Ascend 칩은 탁월한 성능을 구현했습니다. 사진: Reuters

SCMP 에 따르면, 화웨이의 Pangu 대규모 언어 모델(LLM)을 연구하는 연구원들은 6월 4일, 이 회사의 독점 하드웨어를 활용해 DeepSeek의 원래 인공지능(AI) 훈련 방식을 개선했다고 발표했습니다.

구체적으로, 핵심 협력자 22명과 추가 연구자 56명으로 구성된 Huawei의 Pangu 팀이 발표한 논문에서는 DeepSeek의 비용 효율적인 AI 모델에서 핵심적인 역할을 하는 Mixture of Experts(MoE) 기술의 업그레이드 버전인 Mixture of Grouped Experts(MoGE) 개념을 소개했습니다.

논문에 따르면 MoE는 대규모 모델 매개변수와 고급 학습 기능에 대해 낮은 실행 비용을 제공하지만, 종종 비효율성을 초래합니다. 이는 불균등한 활성화로 인해 여러 기기에서 병렬로 실행할 때 성능이 저하되기 때문입니다.

연구자들에 따르면, MoGE는 선발 과정에서 전문가 팀을 통해 개선되었으며 "전문가"의 업무량을 더 잘 분산시켰습니다.

AI 학습에서 "전문가"라는 용어는 더 큰 모델 내의 특수한 하위 모델 또는 구성 요소를 지칭합니다. 이러한 각 모델은 특정 작업이나 고유한 유형의 데이터를 처리하도록 설계됩니다. 이를 통해 전체 시스템은 다양한 전문 지식을 활용하여 성능을 향상시킬 수 있습니다.

화웨이에 따르면, 학습 과정은 사전 학습, 롱 컨텍스트 확장, 사후 학습의 세 가지 주요 단계로 구성됩니다. 전체 과정에는 13조 2천억 개의 토큰을 활용한 사전 학습과 8,192개의 어센드(Ascend) 칩을 활용한 롱 컨텍스트 확장이 포함됩니다. 어센드는 화웨이의 가장 강력한 AI 프로세서로, AI 모델 학습에 사용되며 엔비디아의 하이엔드 칩 설계 지배력에 도전하는 것을 목표로 합니다.

연구진은 AI 작업을 가속화하도록 특별히 설계된 Ascend 신경 처리 장치(NPU)에서 새로운 아키텍처를 테스트한 결과, MoGE가 "모델 학습과 추론 모두에서 전문가 부하 분산과 성능 효율성을 향상시킨다"는 것을 발견했습니다.

그 결과, DeepSeek-V3, Alibaba의 Qwen2.5-72B, Meta Platforms의 Llama-405B와 같은 모델과 비교했을 때 Pangu는 대부분의 일반 영어 벤치마크와 모든 중국어 벤치마크보다 우수한 성능을 보이며, 장기 컨텍스트 학습에서 탁월한 성능을 보였습니다.

출처: https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html


댓글 (0)

No data
No data
SU-30MK2가 '바람을 가르는' 순간, 날개 뒤쪽에 하얀 구름처럼 공기가 모인다.
'베트남 - 자랑스럽게 미래를 향해 나아가다' 국민적 자부심 확산
국경일 맞아 젊은이들이 머리핀과 금별 스티커를 찾아 나선다
퍼레이드 훈련 단지에서 세계 최신 탱크, 자살 무인 항공기를 만나보세요
붉은 깃발과 노란 별이 인쇄된 케이크를 만드는 추세
중요한 명절을 맞아 항마 거리에는 티셔츠와 국기가 넘쳐난다.
새로운 체크인 장소를 발견하세요: '애국'의 벽
Yak-130 다목적 항공기 편대가 '출력을 높이고 전투를 벌이는' 모습을 지켜보세요.
A50에서 A80까지 - 애국심이 트렌드일 때
'스틸 로즈' A80: 강철 같은 발걸음에서 찬란한 일상으로

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품