말을 타고 있는 우주비행사의 이미지는 두 가지 유형의 생성 AI 모델을 사용하여 만들어졌습니다. 사진: MIT 뉴스
속도와 품질이 더 이상 상충되지 않을 때
AI 이미징 분야에는 현재 두 가지 주요 접근 방식이 있습니다.
확산 모델은 선명하고 세부적인 이미지를 구현할 수 있습니다. 하지만 속도가 느리고 연산량이 많아 각 픽셀의 노이즈를 제거하는 데 수십 단계의 처리 과정이 필요합니다.
자기회귀 모델은 이미지의 작은 부분들을 순차적으로 예측하기 때문에 훨씬 빠릅니다. 하지만 이미지의 세부 정보가 부족하고 오류가 발생하기 쉽습니다.
HART(하이브리드 자기회귀 변환기)는 두 가지를 결합하여 "양쪽의 장점"을 제공합니다. 먼저 자기회귀 모델을 사용하여 전체 이미지를 이산 토큰으로 인코딩하여 구성합니다. 그런 다음, 가벼운 확산 모델이 인코딩 과정에서 손실된 세부 정보인 잔여 토큰을 채웁니다.
그 결과 생성된 이미지는 최첨단 확산 모델과 비슷하거나 더 나은 품질을 가지지만, 처리 속도가 9배 빠르고 컴퓨팅 리소스는 31% 더 적게 사용합니다.
고속으로 고품질 이미지를 생성하는 새로운 접근 방식
HART의 주목할 만한 혁신 중 하나는 자기회귀 모델을 사용할 때 발생하는 정보 손실 문제를 해결하는 방식입니다. 이미지를 이산 토큰으로 변환하면 처리 속도는 빨라지지만, 객체의 모서리, 얼굴 특징, 머리카락, 눈, 입 등과 같은 중요한 세부 정보가 손실됩니다.
HART의 해결책은 확산 모델이 잔여 토큰을 통해 이러한 세부 사항을 "패치"하는 데만 집중하도록 하는 것입니다. 자기회귀 모델이 이미 대부분의 작업을 완료했기 때문에, 확산 모델은 이전에 30단계 이상 필요했던 처리 단계 8단계만 필요합니다.
공동 저자인 하오티안 탕은 "확산 모델은 구현하기 쉬워 효율성이 더 높다"고 설명했습니다.
구체적으로, 7억 개의 매개변수를 갖는 자기회귀 변환기 모델과 3,700만 개의 매개변수를 갖는 경량 확산 모델을 결합하면 HART는 최대 20억 개의 매개변수를 갖는 확산 모델과 동일한 성능을 제공하지만 9배 더 빠릅니다.
팀은 처음에 이미지 생성 과정의 초기 단계에 확산 모델을 통합하려고 시도했지만, 이로 인해 오류가 누적되었습니다. 가장 효과적인 방법은 확산 모델이 마지막 단계를 처리하도록 하고 이미지의 "누락된" 부분에만 집중하는 것이었습니다.
멀티미디어 AI의 미래를 열다
팀의 다음 단계는 HART 아키텍처를 기반으로 차세대 시각 언어 AI 모델을 구축하는 것입니다. HART는 확장 가능하고 다양한 데이터 유형(멀티모달)에 적응 가능하므로, 비디오 생성, 오디오 예측 등 다양한 분야에 적용할 수 있을 것으로 기대합니다.
이 연구는 MIT-IBM 왓슨 AI 랩, MIT-아마존 과학 센터, MIT AI 하드웨어 프로그램, 그리고 미국 국립 과학 재단을 포함한 여러 기관의 지원을 받았습니다. 엔비디아는 모델 학습을 위해 GPU 인프라를 지원했습니다.
(MIT 뉴스에 따르면)
출처: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
댓글 (0)