AI 모델, 단일 사진을 3D 세계로 변환

중국의 선도적인 기술 기업인 텐센트가 단 하나의 입력 이미지만으로 3차원 공간에서 움직임을 시뮬레이션하는 비디오를 생성할 수 있는 새로운 인공지능 모델을 발표했습니다.

HunyuanWorld-Voyager라고 불리는 이 시스템은 깊이 정보가 포함된 짧은 클립을 생성하여 3D 도트 매트릭스로 재구성할 수 있습니다. 이는 콘텐츠 제작자에게 새로운 가능성을 열어주지만, 3D 모델과 완벽하게 상호 작용하지는 못합니다.

HunyuanWorld-Voyager는 약 2초 분량의 영상인 49개 프레임의 시퀀스를 생성하는 개방형 가중치 모델이지만, 사용자는 클립을 연결하여 몇 분 분량의 연속 영상을 만들 수 있습니다.

Ars Technica는 시청자가 가상 카메라의 시점을 변경하더라도 객체는 상대적 위치를 유지하고 환경은 마치 완전한 3차원처럼 작동한다고 지적합니다. 최종 결과물은 여전히 2차원 비디오이지만, Tencent는 깊이 데이터를 통해 기존 모델링 기법 없이도 3D 재구성이 가능하다고 밝혔습니다.

Voyager는 입력 이미지와 사용자 정의 카메라 경로를 결합하여 작동합니다. 사용자가 패닝, 틸팅, 장면 이동 등의 움직임을 지정하면 시스템은 컬러 비디오와 깊이 맵을 동시에 생성합니다. 비디오에 객체가 나타나면 출력 깊이 데이터는 해당 객체와 정확한 위치 사이의 상대 거리를 기록합니다.

Tencent의 기술 문서에 따르면 월드 캐시라고 불리는 2차 구성 요소는 시스템이 새로운 프레임을 생성할 때 3D 포인트 클라우드를 저장합니다.

보이저는 카메라를 움직일 때마다 이 점들을 2차원으로 다시 투영하여 참조로 사용합니다. 이 과정을 통해 후속 프레임이 이전에 생성된 콘텐츠와 일치하도록 하여 공간적 일관성을 유지하는 데 도움이 됩니다.

이 모델은 프레임 생성 후 3D 점으로 변환하여 왜곡을 방지하고, 이를 비교를 위해 시스템에 피드백합니다. 이러한 피드백 루프는 시간이 지남에 따라 오류가 누적되더라도 기하학적 안정성을 보장합니다.

이 방법은 몇 분 동안은 일관된 영상을 유지하지만, 특히 360도 회전과 같이 더 길거나 복잡한 카메라 움직임에는 어려움이 있습니다.

텐센트는 실제 영상과 언리얼 엔진으로 제작된 장면을 포함하여 10만 개 이상의 비디오 클립으로 Voyager를 훈련시켰습니다. 이 대규모 데이터 세트는 시스템에 3차원 환경에서 카메라가 일반적으로 어떻게 움직이는지 학습시켰습니다. 별도의 자동화된 프로세스를 통해 비디오 클립을 스캔하여 각 프레임의 깊이를 계산하는 방식으로 훈련 입력을 생성했으며, 이를 통해 데이터에 수동으로 레이블을 지정할 필요가 없어졌습니다.

이 시스템은 엄청난 컴퓨팅 파워를 필요로 합니다. 540p 해상도로 모델을 실행하려면 최소 60GB의 GPU 메모리가 필요하며, 최적의 결과를 위해서는 80GB가 권장됩니다. 텐센트는 허깅 페이스(Hugging Face)에서 모델 가중치를 발표했으며, 단일 GPU 및 다중 GPU 설정을 모두 지원합니다. 텐센트는 xDiT 플랫폼을 사용하여 성능이 수평적으로 확장된다고 설명합니다. 즉, 8개의 GPU를 사용하는 시스템은 단일 GPU에서 실행하는 것보다 약 6.7배 더 빠르게 영상을 처리할 수 있습니다.

대부분의 생성 비디오 모델은 기하학적 일관성을 적용하지 않고 각 프레임을 생성합니다. 예를 들어, OpenAI의 Sora는 3D 일관성보다 시각적 사실성을 우선시합니다. Voyager는 다른 접근 방식을 취하여 완전한 3D 이해 대신 피드백 기반 패턴 매칭을 통해 프레임 전체에서 깔끔한 지오메트리를 유지합니다.

68b686ef2d656-68b686ef281f7-68b686ef281b6-이미지1분.gif

스탠퍼드 연구진이 3D 세계 생성 시스템을 평가하기 위해 개발한 월드스코어(WorldScore)에서 보이저는 77.62점을 받았습니다. 텐센트 보고서에 따르면, 이는 비교 모델 중 가장 높은 점수로, 원더월드(WonderWorld)의 72.69점과 코그비디오X-I2V(CogVideoX-I2V)의 62.15점을 능가했습니다. 보이저는 스타일 일관성과 주관적 품질 면에서 원더월드를 앞섰지만, 카메라 제어력에서는 부족했습니다.

68b6882bd44de-68b6882bd0a69-68b6882bd0a34-이미지88분.gif

유망한 성과에도 불구하고, 이 시스템에는 몇 가지 라이선스 제한이라는 주목할 만한 단점이 있습니다. 텐센트의 Hunyuan 제품군에 속한 다른 모델들과 마찬가지로, 텐센트는 Voyager를 유럽 연합, 영국 또는 한국에서 사용하는 것을 금지하고 있습니다. 또한 월간 활성 사용자 수가 1억 명이 넘는 상용 배포에는 추가 계약을 요구합니다.

출력 품질은 AI 생성 환경에 있어 큰 진전입니다. 하지만 높은 연산 비용과 현재 장면 일관성의 한계로 인해 Voyager와 같은 시스템이 완전한 인터랙티브 실시간 경험을 지원하기까지는 시간이 걸릴 수 있습니다. 현재로서는 이 시스템이 비디오 제작 및 실험적인 3D 재구성 워크플로에 가장 유용할 것으로 예상됩니다.

techspot.com

원본 기사 링크 링크 복사

https://www.techspot.com/news/109328-tencent-voyager-ai-can-turn-one-photo-explorable.html

출처: https://khoahocdoisong.vn/mo-hinh-ai-bien-mot-buc-anh-duy-nhat-thanh-the-gioi-3d-post2149050727.html