구글의 새로운 AI 영상 제작 기능이 만들어낸 '악몽'.

구글의 최신 AI 동영상 제작 도구인 Veo 3는 몇 가지 간단한 명령만으로 놀라운 사실감을 담아 "엉망인" 동영상을 복원할 수 있습니다.

ZNews•27/05/2025

구글은 구글 I/O 2025 행사에서 인공지능 비디오 제작 모델인 Veo 3를 공개하며 기술 업계를 놀라게 했습니다. 이는 구글이 논란이 많은 분야에 진출하는 중요한 발걸음이었습니다.

더 버지(The Verge)의 기자 앨리슨 존슨에 따르면, Veo 3의 가장 정교한 측면은 음향 효과와 배경 소음부터 등장인물 대화에 이르기까지 각 비디오에 맞는 독창적인 오디오를 생성할 수 있는 기능입니다.

"Veo 3는 완전히 '쓸모없는' AI 콘텐츠를 만들어내는 기계라는 인상을 받았습니다."라고 The Verge의 한 기자가 평했습니다.

구글의 새로운 AI 기반 비디오 생성기가 뛰어난 사실감으로 큰 화제를 모으고 있습니다. 더 버지(The Verge)의 앨리슨 존슨 기자에 따르면, Veo 3의 가장 정교한 측면은 효과음, 배경 소음부터 등장인물의 대사까지 각 비디오에 맞는 독창적인 오디오를 생성할 수 있다는 점입니다.

새로운 기능과 놀라운 수준의 사실감.

구글의 제미니 부사장인 조쉬 우드워드는 Veo 3 출시 발표에서 "우리는 새로운 창의성의 시대로 접어들고 있다"며, Veo 3가 "극도로 사실적인" 비디오를 제작할 수 있는 능력을 강조했습니다.

존슨은 처음에는 회의적이었지만, AI 도구를 직접 사용해본 후 우드워드의 말이 과장이 아니었음을 확인했다. Veo 3는 소름 끼칠 정도로 사실적인 제품을 만들어낼 수 있다.

구체적으로 말하자면, 더 버지의 한 기자가 뉴스 앵커가 화재 소식을 알리는 짧은 영상을 제작하려고 시도했습니다. 그 영상은 음향과 영상 모두 기존 뉴스 방송과 매우 유사하여 놀라울 정도로 사실적이었습니다.

Veo 3가 제작한 영상의 한 장면. 사진: The Verge.

얼마 지나지 않아, AI로 생성된 캐릭터들이 AI 영상 제작에 사용된 명령어에 항의하는 내용의 영상 시리즈가 포함된 해당 게시물은 레딧에서 5만 개의 좋아요를 받았습니다. 영상에는 재난 장면, 인공호흡기를 착용한 채 병원 침대에 누워 있는 여성, 총으로 위협받는 캐릭터 등이 등장했으며, 모든 장면에는 음성 대사와 사실적인 배경음이 포함되어 있었습니다.

다른 AI 동영상 제작 도구와 비교했을 때, Veo 3는 훨씬 더 간편하게 사용할 수 있습니다. 기본적인 명령 하나만 입력하면 되고, 플랫폼에서 처리하는 데 몇 분밖에 걸리지 않으며, Google의 AI Ultra 플랜(월 249.99달러 )만 구독하면 됩니다.

존슨은 더 간단한 명령어를 사용해서 동영상을 만드는 것이 더 쉽다는 것을 알게 되었는데, 이는 Veo 3가 어린이들이 쉽게 이해할 수 있는 수준의 유튜브 콘텐츠를 제작하는 데 탁월하다는 것을 증명합니다.

무성영화 시대의 종말

지금까지 어떤 AI 비디오 제작 모델도 영상에 맞춰 동기화된 오디오 또는 다른 형태의 오디오를 동시에 제공할 수 없었습니다. 하지만 동기화된 오디오를 생성할 수 있는 Veo 3는 이러한 기능을 통해 "무성 영화 시대"의 종식을 목표로 하고 있습니다.

구글 딥마인드 CEO 데미스 하사비스는 기자회견에서 "우리는 영상 제작의 침묵 시대에서 벗어나고 있다"고 말했다.

동영상 제작 도구의 보급이 확대되면서 관련 업체들이 폭발적으로 증가하여 이 시장이 포화 상태에 이르렀습니다.

Runway, Lightricks, Genmo, Pika, Higgsfield, Kling, Luma와 같은 스타트업부터 OpenAI, Alibaba와 같은 기술 대기업에 이르기까지 다양한 모델들이 빠른 속도로 출시되고 있습니다. 하지만 많은 경우 이러한 모델들 간에는 큰 차이가 없습니다.

Veo 3가 영상 품질 면에서 OpenAI Sora를 능가할 수 있을지는 아직 불확실합니다. 하지만 영상과 음성이 모두 포함된 완성도 높은 비디오 클립을 내보낼 수 있다는 점만으로도 Veo 3는 훨씬 더 매력적인 플랫폼이 될 수 있습니다.

Veo 3의 가장 뛰어난 특징은 영상과 오디오를 완벽하게 동기화할 수 있다는 점입니다. 이미지: Google.

"영화와 TV 업계 에서 배경 소음과 음향 효과는 대개 아티스트들의 몫입니다. 그런데 이제 여러분이 Veo에 원하는 배경 소음을 설명하고 영상과 대화를 포함한 모든 것을 출력해 준다고 상상해 보세요. 애니메이터들이 몇 주 또는 몇 달씩 걸려 완성하는 작업이죠."라고 존슨은 말했다.

Veo 3가 명령을 제대로 따르고 몇 시간 동안 안정적인 비디오와 오디오를 출력할 수 있다면, 인공지능으로만 제작된 최초의 애니메이션 영화가 나오는 것도 머지않아 가능할 것입니다.

Veo 3가 출시되자마자 크리에이터들은 X와 같은 플랫폼에 클립을 공유하기 시작했는데, 특히 AI가 완전히 제작한 스탠드업 코미디 영상이 큰 주목을 받았습니다. 시청자들은 음성 해설, 영상, 심지어 관객 소리까지 모든 장면이 단 하나의 명령만으로 생성되었다는 사실에 놀라움을 금치 못했습니다.

그 후, 피타고라스가 고대 배경과 정확한 대사를 사용하여 자신의 유명한 정리를 설명하는 장면을 재현한 또 다른 영상이 입소문을 탔습니다. 심지어 Veo 3에서 제작한 뮤직비디오까지 등장했는데, 영상과 음악이 완벽하게 동기화되었습니다.

이코노믹 타임스는 이러한 유형의 기술을 "영화 제작의 새로운 시대"라고 부를 수 있으며, 개인 창작자부터 대형 미디어 스튜디오에 이르기까지 누구나 저렴한 비용과 최소한의 자원으로 전문적인 콘텐츠를 제작할 수 있게 해준다고 논평했습니다.

출처: https://znews.vn/ac-mong-tu-ai-tao-video-moi-cua-google-post1556018.html