Veo 3의 가장 큰 문제점

이 AI 모델은 출시된 지 한 달이 넘었지만 여전히 동영상에 의미 없고 지저분한 자막을 자동으로 삽입하고 있습니다. 이러한 상황은 구글이 AI 기능을 과시하기 위해 미완성 제품도 기꺼이 출시할 의향이 있음을 보여줍니다.

ZNews•19/07/2025

Veo3는 구글이 5월 말에 출시한 최신 AI 모델로, 사용자가 음성 명령을 기반으로 동영상을 제작할 수 있도록 해줍니다. 이 모델은 이전 버전의 구글 모델에는 없었던 소리와 대화가 포함된 동영상 제작 기능을 제공하여 콘텐츠 제작 커뮤니티의 주목을 받고 있으며, 이를 통해 더욱 현실적인 동영상을 만들 수 있게 되었습니다.

많은 사용자들이 Veo 3의 최대 8초 길이의 비디오 클립을 활용하여 광고, ASMR 영상, 판타지 영화 예고편, 그리고 유머러스한 거리 인터뷰 등을 제작합니다.

아카데미상 후보에 오른 감독 대런 아로노프스키는 이 도구를 사용하여 '안세스트라'라는 단편 영화를 제작했습니다. 기자 회견에서 구글 딥마인드 CEO 데미스 하사비스는 Veo 3를 영화계의 "무성 영화 시대 탈출"에 비유했습니다.

Veo 3의 "지속적인" 자막

하지만 많은 사용자들이 이 도구가 예상대로 작동하지 않는다는 사실을 발견했습니다. 대화가 포함된 클립을 만들 때, Veo 3는 자막을 추가하지 말라는 명령이 명확하게 나와 있음에도 불구하고 의미 없는 뒤죽박죽 자막을 자동으로 삽입하는 경우가 많습니다.

이러한 자막을 제거하는 것은 간단하지 않습니다. 사용자는 "토큰"을 사용하여 영상을 새로 제작해야 하는데, 이는 구글에 추가 비용을 지출하는 것을 의미합니다. 또는 외부 도구를 사용하여 자막을 제거하거나, 영상을 편집하여 자막을 없애야 합니다.

Veo 3는 사실적인 영상과 입 모양에 맞춘 대화를 제공하지만, 자막은 의미가 없습니다. 사진: Lesswrong

구글 랩 및 제미니 부사장인 조쉬 우드워드는 6월 9일 X에 구글이 스팸 문제를 줄이기 위한 패치를 개발했다고 게시했습니다. 그러나 한 달이 넘도록 사용자들은 구글 랩의 디스코드 채널에서 이 문제를 계속해서 보고하고 있으며, 이는 대규모 AI 모델의 버그를 수정하는 것이 쉽지 않다는 것을 보여줍니다.

구글의 기존 AI 동영상 제작 모델과 마찬가지로 Veo 3는 월 249.99달러 부터 시작하는 유료 모델입니다. 8초 분량의 동영상을 제작하려면 사용자는 Flow, Gemini 또는 다른 플랫폼에 설명을 입력해야 합니다. Veo 3를 이용한 동영상 클립 제작에는 최소 20 AI 크레딧이 소모되며, 25달러를 추가하면 2,500 크레딧을 구매할 수 있습니다.

광고 감독인 모나 와이스는 자막을 제거하기 위해 영상을 다시 만드는 데 상당한 비용이 든다고 말합니다. "Veo3를 사용해서 대화가 있는 장면을 만들면, 출력물의 약 40%에 의미 없는 자막이 생겨서 영상을 사용할 수 없게 됩니다."라고 그녀는 말합니다. "마음에 드는 장면을 얻기 위해 많은 돈을 썼지만, 결국에는 쓸모없는 영상이 되어버리는 거죠."

관심 있을 수도 있어요

온라인 사기를 방지하기 위한 전자 신분 확인 애플리케이션의 특징.싱가포르 통계에 따르면, 2025년 온라인 사기는 전자상거래 사기에 이어 두 번째로 흔한 사기 유형이었으며, 총 손실액은 약 4천만 싱가포르 달러(3천만 달러 이상)에 달했습니다.

스마트 공장이 더 이상 자동화로 정의되지 않을 때.VTV.vn - 스마트 공장은 인공지능, 에너지 관리, 디지털 생태계가 현대 제조의 기반이 되는 새로운 발전 단계에 진입하고 있습니다.

호주, 피싱 메시지 차단을 위한 새로운 "방어책" 도입.2026년 초부터 호주 국가사기방지센터는 4,200개 이상의 의심스러운 전화번호 목록과 825개의 발신자 식별 정보를 통신 회사에 전달하여 처리하도록 했습니다.

Veo 3에서는 의미 없는 자막을 제거하기가 어렵습니다. 사진: Technology Review .

와이스는 낭비된 크레딧을 돌려받기 위해 디스코드를 통해 구글 랩에 문제를 보고했지만, 지원팀은 그녀를 회사 공식 지원 부서로 안내했습니다. 공식 지원 부서에서는 Veo 3 구독료는 환불해 주었지만, 크레딧은 환불해 주지 않았습니다. 와이스는 환불을 받으면 해당 모델에 대한 접근 권한을 잃게 되기 때문에 거부했습니다.

구글 랩 디스코드 지원팀은 음성이 감지되면 자막이 자동으로 활성화될 수 있으며, 이 버그를 수정하기 위해 노력하고 있다고 밝혔습니다.

문제는 구글의 접근 방식에서 비롯됩니다.

Veo 3가 자막을 자동으로 삽입하는 이유는 모델 학습에 사용된 데이터 때문입니다.

구글은 모델 학습에 사용된 데이터 범주에 대한 자세한 내용을 공개하지 않았지만, 유튜브나 틱톡과 같은 플랫폼의 동영상이 포함될 가능성이 높습니다. 이러한 동영상에는 자막이 포함된 경우가 많기 때문입니다. 클라크 대학교(매사추세츠주)의 동영상 공유 플랫폼 및 AI 연구원인 슈오 뉴에 따르면, 자막은 동영상 프레임에 직접 삽입되어 있어 학습 데이터로 사용하기 전에 제거하기가 어렵습니다.

"텍스트-비디오 변환 모델은 강화 학습을 사용하여 사람이 만든 비디오와 유사한 콘텐츠를 생성하도록 훈련됩니다. 그리고 해당 비디오에 자막이 있는 경우, 모델은 자막을 추가하면 결과물이 사람이 만든 비디오와 더 비슷해진다는 것을 '학습'할 수 있습니다."라고 그는 설명했습니다.

Veo 3는 YouTube 및 TikTok 동영상의 모델 학습 데이터의 영향을 받았습니다. 이미지 출처: Mashable

구글 대변인은 "저희는 특히 텍스트, 자연스러운 음성, 완벽한 동기화 측면에서 동영상 제작 기능을 지속적으로 개선하고 있습니다. 결과가 일관되지 않다고 느끼시는 경우 명령어를 다시 시도해 주시고, '좋아요' 또는 '싫어요' 기능을 통해 피드백을 주시면 감사하겠습니다."라고 밝혔습니다.

미국 - 베트남: 놓치지 마세요

베트남은 미국 기업들이 첨단 기술 분야에 대한 투자를 확대하도록 장려하고 있습니다.6월 26일 오전, 호꾸옥둥 부총리는 정부 청사에서 코히런트 그룹(미국)의 공급망 담당 이사인 제프 플레이스 씨를 접견했습니다. 이 자리에서 호 부총리는 베트남이 미국 기업들의 투자를 적극적으로 장려하며, 특히 첨단 기술, 혁신 및 반도체 산업 분야에 대한 투자를 확대해 줄 것을 당부했습니다.