Vietnam.vn - Nền tảng quảng bá Việt Nam

Veo 3의 가장 큰 문제점

이 AI 모델은 출시된 지 한 달이 넘었지만 여전히 동영상에 의미 없고 지저분한 자막을 자동으로 삽입하고 있습니다. 이러한 상황은 구글이 AI 기능을 과시하기 위해 미완성 제품도 기꺼이 출시할 의향이 있음을 보여줍니다.

ZNewsZNews19/07/2025

Veo3는 구글이 5월 말에 출시한 최신 AI 모델로, 사용자가 음성 명령을 기반으로 동영상을 제작할 수 있도록 해줍니다. 이 모델은 이전 버전의 구글 모델에는 없었던 소리와 대화가 포함된 동영상 제작 기능을 제공하여 콘텐츠 제작 커뮤니티의 주목을 받고 있으며, 이를 통해 더욱 현실적인 동영상을 만들 수 있게 되었습니다.

많은 사용자들이 Veo 3의 최대 8초 길이의 비디오 클립을 활용하여 광고, ASMR 영상, 판타지 영화 예고편, 그리고 유머러스한 거리 인터뷰 등을 제작합니다.

아카데미상 후보에 오른 감독 대런 아로노프스키는 이 도구를 사용하여 '안세스트라'라는 단편 영화를 제작했습니다. 기자 회견에서 구글 딥마인드 CEO 데미스 하사비스는 Veo 3를 영화계의 "무성 영화 시대 탈출"에 비유했습니다.

Veo 3의 "지속적인" 자막

하지만 많은 사용자들이 이 도구가 예상대로 작동하지 않는다는 사실을 발견했습니다. 대화가 포함된 클립을 만들 때, Veo 3는 자막을 추가하지 말라는 명령이 명확하게 나와 있음에도 불구하고 의미 없는 뒤죽박죽 자막을 자동으로 삽입하는 경우가 많습니다.

이러한 자막을 제거하는 것은 간단하지 않습니다. 사용자는 "토큰"을 사용하여 영상을 새로 제작해야 하는데, 이는 구글에 추가 비용을 지출하는 것을 의미합니다. 또는 외부 도구를 사용하여 자막을 제거하거나, 영상을 편집하여 자막을 없애야 합니다.

video AI anh 1

Veo 3는 사실적인 영상과 입 모양에 맞춘 대화를 제공하지만, 자막은 의미가 없습니다. 사진: Lesswrong

구글 랩 및 제미니 부사장인 조쉬 우드워드는 6월 9일 X에 구글이 스팸 문제를 줄이기 위한 패치를 개발했다고 게시했습니다. 그러나 한 달이 넘도록 사용자들은 구글 랩의 디스코드 채널에서 이 문제를 계속해서 보고하고 있으며, 이는 대규모 AI 모델의 버그를 수정하는 것이 쉽지 않다는 것을 보여줍니다.

구글의 기존 AI 동영상 제작 모델과 마찬가지로 Veo 3는 월 249.99달러 부터 시작하는 유료 모델입니다. 8초 분량의 동영상을 제작하려면 사용자는 Flow, Gemini 또는 다른 플랫폼에 설명을 입력해야 합니다. Veo 3를 이용한 동영상 클립 제작에는 최소 20 AI 크레딧이 소모되며, 25달러를 추가하면 2,500 크레딧을 구매할 수 있습니다.

광고 감독인 모나 와이스는 자막을 제거하기 위해 영상을 다시 만드는 데 상당한 비용이 든다고 말합니다. "Veo3를 사용해서 대화가 있는 장면을 만들면, 출력물의 약 40%에 의미 없는 자막이 생겨서 영상을 사용할 수 없게 됩니다."라고 그녀는 말합니다. "마음에 드는 장면을 얻기 위해 많은 돈을 썼지만, 결국에는 쓸모없는 영상이 되어버리는 거죠."

video AI anh 2

Veo 3에서는 의미 없는 자막을 제거하기가 어렵습니다. 사진: Technology Review .

와이스는 낭비된 크레딧을 돌려받기 위해 디스코드를 통해 구글 랩에 문제를 보고했지만, 지원팀은 그녀를 회사 공식 지원 부서로 안내했습니다. 그들은 Veo 3 구독료는 환불해 주겠다고 했지만, 크레딧은 환불해 주지 않았습니다. 와이스는 환불을 받으면 해당 모델에 대한 접근 권한을 잃게 되기 때문에 거부했습니다.

구글 랩 디스코드 지원팀은 음성이 감지되면 자막이 자동으로 활성화될 수 있으며, 이 버그를 수정하기 위해 노력하고 있다고 밝혔습니다.

문제는 구글의 접근 방식에서 비롯됩니다.

Veo 3가 자막을 자동으로 삽입하는 이유는 모델 학습에 사용된 데이터 때문입니다.

구글은 모델 학습에 사용된 데이터 범주에 대한 자세한 내용을 공개하지 않았지만, 유튜브나 틱톡과 같은 플랫폼의 동영상이 포함될 가능성이 높습니다. 이러한 동영상에는 자막이 포함된 경우가 많기 때문입니다. 클라크 대학교(매사추세츠주)의 동영상 공유 플랫폼 및 AI 연구원인 슈오 뉴에 따르면, 자막은 동영상 프레임에 직접 삽입되어 있어 학습 데이터로 사용하기 전에 제거하기가 어렵습니다.

"텍스트-비디오 변환 모델은 강화 학습을 사용하여 사람이 만든 비디오와 유사한 콘텐츠를 생성하도록 훈련됩니다. 그리고 해당 비디오에 자막이 있는 경우, 모델은 자막을 추가하면 결과물이 사람이 만든 비디오와 더 비슷해진다는 것을 '학습'할 수 있습니다."라고 그는 설명했습니다.

video AI anh 3

Veo 3는 YouTube 및 TikTok 동영상의 모델 학습 데이터의 영향을 받았습니다. 이미지 출처: Mashable

구글 대변인은 "저희는 특히 텍스트, 자연스러운 음성, 완벽한 동기화 측면에서 동영상 제작 기능을 지속적으로 개선하고 있습니다. 결과가 일관되지 않다고 느끼시는 경우 명령어를 다시 시도해 주시고, '좋아요' 또는 '싫어요' 기능을 통해 피드백을 주시면 감사하겠습니다."라고 밝혔습니다.

또한, 이 모델이 "자막 없음"과 같은 지시를 무시하는 이유는 부정적인 진술(AI에게 어떤 일을 하지 말라고 지시하는 것)이 일반적으로 긍정적인 지시보다 효과가 떨어지기 때문이라고 스토니브룩 대학교의 AI 시스템 연구원인 투힌 차크라바티는 설명합니다.

이 문제를 완전히 해결하려면 구글은 Veo 3 학습에 사용된 모든 비디오의 모든 프레임을 검사한 다음 자막이 있는 비디오를 제거하거나 재분류한 후 모델을 다시 학습시켜야 합니다. 이 작업에는 몇 주가 걸릴 것이라고 차크라바티는 덧붙였습니다.

다큐멘터리 영화 제작자이자 MIT 오픈 다큐멘터리 랩의 아트 디렉터인 카테리나 시제크는 이 문제가 구글이 아직 완전히 완성되지 않은 제품을 출시할 의향이 있음을 보여준다고 주장합니다.

"구글은 반드시 성공해야 합니다."라고 시제크는 말했다. "입 모양에 맞춰 음성을 생성하는 도구를 가장 먼저 출시해야 합니다. 그리고 그건 자막 문제를 해결하는 것보다 훨씬 더 중요합니다."

출처: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


댓글 (0)

댓글을 남겨 여러분의 감정을 공유해주세요!

같은 카테고리

같은 저자

유산

수치

기업들

시사

정치 체제

현지의

제품

Happy Vietnam
내 고향의 어시장이 활기를 띠기 시작했어요!

내 고향의 어시장이 활기를 띠기 시작했어요!

가족들이 모여 전통적인 음력 설날을 준비합니다.

가족들이 모여 전통적인 음력 설날을 준비합니다.

목적지에서 만나요.

목적지에서 만나요.