Vietnam.vn - Nền tảng quảng bá Việt Nam

Veo 3의 큰 문제

이 AI 모델은 출시 후 한 달이 넘도록 자동으로 영상에 횡설수설을 삽입하고 있으며, 이는 구글이 AI 역량을 보여주기 위해 미완성 제품을 공개할 의향이 있음을 보여줍니다.

ZNewsZNews19/07/2025

Veo3는 5월 말 출시된 구글의 최신 AI 모델로, 명령에 따라 비디오를 생성할 수 있습니다. 이 모델은 이전 구글 모델 버전에서는 제공되지 않았던 사운드와 대화가 포함된 비디오를 제작할 수 있어 콘텐츠 제작 커뮤니티의 주목을 받고 있습니다. 덕분에 더욱 사실적인 비디오를 만들 수 있습니다.

많은 사용자가 최대 8초 길이의 Veo 3 비디오를 사용하여 광고, ASMR 비디오, 판타지 영화 예고편, 유머러스한 거리 인터뷰를 제작합니다.

오스카상 후보에 오른 대런 아로노프스키 감독은 이 도구를 사용하여 단편 영화 '앤세스트라(Ancestra)'를 제작했습니다. 기자 회견에서 구글 딥마인드 CEO 데미스 하사비스는 Veo 3를 영화계의 무성 영화 시대에서 벗어나는 움직임에 비유했습니다.

Veo 3의 "지속적인" 자막

하지만 많은 사용자가 이 도구가 예상대로 작동하지 않는다는 점을 발견했습니다. Veo 3는 대화가 포함된 클립을 만들 때, 명령에 자막을 추가하지 말라고 명시되어 있음에도 불구하고 무의미하고 지저분한 자막을 자동으로 삽입하는 경우가 많습니다.

이러한 자막을 제거하는 것은 쉽지 않습니다. 사용자는 클립을 다시 만들거나, 구글에 더 많은 수익을 가져다주는 "토큰"을 사용하거나, 외부 도구를 사용하거나, 아니면 비디오를 잘라서 자막을 제거해야 합니다.

video AI anh 1

Veo 3는 생생한 이미지를 제공하고, 대사는 입 모양과 일치하지만, 자막은 의미가 없습니다. 사진: Lesswrong .

구글 랩스 및 제미니 부사장인 조쉬 우드워드는 6월 9일 X에 구글이 스팸을 줄이기 위한 패치를 개발했다고 게시했습니다. 하지만 한 달이 넘도록 사용자들은 구글 랩스 디스코드 채널에 이 문제를 계속해서 제보하고 있으며, 이는 대규모 AI 모델의 버그 수정이 쉽지 않음을 보여줍니다.

Google의 이전 비디오 생성 AI 모델과 마찬가지로 Veo 3는 월 249.99달러 부터 시작하는 유료 모델입니다. 8초 분량의 비디오를 제작하려면 사용자는 Flow, Gemini 또는 다른 플랫폼에 설명을 입력해야 합니다. Veo 3로 제작한 각 클립은 최소 20개의 AI 크레딧이 필요하며, 사용자는 25달러 를 충전하여 2,500 크레딧을 얻을 수 있습니다.

광고 감독인 모나 바이스는 자막을 제거하기 위해 영상을 다시 만드는 데 상당한 비용이 들고 있다고 말했습니다. "Veo3로 대사 장면을 만들면 결과물의 약 40%에 쓸데없는 자막이 들어가 영상을 사용할 수 없게 됩니다."라고 그녀는 말했습니다. "마음에 드는 장면을 만드는 데 많은 비용이 들지만, 사용할 수 없는 상황입니다."

video AI anh 2

Veo 3에서는 말도 안 되는 자막을 제거하기가 어렵습니다. 사진: Technology Review .

Weiss가 낭비된 크레딧을 환불받고 싶어 디스코드를 통해 Google Labs에 문제를 신고했을 때, 지원팀은 그녀를 회사 공식 지원 부서로 연결했습니다. 지원팀은 Veo 3 구독료는 환불해 주겠다고 제안했지만, 크레딧은 환불해 주지 않았습니다. Weiss는 환불을 받으면 모델에 대한 접근 권한을 잃게 된다는 이유로 거부했습니다.

Google Labs의 Discord 지원팀은 음성이 감지되면 자막이 자동으로 활성화될 수 있으며, 이를 수정하기 위해 노력하고 있다고 밝혔습니다.

Google 접근 방식의 문제점

Veo 3가 자동으로 캡션을 삽입하는 이유는 모델이 훈련된 데이터에서 비롯됩니다.

매사추세츠 클라크 대학교의 비디오 공유 플랫폼 및 AI 연구자인 슈오 뉴에 따르면, 구글은 모델을 학습하는 데 사용된 데이터 범주를 공개하지 않았지만 YouTube와 TikTok의 비디오가 포함되어 있을 가능성이 높으며, 이 중 많은 비디오의 프레임에 직접 자막이 내장되어 있어 학습 데이터로 사용하기 전에 삭제하기 어렵다고 합니다.

"텍스트-비디오 모델은 강화 학습을 통해 학습되어 인간이 생성한 비디오를 모방하는 콘텐츠를 생성합니다. 해당 비디오에 자막이 있는 경우 모델은 자막을 추가하면 제품이 인간이 생성한 비디오와 더 유사해진다는 것을 '학습'할 수 있습니다."라고 그는 설명합니다.

video AI anh 3

Veo 3는 YouTube와 TikTok 동영상의 모델 학습 데이터의 영향을 받습니다. 사진: Mashable .

구글 대변인은 "저희는 특히 텍스트, 자연스러운 음성, 그리고 완벽하게 동기화된 오디오를 중심으로 비디오 제작 기능을 지속적으로 개선하고 있습니다."라고 밝혔습니다. "사용자들이 일관성 없는 결과를 볼 경우 명령어를 다시 시도해 보시고, 결과에 '좋아요' 또는 '싫어요'를 표시하여 피드백을 주시기를 권장합니다."

스토니 브룩 대학교의 AI 시스템 연구원인 투힌 차크라바티에 따르면, 모델이 "자막 없음"과 같은 명령을 무시하는 이유는 부정적인 진술(AI에게 무언가를 하지 말라고 요청하는 것)이 긍정적인 메시지보다 덜 효과적이기 때문입니다.

Chakrabarty는 이 문제를 완전히 해결하려면 Google이 Veo 3를 훈련하는 데 사용한 모든 비디오의 모든 프레임을 검토한 다음, 모델을 다시 훈련하기 전에 비디오를 제거하거나 자막으로 다시 레이블을 지정해야 하는데, 이 작업에는 몇 주가 걸린다고 덧붙였습니다.

MIT 오픈 다큐멘터리 랩의 다큐멘터리 영화 제작자이자 아트 디렉터인 카테리나 치젝은 이 문제는 구글이 아직 완성되지 않은 제품을 출시할 의향이 여전히 있음을 보여준다고 말했습니다.

"구글은 승리해야 합니다." 시젝은 말했다. "구글은 자신들의 입술 소리에 맞춰 작동하는 도구를 가장 먼저 출시해야 합니다. 그리고 그것이 자막 문제를 해결하는 것보다 더 중요합니다."

출처: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


댓글 (0)

No data
No data
색조의 조각들 - 색조의 조각들
푸토의 '거꾸로 된 그릇' 차밭의 마법 같은 풍경
중부지역 3개 섬, 몰디브에 비유돼 여름철 관광객 유치
밤에 반짝이는 꾸이년 해안 도시 지아라이를 감상하세요
푸토의 계단식 논은 완만한 경사를 이루고 있으며, 심기 전 거울처럼 밝고 아름답습니다.
Z121 공장, 국제 불꽃놀이 마지막 밤 준비 완료
유명 여행 잡지가 손동 동굴을 '세계에서 가장 웅장한 동굴'이라고 칭찬했습니다.
서양 관광객을 끌어들이는 신비로운 동굴, 탄호아의 '퐁냐 동굴'과 비교돼
빈히만의 시적인 아름다움을 발견하세요
하노이에서 가장 비싼 차는 1kg당 1,000만 동이 넘는데, 어떻게 가공하나요?

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품