Trang chủKhoa học - Công nghệCông nghệ sốNhững AI biến văn bản thành video tương tự Sora

Những AI biến văn bản thành video tương tự Sora


Sora (OpenAI)

Sora là cái tên mới nhất được công bố nhưng lại gây xôn xao nhất, phần vì đây là sản phẩm của OpenAI – nhà phát triển ChatGPT nổi tiếng, nhưng nguyên nhân chủ yếu nhờ chất lượng video do chương trình tạo ra chỉ từ lệnh văn bản.

Thành công với ChatGPT cũng giúp trí tuệ nhân tạo của công ty có khả năng hiểu ngôn ngữ sâu sắc. Những clip minh họa cho khả năng của Sora đã thể hiện nhân vật chuyển động và sắc thái hết sức sinh động, như một thước phim người quay.

Video "siêu thực" do Sora tạo từ các lệnh văn bản

Video “siêu thực” do Sora tạo từ các lệnh văn bản

Nhưng Sora chưa có mặt trên thị trường vì các lý do an toàn. OpenAI sẽ tiến hành các biện pháp đo lường cẩn trọng trước khi đưa sản phẩm này đến tay người dùng đại chúng, đặc biệt trong bối cảnh trí tuệ nhân tạo đang bị kẻ gian lợi dụng cho các mục đích xấu, giả mạo người dùng hoặc phi pháp.

Lumiere (Google)

Lumiere là sản phẩm đến từ Google, cũng có khả năng sản xuất video từ lệnh văn bản nhập vào, hoạt động dựa trên mô hình khuếch tán cấu trúc STUNet (Space-Time-U-Net). Lumiere không loay hoay với việc ghép các khung hình tĩnh với nhau mà thay vào đó, AI này xác định những chi tiết có trong video (phần không gian), theo dõi cách chúng chuyển động, thay đổi cùng lúc (phần thời gian), từ đó giúp quá trình vận hành trôi chảy.

Cũng như Sora, Lumiere chưa được đưa tới công chúng. Hãng mới giới thiệu mô hình này từ cuối tháng 1.2024 sau khi ra mắt Gemini – mô hình ngôn ngữ lớn vừa được đồng bộ với Bard.

VideoPoet (G0ogle)

Mô hình ngôn ngữ lớn (LLM) này được đào tạo từ kho video, ảnh, âm thanh và văn bản khổng lồ do Google Search phát triển năm 2023. VideoPoet có thể thực hiện nhiều nhiệm vụ khác nhau từ nguồn vào là văn bản, ảnh, video… để tạo video, làm nổi bật nội dung, chuyển video thành âm thanh, biến ảnh tĩnh thành ảnh động…

Ý tưởng ban đầu của VideoPoet bắt nguồn từ yêu cầu chuyển mọi mô hình ngôn ngữ tự hồi quy sang một hệ thống tạo video. Các mô hình ngôn ngữ tự hồi quy hiện tại có thể xử lý văn bản và mã lập trình như con người, nhưng vướng rào cản khi chuyển sang video. VideoPoet giải quyết điều này bằng cách sử dụng mã thông báo để chuyển dữ liệu nhập vào từ bất cứ định dạng nào thành ngôn ngữ nó có thể hiểu.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn

Emu Video (Meta)

Ngoài Google, OpenAI thì Meta cũng là một trong những Big Tech tích cực trong việc sáng tạo AI. Công ty sở hữu Facebook cũng phát triển AI làm video là Emu Video, có khả năng chuyển hình ảnh thành văn bản rồi từ đó sử dụng làm dữ liệu để tạo ra clip.

Emu Video đang nhận được nhiều đánh giá tích cực từ những người tham gia chương trình thử nghiệm, khi có tới 81% thích AI này hơn Imagen Video (Google). Trên 90% chọn mô hình của Meta thay vì PYOCO (Nvidia), thậm chí còn tốt hơn Make-A-Video cũng của Meta (chọn 96%).

CogVideo (Đại học Thanh Hoa, Trung Quốc)

Không giống với các mô hình trên đều là sản phẩm từ những doanh nghiệp công nghệ hàng đầu thế giới, CogVideo là AI được phát triển bởi nhóm nghiên cứu đến từ đại học Thanh Hoa – trường danh tiếng hàng đầu tại Trung Quốc cũng như châu Á. Chương trình dựa trên CogView2, một mô hình chuyển văn bản thành hình ảnh huấn luyện trước.

Chuyên gia sáng tạo nghệ thuật trên máy tính Glenn Marshall từng thử nghiệm CogVideo đã cho rằng “giới đạo diễn có thể mất việc”. Clip có tên The Crow do ông tạo với sự trợ giúp của CogVideo đã nhận được nhiều đánh giá cao và từng dự giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).



Source link

Cùng chủ đề

Chung tay giảm thải khí methane

Diễn đàn Khí thải nhà kính methane toàn cầu 2024 tổ chức tại Geneva, Thụy Sĩ từ ngày 18 đến 21-3, được kỳ vọng có thể tiếp tục đạt được tiến bộ trong việc giải quyết vấn đề khí thải gây biến đổi khí hậu này. Diễn đàn do Sáng kiến ​​Khí methane toàn cầu, Ủy ban Kinh tế Liên hợp quốc về châu Âu, Trung tâm Khí methane toàn cầu...

AI tạo sinh sẽ chuyển đổi thích ứng cuộc sống

Ông Eric Yeo, Giám đốc quốc gia, AWS Việt Nam đã chia sẻ 4 dự đoán then chốt nhằm cách mạng hóa cách thức vận hành và đổi mới của các doanh nghiệp tại Việt Nam. Ông Eric Yeo, Giám đốc quốc gia, AWS Việt Nam cho biết: “Tại Việt Nam, chúng tôi tiếp tục đầu tư mạnh mẽ để hỗ trợ nhu cầu của khách hàng và giúp phát triển...

Nổi bật

Mới nhất

Cùng tác giả

Bài đọc nhiều

Cùng chuyên mục

Mới nhất

“Kết sức mạnh – Nối yêu thương”

Ngày 23/3, tại Trường THCS Lương Yên (quận Hai Bà Trưng, Hà Nội), Trung tâm Truyền thông Thanh thiếu nhi (Trung ương Đoàn TNCS Hồ Chí Minh) phối hợp cùng Tổ chức Cứu trợ trẻ em (SCI) tổ chức Chương trình truyền thông với chủ đề “Kết sức mạnh – Nối yêu thương”.  Sự kiện được chính các thành...

Từng là công nhân vệ sinh môi trường, Đen Vâu trở thành Gương mặt trẻ tiêu biểu

Tối 23/3, Trung ương Đoàn TNCS Hồ Chí Minh và Quỹ Hỗ trợ Tài năng trẻ Việt Nam tổ chức lễ trao giải Gương mặt trẻ Việt Nam tiêu biểu năm 2023. Hội đồng xét tặng Giải thưởng Gương mặt trẻ Việt Nam tiêu biểu năm 2023 đã chọn ra 10 gương mặt xuất sắc nhất để trao giải...

Uống một ly rượu có thực sự làm tăng nguy cơ ung thư vú?

Theo nghiên cứu, tất cả các loại ...
18:51:29

Phượng tím Đà Lạt – vẻ đẹp của sự hoài niệm

Đến với Đà Lạt vào dịp này, du khách sẽ được chiêm ngưỡng màu tím của hoa phượng nhuộm khắp các con đường, góc phố. Đây là loài hoa đặc trưng của Đà Lạt mang vẻ đẹp gợi nhớ những hoài niệm, mộng mơ làm ngất ngây người dân và du khách thập phương. Nguồn gốc xuất xứ của...

Mới nhất