AI ທີ່ປ່ຽນຂໍ້ຄວາມເປັນວິດີໂອແມ່ນຄ້າຍຄືກັນກັບ Sora.

[ໂຄສະນາ_1]

ໂຊຣາ (OpenAI)

Sora ເປັນຊື່ໃໝ່ລ່າສຸດທີ່ໄດ້ຖືກປະກາດອອກມາ, ແຕ່ມັນຍັງເປັນຊື່ທີ່ຖືກເວົ້າເຖິງຫຼາຍທີ່ສຸດ, ສ່ວນໜຶ່ງແມ່ນຍ້ອນວ່າມັນເປັນຜະລິດຕະພັນຂອງ OpenAI - ຜູ້ພັດທະນາ ChatGPT ທີ່ມີຊື່ສຽງ - ແຕ່ສ່ວນໃຫຍ່ແມ່ນຍ້ອນຄຸນນະພາບ ວິດີໂອ ທີ່ໂປຣແກຣມຜະລິດຈາກຄຳສັ່ງຂໍ້ຄວາມ.

ຄວາມສຳເລັດຂອງ ChatGPT ຍັງໄດ້ເຮັດໃຫ້ປັນຍາປະດິດຂອງບໍລິສັດສາມາດພັດທະນາຄວາມເຂົ້າໃຈຢ່າງເລິກເຊິ່ງກ່ຽວກັບພາສາ. ຄລິບທີ່ສະແດງໃຫ້ເຫັນຄວາມສາມາດຂອງ Sora ສະແດງໃຫ້ເຫັນເຖິງການເຄື່ອນໄຫວ ແລະ ຄວາມແຕກຕ່າງຂອງຕົວລະຄອນທີ່ມີຊີວິດຊີວາຢ່າງບໍ່ໜ້າເຊື່ອ, ຄືກັບຮູບເງົາທີ່ຖ່າຍໂດຍມະນຸດ.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — ວິດີໂອ "Surreal" ສ້າງຂື້ນໂດຍ Sora ໂດຍໃຊ້ຄຳສັ່ງຂໍ້ຄວາມ.

ເຖິງຢ່າງໃດກໍ່ຕາມ, Sora ຍັງບໍ່ທັນມີວາງຂາຍໃນຕະຫຼາດເນື່ອງຈາກຄວາມກັງວົນດ້ານຄວາມປອດໄພ. OpenAI ຈະດຳເນີນການທົດສອບຢ່າງລະມັດລະວັງກ່ອນທີ່ຈະປ່ອຍຜະລິດຕະພັນອອກສູ່ສາທາລະນະຊົນທົ່ວໄປ, ໂດຍສະເພາະແມ່ນການນຳໃຊ້ປັນຍາປະດິດໃນທາງທີ່ຜິດທີ່ເພີ່ມຂຶ້ນໂດຍຜູ້ກະທຳທີ່ມີຈຸດປະສົງທີ່ບໍ່ດີເພື່ອຈຸດປະສົງທີ່ຊົ່ວຮ້າຍ, ເຊັ່ນ: ການປອມຕົວເປັນຜູ້ໃຊ້ ຫຼື ການມີສ່ວນຮ່ວມໃນກິດຈະກຳທີ່ຜິດກົດໝາຍ.

Lumiere (ກູໂກ)

Lumiere, ຜະລິດຕະພັນຈາກ Google, ຍັງສາມາດຜະລິດວິດີໂອຈາກການປ້ອນຂໍ້ມູນຂໍ້ຄວາມ, ໂດຍເຮັດວຽກໃນຮູບແບບການແຜ່ກະຈາຍ STUNet (Space-Time-U-Net). ແທນທີ່ຈະປະກອບເຟຣມຄົງທີ່ເຂົ້າກັນ, AI ຂອງ Lumiere ຈະລະບຸລາຍລະອຽດພາຍໃນວິດີໂອ (ລັກສະນະທາງພື້ນທີ່), ຕິດຕາມວ່າລາຍລະອຽດເຫຼົ່ານັ້ນເຄື່ອນຍ້າຍ ແລະ ປ່ຽນແປງພ້ອມໆກັນແນວໃດ (ລັກສະນະທາງເວລາ), ດັ່ງນັ້ນຈຶ່ງຮັບປະກັນການເຮັດວຽກທີ່ລຽບງ່າຍ.

ເຊັ່ນດຽວກັບ Sora, Lumiere ຍັງບໍ່ທັນໄດ້ເປີດໃຫ້ສາທາລະນະຊົນໄດ້ໃຊ້. ບໍລິສັດຫາກໍ່ແນະນຳຮຸ່ນນີ້ໃນທ້າຍເດືອນມັງກອນ 2024 ຫຼັງຈາກເປີດຕົວ Gemini - ຮຸ່ນພາສາຂະໜາດໃຫຍ່ທີ່ຫາກໍ່ໄດ້ຮັບການປະສານກັບ Bard.

VideoPoet (Google)

ຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLM) ນີ້ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຖານຂໍ້ມູນຂະໜາດໃຫຍ່ຂອງວິດີໂອ, ຮູບພາບ, ສຽງ ແລະ ຂໍ້ຄວາມທີ່ພັດທະນາໂດຍ Google Search ໃນປີ 2023. VideoPoet ສາມາດປະຕິບັດໜ້າວຽກຕ່າງໆຈາກຂໍ້ຄວາມ, ຮູບພາບ ແລະ ວິດີໂອເປັນການປ້ອນຂໍ້ມູນເພື່ອສ້າງວິດີໂອ, ເນັ້ນເນື້ອຫາ, ປ່ຽນວິດີໂອເປັນສຽງ ແລະ ປ່ຽນຮູບພາບນິ້ງເປັນພາບເຄື່ອນໄຫວ.

ແນວຄວາມຄິດເບື້ອງຕົ້ນຂອງ VideoPoet ແມ່ນມາຈາກຄວາມຕ້ອງການທີ່ຈະແປຮູບແບບພາສາ autoregressive ທັງໝົດໃຫ້ເປັນລະບົບການສ້າງວິດີໂອ. ຮູບແບບພາສາ autoregressive ທີ່ມີຢູ່ແລ້ວສາມາດຈັດການກັບຂໍ້ຄວາມ ແລະ ລະຫັດການຂຽນໂປຣແກຣມໄດ້ຄືກັບມະນຸດ, ແຕ່ພວກມັນມີບັນຫາເມື່ອແປເປັນວິດີໂອ. VideoPoet ແກ້ໄຂບັນຫານີ້ໂດຍການໃຊ້ໂທເຄັນເພື່ອປ່ຽນຂໍ້ມູນປ້ອນເຂົ້າຈາກຮູບແບບໃດກໍໄດ້ເປັນພາສາທີ່ມັນສາມາດເຂົ້າໃຈໄດ້.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — ເຄື່ອງມືສ່ວນໃຫຍ່ສຳລັບການສ້າງວິດີໂອຈາກຕົວໜັງສືຍັງຢູ່ໃນໄລຍະທົດລອງ.

ວິດີໂອ Emu (ເມຕາ)

ນອກຈາກ Google ແລະ OpenAI ແລ້ວ, Meta ຍັງເປັນໜຶ່ງໃນບໍລິສັດເທັກໂນໂລຢີໃຫຍ່ທີ່ມີສ່ວນຮ່ວມຢ່າງຫ້າວຫັນໃນນະວັດຕະກໍາ AI. ບໍລິສັດທີ່ເປັນເຈົ້າຂອງ Facebook ຍັງກໍາລັງພັດທະນາ Emu Video, AI ທີ່ມີຄວາມສາມາດໃນການປ່ຽນຮູບພາບເປັນຂໍ້ຄວາມ ແລະ ຫຼັງຈາກນັ້ນນໍາໃຊ້ຂໍ້ມູນນັ້ນເພື່ອສ້າງຄລິບ.

Emu Video ກຳລັງໄດ້ຮັບການທົບທວນໃນທາງບວກຈາກຜູ້ເຂົ້າຮ່ວມໃນໂຄງການທົດສອບ, ໂດຍ 81% ມັກ AI ນີ້ຫຼາຍກວ່າ Imagen Video (Google). ຫຼາຍກວ່າ 90% ເລືອກຮູບແບບຂອງ Meta ຫຼາຍກວ່າ PYOCO (Nvidia), ແລະມັນຍັງມີປະສິດທິພາບດີກ່ວາ Make-A-Video ຂອງ Meta (96% ເລືອກມັນ).

CogVideo (ມະຫາວິທະຍາໄລຊິງຮວາ, ຈີນ)

ບໍ່ເຫມືອນກັບຮູບແບບທີ່ໄດ້ກ່າວມາຂ້າງເທິງ, ເຊິ່ງທັງໝົດແມ່ນຜະລິດຕະພັນຈາກບໍລິສັດເຕັກໂນໂລຢີຊັ້ນນໍາ ຂອງໂລກ , CogVideo ເປັນ AI ທີ່ພັດທະນາໂດຍທີມງານຄົ້ນຄວ້າຈາກ ມະຫາວິທະຍາໄລ Tsinghua - ມະຫາວິທະຍາໄລອັນດັບຕົ້ນໆໃນປະເທດຈີນ ແລະ ອາຊີ. ໂປຣແກຣມດັ່ງກ່າວແມ່ນອີງໃສ່ CogView2, ຮູບແບບການປ່ຽນຂໍ້ຄວາມເປັນຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມລ່ວງໜ້າ.

ຜູ້ຊ່ຽວຊານດ້ານຮູບພາບທີ່ສ້າງຂຶ້ນໂດຍຄອມພິວເຕີ ທ່ານ Glenn Marshall ຜູ້ທີ່ໄດ້ທົດສອບ CogVideo ໄດ້ແນະນຳວ່າ "ຜູ້ກຳກັບອາດຈະສູນເສຍວຽກເຮັດງານທຳຂອງເຂົາເຈົ້າ." ຄລິບຂອງລາວ, ທີ່ມີຊື່ວ່າ "The Crow," ທີ່ສ້າງຂຶ້ນດ້ວຍຄວາມຊ່ວຍເຫຼືອຂອງ CogVideo, ໄດ້ຮັບຄຳຍ້ອງຍໍສູງ ແລະ ໄດ້ຮັບການສະເໜີຊື່ເຂົ້າຊິງລາງວັນຮູບເງົາ British Academy Film Award (BAFTA).

[ໂຄສະນາ_2]
ລິ້ງແຫຼ່ງຂໍ້ມູນ