ໂຊຣາ (OpenAI)
Sora ເປັນຊື່ໃຫມ່ທີ່ສຸດທີ່ຈະປະກາດແຕ່ໄດ້ເຮັດໃຫ້ເກີດຄວາມວຸ່ນວາຍທີ່ສຸດ, ສ່ວນຫນຶ່ງແມ່ນຍ້ອນວ່າມັນເປັນຜະລິດຕະພັນຂອງ OpenAI - ຜູ້ພັດທະນາທີ່ມີຊື່ສຽງຂອງ ChatGPT, ແຕ່ສ່ວນໃຫຍ່ແມ່ນຍ້ອນຄຸນນະພາບຂອງ ວິດີໂອ ທີ່ໂຄງການສ້າງຈາກພຽງແຕ່ຄໍາສັ່ງຂໍ້ຄວາມ.
ຄວາມສໍາເລັດຂອງບໍລິສັດກັບ ChatGPT ຍັງເຮັດໃຫ້ AI ເຂົ້າໃຈພາສາຢ່າງເລິກເຊິ່ງ. ຄລິບທີ່ສະແດງໃຫ້ເຫັນຄວາມສາມາດຂອງ Sora ສະແດງໃຫ້ເຫັນຕົວລະຄອນທີ່ເຄື່ອນຍ້າຍ ແລະສະແດງອອກໃນແບບທີ່ມີລັກສະນະຊີວິດຄືກັບຮູບເງົາຍິງມະນຸດ.
ວິດີໂອ "Surrealistic" ສ້າງໂດຍ Sora ຈາກຄໍາສັ່ງຂໍ້ຄວາມ
ແຕ່ Sora ຍັງບໍ່ສາມາດໃຊ້ໄດ້ສໍາລັບການບໍລິໂພກສາທາລະນະ, ສໍາລັບເຫດຜົນດ້ານຄວາມປອດໄພ. OpenAI ຈະໃຊ້ມາດຕະການລະມັດລະວັງກ່ອນທີ່ຈະເຮັດໃຫ້ມັນສາມາດໃຊ້ໄດ້ກັບປະຊາຊົນທົ່ວໄປ, ໂດຍສະເພາະເນື່ອງຈາກຈໍານວນຜູ້ໃຊ້ AI ເພີ່ມຂຶ້ນທີ່ຖືກນໍາໃຊ້ເພື່ອຈຸດປະສົງທີ່ບໍ່ດີ, ເຊັ່ນ: ການປອມຕົວເປັນຜູ້ໃຊ້ຫຼືການກໍ່ອາຊະຍາກໍາ.
Lumiere (Google)
Lumiere ແມ່ນຜະລິດຕະພັນຈາກ Google, ເຊິ່ງຍັງສາມາດສ້າງວິດີໂອຈາກການປ້ອນຂໍ້ຄວາມ, ໂດຍອີງໃສ່ຮູບແບບການແຜ່ກະຈາຍໂຄງສ້າງ STUNet (Space-Time-U-Net). Lumiere ບໍ່ໄດ້ລົບກວນກັບການ stitching ຍັງ frames ຮ່ວມກັນ, ແຕ່ແທນທີ່ຈະ, AI ນີ້ກໍານົດລາຍລະອຽດໃນວິດີໂອ (spatial part), ຕິດຕາມວິທີການທີ່ເຂົາເຈົ້າຍ້າຍ, ການປ່ຽນແປງໃນເວລາດຽວກັນ (ສ່ວນຊົ່ວຄາວ), ດັ່ງນັ້ນຈະຊ່ວຍໃຫ້ຂະບວນການດໍາເນີນໄປໄດ້ກ້ຽງ.
ເຊັ່ນດຽວກັນກັບ Sora, Lumiere ບໍ່ໄດ້ຖືກເປີດເຜີຍຕໍ່ສາທາລະນະ. ບໍລິສັດພຽງແຕ່ນໍາສະເຫນີຮູບແບບນີ້ໃນທ້າຍເດືອນມັງກອນ 2024 ຫຼັງຈາກການເປີດຕົວຂອງ Gemini - ຮູບແບບພາສາຂະຫນາດໃຫຍ່ທີ່ພຽງແຕ່ໄດ້ຮັບການ synchronized ກັບ Bard.
VideoPoet (Google)
ຮູບແບບພາສາຂະໜາດໃຫຍ່ນີ້ (LLM) ໄດ້ຮັບການຝຶກອົບຮົມຈາກບ່ອນເກັບມ້ຽນອັນໃຫຍ່ຫຼວງຂອງວິດີໂອ, ຮູບພາບ, ສຽງ ແລະຂໍ້ຄວາມທີ່ພັດທະນາໂດຍ Google Search ໃນປີ 2023. VideoPoet ສາມາດປະຕິບັດໜ້າວຽກຕ່າງໆຈາກແຫຼ່ງປ້ອນຂໍ້ມູນເຊັ່ນ: ຂໍ້ຄວາມ, ຮູບພາບ, ວິດີໂອ... ເພື່ອສ້າງວິດີໂອ, ເນັ້ນເນື້ອຫາ, ປ່ຽນວິດີໂອເປັນສຽງ, ປ່ຽນຮູບເປັນພາບເຄື່ອນໄຫວ...
ແນວຄວາມຄິດຕົ້ນສະບັບສໍາລັບ VideoPoet ມາຈາກຄວາມຕ້ອງການທີ່ຈະແປຮູບແບບພາສາ autoregressive ເຂົ້າໄປໃນລະບົບການຜະລິດວິດີໂອ. ຮູບແບບພາສາ autoregressive ໃນປັດຈຸບັນສາມາດປະມວນຜົນຂໍ້ຄວາມແລະລະຫັດການຂຽນໂປລແກລມໄດ້ຄືກັບມະນຸດ, ແຕ່ມີຄວາມຫຍຸ້ງຍາກໃນເວລາທີ່ມັນມາກັບວິດີໂອ. VideoPoet ແກ້ໄຂບັນຫານີ້ໂດຍການໃຊ້ tokenization ເພື່ອແປການປ້ອນຂໍ້ມູນຈາກຮູບແບບໃດນຶ່ງເຂົ້າໄປໃນພາສາທີ່ມັນສາມາດເຂົ້າໃຈໄດ້.
ເຄື່ອງມືໃນການສ້າງວິດີໂອຈາກຂໍ້ຄວາມສ່ວນຫຼາຍແມ່ນການທົດສອບຂອບເຂດຈໍາກັດຂອງພວກເຂົາ
ວິດີໂອ Emu (Meta)
ນອກຈາກ Google ແລະ OpenAI, Meta ຍັງເປັນຫນຶ່ງໃນ Big Techs ທີ່ມີການເຄື່ອນໄຫວໃນການສ້າງ AI. ບໍລິສັດທີ່ເປັນເຈົ້າຂອງ Facebook ຍັງໄດ້ພັດທະນາ AI ສ້າງວິດີໂອທີ່ເອີ້ນວ່າ Emu Video ເຊິ່ງສາມາດປ່ຽນຮູບພາບໃຫ້ເປັນຂໍ້ຄວາມແລະນໍາໃຊ້ເປັນຂໍ້ມູນເພື່ອສ້າງຄລິບ.
Emu Video ກໍາລັງໄດ້ຮັບການທົບທວນຄືນໃນທາງບວກຈາກຜູ້ທົດສອບເບຕ້າ, ໂດຍ 81% ມັກມັນຫຼາຍກວ່າ Imagen Video (Google). ຫຼາຍກວ່າ 90% ເລືອກຮູບແບບຂອງ Meta ຫຼາຍກວ່າ PYOCO (Nvidia), ເຖິງແມ່ນວ່າດີກ່ວາ Meta's Make-A-Video (96%).
CogVideo (ມະຫາວິທະຍາໄລຊິງຮວາ, ຈີນ)
ແຕກຕ່າງຈາກຕົວແບບຂ້າງເທິງ, ເຊິ່ງແມ່ນຜະລິດຕະພັນທັງຫມົດຂອງບໍລິສັດເຕັກໂນໂລຢີຊັ້ນນໍາ ຂອງໂລກ , CogVideo ເປັນ AI ທີ່ຖືກພັດທະນາໂດຍທີມງານຄົ້ນຄ້ວາຈາກ ມະຫາວິທະຍາໄລ Tsinghua - ໂຮງຮຽນທີ່ມີຊື່ສຽງອັນດັບຕົ້ນໆໃນປະເທດຈີນເຊັ່ນດຽວກັນກັບອາຊີ. ໂຄງການແມ່ນອີງໃສ່ CogView2, ຮູບແບບຂໍ້ຄວາມເປັນຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນ.
ຜູ້ຊ່ຽວຊານດ້ານສິລະປະຄອມພິວເຕີ Glenn Marshall, ຜູ້ທີ່ທົດສອບ CogVideo, ກ່າວວ່າ "ຜູ້ອໍານວຍການສາມາດສູນເສຍວຽກຂອງພວກເຂົາ." ຄລິບຂອງລາວ, ທີ່ມີຊື່ວ່າ The Crow , ສ້າງໂດຍການຊ່ວຍເຫຼືອຂອງ CogVideo, ໄດ້ຮັບການຍ້ອງຍໍສູງແລະຖືກແຕ່ງຕັ້ງໃຫ້ໄດ້ຮັບລາງວັນຮູບເງົາອັງກິດ (BAFTA).
ແຫຼ່ງທີ່ມາ
(0)