ໂຊຣາ (OpenAI)
Sora ເປັນຊື່ໃໝ່ລ່າສຸດທີ່ໄດ້ຖືກປະກາດອອກມາ, ແຕ່ມັນຍັງເປັນຊື່ທີ່ຖືກເວົ້າເຖິງຫຼາຍທີ່ສຸດ, ສ່ວນໜຶ່ງແມ່ນຍ້ອນວ່າມັນເປັນຜະລິດຕະພັນຂອງ OpenAI - ຜູ້ພັດທະນາ ChatGPT ທີ່ມີຊື່ສຽງ - ແຕ່ສ່ວນໃຫຍ່ແມ່ນຍ້ອນຄຸນນະພາບ ວິດີໂອ ທີ່ໂປຣແກຣມຜະລິດຈາກຄຳສັ່ງຂໍ້ຄວາມ.
ຄວາມສຳເລັດຂອງ ChatGPT ຍັງໄດ້ເຮັດໃຫ້ປັນຍາປະດິດຂອງບໍລິສັດສາມາດພັດທະນາຄວາມເຂົ້າໃຈຢ່າງເລິກເຊິ່ງກ່ຽວກັບພາສາ. ຄລິບທີ່ສະແດງໃຫ້ເຫັນຄວາມສາມາດຂອງ Sora ສະແດງໃຫ້ເຫັນເຖິງການເຄື່ອນໄຫວ ແລະ ຄວາມແຕກຕ່າງຂອງຕົວລະຄອນທີ່ມີຊີວິດຊີວາຢ່າງບໍ່ໜ້າເຊື່ອ, ຄືກັບຮູບເງົາທີ່ຖ່າຍໂດຍມະນຸດ.
ວິດີໂອ "Surreal" ສ້າງຂື້ນໂດຍ Sora ໂດຍໃຊ້ຄຳສັ່ງຂໍ້ຄວາມ.
ເຖິງຢ່າງໃດກໍ່ຕາມ, Sora ຍັງບໍ່ທັນມີວາງຂາຍໃນຕະຫຼາດເນື່ອງຈາກຄວາມກັງວົນດ້ານຄວາມປອດໄພ. OpenAI ຈະດຳເນີນການທົດສອບຢ່າງລະມັດລະວັງກ່ອນທີ່ຈະປ່ອຍຜະລິດຕະພັນອອກສູ່ສາທາລະນະຊົນທົ່ວໄປ, ໂດຍສະເພາະແມ່ນການນຳໃຊ້ປັນຍາປະດິດໃນທາງທີ່ຜິດທີ່ເພີ່ມຂຶ້ນໂດຍຜູ້ກະທຳທີ່ມີຈຸດປະສົງທີ່ບໍ່ດີເພື່ອຈຸດປະສົງທີ່ຊົ່ວຮ້າຍ, ເຊັ່ນ: ການປອມຕົວເປັນຜູ້ໃຊ້ ຫຼື ການມີສ່ວນຮ່ວມໃນກິດຈະກຳທີ່ຜິດກົດໝາຍ.
Lumiere (ກູໂກ)
Lumiere, ຜະລິດຕະພັນຈາກ Google, ຍັງສາມາດຜະລິດວິດີໂອຈາກການປ້ອນຂໍ້ມູນຂໍ້ຄວາມ, ໂດຍເຮັດວຽກໃນຮູບແບບການແຜ່ກະຈາຍ STUNet (Space-Time-U-Net). ແທນທີ່ຈະປະກອບເຟຣມຄົງທີ່ເຂົ້າກັນ, AI ຂອງ Lumiere ຈະລະບຸລາຍລະອຽດພາຍໃນວິດີໂອ (ລັກສະນະທາງພື້ນທີ່), ຕິດຕາມວ່າລາຍລະອຽດເຫຼົ່ານັ້ນເຄື່ອນຍ້າຍ ແລະ ປ່ຽນແປງພ້ອມໆກັນແນວໃດ (ລັກສະນະທາງເວລາ), ດັ່ງນັ້ນຈຶ່ງຮັບປະກັນການເຮັດວຽກທີ່ລຽບງ່າຍ.
ເຊັ່ນດຽວກັບ Sora, Lumiere ຍັງບໍ່ທັນໄດ້ເປີດໃຫ້ສາທາລະນະຊົນໄດ້ໃຊ້. ບໍລິສັດຫາກໍ່ແນະນຳຮຸ່ນນີ້ໃນທ້າຍເດືອນມັງກອນ 2024 ຫຼັງຈາກເປີດຕົວ Gemini - ຮຸ່ນພາສາຂະໜາດໃຫຍ່ທີ່ຫາກໍ່ໄດ້ຮັບການປະສານກັບ Bard.
VideoPoet (Google)
ຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLM) ນີ້ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຖານຂໍ້ມູນຂະໜາດໃຫຍ່ຂອງວິດີໂອ, ຮູບພາບ, ສຽງ ແລະ ຂໍ້ຄວາມທີ່ພັດທະນາໂດຍ Google Search ໃນປີ 2023. VideoPoet ສາມາດປະຕິບັດໜ້າວຽກຕ່າງໆຈາກຂໍ້ຄວາມ, ຮູບພາບ ແລະ ວິດີໂອເປັນການປ້ອນຂໍ້ມູນເພື່ອສ້າງວິດີໂອ, ເນັ້ນເນື້ອຫາ, ປ່ຽນວິດີໂອເປັນສຽງ ແລະ ປ່ຽນຮູບພາບນິ້ງເປັນພາບເຄື່ອນໄຫວ.
ແນວຄວາມຄິດເບື້ອງຕົ້ນຂອງ VideoPoet ແມ່ນມາຈາກຄວາມຕ້ອງການທີ່ຈະແປຮູບແບບພາສາ autoregressive ທັງໝົດໃຫ້ເປັນລະບົບການສ້າງວິດີໂອ. ຮູບແບບພາສາ autoregressive ທີ່ມີຢູ່ແລ້ວສາມາດຈັດການກັບຂໍ້ຄວາມ ແລະ ລະຫັດການຂຽນໂປຣແກຣມໄດ້ຄືກັບມະນຸດ, ແຕ່ພວກມັນມີບັນຫາເມື່ອແປເປັນວິດີໂອ. VideoPoet ແກ້ໄຂບັນຫານີ້ໂດຍການໃຊ້ໂທເຄັນເພື່ອປ່ຽນຂໍ້ມູນປ້ອນເຂົ້າຈາກຮູບແບບໃດກໍໄດ້ເປັນພາສາທີ່ມັນສາມາດເຂົ້າໃຈໄດ້.
ເຄື່ອງມືສ່ວນໃຫຍ່ສຳລັບການສ້າງວິດີໂອຈາກຕົວໜັງສືຍັງຢູ່ໃນໄລຍະທົດລອງ.
ວິດີໂອ Emu (ເມຕາ)
ນອກຈາກ Google ແລະ OpenAI ແລ້ວ, Meta ຍັງເປັນໜຶ່ງໃນບໍລິສັດເທັກໂນໂລຢີໃຫຍ່ທີ່ມີສ່ວນຮ່ວມຢ່າງຫ້າວຫັນໃນນະວັດຕະກໍາ AI. ບໍລິສັດທີ່ເປັນເຈົ້າຂອງ Facebook ຍັງກໍາລັງພັດທະນາ Emu Video, AI ທີ່ມີຄວາມສາມາດໃນການປ່ຽນຮູບພາບເປັນຂໍ້ຄວາມ ແລະ ຫຼັງຈາກນັ້ນນໍາໃຊ້ຂໍ້ມູນນັ້ນເພື່ອສ້າງຄລິບ.
Emu Video ກຳລັງໄດ້ຮັບການທົບທວນໃນທາງບວກຈາກຜູ້ເຂົ້າຮ່ວມໃນໂຄງການທົດສອບ, ໂດຍ 81% ມັກ AI ນີ້ຫຼາຍກວ່າ Imagen Video (Google). ຫຼາຍກວ່າ 90% ເລືອກຮູບແບບຂອງ Meta ຫຼາຍກວ່າ PYOCO (Nvidia), ແລະມັນຍັງມີປະສິດທິພາບດີກ່ວາ Make-A-Video ຂອງ Meta (96% ເລືອກມັນ).
CogVideo (ມະຫາວິທະຍາໄລຊິງຮວາ, ຈີນ)
ບໍ່ເຫມືອນກັບຮູບແບບທີ່ໄດ້ກ່າວມາຂ້າງເທິງ, ເຊິ່ງທັງໝົດແມ່ນຜະລິດຕະພັນຈາກບໍລິສັດເຕັກໂນໂລຢີຊັ້ນນໍາ ຂອງໂລກ , CogVideo ເປັນ AI ທີ່ພັດທະນາໂດຍທີມງານຄົ້ນຄວ້າຈາກ ມະຫາວິທະຍາໄລ Tsinghua - ມະຫາວິທະຍາໄລອັນດັບຕົ້ນໆໃນປະເທດຈີນ ແລະ ອາຊີ. ໂປຣແກຣມດັ່ງກ່າວແມ່ນອີງໃສ່ CogView2, ຮູບແບບການປ່ຽນຂໍ້ຄວາມເປັນຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມລ່ວງໜ້າ.
ຜູ້ຊ່ຽວຊານດ້ານຮູບພາບທີ່ສ້າງຂຶ້ນໂດຍຄອມພິວເຕີ ທ່ານ Glenn Marshall ຜູ້ທີ່ໄດ້ທົດສອບ CogVideo ໄດ້ແນະນຳວ່າ "ຜູ້ກຳກັບອາດຈະສູນເສຍວຽກເຮັດງານທຳຂອງເຂົາເຈົ້າ." ຄລິບຂອງລາວ, ທີ່ມີຊື່ວ່າ "The Crow," ທີ່ສ້າງຂຶ້ນດ້ວຍຄວາມຊ່ວຍເຫຼືອຂອງ CogVideo, ໄດ້ຮັບຄຳຍ້ອງຍໍສູງ ແລະ ໄດ້ຮັບການສະເໜີຊື່ເຂົ້າຊິງລາງວັນຮູບເງົາ British Academy Film Award (BAFTA).
[ໂຄສະນາ_2]
ລິ້ງແຫຼ່ງຂໍ້ມູນ






(0)