ຕາມນັ້ນແລ້ວ, ເຖິງແມ່ນວ່າການກໍາຫນົດຄ່າແບບຈໍາລອງທາງປັນຍາປະດິດທີ່ດີທີ່ສຸດທີ່ພວກເຂົາໄດ້ທົດສອບ, GPT-4-Turbo ຂອງ OpenAI, ຍັງຄົງບັນລຸໄດ້ພຽງແຕ່ 79% ຄໍາຕອບທີ່ຖືກຕ້ອງເຖິງວ່າຈະມີການອ່ານຂໍ້ມູນທັງຫມົດແລະມັກຈະ "ຕົກໃຈ" ຕົວເລກຫຼືເຫດການທີ່ບໍ່ຈິງ.
ທ່ານ Anand Kannappan, ຜູ້ຮ່ວມກໍ່ຕັ້ງຂອງ Patronus AI ກ່າວວ່າ "ອັດຕາການປະຕິບັດແບບນັ້ນແມ່ນບໍ່ສາມາດຍອມຮັບໄດ້ຢ່າງສົມບູນ. "ອັດຕາຄໍາຕອບທີ່ຖືກຕ້ອງຕ້ອງສູງກວ່າຫຼາຍເພື່ອໃຫ້ອັດຕະໂນມັດແລະກຽມພ້ອມ."
ການຄົ້ນພົບໄດ້ຊີ້ໃຫ້ເຫັນບາງສິ່ງທ້າທາຍທີ່ກໍາລັງປະເຊີນກັບຕົວແບບ AI ຍ້ອນວ່າບໍລິສັດຂະຫນາດໃຫຍ່, ໂດຍສະເພາະໃນອຸດສາຫະກໍາທີ່ມີການຄວບຄຸມຫຼາຍເຊັ່ນ: ການເງິນ, ເບິ່ງການລວມເອົາເຕັກໂນໂລຢີທີ່ກ້າວຫນ້າເຂົ້າໃນການດໍາເນີນງານຂອງພວກເຂົາ, ບໍ່ວ່າຈະຢູ່ໃນການບໍລິການລູກຄ້າຫຼືການຄົ້ນຄວ້າ.
ຂໍ້ມູນທາງດ້ານການເງິນ "ພາບລວງຕາ"
ຄວາມສາມາດໃນການສະກັດຕົວເລກທີ່ສໍາຄັນຢ່າງໄວວາແລະປະຕິບັດການວິເຄາະລາຍງານການເງິນໄດ້ຖືກເຫັນວ່າເປັນຫນຶ່ງໃນຄໍາຮ້ອງສະຫມັກທີ່ໂດດເດັ່ນທີ່ສຸດສໍາລັບ chatbots ນັບຕັ້ງແຕ່ ChatGPT ຖືກປ່ອຍອອກມາໃນທ້າຍປີທີ່ຜ່ານມາ.
ການຍື່ນ SEC ມີຂໍ້ມູນທີ່ສໍາຄັນ, ແລະຖ້າ bot ສາມາດສະຫຼຸບໄດ້ຢ່າງຖືກຕ້ອງຫຼືຕອບຄໍາຖາມກ່ຽວກັບເນື້ອຫາຂອງພວກເຂົາຢ່າງໄວວາ, ມັນສາມາດໃຫ້ຜູ້ໃຊ້ມີການແຂ່ງຂັນໃນອຸດສາຫະກໍາການເງິນທີ່ແຂ່ງຂັນ.
ໃນປີທີ່ຜ່ານມາ, Bloomberg LP ໄດ້ພັດທະນາຕົວແບບ AI ຂອງຕົນເອງສໍາລັບຂໍ້ມູນທາງດ້ານການເງິນ, ແລະອາຈານໂຮງຮຽນທຸລະກິດໄດ້ສຶກສາວ່າ ChatGPT ສາມາດວິເຄາະຫົວຂໍ້ທາງດ້ານການເງິນໄດ້ບໍ.
ໃນຂະນະດຽວກັນ, JPMorgan ຍັງກໍາລັງພັດທະນາເຄື່ອງມືການລົງທຶນອັດຕະໂນມັດທີ່ຂັບເຄື່ອນດ້ວຍ AI. ການຄາດຄະເນທີ່ຜ່ານມາຂອງ McKinsey ກ່າວວ່າ AI ການຜະລິດສາມາດຊຸກຍູ້ອຸດສາຫະກໍາການທະນາຄານໄດ້ຫຼາຍຕື້ໂດລາຕໍ່ປີ.
ແຕ່ຍັງມີທາງທີ່ຍາວໄກທີ່ຈະໄປ. ເມື່ອ Microsoft ເປີດຕົວ Bing Chat ຄັ້ງທໍາອິດກັບ OpenAI's GPT, ມັນໃຊ້ chatbot ເພື່ອສະຫຼຸບລາຍງານຂ່າວລາຍໄດ້ຢ່າງໄວວາ. ຜູ້ສັງເກດການໄດ້ສັງເກດເຫັນຢ່າງໄວວາວ່າຕົວເລກທີ່ AI ຖົ່ມອອກໄດ້ຖືກ skewed, ຫຼືແມ້ກະທັ້ງ fabricated.
ຂໍ້ມູນດຽວກັນ, ຄໍາຕອບທີ່ແຕກຕ່າງກັນ
ສ່ວນຫນຶ່ງຂອງສິ່ງທ້າທາຍຂອງການລວມເອົາ LLM ເຂົ້າໄປໃນຜະລິດຕະພັນໃນໂລກທີ່ແທ້ຈິງແມ່ນວ່າ algorithms ແມ່ນບໍ່ຖືກກໍານົດ, ຊຶ່ງຫມາຍຄວາມວ່າພວກເຂົາບໍ່ໄດ້ຮັບການຮັບປະກັນທີ່ຈະຜະລິດຜົນໄດ້ຮັບດຽວກັນໂດຍການປ້ອນຂໍ້ມູນດຽວກັນ. ນີ້ ໝາຍ ຄວາມວ່າບໍລິສັດ ຈຳ ເປັນຕ້ອງເຮັດການທົດສອບທີ່ເຂັ້ມງວດກວ່າເກົ່າເພື່ອຮັບປະກັນວ່າ AI ເຮັດວຽກຢ່າງຖືກຕ້ອງ, ບໍ່ຫຼົງທາງນອກຫົວຂໍ້, ແລະໃຫ້ຜົນໄດ້ຮັບທີ່ເຊື່ອຖືໄດ້.
Patronus AI ໄດ້ສ້າງຊຸດຂອງຫຼາຍກວ່າ 10,000 ຄໍາຖາມແລະຄໍາຕອບທີ່ມາຈາກເອກະສານ SEC ຈາກບໍລິສັດການຄ້າສາທາລະນະຂະຫນາດໃຫຍ່, ທີ່ເອີ້ນວ່າ FinanceBench. ຊຸດຂໍ້ມູນປະກອບມີຄໍາຕອບທີ່ຖືກຕ້ອງເຊັ່ນດຽວກັນກັບສະຖານທີ່ທີ່ແນ່ນອນໃນໄຟລ໌ໃດກໍ່ໄດ້ເພື່ອຊອກຫາພວກມັນ.
ບໍ່ແມ່ນຄຳຕອບທັງໝົດສາມາດເອົາໄດ້ໂດຍກົງຈາກຂໍ້ຄວາມ ແລະບາງຄຳຖາມຕ້ອງການຄຳນວນ ຫຼືການໃຫ້ເຫດຜົນເບົາບາງ.
ການທົດສອບຊຸດຍ່ອຍ 150 ຄໍາຖາມກ່ຽວຂ້ອງກັບສີ່ແບບ LLM: OpenAI's GPT-4 ແລະ GPT-4-Turbo, Anthropic's Claude 2, ແລະ Meta's Llama 2.
ດັ່ງນັ້ນ, GPT-4-Turbo, ເມື່ອໄດ້ຮັບການເຂົ້າເຖິງເອກະສານ SEC ທີ່ຕິດພັນ, ພຽງແຕ່ບັນລຸອັດຕາຄວາມຖືກຕ້ອງຂອງ 85% (ທຽບກັບ 88% ຄໍາຕອບທີ່ບໍ່ຖືກຕ້ອງໃນເວລາທີ່ບໍ່ໄດ້ຮັບການເຂົ້າເຖິງຂໍ້ມູນ), ເຖິງວ່າຈະມີຕົວຊີ້ຫນູຂອງມະນຸດກັບຂໍ້ຄວາມທີ່ແນ່ນອນສໍາລັບ AI ເພື່ອຊອກຫາຄໍາຕອບ.
Llama 2, ຮູບແບບ AI open-source ທີ່ພັດທະນາໂດຍ Meta, ມີຈໍານວນ "ຄວາມແປກໃຈ" ທີ່ສູງທີ່ສຸດ, ຕອບບໍ່ຖືກຕ້ອງ 70% ຂອງເວລາແລະຕອບຢ່າງຖືກຕ້ອງພຽງແຕ່ 19% ຂອງເວລາທີ່ໄດ້ຮັບການເຂົ້າເຖິງບາງສ່ວນຂອງເອກະສານທີ່ຕິດພັນ.
Claude 2 ຂອງ Anthropic ປະຕິບັດໄດ້ດີເມື່ອໄດ້ຮັບ "ສະພາບການທີ່ຍາວນານ," ເຊິ່ງເກືອບທັງຫມົດການຍື່ນ SEC ທີ່ກ່ຽວຂ້ອງໄດ້ຖືກລວມເຂົ້າກັບຄໍາຖາມ. ສາມາດຕອບຄໍາຖາມໄດ້ 75%, ຕອບບໍ່ຖືກຕ້ອງ 21% ແລະປະຕິເສດບໍ່ຕອບ 3%. GPT-4-Turbo ຍັງປະຕິບັດໄດ້ດີກັບສະພາບການທີ່ຍາວນານ, ຕອບຄໍາຖາມທີ່ຖືກຕ້ອງ 79% ແລະຕອບບໍ່ຖືກຕ້ອງ 17%.
(ຕາມ CNBC)
ການແຂ່ງຂັນຂອງ Big Tech ໃນການລົງທຶນໃນການເລີ່ມຕົ້ນ AI
ເຕັກໂນໂລຊີ AI ປະຕິວັດການເລີ່ມຕົ້ນອີຄອມເມີຊ
AI ສຳເລັດການປ່ຽນຄວາມຄິດຂອງມະນຸດໃຫ້ເປັນຮູບຈິງເປັນຄັ້ງທຳອິດ
ທີ່ມາ
(0)