![]() |
Chabot Claude ກຳລັງປະເມີນຄວາມສາມາດຂອງຜູ້ໃຊ້ໂດຍອີງໃສ່ການໂຕ້ຕອບ. ຮູບພາບ: VectorStock . |
ການຄົ້ນຄວ້າລ່າສຸດຂອງ Anthropic, ທີ່ມີຊື່ວ່າ "ດັດຊະນີຄວາມຄ່ອງແຄ້ວຂອງ AI," ໄດ້ປ່ຽນແປງຄວາມຄິດແບບດັ້ງເດີມໂດຍການໃຫ້ Claude chatbot ໃຫ້ຄະແນນມະນຸດ. ໂດຍການວິເຄາະໂຄງສ້າງຂອງການສົນທະນາ, AI ຈັດອັນດັບຄວາມສາມາດຂອງຜູ້ໃຊ້ໃນລະດັບ 11 ຈຸດ.
ເພື່ອພັດທະນາຂອບຄວາມສາມາດທີ່ປະກອບດ້ວຍ 24 ມາດຕະຖານ, Anthropic ໄດ້ໃຊ້ເຄື່ອງມືວິເຄາະເພື່ອສະແກນການສົນທະນາຂອງຜູ້ໃຊ້ໃນຊີວິດຈິງ 9,830 ຄັ້ງ.
ໃນນັ້ນ, ມີ 13 ເງື່ອນໄຂເກີດຂຶ້ນນອກໜ້າຈໍ, ເຊັ່ນວ່າຜູ້ໃຊ້ປິດບັງການນຳໃຊ້ AI ຂອງເຂົາເຈົ້າຈາກຜູ້ບັງຄັບບັນຊາຂອງເຂົາເຈົ້າຫຼືບໍ່. ເງື່ອນໄຂທີ່ເຫຼືອ 11 ເງື່ອນໄຂແມ່ນຕົວຊີ້ວັດພຶດຕິກຳຂອງຜູ້ໃຊ້, ແບ່ງອອກເປັນສາມດ້ານຫຼັກຄື: ລາຍລະອຽດ, ການອະນຸຍາດ, ແລະ ການລະບຸຕົວຕົນ.
![]() |
ຄວາມແຜ່ຫຼາຍຂອງແຕ່ລະຕົວຊີ້ບອກພຶດຕິກຳໃນການພົວພັນລະຫວ່າງ AI ໃນການສົນທະນາ 9,830 ຄັ້ງກັບ Claude. ຮູບພາບ: Anthropic. |
ກ່ອນອື່ນໝົດ, ມີວິທີການອະທິບາຍຄຳຮ້ອງຂໍ, ບ່ອນທີ່ຜູ້ໃຊ້ຕ້ອງສະແດງໃຫ້ເຫັນຄວາມເຂົ້າໃຈຢ່າງແທ້ຈິງກ່ຽວກັບສິ່ງທີ່ເຂົາເຈົ້າຕ້ອງການ. ແທນທີ່ຈະໃຫ້ຄຳສັ່ງທີ່ບໍ່ຈະແຈ້ງ, ບຸກຄົນທີ່ມີຄະແນນສູງມັກຈະລະບຸເປົ້າໝາຍສຸດທ້າຍຢ່າງຊັດເຈນ ແລະ ອະທິບາຍສະພາບການຢ່າງລະອຽດ. ພວກເຂົາຍັງໃຫ້ຂໍ້ກຳນົດສະເພາະຫຼາຍກ່ຽວກັບຮູບແບບການນຳສະເໜີ, ເຊັ່ນ: ການຂໍໃຫ້ AI ສ້າງຕາຕະລາງ ຫຼື ການຈຳກັດຈຳນວນຄຳສັບ. ສິ່ງທີ່ໜ້າສັງເກດແມ່ນກຸ່ມນີ້ມັກຈະປະກອບມີຕົວຢ່າງບົດຂຽນຫຼາຍໆບົດເປັນຕົວຢ່າງເພື່ອໃຫ້ AI "ຮຽນແບບ" ຮູບແບບທີ່ຖືກຕ້ອງຕັ້ງແຕ່ເລີ່ມຕົ້ນ.
ລັກສະນະທີສອງແມ່ນວິທີການມອບໝາຍໜ້າວຽກ. ການຄົ້ນຄວ້າສະແດງໃຫ້ເຫັນວ່າຜູ້ໃຊ້ທີ່ມີທັກສະປະຕິບັດຕໍ່ AI ຄືກັບຄູ່ສົນທະນາ, ບໍ່ແມ່ນເຄື່ອງຈັກທີ່ບໍ່ມີສະຕິ. ຄວາມແຕກຕ່າງທີ່ໃຫຍ່ທີ່ສຸດແມ່ນຢູ່ໃນຄວາມອົດທົນ. ແທນທີ່ຈະໃຫ້ຄຳສັ່ງຄັ້ງດຽວ ແລະ ສຳລັບທຸກຄົນ, ພວກເຂົາມີສ່ວນຮ່ວມໃນການສົນທະນາໄປມາຫຼາຍຮອບເພື່ອປັບປຸງ ແລະ ໃຫ້ AI ແກ້ໄຂຄຳຕອບຂອງມັນຈົນກວ່າພວກເຂົາຈະພໍໃຈຢ່າງສົມບູນ. ພຶດຕິກຳນີ້ເກີດຂຶ້ນໃນ 85.7% ຂອງການສົນທະນາທີ່ມີຄຸນນະພາບສູງ.
ລັກສະນະສຸດທ້າຍແມ່ນການຮັບຮູ້, ເຮັດໜ້າທີ່ເປັນຕົວກອງເພື່ອປ້ອງກັນບໍ່ໃຫ້ມະນຸດຖືກຫຼອກລວງໂດຍຂໍ້ມູນທີ່ສະໜອງໃຫ້ໂດຍ chatbots. ຜູ້ໃຊ້ຕ້ອງຕັ້ງຄຳຖາມກ່ຽວກັບເຫດຜົນຢູ່ສະເໝີ, ຂໍໃຫ້ AI ອະທິບາຍລະຫັດແຕ່ລະແຖວ, ຫຼືຮ້ອງຂໍການອ້າງອີງທີ່ຊັດເຈນ. ພວກເຂົາຍັງຕ້ອງມີຄວາມຮັບຮູ້ພຽງພໍທີ່ຈະລະບຸສະພາບການທີ່ຂາດຫາຍໄປໃນວິທີແກ້ໄຂຂອງ AI ເພື່ອເຮັດການປະເມີນ ແລະ ປັບປຸງບົດສະຫຼຸບໃຫ້ທັນເວລາ.
![]() |
ຜູ້ໃຊ້ທີ່ມີປະສົບການມັກຈະໄດ້ຮັບຄະແນນປະມານ 7-8 ຈາກ Clade. ຮູບພາບ: X. |
ເຖິງຢ່າງໃດກໍ່ຕາມ, ການຄົ້ນຄວ້າຍັງຊີ້ໃຫ້ເຫັນເຖິງກັບດັກທາງຈິດໃຈທີ່ໜ້າເປັນຫ່ວງ, ເຊິ່ງເອີ້ນວ່າ "ຄວາມແປກປະຫຼາດຂອງການໂຕ້ຕອບທີ່ສວຍງາມ." ເມື່ອຄຸນສົມບັດ Artifacts ຂອງ Claude ສ້າງຜະລິດຕະພັນທີ່ໜ້າສົນໃຈທາງສາຍຕາ ເຊັ່ນ: ລະຫັດທີ່ລຽບງ່າຍ ຫຼື ແຜນວາດທີ່ສົມບູນແບບ, ສະໝອງຂອງພວກເຮົາມັກຈະກາຍເປັນ "ນັກຄິດທີ່ຂີ້ຄ້ານ" ແລະ ຢຸດການຄິດຢ່າງມີວິຈານໃນທັນທີ.
ສະຖິຕິຂອງການສຶກສາສະແດງໃຫ້ເຫັນວ່າເມື່ອຜູ້ໃຊ້ເຫັນອິນເຕີເຟດທີ່ປັບປຸງແລ້ວ, ອັດຕາສ່ວນຂອງພວກເຂົາທີ່ຊອກຫາຂໍ້ບົກຜ່ອງຢ່າງຫ້າວຫັນຫຼຸດລົງທັນທີ 5.2%. ຄວາມສາມາດໃນການກວດສອບຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນຍັງຫຼຸດລົງ 3.7%, ແລະອັດຕາສ່ວນຂອງຜູ້ທີ່ສົງໄສເຫດຜົນຂອງມັນຫຼຸດລົງ 3.1%.
"ຖ້າບາງສິ່ງບາງຢ່າງເບິ່ງຄືວ່າສົມບູນແບບ, ຜູ້ໃຊ້ຈະຖືວ່າມັນຖືກຕ້ອງໂດຍອັດຕະໂນມັດ," ຜູ້ຊ່ຽວຊານທີ່ Anthropic ໃຫ້ຂໍ້ສັງເກດ.
ວິທີການແບບອັດຕະວິໄນນີ້ເປັນອັນຕະລາຍຫຼາຍ. ໃນຄວາມເປັນຈິງ, ໜ້າວຽກທີ່ສັບສົນຫຼາຍເທົ່າໃດ, ໂອກາດທີ່ AI ຈະເຮັດຜິດພາດ ຫຼື "ປະດິດ" ຂໍ້ມູນກໍ່ຍິ່ງສູງຂຶ້ນເທົ່ານັ້ນ. ຖ້າມະນຸດຕັດສິນຄຸນນະພາບພາຍໃນໂດຍອີງໃສ່ຮູບລັກສະນະພາຍນອກເທົ່ານັ້ນ, ພວກເຮົາຈະຖືກຫຼອກລວງໄດ້ງ່າຍໂດຍ AI.
ອີງຕາມບົດລາຍງານ, ຜູ້ທີ່ສົນທະນາກັນໄປມາເປັນປະຈຳ ແລະ ຊີ້ໃຫ້ເຫັນຂໍ້ບົກຜ່ອງຂອງ AI ຈະຖືກຈັດອັນດັບສູງກວ່າຜູ້ໃຊ້ສະເລ່ຍ 5-6 ເທົ່າ. ພວກເຂົາຍັງມີແນວໂນ້ມທີ່ຈະພົບເຫັນຂໍ້ບົກຜ່ອງ ແລະ ຄວາມບໍ່ສອດຄ່ອງກັນຫຼາຍກວ່າເມື່ອທຽບກັບກຸ່ມຜູ້ໃຊ້ສ່ວນທີ່ເຫຼືອ. "ຜູ້ຊ່ຽວຊານ" ເຫຼົ່ານີ້ມັກຈະໄດ້ຄະແນນປະມານ 7-8/11 ຈາກ Claude.
ແຫຼ່ງຂໍ້ມູນ: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html











(0)