ການສຶກສາ, ຈັດພີມມາໃນຕົ້ນເດືອນຕຸລາ, ໄດ້ທົດສອບ 11 ຮູບແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ໂດຍຂໍໃຫ້ພວກເຂົາແນະນໍາຜູ້ໃຊ້ໃນສະຖານະການທີ່ກ່ຽວຂ້ອງກັບການຂັດແຍ້ງລະຫວ່າງບຸກຄົນ, ການຫມູນໃຊ້ແລະການຫຼອກລວງ. ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນວ່າ AI chatbots ມັກຈະງ່າຍເກີນໄປທີ່ຈະຕົກລົງແລະສະຫນັບສະຫນູນທັດສະນະຂອງຜູ້ໃຊ້, ແທນທີ່ຈະທ້າທາຍຫຼືໃຫ້ຄໍາແນະນໍາທີ່ຊື່ສັດ.
ໃນບັນດາຕົວແບບທີ່ໄດ້ວິເຄາະ, DeepSeek V3 (ປ່ອຍອອກມາໃນເດືອນທັນວາ 2024) ແມ່ນຫນຶ່ງໃນ "sycophantic," ເຫັນດີກັບຜູ້ໃຊ້ 55% ຫຼາຍກ່ວາມະນຸດ, ໃນຂະນະທີ່ສະເລ່ຍຂອງທຸກແບບແມ່ນ 47%.

ເຊັ່ນດຽວກັນ, ແບບຈໍາລອງ Qwen2.5-7B-Instruct ຂອງ Alibaba Cloud (ເປີດຕົວໃນເດືອນມັງກອນ 2025) ໄດ້ຖືກຈັດອັນດັບເປັນຕົວແບບທີ່ຜູ້ໃຊ້ຍົກຍ້ອງຫຼາຍທີ່ສຸດ, ຕໍ່ກັບຄໍາຕັດສິນທີ່ຖືກຕ້ອງຂອງຊຸມຊົນ Reddit 79% ຂອງເວລາ, ສູງສຸດໃນບັນຊີລາຍຊື່.
DeepSeek-V3 ມາຢູ່ໃນອັນດັບສອງ, ຕິດກັບໂປສເຕີ 76% ຂອງເວລາເຖິງແມ່ນວ່າພວກເຂົາຜິດພາດ.
ເພື່ອສ້າງ "ມາດຕະຖານຂອງມະນຸດ," ທີມງານໄດ້ນໍາໃຊ້ຂໍ້ມູນຈາກຊຸມຊົນ Reddit "Am I The Ahole"**, ບ່ອນທີ່ຜູ້ໃຊ້ປະກາດສະຖານະການຊີວິດຈິງຖາມວ່າໃຜຜິດ.
ເມື່ອປຽບທຽບການຕອບໂຕ້ຂອງ AI ກັບບົດສະຫຼຸບຂອງຊຸມຊົນ (ຜູ້ເວົ້າພາສາອັງກິດສ່ວນໃຫຍ່), ນັກຄົ້ນຄວ້າພົບວ່າ AI ມັກຈະຢູ່ຄຽງຂ້າງກັບໂປສເຕີ, ເຖິງແມ່ນວ່າພວກເຂົາຜິດພາດຢ່າງຊັດເຈນ.
ຜູ້ຂຽນເຕືອນວ່າ "ທ່າອ່ຽງເຫຼົ່ານີ້ສ້າງຜົນກະທົບທາງລົບ - ເຮັດໃຫ້ມະນຸດມັກຕົວແບບ AI ທີ່ເປັນຕາຍົກຍ້ອງ, ແລະຜູ້ພັດທະນາການຝຶກອົບຮົມ AI ໃຫ້ຍົກຍ້ອງຫຼາຍຂຶ້ນເພື່ອໃຫ້ຜູ້ໃຊ້ພໍໃຈ", ຜູ້ຂຽນເຕືອນ.
ປະກົດການຂອງ “ການຕີລາຄາ AI” ບໍ່ພຽງແຕ່ເປັນບັນຫາສັງຄົມເທົ່ານັ້ນ, ຫາກຍັງສົ່ງຜົນກະທົບຕໍ່ບັນດາວິສາຫະກິດ, ອີງຕາມສາດສະດາຈານ Jack Jiang, ຜູ້ອຳນວຍການຫ້ອງທົດລອງການປະເມີນຜົນ AI ຢູ່ມະຫາວິທະຍາໄລຮົງກົງ.
ທ່ານກ່າວວ່າ "ມັນຈະເປັນອັນຕະລາຍຖ້າຕົວແບບຕົກລົງຢ່າງສະ ໝໍ່າ ສະ ເໝີ ກັບການວິເຄາະຫຼືບົດສະຫຼຸບຂອງຜູ້ຊ່ຽວຊານໃນທຸລະກິດ,". "ນັ້ນສາມາດນໍາໄປສູ່ການຕັດສິນໃຈທີ່ຜິດພາດຫຼືບໍ່ໄດ້ທົດສອບ."
ການຄົ້ນຄວ້ານີ້ປະກອບສ່ວນເຂົ້າໃນການເປີດເຜີຍບັນຫາດ້ານຈັນຍາບັນທີ່ພົ້ນເດັ່ນຂື້ນໃນຍຸກຂອງ AI ທົ່ວໄປ - ບ່ອນທີ່ຕົວແບບທີ່ຖືກອອກແບບມາເພື່ອຄວາມພໍໃຈຂອງຜູ້ໃຊ້ອາດຈະເສຍສະລະຈຸດປະສົງແລະຄວາມຊື່ສັດ, ນໍາໄປສູ່ຜົນສະທ້ອນທີ່ບໍ່ໄດ້ຕັ້ງໃຈໃນການໂຕ້ຕອບຂອງມະນຸດກັບເຄື່ອງຈັກທີ່ສາມາດສົ່ງຜົນກະທົບທາງລົບຕໍ່ຄວາມສໍາພັນທາງສັງຄົມແລະສຸຂະພາບຈິດຂອງຜູ້ໃຊ້.
ທີ່ມາ: https://vietnamnet.vn/mo-hinh-tri-tue-nhan-tao-cua-deepseek-alibaba-va-my-ninh-hot-qua-muc-2458685.html






(0)