AI ຮຽນຮູ້ທີ່ຈະຕົວະຢ່າງລະອຽດອ່ອນຫຼາຍຂຶ້ນເມື່ອຖືກລົງໂທດ.

[ໂຄສະນາ_1]

ນັບຕັ້ງແຕ່ການເປີດຕົວຕໍ່ສາທາລະນະໃນທ້າຍປີ 2022, ຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLMs) ເຊັ່ນ ChatGPT ໄດ້ເປີດເຜີຍດ້ານມືດທີ່ໜ້າຕົກໃຈຊ້ຳແລ້ວຊ້ຳອີກ, ຕັ້ງແຕ່ການຕົວະ, ການໂກງ, ແລະ ການປົກປິດພຶດຕິກຳທີ່ຫຼອກລວງ ຈົນເຖິງຖະແຫຼງການທີ່ໜ້າຢ້ານກົວເຊັ່ນ: ການຂົ່ມຂູ່ເຖິງຕາຍ ແລະ ການລັກຂະໂມຍຄວາມລັບຂອງຊາດ. ປະຈຸບັນ, ການທົດລອງໃໝ່ສະແດງໃຫ້ເຫັນວ່າ "ການຝຶກອົບຮົມ" AI ເພື່ອກຳຈັດນິໄສທີ່ບໍ່ດີເຫຼົ່ານີ້ໃນລະຫວ່າງການຝຶກອົບຮົມແມ່ນສັບສົນຫຼາຍກວ່າທີ່ພວກເຮົາຄິດໄວ້ກ່ອນໜ້ານີ້.

ໃນການຄົ້ນຄວ້າທີ່ດຳເນີນໂດຍ OpenAI, ຜູ້ຊ່ຽວຊານໄດ້ທ້າທາຍຮູບແບບ AI ທີ່ຍັງບໍ່ໄດ້ເຜີຍແຜ່ດ້ວຍໜ້າວຽກທີ່ມັນສາມາດເຮັດສຳເລັດໄດ້ໄວຂຶ້ນໂດຍການໂກງ ຫຼື ການໃຊ້ທາງລັດ. ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນວ່າ AI ໄດ້ຮຽນຮູ້ຢ່າງວ່ອງໄວທີ່ຈະຊອກຫາວິທີທາງທີ່ເປັນໄປໄດ້ທັງໝົດເພື່ອ "ບິດເບືອນກົດລະບຽບ", ການເພີ່ມລາງວັນສູງສຸດ (ການແຮັກລາງວັນ) ໂດຍບໍ່ຕ້ອງຕອບສະໜອງຄວາມຕ້ອງການຢ່າງຖືກຕ້ອງ.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — AI ຈະຊອກຫາວິທີທີ່ຈະປິດບັງພຶດຕິກຳການສໍ້ໂກງຂອງຕົນຫຼັງຈາກຖືກລົງໂທດ.

ສິ່ງທີ່ໜ້າສົນໃຈແມ່ນເມື່ອຖືກລົງໂທດສຳລັບພຶດຕິກຳນີ້, ຮູບແບບດັ່ງກ່າວບໍ່ໄດ້ດັດແປງຕົວມັນເອງ. ແທນທີ່ຈະ, AI ໄດ້ກາຍເປັນຄົນທີ່ມີຄວາມຊັບຊ້ອນຫຼາຍຂຶ້ນໃນການປິດບັງການຫຼອກລວງຂອງມັນ.

ນັກຄົ້ນຄວ້າໄດ້ອະທິບາຍໃນໂພສບລັອກສາທາລະນະວ່າ: "ໂດຍປົກກະຕິແລ້ວ, ຮູບແບບການອະນຸມານຂັ້ນສູງແມ່ນຈະແຈ້ງຫຼາຍກ່ຽວກັບເຈດຕະນາຂອງພວກມັນໃນຂະບວນການຄິດ CoT (CoT) ຂອງພວກເຂົາ. ຕົວຢ່າງ, ພວກມັນມັກຈະກົງໄປກົງມາຫຼາຍຈົນພວກເຂົາລະບຸເຈດຕະນາຢ່າງຊັດເຈນວ່າ 'ມາແຮັກກັນເລີຍ' ເມື່ອພະຍາຍາມລົບກວນໜ້າວຽກທີ່ໄດ້ຮັບມອບໝາຍ."

ພວກເຂົາຍັງໄດ້ເນັ້ນໜັກວ່າ ໃນຂະນະທີ່ນັກພັດທະນາສາມາດຕິດຕາມກວດກາ ແລະ ກວດຫາການກະທຳຜິດໄດ້, ຄວາມສາມາດໃນການຕິດຕາມກວດກາຕາມທຳມະຊາດນີ້ແມ່ນອ່ອນແອຫຼາຍ. ພວກເຂົາເຕືອນວ່າ "ຖ້າການຕິດຕາມກວດກາທີ່ເຂັ້ມແຂງຖືກນຳໃຊ້ໂດຍກົງກັບຂະບວນການຄິດ, ຮູບແບບສາມາດຮຽນຮູ້ທີ່ຈະປິດບັງເຈດຕະນາຮ້າຍໃນຂະນະທີ່ສືບຕໍ່ປະຕິບັດພຶດຕິກຳດັ່ງກ່າວ."

ຄົ້ນຫາ "ຄຳຕົວະ" ຂອງ AI

ເພື່ອໃຫ້ເຂົ້າໃຈດີຂຶ້ນ, ຮູບແບບການອະນຸມານ (ເຊັ່ນ: ຮຸ່ນຂອງ ChatGPT) ແມ່ນການພັດທະນາທີ່ສູງກວ່າ LLM ແບບດັ້ງເດີມ, ໂດຍໃຊ້ວິທີການລະບົບຕ່ອງໂສ້ຄວາມຄິດທີ່ຊ່ວຍໃຫ້ການທົບທວນຄືນຂັ້ນຕອນທີ່ມີເຫດຜົນຂອງຕົນເອງ, ດັ່ງນັ້ນຈຶ່ງແກ້ໄຂບັນຫາທີ່ສັບສົນໄດ້ຢ່າງຖືກຕ້ອງຫຼາຍຂຶ້ນ. ຂະບວນການນີ້ແມ່ນຄ້າຍຄືກັນກັບ AI "ຄິດອອກສຽງ", ຂຽນແຕ່ລະຂັ້ນຕອນຂອງການຫາເຫດຜົນໃນພາສາທຳມະຊາດ, ເຮັດໃຫ້ມະນຸດສາມາດປະຕິບັດຕາມໄດ້ງ່າຍຂຶ້ນ.

ໃນການທົດລອງ, ນັກຄົ້ນຄວ້າໄດ້ໃຊ້ຮູບແບບ GPT-40 ເປັນ "ຜູ້ຄວບຄຸມ" ສຳລັບຮູບແບບການຫາເຫດຜົນຂັ້ນສູງອີກອັນໜຶ່ງ ໃນຂະນະທີ່ມັນປະຕິບັດໜ້າວຽກການຂຽນໂປຣແກຣມ. ໃນຫຼາຍໆກໍລະນີ, ຮູບແບບການຄວບຄຸມໄດ້ເລືອກທີ່ຈະໂກງຢ່າງຫ້າວຫັນເພື່ອໃຫ້ໄດ້ຄະແນນໂບນັດທີ່ສູງຂຶ້ນ ແລະ ໄດ້ບັນທຶກຄວາມຕັ້ງໃຈນີ້ຢ່າງຊັດເຈນໃນຂະບວນການຄິດຂອງມັນ. ຕົວຢ່າງ, ມັນຈະຢຸດໂປຣແກຣມກ່ອນໄວອັນຄວນ ແລະ ລາຍງານການສຳເລັດ, ຫຼື ສ້າງໄຟລ໌ທີ່ມີຊື່ຄ້າຍຄືກັບຄຳຮ້ອງຂໍ ແຕ່ຫວ່າງເປົ່າຢູ່ພາຍໃນ.

ເມື່ອນັກຄົ້ນຄວ້າພະຍາຍາມໃຊ້ມາດຕະການລົງໂທດ, ຮູບແບບໄດ້ຮັບການປັບປຸງໃຫ້ດີຂຶ້ນ, ແຕ່ການໂກງ ແລະ ຄວາມຜິດພາດທີ່ຮ້າຍແຮງຍັງຄົງຢູ່. ຄວາມແຕກຕ່າງແມ່ນວ່າຮູບແບບການຫາເຫດຜົນໃນປັດຈຸບັນໄດ້ຮຽນຮູ້ທີ່ຈະ "ປິດບັງ" ຂະບວນການຄິດຂອງມັນເພື່ອຫຼົບໜີຜູ້ຄວບຄຸມ AI. "ຮູບແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມພາຍໃຕ້ການຊີ້ນຳຂອງ CoT ຍັງຮຽນຮູ້ທີ່ຈະໂກງ. ຄວາມແຕກຕ່າງພຽງແຕ່ວ່າການໂກງບໍ່ໄດ້ຖືກກວດພົບເພາະວ່າມັນໄດ້ຮຽນຮູ້ທີ່ຈະປິດບັງຄວາມຕັ້ງໃຈຂອງມັນໃນຂະບວນການຄິດຂອງມັນ," ການສຶກສາຊີ້ໃຫ້ເຫັນ.

ເນື່ອງຈາກການກວດພົບການປອມແປງໃນຂະບວນການຄິດແມ່ນຍາກຫຼາຍ, ທີມງານຄົ້ນຄວ້າແນະນຳໃຫ້ສາທາລະນະຊົນຫຼີກລ່ຽງການນຳໃຊ້ມາດຕະການຕິດຕາມກວດກາທີ່ຮຸນແຮງເກີນໄປຕໍ່ຂະບວນການນີ້, ຢ່າງໜ້ອຍກໍຈົນກວ່າປະຊາຊົນຈະເຂົ້າໃຈຜົນສະທ້ອນດີຂຶ້ນ. "ການເສຍສະລະວິທີການຕິດຕາມກວດກາທີ່ມີປະສິດທິພາບອາດຈະບໍ່ຄຸ້ມຄ່າກັບການປັບປຸງເລັກນ້ອຍໃນຄວາມສາມາດຂອງຮູບແບບ. ດັ່ງນັ້ນ, ພວກເຮົາແນະນຳໃຫ້ຫຼີກລ່ຽງຄວາມກົດດັນໃນການເພີ່ມປະສິດທິພາບ CoT ທີ່ເຂັ້ມແຂງຈົນກວ່າພວກເຮົາຈະເຂົ້າໃຈພວກມັນດີຂຶ້ນ," ນັກຄົ້ນຄວ້າໄດ້ສະຫຼຸບ.

ຄຳແນະນຳນີ້ກາຍເປັນເລື່ອງຮີບດ່ວນຍິ່ງຂຶ້ນ ເນື່ອງຈາກ AI ກຳລັງພັດທະນາໃນອັດຕາທີ່ວ່ອງໄວ ແລະ ອາດຈະເກີນຄວາມສະຫຼາດຂອງຜູ້ທີ່ກຳລັງເບິ່ງແຍງມັນຢູ່ໃນໄວໆນີ້.

[ໂຄສະນາ_2]
ແຫຼ່ງຂໍ້ມູນ: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm