ស្នាដៃរបស់អ្នកនិពន្ធល្បីៗជាច្រើនត្រូវបានប្រើប្រាស់ដោយខុសច្បាប់ដើម្បីបណ្តុះបណ្តាល AI

បន្ថែមពីលើអ្នកនិពន្ធទាំងបីខាងលើ ក៏មាន Zadie Smith, Stephen King, Rachel Cusk និង Elena Ferrante... យោងតាមការវិភាគរបស់ Books3 - សំណុំទិន្នន័យដែលត្រូវបានកេងប្រវ័ញ្ចដោយក្រុមហ៊ុនជាច្រើនដើម្បីបង្កើតឧបករណ៍ AI សៀវភៅជាង 170,000 ត្រូវបានបញ្ចូលទៅក្នុងគំរូខាងលើ រួមទាំង Meta និង Bloomberg ។

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI - Ảnh 1. — ទំពក់កណ្ដឹង Jennifer Egan, George Saunders, Stephan King, Margaret Atwood, Zadie Smith និង Haruki Murakami ស្ថិតក្នុងចំណោមអ្នកនិពន្ធដែលស្នាដៃរបស់ពួកគេត្រូវបានប្រើខុសច្បាប់ដើម្បីបណ្តុះបណ្តាល AI ។

ដូច្នោះហើយ កម្មវិធី AI ប្រកបដោយភាពច្នៃប្រឌិតដូចជា ChatGPT ត្រូវបានរចនាឡើងដើម្បីយល់ និងបង្កើតអត្ថបទដូចជាមនុស្ស។ ដើម្បីសម្រេចបាននូវនេះ ប្រព័ន្ធតម្រូវឱ្យមានចំនួនច្រើននៃអត្ថបទសម្រាប់ "ការបណ្តុះបណ្តាល" ។ យោងតាមអ្នកនិពន្ធ និងអ្នកសរសេរកម្មវិធី Alex Reisner ដែលបានលាតត្រដាងការពិតដ៏គួរឱ្យភ្ញាក់ផ្អើលខាងលើថា "ការបញ្ចូល" មិនត្រឹមតែមកពីប្រភព "បើកចំហ" ដូចជា Wikipedia និងអត្ថបទអនឡាញប៉ុណ្ណោះទេ ប៉ុន្តែក៏មកពីសៀវភៅផងដែរ ដើម្បីធានាគុណភាពខ្ពស់។

ចំនួនសៀវភៅដែលប្រើប្រាស់ខុសច្បាប់ក៏ត្រូវបាន "លាតត្រដាង" រួមទាំងសៀវភៅចំនួន 33 ក្បាលដោយ Margaret Atwood យ៉ាងហោចណាស់ 9 ក្បាលដោយ Haruki Murakami សៀវភៅ 9 ក្បាលដោយទំពក់ 7 សៀវភៅដោយ Jonathan Franzen សៀវភៅ 5 ក្បាលដោយ Jennifer Egan និង 5 សៀវភៅដោយ David Grann ។

Books3 ត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាល LLaMA ដែលជាគំរូភាសាដ៏ធំមួយរបស់ Meta ដែលល្បីល្បាញបំផុតគឺ ChatGPT របស់ OpenAI ដើម្បីបង្កើតខ្លឹមសារដោយផ្អែកលើលំនាំដែលវារៀនពីអត្ថបទបណ្តុះបណ្តាល។ សំណុំទិន្នន័យនេះក៏ត្រូវបានគេប្រើដើម្បីបណ្តុះបណ្តាល BloombergGPT របស់ Bloomberg, GPT-J របស់ EleutherAI ហើយទំនងជាត្រូវបានប្រើប្រាស់នៅក្នុងម៉ូដែល AI ផ្សេងទៀតផងដែរ។

ចំណងជើង Books3 ដែលទើបបង្ហាញថ្មីគឺប្រហែលមួយភាគបីប្រឌិត និងពីរភាគបីមិនប្រឌិត ដែលភាគច្រើនបានបោះពុម្ពក្នុងរយៈពេលពីរទសវត្សរ៍ចុងក្រោយនេះ។ ចំនួនសៀវភៅដែលត្រូវបានប្រើប្រាស់ដោយខុសច្បាប់ក៏ "បង្ហាញ" រួមមានសៀវភៅចំនួន 33 ក្បាលដោយ Margaret Atwood យ៉ាងហោចណាស់ប្រាំបួនដោយ Haruki Murakami ប្រាំបួនដោយ Bell Hooks ប្រាំពីរដោយ Jonathan Franzen ប្រាំដោយ Jennifer Egan និងប្រាំដោយ David Grann ។

បន្ថែមពីលើអ្នកនិពន្ធដែលបានរាយបញ្ជីខាងលើ សៀវភៅរបស់ George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit និង Jon Krakauer ក៏បង្ហាញនៅក្នុងសំណុំទិន្នន័យផងដែរ។ ចំណងជើងទាំងនេះគ្របដណ្តប់លើអ្នកបោះពុម្ពផ្សាយទាំងធំ និងតូច រួមទាំងចំណងជើងជាង 30,000 ពី Penguin Random House 14,000 ពី HarperCollins, 7,000 មកពី Macmillan, 1,800 មកពី Oxford University Press និង 600 ពី Verso...

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI - Ảnh 3. — ការប្រយុទ្ធគ្នារវាងឧស្សាហកម្មបច្ចេកវិទ្យា និងពិភពបោះពុម្ពផ្សាយត្រូវបានគេព្យាករណ៍ថានឹងខិតជិតមកដល់ហើយ។

នេះធ្វើឡើងបន្ទាប់ពីការប្តឹងកាលពីខែមុនដោយអ្នកនិពន្ធបីនាក់គឺ Sarah Silverman, Richard Kadrey និង Christopher Golden ដោយចោទប្រកាន់ថាស្នាដៃរក្សាសិទ្ធិរបស់ពួកគេ "ត្រូវបានចម្លង និងប្រើជាធាតុបញ្ចូលដើម្បីបណ្តុះបណ្តាលឧបករណ៍ AI" ។ ការវិភាគបានបង្ហាញថាស្នាដៃរបស់ដើមបណ្តឹងទាំងបីគឺពិតជាផ្នែកនៃសៀវភៅទី៣។

OpenAI ដែលជាក្រុមហ៊ុននៅពីក្រោយ AI chatbot ChatGPT ក៏ត្រូវបានចោទប្រកាន់ពីបទបណ្តុះបណ្តាលគំរូរបស់ខ្លួនលើការងាររក្សាសិទ្ធិផងដែរ។ តម្រុយនៃទិន្នន័យនេះបានមកពីរបាយការណ៍ឆ្នាំ 2020 ដែលក្រុមហ៊ុនបានចេញផ្សាយដែលនិយាយអំពី "ប្រភពសៀវភៅដែលមានមូលដ្ឋានលើអ៊ីនធឺណិត" ចំនួនពីរដែលមួយក្នុងចំណោមនោះត្រូវបានគេហៅថា Books2 ហើយត្រូវបានគេប៉ាន់ស្មានថាមានជិត 300,000 ចំណងជើង។

ទោះជាយ៉ាងណាក៏ដោយ មនុស្សជាច្រើនសង្ស័យថាជាមួយនឹងការងារដ៏ច្រើនបែបនេះ ប្រភពអាចមកពី "បណ្ណាល័យងងឹត" ដូចជាបណ្ណាល័យ Genesis (LibGen) និង Z-Library ដែលទិន្នន័យត្រូវបានធានាយ៉ាងទូលំទូលាយតាមរយៈប្រព័ន្ធ torrent ។ នេះត្រូវបានគេស្គាល់ថាជាប្រភពនៃសៀវភៅដែលគ្មានអាជ្ញាប័ណ្ណដែលមានចំនួនអ្នកចូលទស្សនាច្រើនជុំវិញ ពិភពលោក ។

Shawn Presser ដែលជាអ្នកអភិវឌ្ឍន៍ AI ឯករាជ្យដែលបង្កើត Books3 ពីដំបូងបានប្រាប់ The Guardian ថាគាត់អាណិតអាសូរចំពោះការព្រួយបារម្ភរបស់អ្នកនិពន្ធ។ គាត់បាននិយាយថាគាត់បានបង្កើតមូលដ្ឋានទិន្នន័យដែលនរណាម្នាក់អាចប្រើដើម្បីអភិវឌ្ឍឧបករណ៍ AI ហើយមានការព្រួយបារម្ភអំពីហានិភ័យរបស់ក្រុមហ៊ុនធំដែលគ្រប់គ្រងបច្ចេកវិទ្យានេះ។

ការស៊ើបអង្កេតរបស់ Reisner ក៏បានបង្ហាញពីសំណុំទិន្នន័យដ៏ធំហៅថា The Pile ដែលមានទិន្នន័យ Books3 ក៏ដូចជាឯកសារពីប្រភពផ្សេងៗដូចជា ចំណងជើងរងរបស់ YouTube និងឯកសារសភាអឺរ៉ុប ...

ទិន្នន័យ Pile ដែលត្រូវបានស្រង់ចេញ និងវិភាគដោយ Reisner បានលាតត្រដាងអំពីមាត្រដ្ឋាន និងភាពចម្រុះនៃការងារលួចចម្លងដែលប្រើដើម្បីបណ្តុះបណ្តាល AI ដែលនាំឱ្យមានការព្រួយបារម្ភអំពីសីលធម៌អំពីប្រភពដើម និងភាពស្របច្បាប់នៃទិន្នន័យនេះ។

Reisner ក៏បាននិយាយផងដែរថាខណៈពេលដែលអ្នកនាំពាក្យ Meta បដិសេធមិនធ្វើអត្ថាធិប្បាយលើការប្រើប្រាស់ Books3 លោក Stella Biderman នាយកប្រតិបត្តិនៃ EleutherAI មិនបានបដិសេធការប្រើប្រាស់ប្រភពទិន្នន័យនេះសម្រាប់ GPT-J ទេ។

អ្នកនាំពាក្យរបស់ Bloomberg ក៏បានបញ្ជាក់ប្រាប់ The Guardian ថាក្រុមហ៊ុនបានប្រើប្រាស់សំណុំទិន្នន័យកាលពីអតីតកាលដោយបន្ថែមថា "យើងនឹងមិនប្រើសំណុំទិន្នន័យ Books3 ជាធាតុបញ្ចូលសម្រាប់ការបណ្តុះបណ្តាល BloombergGPT នាពេលខាងមុខនោះទេ។"

ការប្រើប្រាស់សៀវភៅដែលបានរក្សាសិទ្ធិដើម្បីបណ្តុះបណ្តាលគំរូ AI បង្កើតសំណួរស្មុគស្មាញអំពីក្រមសីលធម៌ ការរក្សាសិទ្ធិ និងអនាគតនៃការងារច្នៃប្រឌិត។ ដោយសារបច្ចេកវិទ្យា AI បន្តរីកចម្រើន បញ្ហានៃមាតិកាខុសច្បាប់ដែលត្រូវបានប្រើជាការបញ្ចូលនឹងត្រូវការវិធីសាស្រ្តដែលមានតុល្យភាព និងផ្លូវច្បាប់បន្ថែមទៀត។ ហើយបញ្ហានៃការផ្សារភ្ជាប់គម្លាតរវាង "ភាពបើកចំហ" នៃការអភិវឌ្ឍន៍ AI និងសិទ្ធិរបស់អ្នកបង្កើត ដូច្នេះទាមទារឱ្យមានតុល្យភាពដើម្បីធានាថាការជឿនលឿនផ្នែកបច្ចេកវិទ្យាមិនកើតឡើងដោយចំណាយលើសិទ្ធិកម្មសិទ្ធិបញ្ញានោះទេ។ ជាលទ្ធផល ការប្រឈមមុខដាក់គ្នាអាចនឹងកើតមានឡើងរវាងឧស្សាហកម្មបច្ចេកវិទ្យា និងពិភពបោះពុម្ពផ្សាយ។

ប្រភពតំណ