ผลงานของนักเขียนชื่อดังหลายคนถูกนำไปใช้อย่างผิดกฎหมายเพื่อฝึกฝน AI

นอกจากผู้เขียนทั้งสามคนที่กล่าวมาข้างต้นแล้ว ยังมี Zadie Smith, Stephen King, Rachel Cusk และ Elena Ferrante อีกด้วย... ตามการวิเคราะห์ Books3 ซึ่งเป็นชุดข้อมูลที่บริษัทต่างๆ มากมายใช้ประโยชน์ในการสร้างเครื่องมือ AI พบว่าหนังสือมากกว่า 170,000 เล่มถูกป้อนเข้าสู่โมเดลดังกล่าวข้างต้น รวมถึง Meta และ Bloomberg

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI - Ảnh 1. — เบลล์ ฮุกส์, เจนนิเฟอร์ อีแกน, จอร์จ ซอนเดอร์ส, สเตฟาน คิง, มาร์กาเร็ต แอตวูด, ซาดี สมิธ และฮารูกิ มูราคามิ เป็นนักเขียนบางส่วนที่มีผลงานถูกนำไปใช้ในการฝึก AI อย่างผิดกฎหมาย

ด้วยเหตุนี้ แอปพลิเคชัน AI เชิงนวัตกรรมอย่าง ChatGPT จึงได้รับการออกแบบมาให้เข้าใจและสร้างข้อความได้เหมือนมนุษย์ เพื่อให้บรรลุสิ่งนี้ ระบบจึงจำเป็นต้องใช้ข้อความจำนวนมากเพื่อ "ฝึกฝน" อเล็กซ์ ไรส์เนอร์ นักเขียนและโปรแกรมเมอร์ ผู้เปิดเผยความจริงอันน่าตกใจข้างต้น กล่าวว่า "ข้อมูลอินพุต" ไม่ได้มาจากแหล่งข้อมูล "เปิด" เช่น วิกิพีเดียและบทความออนไลน์เท่านั้น แต่ยังมาจากหนังสือด้วย เพื่อให้มั่นใจถึงคุณภาพระดับสูง

จำนวนหนังสือที่ใช้โดยผิดกฎหมายก็ถูก "เปิดเผย" เช่นกัน รวมถึงหนังสือ 33 เล่มของ Margaret Atwood, หนังสืออย่างน้อย 9 เล่มของ Haruki Murakami, หนังสือ 9 เล่มของ Bell Hooks, หนังสือ 7 เล่มของ Jonathan Franzen, หนังสือ 5 เล่มของ Jennifer Egan และหนังสือ 5 เล่มของ David Grann

Books3 ถูกนำมาใช้เพื่อฝึก LLaMA ซึ่งเป็นหนึ่งในโมเดลภาษาขนาดใหญ่ของ Meta ซึ่งมีชื่อเสียงที่สุดคือ ChatGPT ของ OpenAI เพื่อสร้างเนื้อหาโดยอิงจากรูปแบบที่เรียนรู้จากข้อความฝึกหัด ชุดข้อมูลนี้ยังถูกใช้เพื่อฝึก BloombergGPT ของ Bloomberg และ GPT-J ของ EleutherAI และ "มีแนวโน้ม" ที่จะนำไปใช้ในโมเดล AI อื่นๆ เช่นกัน

หนังสือชุด Books3 ที่เพิ่งเปิดตัวใหม่นี้ประกอบด้วยนวนิยายประมาณหนึ่งในสาม และสารคดีสองในสาม ซึ่งส่วนใหญ่ตีพิมพ์ในช่วงสองทศวรรษที่ผ่านมา จำนวนหนังสือที่ถูกนำไปใช้อย่างผิดกฎหมายซึ่งถูก "เปิดเผย" เช่นกัน ได้แก่ หนังสือของมาร์กาเร็ต แอตวูด 33 เล่ม, หนังสือของฮารูกิ มูราคามิอย่างน้อยเก้าเล่ม, หนังสือของเบลล์ ฮุกส์เก้าเล่ม, หนังสือของโจนาธาน แฟรนเซนเจ็ดเล่ม, หนังสือของเจนนิเฟอร์ อีแกนห้าเล่ม และหนังสือของเดวิด แกรนน์ห้าเล่ม

นอกจากผู้เขียนที่ระบุไว้ข้างต้นแล้ว ยังมีหนังสือของ George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit และ Jon Krakauer ปรากฏอยู่ในชุดข้อมูลด้วย หนังสือเหล่านี้ครอบคลุมทั้งสำนักพิมพ์ขนาดใหญ่และขนาดเล็ก รวมถึงหนังสือมากกว่า 30,000 เล่มจากสำนักพิมพ์ Penguin Random House, 14,000 เล่มจากสำนักพิมพ์ HarperCollins, 7,000 เล่มจากสำนักพิมพ์ Macmillan, 1,800 เล่มจากสำนักพิมพ์ Oxford University Press และ 600 เล่มจากสำนักพิมพ์ Verso...

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI - Ảnh 3. — คาดการณ์ว่าการต่อสู้ระหว่างอุตสาหกรรมเทคโนโลยีและโลกแห่งการพิมพ์จะเกิดขึ้นเร็วๆ นี้

คดีนี้เกิดขึ้นหลังจากที่นักเขียนสามคน ได้แก่ ซาราห์ ซิลเวอร์แมน, ริชาร์ด คาดรี และคริสโตเฟอร์ โกลเดน ยื่นฟ้องเมื่อเดือนที่แล้ว โดยกล่าวหาว่าผลงานที่มีลิขสิทธิ์ของพวกเขา “ถูกคัดลอกและใช้เป็นข้อมูลสำหรับฝึกอบรมเครื่องมือ AI” การวิเคราะห์แสดงให้เห็นว่าผลงานของโจทก์ทั้งสามคนเป็นส่วนหนึ่งของ Books3 จริง

OpenAI บริษัทที่อยู่เบื้องหลังแชทบอท AI ชื่อ ChatGPT ก็ถูกกล่าวหาว่าฝึกฝนโมเดลของตนโดยใช้ผลงานที่มีลิขสิทธิ์เช่นกัน เบาะแสของข้อมูลนี้มาจากรายงานปี 2020 ที่บริษัทเผยแพร่ ซึ่งกล่าวถึง "แหล่งหนังสือบนอินเทอร์เน็ต" สองแหล่ง หนึ่งในนั้นเรียกว่า Books2 และคาดว่าจะมีหนังสือเกือบ 300,000 เล่ม

อย่างไรก็ตาม หลายคนสงสัยว่าด้วยจำนวนผลงานที่มากมายขนาดนี้ แหล่งที่มาของผลงานน่าจะมาจาก "ห้องสมุดมืด" อย่างเช่น Library Genesis (LibGen) และ Z-Library เท่านั้น ซึ่งข้อมูลจะถูกเก็บรักษาอย่างปลอดภัยผ่านระบบทอร์เรนต์ ห้องสมุดแห่งนี้เป็นที่รู้จักในฐานะแหล่งรวมหนังสือที่ไม่มีใบอนุญาต ซึ่งมีผู้เข้าชมจำนวนมากทั่วโลก

ชอว์น เพรสเซอร์ นักพัฒนา AI อิสระผู้สร้าง Books3 คนแรก บอกกับ เดอะการ์เดียน ว่าเขาเห็นใจความกังวลของผู้เขียน เขาบอกว่าเขาได้สร้างฐานข้อมูลที่ใครๆ ก็สามารถใช้พัฒนาเครื่องมือ AI ได้ และกังวลเกี่ยวกับความเสี่ยงที่บริษัทขนาดใหญ่จะเข้ามาควบคุมเทคโนโลยีนี้

การสืบสวนของ Reisner ยังเปิดเผยชุดข้อมูลขนาดใหญ่ที่เรียกว่า The Pile ซึ่งประกอบด้วยข้อมูล Books3 เช่นเดียวกับเอกสารจากแหล่งต่างๆ เช่น คำบรรยาย YouTube และเอกสารของรัฐสภายุโรป...

ข้อมูล Pile ที่ Reisner แยกออกมาและวิเคราะห์เผยให้เห็นขนาดและความหลากหลายของผลงานละเมิดลิขสิทธิ์ที่ใช้ในการฝึกอบรม AI ซึ่งนำไปสู่ข้อกังวลด้านจริยธรรมเกี่ยวกับแหล่งที่มาและความถูกต้องตามกฎหมายของข้อมูลนี้

Reisner ยังกล่าวอีกว่าแม้โฆษกของ Meta จะปฏิเสธที่จะแสดงความคิดเห็นเกี่ยวกับการใช้ Books3 แต่ Stella Biderman ซึ่งเป็น CEO ของ EleutherAI ก็ไม่ได้ปฏิเสธการใช้แหล่งข้อมูลนี้สำหรับ GPT-J

โฆษกของ Bloomberg ยังได้ยืนยันกับ The Guardian ว่าบริษัทเคยใช้ชุดข้อมูลดังกล่าวมาก่อน และกล่าวเพิ่มเติมว่า “เราจะไม่ใช้ชุดข้อมูล Books3 เป็นอินพุตสำหรับการฝึกอบรม BloombergGPT ที่กำลังจะเปิดตัว”

การใช้หนังสือที่มีลิขสิทธิ์เพื่อฝึกฝนโมเดล AI ก่อให้เกิดคำถามที่ซับซ้อนเกี่ยวกับจริยธรรม ลิขสิทธิ์ และอนาคตของผลงานสร้างสรรค์ ขณะที่เทคโนโลยี AI ก้าวหน้าอย่างต่อเนื่อง ปัญหาการนำเนื้อหาผิดกฎหมายมาใช้เป็นข้อมูลป้อนเข้าจึงจำเป็นต้องมีแนวทางที่สมดุลและถูกต้องตามกฎหมายมากขึ้น ดังนั้น ประเด็นการเชื่อมช่องว่างระหว่าง “ความเปิดกว้าง” ของการพัฒนา AI และสิทธิของผู้สร้างจึงจำเป็นต้องอาศัยความสมดุลเพื่อให้มั่นใจว่าความก้าวหน้าทางเทคโนโลยีจะไม่มากระทบกับสิทธิในทรัพย์สินทางปัญญา ส่งผลให้เกิดการเผชิญหน้าระหว่างอุตสาหกรรมเทคโนโลยีและวงการสิ่งพิมพ์

ลิงค์ที่มา