Vietnam.vn - Nền tảng quảng bá Việt Nam

يتم استخدام أعمال العديد من الكتاب المشهورين بشكل غير قانوني لتدريب الذكاء الاصطناعي

Báo Thanh niênBáo Thanh niên23/08/2023

[إعلان 1]

بالإضافة إلى المؤلفين الثلاثة المذكورين أعلاه، هناك أيضًا زادي سميث، وستيفن كينج، وراشيل كوسك، وإيلينا فيرانتي... ووفقًا لتحليل Books3 - وهي مجموعة بيانات تستغلها العديد من الشركات لبناء أدوات الذكاء الاصطناعي، تم إدخال أكثر من 170 ألف كتاب في النماذج المذكورة أعلاه، بما في ذلك Meta وBloomberg.

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI  - Ảnh 1.

ومن بين الكتاب الذين تم استخدام أعمالهم بشكل غير قانوني لتدريب الذكاء الاصطناعي: بيل هوكس، وجنيفر إيغان، وجورج سوندرز، وستيفان كينج، ومارجريت آتوود، وزادي سميث، وهاركي موراكامي.

وبناءً على ذلك، صُممت تطبيقات الذكاء الاصطناعي المبتكرة، مثل ChatGPT، لفهم النصوص وتوليدها كالبشر. ولتحقيق ذلك، يتطلب النظام كميات كبيرة من النصوص للتدريب. ووفقًا للكاتب والمبرمج أليكس رايزنر، الذي كشف الحقيقة الصادمة أعلاه، فإن هذه "المدخلات" لا تأتي فقط من مصادر "مفتوحة" مثل ويكيبيديا والمقالات الإلكترونية، بل تأتي أيضًا من الكتب لضمان الجودة العالية.

كما تم الكشف عن عدد الكتب المستخدمة بشكل غير قانوني، بما في ذلك 33 كتابًا لمارجريت آتوود، و9 كتب على الأقل لهاروكي موراكامي، و9 كتب لبيل هوكس، و7 كتب لجوناثان فرانزين، و5 كتب لجينيفر إيجان، و5 كتب لديفيد جران.

استُخدمت Books3 لتدريب LLaMA، أحد نماذج اللغات الكبيرة لشركة Meta - وأشهرها ChatGPT من OpenAI - لتوليد محتوى بناءً على الأنماط التي يتعلمها من نصوص التدريب. كما استُخدمت مجموعة البيانات هذه لتدريب BloombergGPT من Bloomberg، وGPT-J من EleutherAI، ومن المرجح استخدامها في نماذج ذكاء اصطناعي أخرى أيضًا.

عناوين الكتب الثلاثة التي كُشف عنها حديثًا، ثلثها تقريبًا روايات وثلثان منها غير روائية، نُشر معظمها خلال العقدين الماضيين. ويشمل عدد الكتب المستخدمة بشكل غير قانوني، والتي كُشف عنها أيضًا، 33 كتابًا لمارغريت آتوود، وتسعة على الأقل لهاروكي موراكامي، وتسعة لبيل هوكس، وسبعة لجوناثان فرانزن، وخمسة لجينيفر إيغان، وخمسة لديفيد غران.

بالإضافة إلى المؤلفين المذكورين أعلاه، تظهر في قاعدة البيانات أيضًا كتبٌ لجورج سوندرز، وجونوت دياز، ومايكل بولان، وريبيكا سولنيت، وجون كراكوير. تشمل هذه العناوين ناشرين كبارًا وصغارًا، بما في ذلك أكثر من 30,000 عنوان من دار نشر بنغوين راندوم هاوس، و14,000 عنوان من هاربر كولينز، و7,000 عنوان من ماكميلان، و1,800 عنوان من مطبعة جامعة أكسفورد، و600 عنوان من فيرسو...

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI  - Ảnh 3.

ومن المتوقع أن تكون المعركة بين صناعة التكنولوجيا وعالم النشر قريبة جدًا.

يأتي هذا في أعقاب دعوى قضائية رفعها الشهر الماضي ثلاثة كُتّاب، هم سارة سيلفرمان، وريتشارد كادري، وكريستوفر جولدن، زاعمين أن أعمالهم المحمية بحقوق الطبع والنشر "نُسخت واستُخدمت كمدخلات لتدريب أدوات الذكاء الاصطناعي". وأظهر التحليل أن أعمال المدعين الثلاثة كانت بالفعل جزءًا من Books3.

اتُهمت شركة OpenAI، الشركة المطورة لبرنامج الدردشة الآلي ChatGPT، بتدريب نموذجها على أعمال محمية بحقوق الطبع والنشر. يُشير تقرير أصدرته الشركة عام ٢٠٢٠ إلى وجود مصدرين للكتب على الإنترنت، أحدهما يُدعى Books2 ويُقدر عدد عناوينه بحوالي ٣٠٠ ألف عنوان.

مع ذلك، يشتبه الكثيرون في أنه مع هذا الكم الهائل من الأعمال، لا يمكن أن يأتي المصدر إلا من "المكتبات المظلمة" مثل Library Genesis (LibGen) وZ-Library، حيث تُؤمَّن البيانات بشكل جماعي عبر نظام التورنت. يُعرف هذا بأنه مصدر للكتب غير المرخصة، ويزوره عدد كبير من الزوار حول العالم .

صرّح شون بريسر، مطور الذكاء الاصطناعي المستقل ومبتكر منصة "بوكس 3"، لصحيفة الغارديان بأنه يتعاطف مع مخاوف المؤلفين. وأضاف أنه أنشأ قاعدة بيانات يُمكن لأي شخص استخدامها لتطوير أدوات الذكاء الاصطناعي، وأنه قلق بشأن مخاطر سيطرة الشركات الكبرى على هذه التقنية.

وكشف تحقيق رايزنر أيضًا عن مجموعة بيانات ضخمة تسمى The Pile، والتي تحتوي على بيانات Books3 بالإضافة إلى وثائق من مصادر مختلفة، مثل ترجمات YouTube ووثائق البرلمان الأوروبي.

كشفت بيانات بايل التي استخرجها ريزنر وحللها عن حجم وتنوع الأعمال المقرصنة المستخدمة لتدريب الذكاء الاصطناعي، مما أدى إلى مخاوف أخلاقية بشأن أصل وشرعية هذه البيانات.

وقال رايزنر أيضًا إنه في حين رفض المتحدث باسم Meta التعليق على استخدام Books3، فإن ستيلا بيدرمان، الرئيسة التنفيذية لشركة EleutherAI، لم تنكر استخدام مصدر البيانات هذا لـ GPT-J.

وأكد متحدث باسم بلومبرج لصحيفة الغارديان أيضًا أن الشركة استخدمت مجموعة البيانات في الماضي، مضيفًا: "لن نستخدم مجموعة بيانات Books3 كمدخلات لتدريب BloombergGPT القادم".

يثير استخدام الكتب المحمية بحقوق الطبع والنشر لتدريب نماذج الذكاء الاصطناعي تساؤلاتٍ معقدة حول الأخلاقيات وحقوق الطبع والنشر ومستقبل الأعمال الإبداعية. ومع استمرار تطور تكنولوجيا الذكاء الاصطناعي، ستتطلب مسألة استخدام المحتوى غير القانوني كمدخلات نهجًا أكثر توازنًا وقانونية. وبالتالي، تتطلب مسألة سد الفجوة بين "انفتاح" تطوير الذكاء الاصطناعي وحقوق المبدعين توازنًا يضمن ألا يأتي التقدم التكنولوجي على حساب حقوق الملكية الفكرية. ونتيجةً لذلك، قد تلوح في الأفق مواجهة بين صناعة التكنولوجيا وعالم النشر.


[إعلان 2]
رابط المصدر

تعليق (0)

No data
No data
مشهد ساحر على تلة الشاي "الوعاء المقلوب" في فو ثو
3 جزر في المنطقة الوسطى تشبه جزر المالديف وتجذب السياح في الصيف
شاهد مدينة جيا لاي الساحلية الرائعة في كوي نون في الليل
صورة للحقول المتدرجة في فو ثو، المنحدرة بلطف، والمشرقة والجميلة مثل المرايا قبل موسم الزراعة
مصنع Z121 جاهز لليلة الختام الدولية للألعاب النارية
مجلة سفر شهيرة تشيد بكهف سون دونغ وتصفه بأنه "الأكثر روعة على هذا الكوكب"
كهف غامض يجذب السياح الغربيين، يشبه كهف "فونج نها" في ثانه هوا
اكتشف الجمال الشعري لخليج فينه هاي
كيف تتم معالجة أغلى أنواع الشاي في هانوي، والذي يصل سعره إلى أكثر من 10 ملايين دونج للكيلوغرام؟
طعم منطقة النهر

إرث

شكل

عمل

No videos available

أخبار

النظام السياسي

محلي

منتج