کچھ ایسی چیز جو انٹرنیٹ پر یادگار بننے والی ہے۔

AI مواد کے پھٹنے سے قابل اعتمادی کا مسئلہ پیدا ہو گیا ہے، کیونکہ خالصتاً انسانی ڈیٹا تیزی سے نایاب ہوتا جا رہا ہے۔

ZNews•09/06/2025

خالصتا انسانی مواد AI کے دور میں نایاب وسائل کی فہرست میں ہے۔ تصویر: ایڈورٹائزنگ ہفتہ ۔

2022 میں ChatGPT کے ظہور نے پورے انٹرنیٹ پر AI سے چلنے والے مواد کا ایک دھماکہ شروع کر دیا۔ گارٹنر نے پیش گوئی کی ہے کہ 2026 تک، 90% انٹرنیٹ مواد AI کے ذریعے تیار کیا جائے گا، بشمول ٹیکسٹ، تصاویر اور ویڈیوز ۔

AI کو انسانی سوچ کو سمجھنے کے لیے تربیت دی جاتی ہے۔ تاہم، اگر اب خالص انسانی تخلیق کردہ ڈیٹا نہیں ہے، تو یہ ٹیکنالوجی اپنی پرانی معلومات کا استعمال کرے گی، جیسے فوٹو کاپی خود ہی کاپی کرتا ہے۔

بہت سے محققین اصل، انسانی تخلیق کردہ مواد کا موازنہ جدید دور میں ایک قسم کے "صاف" اسٹیل سے کرتے ہیں، جو کہ نایاب اور تلاش کرنے میں دشواری کے مترادف ہے۔ انہیں خدشہ ہے کہ اگر کوئی 2022 سے پہلے ڈیٹا کی کاپیاں اسٹور نہیں کرتا ہے تو انٹرنیٹ مکمل طور پر اپنی سالمیت کھو دے گا۔

ایک تاریخی تباہی اپنے آپ کو دہراتی ہے۔

جوہری دور کے بعد، سائنسدانوں نے دریافت کیا کہ 1945 کے بعد پیدا ہونے والا تمام سٹیل آلودہ تھا۔ ایٹم بموں نے ماحول کو تابکاری سے آلودہ کر دیا تھا، جو اس ماحول میں پیدا ہونے والی دھاتوں میں پھیل گئی۔

اس کے نتیجے میں اسٹیل کا زیادہ تر حصہ اعلی درستگی کی پیمائش کرنے والے آلات جیسے گیگر کاؤنٹرز اور بہت سے دوسرے حساس سینسروں کے لیے ناقابل استعمال ہے۔ اس کا حل یہ تھا کہ جنگ سے پہلے ڈوب جانے والے جنگی جہازوں سے پرانے اسٹیل کو برآمد کیا جائے، جو سمندر کی تہہ میں گہرائی میں پڑے تھے، جہاں یہ تابکار فال آؤٹ سے متاثر نہ ہو۔

AI ڈویلپرز کے لیے، زیادہ تر ماڈلز کو انٹرنیٹ سے جمع کیے گئے انسانی ڈیٹا کے بڑے ڈیٹا سیٹس کا استعمال کرتے ہوئے تربیت دی جاتی ہے۔ لیکن اگر آج کا سافٹ ویئر ماضی میں تیار کردہ متن سے سیکھتا ہے، تو ماڈلز کے کریش ہونے کا خطرہ ہوتا ہے، ان کی اصلیت اور گہرائی گھٹ جاتی ہے۔

جنگی جہاز ہندن برگ جو پہلی جنگ عظیم کے دوران ڈوب گیا تھا، بچا لیا گیا ہے۔ تصویر: رائٹرز کنیکٹ۔

دنیا کے سب سے بڑے انٹرنیٹ نیٹ ورکس میں سے ایک چلانے والے Cloudflare کے نائب صدر ول ایلن کے مطابق، یہ انسانی تخلیق کردہ مواد، خاص طور پر 2022 سے پہلے تخلیق کردہ مواد کو زیادہ قیمتی بناتا ہے۔ اس کا استدلال ہے کہ اس سے AI ماڈلز کے ساتھ ساتھ مجموعی طور پر معاشرے کو ایک مشترکہ حقیقت پر قائم رہنے میں مدد ملتی ہے۔ اس بنیاد کے بغیر چیزیں پیچیدہ ہو جائیں گی۔

پلیٹ فارم خاص طور پر ہائی ٹیک شعبوں جیسے کہ طب، قانون، یا ٹیکسیشن میں اہم ہیں۔ مثال کے طور پر، ایک ڈاکٹر کو انسانی ماہرین کے تحریر کردہ مواد اور حقائق پر مبنی تحقیق پر انحصار کرنا چاہیے، نہ کہ AI سے تیار کردہ ذرائع پر۔

یہ خطرہ بھی حقیقت بنتا جا رہا ہے۔ ChatGPT کے آغاز کے ایک سال بعد، وینچر کے سرمایہ کار پال گراہم نے بتایا کہ انہیں "AI سے پیدا شدہ SEO بیت" سے بچنے کے لیے ایک سادہ تلاش کے لیے پرانا مواد تلاش کرنا پڑا۔ AI اسٹارٹ اپ Vercel کے CTO، Malte Ubl نے جواب دیا کہ گراہم بنیادی طور پر مواد کے لیے انٹرنیٹ کو فلٹر کر رہے تھے "اس سے پہلے کہ یہ AI سے آلودہ ہو۔"

گوگل کے سابق انجینئر میٹ رکارڈ اس سے اتفاق کرتے ہیں۔ انہوں نے 2023 کی ایک بلاگ پوسٹ میں لکھا کہ AI انٹرنیٹ سے ڈیٹا اکٹھا کرتا ہے، لیکن تیزی سے، انٹرنیٹ پر زیادہ تر مواد AI خود تخلیق کرتا ہے۔ "چیٹنر آؤٹ پٹ کا پتہ لگانا بہت مشکل ہے۔ ایسے تربیتی ڈیٹا کو تلاش کرنا جس کے ساتھ AI نے چھیڑ چھاڑ نہ کی ہو، تیزی سے مشکل ہوتا جائے گا،" رکارڈ نے وضاحت کی۔

"سمندری فرش پر فولاد کی تلاش"

اس مسئلے کا جواب AI بوم سے پہلے کے ڈیٹا کے انسانی تخلیق کردہ ورژن کو محفوظ کرنے میں مضمر ہے۔ اس شعبے کے علمبرداروں میں سے ایک جان گراہم-کمنگ، بورڈ کے رکن اور Cloudflare کے چیف ٹیکنالوجی آفیسر ہیں۔

اس کا پروجیکٹ، ویب سائٹ LowBackgroundSteel.ai، ڈیٹا سیٹس، راستوں اور میڈیا کی فہرست دیتا ہے جو 2022 سے پہلے موجود تھے۔ ایک مثال دی گئی ہے GitHub کا آرکٹک کوڈ والٹ، ایک اوپن سورس سافٹ ویئر آرکائیو جو ناروے میں کوئلے کی ایک ترک شدہ کان میں دفن ہے، جو فروری 2020 سے ڈیٹا رکھتا ہے۔

گراہم کمنگ کا انسانی ڈیٹا کے تحفظ کا منصوبہ۔ تصویر: Lowbackgroundsteel.ai.

ایک اور ڈیٹا ماخذ جس کا انہوں نے حوالہ دیا وہ تھا "wordfreq"، ایک ایسا پروجیکٹ جو آن لائن الفاظ کے استعمال کی تعدد کو ٹریک کرتا ہے۔ ماہر لسانیات رابن سپیر نے اسے 2021 تک برقرار رکھا۔

سپیر نے کہا، "AI نسل نے ڈیٹا کو آلودہ کر دیا ہے۔ اس نے لفظ "ڈیلو" کے ساتھ ChatGPT کے زیادہ جنون کی مثال دی، جس کی وجہ سے حال ہی میں اس کی ظاہری شکل میں اضافہ ہوا۔ یہ انٹرنیٹ پر ڈیٹا کو کم کرتا ہے، جس سے یہ عکاسی کرنے میں کم قابل اعتماد ہوتا ہے کہ انسان کیسے لکھتے اور سوچتے ہیں۔

مصنوعی مواد پر جزوی طور پر تربیت یافتہ AI ماڈلز ورک فلو کو تیز کر سکتے ہیں اور تخلیقی کاموں میں تھکاوٹ کو ختم کر سکتے ہیں۔ تاہم، صرف کارکردگی سے ہٹ کر، صارفین کو درست تشخیص کے لیے انسانی تخلیق کردہ اصل مواد پر انحصار کرنے کی ضرورت پڑ سکتی ہے، جیسا کہ درست پیمائش کے لیے "کم درجے کا سٹیل" استعمال کرنا۔

سائنسدانوں نے خالص آکسیجن کا استعمال کرتے ہوئے سٹیل کی پیداوار کے لیے مختلف طریقے تیار کیے ہیں۔ بزنس انسائیڈر کے مطابق، یہ ہمیں یاد دلاتا ہے کہ ماضی کو محفوظ رکھنا ہی ایک قابل اعتماد مستقبل کی تعمیر کا واحد طریقہ ہو سکتا ہے۔

ماخذ: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html