
اپریل میں، پروگرامرز کے لیے بڑھتے ہوئے ٹول، کرسر کے لیے تکنیکی مدد کو سنبھالنے والے ایک AI بوٹ نے کچھ صارفین کو کمپنی کی پالیسی میں تبدیلی کے بارے میں مطلع کیا۔ خاص طور پر، نوٹیفکیشن میں کہا گیا ہے کہ انہیں اب ایک سے زیادہ کمپیوٹر پر کرسر استعمال کرنے کی اجازت نہیں ہے۔
فورمز اور سوشل میڈیا پر صارفین نے اپنے غصے کا اظہار کرنے کے لیے پوسٹ کیا۔ کچھ نے اپنے کرسر اکاؤنٹس کو بھی منسوخ کر دیا۔ تاہم، کچھ اس وقت اور بھی مشتعل ہوئے جب انہیں احساس ہوا کہ کیا ہوا ہے: AI بوٹ نے پالیسی میں تبدیلی کا اعلان کیا تھا جو موجود نہیں تھا۔
"ہمارے پاس ایسی کوئی پالیسی نہیں ہے۔ آپ یقیناً ایک سے زیادہ مشینوں پر کرسر استعمال کر سکتے ہیں۔ بدقسمتی سے، یہ AI کی مدد سے چلنے والے بوٹ کی طرف سے غلط جواب ہے،" کمپنی کے سی ای او اور شریک بانی مائیکل ٹرویل نے ایک Reddit پوسٹ میں لکھا۔
جعلی خبروں کا پھیلاؤ بہت زیادہ اور بے قابو ہے۔
چیٹ جی پی ٹی کے ظہور کے دو سال بعد، ٹیک کمپنیاں، دفتری کارکنان، اور روزمرہ کے صارفین سبھی بڑھتی ہوئی فریکوئنسی کے ساتھ مختلف کاموں کے لیے AI بوٹس استعمال کر رہے ہیں۔
تاہم، ابھی تک اس بات کی ضمانت دینے کا کوئی طریقہ نہیں ہے کہ یہ سسٹم درست معلومات پیدا کرتے ہیں۔ حیرت انگیز طور پر، OpenAI، Google، اور DeepSeek جیسی کمپنیوں کی جدید ترین اور طاقتور ترین ٹیکنالوجیز، جنہیں "انفرنس" سسٹم بھی کہا جاتا ہے، درحقیقت مزید خرابیاں پیدا کر رہی ہیں۔
![]() |
ChatGPT پر ایک بے ہودہ گفتگو جہاں ایک صارف پوچھتا ہے کہ کیا انہیں اپنے کتے کو سیریل کھلانا چاہیے۔ تصویر: Reddit. |
نمایاں طور پر بہتر ریاضیاتی مہارتوں کے برعکس، بڑے لینگویج ماڈلز (LLMs) کی سچائی کو سمجھنے کی صلاحیت زیادہ متزلزل ہو گئی ہے۔ قابل ذکر بات یہ ہے کہ خود انجینئر بھی مکمل طور پر حیران ہیں کہ ایسا کیوں ہے۔
نیو یارک ٹائمز کے مطابق، آج کے AI چیٹ بوٹس بڑے پیمانے پر عددی ڈیٹا کا تجزیہ کرکے مہارتیں سیکھنے کے لیے پیچیدہ ریاضیاتی نظاموں پر انحصار کرتے ہیں۔ تاہم، وہ فیصلہ نہیں کر سکتے کہ کیا صحیح ہے اور کیا غلط۔
وہاں سے، "ہیلوسینیشن" یا خود اختراعی کا رجحان ابھرتا ہے۔ درحقیقت، مطالعات کے مطابق، LLMs کی نئی نسل کچھ پرانے ماڈلز کے مقابلے میں اکثر "ہیلوسینیشن" کا تجربہ کرتی ہے۔
خاص طور پر، اپنی تازہ ترین رپورٹ میں، OpenAI نے دریافت کیا کہ o3 ماڈل "فریب" تھا جب پرسن کیو اے پر 33 فیصد سوالات کا جواب دیا گیا، جو کہ ماڈل کے انسانوں کے علم کی درستگی کی پیمائش کے لیے کمپنی کا اندرونی معیار ہے۔
مقابلے کے لیے، یہ اعداد و شمار OpenAI کے سابقہ استدلال کے ماڈلز، o1 اور o3-mini، جو بالترتیب 16% اور 14.8% تھے۔ دریں اثنا، o4-mini ماڈل نے PersonQA پر اور بھی بدتر کارکردگی کا مظاہرہ کیا، ٹیسٹ کی مدت کے 48% تک "وہم" کا سامنا کرنا پڑا۔
مزید تشویشناک بات یہ ہے کہ "ChatGPT کا باپ" دراصل نہیں جانتا کہ ایسا کیوں ہو رہا ہے۔ خاص طور پر، o3 اور o4-mini پر اپنی تکنیکی رپورٹ میں، OpenAI کہتا ہے کہ "مزید تحقیق کی ضرورت ہے یہ سمجھنے کے لیے کہ کیوں 'فریب' خراب ہوتے ہیں"
o3 اور o4-mini کچھ شعبوں میں بہتر کارکردگی کا مظاہرہ کرتے ہیں، بشمول پروگرامنگ اور ریاضی کے کام۔ تاہم، کیونکہ انہیں "عام بیانات سے زیادہ بیانات دینے کی ضرورت ہے،" دونوں ماڈلز کے نتیجے میں "زیادہ درست بیانات، بلکہ زیادہ غلط بیانات" بھی سامنے آئے ہیں۔
"یہ کبھی دور نہیں ہوگا۔"
انسانی انجینئرز کی طرف سے بیان کردہ قوانین کے سخت سیٹ کے بجائے، LLM سسٹم بہترین ردعمل کی پیشین گوئی کرنے کے لیے ریاضیاتی امکانات کا استعمال کرتے ہیں۔ لہذا، وہ ہمیشہ ایک خاص تعداد میں غلطیاں کریں گے۔
"ہماری بہترین کوششوں کے باوجود، AI ماڈلز ہمیشہ فریب کا شکار رہیں گے۔ یہ کبھی ختم نہیں ہوں گے،" امر عواد اللہ، سابق گوگل ایگزیکٹو نے کہا۔
![]() |
IBM کے مطابق، ہیلوسینیشن مظاہر ہیں جہاں بڑے لینگویج ماڈلز (LLMs) - اکثر چیٹ بوٹس یا کمپیوٹر ویژن ٹولز - ایسے ڈیٹا پیٹرن حاصل کرتے ہیں جو موجود نہیں ہوتے یا انسانوں کے لیے ناقابل شناخت ہوتے ہیں، اس طرح بے معنی یا غلط نتائج برآمد ہوتے ہیں۔ تصویر: iStock. |
تجربات کے بارے میں ایک تفصیلی مقالے میں، OpenAI نے کہا کہ ان نتائج کی وجہ کو سمجھنے کے لیے اسے مزید تحقیق کی ضرورت ہے۔
ماہرین کے مطابق، چونکہ AI سسٹم انسانوں کی سمجھ سے کہیں زیادہ ڈیٹا سے سیکھتے ہیں، اس لیے یہ طے کرنا بہت مشکل ہو جاتا ہے کہ وہ اپنے طرز عمل سے کیوں برتاؤ کرتے ہیں۔
OpenAI کے ترجمان گیبی ریلا نے کہا، "تخلیقی ماڈلز میں وہم فطری طور پر زیادہ عام ہے، حالانکہ ہم o3 اور o4-mini میں نظر آنے والی شرح کو کم کرنے کے لیے سرگرمی سے کام کر رہے ہیں۔ ہم درستگی اور وشوسنییتا کو بہتر بنانے کے لیے تمام ماڈلز میں وہم کا مطالعہ جاری رکھیں گے۔"
متعدد آزاد کمپنیوں اور محققین کے ٹیسٹوں سے پتہ چلتا ہے کہ گوگل یا ڈیپ سیک جیسی کمپنیوں کے انفرنس ماڈلز کے لیے فریب کاری کی شرح بھی بڑھ رہی ہے۔
2023 کے آخر سے، عواد اللہ کی کمپنی، ویکٹرا، اس فریکوئنسی کی نگرانی کر رہی ہے جس کے ساتھ چیٹ بوٹس غلط معلومات پھیلاتے ہیں۔ کمپنی نے ان سسٹمز کو ایک سادہ، آسانی سے قابل تصدیق کام سونپا: مخصوص مضامین کا خلاصہ۔ اس کے بعد بھی، چیٹ بوٹس مسلسل معلومات کو گھڑتے رہے۔
خاص طور پر، ویکٹرا کی ابتدائی تحقیق نے اندازہ لگایا ہے کہ، اس مفروضے کے تحت، چیٹ بوٹس نے کم از کم 3% معاملات میں، اور بعض اوقات زیادہ سے زیادہ 27% میں معلومات گھڑ لی ہیں۔
پچھلے ڈیڑھ سال کے دوران، OpenAI اور Google جیسی کمپنیوں نے ان نمبروں کو کم کر کے تقریباً 1 یا 2% کر دیا ہے۔ دوسرے، جیسے سان فرانسسکو اسٹارٹ اپ اینتھروپک، تقریباً 4% منڈلاتے ہیں۔
تاہم، استدلال کے نظام کے لیے اس تجربے میں فریب کی شرح میں اضافہ ہوتا رہا۔ ڈیپ سیک کے R1 استدلال کے نظام نے 14.3 فیصد تک فریب کا تجربہ کیا، جبکہ OpenAI کے o3 میں 6.8 فیصد اضافہ ہوا۔
ایک اور مسئلہ یہ ہے کہ انفرنس ماڈلز کو حتمی جواب پر پہنچنے سے پہلے پیچیدہ مسائل کے بارے میں "سوچنے" میں وقت گزارنے کے لیے ڈیزائن کیا گیا ہے۔
![]() |
ایپل نے macOS 15.1 کے پہلے بیٹا ورژن میں AI کو معلومات کو گھڑنے سے روکنے کے لیے ایک اشارہ شامل کیا۔ تصویر: Reddit/devanxd2000۔ |
تاہم، منفی پہلو یہ ہے کہ جب کسی مسئلے کو مرحلہ وار حل کرنے کی کوشش کی جاتی ہے، تو AI ماڈل کو ہر قدم پر فریب نظر آنے کا زیادہ امکان ہوتا ہے۔ زیادہ اہم بات یہ ہے کہ غلطیاں جمع ہو سکتی ہیں کیونکہ ماڈل زیادہ وقت سوچنے میں صرف کرتا ہے۔
تازہ ترین بوٹس صارف کو ہر قدم دکھاتے ہیں، یعنی صارف ہر غلطی کو بھی دیکھ سکتے ہیں۔ محققین نے یہ بھی پایا کہ بہت سے معاملات میں، چیٹ بوٹ کے ذریعے ظاہر کردہ سوچ کا عمل درحقیقت اس کے فراہم کردہ حتمی جواب سے غیر متعلق ہے۔
ایڈنبرا یونیورسٹی میں اے آئی کے ایک محقق اور اینتھروپک میں معاون آریو پردیپتا گیما کہتے ہیں، "یہ نظام جس چیز کے بارے میں استدلال کر رہا ہے، ضروری نہیں کہ وہ اصل میں کیا سوچ رہا ہو۔"
ماخذ: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










تبصرہ (0)