AI اسپیچ ٹو ٹیکسٹ ٹولز بھی 'مسخ' کرتے ہیں

(CLO) اوپن اے آئی کے اسپیچ ٹو ٹیکسٹ ٹول وِسپر کی تشہیر "قریب انسانی سطح کے مضبوط اور درست" ہونے کے طور پر کی جاتی ہے، لیکن اس میں ایک بڑی خرابی ہے: یہ ٹیکسٹ کے ٹکڑوں یا یہاں تک کہ پورے جملے کو گھڑنے کا شکار ہے!

ماہرین کا کہنا ہے کہ کچھ نصوص جو یہ گھڑتی ہیں، جن کو صنعت میں hallucinatory کے نام سے جانا جاتا ہے، میں نسلی تبصرے، تشدد اور یہاں تک کہ خیالی طبی علاج بھی شامل ہو سکتا ہے۔

ماہرین کا کہنا ہے کہ اس طرح کی من گھڑت باتیں سنجیدہ ہیں کیونکہ وِسپر کا استعمال دنیا بھر میں بہت سی صنعتوں میں انٹرویوز کا ترجمہ اور نقل کرنے، ٹیکسٹ اور سب ٹائٹل ویڈیوز بنانے کے لیے کیا جاتا ہے۔

مزید تشویشناک بات یہ ہے کہ اوپن اے آئی کے انتباہ کے باوجود کہ "زیادہ خطرہ والے علاقوں" میں اس آلے کو استعمال نہیں کیا جانا چاہیے، طبی مراکز مریضوں اور ڈاکٹروں کی مشاورت کو ریکارڈ کرنے کے لیے وسپر پر مبنی ٹولز کا استعمال کر رہے ہیں۔

ٹیکسٹ کنورژن ٹول کی تقریر جسے کوئی بھی تصویر 1 پڑھ سکتا ہے۔ — "#Groundtruth" سے شروع ہونے والے جملے وہی ہیں جو اصل میں کہے گئے تھے، "#text" سے شروع ہونے والے جملے وہی ہیں جو Whisper نے نقل کیے ہیں۔ تصویر: اے پی

محققین اور انجینئروں کا کہنا ہے کہ وسپر اکثر استعمال کے دوران فریب پیدا کرتا ہے۔ مثال کے طور پر، مشی گن یونیورسٹی کے ایک محقق نے کہا کہ اس نے 10 میں سے 8 ریکارڈنگز میں فریب پایا۔

ایک ابتدائی مشین لرننگ انجینئر نے 100 گھنٹے سے زیادہ Whisper ٹرانسکرپٹس میں سے تقریباً نصف میں ہیرا پھیری کا پتہ چلا جس کا اس نے تجزیہ کیا۔ ایک تیسرے ڈویلپر نے کہا کہ اس نے وسپر کے ساتھ تخلیق کردہ 26,000 ٹرانسکرپٹس میں سے تقریباً ہر ایک میں فریب پایا۔

مختصر، اچھی طرح سے ریکارڈ شدہ آڈیو نمونوں میں بھی یہ وہم برقرار رہتا ہے۔ کمپیوٹر سائنس دانوں کی ایک حالیہ تحقیق میں 13,000 سے زیادہ واضح آڈیو کلپس میں 187 تحریفات پائے گئے جن کی انہوں نے جانچ کی۔

محققین نے کہا کہ یہ رجحان لاکھوں ریکارڈنگز میں دسیوں ہزار غلطیوں کا باعث بنے گا۔

انسٹی ٹیوٹ فار ایڈوانسڈ سٹڈی کے سکول آف سوشل سائنسز کی پروفیسر ایلوندرا نیلسن نے کہا کہ ایسی غلطیوں کے "واقعی سنگین نتائج" ہو سکتے ہیں، خاص طور پر ہسپتال کی ترتیب میں۔

نیلسن نے کہا، "کوئی بھی غلط تشخیص نہیں کرنا چاہتا ہے۔

کورنیل یونیورسٹی کے پروفیسر ایلیسن کوینیک اور ورجینیا یونیورسٹی کی مونا سلوین نے ہزاروں مختصر اقتباسات کا جائزہ لیا جو انہوں نے کارنیگی میلن یونیورسٹی میں واقع ایک ریسرچ آرکائیو ٹاک بینک سے حاصل کیے ہیں۔ انہوں نے اس بات کا تعین کیا کہ تقریباً 40% ہیلوسینیشن نقصان دہ یا پریشان کن تھے کیونکہ بولنے والے کو غلط سمجھا یا غلط بیان کیا جا سکتا ہے۔

ایک ریکارڈنگ میں ایک اسپیکر نے "دو دوسری لڑکیوں اور ایک عورت" کو بیان کیا، لیکن وسپر نے اضافی نسلی تبصرے گھڑتے ہوئے، "دو دیگر لڑکیاں اور ایک عورت، ام، جو کالی تھی" کا اضافہ کیا۔

ایک اور نقل میں، وِسپر نے ایک غیر موجود دوا ایجاد کی جسے "اینٹی بایوٹکس وِد ایکٹیویٹی" کہا جاتا ہے۔

اگرچہ زیادہ تر ڈویلپرز تسلیم کرتے ہیں کہ ٹرانسکرپشن ٹولز غلط ہجے یا دیگر غلطیاں کر سکتے ہیں، انجینئرز اور محققین کا کہنا ہے کہ انہوں نے کبھی بھی AI سے چلنے والے ٹرانسکرپشن ٹول کو Whisper جیسا ہالوکینوجینک نہیں دیکھا۔

یہ ٹول OpenAI کے فلیگ شپ چیٹ بوٹ، ChatGPT کے کئی ورژنز میں مربوط ہے، اور یہ اوریکل اور مائیکروسافٹ کے کلاؤڈ کمپیوٹنگ پلیٹ فارم میں ایک مربوط سروس ہے، جو دنیا بھر میں ہزاروں کمپنیوں کو خدمات فراہم کرتی ہے۔ یہ متعدد زبانوں میں متن کو نقل کرنے اور ترجمہ کرنے کے لیے بھی استعمال ہوتا ہے۔

Ngoc Anh (اے پی کے مطابق)

ماخذ: https://www.congluan.vn/cong-cu-chuyen-giong-noi-thanh-van-ban-ai-cung-co-the-xuyen-tac-post319008.html