چیزی که قرار است در اینترنت تبدیل به خاطره شود.

انفجار محتوای هوش مصنوعی، مشکل اعتمادپذیری را ایجاد کرده است، زیرا داده‌های صرفاً انسانی به طور فزاینده‌ای کمیاب می‌شوند.

ZNews•09/06/2025

محتوای کاملاً انسانی در فهرست منابع کمیاب در عصر هوش مصنوعی قرار دارد. عکس: هفته تبلیغات .

ظهور ChatGPT در سال ۲۰۲۲ باعث انفجار محتوای مبتنی بر هوش مصنوعی در سراسر اینترنت شد. گارتنر پیش‌بینی می‌کند که تا سال ۲۰۲۶، ۹۰ درصد از محتوای اینترنت، از جمله متن، تصاویر و ویدیوها ، توسط هوش مصنوعی تولید خواهد شد.

هوش مصنوعی برای درک تفکر انسان آموزش دیده است. با این حال، اگر دیگر داده‌های خالص تولید شده توسط انسان وجود نداشته باشد، این فناوری از اطلاعات قدیمی خود استفاده خواهد کرد، مانند یک دستگاه فتوکپی که خودش را کپی می‌کند.

بسیاری از محققان، محتوای اصلی و تولید شده توسط انسان را با نوعی فولاد «تمیز» در دوران مدرن مقایسه می‌کنند، که معادل کمیابی و دشواری یافتن است. آنها نگرانند که اگر هیچ‌کس تا قبل از سال ۲۰۲۲ کپی‌هایی از داده‌ها را ذخیره نکند، اینترنت به‌طور کامل یکپارچگی خود را از دست خواهد داد.

یک فاجعه تاریخی تکرار می‌شود.

در دوران پس از جنگ هسته‌ای، دانشمندان کشف کردند که تمام فولاد تولید شده پس از سال ۱۹۴۵ آلوده بوده است. بمب‌های اتمی جو را با تشعشعات آلوده کرده بودند که به فلزات تولید شده در آن محیط نیز سرایت می‌کرد.

این امر منجر به غیرقابل استفاده شدن بخش زیادی از فولاد برای تجهیزات اندازه‌گیری با دقت بالا مانند شمارنده‌های گایگر و بسیاری از حسگرهای حساس دیگر شد. راه حل، بازیابی فولاد قدیمی از کشتی‌های جنگی غرق شده قبل از جنگ بود که در اعماق اقیانوس قرار داشتند، جایی که تحت تأثیر بارش رادیواکتیو قرار نمی‌گرفتند.

برای توسعه‌دهندگان هوش مصنوعی، اکثر مدل‌ها با استفاده از مجموعه داده‌های عظیم انسانی جمع‌آوری‌شده از اینترنت آموزش داده می‌شوند. اما اگر نرم‌افزار امروزی از متنی که در گذشته تولید کرده است، یاد بگیرد، مدل‌ها در معرض خطر خرابی قرار می‌گیرند و اصالت و عمق آنها کاهش می‌یابد.

کشتی جنگی هیندنبورگ که در جریان جنگ جهانی اول غرق شده بود، نجات داده شد. عکس: رویترز کانکت.

به گفته ویل آلن، معاون رئیس کلودفلر، که یکی از بزرگترین شبکه‌های اینترنتی جهان را اداره می‌کند، این امر باعث می‌شود محتوای تولید شده توسط انسان، به ویژه آن‌هایی که قبل از سال ۲۰۲۲ ایجاد شده‌اند، ارزشمندتر شوند. او استدلال می‌کند که این امر به مدل‌های هوش مصنوعی و همچنین جامعه به طور کلی کمک می‌کند تا در یک واقعیت مشترک استوار بمانند. بدون این پایه و اساس، اوضاع پیچیده می‌شود.

پلتفرم‌ها به ویژه در زمینه‌های فناوری پیشرفته مانند پزشکی، حقوق یا مالیات اهمیت دارند. به عنوان مثال، یک پزشک باید به محتوای نوشته شده توسط متخصصان انسانی و تحقیقات واقعی تکیه کند، نه به منابع تولید شده توسط هوش مصنوعی.

این تهدید نیز در حال تبدیل شدن به یک واقعیت است. یک سال پس از راه‌اندازی ChatGPT، پاول گراهام، سرمایه‌گذار خطرپذیر، تعریف کرد که برای جلوگیری از «طعمه سئو تولید شده توسط هوش مصنوعی»، مجبور شده است برای یک جستجوی ساده، محتوای قدیمی‌تر را جستجو کند. مالت اوبل، مدیر ارشد فناوری استارتاپ هوش مصنوعی ورسل، در پاسخ گفت که گراهام اساساً اینترنت را برای محتوا «قبل از اینکه توسط هوش مصنوعی آلوده شود» فیلتر می‌کرد.

مت ریکارد، مهندس سابق گوگل، با این نظر موافق است. او در یک پست وبلاگی در سال ۲۰۲۳ نوشت که هوش مصنوعی داده‌ها را از اینترنت جمع‌آوری می‌کند، اما به طور فزاینده‌ای، بخش زیادی از محتوای اینترنت توسط خود هوش مصنوعی ایجاد می‌شود. ریکارد توضیح داد: «تشخیص خروجی چتنر بسیار دشوار است. یافتن داده‌های آموزشی که توسط هوش مصنوعی دستکاری نشده باشند، به طور فزاینده‌ای دشوار خواهد شد.»

«جستجوی فولاد در بستر دریا»

پاسخ این مشکل در حفظ نسخه تولید شده توسط انسان از داده‌های قبل از رونق هوش مصنوعی نهفته است. یکی از پیشگامان در این زمینه جان گراهام-کامینگ، عضو هیئت مدیره و مدیر ارشد فناوری کلودفلر است.

پروژه او، وب‌سایت LowBackgroundSteel.ai، مجموعه داده‌ها، مسیرها و رسانه‌هایی را که قبل از سال ۲۰۲۲ وجود داشته‌اند، فهرست می‌کند. یک نمونه از این موارد، Arctic Code Vault گیت‌هاب است، یک آرشیو نرم‌افزار متن‌باز که در یک معدن زغال‌سنگ متروکه در نروژ دفن شده و از فوریه ۲۰۲۰ تاکنون داده‌ها را در خود جای داده است.

پروژه حفظ داده‌های انسانی گراهام-کامینگ. عکس: Lowbackgroundsteel.ai.

منبع داده دیگری که او به آن اشاره کرد «wordfreq» بود، پروژه‌ای که فراوانی استفاده از کلمات را به صورت آنلاین ردیابی می‌کند. زبان‌شناس رابین اسپیر آن را تا سال ۲۰۲۱ حفظ کرد.

اسپیر گفت: «نسل هوش مصنوعی داده‌ها را آلوده کرده است.» او به عنوان مثال به وسواس بیش از حد ChatGPT به کلمه «dev» اشاره کرد که منجر به افزایش ظهور آن در سال‌های اخیر شده است. این امر داده‌ها را در اینترنت تحریف می‌کند و باعث می‌شود که در انعکاس نحوه نوشتن و تفکر انسان‌ها کمتر قابل اعتماد باشد.

مدل‌های هوش مصنوعی که تا حدی بر اساس محتوای سنتز شده آموزش دیده‌اند، می‌توانند گردش کار را سرعت بخشیده و خستگی در کارهای خلاقانه را از بین ببرند. با این حال، فراتر از عملکرد صرف، کاربران ممکن است هنوز هم برای ارزیابی‌های دقیق به محتوای اصلی تولید شده توسط انسان نیاز داشته باشند، دقیقاً مانند استفاده از "فولاد سطح پایین" برای اندازه‌گیری‌های دقیق.

دانشمندان روش‌های مختلفی برای تولید فولاد با استفاده از اکسیژن خالص ابداع کرده‌اند. به گزارش بیزینس اینسایدر ، این موضوع به ما یادآوری می‌کند که حفظ گذشته ممکن است تنها راه برای ساختن آینده‌ای قابل اعتماد باشد.

منبع: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html