Щось, що ось-ось стане спогадом в Інтернеті.

Вибухове зростання контенту, пов'язаного зі штучним інтелектом, створило проблему довіри, оскільки суто людські дані стають дедалі менш доступними.

ZNews•09/06/2025

Суто людський контент входить до списку дефіцитних ресурсів в епоху штучного інтелекту. Фото: Advertising Week .

Поява ChatGPT у 2022 році спровокувала вибух контенту на базі штучного інтелекту в інтернеті. Gartner прогнозує, що до 2026 року 90% інтернет-контенту, включаючи текст, зображення та відео , буде генеруватися штучним інтелектом.

Штучний інтелект навчений розуміти людські думки. Однак, якщо більше немає чистих даних, створених людиною, ця технологія використовуватиме власну стару інформацію, як копіювальний апарат, який копіює сам себе.

Багато дослідників порівнюють оригінальний контент, створений людиною, зі своєрідною «чистою» сталлю сучасності, що еквівалентно рідкості та труднощі у пошуку. Вони побоюються, що якщо ніхто не зберігатиме копії даних до 2022 року, інтернет повністю втратить свою цілісність.

Історична катастрофа повторюється.

У пост-ядерну еру вчені виявили, що вся сталь, вироблена після 1945 року, була забруднена. Атомні бомби забруднили атмосферу радіацією, яка поширилася на метали, що вироблялися в цьому середовищі.

Це призвело до того, що значна частина сталі стала непридатною для високоточних вимірювальних приладів, таких як лічильники Гейгера та багато інших чутливих датчиків. Рішенням було вилучення старої сталі з військових кораблів, затонулих до війни, що лежали глибоко на дні океану, де вона не зазнала б впливу радіоактивних опадів.

Для розробників штучного інтелекту більшість моделей навчаються з використанням величезних наборів даних про людей, зібраних з Інтернету. Але якщо сучасне програмне забезпечення навчається на тексті, який воно генерувало в минулому, моделі ризикують дати збій, що розмиє їхню оригінальність та глибину.

Лінкор "Гінденбург", який затонув під час Першої світової війни, був піднятий. Фото: Reuters Connect.

За словами Вілла Аллена, віцепрезидента Cloudflare, компанії, яка керує однією з найбільших інтернет-мереж у світі , це робить контент, створений людиною, особливо той, що був створений до 2022 року, більш цінним. Він стверджує, що це допомагає моделям штучного інтелекту, а також суспільству в цілому, залишатися вкоріненими в спільній реальності. Без цієї основи все ускладнилося б.

Платформи особливо важливі у високотехнологічних галузях, таких як медицина, юриспруденція чи оподаткування. Наприклад, лікар повинен покладатися на контент, написаний експертами-людьми, та фактичні дослідження, а не на джерела, створені штучним інтелектом.

Ця загроза також стає реальністю. Через рік після запуску ChatGPT венчурний інвестор Пол Грем розповів, що йому доводилося шукати старіший контент для простого пошуку, щоб уникнути «SEO-приманки, створеної штучним інтелектом». Мальте Убл, технічний директор стартапу Vercel, що займається штучним інтелектом, відповів, що Грем, по суті, фільтрував інтернет на предмет контенту, «до того, як він був заражений штучним інтелектом».

Метт Рікард, колишній інженер Google, погоджується. Він написав у блозі 2023 року, що ШІ збирає дані з Інтернету, але дедалі частіше більша частина контенту в Інтернеті створюється самим ШІ. «Вихідні дані Chatner дуже важко виявити. Знайти навчальні дані, які не були підроблені ШІ, ставатиме дедалі складніше», – пояснив Рікард.

«Пошуки сталі на морському дні»

Відповідь на цю проблему полягає у збереженні згенерованої людиною версії даних з часів до буму штучного інтелекту. Одним із піонерів у цій галузі є Джон Грем-Каммінг, член правління та головний технічний директор Cloudflare.

Його проєкт, вебсайт LowBackgroundSteel.ai, містить перелік наборів даних, шляхів та медіафайлів, що існували до 2022 року. Одним із наведених прикладів є Arctic Code Vault від GitHub, архів програмного забезпечення з відкритим кодом, захований у покинутій вугільній шахті в Норвегії, який містить дані з лютого 2020 року.

Проєкт Грема-Каммінга зі збереження людських даних. Фото: Lowbackgroundsteel.ai.

Ще одним джерелом даних, яке він навів, був «wordfreq» – проект, який відстежує частоту використання слів в Інтернеті. Лінгвіст Робін Спір вів його до 2021 року.

«Покоління штучного інтелекту забруднило дані», – сказала Шпеєр. Вона навела приклад надмірної одержимості ChatGPT словом «delve», що призвело до його частішої появи останнім часом. Це спотворює дані в інтернеті, роблячи їх менш надійними у відображенні того, як люди пишуть і думають.

Моделі штучного інтелекту, частково навчені на синтезованому контенті, можуть пришвидшити робочі процеси та усунути нудьгу в творчих завданнях. Однак, окрім простої продуктивності, користувачам все ще може знадобитися покладатися на оригінальний контент, створений людиною, для точної оцінки, подібно до використання «низькопласної сталі» для точних вимірювань.

Вчені розробили різні методи виробництва сталі з використанням чистого кисню. За даними Business Insider , це нагадує нам, що збереження минулого може бути єдиним способом побудувати надійне майбутнє.

Джерело: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html