То, что скоро станет лишь воспоминанием в интернете.

Взрывной рост количества контента, созданного с помощью ИИ, породил проблему доверия, поскольку данных, полученных исключительно от людей, становится все меньше.

ZNews•09/06/2025

В эпоху искусственного интеллекта контент, созданный исключительно людьми, входит в список дефицитных ресурсов. Фото: Advertising Week .

Появление ChatGPT в 2022 году вызвало взрывной рост контента, созданного с помощью ИИ, в интернете. Gartner прогнозирует, что к 2026 году 90% интернет-контента, включая текст, изображения и видео , будет генерироваться с помощью ИИ.

Искусственный интеллект обучен понимать человеческие мысли. Однако, если больше нет данных, созданных исключительно человеком, эта технология будет использовать свою собственную старую информацию, подобно самокопирующемуся устройству.

Многие исследователи сравнивают оригинальный контент, созданный человеком, с некой «чистой» сталью современности, эквивалентной редкости и сложности поиска. Они опасаются, что если до 2022 года никто не будет хранить копии данных, интернет полностью потеряет свою целостность.

Историческая катастрофа повторяется.

В постапокалиптическую эпоху ученые обнаружили, что вся сталь, произведенная после 1945 года, была загрязнена. Атомные бомбы загрязнили атмосферу радиацией, которая распространилась на металлы, произведенные в этой среде.

В результате большая часть стали оказалась непригодной для использования в высокоточном измерительном оборудовании, таком как счетчики Гейгера и многие другие чувствительные датчики. Решением стало извлечение старой стали с военных кораблей, затонувших до войны и лежащих на большой глубине на дне океана, где она не подвергалась бы воздействию радиоактивных осадков.

Для разработчиков ИИ большинство моделей обучаются с использованием огромных массивов данных, полученных от людей из интернета. Но если современное программное обеспечение обучается на тексте, сгенерированном им в прошлом, модели рискуют дать сбой, что приведет к снижению их оригинальности и глубины.

Поднято со дна линкор «Гинденбург», затонувший во время Первой мировой войны. Фото: Reuters Connect.

По словам Уилла Аллена, вице-президента Cloudflare, компании, управляющей одной из крупнейших в мире интернет-сетей, это делает контент, созданный людьми, особенно тот, который был создан до 2022 года, более ценным. Он утверждает, что это помогает моделям искусственного интеллекта, а также обществу в целом, оставаться в рамках общей реальности. Без этой основы все стало бы гораздо сложнее.

Платформы особенно важны в высокотехнологичных областях, таких как медицина, юриспруденция или налогообложение. Например, врачу следует полагаться на контент, написанный экспертами, и на фактические исследования, а не на источники, созданные искусственным интеллектом.

Эта угроза также становится реальностью. Через год после запуска ChatGPT венчурный инвестор Пол Грэм рассказал, что ему приходилось искать старый контент для простого поиска, чтобы избежать «SEO-приманки, созданной ИИ». Мальте Убл, технический директор стартапа Vercel, занимающегося разработкой ИИ, ответил, что Грэм, по сути, фильтровал интернет, «чтобы предотвратить его загрязнение ИИ».

Мэтт Рикард, бывший инженер Google, согласен с этим. В своем блоге 2023 года он написал, что ИИ собирает данные из интернета, но все чаще большая часть контента в интернете создается самим ИИ. «Вывод Chatner очень сложно обнаружить. Найти обучающие данные, которые не были изменены ИИ, станет все сложнее», — объяснил Рикард.

«Поиски стали на морском дне»

Решение этой проблемы заключается в сохранении созданной человеком версии данных, существовавших до бума искусственного интеллекта. Одним из пионеров в этой области является Джон Грэм-Камминг, член совета директоров и технический директор Cloudflare.

Его проект, веб-сайт LowBackgroundSteel.ai, содержит список наборов данных, путей и медиафайлов, существовавших до 2022 года. В качестве примера приводится Arctic Code Vault на GitHub — архив программного обеспечения с открытым исходным кодом, расположенный в заброшенной угольной шахте в Норвегии и содержащий данные с февраля 2020 года.

Проект Грэма-Камминга по сохранению человеческих данных. Фото: Lowbackgroundsteel.ai.

В качестве еще одного источника данных он упомянул проект «wordfreq» , отслеживающий частоту использования слов в интернете. Лингвист Робин Спир поддерживала его до 2021 года.

«Искусственный интеллект загрязнил данные», — сказала Спир. Она привела в пример чрезмерную увлеченность ChatGPT словом «delve» (погружаться), что привело к его частому появлению в последнее время. Это искажает данные в интернете, делая их менее надежными в отражении того, как пишут и думают люди.

Модели искусственного интеллекта, частично обученные на синтезированном контенте, могут ускорить рабочие процессы и устранить монотонность в творческих задачах. Однако, помимо повышения производительности, пользователям по-прежнему может потребоваться полагаться на оригинальный контент, созданный человеком, для точных оценок, подобно использованию «мелкодисперсной стали» для точных измерений.

Ученые разработали различные методы производства стали с использованием чистого кислорода. Как сообщает Business Insider , это напоминает нам о том, что сохранение прошлого может быть единственным способом построить надежное будущее.

Источник: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html.