Vietnam.vn - Nền tảng quảng bá Việt Nam

인터넷 향수가 될 것 같은 것

AI 콘텐츠의 폭발적인 증가로 인해 순수한 인간 데이터가 점점 부족해지면서 신뢰 문제가 발생했습니다.

ZNewsZNews09/06/2025

AI 시대에는 순수하게 인간적인 콘텐츠가 부족합니다. 사진: Advertising Week .

2022년 ChatGPT의 등장은 인터넷 전반에 걸쳐 인공지능 콘텐츠의 폭발적인 증가로 이어질 것입니다. 가트너의 예측에 따르면, 2026년까지 텍스트, 이미지, 비디오를 포함한 인터넷 콘텐츠의 90%가 AI에 의해 생성될 것입니다.

AI는 인간의 사고를 이해하도록 훈련됩니다. 하지만 인간이 생성한 순수한 데이터가 없다면, 마치 복사기가 스스로를 복제하듯이 AI는 기존 정보를 그대로 사용하게 될 것입니다.

많은 연구자들은 인간이 생성한 원본 콘텐츠를 현대판 "깨끗한" 스틸, 즉 희귀하고 구하기 힘든 것에 비유합니다. 그들은 2022년 전까지 아무도 데이터 사본을 저장하지 않으면 인터넷이 순수성을 완전히 잃을 것이라고 우려합니다.

역사적 재난 재현

핵무기 이후 시대에 과학자들은 1945년 이후 생산된 모든 강철이 오염되었다는 사실을 발견했습니다. 원자폭탄은 대기를 방사능으로 오염시켰고, 그 방사능은 그 환경에서 생산된 금속으로 확산되었습니다.

이로 인해 가이거 계수기나 기타 민감한 센서와 같은 고정밀 측정 장비에 사용할 수 없는 강철의 상당 부분이 남게 됩니다. 해결책은 방사성 낙진의 영향을 받지 않는 심해 깊은 곳에 가라앉은 군함에서 오래된 강철을 인양하는 것입니다.

AI 개발자에게 대부분의 모델은 인터넷에서 수집된 방대한 양의 인간 데이터를 기반으로 학습됩니다. 하지만 오늘날의 소프트웨어가 과거에 생성한 텍스트로부터 학습한다면, 모델은 제대로 작동하지 않고 독창성과 깊이가 희석될 위험이 있습니다.

Noi dung dang tin cay anh 1

제1차 세계 대전 당시 침몰했던 전함 힌덴부르크호가 인양되었습니다. 사진: 로이터 커넥트

세계 최대 규모의 인터넷 네트워크 중 하나를 운영하는 클라우드플레어(Cloudflare)의 부사장 윌 앨런(Will Allen)은 "이러한 점이 특히 2022년 이전 인간이 생성한 콘텐츠의 가치를 더욱 높입니다."라고 말합니다. 그는 이러한 콘텐츠가 AI 모델과 사회 전체를 공통된 현실에 고정하는 데 도움이 된다고 말합니다. 이러한 기반이 없으면 상황이 복잡해집니다.

의학, 법률, 세무처럼 고도로 기술적인 분야에서는 배경 지식이 특히 중요합니다. 예를 들어, 의사는 AI가 생성한 자료가 아닌 인간 전문가가 작성한 콘텐츠와 실제 연구에 의존해야 합니다.

이러한 위험 또한 점점 더 현실화되고 있습니다. ChatGPT가 출시된 지 1년 후, 벤처 캐피털리스트 폴 그레이엄은 "AI가 생성하는 SEO 미끼"를 피하기 위해 간단한 검색만으로도 이전 콘텐츠를 찾아야 했다고 말했습니다. AI 스타트업 Vercel의 CTO인 말테 우블은 그레이엄이 사실상 "AI에 오염되기 전"의 콘텐츠를 인터넷에서 걸러내고 있다고 답했습니다.

전 구글 엔지니어인 맷 리카드도 이에 동의합니다. 그는 2023년 블로그 게시물에서 AI는 인터넷에서 정보를 얻지만, 인터넷의 콘텐츠는 점점 더 AI가 생성한다고 썼습니다. 리카드는 "챗봇의 출력은 감지하기 어렵습니다. AI에 의해 조작되지 않은 학습 데이터를 찾는 것은 점점 더 어려워질 것입니다."라고 설명했습니다.

"해저 강철 탐색"

이 문제에 대한 해답은 AI 붐이 일어나기 전에 인간이 생성한 데이터를 보존하는 데 있습니다. 이러한 선구자 중 한 명은 클라우드플레어(Cloudflare)의 이사회 멤버이자 CTO인 존 그레이엄-커밍(John Graham-Cumming)입니다.

그의 프로젝트인 웹사이트 LowBackgroundSteel.ai는 2022년 이전에 존재했던 데이터 세트, 링크, 미디어를 카탈로그화합니다. 한 가지 예로 GitHub의 Arctic Code Vault를 들 수 있는데, 이는 노르웨이의 버려진 석탄 광산에 묻힌 오픈 소스 소프트웨어 저장소로 2020년 2월부터 보관되어 왔습니다.

Noi dung dang tin cay anh 2

그레이엄-커밍의 인간 데이터 보존 프로젝트. 사진: Lowbackgroundsteel.ai.

그가 언급한 또 다른 데이터 소스는 "wordfreq"입니다. 이 프로젝트는 온라인에서 단어가 얼마나 자주 사용되는지 추적합니다. 언어학자 로빈 스피어는 2021년까지 이 프로젝트를 유지해 왔습니다.

스피어는 "생성 AI가 데이터를 오염시켰습니다."라고 말했습니다. 그녀는 최근 점점 더 자주 등장하는 "탐색(delve)"이라는 단어에 대한 ChatGPT의 집착을 예로 들었습니다. 이는 인터넷 데이터를 왜곡하여 인간의 글쓰기와 사고방식을 반영하는 데이터의 신뢰성을 떨어뜨립니다.

합성 콘텐츠를 부분적으로 학습한 AI 모델은 워크플로우 속도를 높이고 창작 작업의 지루함을 없앨 수 있습니다. 하지만 성능 외에도, 사용자는 정확한 판단을 내리기 위해 인간이 생성한 콘텐츠에 의존해야 할 가능성이 높습니다. 예를 들어, 정확한 측정을 위해 "저지대 강철"을 사용하는 것과 같습니다.

Business Insider 에 따르면 과학자들은 순수한 산소를 사용하여 강철을 만드는 다양한 방법을 개발했는데, 이는 과거를 보존하는 것이 신뢰할 수 있는 미래를 건설하는 유일한 방법일 수 있음을 일깨워 주는 사례입니다.

출처: https://znews.vn/thu-sap-thanh-hoai-niem-tren-internet-post1559151.html


댓글 (0)

No data
No data

같은 카테고리

베트남-폴란드, 다낭 하늘에 '빛의 교향곡' 그려
푸꾸옥처럼 아름다운 일몰을 감상할 수 있는 탄호아 해안 목조 다리가 화제를 모으고 있다.
수도의 여름 태양 아래 사각형 별을 든 여군과 남부 게릴라들의 아름다움
Cuc Phuong의 숲 축제 시즌

같은 저자

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품