인터넷상의 추억으로 남게 될 무언가.

인공지능 콘텐츠의 폭발적인 증가는 순수 인간 데이터가 점점 부족해짐에 따라 신뢰성 문제를 야기하고 있다.

ZNews•09/06/2025

인공지능 시대에 순수하게 인간이 만든 콘텐츠는 희소 자원 목록에 올라 있습니다. 사진: 애드버타이징 위크

2022년 ChatGPT의 등장으로 인터넷 전반에 걸쳐 AI 기반 콘텐츠가 폭발적으로 증가했습니다. 가트너는 2026년까지 텍스트, 이미지, 비디오를 포함한 인터넷 콘텐츠의 90%가 AI에 의해 생성될 것으로 예측합니다.

인공지능은 인간의 사고를 이해하도록 훈련됩니다. 그러나 순수한 인간이 생성한 데이터가 더 이상 없다면, 이 기술은 마치 복사기가 자기 자신을 복사하듯이 기존의 정보를 사용하게 될 것입니다.

많은 연구자들은 인간이 직접 제작한 원본 콘텐츠를 현대의 '깨끗한' 강철에 비유하며, 희소성과 희귀성을 상징한다고 말합니다. 그들은 2022년 이전에 아무도 데이터 사본을 저장하지 않으면 인터넷이 완전히 무결성을 잃을 것을 우려합니다.

역사적인 재앙이 되풀이되고 있다.

핵무기 이후 시대에 과학자들은 1945년 이후 생산된 모든 강철이 방사능에 오염되었다는 사실을 발견했습니다. 원자폭탄이 대기를 방사능으로 오염시켰고, 그 방사능이 그 환경에서 생산된 금속으로 퍼져나간 것입니다.

이로 인해 많은 강철이 가이거 계수기나 기타 민감한 센서와 같은 고정밀 측정 장비에 사용할 수 없게 되었습니다. 해결책은 전쟁 전에 침몰하여 해저 깊은 곳에 가라앉아 방사능 낙진의 영향을 받지 않는 군함에서 오래된 강철을 회수하는 것이었습니다.

인공지능 개발자들은 대부분 인터넷에서 수집한 방대한 양의 인간 데이터를 활용하여 모델을 학습시킵니다. 하지만 오늘날의 소프트웨어가 과거에 생성한 텍스트를 기반으로 학습한다면, 모델이 오류를 일으켜 독창성과 깊이가 떨어질 위험이 있습니다.

제1차 세계 대전 중 침몰했던 전함 힌덴부르크호가 인양되었다. 사진: 로이터 커넥트.

세계 최대 인터넷 네트워크 중 하나를 운영하는 클라우드플레어의 부사장 윌 앨런에 따르면, 이러한 이유로 인간이 만든 콘텐츠, 특히 2022년 이전에 제작된 콘텐츠의 가치가 더욱 높아졌습니다. 그는 이러한 콘텐츠가 인공지능 모델뿐 아니라 사회 전체가 공유된 현실에 기반을 두는 데 도움이 된다고 주장합니다. 그러한 기반이 없다면 모든 것이 복잡해질 것이라는 설명입니다.

플랫폼은 의학, 법률, 세무와 같은 첨단 기술 분야에서 특히 중요합니다. 예를 들어, 의사는 인공지능이 생성한 자료가 아닌 인간 전문가가 작성한 콘텐츠와 사실에 기반한 연구 결과를 신뢰해야 합니다.

이러한 위협은 현실이 되어가고 있습니다. ChatGPT가 출시된 지 1년 후, 벤처 투자자 폴 그레이엄은 "AI가 생성한 SEO 미끼"를 피하기 위해 간단한 검색조차 예전 콘텐츠를 찾아야 했다고 회상했습니다. 이에 대해 AI 스타트업 버셀의 CTO인 말테 우블은 그레이엄이 사실상 "AI에 의해 오염되기 전에" 인터넷 콘텐츠를 걸러낸 것이라고 반박했습니다.

구글의 전 엔지니어였던 맷 리카드도 이에 동의합니다. 그는 2023년 블로그 게시물에서 AI가 인터넷에서 데이터를 수집하지만, 인터넷 콘텐츠의 상당 부분이 AI 자체에 의해 생성되고 있다고 지적했습니다. 리카드는 "채팅된 결과물은 탐지하기 매우 어렵습니다. AI에 의해 변조되지 않은 학습 데이터를 찾는 것은 점점 더 어려워질 것입니다."라고 설명했습니다.

"해저에서 강철을 찾는 작업"

이 문제에 대한 해답은 AI 붐 이전에 사람이 생성한 데이터를 보존하는 데 있습니다. 이 분야의 선구자 중 한 명은 클라우드플레어의 이사이자 최고 기술 책임자인 존 그레이엄-커밍입니다.

그의 프로젝트인 웹사이트 LowBackgroundSteel.ai는 2022년 이전에 존재했던 데이터 세트, 경로 및 미디어 목록을 제공합니다. 예를 들어, 노르웨이의 폐광에 묻혀 있는 오픈 소스 소프트웨어 아카이브인 GitHub의 Arctic Code Vault는 2020년 2월부터의 데이터를 보관하고 있습니다.

그레이엄-커밍의 인체 데이터 보존 프로젝트. 사진: Lowbackgroundsteel.ai.

그가 언급한 또 다른 데이터 소스는 온라인에서 단어 사용 빈도를 추적하는 프로젝트인 "wordfreq" 였습니다. 언어학자 로빈 스피어는 2021년까지 이 프로젝트를 관리했습니다.

"AI 세대가 데이터를 오염시켰습니다."라고 스피어는 말했습니다. 그녀는 ChatGPT가 "delve"라는 단어에 지나치게 집착하여 최근 그 단어가 더 많이 나타나는 것을 예로 들었습니다. 이는 인터넷상의 데이터를 왜곡하여 인간의 글쓰기와 사고방식을 제대로 반영하지 못하게 만듭니다.

합성 콘텐츠로 부분적으로 학습된 AI 모델은 워크플로 속도를 높이고 창작 작업의 지루함을 없앨 수 있습니다. 그러나 성능 향상 외에도 사용자는 정확한 평가를 위해 여전히 사람이 직접 제작한 원본 콘텐츠에 의존해야 할 필요가 있을 수 있습니다. 마치 정밀한 측정을 위해 "저급 강철"을 사용하는 것과 같습니다.

과학자들은 순수한 산소를 이용해 강철을 생산하는 다양한 방법을 개발해 왔습니다. 비즈니스 인사이더 에 따르면, 이는 과거를 보존하는 것이야말로 믿을 수 있는 미래를 건설하는 유일한 방법일 수 있음을 일깨워줍니다.

출처: https://znews.vn/thu-sap-thanh-hoai-niem-บahn-internet-post1559151.html