위의 세 저자 외에도 Zadie Smith, Stephen King, Rachel Cusk, Elena Ferrante 등이 있습니다. 많은 회사에서 AI 도구를 구축하는 데 활용하는 데이터 세트인 Books3에 대한 분석에 따르면 Meta와 Bloomberg를 포함하여 17만 권 이상의 도서가 위 모델에 입력되었습니다.
벨 후크스, 제니퍼 이건, 조지 손더스, 스테판 킹, 마가렛 애트우드, 제이디 스미스, 하루키 무라카미 등은 AI를 훈련하는 데 작품이 불법적으로 사용된 작가들 중 일부입니다.
따라서 ChatGPT와 같은 혁신적인 AI 애플리케이션은 사람처럼 텍스트를 이해하고 생성하도록 설계되었습니다. 이를 위해 시스템은 "훈련"을 위해 방대한 양의 텍스트를 필요로 합니다. 위에서 충격적인 진실을 밝힌 작가이자 프로그래머인 알렉스 라이스너에 따르면, 이러한 "입력"은 위키피디아나 온라인 문서와 같은 "오픈" 소스뿐만 아니라 고품질을 보장하기 위해 서적에서도 제공됩니다.
불법적으로 사용된 책의 수도 "공개"되었는데, 여기에는 마가렛 애트우드의 책 33권, 하루키 무라카미의 책 최소 9권, 벨 후크스의 책 9권, 조나단 프랜즌의 책 7권, 제니퍼 이건의 책 5권, 데이비드 그랜의 책 5권이 포함되었습니다.
Books3는 Meta의 대규모 언어 모델 중 하나인 LLaMA(가장 유명한 OpenAI의 ChatGPT)를 훈련하는 데 사용되었으며, 훈련 텍스트에서 학습한 패턴을 기반으로 콘텐츠를 생성합니다. 이 데이터셋은 Bloomberg의 BloombergGPT와 EleutherAI의 GPT-J를 훈련하는 데에도 사용되었으며, 다른 AI 모델에도 사용될 가능성이 "높습니다".
새롭게 공개된 Books3 도서는 약 3분의 1이 소설이고 3분의 2가 논픽션으로, 대부분 지난 20년 동안 출판되었습니다. 불법적으로 사용된 도서의 수도 "공개"되었는데, 여기에는 마거릿 애트우드의 33권, 무라카미 하루키의 최소 9권, 벨 훅스의 9권, 조너선 프랜즌의 7권, 제니퍼 이건의 5권, 데이비드 그랜의 5권이 포함됩니다.
위에 나열된 저자들 외에도 조지 손더스, 후노트 디아스, 마이클 폴란, 레베카 솔닛, 존 크라카우어의 책도 데이터세트에 포함되어 있습니다. 이 책들은 펭귄 랜덤 하우스에서 3만 권 이상, 하퍼콜린스에서 1만 4천 권, 맥밀런에서 7천 권, 옥스퍼드 대학교 출판부에서 1,800권, 그리고 베르소에서 600권 등 크고 작은 출판사에서 출간되었습니다.
기술 산업과 출판계 간의 싸움이 매우 가까워질 것으로 예측됩니다.
이는 지난달 세 명의 작가 사라 실버먼, 리처드 카드리, 크리스토퍼 골든이 자신들의 저작권이 있는 저작물이 "AI 도구 학습을 위한 입력 자료로 복제 및 사용되었다"고 주장하며 제기한 소송에 이은 것입니다. 분석 결과, 세 명의 원고의 저작물은 실제로 Books3의 일부였습니다.
AI 챗봇 ChatGPT를 개발한 OpenAI 역시 저작권이 있는 저작물을 기반으로 모델을 학습시켰다는 비난을 받고 있습니다. 이 데이터에 대한 단서는 OpenAI가 2020년에 발표한 보고서에서 찾을 수 있는데, 해당 보고서는 두 개의 "인터넷 기반 도서 출처"를 언급하고 있습니다. 그중 하나는 Books2로, 약 30만 권의 도서를 보유한 것으로 추정됩니다.
하지만 많은 사람들은 이렇게 많은 양의 자료가 있는 경우, 출처가 Library Genesis(LibGen)나 Z-Library와 같은 "다크 라이브러리"에서만 찾을 수 있다고 의심합니다. 이러한 라이브러리는 토런트 시스템을 통해 대량으로 데이터를 보호합니다. 이는 전 세계적 으로 많은 방문자를 보유한 무허가 도서의 출처로 알려져 있습니다.
Books3를 처음 만든 독립 AI 개발자 숀 프레서는 가디언과의 인터뷰 에서 저자들의 우려에 공감한다고 밝혔습니다. 그는 누구나 AI 도구를 개발하는 데 사용할 수 있는 데이터베이스를 만들었고, 대기업들이 이 기술을 장악하는 데 따른 위험을 우려한다고 말했습니다.
라이스너의 조사는 또한 The Pile이라는 거대한 데이터 세트를 밝혀냈는데, 여기에는 Books3 데이터는 물론 YouTube 자막과 유럽 의회 문서 등 다양한 출처의 문서도 포함되어 있습니다.
라이스너가 추출하고 분석한 파일 데이터는 AI를 훈련하는 데 사용된 불법 복제 작품의 규모와 다양성을 드러냈으며, 이로 인해 이 데이터의 출처와 합법성에 대한 윤리적 우려가 제기되었습니다.
라이스너는 또한 메타 대변인이 Books3 사용에 대한 언급을 거부했지만, EleutherAI의 CEO인 스텔라 비더먼은 GPT-J가 이 데이터 소스를 사용한 사실을 부인하지 않았다고 말했습니다.
블룸버그 대변인은 The Guardian 에 회사가 과거에 해당 데이터 세트를 사용한 적이 있다고 확인하면서 "우리는 Books3 데이터 세트를 다가올 BloombergGPT의 학습을 위한 입력으로 사용하지 않을 것"이라고 덧붙였습니다.
저작권이 있는 책을 AI 모델 훈련에 사용하는 것은 윤리, 저작권, 그리고 창작물의 미래에 대한 복잡한 문제를 제기합니다. AI 기술이 계속 발전함에 따라, 불법 콘텐츠가 입력 자료로 사용되는 문제는 더욱 균형 잡히고 합법적인 접근 방식을 요구하게 될 것입니다. 따라서 AI 개발의 "개방성"과 창작자의 권리 사이의 간극을 메우는 문제는 기술 발전이 지적 재산권을 희생시키지 않도록 균형을 맞춰야 합니다. 결과적으로 기술 산업과 출판계 사이에 갈등이 촉발될 수 있습니다.
[광고_2]
소스 링크
댓글 (0)