OpenAI는 ChatGPT-4의 학습 방식에 대해 자세히 밝히지 않았습니다. 하지만 대규모 언어 모델(LLM)은 일반적으로 인터넷에서 스크래핑된 텍스트를 기반으로 학습되며, 영어가 공용어입니다. ChatGPT-3 학습 데이터의 약 93%는 영어였습니다.

AI 모델이 훈련된 데이터셋 중 하나인 커먼 크롤(Common Crawl)에서 영어는 전체 코퍼스의 47%를 차지하고, 다른 유럽 언어는 38%를 차지합니다. 반면 중국어와 일본어를 합치면 전체 코퍼스의 9%에 불과합니다.

스크린샷 2024 01 31 at 151709.png
LLM 교육에 사용되는 대부분의 데이터는 영어나 다른 유럽 언어로 되어 있습니다.

존스 홉킨스 대학교의 연구원인 나다니엘 로빈슨과 그의 동료들이 발견했듯이, 이는 ChatGPT에만 국한된 문제가 아닙니다. 모든 LLM은 학습 데이터가 풍부한 "고자원" 언어에서 학습 데이터가 부족한 "저자원" 언어보다 더 나은 성과를 보였습니다.

이는 교육 부터 의료까지 모든 것을 개선하기 위해 AI를 빈곤국에 도입하고자 하는 사람들에게는 어려운 문제입니다. 따라서 전 세계 연구자들은 AI를 더욱 다국어로 활용하기 위해 노력하고 있습니다.

작년 9월, 인도 정부는 농부들이 정부로부터 유용한 정보를 계속 받아볼 수 있도록 돕는 챗봇을 출시했습니다.

챗봇 구축에 참여한 비영리 단체인 엑스텝 재단(EkStep Foundation)의 샹카르 마루와다(Shankar Maruwada)는 이 챗봇이 두 가지 유형의 언어 모델을 결합하여 사용자가 모국어로 질문을 제출할 수 있도록 한다고 설명했습니다. 이렇게 제출된 모국어 질문은 인도 연구 시설의 기계 번역 소프트웨어로 전달되어 영어로 번역된 후, LLM으로 전달되어 처리됩니다. 마지막으로, 응답은 사용자의 모국어로 다시 번역됩니다.

이 과정은 효과적일 수 있지만, 질의를 LLM의 "선호하는" 언어로 번역하는 것은 불편한 해결책입니다. 언어는 문화와 세계관을 반영합니다. 시드니 대학교 연구원인 레베카 존슨이 2022년에 발표한 논문에 따르면, ChatGPT-3는 총기 규제 및 난민 정책과 같은 주제에 대한 답변을 생성했는데, 이러한 답변은 세계 가치 조사(World Values Survey)에서 표현된 미국적 가치와 유사한 것으로 나타났습니다.

결과적으로 많은 연구자들이 덜 사용되는 언어에 능통한 LLM을 만들기 위해 노력하고 있습니다. 기술적으로 한 가지 방법은 해당 언어의 토크나이저를 수정하는 것입니다. 인도의 스타트업 Sarvam AI는 힌디어에 최적화된 토크나이저, 즉 OpenHathi 모델을 개발했습니다. 이는 데바나가리(인도어) 언어에 최적화된 LLM으로, 질문에 대한 답변 비용을 크게 줄일 수 있습니다.

또 다른 방법은 LLM 학습에 사용되는 데이터셋을 개선하는 것입니다. 11월, 아부다비 모하메드 빈 자이드 대학교 연구팀은 "Jais"라는 아랍어 모델의 최신 버전을 출시했습니다. 이 모델은 ChatGPT-3 모델의 매개변수 수의 6분의 1에 불과하지만 아랍어 모델과 동등한 성능을 보입니다.

모하메드 빈 자이드 대학교 총장인 티모시 볼드윈은 자신의 팀이 아랍어 텍스트를 상당 부분 디지털화했지만, 일부 영어 텍스트도 모델에 포함되어 있다고 언급했습니다. 어떤 개념은 모든 언어에서 동일하며 어떤 언어로든 학습할 수 있습니다.

세 번째 접근법은 모델이 학습된 후 미세 조정하는 것입니다. Jais와 OpenHathi는 모두 사람이 생성한 여러 개의 질의응답 쌍을 사용합니다. 이는 잘못된 정보 유포를 방지하기 위해 서양 챗봇에도 동일하게 적용됩니다.

중국 주요 기술 기업인 바이두의 LLM(학습자격시험)인 어니 봇(Ernie Bot)은 정부에 불쾌감을 줄 수 있는 발언을 제한하도록 수정되었습니다. 이 모델은 사용자의 피드백을 통해 학습할 수도 있으며, 사용자가 LLM의 답변을 평가합니다. 하지만 저개발 지역의 많은 언어에서는 기계의 답변을 평가할 자격을 갖춘 전문가를 고용해야 하기 때문에 이러한 학습이 어렵습니다.

(이코노미스트에 따르면)

미국 육군, AI를 활용해 중요 광물 가격 추산 미국 육군은 니켈, 코발트 및 기타 중요 광물의 가격을 추산하고 공급을 예측할 수 있는 컴퓨터 프로그램을 개발할 계획입니다.