호치민시 기술대학의 두 학생이 적대적 훈련 방법을 사용하여 AI가 새로운 데이터를 생성하도록 하는 연구 결과를 세계 최고의 AI 학회인 AAAI에서 발표했습니다.
Pham Khanh Trinh과 23세의 Le Minh Khoi가 AI가 동의어를 생성하도록 훈련하기 위한 다국어 모델에 대한 연구를 진행한 내용이 2월 말 캐나다 밴쿠버에서 개최된 AAAI-24 인공지능 컨퍼런스 문서에 발표되었습니다.
호치민시 기술대학교 컴퓨터 과학 및 공학부 부학장인 Quan Thanh Tho 박사는 이를 칭찬할 만한 결과로 평가했습니다. 토 씨는 AAAI가 컴퓨터 과학과 인공지능 분야의 과학 컨퍼런스에서 연구자와 전문가에게 최고 수준으로 평가받고 있으며, 올해 논문 승인율은 23.75%로 매우 낮다고 말했습니다.
2023년 졸업 논문 심사 중인 민 코이와 칸 트린(가운데). 사진: 캐릭터 제공
딥러닝과 자연어 처리에 대한 열정을 공유하는 Trinh과 Khoi는 대규모 언어 모델(LLM)에 대한 연구를 선택했습니다. 두 사람 모두 LLM의 한계를 찾아내고 개선하고 싶어했습니다.
칸트린은 사용자에게 정확하고 다양한 응답을 생성하려면 Chat GPT 또는 LLM이 엄청난 양의 텍스트 데이터로 훈련되어야 한다고 말했습니다. 두 소년은 힌디어, 카자흐어, 인도네시아어와 같이 덜 일반적인 언어의 경우 Chat GPT와 LLM이 예상치 못한 결과를 가져오는 경우가 많다는 것을 깨달았습니다. 그 이유는 이런 언어들을 많이 공부하지 않았거나, 해당 언어를 배우기에 충분한 데이터가 없었기 때문입니다.
"왜 그 언어들의 '작은 리소스'로부터 더 많은 텍스트 데이터를 만들어서 AI를 더욱 훈련시키지 않는 건가요?" 두 남학생이 물었습니다. 이를 통해 Trinh과 Khoi가 연구한 적대적 학습 방법을 이용한 다국어 의역 모델인 LAMPAT 모델(적대적 학습을 이용한 다국어 의역을 위한 저순위 적응)이 탄생했습니다.
LAMPAT은 기존 입력 문장에서 동의어 문장을 생성하여 추가 텍스트 데이터를 생성할 수 있습니다. "적대적 학습" 설명은 대규모 언어 모델을 학습하는 비교적 새로운 접근 방식입니다. 기존의 학습 방법을 사용하면 입력 문장이 주어지면 애플리케이션은 출력 문장을 생성합니다. 하지만 적대적 학습을 사용하면 애플리케이션이 스스로를 수정하고, 출력 문장을 편집하고, "자기 자신과 경쟁"하여 더 많은 문장을 생성할 수 있습니다.
LAMPAT의 다국어 기능은 이 모델이 동시에 60개 언어를 통합한다는 사실에 있습니다. 수집된 데이터 세트를 기반으로 팀은 LAMPAT을 계속 훈련하여 동의어 문장을 생성했습니다. LAMPAT에서 생성된 텍스트 데이터의 양은 LLM에 대해 계속 학습될 것이며, 이를 통해 이러한 모델은 동일한 콘텐츠에 대한 정보를 표현하는 다양한 방법을 학습하여 정확할 확률이 더 높은 다양한 응답을 제공할 수 있습니다. 팀 대표는 이 기능을 통해 LAMPAT이 ChatGPT와 같은 애플리케이션에 통합되어 이 모델을 더욱 완벽하게 만들 수 있다고 믿습니다.
또한 Chat GPT나 LLM에 대한 데이터가 부족하여 일부 회사는 저작권 문제를 고려하지 않고 책, 신문, 블로그 등 외부 소스를 많이 찾아야 합니다. 칸트린에 따르면, 동의어를 만드는 것은 표절과 저작권 침해를 제한하는 한 가지 방법입니다.
Nam Sinh은 Chat GPT와 같은 애플리케이션의 예를 들었습니다. 사용자가 기존 텍스트 A의 요약을 요청하면 애플리케이션은 요약 텍스트 B를 생성합니다. 그룹의 연구 방법이 통합되어 텍스트 A를 수신하면 애플리케이션은 동의어 생성 메커니즘을 기반으로 동일한 내용의 여러 텍스트 A1, A2, A3을 생성한 후 이를 요약하여 사용자가 선택할 수 있는 여러 결과를 생성합니다.
연구 초기 단계에서 연구팀은 60개 언어에 대한 평가 데이터를 준비하는 데 어려움을 겪었습니다. 충분한 양의 데이터에 접근할 수 없었기 때문에 팀은 베트남어, 영어, 프랑스어, 독일어, 러시아어, 일본어, 중국어, 스페인어, 헝가리어, 포르투갈어, 스웨덴어, 핀란드어, 체코어를 포함하여 모델을 객관적으로 평가하기 위해 다양하고 완전한 13개 언어의 데이터 세트를 편집했습니다. 이는 최종 인간 평가(점수 매기기) 단계를 위한 신뢰할 수 있는 데이터 세트이기도 합니다.
민 코이(좌)와 칸트린(우)이 2023년 11월 졸업식 날 콴 탄 토 선생님과 기념사진을 찍었습니다. 사진: 캐릭터 제공
연구팀은 영어, 베트남어, 독일어, 프랑스어, 일본어 각각에 대해 무작위로 200개의 문장 쌍(한 쌍은 출력 문장과 올바른 라벨로 구성)을 추출하여 평가했습니다. 위의 각 언어에 대해 연구팀은 언어 전문가 5명에게 세 가지 기준(의미 보존, 단어 선택과 어휘 유사성, 유창성과 출력 문장의 일관성. 척도는 1점에서 5점까지 계산됩니다. 결과적으로, 이 5개 언어에 대한 언어 전문가의 평균 평가 점수는 4.2~4.6/5점 범위입니다.
이 예시에서는 4.4/5점을 받은 베트남어 문장 두 개를 보여줍니다. 입력 문장은 "그는 문제를 자세히 설명했습니다."이고 출력 문장은 "그는 문제를 자세히 설명했습니다."입니다.
하지만 품질이 좋지 않고 의미적 오류가 있는 문장 쌍도 있습니다. 예를 들어 "우리는 수프가 뜨거울 때 먹는다 - 우리는 뜨거울 때 수프를 먹는다"라는 문장 쌍은 5점 만점에 2점밖에 받지 못했습니다.
칸트린은 이 프로젝트를 조사하고 완료하는 데 8개월이 걸렸다고 말했습니다. 이는 또한 Trinh과 Khoi의 논문 주제이기도 합니다. 이 논문은 10점 만점에 9.72점을 받아 Computer Science Council 2에서 1위를 차지했습니다.
Quan Thanh Tho 씨에 따르면, LAMPAT은 여러 언어에 걸쳐 사람과 유사한 동의어 구문을 생성하는 데 능숙함을 보였지만, 다른 언어의 관용구, 민요, 속담을 처리하는 데는 여전히 개선이 필요하다고 합니다.
게다가 이 팀의 평가 데이터 세트에는 13개 언어만 포함되어 있어, 특히 소수 언어를 포함한 많은 언어가 여전히 제외되어 있습니다. 따라서 그룹은 현재 다국어 통역 모델의 역량을 강화하고 확장하기 위한 연구를 수행할 필요가 있습니다. 여기서 우리는 국가와 사람들 사이의 언어 장벽을 제거할 수 있습니다.
2023년 말에 Trinh과 Khoi는 각각 3.7과 3.9/4의 학점 평균(GPA)으로 컴퓨터 과학 학사 학위를 우등과 최우등으로 졸업했습니다. 두 사람 모두 해외에서 석사학위를 공부하고 인공지능과 머신러닝 분야의 연구를 진행할 계획입니다.
Trinh은 "우리는 LAMPAT을 다가올 과학 프로젝트에 더 많이 적용하고 사용자를 위한 신뢰할 수 있는 다국어 제품을 만드는 목표로 이 주제에 대한 연구를 계속하고 있습니다."라고 밝혔습니다.
르 응우옌
[광고_2]
소스 링크
댓글 (0)