PV: 선생님, 인공지능을 훈련하는 데 있어서 데이터의 역할과 가치에 대해 말씀해 주시겠습니까?
다오 득 민: 인공지능의 성공은 데이터를 어떻게 선택하고, 수집하고, 처리하는지에 크게 좌우됩니다. 고품질 인공지능 모델을 훈련하기 위해, 우리는 종종 상당히 큰 데이터베이스에서 훈련을 시작합니다.
그런 다음, 모델을 배포하고 테스트할 때 지속적인 데이터 수집 및 처리가 모델 품질을 개선하고 완성하는 데 매우 중요한 역할을 하게 됩니다.
데이터는 양, 질, 다양성, 그리고 보편성 측면에서 기준을 충족해야 합니다. 예를 들어, 베트남 사람들을 위한 ViVi 가상 비서 제품을 개발하고 훈련시키는 과정에서, 저희는 다양한 지역, 연령, 성별의 수십만 명의 목소리로부터 수만 시간 분량의 고품질 데이터를 수집하고 처리해야 했습니다. 이 데이터에는 수백 개 분야에 걸친 콘텐츠가 포함되어 있었습니다.
원시 데이터는 여러 단계를 거쳐 정제, 라벨링 및 처리되어 AI 모델에 입력할 최고 품질의 데이터 소스를 생성하며, 이를 통해 ViVi의 정확도가 향상됩니다. 이 수치는 거의 최대치인 98% 이상에 도달합니다.
수천 시간 분량의 데이터를 수집하고 처리하는 것은 매우 비용이 많이 들고 복잡합니다. 하지만 고품질 인공지능을 구현하려면 양질의 데이터가 필요합니다. ChatGPT나 Bard(구글의 챗봇)는 모두 인터넷의 다양한 출처에서 수집된 방대한 데이터를 기반으로 학습됩니다.
AI가 성공하려면 방대하고 다양한 데이터 소스를 기반으로 학습하여 매우 정확한 결과를 도출해야 합니다. 반대로, 빅데이터를 분석하려면 AI를 활용하여 대규모 데이터를 정확하게 처리하고, 이를 통해 더욱 결정적이거나 예측 가능한 결과를 도출해야 합니다.
이는 인공지능과 빅데이터의 공명입니다.
PV: 머신 러닝을 위한 데이터 선정 및 수집 과정에 대해 설명해 주세요. 이 데이터는 어떻게, 어떤 출처에서 수집되나요? 특히 베트남 사용자에 대한 가장 많은 정보를 보유하고 있는 곳이 해외 기업(구글, 페이스북 등)의 소셜 네트워크 사이트인 경우 더욱 그렇습니다.
다오 득 민: 머신 러닝 모델을 위한 데이터 선택 및 수집 과정의 첫 번째 단계는 무엇이 좋은 선택인지 이해하는 것입니다. 빅데이터의 5V 모델을 참고할 수 있는데, 좋은 데이터 소스는 볼륨(Volume), 가치(Value), 다양성(Variety), 속도(Velocity), 진실성(Veracity)의 5가지 요소를 모두 포함합니다.
일반적으로 실용적인 응용 프로그램을 위한 최고의 AI 모델을 만들려면 좋은 데이터 소스는 여러 유사한 문제에 걸쳐 다양하고 보편적이어야 하며, 동시에 해당 응용 프로그램에만 국한되고 개별적이어야 합니다.
인적 데이터의 가장 큰 원천이 인터넷과 소셜 네트워크에 있다는 것은 사실입니다. 이러한 데이터 소스는 대부분 외국 기업이 소유하고 있습니다. 하지만 데이터는 다양한 출처에서 생성될 수 있으며, 베트남은 여전히 자체 데이터 소스에 접근할 수 있다는 이점을 가지고 있습니다. 게다가 베트남 국민만이 해결할 수 있는 데이터 문제도 있습니다. "베트남 데이터"의 특성을 이해하고, 베트남 국민의 요구와 특성을 이해하며, 이를 통해 기술을 성공적으로 적용하여 베트남 국민의 삶에 기여하는 것은 바로 우리입니다.
ViVi의 경우, VinBigData가 제시한 첫 번째 과제는 베트남인이 직접 만든, 베트남인을 위한 음성 비서 제품을 제공하는 것이었습니다. 즉, 베트남 데이터 소스를 완벽하게 파악하고 인공지능 기술과 결합하여 베트남인의 니즈를 최적으로 충족하는, 매우 적용 가능한 제품을 제공해야 합니다.
이러한 목표를 통해 학습을 위해 어떤 데이터 소스를 어디에서 수집해야 하는지 파악합니다. 이 데이터 소스는 반드시 웹에 있는 방대한 데이터 소스일 필요는 없습니다.
VinBigData는 베트남 데이터와 기술을 완벽하게 습득하고자 설립 이후 베트남인만을 위한 고유한 데이터 소스를 구축해 왔습니다. 저희가 보유한 총 데이터량은 3,500테라바이트가 넘습니다. 구체적으로는 베트남 내 수백만 명의 다지역 음성 데이터, 다양한 출처에서 수집된 200만 개 이상의 의료 영상, 베트남 내 여러 사물(사람, 차량, 사물)의 카메라 이미지 데이터 수백만 개, 그리고 수십 개의 다양한 다학제 데이터베이스 등이 있으며, 이러한 모든 데이터는 수집, 정제, 처리 및 분류되었습니다.
특히, 2021년에는 VinBigData의 전신인 빅데이터 연구소에서 발표한 '베트남 유전체 1000개 시퀀싱 프로젝트'를 발표하여 베트남 최대 유전체 데이터베이스를 보유한 기관 중 하나가 되었습니다. 이 연구 결과는 베트남의 미래 개인 맞춤 의료를 목표로 의사 및 유전학자 커뮤니티와 공유되어 왔으며, 앞으로도 공유될 예정입니다.
PV : 데이터 수집 후에는 어떻게 되며, 어떻게 표준화되나요? 데이터가 클수록 좋은가요?
다오 득 민: 말씀드렸듯이, 데이터 수집에 있어 규모는 중요한 요소 중 하나입니다. 하지만 다시 한번 강조하고 싶은 것은, 데이터를 명확하게 선별, 정리, 분류하지 않으면 빅데이터만으로는 충분하지 않다는 것입니다.
일반적으로 데이터는 수집(정형 및 비정형 데이터), 저장(데이터가 데이터베이스 시스템에 저장됨), 처리(필터링, 정제, 라벨링, 데이터 강화, 정보 추출/합성, 데이터 시각화 등의 일련의 단계 포함), 그리고 분석으로 이어지는 기본적인 처리 주기를 거칩니다. 이러한 과정은 AI 시스템의 개발 및 완성 과정에서 여러 번 반복될 수 있습니다.
중요한 것은 데이터가 삶에 어떤 가치를 가져다줄 것인가입니다. 이것이 바로 VinBigData가 약 5년간 제품 연구 및 개발을 통해 키워온 가치입니다. 기술이 실제로 삶에 적용되어 사회 문제를 해결하고 사람들의 삶을 개선할 때에만 연구가 진정한 성공을 거둘 수 있다고 믿습니다.
PV: 최근 저희가 자체 데이터 웨어하우스를 수집하고 구축하는 방식에 대해 많이 언급하셨습니다. 사용자 권리를 보장하기 위해 데이터 수집 및 사용의 경계를 정하는 기준은 무엇인가요?
다오 득 민(Dao Duc Minh) 씨: 데이터 수집 및 처리 과정에는 사용자와 기업을 보호하기 위한 법적 규정이나 보안 표준이 필요합니다. 베트남은 아직 사용자 데이터 보호를 위한 구체적인 표준을 구축하고 완성하는 과정에 있습니다.
세상에 는 이미 꽤 많은 표준이 존재합니다. 예를 들어, GDPR(유럽 연합의 사용자 데이터 보호 표준)이나 PCI-DSS(카드 결제 사용자 보호를 위한 표준)가 있습니다.
베트남 제품을 국제 시장에 대중화하거나 출시하려면 이러한 국제 표준을 준수하는 것이 매우 필요합니다.
VinBigData는 가까운 미래에 사용자의 권리를 보장하기 위해 데이터 수집 및 사용 과정의 투명성을 확보하고, 데이터 수집 및 사용 목적과 목표를 투명하게 공개하고자 노력합니다. 특히 개인이 소유한 데이터의 경우 더욱 그렇습니다.
현재 VinBigData는 사용자의 보안과 권리를 보장하기 위해 여러 국제 기구와 계약을 체결했습니다. 이후 기업과 정부 간의 합의를 통해 사용자 데이터 보호에 대한 법적 기준과 법적 통로를 조속히 구축할 수 있기를 기대합니다.
PV: 빅데이터를 보유하게 되면 인공지능은 어떤 위험이나 데이터 보안 취약점에 직면하게 될까요?
Dao Duc Minh 씨: 적절하게 사용하면 데이터는 귀중한 자산입니다. 데이터 손실 및 유출 위험은 초기 단계부터 보안 대책이 필요한 문제입니다.
무슨 일이 일어나기 전까지는 데이터 보안의 중요성을 제대로 이해하지 못하는 경우가 많습니다. 하지만 문제가 발생하면 그 피해는 엄청납니다. 최근 2억 명이 넘는 트위터 사용자의 데이터가 유출되었습니다. 사용자 정보는 여러 플랫폼에서 공개적으로 판매되었습니다. 만약 이 수백만 명의 사용자가 모두 소송을 제기한다면 트위터는 막대한 손실을 입게 될 것입니다.
데이터 유출이 순전히 기술적인 문제라면 피해는 보통 적습니다. 하지만 고의적인 데이터 유출과 관련된 경우, 그 결과는 매우 예측하기 어렵습니다. 개인의 경우, 악의적인 해커들이 유출된 정보를 다양한 불법적인 목적으로 악용할 수 있습니다. 기업의 경우, 정보 유출은 관련 문제 해결에 막대한 재정적 손실을 초래할 뿐만 아니라 시장에서의 평판과 브랜드 이미지에도 손상을 입힙니다.
PV : 이러한 취약점을 "패치"하고 데이터 보안을 강화하기 위해 어떤 솔루션이 필요합니까?
다오득민: 가장 유용하고 우선적인 해결책은 처음부터 예방하는 것입니다. 정보 보안과 안전을 보호하기 위한 장비를 구축하고, 다층적인 보호를 실시하고, 올바른 프로세스를 운영하는 것입니다.
특히 안전 및 보안 예방에는 여러 단계가 포함됩니다. 보안 및 안전 장비 투자 외에도, 사용자 및 데이터 처리 및 상호작용 프로세스를 구축하고, 엄격한 데이터 수명 주기 관리 프로세스를 확립하며, 동시에 사용자와 운영팀의 정보 보안 역량 및 인식을 향상시키고, 적절한 데이터 사용 권한(누가 어떤 데이터에 접근하고 사용할 권한이 있는지)을 부여해야 합니다.
반면, 기업은 데이터 보안 정책을 파악하고 유연하게 적용해야 하며, 각 데이터 유형의 민감도 수준과 보안 수준을 분류하여 적절한 보안 조치를 취해야 하며, 정보 보안 정책을 너무 엄격하게 기계적으로 적용하지 않아야 합니다. 이는 데이터 개발 및 활용 프로세스를 방해할 수 있습니다.
특히 개발에 데이터를 활용하는 부서의 경우, 데이터 분류가 더욱 중요합니다. 여러 부서 간에 데이터가 많이 순환되어야 하기 때문입니다.
기업은 최악의 상황에 대비해야 하며, 관련 전문가를 배치하여 피해를 최소화해야 합니다.
PV : 2023년은 데이터의 해가 될 것입니다. 베트남의 데이터 분야에서 강점과 약점은 무엇이며, 성공적인 디지털 데이터 시대를 위해 무엇을 준비해야 한다고 생각하십니까?
다오 득 민: 2023년은 베트남 디지털 데이터의 해가 될 것입니다. 장점으로 꼽자면, 데이터 활용에 있습니다. 베트남은 1억 명의 인구를 보유하고 있으며, 그중 스마트폰, 개인용 컴퓨터 등을 사용하는 젊은 세대의 비중이 높습니다. 이는 베트남에서 데이터를 활용하고 인공지능으로 해결해야 할 문제들을 제기하는 특징입니다. 두 번째 강점은 바로 인재입니다. 특히 베트남은 인공지능 분야에서 세계 최고 수준의 전문가들을 보유하고 있습니다. 또한, 베트남의 젊은 정보 기술 인력들은 수학에 대한 뛰어난 기반을 갖추고 있습니다. 이 두 가지 인재가 결합되어 국제 표준에 부합하는 제품을 만들어낼 수 있습니다.
데이터 표준화에 제약이 있습니다. 베트남에서는 각 지역, 각 기업, 각 행정 단위마다 데이터가 서로 다릅니다. 데이터가 표준화되지 않고, 단편화되어 있으며, 동기화되지 않았습니다. 또한 데이터 표준화를 위한 더욱 구체적인 법적 체계가 필요합니다.
성공적인 디지털 데이터의 해를 맞이하기 위해 베트남은 핵심을 파악하고 기술의 힘을 활용해야 합니다. 빅데이터와 인공지능의 조화는 베트남 디지털 데이터의 해를 이끌어갈 핵심 동력이 될 것입니다.
중앙에서 지방, 정부, 기업에 이르기까지 모든 계층의 데이터를 완벽하게 관리함으로써 베트남은 국가의 귀중한 디지털 자원을 "보존"할 수 있을 것입니다. 첨단 지능 기술과 결합하면 이 자원을 최대한 "활용"할 수 있을 것입니다.
"베트남 국민이 베트남 데이터를 소유한다"는 말은 베트남이 다음과 같은 상황을 피하는 데 도움이 됩니다. 자국의 자원으로 착취한 제품을 다시 사들이는 상황입니다.
현재, 특히 4차 산업혁명 시대에 베트남은 이전 혁명에 비해 많은 이점을 가지고 있습니다. 우리는 기술을 활용하여 세계 지도에서 국가의 위상을 빠르게 따라잡고 향상시킬 수 있는 기회를 가지고 있습니다. 이 목표를 더 빠르고 지속 가능하게 달성하는 열쇠는 바로 "데이터"와 "사람"이라고 생각합니다.
PV: 미국의 대형 인공지능 회사에서 일하셨는데, 왜 베트남으로 돌아오셨나요?
다오 득 민 씨: 2017년에 베트남으로 돌아왔습니다. 전환점이었다고 할 수 있습니다. 미국에서 근무하는 동안 여러 대형 정부 프로젝트에 참여했지만, 제가 얻은 결과는 대규모 처리 과정의 몇 단계에 불과한 경우가 많았습니다. 프로젝트의 보안 절차가 매우 엄격해서 제가 개발한 솔루션이 실제로 사용되었는지조차 알 수 없는 경우도 있었습니다.
베트남은 개발 단계에 있으며, 빅데이터와 인공지능 관련 문제들이 많이 해결되어야 합니다. 당시 저는 부 하 반 교수님으로부터 "베트남으로 돌아와 베트남 국민의 삶에 도움이 되는 베트남 기술 솔루션을 개발한다는 목표를 실현해 달라"는 제안을 받았습니다.
베트남에 남아 있으면 더 큰 영향을 미치는 문제들을 해결할 수 있을 거라고 생각합니다. 바로 이 점이 제 귀국을 훨씬 더 의미 있게 만드는 중요한 이유 중 하나입니다.
PV: 이런 대화를 나눠주셔서 감사합니다.
- 제작 기관 : Viet Anh - Hong Van
- 출연: Thi Uyen
- 사진: Thanh Dat
댓글 (0)