매개변수는 적고 데이터는 많음

[광고_1]

지난주에 발표된 Google의 최신 대규모 언어 모델(LLM)인 PaLM 2는 2022년 이전 모델보다 약 5배 많은 양의 학습 데이터를 사용하여 더욱 고급 프로그래밍, 수학 및 콘텐츠 생성이 가능합니다.

Google I/O 개발자 컨퍼런스에서 Google은 3조 6천억 개의 토큰으로 학습된 언어 모델인 PaLM 2를 발표했습니다. 이 토큰은 단어 시퀀스로, LLM이 다음 단어를 예측하도록 학습하는 데 사용되는 기본 요소입니다.

PaLM의 이전 버전은 2022년에 출시되었으며 7,800억 개의 토큰으로 발행되었습니다.

지난 주 Google I/O 행사에서 Google CEO Sundar Pichai는 회사의 최신 대규모 언어 모델 PaLM 2를 소개했습니다.

구글은 검색, 이메일, 워드 프로세싱, 스프레드시트 분야에서 자사의 AI 역량을 과시해 왔지만, 학습 데이터 세트의 규모나 세부 정보를 공개하는 데는 소극적이었습니다. OpenAI 또한 최신 LLM 학습 알고리즘인 GPT-4의 세부 정보를 비밀로 유지하고 있습니다.

기술 기업들은 이러한 현상이 경쟁적인 사업 구조에서 비롯된다고 생각합니다. Google과 OpenAI는 기존 검색 엔진 대신 챗봇을 통해 사용자를 유치하기 위해 경쟁하고 있습니다.

컴팩트하고 강력하며 비용 효율적

구글은 PaLM 2가 이전 버전보다 크기가 작아, 이전 버전의 5,400억 개에 비해 3,400억 개의 매개변수로 학습한다고 밝혔습니다. 이는 구글의 기술이 복잡한 작업을 수행하는 데 더욱 효율적으로 기능하고 있음을 보여줍니다.

이를 달성하기 위해 PaLM 2는 "확장 컴퓨팅 최적화"라는 새로운 기술을 사용하는데, 이는 "더 적은 매개변수로 오버헤드를 줄여 더 빠른 추론을 포함한 더 나은 전반적인 성능"을 제공합니다.

100개 이상의 언어로 훈련된 구글의 최신 언어 AI 모델은 실험용 챗봇 Bard를 포함한 25개의 기능과 제품에 대해 다양한 작업을 수행하고 있습니다. PaLM 2는 크기에 따라 Gecko, Otter, Bison, Unicorn의 네 가지 버전으로 출시됩니다.

공개 문서에 따르면 PaLM 2는 기존 모델보다 훨씬 강력합니다. 2월에 출시된 페이스북의 LlaMA는 1조 4천억 개의 토큰으로 학습되었습니다. 한편, OpenAI는 GPT-3의 버전인 ChatGPT의 학습 데이터 크기를 3천억 개의 토큰으로 공개했습니다.

AI 애플리케이션의 폭발적인 증가는 이 기술을 둘러싼 논란을 불러일으켰습니다. 올해 초, 구글 리서치의 수석 과학자 엘 마흐디 엘 음디는 구글의 투명성 부족에 항의하며 사임했습니다.

이번 주에 OpenAI의 CEO인 샘 알트먼도 AI가 더욱 널리 퍼지고 있는 맥락에서 개인정보 보호와 기술에 대한 미국 상원 사법 소위원회에서 증언했는데, 이 자리에서 ChatGPT의 "아버지"는 AI를 관리하기 위해 새로운 규정이 필요하다는 의원들의 의견에 동의했습니다.

(CNBC에 따르면)

[광고_2]
원천