Мало параметрів, багато даних

PaLM 2, остання модель великих мов програмування (LLM) від Google, анонсована минулого тижня, використовує майже вп'ятеро більше навчальних даних, ніж її попередниця 2022 року, що дозволяє їй виконувати складніше програмування, математичні обчислення та створювати контент.

На конференції розробників Google I/O пошуковий гігант представив PaLM 2 – мовну модель, навчену на 3,6 трильйонах токенів. Ці токени є послідовностями слів – будівельними блоками, що використовуються для навчання LLM передбачати наступне слово.

Попередня версія PaLM була випущена у 2022 році та була випущена в обсязі 780 мільярдів токенів.

Генеральний директор Google Сундар Пічаї на минулотижневій конференції Google I/O представив найновішу модель великої мови програмування компанії PaLM 2.

Хоча Google рекламує свої можливості штучного інтелекту в пошуку, електронній пошті, обробці текстів та електронних таблицях, компанія неохоче розкриває розмір або деталі своїх навчальних наборів даних. OpenAI також тримає в секреті деталі своєї останньої специфікації навчання LLM, GPT-4.

Технологічні компанії пояснюють це конкурентним характером свого бізнесу. Як Google, так і OpenAI змагаються у залученні користувачів за допомогою чат-ботів, а не традиційних пошукових систем.

Компактний, потужний, економічно вигідний

Google стверджує, що PaLM 2 менший за своїх попередників, навчаючись на 340 мільярдах параметрів порівняно з 540 мільярдами параметрів попередньої версії. Це показує, що технологія компанії стає ефективнішою у виконанні складних завдань.

Для досягнення цього PaLM 2 використовує нову техніку під назвою «розширена обчислювальна оптимізація», яка забезпечує «кращу загальну продуктивність, включаючи швидший висновок з меншою кількістю параметрів, що зменшує накладні витрати».

Найновіша модель штучного інтелекту Google, навчена понад 100 мовам, виконує різноманітні завдання для 25 функцій та продуктів, включаючи експериментальний чат-бот Bard. PaLM 2 доступний у чотирьох версіях залежно від розміру, від найменшої до найбільшої: Gecko, Otter, Bison та Unicorn.

Згідно з публічною документацією, PaLM 2 потужніший за будь-яку існуючу модель. LlaMA від Facebook, випущена в лютому, була навчена на 1,4 трильйонах токенів. Тим часом OpenAI востаннє публічно розкрив розмір навчальних даних для ChatGPT, версії GPT-3, з 300 мільярдами токенів.

Бурхливе зростання застосування штучного інтелекту викликало суперечки навколо цієї технології. Раніше цього року Ель-Махді Ель-Мхамді, старший науковий співробітник Google Research, пішов у відставку на знак протесту проти відсутності прозорості з боку пошукового гіганта.

Цього тижня генеральний директор OpenAI Сем Альтман також свідчив перед підкомітетом судової влади Сенату США з питань конфіденційності та технологій у контексті зростання популярності штучного інтелекту, де «батько» ChatGPT погодився із законодавцями, що необхідні нові правила для регулювання ШІ.

(За даними CNBC)

Джерело