Pho GPT розшифровується як Pho - Generative Pre-Tranffected Transformer (генеративний попередньо навчений трансформатор) і є великим проектом мовної моделі, присвяченим в'єтнамській мові, реалізованим командою інженерів VinAI - членом корпорації Vingroup .
«Наздоганяємо» світові технології
Pho GPT використовує відкритий вихідний код замість власного програмного забезпечення, такого як ChatGPT від OpenAI. Це означає, що вихідний код Pho GPT є публічним, доступним, і користувачі можуть зробити свій внесок у розробку Pho GPT за допомогою користувацьких програм.
Згідно з представленням VinAI, Pho GPT має 7,5 мільярда параметрів, побудованих на платформі декодування Transformer. Ця модель навчена з нуля з використанням найсучасніших доступних методів, таких як механізм Flash Attention та екстраполяція довжини контексту AliBi.
Ці методи не лише допомагають Pho GPT глибше розуміти контекст, але й збільшують здатність програми до діалогу та природної взаємодії під час використання. Це робить модель універсальним та багатозадачним інструментом, здатним задовольнити різноманітні мовні потреби користувачів.
Пан Буй Хай Хунг, генеральний директор VinAI. |
Розповідаючи про значення народження Pho GPT, пан Буй Хай Хунг, генеральний директор VinAI, зазначив, що метою проєкту є розробка моделей, подібних до ChatGPT, для в'єтнамської мови та в'єтнамської культури. Pho GPT має здатність розуміти та писати в'єтнамською мовою у спосіб, який перевершує мовні технології попереднього покоління. Модель також навчається з нуля на основі в'єтнамських даних, незалежно від будь-яких інших моделей у світі, що забезпечує володіння передовими базовими технологіями для В'єтнаму.
Варто зазначити, що саме тоді, коли світ обговорював народження Chat GPT, через рік у В'єтнамі з'явилася Pho GPT. За словами пана Буй Хай Хунга, VinAI є піонером у Південно-Східній Азії, який запустив велику мовну модель з відкритим вихідним кодом. Кілька тижнів по тому аналогічний продукт було запущено в Сінгапурі.
Підвищення рівня штучного інтелекту у В'єтнамі
Результати порівняння версії Pho GPT-7B5-Instruct із закритим кодом ChatGPT (GPT-3.5-turbo) та іншими моделями з відкритим кодом показують, що Pho GPT посідає друге місце, поступаючись лише ChatGPT, у більшості категорій оцінювання.
Pho GPT має багато відмінностей порівняно з іншими мовними моделями, особливо ChatGPT. Він розроблений для природного розуміння та написання в'єтнамською мовою, що відображає контекст, граматику, словниковий запас та вирази в'єтнамців. Він може взаємодіяти з користувачами на теми, пов'язані з в'єтнамською культурою, історією, географією, суспільством, розвагами, спортом тощо.
Крім того, Pho GPT має відкритий вихідний код та гнучкий. Користувачі можуть розробляти індивідуальні та унікальні програми, особливо ті, що потребують високого рівня безпеки, не покладаючись на власні джерела програмного забезпечення.
Водночас, пріоритетом Pho GPT є також висока продуктивність та економія коштів завдяки навчанню з використанням найновіших методів оптимізації, що допомагає зменшити розмір та збільшити швидкість роботи програми. Pho GPT також може працювати на меншій обчислювальній платформі, що допомагає знизити витрати та заощадити ресурси.
Навчений на в'єтнамському сховищі даних обсягом до 41 ГБ, з яких 1 ГБ тексту Вікіпедії та варіанті обсягом 40 ГБ, який видалив дублікати з набору новинних даних, навчений використовувати бібліотеку llm-foundry від Mosaicml llm, Pho GPT може генерувати текстові фрагменти відповідно до запитів користувачів, такі як статті, вірші, пісні, есе, промови, вступи... Pho GPT також може створювати креативний, гумористичний контент, такий як короткі оповідання, коментарі, прислів'я, повідомлення, твіти, меми... Водночас він також веде діалоги з користувачами на різні теми, такі як поточні події, освіта, здоров'я, подорожі, кухня, спорт, розваги... Крім того, Pho GPT також може відповідати на запитання користувачів, надавати інформацію, поради, підтримку, відповідати на запитання...
Крім того, Pho GPT може перекладати тексти або типи текстів різного характеру, такі як офіційні, комерційні, академічні, літературні документи… з в'єтнамської на інші мови та навпаки.
Ще однією видатною особливістю Pho GPT є аналіз та обробка текстових абзаців, таких як підсумовування, класифікація, маркування, вилучення інформації, виявлення емоцій, виявлення помилок, покращення стилю письма...
Команда розробників Pho GPT заявила, що в майбутньому вони продовжать удосконалювати модель та розширювати проєкт на інші мови, особливо в регіоні Південно-Східної Азії.
«Народження Pho GPT знаменує собою перший випадок, коли В'єтнам отримав можливість «наздогнати» світ у цій передовій технологічній галузі та володіти великою мовною моделлю з відкритим вихідним кодом спеціально для в'єтнамців, оптимізованою для в'єтнамської мови, незалежно від світу. Це гордість Vin AI зокрема та в'єтнамців загалом», – додав представник VinAI.
Коментуючи потенціал та можливості розвитку Pho GPT найближчим часом, пан Тран Зуй Донг, заступник міністра планування та інвестицій, наголосив: «Штучний інтелект буде однією з галузей, у яких В'єтнам має великий потенціал для потужного розвитку та швидкого досягнення світового рівня. Міністерство завжди підтримуватиме та супроводжуватиме спільноту ШІ зокрема, науково-технічну спільноту загалом, щоб розвивати комплексну та динамічну інноваційну екосистему, що сприятиме загальному розвитку країни».
Джерело






Коментар (0)