כשנכנס לאולם ההמתנה של שדה התעופה, בתוך המולת האנשים החוזרים מנסיעת עסקים, עצר הו מין דוק לכמה שניות כששמע קול נשי מוכר ועדין מקריא הודעה במערכת.
צוות Vbee עובד במטה החברה בהאנוי - צילום: NVCC
הוא חייך, חש הקלה ואושר כאילו פגש קרוב משפחה. אותו "קרוב משפחה" היה אחד מ-20 קולות הבינה המלאכותית שדוק וצוות Vbee "אכלו וישנו" איתם במשך ימים וחודשים רבים, שפכו את כל ליבם בכל שורת צליל, תוך הקפדה על כל ניואנס בקול כדי להפוך אותם לטבעיים ואנושיים יותר.
התחלה מהמורות
אני לא יודע כמה פעמים המנכ"ל הו מין דוק ומנהל הטכנולוגיה הראשי נגוין טי תו טראנג - שני מייסדי חברת Vbee Data Solutions and Services Joint Stock Company - חוו תחושה כזו של שמחה וגאווה.
הם פגשו "מכרים מיוחדים" במצבים רבים ושונים: קולות צלולים במערכות רמקולים של בתי ספר, קולות חמים בבניינים, או קולות מקצועיים ממרכזיות אוטומטיות של עסקים רבים.
ילדי המוח של Vbee אינם עוד רק תוצאה של אלגוריתמים וקודים, אלא נכנסים לחיים בפועל, ותורמים תרומות שקטות אך עוצמתיות לתחומים רבים.
החל מהקדמת ספרים, דיבוב סרטים ועד הכרזות אוטומטיות במוקדי שירות, Vbee הפיחה חיים חדשים בטכנולוגיית הקול.
כ"אם" של טכנולוגיית TTS הליבה, ד"ר נגוין טי טו טראנג תמיד שואפת להביא מוצרים מטכנולוגיית סינתזת הדיבור הוייטנאמית - הטכנולוגיה לה הקדישה מאמץ רב מאז עבודת הדוקטורט שלה באוניברסיטת פריז 11 - למשתמשים אמיתיים.
ימיה הראשונים של Vbee היו סוערים. למרות שהיה חינמי בשנתיים הראשונות, כלי הטקסט לדיבור (TTS) שלו משך אליו רק קבוצה קטנה של משתמשים. אבל אז מגפת הקורונה הפכה לנקודת מפנה בלתי צפויה.
לנוכח תקנות מחמירות בנושא ריחוק חברתי, עסקים כמו FE Credit, Momo, Viet Credit, Sacombank ... היו צריכים למצוא דרכים להגיע לאלפי לקוחות. אז ניתנה ל-Vbee ההזדמנות: מתזכורות חוב ועד תגובות אוטומטיות, המוצרים שלהם הפכו במהירות לפתרון האופטימלי. באותה תקופה, עוזרים וירטואליים ומוקדי שירות וירטואליים היוו עד 80% מהכנסותיה של Vbee.
כאשר המגפה חלפה והכלכלה העולמית קרסה, Vbee עמד בפני אתגר חדש. גל הבינה המלאכותית הגנרטיבית (GenAI) והמגמות של תוכן דיגיטלי החיו את כלי ה-TTS. כיום, מ-TikTok ועד YouTube ו-Facebook, קולות הבינה המלאכותית של Vbee מופיעים בכל מקום.
"הרבה מתוכן ה-TTS כיום מסופק על ידינו", שיתף בגאווה מר הו מין דוק. נכון לעכשיו, מספר המשתמשים בפועל של Vbee עבר את ה-2 מיליון, ומספר זה ממשיך לעלות בהתמדה ב-20% בכל חודש.
Vbee אימנה מעל 20 קולות תאגידיים איכותיים, ואם סופרים קולות מותאמים אישית, הם יצרו מעל 200 קולות בינה מלאכותית שונים.
בעזרת טכנולוגיית תמלול קולי חדשה שנחקרה ונבדקה לאחרונה, קול חדש זקוק כעת רק ל-3 דקות של נתונים מוקלטים כדי לאמן במקום 4 עד עשרות שעות הקלטה כמו לפני שנתיים.
המנכ"ל הו מין דוק ומנהל הטכנולוגיה הראשי נגוין טי ת'ו טראנג - שני מייסדי חברת Vbee Data Solutions and Services Joint Stock Company - צילום: NVCC
"אנחנו מבינים יותר טוב את הווייטנאמים"
במרוץ אחר טכנולוגיית סינתזת דיבור, מנכ"ל החברה, הו מין דוק, רואה זמן שבו מאמצי החדשנות הטכנולוגית יגיעו בהדרגה לקצה גבול היכולת שלהם.
לדבריו, Vbee לא רק מפתחת טכנולוגיית ליבה לעיבוד דיבור וייטנאמי, אלא גם בנתה מערכת טכנולוגית המסוגלת להבין לעומק את השפה הוייטנאמית - עם כל הדקויות, הטונים והתרבות הייחודית שרק אנשים וייטנאמים אמיתיים יכולים להבין במלואם.
כחברה מובילה בשוק TTS בווייטנאם, שני המנהיגים של Vbee מאמינים שהכלי שלהם הפך לסטנדרט לקריאת קול באמצעות בינה מלאכותית עבור וייטנאמים. המשתמשים לא רק מעריכים את הדיוק אלא גם חשים את ה"רגש" בכל קול שפותח על ידי Vbee.
בווייטנאמית, לדוגמה, למילה אחת בלבד "סמטה" יש שמות רבים ושונים בהתאם לאזור כמו "hem", "kiem", "xec" - לכל מילה יש ניואנס שונה שהבינה המלאכותית צריכה להבין.
כדי להשיג זאת, Vbee השקיעה רבות באיסוף מערכי נתונים לדוגמה וכן במערכות שרתים חזקות לאימון בינה מלאכותית.
"כדי לעזור לבינה מלאכותית להבין ולעבד כל ניואנס אזורי בצורה נכונה, היינו צריכים לבנות אינספור קבוצות דגימה, וגם העלות של שרת העיבוד הייתה גבוהה מאוד", שיתף המנכ"ל הו מין דוק.
ד"ר נגוין טי טו טראנג הקדישה יותר מ-15 שנים למחקר של טכנולוגיית ה-TTS המרכזית של Vbee כדי לפענח את הטונים והדקדוק הייחודיים של הוייטנאמית. עבורה, שפת האם שלה היא עולם עדין מלא ניואנסים אקספרסיביים.
"השפה הוייטנאמית שלי מאוד מורכבת ומעניינת, הטונים הם הנקודה הקשה ביותר ושונים משפות פופולריות רבות אחרות בעולם. ככל שאבין יותר את השפה, כך המודל שלי יהיה מדויק יותר", הסבירה.
Vbee טוענת בהדרגה שהם יהיו חלק בלתי נפרד מכלים ומכשירים עם תוכנת עיבוד שפה וייטנאמית משולבת בעידן הטכנולוגיה.
בכל מילה, בכל קול, צוות Vbee לא רק חוקר ומפתח טכנולוגיה אלא גם שואף ליצור "רגש וייטנאמי" אמיתי בקולות הבינה המלאכותית שלהם.
השם Vbee הוא קיצור של הביטוי "Vietnamese BE your Eyes", שמקורו ברצוני הראשוני לבנות כלי שיהפוך ל"עיניים" עבור כבדי ראייה. אבל במגמת הפיתוח הנוכחית, כאשר אנשים רבים רוצים לעבור להקשבה יותר מאשר לראות, אנו מאמינים ש-Vbee גם יהפוך ל"עיניים" של כולם.
ד"ר נגוין טי תו טראנג (מרצה בבית הספר לטכנולוגיית מידע ותקשורת, אוניברסיטת המדע והטכנולוגיה של האנוי, מייסד ומנהל טכנולוגי של חברת Vbee)
מפגש של חובבי ספרי שמע
Vbee נולדה מהקשר בין ד"ר נגוין טי טו טראנג לקהילת העיוורים. מאז ימי לימודיה, היא השתתפה בהקלטת ספרי שמע ופיתחה קורא וייטנאמי לתמיכה בעיוורים.
חוויות אלו עוררו בה השראה לפתח תוכנת קריאה וייטנאמית - קודמתה של Vbee. בשנת 2018, היא ומר הו מין דוק - חבר לכיתה באוניברסיטת המדע והטכנולוגיה של האנוי עם ניסיון מפרויקט Socbay.com ודיגיטציה של ספרי שמע - ייסדו את Vbee, חלוצה בתחום המרת טקסט לדיבור בווייטנאם.
ההישגים הבולטים של Vbee
- פרס ראשון בתחרות החדשנות של קוואלקום בווייטנאם 2024
- פרס מיוחד של פרס Tuoi Tre Start-up לשנת 2023
- סטארט-אפ מנצח בתוכנית האצת הסטארט-אפים Grab Venture Ignite 2020
- פרס ראשון בתחרות כישרונות וייטנאמיים 2018, פרס שני בתחרות כישרונות וייטנאמיים 2020
- תעודת טכנולוגיית ליבה וייטנאמית בתוכנית הלאומית לטרנספורמציה דיגיטלית 2025-2030 של משרד המידע והתקשורת
- פרויקט זוכה בפרס המדיה הדיגיטלית של וייטנאם 2018 ובקרן Vingroup 2019.
חזון אזורי
לאחר שביססה את מעמדה בשוק הווייטנאמי, Vbee שואפת להתרחב לדרום מזרח אסיה עם תוכניות להביא את טכנולוגיית ה-TTS שלה למדינות כמו לאוס, תאילנד, קמבודיה והפיליפינים עד 2026.
לדברי ד"ר נגוין טי תו טראנג, ההתקדמות המהירה של הטכנולוגיה כיום עם הופעתם של מודלים רב-לשוניים תקל על פיתוח כלי TTS עבור שפות אחרות.
כיום, היא חוקרת טכנולוגיות דיבור עבור תאילנדית, סינית ואנגלית, ופותחת צעדים חדשים עבור Vbee בשוק הבינלאומי.
[מודעה_2]
מקור: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm






תגובה (0)