هو مین دوک در میان شلوغی و ازدحام افرادی که از سفر کاری بازمیگشتند، وارد سالن انتظار فرودگاه شد و با شنیدن صدای زنانهی آشنا و آرامی که در حال خواندن اطلاعیهای روی سیستم بود، چند ثانیهای مکث کرد.
کارکنان Vbee در دفتر مرکزی شرکت در هانوی مشغول به کار هستند - عکس: NVCC
او لبخند زد، احساس آسودگی و خوشحالی کرد، انگار که یکی از اقوامش را ملاقات کرده باشد. آن «خویشاوند» یکی از 20 صدای هوش مصنوعی بود که دوک و تیم Vbee روزها و ماهها با آنها «خورده و خوابیده بودند»، تمام قلب خود را در هر خط صدا ریخته بودند، و از هر ظرافت صدا مراقبت میکردند تا آنها را طبیعیتر و شبیهتر به انسان کنند.
شروع پر فراز و نشیب
نمیدانم چند بار مدیرعامل، هو مین دوک، و مدیر ارشد فناوری، نگوین تی تو ترانگ، - دو بنیانگذار شرکت سهامی عام Vbee Data Solutions and Services - چنین احساس شادی و غروری را تجربه کردهاند.
آنها در موقعیتهای بسیار متفاوتی با «آشنایان خاص» ملاقات میکردند: صداهای واضح از بلندگوهای مدارس، صداهای گرم در ساختمانها، یا صداهای حرفهای از تابلوهای برق اتوماتیک بسیاری از مشاغل.
ایدههای Vbee دیگر صرفاً حاصل الگوریتمها و کدها نیستند، بلکه در واقع وارد زندگی شدهاند و سهم خاموش اما قدرتمندی در بسیاری از زمینهها دارند.
از معرفی کتاب، دوبله فیلم گرفته تا اعلانهای خودکار مرکز تماس، Vbee جان تازهای به فناوری صدا بخشیده است.
دکتر نگوین تی تو ترانگ، به عنوان «مادر» فناوری اصلی TTS، همواره آرزو دارد محصولاتی از فناوری سنتز گفتار ویتنامی - فناوریای که از زمان پایاننامه دکترای خود در دانشگاه پاریس ۱۱ تلاش زیادی برای آن کرده است - را به کاربران واقعی ارائه دهد.
روزهای اولیه Vbee پر فراز و نشیب بود. با وجود رایگان بودن در دو سال اول، ابزار تبدیل متن به گفتار (TTS) آن تنها گروه کوچکی از کاربران را جذب کرد. اما سپس کووید-۱۹ به یک نقطه عطف غیرمنتظره تبدیل شد.
در مواجهه با مقررات سختگیرانه در مورد فاصلهگذاری اجتماعی، کسبوکارهایی مانند FE Credit، Momo، Viet Credit، Sacombank ... مجبور شدند راههایی برای دسترسی به هزاران مشتری پیدا کنند. در آن زمان بود که به Vbee فرصت داده شد: از یادآوری بدهی گرفته تا پاسخهای خودکار، محصولات آنها به سرعت به راهحل بهینه تبدیل شدند. در آن زمان، دستیاران مجازی و مراکز تماس مجازی تا ۸۰ درصد از درآمد Vbee را به خود اختصاص میدادند.
وقتی همهگیری کرونا تمام شد و اقتصاد جهانی رو به رکود رفت، Vbee با چالش جدیدی روبرو شد. موج هوش مصنوعی مولد (GenAI) و روندهای محتوای دیجیتال، ابزار TTS را احیا کرد. امروزه، از تیکتاک گرفته تا یوتیوب و فیسبوک، صدای هوش مصنوعی Vbee در همه جا شنیده میشود.
آقای هو مین دوک با افتخار گفت: «بسیاری از محتوای TTS امروزه توسط ما ارائه میشود.» در حال حاضر، تعداد کاربران واقعی Vbee از ۲ میلیون نفر فراتر رفته است و این تعداد همچنان هر ماه به طور پیوسته ۲۰ درصد در حال افزایش است.
Vbee بیش از ۲۰ صدای شرکتی با کیفیت بالا را آموزش داده است، و اگر صداهای سفارشی را هم حساب کنیم، آنها بیش از ۲۰۰ صدای هوش مصنوعی مختلف ایجاد کردهاند.
با فناوری جدید رونویسی صدا که اخیراً مورد تحقیق و آزمایش قرار گرفته است، اکنون یک صدای جدید فقط به ۳ دقیقه داده ضبط شده برای آموزش نیاز دارد، در حالی که دو سال پیش این زمان برای آموزش به ۴ تا دهها ساعت ضبط صدا نیاز بود.
مدیرعامل هو مین دوک و مدیر ارشد فناوری نگوین تی تو ترانگ - دو بنیانگذار شرکت سهامی عام Vbee Data Solutions and Services - عکس: NVCC
«ما در درک زبان ویتنامی بهتر هستیم»
در رقابت برای فناوری سنتز گفتار، مدیرعامل هو مین دوک زمانی را میبیند که تلاشهای نوآوری فناوری به تدریج به محدودیتهای خود میرسند.
به گفته او، Vbee نه تنها در حال توسعه فناوری اصلی برای پردازش گفتار ویتنامی است، بلکه در حال ساخت یک سیستم فناوری است که قادر به درک عمیق زبان ویتنامی است - با تمام ظرافتها، لحنها و فرهنگ منحصر به فردی که فقط مردم واقعی ویتنامی میتوانند به طور کامل آن را درک کنند.
دو رهبر Vbee، به عنوان پیشرو در بازار TTS در ویتنام، معتقدند که ابزار آنها به استانداردی برای خواندن صدای هوش مصنوعی برای ویتنامیها تبدیل شده است. کاربران نه تنها از دقت آن قدردانی میکنند، بلکه «احساس» را در هر صدایی که توسط Vbee توسعه داده شده است، حس میکنند.
برای مثال، در ویتنامی، فقط یک کلمه "alley" بسته به منطقه نامهای مختلفی دارد، مانند "hem"، "kiem"، "xec" - هر کلمه تفاوت ظریفی دارد که هوش مصنوعی باید آن را درک کند.
برای دستیابی به این هدف، Vbee سرمایهگذاری هنگفتی در جمعآوری مجموعه دادههای نمونه و همچنین سرمایهگذاری در سیستمهای سرور قدرتمند برای آموزش هوش مصنوعی انجام داده است.
هو مین دوک، مدیرعامل، به اشتراک گذاشت: «برای کمک به هوش مصنوعی در درک و پردازش صحیح هر نکته ظریف منطقهای، ما مجبور بودیم مجموعه نمونههای بیشماری بسازیم و هزینه سرور پردازش نیز بسیار بالا بود.»
دکتر نگوین تی تو ترانگ بیش از ۱۵ سال را صرف تحقیق در مورد فناوری اصلی TTS در Vbee کرده است تا لحنها و دستور زبان منحصر به فرد ویتنامی را رمزگشایی کند. برای او، زبان مادریاش دنیایی لطیف و پر از ظرافتهای بیانی است.
او توضیح داد: «زبان ویتنامی من بسیار پیچیده و جالب است، لحنها سختترین بخش آن هستند و با بسیاری از زبانهای رایج دیگر در جهان متفاوتند. هرچه بیشتر این زبان را بفهمم، مدل من دقیقتر خواهد بود.»
Vbee به تدریج ادعا میکند که آنها بخش جداییناپذیر ابزارها و دستگاههایی با نرمافزار پردازش زبان ویتنامی یکپارچه در عصر فناوری خواهند بود.
در هر کلمه، هر صدایی، تیم Vbee نه تنها در حال تحقیق و توسعه فناوری است، بلکه تلاش میکند تا یک «احساس ویتنامی» واقعی را در صداهای هوش مصنوعی خود ایجاد کند.
نام Vbee مخفف عبارت «ویتنامی، چشمانت را ببین» است که از تمایل اولیه من برای ساخت ابزاری که به «چشم» افراد کمبینا تبدیل شود، نشأت میگیرد. اما در روند توسعه فعلی، زمانی که بسیاری از مردم میخواهند به جای دیدن، به گوش دادن روی آورند، ما معتقدیم که Vbee نیز به «چشم» همه تبدیل خواهد شد.
دکتر نگوین تی تو ترانگ (مدرس دانشکده فناوری اطلاعات و ارتباطات، دانشگاه علوم و فناوری هانوی، بنیانگذار و مدیر فناوری شرکت Vbee)
گردهمایی علاقهمندان به کتابهای صوتی
Vbee از رابطه دکتر نگوین تی تو ترانگ و جامعه نابینایان متولد شد. او از دوران دانشجویی خود در ضبط کتابهای صوتی و توسعه یک کتابخوان ویتنامی برای حمایت از نابینایان مشارکت داشته است.
این تجربیات او را به توسعه نرمافزار خواندن ویتنامی - که سلف Vbee بود - ترغیب کرد. در سال ۲۰۱۸، او و آقای هو مین دوک - همکلاسیاش در دانشگاه علوم و فناوری هانوی با تجربه از پروژه Socbay.com و دیجیتالی کردن کتابهای صوتی - Vbee را تأسیس کردند، که پیشگام در زمینه تبدیل متن به گفتار در ویتنام است.
دستاوردهای برجسته Vbee
- جایزه اول چالش نوآوری کوالکام ویتنام ۲۰۲۴
- جایزه ویژه استارتاپ Tuoi Tre 2023
- استارتاپ برنده در برنامه شتابدهی استارتاپی Grab Venture Ignite 2020
- جایزه اول استعدادهای ویتنامی ۲۰۱۸، جایزه دوم استعدادهای ویتنامی ۲۰۲۰
- گواهی فناوری هسته ویتنام در برنامه ملی تحول دیجیتال 2025-2030 وزارت اطلاعات و ارتباطات
- پروژه برنده جایزه رسانه دیجیتال ویتنام ۲۰۱۸ و صندوق Vingroup 2019.
چشمانداز منطقهای
پس از تثبیت جایگاه خود در بازار ویتنام، Vbee قصد دارد تا سال ۲۰۲۶ به آسیای جنوب شرقی گسترش یابد و فناوری TTS خود را به کشورهایی مانند لائوس، تایلند، کامبوج و فیلیپین ارائه دهد.
به گفته دکتر نگوین تی تو ترانگ، پیشرفت سریع فناوری امروزه با ظهور مدلهای چندزبانه، توسعه ابزارهای TTS برای زبانهای دیگر را آسانتر خواهد کرد.
در حال حاضر، او در حال تحقیق در مورد فناوریهای گفتار برای زبانهای تایلندی، چینی و انگلیسی است و گامهای جدیدی را برای Vbee در بازار بینالمللی باز میکند.
منبع: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
نظر (0)