ব্যবসায়িক ভ্রমণ থেকে ফিরে আসা লোকজনের কোলাহলের মধ্যে বিমানবন্দরের ওয়েটিং হলের ভেতরে প্রবেশ করার সময়, হো মিন ডাক কয়েক সেকেন্ডের জন্য থেমে গেলেন, যখন তিনি শুনতে পেলেন যে একজন পরিচিত, মৃদু মহিলা কণ্ঠ সিস্টেমে একটি ঘোষণা পড়ছে।
ভিবিই-এর কর্মীরা হ্যানয়ের কোম্পানির সদর দপ্তরে কাজ করছেন - ছবি: এনভিসিসি
সে হাসল, স্বস্তি ও খুশি বোধ করছিল যেন সে কোন আত্মীয়ের সাথে দেখা করেছে। সেই "আত্মীয়" ছিল সেই ২০টি AI কণ্ঠের মধ্যে একটি যা নিয়ে Duc এবং Vbee টিম অনেক দিন এবং মাস ধরে "খেয়েছে এবং ঘুমিয়েছে", প্রতিটি শব্দ লাইনে তাদের সমস্ত হৃদয় ঢেলে দিয়েছে, কণ্ঠের প্রতিটি সূক্ষ্মতার যত্ন নিয়েছে যাতে সেগুলি আরও স্বাভাবিক এবং মানুষের মতো হয়ে ওঠে।
এলোমেলো স্টার্ট-আপ
ভিবি ডেটা সলিউশনস অ্যান্ড সার্ভিসেস জয়েন্ট স্টক কোম্পানির দুই প্রতিষ্ঠাতা - সিইও হো মিন ডুক এবং সিটিও নগুয়েন থি থু ট্রাং - কতবার এমন আনন্দ এবং গর্বের অনুভূতি অনুভব করেছেন তা আমি জানি না।
তারা বিভিন্ন পরিস্থিতিতে "বিশেষ পরিচিতদের" সাথে দেখা করেছে: স্কুলের লাউডস্পিকার সিস্টেমে স্পষ্ট কণ্ঠস্বর, ভবনগুলিতে উষ্ণ কণ্ঠস্বর, অথবা অনেক ব্যবসার স্বয়ংক্রিয় সুইচবোর্ড থেকে পেশাদার কণ্ঠস্বর।
ভিবি'র মস্তিষ্কপ্রসূতরা এখন আর কেবল অ্যালগরিদম এবং কোডের ফলাফল নয়, বরং বাস্তবে জীবনে প্রবেশ করছে, অনেক ক্ষেত্রে নীরব কিন্তু শক্তিশালী অবদান রাখছে।
বইয়ের ভূমিকা, সিনেমার ডাবিং থেকে শুরু করে স্বয়ংক্রিয় কল সেন্টারের ঘোষণা, Vbee ভয়েস প্রযুক্তিতে নতুন প্রাণ সঞ্চার করেছে।
মূল টিটিএস প্রযুক্তির "জননী" হিসেবে, ডঃ নগুয়েন থি থু ট্রাং সর্বদা ভিয়েতনামী স্পিচ সংশ্লেষণ প্রযুক্তি থেকে পণ্যগুলি বাস্তব ব্যবহারকারীদের কাছে পৌঁছে দিতে চান - যে প্রযুক্তিটি তিনি প্যারিস ১১ বিশ্ববিদ্যালয়ে তার ডক্টরেট থিসিসের পর থেকে অনেক প্রচেষ্টা করেছেন।
Vbee-এর প্রথম দিনগুলি ছিল কঠিন। প্রথম দুই বছর বিনামূল্যে থাকা সত্ত্বেও, এর টেক্সট-টু-স্পিচ (TTS) টুলটি কেবলমাত্র অল্প সংখ্যক ব্যবহারকারীকে আকৃষ্ট করেছিল। কিন্তু তারপরে COVID-19 একটি অপ্রত্যাশিত মোড় নেয়।
সামাজিক দূরত্বের কঠোর নিয়মকানুন মেনে চলার কারণে, FE ক্রেডিট, মোমো, ভিয়েতনাম ক্রেডিট, স্যাকমব্যাঙ্ক ... এর মতো ব্যবসাগুলিকে হাজার হাজার গ্রাহকের কাছে পৌঁছানোর উপায় খুঁজে বের করতে হয়েছিল। তখনই Vbee-কে সুযোগ দেওয়া হয়েছিল: ঋণের অনুস্মারক থেকে শুরু করে স্বয়ংক্রিয় প্রতিক্রিয়া পর্যন্ত, তাদের পণ্যগুলি তাৎক্ষণিকভাবে সর্বোত্তম সমাধান হয়ে ওঠে। সেই সময়ে, ভার্চুয়াল সহকারী এবং ভার্চুয়াল কল সেন্টারগুলি Vbee-এর রাজস্বের 80% পর্যন্ত নিয়ে আসত।
যখন মহামারী চলে গেল এবং বিশ্ব অর্থনীতি ভেঙে পড়ল, তখন Vbee একটি নতুন চ্যালেঞ্জের মুখোমুখি হল। জেনারেটিভ AI (GenAI) এবং ডিজিটাল কন্টেন্ট ট্রেন্ডের ঢেউ TTS টুলকে পুনরুজ্জীবিত করেছে। আজ, TikTok থেকে YouTube, Facebook, সর্বত্র Vbee-এর AI কণ্ঠস্বর দেখা যাচ্ছে।
"আজকের বেশিরভাগ TTS কন্টেন্ট আমাদের দ্বারা সরবরাহ করা হয়," মিঃ হো মিন ডুক গর্বের সাথে শেয়ার করেছেন। বর্তমানে, Vbee-এর প্রকৃত ব্যবহারকারীর সংখ্যা ২০ লক্ষ ছাড়িয়ে গেছে, এবং এই সংখ্যা এখনও প্রতি মাসে ২০% করে ক্রমাগত বৃদ্ধি পাচ্ছে।
Vbee ২০ টিরও বেশি উচ্চমানের কর্পোরেট ভয়েসকে প্রশিক্ষণ দিয়েছে, এবং যদি আপনি কাস্টম ভয়েস গণনা করেন, তাহলে তারা ২০০ টিরও বেশি বিভিন্ন AI ভয়েস তৈরি করেছে।
সম্প্রতি গবেষণা ও পরীক্ষিত নতুন ভয়েস ট্রান্সক্রিপশন প্রযুক্তির সাহায্যে, একটি নতুন ভয়েসকে প্রশিক্ষণের জন্য এখন মাত্র ৩ মিনিটের রেকর্ড করা ডেটার প্রয়োজন হয়, দুই বছর আগের মতো ৪ থেকে ডজন ঘন্টা রেকর্ডিং করতে হত না।
ভিবি ডেটা সলিউশনস অ্যান্ড সার্ভিসেস জয়েন্ট স্টক কোম্পানির দুই প্রতিষ্ঠাতা - সিইও হো মিন ডুক এবং প্রধান প্রযুক্তি কর্মকর্তা নগুয়েন থি থু ট্রাং - ছবি: এনভিসিসি
"আমরা ভিয়েতনামী ভাষা বুঝতে ভালো পারি"
স্পিচ সিন্থেসিস প্রযুক্তির প্রতিযোগিতায়, সিইও হো মিন ডুক এমন একটি সময় দেখতে পাচ্ছেন যখন প্রযুক্তিগত উদ্ভাবনের প্রচেষ্টা ধীরে ধীরে তাদের সীমায় পৌঁছে যাবে।
তার মতে, ভিবিই কেবল ভিয়েতনামী ভাষা প্রক্রিয়াকরণের জন্য মূল প্রযুক্তিই তৈরি করছে না, বরং ভিয়েতনামী ভাষা গভীরভাবে বোঝার জন্য সক্ষম একটি প্রযুক্তি ব্যবস্থাও তৈরি করছে - সমস্ত সূক্ষ্মতা, সুর এবং অনন্য সংস্কৃতি সহ যা কেবলমাত্র প্রকৃত ভিয়েতনামী মানুষই সম্পূর্ণরূপে বুঝতে পারে।
ভিয়েতনামের TTS বাজারে শীর্ষস্থানীয় হিসেবে, Vbee-এর দুই নেতা বিশ্বাস করেন যে তাদের টুলটি ভিয়েতনামী ভাষায় AI ভয়েস রিডিংয়ের মানদণ্ডে পরিণত হয়েছে। ব্যবহারকারীরা কেবল নির্ভুলতার প্রশংসা করেন না, Vbee-এর তৈরি প্রতিটি ভয়েসের "আবেগ"ও অনুভব করেন।
উদাহরণস্বরূপ, ভিয়েতনামী ভাষায়, "গলি" শব্দটির অঞ্চলভেদে অনেকগুলি ভিন্ন নাম রয়েছে যেমন "হেম", "কিম", "এক্সেক" - প্রতিটি শব্দের একটি আলাদা সূক্ষ্মতা রয়েছে যা এআই-এর বুঝতে হবে।
এটি অর্জনের জন্য, Vbee নমুনা ডেটাসেট সংগ্রহের পাশাপাশি AI প্রশিক্ষণের জন্য শক্তিশালী সার্ভার সিস্টেমে বিনিয়োগে ব্যাপক বিনিয়োগ করেছে।
"প্রতিটি আঞ্চলিক সূক্ষ্মতা সঠিকভাবে বুঝতে এবং প্রক্রিয়াজাতকরণে AI-কে সহায়তা করার জন্য, আমাদের অসংখ্য নমুনা সেট তৈরি করতে হয়েছিল, এবং প্রক্রিয়াকরণ সার্ভারের খরচও খুব বেশি ছিল," সিইও হো মিন ডুক শেয়ার করেছেন।
ডঃ নগুয়েন থি থু ট্রাং ভিয়েতনামী ভাষার অনন্য সুর এবং ব্যাকরণ বোঝার জন্য ভিবি'র মূল টিটিএস প্রযুক্তি নিয়ে ১৫ বছরেরও বেশি সময় ধরে গবেষণা করেছেন। তার কাছে, তার মাতৃভাষা হলো অভিব্যক্তিপূর্ণ সূক্ষ্মতায় পূর্ণ একটি সূক্ষ্ম জগৎ।
"আমার ভিয়েতনামী ভাষা খুবই জটিল এবং আকর্ষণীয়, এর সুরগুলো সবচেয়ে কঠিন এবং বিশ্বের অন্যান্য জনপ্রিয় ভাষার থেকে আলাদা। আমি যত বেশি ভাষা বুঝতে পারব, আমার মডেল তত বেশি নির্ভুল হবে," তিনি ব্যাখ্যা করলেন।
Vbee ধীরে ধীরে দাবি করছে যে প্রযুক্তির যুগে তারা সমন্বিত ভিয়েতনামী ভাষা প্রক্রিয়াকরণ সফ্টওয়্যার সহ সরঞ্জাম এবং ডিভাইসের একটি অপরিহার্য অংশ হয়ে উঠবে।
প্রতিটি শব্দে, প্রতিটি কণ্ঠে, Vbee টিম কেবল প্রযুক্তি গবেষণা এবং বিকাশ করে না বরং তাদের AI কণ্ঠে সত্যিকার অর্থে "ভিয়েতনামী আবেগ" তৈরি করার চেষ্টা করে।
Vbee নামটি "ভিয়েতনামী BE your Eyes" বাক্যাংশের সংক্ষিপ্ত রূপ, যা আমার প্রাথমিক ইচ্ছা থেকে এসেছে এমন একটি হাতিয়ার তৈরি করার যা দৃষ্টি প্রতিবন্ধীদের জন্য "চোখ" হয়ে ওঠে। কিন্তু বর্তমান উন্নয়নের ধারায়, যখন অনেকেই দেখার চেয়ে বেশি শোনার দিকে যেতে চান, তখন আমরা বিশ্বাস করি যে Vbeeও সকলের "চোখ" হয়ে উঠবে।
ডঃ নগুয়েন থি থু ট্রাং (হ্যানয় বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়ের তথ্য প্রযুক্তি ও যোগাযোগ স্কুলের প্রভাষক, ভিবি কোম্পানির প্রতিষ্ঠাতা ও প্রযুক্তি পরিচালক)
অডিওবুক প্রেমীদের সভা
ডঃ নগুয়েন থি থু ট্রাং এবং অন্ধ সম্প্রদায়ের মধ্যে সম্পর্কের মধ্য দিয়ে ভিবি'র জন্ম। ছাত্রাবস্থা থেকেই তিনি অডিওবুক রেকর্ডিং এবং অন্ধদের সহায়তা করার জন্য একজন ভিয়েতনামী পাঠক তৈরিতে অংশগ্রহণ করেছেন।
এই অভিজ্ঞতাগুলি তাকে ভিয়েতনামী পঠন সফ্টওয়্যার তৈরি করতে অনুপ্রাণিত করেছিল - যা Vbee-এর পূর্বসূরী। ২০১৮ সালে, তিনি এবং মিঃ হো মিন ডুক - হ্যানয় বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়ের সহপাঠী, যার Socbay.com প্রকল্প এবং অডিওবুক ডিজিটালাইজেশনের অভিজ্ঞতা ছিল - ভিয়েতনামে টেক্সট-টু-স্পিচের ক্ষেত্রে অগ্রণী, Vbee প্রতিষ্ঠা করেছিলেন।
ভিবি'র অসাধারণ অর্জন
- কোয়ালকম ভিয়েতনাম ইনোভেশন চ্যালেঞ্জ ২০২৪ এর প্রথম পুরস্কার
- টুওই ট্রে স্টার্ট-আপ অ্যাওয়ার্ড ২০২৩ এর বিশেষ পুরস্কার
- গ্র্যাব ভেঞ্চার ইগনাইট ২০২০ স্টার্টআপ অ্যাক্সিলারেশন প্রোগ্রামে স্টার্ট-আপ বিজয়ী
- ভিয়েতনামী প্রতিভা ২০১৮ এর প্রথম পুরস্কার, ভিয়েতনামী প্রতিভা ২০২০ এর দ্বিতীয় পুরস্কার
- তথ্য ও যোগাযোগ মন্ত্রণালয়ের জাতীয় ডিজিটাল রূপান্তর কর্মসূচি ২০২৫ - ২০৩০-এ ভিয়েতনামী মূল প্রযুক্তির সার্টিফিকেট
- ভিয়েতনাম ডিজিটাল মিডিয়া অ্যাওয়ার্ড ২০১৮ এবং ভিনগ্রুপ ফান্ড ২০১৯-এ বিজয়ী প্রকল্প।
আঞ্চলিক দৃষ্টিভঙ্গি
ভিয়েতনামের বাজারে তার অবস্থান নিশ্চিত করার পর, Vbee ২০২৬ সালের মধ্যে লাওস, থাইল্যান্ড, কম্বোডিয়া এবং ফিলিপাইনের মতো দেশগুলিতে তার TTS প্রযুক্তি আনার পরিকল্পনা নিয়ে দক্ষিণ-পূর্ব এশিয়ায় সম্প্রসারণের লক্ষ্যে রয়েছে।
ডঃ নগুয়েন থি থু ট্রাং-এর মতে, বহুভাষিক মডেলের আবির্ভাবের সাথে সাথে প্রযুক্তির দ্রুত অগ্রগতি অন্যান্য ভাষার জন্য টিটিএস সরঞ্জাম তৈরি করা সহজ করে তুলবে।
বর্তমানে, তিনি থাই, চীনা এবং ইংরেজি ভাষার জন্য বক্তৃতা প্রযুক্তি নিয়ে গবেষণা করছেন, যা আন্তর্জাতিক বাজারে Vbee-এর জন্য নতুন পদক্ষেপ উন্মোচন করছে।
[বিজ্ঞাপন_২]
সূত্র: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
মন্তব্য (0)