کار تحقیقاتی برای کمک به افزایش دقت مدلهای تشخیص گفتار در زمان واقعی (تشخیص گفتار خودکار جریانی) توسط لو دوی خان - مهندس "GenZ" از Zalo AI - برای اولین بار در کنفرانس علمی بینالمللی که در سپتامبر 2024 در یونان برگزار میشود، اعلام خواهد شد.
با موضوع « بهبود تشخیص گفتار جریانی با توجه به بافت زمانمحور و پوشش بافت پویای راست » ، مقاله تحقیقاتی مهندس هوش مصنوعی زالو متولد سال ۲۰۰۰، با کسب امتیاز تقریباً کامل - ۱۱/۱۲ امتیاز - از مرحله بررسی دقیق با بیش از ۲۰۰۰ مقاله شرکتکننده که قرار است در کنفرانس بینابینی به صورت شفاهی ارائه شوند، عبور کرد.
لی دوی خان گفت: « من بسیار مفتخرم که اولین مقاله علمی من توسط یک کنفرانس علمی معتبر مورد تقدیر قرار گرفت و من این فرصت را دارم که دستاوردهای تحقیقاتی ویتنام را به شرکتهای بزرگ فناوری، متخصصان و جامعه بینالمللی معرفی کنم .»
انتظار میرود این پروژه تحقیقاتی با راهنمایی دکتر چائو تان دوک - رئیس بخش تحقیق و توسعه در Zalo AI و مدرس دانشگاه علوم طبیعی (دانشگاه ملی شهر هوشی مین)، سهم مهمی در ارتقاء مدلهای تشخیص گفتار، افزایش دقت دیکته صوتی و تبدیل صدا به متن در برنامه Zalo داشته باشد.
دکتر چائو تان دوک گفت : « ترکیب تحقیقات بسیار کاربردی Zalo AI در قالب مقالات علمی و ارائه آنها در کنفرانسهای معتبر بینالمللی بسیار معنادار است. این کار نه تنها ظرفیت مهندسان ویتنامی را نشان میدهد، بلکه تمایل آنها را برای به اشتراک گذاشتن تجربیات و کمک به توسعه جامعه جهانی هوش مصنوعی نیز نشان میدهد. »
پیش از این، زالو این تحقیق را از اواخر سال ۲۰۲۳ در برنامه پیامرسان خود ادغام کرده بود و به بهبود قابل توجه دقت ویژگی «نوشتن پیام صوتی» کمک کرده بود. این ویژگی به کاربران امکان میدهد به جای تایپ دستی، پیامها را با صدا بنویسند و در زمان صرفهجویی کنند و در بسیاری از موقعیتهای استفاده، آن را راحتتر کنند. در عین حال، دقت این ویژگی در عمل به ۹۵٪ رسیده است. میزان نیاز به ویرایش مجدد متن پس از نوشتن با صدا از ۶.۴٪ به تنها ۴.۸٪ کاهش یافته است.
طبق آمار Zalo، اگرچه این ویژگی هنوز در مرحله آزمایش است، اما نزدیک به ۴.۵ میلیون پیام در روز ایجاد کرده و حدود ۳.۲ میلیون کاربر ماهانه را جذب کرده است (اطلاعات تا ژوئن ۲۰۲۴ بهروزرسانی شده است).
از زمان آغاز سفر پیشگامانه خود در تحقیقات هوش مصنوعی در سال ۲۰۱۷، زالو همواره به «توانمندسازی» نسل جوان اعتقاد داشته است. در حال حاضر، تا ۳۱٪ از کارمندان زالو متعلق به نسل Z هستند. در سال ۲۰۲۱، دو موضوع تحقیقاتی دیگر از تیم مهندسی هوش مصنوعی زالو مربوط به فناوری پردازش گفتار نیز در کنفرانس بینالمللی هوش مصنوعی آسیا و اقیانوسیه (PRICAI 2021) مورد تقدیر قرار گرفت. نکته قابل توجه این است که نویسندگان این دو موضوع، همگی محققان جوان زیر ۳۰ سال هستند.
Interspeech یک کنفرانس بینالمللی قدیمی، جامع و معتبر در زمینه پردازش گفتار است که توسط انجمن بینالمللی ارتباط گفتاری برگزار میشود. امسال، این کنفرانس با موضوع «گفتار و فراتر از آن » از ۱ تا ۵ سپتامبر ۲۰۲۴ در جزیره کوس (یونان) برگزار میشود.






نظر (0)