Trang chủKhoa học - Công nghệCông nghệ sốTrí tuệ nhân tạo bước vào thế giới ngôn ngữ tiếng Việt

Trí tuệ nhân tạo bước vào thế giới ngôn ngữ tiếng Việt


Không chỉ giúp con người học ngôn ngữ, trí tuệ nhân tạo còn giúp các hệ thống hỗ trợ lý trí thông minh ngôn ngữ tốt hơn.

Kết hợp AI “dạy” tiếng Việt  

Lãnh đạo của một doanh nghiệp có vốn đầu tư trực tiếp nước ngoài (FDI) tại Việt Nam mong muốn học tiếng Việt nhanh, đọc được 90% nội dung của các văn bản thông thường. Vấn đề là, ông ấy quá bận rộn và chỉ có khoảng thời gian 1 tiếng (từ 12-13h mỗi ngày) để học. Vì vậy, cần áp dụng công nghệ vào phần mềm học ngôn ngữ sao để giúp ông ngoại ngữ nhanh? 

Trên đây là bài toán của vị trí lãnh đạo công ty FDI đặt ra với PGS.TS Đinh Điền, Giám đốc Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia TP.HCM. 

Là người có nhiều đề tài nghiên cứu khoa học và công trình công bố quốc tế về ứng dụng trí tuệ nhân tạo (AI) trong dịch máy, ngôn ngữ học phản bác và dạy tiếng Việt cho người nước ngoài, PGS Điền cho rằng, ứng dụng AI rất cần thiết để giải quyết các vấn đề trong ngôn ngữ học.  

Cụ thể, bước đầu tiên của việc học bất kỳ ngôn ngữ nào là dạy ngôn ngữ âm thanh. Rào cản ở đây là tiếng Việt có thanh điệu, có điệu, khi dạy cho những người học thuộc hệ ngôn ngữ không có thanh điệu như người Anh, người Pháp… sẽ rất khó. Đơn cử, thay vì hỏi: “Bạn đi ngủ chưa?” thì người học sẽ nói “Bạn đi ngu chưa?”, bởi họ không phân biệt được thanh điệu. Cần dạy họ đặt trò chơi ở đâu khi phát âm, khẩu hình ngậm ra sao, phát âm ra đúng hay sai khác nhau như thế nào.  

Lúc này, phần mềm ứng dụng AI trong dạy ngoại ngữ có thể mô phỏng khẩu hình đánh răng, phát âm thanh sẵn để người học bắt chước. Sau đó, người học tập phát lại âm thanh, thu vào phần mềm, sử dụng công nghệ đối chiếu giữa phát âm của người học và phát âm chuẩn từ phần mềm, cải thiện khả năng phát âm nhanh. Tất cả các công đoạn trên đều bắt buộc phải ứng dụng AI.  

Một dẫn chứng khác, theo Từ điển tiếng Việt của Viện Ngôn ngữ học do cố Giáo sư Hoàng Phê chủ biên, vốn từ gốc tiếng Việt có khoảng 34.000 từ, tính toán cho thấy, cần dạy khoảng 10% lượng từ cho máy, tương đương với 3.400 từ thông tin ứng dụng, là máy có thể đọc được khoảng 90% văn bản tiếng Việt thông thường. Để có được bảng thống kê dữ liệu này, PGS Điền buộc phải sử dụng AI, gắn nhãn lên hệ thống từ vựng trong kho ngữ liệu tiếng Việt . 

Có thể nói, AI đã thay đổi cách dạy – học của ngành giáo dục. Thực tế, rất nhiều ứng dụng trí tuệ nhân tạo đã ra đời nhằm hỗ trợ quá trình dạy – học trở nên nhanh chóng, hiệu quả hơn.  

Câu chuyện kết hợp giữa khoa học máy tính và ngôn ngữ học khá thú vị trên cho thấy, quá trình đào tạo, ứng dụng AI vào thực tế là rất cần thiết, song không dễ dàng. Các dữ liệu cần được phân tách theo nhiều lớp định danh, ở mỗi lớp sẽ phải xử lý từng biến số với các định danh cụ thể khác nhau nữa. 

Khi máy móc học ngôn ngữ…  

Không chỉ giúp con người học ngôn ngữ, trí tuệ nhân tạo còn giúp các hệ thống hỗ trợ lý trí thông minh ngôn ngữ tốt hơn. Máy móc được huấn luyện và tiến bộ mỗi ngày.  

Tương tự câu chuyện của PGS Điền, dưới đây lại là dẫn chứng sinh động khác về cách mà một trợ lý thông minh hiểu ngôn ngữ con người.

Đó là quá trình nghiên cứu và phát triển trợ lý giọng nói tiếng Việt Kiki trên ô tô, để nhận dạng tốt giọng nói với nhiều ngữ điệu vùng miền khác nhau. Trong khoa học máy tính, nhận dạng giọng nói là một nhánh quan trọng của trí tuệ nhân tạo (AI), chuyển đổi giọng nói con người thành một định dạng hữu ích và có thể hiểu được bằng các ứng dụng máy tính. Công nghệ này là cầu nối tương tác giữa máy móc và con người. Trợ lý giọng nói đã trở thành ứng dụng không thể thiếu trên toàn thế giới. Phổ biến nhất có thể kể đến như: Siri của Apple, Google Assistant, Amazon Alexa, hay Kiki ở Việt Nam.

Anh Nguyễn Hoàng Khánh Duy, người viết những dòng code đầu tiên cho Kiki chia sẻ, để huấn luyện mô hình AI đủ thông minh khi nhận diện giọng nói, phản hồi thông tin đúng cho người dùng, thì dữ liệu ngôn ngữ đóng vai trò chủ chốt. 

Dẫn chứng, chức năng rất quan trọng với người dùng trợ lý tiếng Việt Kiki trên ôtô là dẫn đường. Do đó, đội ngũ phát triển sản phẩm phải chuẩn bị dữ liệu, vốn từ vựng để hỗ trợ “mượt” cho các câu lệnh từ người dùng. Sau quá trình thu thập dữ liệu, huấn luyện mô hình, chỉ số thể hiện chất lượng nhận diện giọng nói ở phiên bản sau đã cải thiện 40% so với ban đầu.

Việc nhận diện giọng nói trên xe ô tô không chỉ dừng lại ở mỗi bài toán về dẫn đường, địa điểm mà còn nhiều vấn đề khác. 

Ví dụ, đặc thù sử dụng Kiki trên xe ô tô thì tiếng ồn do động cơ, gió hay tiếng phát ra từ các thiết bị giao thông trên đường cũng rất lớn, điều này ảnh hưởng trực tiếp tới chất lượng nhận diện giọng nói của Kiki trên xe. Do đó, yêu cầu đội ngũ Kiki phải cố gắng giải quyết điều kiện ồn ào bằng cách tăng cường dữ liệu bằng cách nói trong điều kiện ồn ào sao cho phù hợp với cuộc sống thực tế nhất.  

Ngoài ra, bằng các kỹ thuật mới trên thế giới như self-supervised (học tự giám sát), Kiki đang cố gắng “học” từ cả những dữ liệu không được gán nhãn, để cải thiện mô hình tốt hơn nữa. Tính ổn định của trợ lý giọng nói tiếng Việt này đang cải thiện với việc không ngừng đào tạo, nâng cấp sản phẩm.

Rõ ràng, tiến bộ của công nghệ đang diễn ra hàng ngày, hàng giờ. ChatGPT ra đời cuối năm 2022 đã trả lời một phần cho câu hỏi về cách dữ liệu lớn vận hành. Công nghệ đang “bước” vào giữa đời sống, đặc biệt, trong giáo dục, ngôn ngữ, những lĩnh vực vốn phụ thuộc nhiều vào con người trước đây. AI tái định nghĩa cách chúng ta học tập, làm việc, sinh hoạt… như những ví dụ cụ thể nêu trên.



Nguồn

Cùng chủ đề

Các thế hệ AI phát triển thần tốc trong y học

Cuối thế kỷ 20, được lập trình bởi các kỹ sư máy tính, AI ra đời dựa trên một loạt hướng dẫn (quy tắc) do con người tạo ra, cho phép công nghệ giải quyết các vấn đề cơ bản. LTS: Có rất nhiều ngành công nghiệp chịu ảnh hưởng bởi dòng công nghệ mới trong thời đại thông tin. Với tác động của tự động hóa, khoa học máy tính, trí tuệ nhân tạo...

Doanh nghiệp Việt dần tiến sâu vào ứng dụng AI

Không chỉ dùng ChatGPT soạn email, sửa chính tả hoặc làm toán như giai đoạn trước, ứng dụng trí tuệ nhân tạo (AI) trong doanh nghiệp Việt dần chuyên nghiệp. Để biết đàn dế nuôi có stress hay không, Cricket One - nhà sản xuất đạm dế lớn nhất Đông Nam Á có trang trại Bình Phước - bắt đầu tìm cách dùng trí tuệ nhân tạo (AI) từ 2019. Công ty này bỏ vốn vào một dự án...

Việt Nam là quốc gia cởi mở về thể chế số

Theo Bộ trưởng Nguyễn Mạnh Hùng, Việt Nam là quốc gia cởi mở trong xây dựng thể chế, lắng nghe ý kiến doanh nghiệp, nhất là doanh nghiệp nước ngoài. Chiều 21/3, tại trụ sở Bộ TT&TT, Bộ trưởng Nguyễn Mạnh Hùng đã có buổi tiếp đoàn Hội đồng kinh doanh Hoa Kỳ - ASEAN (USABC). Đây là khối các doanh nghiệp có nhiều ý kiến đóng góp nhất với Bộ TT&TT về các vấn đề xây dựng thể chế,...

Sinh viên làm thiết bị chống ngủ gật khi lái xe

Bằng thiết bị đeo tai đo sóng não kết nối với phần mềm trên điện thoại, nhóm sinh viên Bách khoa Hà Nội giúp phát hiện sớm cơn buồn ngủ của tài xế và khiến họ tỉnh táo trở lại. Những ngày này, Nguyễn Tuấn Đạt, sinh viên năm hai ngành Công nghệ thông tin Việt - Nhật, trường Công nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội cùng các bạn trong nhóm, tất bật...

Nổi bật

Mới nhất

Cùng tác giả

Lãi suất ngân hàng hôm nay 26/3/2024: Loạt nhà băng tăng lãi suất huy động

Sau khi Techcombank bất ngờ tăng lãi suất huy động, thêm Ngân hàng SHB vừa điều chỉnh tăng lãi suất huy động tại một số kỳ hạn. Theo biểu lãi suất huy động trực tuyến mới nhất của SHB, lãi suất tiền gửi kỳ hạn 1 và 2 tháng cùng được điều chỉnh tăng lên 2,8%/năm, sau khi lần lượt tăng thêm 0,2 và 0,1 điểm phần trăm. Lãi suất tiền gửi kỳ hạn 12 tháng tăng 0,1 điểm phần...

VNDIRECT bị tấn công, doanh nghiệp chứng khoán được yêu cầu tăng cường bảo mật

Trưa ngày 26/3 là tròn 2 ngày kể từ thời điểm hệ thống của VNDIRECT bị tấn công mạng, gây gián đoạn giao dịch của doanh nghiệp chứng khoán này và các nhà đầu tư. Trong báo cáo về sự cố gửi Ủy ban Chứng khoán Nhà nước, các sở giao dịch chứng khoán, Tổng công ty lưu ký và bù trừ chứng khoán Việt Nam, VNDIRECT cho biết đội ngũ công nghệ của doanh nghiệp phối hợp...

Nữ phó bí thư đoàn xinh đẹp: 'Em giải trí bằng cách lao vào công việc'

Bảo Nhi giới thiệu về trường bằng tiếng Hàn: Trong “profile” của cô bạn sinh năm 2006 đầy ắp những giải thưởng và danh hiệu từ các môn văn hóa cho đến phong trào Đoàn, Đội hay năng khiếu như múa, viết chữ đẹp... Trong môi trường nhiều học sinh giỏi top đầu của Hà Nội, Bảo Nhi vẫn thể hiện sự nổi bật của riêng mình với điểm trung bình chung học tập năm lớp 10 là 9,7. Năm...

Bài đọc nhiều

Cùng chuyên mục

Mới nhất

Giá vàng trong nước giằng co, vàng nhẫn tăng nhẹ lên 69,82 triệu đồng/lượng

Giá vàng trong nước Thời điểm trưa ngày 26/3, giá vàng SJC giao dịch tại Công ty Vàng bạc đá quý Sài Gòn khu vực TP. Hồ Chí Minh quanh mức 78,00 - 80,00 triệu đồng/lượng, giảm 40 ngàn đồng/lượng chiều mua và giảm 40 ngàn đồng/lượng chiều bán so với chốt phiên hôm qua. Chênh lệch...

Mỹ, Anh, New Zealand đồng loạt cáo buộc Trung Quốc tấn công mạng, Bắc Kinh phản pháo là “vu khống ác ý”

Ngày 25/3, giới chức Mỹ, Anh và New Zealand cáo buộc Trung Quốc tiến hành các chiến dịch tấn công mạng sâu rộng. Bắc Kinh lên tiếng phản đối.

Việt Nam là nguồn cung hồ tiêu ngoại khối lớn nhất cho Đức

Xuất khẩu hồ tiêu, cây gia vị: Nâng chất lượng, hướng đến phân khúc thị trường cao cấp Giá hồ tiêu được dự báo sẽ vẫn neo cao Cục Xuất nhập khẩu (Bộ Công Thương) dẫn số liệu từ Cơ quan Thống kê châu Âu (Eurostat) cho biết, năm 2023, Đức nhập...

VNDirect dự kiến thứ 5 hoạt động trở lại, UBCKNN yêu cầu các CTCK rà soát tính bảo mật trước tháng 4

VNDirect đã làm chủ lại hệ thống, công ty đang nỗ lực khắc phục để dự kiến thứ...

TP HCM: Các dự án giao thông chậm tiến độ do giá cát san lấp tăng cao | Vật tư | Tài Chính

Theo chân một nhà thầu thi công tại TP. Thủ Đức trực tiếp khảo sát cát san lấp do sà lan từ miền Tây chở lên. Thực tế, toàn là cát pha bùn không thể làm được. Không nằm ngoài dự đoán, sà lan gần 2.000m³ cát san lấp đang thả neo trên con nước lớn chở đầy...

Mới nhất