Trang chủVăn hóa - Xã hộiGiáo dụcHai nam sinh công bố nghiên cứu tại hội nghị AI hàng...

Hai nam sinh công bố nghiên cứu tại hội nghị AI hàng đầu thế giới


Với phương pháp đào tạo đối nghịch để AI tạo thêm dữ liệu mới, nghiên cứu của hai sinh viên Bách khoa TP HCM được công bố ở AAAI – hội nghị về AI hàng đầu thế giới.

Nghiên cứu về mô hình đa ngôn ngữ huấn luyện AI tạo câu đồng nghĩa của Phạm Khánh Trình và Lê Minh Khôi, 23 tuổi, được đăng trong tài liệu Hội nghị AAAI-24 về Trí tuệ nhân tạo, diễn ra cuối tháng 2 tại Vancouver, Canada.

PGS.TS Quản Thành Thơ, Phó trưởng khoa Khoa học và Kỹ thuật Máy tính, Đại học Bách khoa TP HCM, đánh giá đây là kết quả đáng khen ngợi. Thầy Thơ cho biết AAAI được giới nghiên cứu, chuyên gia đánh giá có chất lượng hàng đầu trong các hội nghị khoa học lĩnh vực khoa học máy tính, trí tuệ nhân tạo, với tỷ lệ chấp thuận bài báo rất thấp, năm nay là 23,75%.





Minh Khôi và Khánh Trình (giữa) trong buổi bảo vệ luận văn tốt nghiệp, năm 2023. Ảnh: Nhân vật cung cấp

Minh Khôi và Khánh Trình (giữa) trong buổi bảo vệ luận văn tốt nghiệp, năm 2023. Ảnh: Nhân vật cung cấp

Có chung niềm đam mê với Học sâu và Xử lý ngôn ngữ tự nhiên, Trình và Khôi chọn hướng nghiên cứu về mô hình ngôn ngữ lớn (LLMs). Cả hai muốn tìm ra những mặt hạn chế của LLMs và cải tiến nó.

Khánh Trình cho biết Chat GPT hay LLMs cần được huấn luyện một lượng dữ liệu văn bản khổng lồ để tạo ra các phản hồi chính xác, đa dạng cho người dùng. Hai nam sinh nhận ra với các ngôn ngữ ít phổ biến như tiếng Hindi, Kazakh, hay Indonesia, Chat GPT và LLMs thường cho ra kết quả không như mong đợi vì chưa được học nhiều thứ tiếng này, hoặc thứ tiếng này chưa đủ dữ liệu cho chúng học.

“Tại sao chúng ta không tạo thêm dữ liệu dạng chữ từ những ‘tài nguyên ít ỏi’ của các thứ tiếng đó để huấn luyện thêm cho AI”, hai nam sinh đặt vấn đề. Từ đó mô hình LAMPAT (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) – diễn giải đa ngôn ngữ bằng cách sử dụng phương pháp đào tạo đối nghịch do Trình và Khôi nghiên cứu, ra đời.

LAMPAT có khả năng tạo một câu đồng nghĩa từ một câu đầu vào có sẵn, nhằm sinh thêm dữ liệu dạng chữ. Trình giải thích “đào tạo đối nghịch” là một phương pháp tương đối mới trong huấn luyện các mô hình ngôn ngữ lớn. Khi đưa một câu đầu vào, với phương pháp huấn luyện truyền thống, ứng dụng sẽ tạo một câu đầu ra. Nhưng với phương pháp đào tạo đối nghịch, ứng dụng có thể tự nhận xét, chỉnh sửa câu đầu ra, “đối nghịch với chính nó” để tạo thêm nhiều câu khác.

Tính đa ngôn ngữ của LAMPAT nằm ở việc mô hình này cùng một lúc tích hợp 60 thứ tiếng. Trên cơ sở các bộ dữ liệu thu thập được, nhóm tiếp tục huấn luyện cho LAMPAT tạo câu đồng nghĩa. Lượng dữ liệu dạng chữ được tạo ra từ LAMPAT sẽ tiếp tục được mang đi huấn luyện cho LLMs để các mô hình này học được nhiều kiểu diễn đạt thông tin khác nhau cho cùng một nội dung, từ đó cho kết quả phản hồi đa dạng và có xác suất đúng cao hơn. Với tính năng này, đại diện nhóm cho rằng LAMPAT có thể được tích hợp vào các ứng dụng như ChatGPT để hoàn thiện hơn mô hình này.

Bên cạnh đó, tình trạng thiếu dữ liệu cho Chat GPT hay LLMs khiến một số công ty phải tìm kiếm nhiều nguồn từ bên ngoài như sách, báo, blog,… mà không để ý đến vấn đề bản quyền. Việc tạo câu đồng nghĩa cũng là một trong những cách để hạn chế tình trạng đạo văn, vi phạm bản quyền, theo Khánh Trình.

Nam sinh ví dụ với các ứng dụng như Chat GPT, khi người dùng yêu cầu tóm tắt một văn bản có sẵn A, ứng dụng sẽ tạo ra một văn bản tóm tắt B. Nếu tích hợp phương pháp nghiên cứu của nhóm, khi tiếp nhận văn bản A, ứng dụng sẽ tạo ra nhiều văn bản cùng nội dung A1, A2, A3 dựa trên cơ chế tạo câu đồng nghĩa, từ đó mới tóm tắt văn bản và cho ra nhiều kết quả để người dùng lựa chọn.

Trong thời gian đầu nghiên cứu, nhóm gặp khó khăn khi chuẩn bị dữ liệu đánh giá cho 60 thứ tiếng. Do chưa thể tiếp cận với số lượng dữ liệu đủ lớn nên nhóm đã tổng hợp bộ dữ liệu đa dạng, đầy đủ của 13 thứ tiếng để đánh giá khách quan mô hình, gồm: Việt, Anh, Pháp, Đức, Nga, Nhật, Trung, Tây Ban Nha, Hungary, Bồ Đào Nha, Thụy Điển, Phần Lan, Séc. Đây cũng là bộ dữ liệu đáng tin cậy cho bước Human Evaluation (chấm điểm) cuối cùng.





Minh Khôi (trái) và Khánh Trình (phải) chụp ảnh kỷ niệm với thầy Quản Thành Thơ nhân ngày tốt nghiệp, tháng 11/2023. Ảnh: Nhân vật cung cấp

Minh Khôi (trái) và Khánh Trình (phải) chụp ảnh kỷ niệm với thầy Quản Thành Thơ nhân ngày tốt nghiệp, tháng 11/2023. Ảnh: Nhân vật cung cấp

Đối với mỗi ngôn ngữ tiếng Anh, Việt, Đức, Pháp và Nhật, nhóm trích xuất ngẫu nhiên 200 cặp câu (một cặp gồm câu đầu ra và nhãn đúng) để đánh giá. Với mỗi ngôn ngữ nêu trên, nhóm nhờ 5 chuyên gia ngôn ngữ chấm điểm độc lập, dựa trên ba tiêu chí: bảo toàn ngữ nghĩa; cách lựa chọn từ ngữ và độ tương đồng về từ vựng, tính trôi chảy và mạch lạc của câu đầu ra. Thang đo được tính từ 1 đến 5. Kết quả, điểm đánh giá trung bình từ chuyên gia ngôn ngữ ở 5 thứ tiếng này dao động 4,2-4,6/5 điểm.

Trình đưa ra ví dụ một cặp câu tiếng Việt được chấm điểm 4,4/5, trong đó câu đầu vào là: “Anh ta đã giải thích vấn đề ấy một cách chi tiết”, và câu đầu ra: “Anh ta đã giải thích chi tiết vấn đề ấy”.

Nhưng cũng có những cặp câu chất lượng không tốt, sai ngữ nghĩa, như cặp câu “Chúng tôi ăn trong khi súp nóng – Chúng tôi ăn súp trong khi chúng tôi đang nóng”, chỉ đạt 2/5 điểm.

Khánh Trình cho hay mất 8 tháng để nghiên cứu và hoàn thành công trình này. Đây cũng là đề tài luận văn tốt nghiệp của Trình và Khôi. Luận văn đứng đầu ở Hội đồng Khoa học Máy tính 2 với 9,72/10 điểm.

Theo thầy Quản Thành Thơ, dù LAMPAT chứng tỏ khả năng thành thạo trong việc tạo ra các cụm diễn giải đồng nghĩa giống con người trên nhiều ngôn ngữ, nhưng nó vẫn cần cải tiến để xử lý các thành ngữ, ca dao, tục ngữ ở các thứ tiếng khác nhau.

Hơn nữa, tập dữ liệu đánh giá của nhóm chỉ gồm 13 ngôn ngữ, vẫn còn bỏ sót nhiều, nhất là tiếng dân tộc thiểu số. Vì vậy, nhóm cần nghiên cứu để nâng cao và mở rộng khả năng của các mô hình diễn giải đa ngôn ngữ hiện nay. Từ đây, chúng ta có thể gỡ bỏ được rào cản ngôn ngữ giữa các quốc gia và dân tộc.

Cuối năm 2023, Trình và Khôi tốt nghiệp cử nhân Khoa học Máy tính loại giỏi và xuất sắc với điểm trung bình (GPA) lần lượt là 3.7 và 3.9/4. Cả hai định du học thạc sĩ và đi theo con đường nghiên cứu về trí tuệ nhân tạo, học máy.

“Chúng mình vẫn tiếp tục nghiên cứu đề tài này với mục tiêu ứng dụng LAMPAT nhiều hơn vào các công trình khoa học sắp tới, tạo được một sản phẩm đa ngôn ngữ đáng tin cậy cho người dùng”, Trình chia sẻ.

Lệ Nguyễn




Source link

Cùng chủ đề

Các thế hệ AI phát triển thần tốc trong y học

Cuối thế kỷ 20, được lập trình bởi các kỹ sư máy tính, AI ra đời dựa trên một loạt hướng dẫn (quy tắc) do con người tạo ra, cho phép công nghệ giải quyết các vấn đề cơ bản. LTS: Có rất nhiều ngành công nghiệp chịu ảnh hưởng bởi dòng công nghệ mới trong thời đại thông tin. Với tác động của tự động hóa, khoa học máy tính, trí tuệ nhân tạo...

Doanh nghiệp Việt dần tiến sâu vào ứng dụng AI

Không chỉ dùng ChatGPT soạn email, sửa chính tả hoặc làm toán như giai đoạn trước, ứng dụng trí tuệ nhân tạo (AI) trong doanh nghiệp Việt dần chuyên nghiệp. Để biết đàn dế nuôi có stress hay không, Cricket One - nhà sản xuất đạm dế lớn nhất Đông Nam Á có trang trại Bình Phước - bắt đầu tìm cách dùng trí tuệ nhân tạo (AI) từ 2019. Công ty này bỏ vốn vào một dự án...

Việt Nam là quốc gia cởi mở về thể chế số

Theo Bộ trưởng Nguyễn Mạnh Hùng, Việt Nam là quốc gia cởi mở trong xây dựng thể chế, lắng nghe ý kiến doanh nghiệp, nhất là doanh nghiệp nước ngoài. Chiều 21/3, tại trụ sở Bộ TT&TT, Bộ trưởng Nguyễn Mạnh Hùng đã có buổi tiếp đoàn Hội đồng kinh doanh Hoa Kỳ - ASEAN (USABC). Đây là khối các doanh nghiệp có nhiều ý kiến đóng góp nhất với Bộ TT&TT về các vấn đề xây dựng thể chế,...

Sinh viên làm thiết bị chống ngủ gật khi lái xe

Bằng thiết bị đeo tai đo sóng não kết nối với phần mềm trên điện thoại, nhóm sinh viên Bách khoa Hà Nội giúp phát hiện sớm cơn buồn ngủ của tài xế và khiến họ tỉnh táo trở lại. Những ngày này, Nguyễn Tuấn Đạt, sinh viên năm hai ngành Công nghệ thông tin Việt - Nhật, trường Công nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội cùng các bạn trong nhóm, tất bật...

Nổi bật

Mới nhất

Cùng tác giả

Thiệp cưới ‘hạt giống nảy mầm’ của Minh Tú

Người mẫu Minh Tú dùng giấy tái chế chứa hạt giống để làm thiệp cưới, khi xé nhỏ đặt vào đất, tưới nước sẽ nảy mầm thành cây. Ngày 25/3, nhiều đồng nghiệp như Võ Hoàng Yến, Hồ Ngọc Hà nói thích thú khi nhận thiệp cưới của Minh Tú. Người đẹp đặt tên "Gieo mầm hạnh phúc" cho tấm thiệp với thông điệp lan tỏa điều tốt đẹp. Minh Tú cho biết: "Tôi muốn truyền tải thông điệp...

HLV Troussier: ‘Việt Nam vẫn nắm quyền tự quyết trước trận Indonesia’

HÀ NỘI-HLV Philippe Troussier khẳng định đã chuẩn bị chu đáo để đánh bại Indonesia ở Mỹ Đình, giành lại nhì bảng F cũng như cơ hội đi tiếp ở vòng loại World Cup 2026. "Việt Nam vẫn giữ nguyên mục tiêu, đó là giành kết quả tốt nhất để vào vòng loại thứ ba World Cup 2026. Sau trận đấu ngày mai với Indonesia, chúng tôi còn hai trận nữa (gặp Iraq và Philippines). Trong bối cảnh hiện tại...

Dàn mỹ nhân Miss World được chào đón khi về quê hương

Thí sinh Lesego Chombo quay về Botswana sau chuyến nghỉ dưỡng ở Mauritius cùng đoàn Miss World. Hàng trăm người dân tập trung ở sân bay, thể hiện màn nhảy múa theo điệu truyền thống để ăn mừng thành tích của cô. Lesego Chombo sau đó còn dự tiệc cùng Tổng thống Botswana. Video: Instagram Lesego ChomboTại cuộc thi, Lesego Chombo gây chú ý khi là thí sinh duy nhất vào top tất cả phần thi phụ, được...

Bài đọc nhiều

Truyền hình trực tiếp tư vấn tuyển sinh 2024 trên VTV2

Chiều 23/3, chương trình do Ban Khoa giáo- Đài Truyền hình Việt Nam thực hiện, được truyền hình trực tiếp từ Trung tâm Truyền hình Việt Nam tại Tp.HCM. Đơn vị đồng hành cùng chương trình gồm: Trường ĐH Công nghệ Tp.HCM (HUTECH); Trường ĐH Kinh tế - Tài chính Tp.HCM (UEF); Trường Đại học Gloustershire Việt Nam. Tham dự chương trình có: ông Huỳnh Văn Chương, Cục trưởng Cục Quản lý Chất lượng, Bộ Giáo dục và Đào tạo;...

“Kết sức mạnh – Nối yêu thương”

Ngày 23/3, tại Trường THCS Lương Yên (quận Hai Bà Trưng, Hà Nội), Trung tâm Truyền thông Thanh thiếu nhi (Trung ương Đoàn TNCS Hồ Chí Minh) phối hợp cùng Tổ chức Cứu trợ trẻ em (SCI) tổ chức Chương trình truyền thông với chủ đề “Kết sức mạnh – Nối yêu thương”.  Sự kiện được chính các thành viên Câu lạc bộ Girls Decide - “Quyết định ở chúng mình” là các em học sinh nữ từ 11...

Đề xuất học sinh, sinh viên làm thêm không quá 20 tiếng mỗi tuần

Học sinh, sinh viên từ 15 tuổi trở lên được làm việc bán thời gian nhưng không quá 20 giờ mỗi tuần trong năm học, theo dự thảo Luật việc làm sửa đổi. Đây là lần đầu tiên Bộ Lao động Thương binh và Xã hội đề xuất quản lý việc làm bán thời gian của học sinh, sinh viên. Dự thảo đang lấy ý kiến, từ 15/3.Cụ thể, học sinh, sinh viên đủ tuổi lao động - tức...

Nữ sinh ở Hà Nội bị đánh hội đồng, quỳ gối van xin

Đoạn clip lan truyền trên mạng ghi lại cảnh một nữ sinh mặc áo đồng phục cấp 2 bị nhóm nam nữ vây kín, liên tục chửi bới, lôi áo, giật tóc, thậm chí đạp vào đầu nhiều lần. Mặc cho nữ sinh này quỳ gối van xin "em xin lỗi hai chị, lần sau em không thế nữa...", vẫn không ai can thiệp, giúp đỡ.Những người có hành vi đánh đập nữ sinh này chủ yếu là...

Cùng chuyên mục

Hà Nội khảo sát thi tốt nghiệp THPT 101.000 học sinh lớp 12

Nhằm giúp học sinh chuẩn bị tốt cho kỳ thi tốt nghiệp THPT năm 2024, Sở Giáo dục và Đào tạo Hà Nội sẽ tổ chức khảo sát học sinh lớp 12 toàn thành phố trong hai ngày 5 và 6-4.Có khoảng 101.000 học sinh lớp 12 năm học 2023 - 2024 đang học tập tại các trường THPT, trung tâm giáo...

Học sinh mâu thuẫn, người nhà hành hung nữ sinh lớp 7

Lãnh đạo trường THCS xã An Thượng cho biết, nữ sinh bị hành hung tại khu cánh đồng gần Trạm Y tế xã An Thượng (TP Hải Dương, tỉnh Hải Dương) là em D. đang học lớp 7 tại trường.Vị lãnh đạo thông tin, trước đó, D. có xích mích với P., một nữ sinh lớp. Biết cháu xảy ra mâu thuẫn với bạn, chú của P. đã hành hung D.Thời điểm bị hành hung, D. chỉ biết...

Vụ Trường quốc tế AISVN: Có một khoảng trống pháp lý

* Phụ huynh có thể làm gì để đòi quyền lợi của mình trong tình huống này, thưa ông?- Khi trường tuyên bố đóng cửa, phụ huynh có quyền đòi lại phần học phí chưa sử dụng để có thể chuyển sang học trường khác. Nếu phần học phí đã đóng và đã bị sử dụng, cần phải có cơ quan thanh...

Chàng trai vàng Vật lý giành học bổng 9,3 tỷ của MIT

Chủ nhân hai tấm huy chương vàng Olympic Vật lý giành học bổng toàn phần trị giá 9,3 tỷ đồng, được MIT đánh giá thuộc nhóm "ứng viên cạnh tranh nhất lịch sử". Võ Hoàng Hải, lớp 12 chuyên Lý, trường THPT chuyên Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, giành học bổng toàn phần của Viện Công nghệ Massachusetts (MIT) hôm 22/3."Em nhận học bổng trên 9,3 tỷ đồng", Hải chia sẻ tại một hội...

Mới nhất

Đắk Nông thu hút đầu tư trên 3 trụ cột là công nghiệp, nông nghiệp và du lịch

Đắk Nông thu hút đầu tư trên 3 trụ cột là công nghiệp, nông nghiệp và du lịchTỉnh Đắk Nông đã thu hút được 476 dự án đầu tư với tổng vốn đầu tư khoảng 81.000 tỷ đồng; sẽ tập trung thu hút đầu tư trên 3 trụ cột là công nghiệp, nông nghiệp và du lịch. ...

Gắn biển Công trình thanh niên xây dựng cầu Tô Lịch tại huyện Thường Tín

Đây là hoạt động trong Chương trình công tác Đoàn và phong trào thanh thiếu nhi Thủ đô năm 2024, đồng thời nhằm tạo không khí thi đua sôi nổi chào mừng Kỷ niệm 93 năm Ngày thành lập Đoàn TNCS Hồ Chí Minh (26/3/1931 – 26/3/2024).  Tham dự chương trình Bí thư Trung ương Đoàn, Chủ tịch Trung...

Đề xuất điều chỉnh mức lương tối thiểu tăng 6% từ ngày 1/7/2024

Đề xuất điều chỉnh mức lương tối thiểu tăng 6% từ ngày 1/7/2024Bộ Lao động - Thương binh và Xã hội đang dự thảo Nghị định quy định mức lương tối thiểu đối với người lao động làm việc theo hợp đồng lao động. Theo đó, Bộ đề xuất điều chỉnh mức lương tối thiểu tăng 6% so...

Dân Lâm Đồng thuê 260.000 đồng/tiếng bơm nước vẫn chả đủ tưới cà phê, nửa năm chưa mưa

Những ngày cuối tháng 3, phóng viên Dân Việt đã ghi nhận tình trạng hạn hán, nắng nóng kéo dài trên địa bàn tỉnh Lâm Đồng....

Mới nhất