Trang chủKhoa học - Công nghệCông nghệ sốBốn mô hình AI hàng đầu tranh tài, tìm ra ứng dụng...

Bốn mô hình AI hàng đầu tranh tài, tìm ra ứng dụng tự tin trả lời sai nhất


Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI giành danh hiệu mô hình “ảo giác” nhất với những câu trả lời sai tự tin nhất.

Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.

Vấn đề thông tin sai lệch do AI tạo ra đang ngày càng nóng khi bầu cử Tổng thống Mỹ 2024 đến gần.

Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác của các mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.

Ảo giác AI chỉ hiện tượng các LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.

Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô hình AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô hình giải trình các bước lập luận về thông tin đưa ra”.

Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt nhất trong số các mô hình được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.  

Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.

Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.

Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của các mô hình AI (đưa ra thông báo “Là một mô hình AI, tôi không thể đưa ra ý kiến”).

Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô hình AI của Cohere hoàn toàn không có động thái phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.

Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.

(Theo CNBC)



Nguồn

Cùng chủ đề

Việt Nam là quốc gia cởi mở về thể chế số

Theo Bộ trưởng Nguyễn Mạnh Hùng, Việt Nam là quốc gia cởi mở trong xây dựng thể chế, lắng nghe ý kiến doanh nghiệp, nhất là doanh nghiệp nước ngoài. Chiều 21/3, tại trụ sở Bộ TT&TT, Bộ trưởng Nguyễn Mạnh Hùng đã có buổi tiếp đoàn Hội đồng kinh doanh Hoa Kỳ - ASEAN (USABC). Đây là khối các doanh nghiệp có nhiều ý kiến đóng góp nhất với Bộ TT&TT về các vấn đề xây dựng thể chế,...

Sinh viên làm thiết bị chống ngủ gật khi lái xe

Bằng thiết bị đeo tai đo sóng não kết nối với phần mềm trên điện thoại, nhóm sinh viên Bách khoa Hà Nội giúp phát hiện sớm cơn buồn ngủ của tài xế và khiến họ tỉnh táo trở lại. Những ngày này, Nguyễn Tuấn Đạt, sinh viên năm hai ngành Công nghệ thông tin Việt - Nhật, trường Công nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội cùng các bạn trong nhóm, tất bật...

Chàng trai dùng AI cải trang thành người cha quá cố, làm điều gây xúc động

Chàng trai họ Sun (đến từ tỉnh Liêu Ninh, Trung Quốc) cho biết, gia đình đã giấu bà việc bố anh qua đời vì căn bệnh ung thư hiếm gặp cách đây 6 tháng. Bởi bà đã 91 tuổi và có vấn đề nghiêm trọng về tim.Gia đình sợ tin buồn có thể khiến bà bị sốc nên đã nói dối rằng, bố của Sun bị bệnh, phải ở lại điều trị tại một bệnh viện danh tiếng...

Nổi bật

Mới nhất

Cùng tác giả

Từng là công nhân vệ sinh môi trường, Đen Vâu trở thành Gương mặt trẻ tiêu biểu

Tối 23/3, Trung ương Đoàn TNCS Hồ Chí Minh và Quỹ Hỗ trợ Tài năng trẻ Việt Nam tổ chức lễ trao giải Gương mặt trẻ Việt Nam tiêu biểu năm 2023. Hội đồng xét tặng Giải thưởng Gương mặt trẻ Việt Nam tiêu biểu năm 2023 đã chọn ra 10 gương mặt xuất sắc nhất để trao giải thưởng Gương mặt trẻ Việt Nam tiêu biểu năm 2023 và 9 Gương mặt trẻ Việt Nam triển vọng năm...

Hàng trăm thùng bia văng xuống đường, CSGT cùng người dân thu dọn giúp tài xế

Tối 23/3, lãnh đạo Đội CSGT số 14 (Phòng CSGT, Công an TP Hà Nội) cho biết, vào khoảng 16h10 cùng ngày, tại đường dẫn vành đai 3 trên cao giao với Pháp Vân - Cầu Giẽ, đoạn thuộc quận Hoàng Mai (Hà Nội) đã xảy ra vụ tai nạn.  Khi đó, ô tô đầu kéo mang BKS 29LD-314.XX kéo theo container chở bia do anh H.V.B. (SN 1987, ở Con Cuông, Nghệ An) điều khiển, đến khúc cua...

Sắp phát hành bộ tem bưu chính Việt Nam thứ tám về Chiến thắng Điện Biên Phủ

Tem bưu chính kỷ niệm 70 năm Chiến thắng Điện Biên Phủ (1954 – 2024) là 1 trong 2 đề tài tem vừa được Bộ TT&TT bổ sung vào chương trình đề tài tem bưu chính năm 2024, cùng với đề tài kỷ niệm 150 năm thành lập Liên minh Bưu chính thế giới UPU. Ban Tem bưu chính, Tổng công ty Bưu điện Việt Nam (Vietnam Post) cho hay, với việc bổ sung thêm 2 đề tài tem trên,...

Bài đọc nhiều

Cùng chuyên mục

Mới nhất

Đề xuất học sinh, sinh viên làm thêm không quá 20 tiếng mỗi tuần

Học sinh, sinh viên từ 15 tuổi trở lên được làm việc bán thời gian nhưng không quá 20 giờ mỗi tuần trong năm học, theo dự thảo Luật việc làm sửa đổi. Đây là lần đầu tiên Bộ Lao động Thương binh và Xã hội đề xuất quản lý việc làm bán thời gian của học sinh, sinh...

Thanh Hoá tăng cường cải cách hành chính và cải thiện môi trường đầu tư

Thanh Hoá tăng cường cải cách hành chính và cải thiện môi trường đầu tưUBND tỉnh Thanh Hoá cho biết vừa có quyết định kiện toàn Ban Chỉ đạo đẩy mạnh cải cách hành chính, cải thiện mạnh mẽ môi trường đầu tư kinh doanh, nâng cao năng lực cạnh tranh tỉnh. ...

Thế Giới Di Động dự tính phát hành cổ phiếu ESOP không quá 2%

Công ty cổ phần Đầu tư Thế Giới Di Động mới công bố tờ trình đại hội đồng cổ đông thường niên phương án phát hành cổ phiếu cho ban điều hành và cán bộ chủ chốt (ESOP) nếu hoàn thành vượt 110% kế hoạch lợi nhuận sau thuế. ...

Doãn Hải My lần đầu đăng ảnh bầu

Người đẹp Doãn Hải My nói hạnh phúc khi mang thai con đầu lòng năm Rồng, lần đầu đăng ảnh bầu bên chồng - cầu thủ Đoàn Văn Hậu. Tối 23/3, Doãn Hải My lần đầu xác nhận tin vui sau bốn tháng kết hôn với Đoàn Văn Hậu. "Tôi hạnh phúc xen lẫn cảm giác bỡ ngỡ trong...

Mới nhất