Tin tặc khai thác “tính cách” của chatbot AI

(Ảnh: Freepik)

Tin tặc đang khai thác “tính cách” của chatbot AI theo cách ngày càng tinh vi, khi các cuộc tấn công không còn chỉ dựa vào mã độc hay lỗ hổng kỹ thuật, mà chuyển sang thao túng bằng ngôn ngữ.

Ở giai đoạn đầu, việc “bẻ khóa” chatbot AI khá đơn giản. Người dùng chỉ cần yêu cầu hệ thống bỏ qua chỉ dẫn trước đó, giả vờ không bị ràng buộc bởi quy tắc, hoặc nhập vai một trí tuệ nhân tạo không có giới hạn. Những hình thức này được gọi là “jailbreak”, tức cách đánh lừa mô hình AI để vượt qua hướng dẫn an toàn.

Một trong các kiểu tấn công nổi bật trước đây là “DAN”, viết tắt của “Do Anything Now”, trong đó người dùng yêu cầu ChatGPT nhập vai một AI có thể làm mọi thứ. Một ví dụ khác là “grandma exploit”, khi chatbot bị dụ đóng vai một người bà kể chuyện cho trẻ em, nhưng nội dung lại bị hướng sang thông tin nguy hiểm.

Các công ty công nghệ đã nhanh chóng vá nhiều lỗ hổng kiểu cũ, nhưng điểm yếu nền tảng vẫn còn. Chatbot được thiết kế để trò chuyện, nên việc hạn chế quá mức các cuộc đối thoại có thể làm giảm tính hữu ích của hệ thống. Trong khi đó, chỉ cấm các từ nhạy cảm là không đủ, vì nhiều từ có thể xuất hiện trong bối cảnh hợp pháp như lịch sử, y học, báo chí hoặc hóa học.

Theo bài viết, cuộc đua bảo mật AI hiện không chỉ là vấn đề của lập trình viên. Những người tìm cách phá rào chatbot ngày càng giống người viết lách, nhà tâm lý học hoặc người thẩm vấn, khi họ dùng cách nịnh, gây áp lực, đánh lừa hoặc dẫn dắt để khiến mô hình hạ thấp cảnh giác.

Công ty kiểm thử an toàn AI Mindgard cho biết một số cuộc tấn công hiện giống tâm lý học hơn khoa học máy tính. Các mô hình AI không có cảm xúc như con người, nhưng được huấn luyện để phản hồi như thể có cảm xúc. Chính sự mô phỏng này có thể tạo ra những kiểu phản ứng khác nhau, khiến từng chatbot có vẻ có “tính cách” riêng.

Điều này đặt ra thách thức mới khi các tác nhân AI ngày càng được dùng để đặt lịch, quản lý công việc, đặt đồ ăn hoặc xử lý dịch vụ khách hàng. Nếu các mô hình có thể bị thao túng bằng hội thoại, lực lượng bảo mật sẽ phải kiểm tra cả giới hạn xã hội và cảm xúc giả lập của chúng, bên cạnh các lỗ hổng kỹ thuật truyền thống.

Nguồn: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm