Thanh Thúy
Well-known member
Ngay cả khi OpenAI đang nỗ lực tăng cường bảo mật cho trình duyệt Atlas AI, công ty này vẫn thừa nhận rằng prompt injection (chèn câu lệnh đánh lừa AI) là một rủi ro khó có thể loại bỏ hoàn toàn trong tương lai gần. Đây là hình thức tấn công mà kẻ xấu đưa các chỉ dẫn độc hại vào trang web hoặc email nhằm điều khiển AI thực hiện những hành động không mong muốn. Sự thừa nhận này đặt ra nhiều câu hỏi về mức độ an toàn khi để các tác nhân AI (AI agents) tự do hoạt động trên môi trường internet mở.
Thách thức lâu dài trong việc bảo mật hệ thống AI
Trong một bài viết mới đây, OpenAI cho rằng prompt injection cũng giống như các hình thức lừa đảo hay thao túng tâm lý trên internet, rất khó để có thể giải quyết triệt để. Việc ra mắt chế độ tác nhân (agent mode) trên trình duyệt Atlas dù giúp người dùng làm việc hiệu quả hơn nhưng cũng vô tình mở rộng phạm vi mà kẻ tấn công có thể lợi dụng. Kể từ khi Atlas ra mắt vào tháng 10 năm 2025, nhiều chuyên gia bảo mật đã chứng minh rằng chỉ cần vài dòng chữ ẩn trong một tài liệu trực tuyến cũng đủ để làm thay đổi hành vi của trình duyệt AI. Không chỉ OpenAI, các cơ quan an ninh mạng quốc tế như NCSC của Anh cũng cảnh báo rằng những cuộc tấn công này nhắm vào AI tạo sinh có thể sẽ không bao giờ được ngăn chặn hoàn toàn, từ đó gây ra nguy cơ rò rỉ dữ liệu cho các trang web.
Lệnh độc được cài trong email
AI Agent thực hiện yêu cầu theo lệnh độc
Giải pháp xử lý của OpenAI
Để đối phó với những nguy cơ thường trực, OpenAI đã phát triển một hệ thống tấn công tự động dựa trên mô hình ngôn ngữ lớn (LLM). Hệ thống này đóng vai trò như một “hacker ảo” được huấn luyện để liên tục tìm kiếm các lỗ hổng trong AI agent. Điểm đặc biệt là hệ thống này có thể chạy các mô phỏng để quan sát cách AI mục tiêu xử lý thông tin, từ đó tìm ra các phương thức tấn công mới mà ngay cả con người cũng chưa nghĩ tới. Trong một thử nghiệm thực tế, OpenAI cho thấy hệ thống này đã phát hiện ra cách một email có thể lừa AI gửi thư xin thôi việc thay vì soạn thư trả lời tự động như ý muốn của người dùng. Tuy nhiên, nhờ vào các đợt cập nhật và kiểm tra liên tục, trình duyệt Atlas hiện đã có khả năng nhận diện tốt hơn các nỗ lực tấn công này để cảnh báo cho người dùng kịp thời.
Dù các hãng công nghệ đang nỗ lực gia cố hệ thống, các chuyên gia bảo mật cho rằng người dùng vẫn cần có những biện pháp tự bảo vệ mình khi sử dụng các công cụ AI có quyền truy cập sâu vào dữ liệu cá nhân. Để hạn chế rủi ro, người dùng không nên cấp quyền quá rộng rãi cho AI như cho phép tự ý đọc toàn bộ hộp thư và thực hiện mọi hành động mà không cần hỏi lại. Thay vào đó, bạn nên đưa ra những chỉ dẫn cụ thể cho từng tác vụ và luôn yêu cầu AI phải có sự xác nhận của con người trước khi thực hiện các giao dịch quan trọng như thanh toán hóa đơn hoặc gửi thông tin nhạy cảm.
Việc sử dụng các trình duyệt AI như Atlas mang lại sự tiện lợi lớn nhưng cũng đi kèm với những rủi ro bảo mật thực tế. OpenAI đang áp dụng các chu kỳ kiểm tra và vá lỗi nhanh chóng để bảo vệ người dùng, nhưng lỗ hổng prompt injection vẫn sẽ là một thách thức kỹ thuật kéo dài. Ở giai đoạn hiện tại, sự cân bằng giữa tính tự động của công nghệ và sự kiểm soát của con người là yếu tố quan trọng nhất để đảm bảo an toàn thông tin trên không gian mạng.
Thách thức lâu dài trong việc bảo mật hệ thống AI
Trong một bài viết mới đây, OpenAI cho rằng prompt injection cũng giống như các hình thức lừa đảo hay thao túng tâm lý trên internet, rất khó để có thể giải quyết triệt để. Việc ra mắt chế độ tác nhân (agent mode) trên trình duyệt Atlas dù giúp người dùng làm việc hiệu quả hơn nhưng cũng vô tình mở rộng phạm vi mà kẻ tấn công có thể lợi dụng. Kể từ khi Atlas ra mắt vào tháng 10 năm 2025, nhiều chuyên gia bảo mật đã chứng minh rằng chỉ cần vài dòng chữ ẩn trong một tài liệu trực tuyến cũng đủ để làm thay đổi hành vi của trình duyệt AI. Không chỉ OpenAI, các cơ quan an ninh mạng quốc tế như NCSC của Anh cũng cảnh báo rằng những cuộc tấn công này nhắm vào AI tạo sinh có thể sẽ không bao giờ được ngăn chặn hoàn toàn, từ đó gây ra nguy cơ rò rỉ dữ liệu cho các trang web.
Giải pháp xử lý của OpenAI
Để đối phó với những nguy cơ thường trực, OpenAI đã phát triển một hệ thống tấn công tự động dựa trên mô hình ngôn ngữ lớn (LLM). Hệ thống này đóng vai trò như một “hacker ảo” được huấn luyện để liên tục tìm kiếm các lỗ hổng trong AI agent. Điểm đặc biệt là hệ thống này có thể chạy các mô phỏng để quan sát cách AI mục tiêu xử lý thông tin, từ đó tìm ra các phương thức tấn công mới mà ngay cả con người cũng chưa nghĩ tới. Trong một thử nghiệm thực tế, OpenAI cho thấy hệ thống này đã phát hiện ra cách một email có thể lừa AI gửi thư xin thôi việc thay vì soạn thư trả lời tự động như ý muốn của người dùng. Tuy nhiên, nhờ vào các đợt cập nhật và kiểm tra liên tục, trình duyệt Atlas hiện đã có khả năng nhận diện tốt hơn các nỗ lực tấn công này để cảnh báo cho người dùng kịp thời.
Dù các hãng công nghệ đang nỗ lực gia cố hệ thống, các chuyên gia bảo mật cho rằng người dùng vẫn cần có những biện pháp tự bảo vệ mình khi sử dụng các công cụ AI có quyền truy cập sâu vào dữ liệu cá nhân. Để hạn chế rủi ro, người dùng không nên cấp quyền quá rộng rãi cho AI như cho phép tự ý đọc toàn bộ hộp thư và thực hiện mọi hành động mà không cần hỏi lại. Thay vào đó, bạn nên đưa ra những chỉ dẫn cụ thể cho từng tác vụ và luôn yêu cầu AI phải có sự xác nhận của con người trước khi thực hiện các giao dịch quan trọng như thanh toán hóa đơn hoặc gửi thông tin nhạy cảm.
Việc sử dụng các trình duyệt AI như Atlas mang lại sự tiện lợi lớn nhưng cũng đi kèm với những rủi ro bảo mật thực tế. OpenAI đang áp dụng các chu kỳ kiểm tra và vá lỗi nhanh chóng để bảo vệ người dùng, nhưng lỗ hổng prompt injection vẫn sẽ là một thách thức kỹ thuật kéo dài. Ở giai đoạn hiện tại, sự cân bằng giữa tính tự động của công nghệ và sự kiểm soát của con người là yếu tố quan trọng nhất để đảm bảo an toàn thông tin trên không gian mạng.