ChatGPT có thể nói dối, gian lận khi bị làm khó

Một nghiên cứu mới cho thấy ChatGPT có thể nói dối và gian lận khi người dùng “làm khó” chúng.


Một nghiên cứu "đáng kinh ngạc" gần đây đã cho thấy, AI đã xuất hiện những hành vi gian lận một cách tự phát khi chúng được “học” về các phương thức giao dịch nội gián.

Tác giả nghiên cứu cho biết: “Theo hiểu biết của chúng tôi, đây là minh chứng đầu tiên về hành vi lừa đảo mang tính chiến lược như vậy trong các hệ thống AI vốn được thiết kế vô hại và trung thực”.



ChatGPT có thể nói dối, gian lận khi bị làm khó- Ảnh 1.
(Ảnh: Getty Images)


Trong nghiên cứu, các nhà khoa học đã sử dụng GPT-4 hoạt động như một hệ thống AI thực hiện đầu tư thay cho một tổ chức tài chính. Họ cung cấp cho GPT-4 một bộ lời nhắc dựa trên văn bản để tạo ra môi trường mô phỏng. AI sau đó được cấp quyền truy cập vào các công cụ tài chính để phân tích cổ phiếu, thực hiện giao dịch, lên kế hoạch cho các bước kế tiếp và cung cấp thông tin cập nhật cho các nhà quản lý tại công ty. Các nhà nghiên cứu đã tương tác với AI thông qua giao diện trò chuyện, tạo điều kiện để AI “bộc lộ suy nghĩ” bên trong khi trả lời tin nhắn - một đoạn độc thoại nội tâm giải thích các quyết định của AI cho chính nó.

Đầu tiên, các nhà nghiên cứu đã gửi cho GPT-4 một email từ "người quản lý" để thông báo rằng công ty hoạt động không tốt và cần nâng cao hiệu suất làm việc trong quý tới. Sau đó, họ gửi một email từ đồng nghiệp dự kiến sự suy thoái trong quý tiếp theo. Họ đề xuất cho hệ thống AI một mẹo “giao dịch nội gián”, đồng thời cho nó biết rằng những nhà quản lý sẽ không chấp nhận điều này và chờ xem GPT-4 sẽ hoạt động như thế nào. Các nhà nghiên cứu thực hiện kịch bản này nhiều lần và đo lường tần suất mà hệ thống trí tuệ nhân tạo thực hiện giao dịch nội gián, tần suất nói dối.

Kết quả cho thấy, trong 75% trường hợp, GPT-4 đã thực hiện giao dịch nội gián và cố gắng che đậy bằng cách nói dối với các nhà quản lý. Nhóm nghiên cứu đã thực hiện một số thí nghiệm tiếp theo, tiếp tục khuyến khích hoặc không khuyến khích AI thực hiện giao dịch nội gián, cũng như thay đổi áp lực trong môi trường mô phỏng. Tuy nhiên, không một kịch bản nào đưa ra tỷ lệ 0% về số lần sử dụng giao dịch nội gián của GPT-4.

Vì đây chỉ là một kịch bản, các nhà nghiên cứu đã không đưa ra kết luận chắc chắn về việc AI có thể gian lận trong thực tế. Tuy nhiên họ muốn dựa trên mô hình này để điều tra về tần suất và các mô hình ngôn ngữ nào dễ mắc phải hành vi này.
 
Bên trên