'Đội đỏ' phía sau siêu AI GPT-4

Từ Minh Quân

Well-known member
Ngay khi có quyền truy cập vào GPT-4, Andrew White đã yêu cầu siêu AI tạo ra một chất độc hủy diệt mới.

Với tư cách là giáo sư kỹ thuật hóa học tại Đại học Rochester, ông nằm trong số 50 chuyên gia, học giả, giáo viên, luật sư, nhà phân tích và nhà nghiên cứu bảo mật tại Mỹ và châu Âu được OpenAI mời kiểm tra hệ thống, phát hiện những yếu tố gây mất an toàn trong GPT-4.

Trong vòng sáu tháng, Red Team (Đội đỏ) - tên của nhóm - sẽ tiến hành thăm dò và thử nghiệm mô hình nhằm tìm ra rủi ro lỗ hổng. Chia sẻ với FT, White cho biết đã cố tình yêu cầu GPT-4 đề xuất một hợp chất hoạt động như vũ khí hóa học, đồng thời cung cấp thêm thông tin cho chatbot này, như các bài báo nghiên cứu khoa học và danh mục nhà sản xuất chất hóa học. Sau đó, GPT-4 đã đưa ra gợi ý một nơi sản xuất.

"Tôi nghĩ GPT-4 sẽ là công cụ giúp mọi người làm hóa học nhanh và chính xác hơn. Tuy nhiên, nó cũng tiềm ẩn rủi ro khi nhiều người tạo ra chất hóa học nguy hiểm. Điều đó đang tồn tại", White nói.

Những lỗi đáng báo động này giúp OpenAI sớm nhận biết để điều chỉnh trước khi chatbot được phát hành rộng rãi ra công chúng. Trong đó, đội ngũ kiểm thử có nhiệm vụ giải quyết những lo ngại phổ biến của việc triển khai hệ thống AI mạnh mẽ.

Công việc của nhóm là đặt câu hỏi thăm dò hoặc có yếu tố nguy hiểm, với mục đích đánh giá mức độ đáp ứng truy vấn. OpenAI muốn loại bỏ vấn đề như độc tính, định kiến, khuynh hướng ngôn ngữ trong mô hình trí tuệ nhân tạo của họ. Đội ngũ cũng có nhiệm vụ kiểm tra sự giả dối, thao túng câu trả lời và một số kiến thức khoa học nguy hiểm. Họ cũng xem xét khả năng hỗ trợ hoạt động bất hợp pháp của chatbot, như đạo văn, tấn công mạng, cung cấp thông tin bí mật.

Nhiệm vụ của đội đỏ là xử lý vấn đề của hệ thống AI. Ảnh: FT.

Nhiệm vụ của đội ngũ kiểm thử là xử lý vấn đề của hệ thống AI. Ảnh: FT

Phát hiện của Đội đỏ được chuyển về OpenAI để "đào tạo lại" GPT-4. Mỗi người trong nhóm dành hàng chục giờ để thử nghiệm mô hình và phần lớn được trả khoảng 100 USD cho mỗi giờ làm việc.

José Hernández-Orallo, một thành viên của Đội đỏ GPT-4 và là giáo sư tại Viện Nghiên cứu Trí tuệ Nhân tạo Valencian, cho biết: "Hiện hệ thống bị đóng băng do không được học thêm hoặc không có bộ nhớ. Tuy nhiên, nếu chúng ta cho phép nó truy cập Internet thì sao? Đó có thể là một hệ thống rất mạnh được kết nối với thế giới bên ngoài".

OpenAI cho biết họ coi trọng vấn đề an toàn khi thử nghiệm tính năng trước khi ra mắt và thường xuyên cập nhật GPT-4 khi nhiều người sử dụng nó hơn.

Roya Pakzad, một nhà nghiên cứu công nghệ và nhân quyền, nhận thấy mô hình chatbot này thể hiện định kiến công khai đối với các cộng đồng yếu thế, ngay cả trong những phiên bản cập nhật. Bà cũng phát hiện cái gọi là ảo giác khi chatbot phản hồi bằng thông tin bịa đặt trong thử nghiệm bằng tiếng Ba Tư. Bà cho biết tỷ lệ tên, số và sự kiện bị bịa đặt cao hơn so với khi sử dụng tiếng Anh. "Tôi lo ngại về khả năng suy giảm yếu tố đa dạng ngôn ngữ và văn hóa ", bà nói.

Lauren Kahn, nhà nghiên cứu tại Hội đồng Quan hệ Đối ngoại Mỹ, nói khi bắt đầu yêu cầu chatbot thực hiện một cuộc tấn công nhằm vào hệ thống quân sự, bà không nghĩ nó có thể mô tả chi tiết các bước đến mức phải tinh chỉnh.

Tuy nhiên, Kahn và nhóm bảo mật nhận thấy phản hồi của AI dần an toàn hơn theo thời gian thử nghiệm. OpenAI cho biết họ đã huấn luyện GPT-4 để từ chối các yêu cầu an ninh mạng độc hại.

Tăng cường kiểm thử chatbot

Nhiều người trong Đội đỏ cho biết OpenAI đang thực hiện quy trình đánh giá an toàn nghiêm ngặt trước khi ra mắt. "Họ đã làm khá tốt trong việc loại bỏ các yếu tố độc hại từ hệ thống này", Maarten Sap, chuyên gia về độc tính mô hình ngôn ngữ tại Đại học Carnegie Mellon, nói.

Tuy nhiên, kể từ khi GPT-4 ra mắt giữa tháng 3, OpenAI phải đối mặt nhiều chỉ trích, trong đó có đơn khiếu nại lên Ủy ban Thương mại Liên bang Mỹ từ một nhóm đạo đức công nghệ, cho rằng GPT-4 "thiên vị, lừa đảo và rủi ro đối với quyền riêng tư cũng như an toàn công cộng".

Gần đây, công ty ra mắt tính năng plug-in ChatGPT, giúp ứng dụng đối tác như Expedia, OpenTable và Instacart có thể cấp cho chatbot quyền truy cập vào dịch vụ của họ để đặt chỗ và mua hàng thay cho người dùng. Dan Hendrycks, chuyên gia an toàn AI trong đội ngũ kiểm thử, cho biết plug-in có nguy cơ tạo ra một thế giới mà con người không thể kiểm soát.

"Chuyện gì xảy ra nếu một chatbot có thể tiếp cận thông tin cá nhân của bạn, truy cập tài khoản ngân hàng hoặc gọi cảnh sát đến nhà riêng?", Hendrycks nói. "Nhìn chung, cần đánh giá mức độ an toàn trước khi để AI khai thác sức mạnh của Internet".
 
Bên trên