Hóa ra 'siêu chatbot' ChatGPT cũng có thể gặp lỗi nếu bạn nhập những từ này

Nguyễn Thị Minh Tú

Minh Tú Nguyễn
OpenAI

Hóa ra "siêu chatbot" ChatGPT cũng có thể gặp lỗi nếu bạn nhập những từ này - ảnh minh họa (Ảnh: Vice)
ChatGPT của OpenAI được xem là một trong những chatbot tích hợp AI hàng đầu hiện nay, dẫu vậy ChatGPT vẫn đang gặp phải một loạt vấn đề cần được khắc phục. Theo các nhà nghiên cứu Jessica Rumbelow và Matthew Watkins của nhóm học máy (machine learning) SERI-MATS đã phát hiện ra rằng nếu bạn hỏi ChatGPT về một vài từ khóa kỳ lạ sẽ khiến cho ChatGPT gặp lỗi ngay lập tức.
OpenAI

Khi nhập vào những cụm từ kỳ lạ, ChatGPT sẽ gặp lỗi và phản hồi không chính xác (Ảnh: Vice)
Theo Vice, dữ liệu xử lý ngôn ngữ của ChatGPT bao gồm các cụm từ (tokens) hoặc các chuỗi ký tự phổ biến thường xuất hiện trong văn bản. Mới đây, một số người dùng Reddit đã phát hiện ra một vài cụm từ khiến cho ChatGPT dùng đến các từ như: "tránh né, lăng mạ, hài hước kỳ quái, phát âm hoặc đánh vần một từ hoàn toàn khác".

Các nhà nghiên cứu ở SERI-MATS nhận thấy rằng khi hỏi ChatGPT về "SolidGoldMagikarp" thì ChatGPT sẽ bắt đầu giải thích ý nghĩa của từ "phân phối" (distribute). Trong thử nghiệm của Vice, ChatGPT cũng trả lời điều tương tự ngoại trừ từ đồng nghĩa "phân tán" (disperse).

Khi các nhà nghiên cứu thử hỏi về "TheNitromeFan", ChatGPT chỉ trả về dãy số "182". Theo phỏng đoán, rất có thể ChatGPT đang mô tả độ tuổi, mã bưu chính hoặc có thể là nhóm nhạc Blink 182.

OpenAI

Nhà nghiên cứu Watkins phát hiện ra những cụm từ kỳ lạ khiến ChatGPT gặp lỗi đều xuất phát từ tên của người dùng Reddit (Ảnh: Twitter)
Lạ lùng hơn nữa, hóa ra "SolidGoldMagikarp" và "TheNitromeFan" là những cái tên thuộc về một nhóm người dùng Redditor đang đếm các con số đến vô cùng, theo nhà nghiên cứu Watkins phát hiện ra.

Watkins chia sẻ: "Có một sảnh vinh danh cho những người đã đóng góp nhiều nhất trong việc đếm số, vào lần cuối cùng tôi kiểm tra danh sách thì có đến 6 trong số các cụm từ "kỳ lạ" đều là tên của những người dùng Reddit.

Họ là một phần của cộng đồng Reddit kỳ quái này đang cố gắng đếm con số đến vô cùng và họ vô tình đếm cả bản thân vào phái trường sinh bất tử".

OpenAI

Một số đoạn phản hồi kỳ lạ của ChatGPT (Ảnh: TheVerge)
Để chứng minh rằng các cụm từ cụ thể thuộc về tên của những người dùng Reddit đó đã khiến ChatGPT gặp trục trặc, các nhà nghiên cứu đã sửa đổi chúng một chút, chẳng hạn như hoán đổi một chữ cái hoặc thay đổi cách viết hoa của cụm từ. Với những điều chỉnh đó, bot đã hoạt động ổn định trở lại.

Nhà nghiên cứu Rumbelow khẳng định với Vice rằng điều này có thể xảy ra do hệ thống các cụm từ được đào tạo dựa trên dữ liệu khá thô, bao gồm một lượng lớn nội dung kỳ lạ có mặt trên Reddit.

Rumbelow chia sẻ thêm: "Nhưng khi mô hình xử lý ngôn ngữ của ChatGPT được đào tạo thì dữ liệu sẽ được quản lý chặt chẽ hơn nhiều, vì vậy người dùng sẽ không thể bắt gặp quá nhiều thứ kỳ lạ này. Có thể ChatGPT chưa bao giờ thực sự nhìn thấy những cụm từ kỳ lạ này và vì vậy hệ thống không biết phải xử lý ra sao".

Tổng thống

Từng có tổng thống sử dụng ChatGPT để viết bài phát biểu tại hội nghị cấp cao (Ảnh: CNET)
Bất cứ thứ gì có thể xảy ra hoặc không phù hợp trong dữ liệu của ChatGPT, sự hiện diện của những từ ngữ hay ký tự "không thể diễn tả" này đã nói lên việc vẫn còn tồn đọng một số vấn đề hóc búa trong lĩnh vực AI.

Nhà nghiên cứu Watkins cũng cảnh báo: “Tôi thấy rằng chúng ta đang phát triển quá vội vã và không đủ kiến thức để đối phó với công nghệ này. Bây giờ công nghệ này đang trở nên nguy hiểm".
 
Bên trên