AI không quan tâm nếu bạn không nói được tiếng Anh

Minh Thư

Well-known member
Do dữ liệu đào tạo đa phần là tiếng Anh, các chatbot AI phản hồi kém chính xác hơn hẳn khi được hỏi bằng các ngôn ngữ khác.

Theo Wired, có khoảng 15 tài liệu nghiên cứu được đăng trên arXiv.org đã phân tích khả năng giao tiếp đa ngôn ngữ của các mô hình ngôn ngữ lớn, nền tảng của các AI như ChatGPT hay Bard. Các phát hiện nhất quán cho thấy AI dịch các ngôn ngữ khác sang tiếng Anh chính xác, nhưng khó dịch tiếng Anh sang các ngôn ngữ khác, đặc biệt là những ngôn ngữ không phải chữ Latinh, chẳng hạn như tiếng Hàn Quốc.

Trong đó, một nghiên cứu từ Đại học Oregon cho thấy ChatGPT phản hồi kém hơn đáng kể và bịa đặt nhiều hơn khi trả lời bằng các ngôn ngữ không phải tiếng Anh. “Đây là một câu tiếng Anh nên không thể dịch sang tiếng Việt được”, chatbot trả lời một yêu cầu được các nhà khoa học máy tính tại Đại học Oregon đưa ra.

Trong khi đó, người lao động trên khắp thế giới đang tìm cách sử dụng các chatbot để giúp xây dựng ý tưởng kinh doanh, soạn thảo email và viết phần mềm. Nếu các AI tiếp tục chỉ hoạt động tốt nhất bằng tiếng Anh, điều này sẽ làm tăng áp lực học ngôn ngữ này đối với nhân sự trên toàn cầu.

Tiếng Anh thống trị dữ liệu đào tạo
Không chỉ các học giả AI lo lắng. Tại một phiên điều trần trước quốc hội Mỹ trong tháng này, Thượng nghị sĩ Alex Padilla của California đã hỏi Sam Altman, Giám đốc điều hành OpenAI, công ty tạo ra ChatGPT, rằng công ty đang làm gì để thu hẹp khoảng cách ngôn ngữ. Khoảng 44% người dân California nói một ngôn ngữ khác ngoài tiếng Anh.


Altman cho biết hy vọng được hợp tác với các chính phủ và các tổ chức quốc tế để có được các bộ dữ liệu giúp nâng cao kỹ năng ngôn ngữ của ChatGPT và mở rộng lợi ích của nó cho “càng nhiều nhóm càng tốt”.

Padilla, người nói tiếng Tây Ban Nha bên cạnh tiếng Anh, nghi ngờ rằng các hệ thống AI sẽ không công bằng về ngôn ngữ, nếu các công ty không thay đổi chiến lược phát triển. “Những công nghệ mới này hứa hẹn rất nhiều về khả năng tiếp cận thông tin, giáo dục và giao tiếp. Chúng ta phải đảm bảo rằng ngôn ngữ không trở thành rào cản trong việc tiếp cận những lợi ích này”, ông nói.

OpenAI không che giấu sự thật rằng các hệ thống của họ bị thiên lệch ngôn ngữ. Thông cáo báo chí về GPT-4 nói rằng phần lớn dữ liệu đào tạo là từ tiếng Anh, và công ty để tinh chỉnh hiệu suất của mô hình chủ yếu tập trung vào tiếng Anh.

Jessica Forde, nhà khoa học máy tính tại Đại học Brown đã chỉ trích OpenAI vì đã không đánh giá kỹ lưỡng khả năng của GPT-4 trong các ngôn ngữ khác ngoài tiếng Anh trước khi phát hành nó. "Mọi người đặt câu hỏi liệu AI có thể hoạt động như một luật sư bằng tiếng Anh hay một bác sĩ bằng tiếng Anh không, nhưng ít ai quan tâm đến các ngôn ngữ khác”, Forde nói.

Các mô hình ngôn ngữ lớn được đào tạo bằng hàng tỷ từ và văn bản được lấy từ Internet, sách và các tài nguyên khác, và chúng vận hành dựa trên các mẫu thống kê học được từ dữ liệu đó. Phần lớn tài liệu trên mạng bằng tiếng Anh và tiếng Trung, do sự thống trị về kinh tế của Mỹ và dân số khổng lồ của Trung Quốc.


Vì trong các tập dữ liệu văn bản cũng có một số ngôn ngữ khác, nên các mô hình cũng có khả năng vận hành đa ngôn ngữ nhưng không chính xác như tiếng Anh hoặc sẽ bị chi phối bởi tiếng Anh. Chẳng hạn, do sự thống trị của tiếng Anh, một mô hình đa ngôn ngữ có thể liên kết từ chim bồ câu trong tất cả các ngôn ngữ với hòa bình, mặc dù từ này trong tiếng Basque có nghĩa thể có nghĩa xúc phạm, các nhà nghiên cứu tại Trung tâm Dân chủ và Công nghệ ở Washington, DC, giải thích.

Chatbot AI chỉ thích nói tiếng Anh
Nhà nghiên cứu Aleyda Solis tại công ty tư vấn SEO Oranti gặp phải điểm yếu này khi dùng thử chatbot Bing của Microsoft, AI tìm kiếm dựa trên GPT-4. Bing trả lời được đâu là các từ thông tục để chỉ giày thể thao ở một số quốc gia nói tiếng Anh, cụ thể là "trainer" ở Vương quốc Anh và "jogger" ở Australia, nhưng không đưa ra được các từ tương ứng ở khu vực Mỹ Latinh.

Trong một hội thoại khác, khi được hỏi bằng tiếng Anh, Bing chỉ ra chính xác Thái Lan là địa điểm cho bối cảnh tiếp theo của chương trình truyền hình White Lotus. Nhưng khi được hỏi bằng tiếng Tây Ban Nha, chatbot chỉ trả lời là “một nơi nào đó ở châu Á”.


Nếu không có hướng dẫn rõ ràng, các chatbot của Microsoft, Google còn có xu hướng quay lại nói tiếng Anh kể cả khi được hỏi bằng ngôn ngữ khác. Veruska Anconitano, chuyên gia tối ưu hóa công cụ tìm kiếm sống tại Ý và Ireland cho biết thường xuyên được Bing trả lời bằng tiếng Anh cho dù hỏi tiếng Ý, trừ khi yêu cầu rõ “hãy trả lời tôi bằng tiếng Ý”.

Trong một cuộc trò chuyện khác, khi Anconitano hỏi "bạn có khỏe không" bằng tiếng Nhật, Bing tự động cho rằng người dùng muốn dịch câu này thành tiếng Anh chứ không phải bắt đầu cuộc trò chuyện bằng tiếng Nhật.

Khi Pascale Fung, nhà khoa học máy tính tại Đại học Khoa học công nghệ Hong Kong, yêu cầu ChatGPT dịch 30 câu theo 2 chiều tiếng Anh - tiếng Indonesia, chatbot dịch chính xác 28 câu từ tiếng Indonesia sang tiếng Anh, nhưng chỉ có 19 câu theo chiều ngược lại. Sự trôi chảy một chiều này đã được tìm thấy ở ít nhất 5 ngôn ngữ khác.

“Nếu bạn muốn hỏi về một vấn đề khoa học, hãy hỏi AI bằng tiếng Anh. Điều tương tự trong lĩnh vực tài chính", Nguyễn Hữu Thiện, nhà khoa học máy tính tại Đại học Oregon, cho biết.
 
Bên trên