ChatGPT: Không chỉ cần sức mạnh máy chủ, mà cần hàng nghìn người làm quản lý nội dung nữa

0707171758

NGUYỄN THANH VÂN

ChatGPT: Không chỉ cần sức mạnh máy chủ, mà cần hàng nghìn người làm quản lý nội dung nữa


Nếu có một cụm từ khóa hot nhất ngành công nghệ từ đầu năm tới giờ, đó chắc chắn phải là ChatGPT. Về cơ bản, đó chính là ứng dụng có độ phủ tăng nhanh nhất với hơn 100 triệu người dùng hàng tháng, dùng công cụ chatbot vào mọi nhu cầu xem thuật toán của mô hình ngôn ngữ có thể tạo ra những dạng văn bản như thế nào. Cùng lúc, bản thân ChatGPT cũng là cái tên được chọn làm ví dụ tiêu biểu cho cả những tiềm năng lẫn nguy cơ của AI đối với hàng triệu người lao động trong tương lai.

Như đã nói trong những lần trước, để huấn luyện mô hình ngôn ngữ quy mô lớn, khung xương của ChatGPT, rồi sau đó vận hành nó như một dịch vụ trực tuyến không dễ chút nào. OpenAI, với sự trợ giúp của Microsoft, ứng dụng hàng nghìn GPU Nvidia A100 và H100 đời mới nhất, giá mỗi chiếc GPU xử lý AI này dao động từ 10 tới 40 nghìn USD. Rồi kết nối những GPU này với nhau thành mạng lưới xử lý là hệ thống nguồn, network và cả thiết bị tản nhiệt nữa. Tiếp đến, hàng trăm nhà nghiên cứu và kỹ sư sẽ dùng những hệ thống như được mô tả ở trên để nghiên cứu những mô hình càng lúc càng phức tạp như GPT-4.

[IMG]


Có nguồn tin nói rằng, mỗi ngày để vận hành ChatGPT, chi phí cơ sở hạ tầng rơi vào khoảng 700 nghìn USD. Mà đó mới chỉ là chi phí hệ thống. Anh em có bao giờ thắc mắc vì sao những câu chữ ChatGPT tạo ra luôn tự nhiên, an toàn và đáng tin cậy hơn Google Bard không? Thuật toán tiên tiến hơn chỉ là một lý do. Nguyên nhân thứ hai, thứ ChatGPT có mà Bard không có, chính là sự can thiệp của con người dưới vai trò quản lý nội dung mà AI tạo ra.

Mới đây NBC News đã có một cuộc phỏng vấn những người quản lý nội dung cho ChatGPT, được OpenAI outsource từ những đơn vị khác. Những con người này đảm trách công việc phân tích những câu lệnh người dùng tạo ra, rồi từ đó có những tác động trực tiếp để dạy cho thuật toán AI biết nên phản hồi ra sao trước những lệnh như vậy.



Để dễ so sánh, quản lý nội dung cho ChatGPT làm việc không khác nhiều so với lúc anh em ngồi gõ CAPTCHA để đăng nhập hoặc làm một tác vụ nào đó trên các dịch vụ trực tuyến. Lấy trường hợp của reCAPTCHA, anh em gõ chữ không chỉ để chứng minh bản thân là con người, nhận diện được ký tự hoặc hình ảnh. Nhưng cùng lúc, chính người dùng đang giúp Google huấn luyện những mô hình AI chuyên biệt.

Đương nhiên công việc của những nhân sự outsource quản lý nội dung cho ChatGPT phức tạp hơn, nhưng luôn là điều không thể thiếu để tạo ra thành công cho chatbot AI này. NBC dẫn lời Alexej Savreux, 34 tuổi, sống ở thành phố Kansas, một trong hơn 1000 người đang làm “labeler” để vận hành ChatGPT cho rằng: “Bạn có thể thiết kế neural network thoải mái, có thể nhờ hàng trăm nhà nghiên cứu, nhưng nếu không có labeler, thì chắc chắn không có ChatGPT.”

Tinhte_AI4.jpg


Hiện tại, OpenAI đang thuê khoảng 1.000 người làm việc ở Mỹ, châu Mỹ Latin và Tây Âu để làm những công việc nặng về cường độ, từ đó cho phép cải thiện chất lượng dữ liệu đầu ra cho ChatGPT. Đối với Savreux, lý do anh chọn công việc rất nặng nhọc về mặt trí óc này là “mức lương 15 USD trở lên mỗi giờ”. Nhờ công việc này mà Savreux có tiền thuê nhà, không phải trở thành người vô gia cư. Một trường hợp khác, Jatin Kumar, thì là một sinh viên đại học với tấm bằng khoa học máy tính, chọn công việc này để tận mắt trải nghiệm xem AI tạo nội dung đã có những tiến bộ đến đâu, cùng lúc góp một tay để giúp công nghệ này trở nên có ích hơn.

Nói cách khác, ChatGPT thành công là nhờ chính bàn tay con người, đảm bảo mức độ chính xác và đáng tin cậy của thông tin. Google hoàn toàn không làm điều đó với Bard, và kết quả thế nào anh em cũng đã thấy.

Đó là còn chưa kể tới việc dù đang tạo ra rất nhiều lo ngại về việc AI sẽ thay thế con người, nhưng chúng ta thường để tâm nhiều hơn tới kết quả nội dung mà những mô hình ngôn ngữ tạo ra, chứ không để ý nhiều tới việc rò rỉ thông tin, quá phụ thuộc vào chatbot đối với những dự án quan trọng, hay mức độ đáng tin cậy của nội dung chatbot tạo ra đối với những công việc nhạy cảm về mặt thời gian.

Tinhte_AI5.jpg


Hồi tháng 1, đúng thời điểm ChatGPT là cụm từ khóa hot nhất hành tinh, tạp chí Time đã có một bài phóng sự điều tra một cơ sở làm việc của những labeler người Kenya, quản lý và thanh lọc nội dung cho ChatGPT. Cơ sở này thuộc quyền quản lý của Sama, một đơn vị nhận outsource nhân sự quản lý nội dung cho các tập đoàn nghiên cứu AI lớn, từ Google, Meta tới Microsoft, và cả OpenAI nữa.

Con số, hay đúng hơn là thông tin đáng nói nhất trong bài phóng sự của Time, đó là mức lương của những nhân sự Kenya phục vụ cho quá trình hoàn thiện của ChatGPT: Tối đa 2 USD một giờ, tối thiểu 1.32 USD một giờ. Trong hợp đồng giữa OpenAI và Sama ký cuối năm 2021 mà Time có được, OpenAI sẽ trả cho Sama 12.50 USD mỗi giờ làm việc. Phía Sama nói “mức giá 12.50 USD bao gồm toàn bộ các chi phí khác, như cơ sở hạ tầng, lương bổng cho nhân sự cũng như quản lý chất lượng từ các nhà phân tích và team leader.”

Nhiệm vụ của những labeler người Kenya, phục vụ việc hoàn thiện ChatGPT có thể được mô tả như thế này: Cung cấp cho thuật toán AI những ví dụ được con người đánh dấu trước, mô tả những câu chữ mang ý nghĩa bạo lực, thù hằn, kích động, phân biệt đối xử và chủng tộc, hay có dấu hiệu lạm dụng tình dục. Công cụ của ChatGPT, nhờ sự trợ giúp của hàng trăm người làm nhiệm vụ “đánh dấu”, sẽ biết những dạng nội dung này vi phạm quy định sử dụng dịch vụ. Nhờ đó, những thông tin độc hại sẽ bị chặn trước khi nó hiện ra trước mắt người dùng ChatGPT.

Cover_AI.jpg


Có lẽ một phần trong bài viết này cũng mô tả chính xác lý do vì sao bài phóng sự ấy chìm nghỉm giữa lúc ChatGPT tạo ra độ phủ toàn cầu:

“Câu chuyện về những công nhân giúp huấn luyện ChatGPT đã tạo ra cái nhìn sơ qua về điều kiện lao động trong cái góc ít người để ý của ngành công nghiệp AI. Ít ai để ý, nhưng nó lại đóng vai trò cực kỳ quan trọng trong việc biến những công cụ AI trở nên an toàn hơn cho cộng đồng sử dụng.

Partnership on AI cho rằng: ”Bất chấp việc họ, những chuyên gia củng cố dữ liệu, đang làm nhiệm vụ đóng vai trò nền tảng, nhưng càng lúc càng có nhiều bằng chứng cho thấy điều kiện làm việc bấp bênh mà những người lao động phải đối mặt. Đây có thể chính là kết quả của những nỗ lực che giấu sự phụ thuộc của AI vào lực lượng lao động đông đảo này, còn bề ngoài thì tôn vinh những kết quả mà công nghệ đã đạt được. Nói cách khác, khuất mắt trông coi.""



Anh em nếu từng đọc những bài viết mô tả cuộc sống của một moderator quản trị nội dung cho những mạng xã hội lớn như Twitter, YouTube hay Facebook, hàng ngày phải nhìn, phải đọc và phải thanh lọc những nội dung gây ám ảnh, thì điều tương tự cũng xảy ra với những labeler đánh dấu dữ liệu độc hại cho ChatGPT.

Tinhte_AI2.jpeg


Những hình ảnh ấy là gì, trong bài viết của Time có mô tả rất kỹ, cũng như tác động khủng khiếp của chúng đối với tâm lý người lao động. Còn ở đây, mình chỉ xin phép tả chúng là những hình ảnh ghê rợn và bệnh hoạn nhất, mà những góc tối nhất trong tâm trí một con người có thể tưởng tượng ra.

Khoảng hơn 30 người Kenya, chia thành 3 nhóm thuộc biên chế Sama được tờ Time phỏng vấn kể lại, một ca làm việc của họ kéo dài 9 tiếng, phải đọc từ 150 đến 250 đoạn văn dài từ 100 đến hơn 1000 từ trong khoảng thời gian làm việc. Ba nhóm ấy được chia ra làm công việc cụ thể, đó là đánh dấu những thông tin mang nội dung lạm dụng tình dục, hoặc bạo lực, hoặc thù ghét. Rất nhiều người trong số đó đều bị tổn thương tâm lý sau khi đọc được những thứ họ được giao để đánh dấu.

Tinhte_AI1.jpg


Tháng 2/2022, mối quan hệ của OpenAI và Sama được củng cố, nhưng nhanh chóng trở nên tồi tệ, khi OpenAI yêu cầu Sama tổng hợp và gửi họ những tấm hình khiêu dâm và bạo lực, nhiều hình trong số đó nếu tồn tại ở đất Mỹ thì sẽ bị coi là vi phạm luật pháp, đủ cơ sở để bị truy tố hình sự. OpenAI chỉ nói những hình ảnh ấy và việc đánh dấu chúng sẽ giúp AI an toàn hơn. Tờ Time phát hiện ra, có thời điểm Sama đã gửi cho OpenAI 1.400 bức hình. Nhiều hình trong số đó được đánh mã C4, tức là hình ảnh quấy rối tình dục trẻ em. Những hình thuộc nhóm C3 liên quan tới việc quấy rối tình dục, hoặc V3 liên quan tới hình ảnh cực kỳ bạo lực.

Chỉ trong vài tuần kể từ khi nhận việc mới, Sama quyết định hủy toàn bộ công việc mà OpenAI outsource sang cho họ, 8 tháng trước thời hạn đã thỏa thuận trong hợp đồng. Tác động tích cực, là nhân sự của công ty này không phải đối mặt với những hình ảnh ghê rợn, ám ảnh nữa. Còn tác động tiêu cực, đó là họ mất luôn khoản 70 USD hàng tháng, chi phí bồi thường công việc độc hại, có người còn mất luôn việc, vì đâu còn việc cho họ làm nữa.
 
Bên trên