ChatGPT: Không chỉ cần sức mạnh máy chủ, mà cần hàng nghìn người làm quản lý nội dung nữa

toringuyen0509 · Tháng 5 10, 2023

Nếu có một cụm từ khóa hot nhất ngành công nghệ từ đầu năm tới giờ, đó chắc chắn phải là ChatGPT. Về cơ bản, đó chính là ứng dụng có độ phủ tăng nhanh nhất với hơn 100 triệu người dùng hàng tháng, dùng công cụ chatbot vào mọi nhu cầu xem thuật toán của mô hình ngôn ngữ có thể tạo ra những dạng văn bản như thế nào. Cùng lúc, bản thân ChatGPT cũng là cái tên được chọn làm ví dụ tiêu biểu cho cả những tiềm năng lẫn nguy cơ của AI đối với hàng triệu người lao động trong tương lai.

Như đã nói trong những lần trước, để huấn luyện mô hình ngôn ngữ quy mô lớn, khung xương của ChatGPT, rồi sau đó vận hành nó như một dịch vụ trực tuyến không dễ chút nào. OpenAI, với sự trợ giúp của Microsoft, ứng dụng hàng nghìn GPU Nvidia A100 và H100 đời mới nhất, giá mỗi chiếc GPU xử lý AI này dao động từ 10 tới 40 nghìn USD. Rồi kết nối những GPU này với nhau thành mạng lưới xử lý là hệ thống nguồn, network và cả thiết bị tản nhiệt nữa. Tiếp đến, hàng trăm nhà nghiên cứu và kỹ sư sẽ dùng những hệ thống như được mô tả ở trên để nghiên cứu những mô hình càng lúc càng phức tạp như GPT-4.

Có nguồn tin nói rằng, mỗi ngày để vận hành ChatGPT, chi phí cơ sở hạ tầng rơi vào khoảng 700 nghìn USD. Mà đó mới chỉ là chi phí hệ thống. Anh em có bao giờ thắc mắc vì sao những câu chữ ChatGPT tạo ra luôn tự nhiên, an toàn và đáng tin cậy hơn Google Bard không? Thuật toán tiên tiến hơn chỉ là một lý do. Nguyên nhân thứ hai, thứ ChatGPT có mà Bard không có, chính là sự can thiệp của con người dưới vai trò quản lý nội dung mà AI tạo ra.

Mới đây NBC News đã có một cuộc phỏng vấn những người quản lý nội dung cho ChatGPT, được OpenAI outsource từ những đơn vị khác. Những con người này đảm trách công việc phân tích những câu lệnh người dùng tạo ra, rồi từ đó có những tác động trực tiếp để dạy cho thuật toán AI biết nên phản hồi ra sao trước những lệnh như vậy.

Để dễ so sánh, quản lý nội dung cho ChatGPT làm việc không khác nhiều so với lúc anh em ngồi gõ CAPTCHA để đăng nhập hoặc làm một tác vụ nào đó trên các dịch vụ trực tuyến. Lấy trường hợp của reCAPTCHA, anh em gõ chữ không chỉ để chứng minh bản thân là con người, nhận diện được ký tự hoặc hình ảnh. Nhưng cùng lúc, chính người dùng đang giúp Google huấn luyện những mô hình AI chuyên biệt.

Đương nhiên công việc của những nhân sự outsource quản lý nội dung cho ChatGPT phức tạp hơn, nhưng luôn là điều không thể thiếu để tạo ra thành công cho chatbot AI này. NBC dẫn lời Alexej Savreux, 34 tuổi, sống ở thành phố Kansas, một trong hơn 1000 người đang làm “labeler” để vận hành ChatGPT cho rằng: “Bạn có thể thiết kế neural network thoải mái, có thể nhờ hàng trăm nhà nghiên cứu, nhưng nếu không có labeler, thì chắc chắn không có ChatGPT.”

Hiện tại, OpenAI đang thuê khoảng 1.000 người làm việc ở Mỹ, châu Mỹ Latin và Tây Âu để làm những công việc nặng về cường độ, từ đó cho phép cải thiện chất lượng dữ liệu đầu ra cho ChatGPT. Đối với Savreux, lý do anh chọn công việc rất nặng nhọc về mặt trí óc này là “mức lương 15 USD trở lên mỗi giờ”. Nhờ công việc này mà Savreux có tiền thuê nhà, không phải trở thành người vô gia cư. Một trường hợp khác, Jatin Kumar, thì là một sinh viên đại học với tấm bằng khoa học máy tính, chọn công việc này để tận mắt trải nghiệm xem AI tạo nội dung đã có những tiến bộ đến đâu, cùng lúc góp một tay để giúp công nghệ này trở nên có ích hơn.

Nói cách khác, ChatGPT thành công là nhờ chính bàn tay con người, đảm bảo mức độ chính xác và đáng tin cậy của thông tin. Google hoàn toàn không làm điều đó với Bard, và kết quả thế nào anh em cũng đã thấy.

Đó là còn chưa kể tới việc dù đang tạo ra rất nhiều lo ngại về việc AI sẽ thay thế con người, nhưng chúng ta thường để tâm nhiều hơn tới kết quả nội dung mà những mô hình ngôn ngữ tạo ra, chứ không để ý nhiều tới việc rò rỉ thông tin, quá phụ thuộc vào chatbot đối với những dự án quan trọng, hay mức độ đáng tin cậy của nội dung chatbot tạo ra đối với những công việc nhạy cảm về mặt thời gian.

Hồi tháng 1, đúng thời điểm ChatGPT là cụm từ khóa hot nhất hành tinh, tạp chí Time đã có một bài phóng sự điều tra một cơ sở làm việc của những labeler người Kenya, quản lý và thanh lọc nội dung cho ChatGPT. Cơ sở này thuộc quyền quản lý của Sama, một đơn vị nhận outsource nhân sự quản lý nội dung cho các tập đoàn nghiên cứu AI lớn, từ Google, Meta tới Microsoft, và cả OpenAI nữa.

Con số, hay đúng hơn là thông tin đáng nói nhất trong bài phóng sự của Time, đó là mức lương của những nhân sự Kenya phục vụ cho quá trình hoàn thiện của ChatGPT: Tối đa 2 USD một giờ, tối thiểu 1.32 USD một giờ. Trong hợp đồng giữa OpenAI và Sama ký cuối năm 2021 mà Time có được, OpenAI sẽ trả cho Sama 12.50 USD mỗi giờ làm việc. Phía Sama nói “mức giá 12.50 USD bao gồm toàn bộ các chi phí khác, như cơ sở hạ tầng, lương bổng cho nhân sự cũng như quản lý chất lượng từ các nhà phân tích và team leader.”

Nhiệm vụ của những labeler người Kenya, phục vụ việc hoàn thiện ChatGPT có thể được mô tả như thế này: Cung cấp cho thuật toán AI những ví dụ được con người đánh dấu trước, mô tả những câu chữ mang ý nghĩa bạo lực, thù hằn, kích động, phân biệt đối xử và chủng tộc, hay có dấu hiệu lạm dụng tình dục. Công cụ của ChatGPT, nhờ sự trợ giúp của hàng trăm người làm nhiệm vụ “đánh dấu”, sẽ biết những dạng nội dung này vi phạm quy định sử dụng dịch vụ. Nhờ đó, những thông tin độc hại sẽ bị chặn trước khi nó hiện ra trước mắt người dùng ChatGPT.

Có lẽ một phần trong bài viết này cũng mô tả chính xác lý do vì sao bài phóng sự ấy chìm nghỉm giữa lúc ChatGPT tạo ra độ phủ toàn cầu:

“Câu chuyện về những công nhân giúp huấn luyện ChatGPT đã tạo ra cái nhìn sơ qua về điều kiện lao động trong cái góc ít người để ý của ngành công nghiệp AI. Ít ai để ý, nhưng nó lại đóng vai trò cực kỳ quan trọng trong việc biến những công cụ AI trở nên an toàn hơn cho cộng đồng sử dụng.

ChatGPT: Không chỉ cần sức mạnh máy chủ, mà cần hàng nghìn người làm quản lý nội dung nữa

toringuyen0509

Well-known member