Google đang tìm giải pháp đánh dấu các nội dung do AI tạo ra

Thanh Thúy

Well-known member
Cuộc cách mạng chatbot đã tràn ngập thế giới của chúng ta với văn bản do AI tạo ra: Nó len lỏi vào nguồn cấp dữ liệu tin tức, bài tập học thuật và hộp thư đến của chúng ta. Sự bùng nổ của văn bản AI đã thúc đẩy sự ra đời của những ngành công nghiệp mới chuyên cung cấp các giải pháp đối phó. Một số công ty cung cấp dịch vụ xác định văn bản do AI tạo ra bằng cách phân tích nội dung, trong khi những công ty khác lại quảng cáo công cụ của họ có thể "nhân hóa" văn bản AI và làm cho nó không thể bị phát hiện. Tuy nhiên, hiệu quả của cả hai loại công cụ này vẫn còn gây tranh cãi, và khi chatbot ngày càng trở nên tinh vi, việc phân biệt văn bản do con người hay thuật toán tạo ra sẽ ngày càng khó khăn hơn.

Một hướng tiếp cận khác đang được xem xét là nhúng một loại "dấu chìm" hay chứng chỉ nội dung vào văn bản ngay từ đầu, cho phép dễ dàng kiểm tra xem văn bản có phải do AI tạo ra hay không. Nghiên cứu mới từ Google DeepMind, được công bố trên tạp chí Nature, đã đề xuất một phương pháp khả thi cho vấn đề này. Hệ thống có tên SynthID-Text, được cho là không ảnh hưởng đến “chất lượng, độ chính xác, tính sáng tạo hoặc tốc độ tạo văn bản”, theo Pushmeet Kohli, phó chủ tịch nghiên cứu tại Google DeepMind và đồng tác giả của nghiên cứu. Tuy nhiên, các nhà nghiên cứu thừa nhận rằng hệ thống của họ vẫn chưa hoàn hảo và chưa được phổ biến rộng rãi - nó giống như một bản demo hơn là một giải pháp khả thi trên quy mô lớn.

Google cũng công bố họ đã tích hợp hệ thống watermark mới này vào chatbot Gemini. Công ty cũng đã mở mã nguồn công cụ này và cung cấp cho các nhà phát triển và doanh nghiệp, cho phép họ sử dụng để xác định xem đầu ra văn bản có đến từ các mô hình ngôn ngữ lớn (LLM) của riêng họ hay không. Tuy nhiên, hiện tại chỉ Google và các nhà phát triển này có quyền truy cập vào bộ phát hiện watermark. Như Kohli chia sẻ: “Mặc dù SynthID không phải là giải pháp hoàn hảo cho việc xác định nội dung do AI tạo ra, nhưng nó là một nền tảng quan trọng để phát triển các công cụ xác định AI đáng tin cậy hơn.”

1729828343197.png


Chứng chỉ nội dung đã trở thành một chủ đề nóng trong lĩnh vực hình ảnh và video, được xem là một giải pháp tiềm năng để chống lại sự gia tăng của deepfake. Các công ty công nghệ và các hãng truyền thông lớn đã cùng nhau tham gia vào sáng kiến C2PA, nhằm xây dựng một hệ thống gắn siêu dữ liệu được mã hóa vào các tệp hình ảnh và video, cho biết liệu chúng là thật hay do AI tạo ra. Tuy nhiên, văn bản lại là một bài toán khó hơn nhiều, vì văn bản có thể dễ dàng bị sửa đổi để che giấu hoặc loại bỏ watermark. Mặc dù SynthID-Text không phải là nỗ lực đầu tiên trong việc tạo ra hệ thống watermark cho văn bản, nhưng đây là hệ thống đầu tiên được thử nghiệm trên 20 triệu trường hợp.

Các chuyên gia bên ngoài đang nghiên cứu về chứng chỉ nội dung đánh giá nghiên cứu của DeepMind là một bước tiến đáng khích lệ. Andrew Jenks, giám đốc mảng xuất xứ truyền thông của Microsoft và chủ tịch điều hành của C2PA, cho biết: “Nghiên cứu này hứa hẹn sẽ cải thiện việc sử dụng chứng chỉ nội dung bền vững từ C2PA cho tài liệu và văn bản thô.” Bruce MacCormack, thành viên ban chỉ đạo C2PA, cũng nhận định: “Đây là một vấn đề nan giải và thật tuyệt khi thấy một số tiến bộ đang được thực hiện.”

SynthID-Text hoạt động bằng cách can thiệp một cách tinh vi vào quá trình tạo văn bản: Nó thay đổi một số từ mà chatbot xuất ra cho người dùng theo cách mà con người không thể nhận thấy nhưng bộ dò SynthID có thể phát hiện. Nhóm nghiên cứu cho biết trong bài báo: “Những sửa đổi như vậy tạo ra một chữ ký thống kê trong văn bản được tạo. Trong giai đoạn phát hiện watermark, chữ ký này có thể được đo lường để xác định xem văn bản có thực sự được tạo bởi LLM đã được gắn watermark hay không.”

1729828366880.png


Các LLM, nền tảng của chatbot, hoạt động bằng cách tạo câu theo từng từ, xem xét ngữ cảnh của những gì đã có trước đó để chọn ra từ tiếp theo có khả năng xuất hiện. Về cơ bản, SynthID-Text can thiệp bằng cách gán ngẫu nhiên điểm số cho các từ có thể xuất hiện và yêu cầu LLM xuất ra các từ có điểm số cao hơn. Sau đó, bộ dò có thể lấy một đoạn văn bản và tính toán điểm tổng thể của nó; văn bản được gắn watermark sẽ có điểm số cao hơn văn bản không được gắn watermark. Nhóm DeepMind đã so sánh hiệu suất của hệ thống của họ với các công cụ watermark văn bản khác cũng thay đổi quá trình tạo văn bản và nhận thấy rằng hệ thống của họ hoạt động hiệu quả hơn trong việc phát hiện văn bản được gắn watermark.

Tuy nhiên, nhóm nghiên cứu cũng thừa nhận trong bài báo rằng việc sửa đổi văn bản do Gemini tạo ra và đánh lừa bộ dò vẫn còn khá dễ dàng. Mặc dù người dùng không biết nên thay đổi từ nào, nhưng nếu họ chỉnh sửa văn bản một cách đáng kể hoặc thậm chí yêu cầu một chatbot khác tóm tắt văn bản, watermark có thể bị che khuất.

Để đảm bảo rằng SynthID-Text thực sự không làm giảm chất lượng phản hồi của chatbot, nhóm nghiên cứu đã thử nghiệm hệ thống trên 20 triệu trường hợp được đưa ra cho Gemini. Một nửa số trường hợp được chuyển đến hệ thống SynthID-Text và nhận được phản hồi được gắn watermark, trong khi nửa còn lại nhận được phản hồi Gemini tiêu chuẩn. Dựa trên phản hồi “đồng ý” và “không đồng ý” từ người dùng, các phản hồi được gắn watermark cũng khiến người dùng hài lòng như các phản hồi tiêu chuẩn.

1729828378435.png


Đây là một tín hiệu đáng mừng cho Google và các nhà phát triển dựa trên Gemini. Tuy nhiên, để giải quyết triệt để vấn đề xác định văn bản do AI tạo ra (còn được gọi là "AI rác"), cần có nhiều công ty AI hơn nữa triển khai công nghệ watermark, lý tưởng nhất là theo cách thức có thể tương tác để một bộ dò có thể xác định văn bản từ nhiều LLM khác nhau. Và ngay cả trong trường hợp khó xảy ra là tất cả các công ty AI lớn đều ký kết một thỏa thuận nào đó, thì vẫn còn đó vấn đề về các LLM mã nguồn mở, có thể dễ dàng bị sửa đổi để loại bỏ bất kỳ chức năng watermark nào.

MacCormack của C2PA lưu ý rằng việc phát hiện là một vấn đề nan giải khi xem xét việc triển khai trên thực tế. Ông cho biết: “Có những thách thức với việc rà soát văn bản tràn lan trên mạng, trong đó bạn phải biết mô hình watermark nào đã được áp dụng để biết cách thức và vị trí tìm kiếm dấu hiệu.” Nhìn chung, ông cho rằng các nhà nghiên cứu vẫn còn rất nhiều việc phải làm. Nỗ lực này “không phải là đường cụt”, MacCormack nói, “nhưng nó là bước đầu tiên trên một chặng đường dài.”
 
Bên trên