Trải nghiệm MC AI nói tiếng Việt tại AI4VN 2023

TRUONGTRINH

Well-known member
Với dữ liệu của 10 giờ hội thoại và một giờ ghi hình, Saltlux sẽ tái hiện một MC kiêm trợ lý AI, có thể hiểu và giao tiếp lưu loát bằng tiếng Việt.


AI Assistant (trợ lý trí tuệ nhân tạo) và Metahuman (Tái tạo người thật trên không gian ảo) của Saltlux là hai trong số những mô hình thu hút sự chú ý lớn của khách tham quan triển lãm AI Expo thuộc khuôn khổ Ngày hội Trí tuệ nhân tạo Việt Nam (AI4VN 2023), diễn ra ngày 21-22/9 tại TP HCM.

Trợ lý AI hoạt động tương tự những chatbot thông dụng như ChatGPT nhưng có thể giao tiếp bằng tiếng Việt linh hoạt, chính xác với nhiều ngữ cảnh. Trong khi đó, Metahuman lại khiến nhiều người thích thú khi tạo ra bản sao của một người bất kỳ trên môi trường số.

Hai mô hình này có thể kết hợp cùng nhau, tạo nên một phiên bản MC AI thú vị, giao tiếp được bằng tiếng Việt với thông tin được cập nhật theo thời gian thực.


Khách tham quan trải nghiệm mô hình AI Assistant và Metahuman tại Triển lãm AI4VN diễn ra hôm 21/9 tại TP HCM. Ảnh: Khương Nha


Khách tham quan trải nghiệm mô hình AI Assistant và Metahuman tại Triển lãm AI4VN ngày 21-22/9 tại TP HCM. Ảnh: Khương Nha


Công nghệ của Saltlux cho phép một người có thể tự tạo bản sao của mình sau một giờ ghi hình và khoảng 10 tiếng hội thoại. Sau khi thu thập đủ dữ liệu về hình ảnh, AI tự động sao chép hình ảnh, biểu cảm, động tác và ngữ điệu của người thật, mô phỏng dưới dạng một MC ảo và đưa vào dùng trong nhiều bối cảnh.

Để mô tả chính xác từng nét mặt, sắc thái của mỗi người, nhà phát triển đã tích hợp nhiều công nghệ nhận dạng theo biểu đồ tri thức, cho phép phân đoạn ngữ nghĩa, ước tính tư thế, nhận dạng khuôn mặt, cử chỉ tay, phân loại nhóm tuổi, giới tính... để MC ảo trông gần như bản thật, người dùng phổ thông khó có thể nhận ra khác biệt.

Tiếp theo, công nghệ phân tích giọng nói sẽ xử lý ngôn ngữ tự nhiên để tái tạo chính xác thanh âm, ngữ điệu của người thật trước khi ghép vào mô hình MC ảo. Saltlux dùng mô hình học sâu Hybrid-Tacotron, cho phép AI có thể tái tạo cả giọng trung và cao của người thật, đảm bảo độ ổn định và cá nhân hóa tối đa.

Sau đó, công cụ tổng hợp giọng nói cho phép chuyển văn bản thành giọng nói và ngược lại - giọng nói thành văn bản - sẽ cho phép MC AI và người tương tác trực tiếp bằng tiếng Việt một cách mượt mà.

Trải nghiệm thực tế trong điều kiện nhiều tiếng ồn, MC AI của Saltlux vẫn nghe được đầy đủ các câu thoại được nói trực tiếp tại hiện trường và chuyển thành chữ viết, trước khi thực hiện các mệnh lệnh được giao. AI nhận diện tốt cả giọng của các vùng miền khác nhau và trả lời nhanh khi các nội dung khi người dùng đột ngột đổi chủ đề. Người dùng có thể tương tác với AI bằng giọng nói, kéo thả các câu lệnh hoặc gõ nội dung vào khung chat.

Thay vì tự nghĩ ra câu trả lời như ChatGPT, Saltlux kiểm soát tối đa phản hồi bằng cách phân chia từng lĩnh vực. Ví dụ với tin tức thời sự, AI sẽ chỉ lấy tin từ những đầu báo uy tín. Sau khi tổng hợp và đưa ra kết quả, AI sẽ dẫn nguồn các bài báo để người dùng có thể truy cập trực tiếp vào đường dẫn nếu muốn đọc sâu.
Còn khi hỏi những câu liên quan đến một điểm du lịch, nhà phát triển sẽ chuẩn bị sẵn nội dung, đưa vào nhiều ngữ cảnh khác nhau để dự đoán câu hỏi từ người dùng, từ đó đưa ra câu trả lời phù hợp với độ chính xác cao. Việc phân chia từng lĩnh vực nội dung và linh hoạt trong việc tạo bộ lọc đầu vào, đầu ra giúp giảm đáng kể hiện tượng "ảo giác" tự sáng tác câu trả lời của chatbot AI.
Tại Hàn Quốc, mô hình AI này đã tạo ra "Trợ lý Quốc dân Goodpy", được chính phủ dùng để cung cấp dịch vụ hành chính công cho 20 triệu người. Ở Việt Nam, mô hình AI và MC ảo được Saltlux nghiên cứu và vận hành cách đây hai năm. Một trong những ứng dụng nổi bật là hướng dẫn viên du lịch ảo tại chùa Tam Chúc. Hệ thống không chỉ giúp khách tham quan trả lời câu hỏi, hướng dẫn, chỉ đường, thuyết minh về từng địa điểm mà còn có thể xác định chính xác vị trí của mỗi người theo thời gian thực, từ đó đưa ra các hướng dẫn phù hợp.


Giao diện nền tảng Ploonet Studio cho phép người dùng tự tạo nội dung với AI mà không cần thiết bị có cấu hình mạnh. Ảnh: Khương Nha


Giao diện nền tảng Ploonet Studio cho phép tự tạo nội dung với AI mà không cần thiết bị cấu hình mạnh. Ảnh: Khương Nha


Khi đã có được MC ảo và giọng nói, người dùng có thể tùy chỉnh các nội dung, phong cách dẫn chương trình trên nền tảng Ploonet Studio để sản xuất video hàng loạt. Giao diện Ploonet Studio được làm đơn giản, chỉ cần bấm chọn và chờ khoảng hai phút, một video mới sẽ được hệ thống xuất bản. Tất cả được làm trên máy chủ cloud nên không yêu cầu về cấu hình thiết bị đầu cuối. Tại CES 2023 ở Las Vegas, nền tảng Ploonet Studio được vinh danh giải Innovation Award.

Đại diện Saltlux cho biết mô hình AI của họ cải thiện 20% hiệu suất công việc và cắt giảm hơn 30% chi phí vận hành, đảm bảo tính sẵn sàng cao 24/24.

Để vận hành mô hình MC AI này, người dùng cần trả hai khoản phí. Một khoản cố định cho việc tái tạo người thật trên không gian ảo. Giá của gói cước sẽ thay đổi tùy thuộc vào độ khó theo yêu cầu của khách hàng. Khoản thứ hai là phí để tạo các video trên Ploonet Studio, được tính theo giờ. Saltlux chưa tiết lộ giá cụ thể cho người dùng cá nhân. Công ty đang hướng đến nhóm khách hàng doanh nghiệp và các tổ chức, chính phủ.

Ngày hội AI4VN do Bộ Khoa học và Công nghệ chỉ đạo, báo VnExpress tổ chức với sự phối hợp của Câu lạc bộ Các Khoa - Viện - Trường Công nghệ thông tin - Truyền thông (FISU). Qua 5 năm tổ chức, AI4VN thu hút hơn 10.000 người tham gia, hơn 100 diễn giả cùng bàn thảo nhằm phát triển hệ sinh thái AI bền vững tại Việt Nam.
 
Bên trên