Bốn tháng đưa tiếng mẹ đẻ lên Galaxy AI của kỹ sư Việt

Quang Minh

Well-known member
Kỹ sư Trần Tuấn Minh cùng cộng sự phải xử lý nhiều khó khăn về dữ liệu đầu vào, đa dạng phương ngữ của tiếng Việt khi đưa lên Galaxy S24.

Trần Tuấn Minh hiện là Trưởng nhóm nghiên cứu ngôn ngữ AI tại Trung tâm Nghiên cứu và Phát triển Samsung Việt Nam (SRV). Nhóm của anh bắt đầu nhận dự án phát triển tiếng Việt cho Galaxy AI để đưa vào điện thoại Galaxy S24 từ tháng 10/2023. Đội ngũ gồm 30 kỹ sư phát triển trực tiếp và 45 người kiểm thử, đều là người Việt. Trong giai đoạn cao điểm, nhóm có lúc phải huy động tới hơn 100 người trong trung tâm.

Niềm tự hào tiếng Việt

Ngày 18/1, Samsung đánh dấu cột mốc mới khi ra mắt dòng điện thoại Galaxy S24 được trang bị các tính năng AI tạo sinh (GenAI). Hàng trăm khách tham dự sự kiện Unpacked 2024 tại San Jose (Mỹ) tỏ ra hào hứng với khả năng dịch thuật trực tiếp bằng AI do ông Drew Blackard, Trưởng bộ phận Quản lý sản phẩm - Samsung Electronics Mỹ, trình diễn trên sân khấu.

Cách đó nửa vòng Trái Đất, tại Hà Nội, Trần Tuấn Minh cùng các cộng sự cũng hồi hộp theo dõi diễn biến sự kiện, mong chờ cột mốc được công bố.

Tiếng Việt là một trong những ngôn ngữ đầu tiên được hỗ trợ trên Galaxy AI công bố tại sự kiện ra mắt Galaxy S24 ở Mỹ. Ảnh: Tuấn Hưng


Tiếng Việt là một trong những ngôn ngữ đầu tiên được hỗ trợ trên Galaxy AI, được công bố tại sự kiện ra mắt Galaxy Galaxy S24 ở Mỹ. Ảnh: Tuấn Hưng

"Mọi người như vỡ òa khi ông Drew Blackard giới thiệu 13 ngôn ngữ đầu tiên được hỗ trợ trong tính năng dịch bằng GenAI trên Galaxy S24, trong đó có tiếng Việt", Tuấn Minh kể.

Theo kỹ sư R&D này, đây là niềm tự hào vì tiếng Việt nằm trong nhóm ngôn ngữ chính được ưu tiên phát triển trên một dòng điện thoại đầu bảng. "Điều này giúp người dùng Việt tương tác với công nghệ mới nhất bằng chính tiếng mẹ đẻ, tương tự các ngôn ngữ phổ biến hàng đầu trên thế giới", anh nói.

Cuộc chạy đua

Theo Trần Tuấn Minh, khi một tính năng mới được phát triển ở những trung tâm nghiên cứu trước đây, tiếng Việt không được ưu tiên phát triển trước. Nhưng từ khi Trung tâm R&D Hà Nội đi vào hoạt động, vai trò của kỹ sư Việt đã thay đổi nhiều hơn.

Dự án đưa tiếng Việt vào trong tính năng GenAI là thử thách lớn đối với đội ngũ kỹ sư. Thông thường, cần ít nhất từ 6 tháng đến một năm để phát triển AI ngôn ngữ lớn, nhưng nhóm kỹ sư SRV chỉ có bốn tháng trước Unpacked 2024. Đội ngũ phát triển liên tục bay qua lại giữa Việt Nam và các trung tâm R&D của Hàn Quốc, Ấn Độ để trao đổi, xây dựng bộ dữ liệu kèm văn bản tương ứng để "dạy" AI nói, hiểu tiếng Việt.

Trần Tuấn Minh (áo xám đứng giữa) cùng các cộng sự trong nhóm nghiên cứu ngôn ngữ AI. Ảnh: NVCC

Trần Tuấn Minh (đứng giữa, áo xám) cùng các cộng sự trong nhóm nghiên cứu ngôn ngữ AI. Ảnh: NVCC

Trên Galaxy AI, tiếng Việt được phát triển dựa trên ba trụ cột chính: nhận diện giọng nói để chuyển sang văn bản, dịch sang ngôn ngữ khác, và chuyển từ văn bản thành giọng nói. Ví dụ, với tính năng dịch trực tiếp Live Translate khi gọi điện thoại, người gọi sẽ nói tiếng mẹ đẻ, sau đó Live Translate dịch sang ngôn ngữ của người nghe và nói lại bằng ngôn ngữ đó. Galaxy AI đảm bảo cho quá trình dịch gần như diễn ra lập tức, giúp cuộc hội thoại không có độ trễ.

Thách thức lớn nhất là dữ liệu "dạy" AI bằng tiếng Việt rất hạn chế so với tiếng Anh hay những ngôn ngữ phổ biến khác. Chất lượng đầu vào cũng không cao do trí tuệ nhân tạo là lĩnh vực mới ở Việt Nam. Việc ít dữ liệu thô và chất lượng thấp ảnh hưởng trực tiếp đến độ chính xác của đầu ra AI. Do đó, trước khi bắt đầu, cả nhóm đã ngồi lại phân tích dữ liệu hiện có, xác định đâu là "vùng lõm" để cải thiện.

"Giải quyết xong phần đầu vào cho mô-đun dịch, chúng tôi tiếp tục phát hiện một thách thức khác là tính phương ngữ, đặc trưng mỗi vùng miền rất khác nhau", Tuấn Minh nói.

Phát sinh tiếp theo là tiếng Việt trong đời sống đang có rất nhiều thay đổi so với kho dữ liệu đang có. Ví dụ, những từ lóng của Gen Z, từ mới của người sử dụng Internet hay tên phim, người nổi tiếng, sự kiện quốc tế... Do đó, đội ngũ R&D phải liên tục cập nhật cho AI.

Tính năng dịch tự động nhờ AI phân tích giọng nói có trên Galaxy S24, có thể hoạt động offline thay vì cần kết nối Internet như các phần mềm dịch khác. Ảnh: Tuấn Hưng

Tính năng dịch tự động hỗ trợ tiếng Việt trên Galaxy S24, có thể hoạt động offline thay vì cần kết nối Internet như các phần mềm dịch khác. Ảnh: Tuấn Hưng

Cùng lúc, các kỹ sư kiểm thử phải ra môi trường thực tế như trong quán cà phê, trên xe buýt, phố đi bộ... để đánh giá khả năng hoạt động ngoài đời của AI trong nhiều điều kiện khác nhau.

Một sản phẩm mới đi từ phòng nghiên cứu đến người dùng cuối luôn trải qua công đoạn quan trọng là kiểm thử. "SRV là trung tâm lớn nhất ngoài Hàn Quốc chịu trách nhiệm kiểm thử thiết bị mạng, nhưng chúng tôi phải đối mặt thử thách lớn là kỹ sư kiểm thử khi đó không biết nhiều về AI", Tuấn Minh nhớ lại. "SRV được kỹ sư Hàn Quốc bàn giao công nghệ và kinh nghiệm, mọi người vừa học vừa làm, chạy đua với thời gian".


Theo trưởng nhóm nghiên cứu ngôn ngữ AI, từ con số không, kỹ sư Việt giờ không chỉ kiểm thử toàn bộ tính năng trên Galaxy AI mà còn tiếp tục chuyển giao công nghệ, quy trình và kinh nghiệm cho các kỹ sư trong khu vực Đông Nam Á.

Lợi thế từ chiến lược R&D của Samsung

Ngoài đưa tiếng Việt trở thành một trong 13 ngôn ngữ đầu tiên được hỗ trợ trên Galaxy AI, Samsung cho biết đang nỗ lực bàn giao công nghệ mới, hiện đại nhất cho kỹ sư Việt. Trước đó, lãnh đạo công ty cam kết với Chính phủ, quyết tâm đưa Việt Nam vượt qua vai trò là cứ điểm sản xuất để trở thành cứ điểm chiến lược về R&D của Samsung toàn cầu.

Từ 46 kỹ sư trong những ngày đầu thành lập tại nhà máy SEV Bắc Ninh, sau một thập niên, SRV đang có 2.400 kỹ sư. Với đa số người Việt, trung tâm đang tham gia vào các lĩnh vực nghiên cứu kinh doanh thiết bị di động và thiết bị mạng của tập đoàn. SRV cũng chịu trách nhiệm phát triển phần mềm và thương mại hóa sản phẩm cho những thị trường lớn trên thế giới như châu Âu, khu vực CIS, thị trường Trung Đông, châu Phi, Đông Nam Á, Australia và New Zealand.

Trung tâm R&D khánh thành cuối tháng 12/2022 của Samsung ở Tây Hồ, Hà Nội. Ảnh: Lưu Quý

Trung tâm R&D của Samsung khánh thành cuối tháng 12/2022 ở Tây Hồ, Hà Nội. Ảnh: Lưu Quý

Trung tâm hiện hợp tác với nhiều trường đại học tại Việt Nam như Đại học Bách Khoa, Đại học Công nghệ để thu hút nhân tài. Samsung đã cấp hơn 830 suất học bổng, tương đương 3.000 USD cho sinh viên trong nước. SRV cũng đón hơn 2.100 thực tập sinh, tài trợ 14 dự án nghiên cứu và 11 phòng lab cho một số trường đại học với kinh phí 800.000 USD.

Ông Choi Joo Ho, Tổng giám đốc Tổ hợp Samsung Việt Nam, đánh giá các tính năng mới trên Galaxy AI có sự đóng góp lớn của kỹ sư Việt. Từ nỗ lực đưa tiếng Việt lên Galaxy S24 cho đến việc bàn giao công nghệ cho kỹ sư trong khu vực, SRV đang cho thấy trái ngọt từ việc vun trồng nhân tài trong 20 năm Samsung có mặt tại Việt Nam.
 
Bên trên