Phuong Nam
Well-known member
Ngày mai, giờ Mỹ, các phương tiện truyền thông cho rằng OpenAI sẽ cho ra mắt công cụ trợ lý AI đa phương thức, multimodal AI digital assistant. Vậy trợ lý AI đa phương thức là gì?
Hãy tưởng tượng một trợ lý hiểu bạn không thể diễn tả bằng lời! Trợ lý AI đa phương thức là cánh cổng dẫn bạn đến tương lai đó. Nó không chỉ nghe, nó còn nhìn, nghe và thậm chí đọc được suy nghĩ của bạn (được thôi, không phải theo nghĩa đen), mà nó còn xử lý hình ảnh, văn bản và thậm chí cả code!
Điều này cho phép bạn tương tác một cách tự nhiên, đặt câu hỏi bằng hình ảnh, nhận tóm tắt video hoặc thậm chí điều khiển các thiết bị thông minh bằng lệnh thoại. Hãy coi nó như người bạn đồng hành siêu năng lực của bạn, sẵn sàng xử lý mọi nhiệm vụ theo bất kỳ cách nào bạn yêu cầu. Khá tuyệt phải không?
Theo một báo cáo mới từ tạp chí The Information, OpenAI đã cho một số khách hàng trải nghiệm một mô hình AI đa phương thức mới có thể vừa nói chuyện vừa nhận dạng vật thể. Đây có thể là một phần trong những gì công ty dự định trình chiếu vào thứ Hai, tức ngày mai 13/5.
Mô hình mới được cho là cung cấp khả năng giải thích hình ảnh và âm thanh nhanh hơn, chính xác hơn so với những gì mà các mô hình phiên âm và chuyển văn bản thành giọng nói riêng biệt hiện có của nó có thể làm được. Nó rõ ràng có thể giúp các nhân viên dịch vụ khách hàng “hiểu rõ hơn về ngữ điệu giọng nói của người gọi hoặc liệu họ có đang mỉa mai hay không” và “về mặt lý thuyết”, mô hình này có thể giúp học sinh giải toán hoặc dịch các ký hiệu trong thế giới thực, The Information viết.
Nếu báo cáo của The Information là đúng, việc phát hành sản phẩm mới của OpenAI có thể vẫn có tác động nhất định đến hội nghị nhà phát triển Google I/O sắp tới. Google cũng được biết đến là đang thử nghiệm công nghệ sử dụng trí tuệ nhân tạo để thực hiện cuộc gọi điện thoại. Ngoài ra, Google còn có một dự án được đồn đoán là sẽ sớm ra mắt, có tên mã là "Pixie". Pixie là giải pháp thay thế Google Assistant đa phương thức, nhận dạng vật thể thông qua camera của thiết bị và có thể cung cấp cho người dùng những thông tin như "Cách đến địa điểm mua hàng" hoặc "Cách sử dụng"
Hãy tưởng tượng một trợ lý hiểu bạn không thể diễn tả bằng lời! Trợ lý AI đa phương thức là cánh cổng dẫn bạn đến tương lai đó. Nó không chỉ nghe, nó còn nhìn, nghe và thậm chí đọc được suy nghĩ của bạn (được thôi, không phải theo nghĩa đen), mà nó còn xử lý hình ảnh, văn bản và thậm chí cả code!
Điều này cho phép bạn tương tác một cách tự nhiên, đặt câu hỏi bằng hình ảnh, nhận tóm tắt video hoặc thậm chí điều khiển các thiết bị thông minh bằng lệnh thoại. Hãy coi nó như người bạn đồng hành siêu năng lực của bạn, sẵn sàng xử lý mọi nhiệm vụ theo bất kỳ cách nào bạn yêu cầu. Khá tuyệt phải không?
Theo một báo cáo mới từ tạp chí The Information, OpenAI đã cho một số khách hàng trải nghiệm một mô hình AI đa phương thức mới có thể vừa nói chuyện vừa nhận dạng vật thể. Đây có thể là một phần trong những gì công ty dự định trình chiếu vào thứ Hai, tức ngày mai 13/5.
Mô hình mới được cho là cung cấp khả năng giải thích hình ảnh và âm thanh nhanh hơn, chính xác hơn so với những gì mà các mô hình phiên âm và chuyển văn bản thành giọng nói riêng biệt hiện có của nó có thể làm được. Nó rõ ràng có thể giúp các nhân viên dịch vụ khách hàng “hiểu rõ hơn về ngữ điệu giọng nói của người gọi hoặc liệu họ có đang mỉa mai hay không” và “về mặt lý thuyết”, mô hình này có thể giúp học sinh giải toán hoặc dịch các ký hiệu trong thế giới thực, The Information viết.
Nếu báo cáo của The Information là đúng, việc phát hành sản phẩm mới của OpenAI có thể vẫn có tác động nhất định đến hội nghị nhà phát triển Google I/O sắp tới. Google cũng được biết đến là đang thử nghiệm công nghệ sử dụng trí tuệ nhân tạo để thực hiện cuộc gọi điện thoại. Ngoài ra, Google còn có một dự án được đồn đoán là sẽ sớm ra mắt, có tên mã là "Pixie". Pixie là giải pháp thay thế Google Assistant đa phương thức, nhận dạng vật thể thông qua camera của thiết bị và có thể cung cấp cho người dùng những thông tin như "Cách đến địa điểm mua hàng" hoặc "Cách sử dụng"