OpenAI cuối cùng đã bổ sung tính năng chia sẻ video và màn hình được mong đợi từ lâu vào chế độ giọng nói nâng cao, cho phép người dùng tương tác với chatbot theo nhiều phương thức khác nhau.
OpenAI lần đầu tiên hé lộ tính năng này vào tháng 5, khi công ty công bố GPT-4 và thảo luận về việc ChatGPT học cách “xem” một trò chơi và giải thích những gì đang diễn ra. Chế độ giọng nói nâng cao đã được triển khai cho người dùng vào tháng 9.
Cả hai tính năng hiện đã có sẵn trên ứng dụng di động iOS và Android cho người dùng ChatGPT Teams, Plus và Pro, và sẽ được triển khai cho người đăng ký ChatGPT Enterprise và Edu vào tháng 1. Tuy nhiên, người dùng ở EU, Thụy Sĩ, Iceland, Na Uy và Liechtenstein sẽ không thể truy cập chế độ giọng nói nâng cao. Người dùng có thể truy cập video thông qua các nút mới trên màn hình chế độ giọng nói nâng cao để bắt đầu video.
Chế độ video của OpenAI mang lại cảm giác như một cuộc gọi video giống FaceTime, bởi vì ChatGPT phản hồi theo thời gian thực với những gì người dùng hiển thị trong video. Nó có thể nhìn thấy những gì xung quanh người dùng, xác định các vật thể và thậm chí ghi nhớ những người tự giới thiệu. Trong một bản demo của OpenAI như một phần của sự kiện “12 Ngày của OpenAI” của công ty, ChatGPT đã sử dụng tính năng video để hướng dẫn pha cà phê. ChatGPT đã nhìn thấy dụng cụ pha cà phê, hướng dẫn khi nào nên đặt bộ lọc và nhận xét về kết quả.
ChatGPT phản hồi theo thời gian thực với những gì người dùng hiển thị trong video
Nó cũng rất giống với Project Astra mà Google mới công bố gần đây, trong đó người dùng có thể mở cuộc trò chuyện video và Gemini 2.0 sẽ trả lời các câu hỏi về những gì nó nhìn thấy, chẳng hạn như xác định một tác phẩm điêu khắc được tìm thấy trên đường phố Luân Đôn. Xét về nhiều mặt, những tính năng này là phiên bản nâng cao hơn của những gì các thiết bị AI như Humane Pin và Rabbit r1 được quảng cáo: Có một trợ lý giọng nói AI trả lời các câu hỏi về những gì nó đang nhìn thấy trong video.
Đối với chia sẻ màn hình, menu ba chấm cho phép người dùng điều hướng ra khỏi ứng dụng ChatGPT. Họ có thể mở các ứng dụng trên điện thoại và đặt câu hỏi cho ChatGPT về những gì nó đang nhìn thấy. Trong bản demo, các nhà nghiên cứu của OpenAI đã kích hoạt chia sẻ màn hình, sau đó mở ứng dụng tin nhắn để yêu cầu ChatGPT trợ giúp trả lời một bức ảnh được gửi qua tin nhắn văn bản.
Tuy nhiên, tính năng chia sẻ màn hình trên chế độ giọng nói nâng cao có điểm tương đồng với các tính năng được Microsoft và Google phát hành gần đây.
Tuần trước, Microsoft đã phát hành phiên bản xem trước của Copilot Vision, cho phép người đăng ký Pro mở cuộc trò chuyện Copilot trong khi duyệt trang web. Copilot Vision có thể xem ảnh trên trang web của cửa hàng hoặc thậm chí giúp chơi trò chơi đoán bản đồ Geoguessr. Project Astra của Google cũng có thể đọc trình duyệt theo cách tương tự.
Cả Google và OpenAI đều phát hành tính năng trò chuyện AI chia sẻ màn hình trên điện thoại để nhắm mục tiêu đến cơ sở người tiêu dùng, những người có thể đang sử dụng ChatGPT hoặc Gemini nhiều hơn khi di chuyển. Nhưng những loại tính năng này có thể báo hiệu một cách để các doanh nghiệp cộng tác nhiều hơn với các tác nhân AI, vì tác nhân có thể nhìn thấy những gì một người đang xem trên màn hình. Nó có thể là tiền thân của các mô hình sử dụng máy tính, như Computer Use của Anthropic, trong đó mô hình AI không chỉ nhìn vào màn hình mà còn chủ động mở các tab và chương trình cho người dùng.
OpenAI lần đầu tiên hé lộ tính năng này vào tháng 5, khi công ty công bố GPT-4 và thảo luận về việc ChatGPT học cách “xem” một trò chơi và giải thích những gì đang diễn ra. Chế độ giọng nói nâng cao đã được triển khai cho người dùng vào tháng 9.
Cả hai tính năng hiện đã có sẵn trên ứng dụng di động iOS và Android cho người dùng ChatGPT Teams, Plus và Pro, và sẽ được triển khai cho người đăng ký ChatGPT Enterprise và Edu vào tháng 1. Tuy nhiên, người dùng ở EU, Thụy Sĩ, Iceland, Na Uy và Liechtenstein sẽ không thể truy cập chế độ giọng nói nâng cao. Người dùng có thể truy cập video thông qua các nút mới trên màn hình chế độ giọng nói nâng cao để bắt đầu video.
Chế độ video của OpenAI mang lại cảm giác như một cuộc gọi video giống FaceTime, bởi vì ChatGPT phản hồi theo thời gian thực với những gì người dùng hiển thị trong video. Nó có thể nhìn thấy những gì xung quanh người dùng, xác định các vật thể và thậm chí ghi nhớ những người tự giới thiệu. Trong một bản demo của OpenAI như một phần của sự kiện “12 Ngày của OpenAI” của công ty, ChatGPT đã sử dụng tính năng video để hướng dẫn pha cà phê. ChatGPT đã nhìn thấy dụng cụ pha cà phê, hướng dẫn khi nào nên đặt bộ lọc và nhận xét về kết quả.
Nó cũng rất giống với Project Astra mà Google mới công bố gần đây, trong đó người dùng có thể mở cuộc trò chuyện video và Gemini 2.0 sẽ trả lời các câu hỏi về những gì nó nhìn thấy, chẳng hạn như xác định một tác phẩm điêu khắc được tìm thấy trên đường phố Luân Đôn. Xét về nhiều mặt, những tính năng này là phiên bản nâng cao hơn của những gì các thiết bị AI như Humane Pin và Rabbit r1 được quảng cáo: Có một trợ lý giọng nói AI trả lời các câu hỏi về những gì nó đang nhìn thấy trong video.
Đối với chia sẻ màn hình, menu ba chấm cho phép người dùng điều hướng ra khỏi ứng dụng ChatGPT. Họ có thể mở các ứng dụng trên điện thoại và đặt câu hỏi cho ChatGPT về những gì nó đang nhìn thấy. Trong bản demo, các nhà nghiên cứu của OpenAI đã kích hoạt chia sẻ màn hình, sau đó mở ứng dụng tin nhắn để yêu cầu ChatGPT trợ giúp trả lời một bức ảnh được gửi qua tin nhắn văn bản.
Tuy nhiên, tính năng chia sẻ màn hình trên chế độ giọng nói nâng cao có điểm tương đồng với các tính năng được Microsoft và Google phát hành gần đây.
Tuần trước, Microsoft đã phát hành phiên bản xem trước của Copilot Vision, cho phép người đăng ký Pro mở cuộc trò chuyện Copilot trong khi duyệt trang web. Copilot Vision có thể xem ảnh trên trang web của cửa hàng hoặc thậm chí giúp chơi trò chơi đoán bản đồ Geoguessr. Project Astra của Google cũng có thể đọc trình duyệt theo cách tương tự.
Cả Google và OpenAI đều phát hành tính năng trò chuyện AI chia sẻ màn hình trên điện thoại để nhắm mục tiêu đến cơ sở người tiêu dùng, những người có thể đang sử dụng ChatGPT hoặc Gemini nhiều hơn khi di chuyển. Nhưng những loại tính năng này có thể báo hiệu một cách để các doanh nghiệp cộng tác nhiều hơn với các tác nhân AI, vì tác nhân có thể nhìn thấy những gì một người đang xem trên màn hình. Nó có thể là tiền thân của các mô hình sử dụng máy tính, như Computer Use của Anthropic, trong đó mô hình AI không chỉ nhìn vào màn hình mà còn chủ động mở các tab và chương trình cho người dùng.