Thanh Thúy
Well-known member
Google vừa giới thiệu Whisk, một công cụ AI mới cho phép người dùng tạo ra hình ảnh dựa trên các hình ảnh đầu vào thay vì phải sử dụng các đoạn văn bản mô tả dài dòng.
Whisk cho phép người dùng cung cấp hình ảnh đại diện cho ba yếu tố: chủ thể, bối cảnh và phong cách để làm cơ sở tạo ảnh mới. Người dùng cũng có thể sử dụng nhiều hình ảnh cho mỗi yếu tố kể trên. Ngoài ra, công cụ này vẫn hỗ trợ nhập văn bản nếu muốn bổ sung chi tiết cụ thể, nhưng đó chỉ là tùy chọn.
Trong trường hợp người dùng không có sẵn hình ảnh, Whisk cung cấp tính năng "lắc xúc xắc" (dice icon) để tạo ngẫu nhiên các hình ảnh gợi ý. Những hình ảnh này cũng được AI tạo ra. Sau khi hoàn thành quá trình thiết lập, Whisk sẽ tạo ra các hình ảnh cùng với văn bản mô tả tương ứng. Người dùng có thể đánh dấu yêu thích, tải về hoặc tiếp tục chỉnh sửa thêm bằng cách nhập văn bản bổ sung.
Trong bài thử nghiệm của The Verge, Whisk hoạt động tương đối linh hoạt. Người viết đã sử dụng tính năng lắc xúc xắc để tạo các yếu tố ngẫu nhiên, sau đó tinh chỉnh thêm bằng cách nhập yêu cầu "thêm hơi nước xung quanh chủ thể." Kết quả là các hình ảnh được tạo ra dần hoàn thiện theo ý tưởng ban đầu.
Google nhấn mạnh trong một bài đăng trên blog rằng Whisk hướng đến mục tiêu “khám phá hình ảnh nhanh chóng, thay vì chỉnh sửa từng điểm ảnh một cách hoàn hảo.” Công ty cũng thừa nhận công cụ này có thể "chưa chính xác tuyệt đối," và do đó cung cấp tính năng chỉnh sửa văn bản mô tả để cải thiện kết quả.
Whisk được phát triển trên phiên bản mới nhất của mô hình tạo ảnh Imagen 3 của Google. Cùng với đó, Google cũng ra mắt Veo 2 - phiên bản nâng cấp của mô hình tạo video. Theo Google, Veo 2 có khả năng hiểu ngôn ngữ điện ảnh tốt hơn và giảm thiểu tình trạng "ảo giác" thường gặp như tạo thừa ngón tay.
Công cụ Veo 2 sẽ được triển khai trước tiên trên VideoFX của Google thông qua danh sách chờ trên Google Labs. Sau đó, công cụ này sẽ được mở rộng sang YouTube Shorts và một số sản phẩm khác vào năm tới.
Whisk cho phép người dùng cung cấp hình ảnh đại diện cho ba yếu tố: chủ thể, bối cảnh và phong cách để làm cơ sở tạo ảnh mới. Người dùng cũng có thể sử dụng nhiều hình ảnh cho mỗi yếu tố kể trên. Ngoài ra, công cụ này vẫn hỗ trợ nhập văn bản nếu muốn bổ sung chi tiết cụ thể, nhưng đó chỉ là tùy chọn.
Trong trường hợp người dùng không có sẵn hình ảnh, Whisk cung cấp tính năng "lắc xúc xắc" (dice icon) để tạo ngẫu nhiên các hình ảnh gợi ý. Những hình ảnh này cũng được AI tạo ra. Sau khi hoàn thành quá trình thiết lập, Whisk sẽ tạo ra các hình ảnh cùng với văn bản mô tả tương ứng. Người dùng có thể đánh dấu yêu thích, tải về hoặc tiếp tục chỉnh sửa thêm bằng cách nhập văn bản bổ sung.
Trong bài thử nghiệm của The Verge, Whisk hoạt động tương đối linh hoạt. Người viết đã sử dụng tính năng lắc xúc xắc để tạo các yếu tố ngẫu nhiên, sau đó tinh chỉnh thêm bằng cách nhập yêu cầu "thêm hơi nước xung quanh chủ thể." Kết quả là các hình ảnh được tạo ra dần hoàn thiện theo ý tưởng ban đầu.
Google nhấn mạnh trong một bài đăng trên blog rằng Whisk hướng đến mục tiêu “khám phá hình ảnh nhanh chóng, thay vì chỉnh sửa từng điểm ảnh một cách hoàn hảo.” Công ty cũng thừa nhận công cụ này có thể "chưa chính xác tuyệt đối," và do đó cung cấp tính năng chỉnh sửa văn bản mô tả để cải thiện kết quả.
Whisk được phát triển trên phiên bản mới nhất của mô hình tạo ảnh Imagen 3 của Google. Cùng với đó, Google cũng ra mắt Veo 2 - phiên bản nâng cấp của mô hình tạo video. Theo Google, Veo 2 có khả năng hiểu ngôn ngữ điện ảnh tốt hơn và giảm thiểu tình trạng "ảo giác" thường gặp như tạo thừa ngón tay.
Công cụ Veo 2 sẽ được triển khai trước tiên trên VideoFX của Google thông qua danh sách chờ trên Google Labs. Sau đó, công cụ này sẽ được mở rộng sang YouTube Shorts và một số sản phẩm khác vào năm tới.