Nguyễn Tô Thanh An

Senior Content Executive @ Brands Vietnam

Chia sẻ
Báo lỗi

Google I/O 2024: Ra mắt “AI Overviews”, Gemini Nano và Veo – đối thủ tiềm năng của Sora AI

15/05/2024
2,238
0

Tại sự kiện Google I/O 2024, hãng công nghệ tiếp tục công bố những thông tin thú vị liên quan đến mô hình trí tuệ nhân tạo Gemini, cùng loạt công cụ hữu ích dành cho nhà sáng tạo nội dung.

Vào sáng ngày 15/5/2024, Google đã công bố hàng loạt cải tiến vượt trội của Gemini, các tính năng mới của công cụ tìm kiếm và khả năng tích hợp với các ứng dụng dành cho công việc khác. Dưới đây là một số tin tức nổi bật từ sự kiện Google I/O 2024.

Gemini Nano và Veo giúp nhà sáng tạo nội dung xử lý công việc nhanh hơn

Theo công bố từ Google, trình duyệt Chrome dành cho máy tính từ phiên bản 126 trở lên sẽ được tích hợp trợ lý AI Gemini Nano. Được biết, Gemini Nano là mô hình ngôn ngữ lớn nhẹ hơn hơn so với mô hình được tích hợp vào Pixel 8 và 8 Pro. Để tích hợp vào Chrome, hãng đã tuỳ chỉnh và tối ưu để quá trình vận hành trở nên mượt mà hơn. Với Gemini Nano, các nhà sáng tạo nội dung có thể thực hiện nhanh chóng các thao tác như viết bài đánh giá sản phẩm – dịch vụ, đăng bài trên mạng xã hội và các nội dung khác.

Google cũng thông báo ra mắt công cụ trí tuệ nhân tạo tạo sinh Veo, nhằm giúp người dùng có thể dễ dàng tạo ra video có độ phân giải cao, với nhiều phong cách hình ảnh và điện ảnh. Người dùng có thể điều chỉnh chất lượng đầu ra bằng cách đưa ra câu lệnh dựa trên văn bản, hình ảnh và video. Google cho biết các video tạo ra có sự nhất quán và mạch lạc, đồng thời mô tả được chuyển động thực tế của con người, động vật và đồ vật trong suốt các khung hình.

Hình ảnh trích từ thử nghiệm tạo ra video chất lượng bằng công cụ Veo của Google.
Nguồn: Google

Theo đó, Google đang có kế hoạch tích hợp Veo vào YouTube Short trong tương lai. Không chỉ vậy, hãng công nghệ này cũng có dự định giới thiệu Veo như một công cụ chuyên nghiệp dành cho các nhà làm phim.

Gemini tích hợp chatbot tuỳ chỉnh, thêm tính năng Live và trả lời câu hỏi về hình ảnh trong máy của người dùng

Tại sự kiện, Google đã giới thiệu mô hình trí tuệ nhân tạo mới có tên là Gemini 1.5 Flash. Theo hãng công bố, Gemini 1.5 Flash được tối ưu hoá để tạo ra phản hồi nhanh hơn, cũng như cải thiện khả năng dịch thuật, cách thức lập luận và viết code.

Đáng chú ý, Google đang triển khai tích hợp một chatbot tuỳ chỉnh có tên là Gems. Tương tự như ChatGPT của OpenAI, Gems cho phép người dùng đưa ra hướng dẫn để tuỳ chỉnh cách thức phản hồi của Gems. Ví dụ, nếu người dùng muốn Gems trở thành một huấn luyện viên chạy bộ trực tuyến tích cực để có thêm động lực và xây dựng lịch trình hợp lý, chatbot tuỳ chỉnh của Google sẽ sớm làm được điều đó, với điều kiện phải đăng ký gói trả phí Gemini Advanced.

Google công bố tích hợp chatbot tuỳ chỉnh Gems và bổ sung tính năng Gemini Live.
Nguồn: Google

Không chỉ thế, Google cũng triển khai thêm mô hình ngôn ngữ Gemini 1.5 Pro (được xem là phiên bản phức tạp hơn của Gemini 1.5 Flash) để tích hợp vào thanh bên của các ứng dụng công việc như Docs, Sheets, Slides, Drive và Gmail. Vào tháng tới, những người dùng trả phí có thể tận dụng Gemini 1.5 Pro như một trợ lý đa năng trong các tác vụ công việc hàng ngày, chẳng hạn như soạn thảo email dựa trên các tài liệu người dùng đang xem.

Sắp tới đây, với tính năng “Ask Photos" của Gemini tích hợp vào Google Photos, người dùng có thể đặt ra những câu hỏi phức tạp liên quan đến hình ảnh trong thư viện ảnh, chứ không chỉ đơn giản như là tìm kiếm và sắp xếp hình ảnh có mặt thú cưng. Tại sự kiện, ông Sundar Pichai – CEO @ Google đã thử nghiệm tính năng này bằng cách hỏi Gemini rằng biển số xe của ông là bao nhiêu. Kết quả là Gemini đã đưa ra câu trả lời đúng, kèm theo bức ảnh có chứa biển số xe của ông.

Ông Sundar Pichai – CEO @ Google thử nghiệm tính năng “Ask Photos" tại sự kiện.
Nguồn: Google

Chưa hết, Google cũng công bố tính năng Gemini Live sẽ giúp giọng nói của Gemini trở nên tự nhiên và có tính cá nhân hoá hơn. Gemini Live sẽ thích ứng với cách nói chuyện của người dùng và đưa ra những câu trả lời mang tính trò chuyện và ngắn gọn hơn so với trước đây. Gemini Live cũng sẽ đi kèm với 10 tuỳ chọn giọng nói khác nhau. Với Gemini Live, người dùng có thể sử dụng công cụ này như một trợ lý cá nhân kỹ thuật số để cập nhật thông tin hoặc thông báo nhắc nhở.

Google Search tích hợp “AI Overviews”, tìm kiếm bằng video để quá trình tìm kiếm dễ dàng hơn

Cụ thể hơn, với “AI Overviews” (tên gọi cũ là “Search Generative Experience”) thì khi người dùng thực hiện tìm kiếm, trang kết quả tìm kiếm sẽ có một bản tóm tắt xuất hiện ở trên cùng, tương tự như công cụ tìm kiếm AI Perplexity hoặc Arc Search. Theo Liz Reid – Head of Search @ Google, khi tích hợp trí tuệ nhân tạo tạo sinh thì Google có thể giúp quá trình tìm kiếm trở nên dễ dàng hơn, khi mà người dùng có thể tập trung vào những thứ họ muốn tìm hoặc khám phá thêm.

Video giới thiệu tính năng “AI Overviews” khi thực hiện thao tác tìm kiếm.
Nguồn: Google

Hơn nữa, quá trình tìm kiếm của người dùng cũng sẽ thuận tiện hơn khi mà Google Lens tích hợp trong ứng dụng Google có thể tìm kiếm dựa trên video. Để dễ hình dung hơn, với tính năng này, người dùng có thể quay video tại chiếc xe ô tô và đưa ra câu hỏi liên quan, sau đó Google sẽ đưa ra câu trả lời. Như vậy, với một đoạn video ngắn, người dùng có thể dễ dàng tìm kiếm giải pháp cho vấn đề họ đang gặp phải.

Theo Thanh An / Brands Vietnam
* Nguồn: Tổng hợp