Ứng dụng MoE trên thiết bị di động, OPPO dẫn đầu trong đổi mới AI
Ngày 23/10/2024, OPPO chính thức triển khai kiến trúc Mixture of Experts (MoE) trực tiếp trên thiết bị di động (on-device). Cột mốc này vừa giúp OPPO nâng cao hiệu suất xử lý AI vừa tạo nền tảng cho các bước tiến sáng tạo hơn trong tương lai.
Ngày nay, khi công nghệ AI ngày càng phát triển, nhiều tác vụ đã được thực hiện ngay trên các thiết bị di động. Tuy nhiên, các mô hình AI lớn thường đòi hỏi sức mạnh tính toán đáng kể, điều này có thể ảnh hưởng đến hiệu suất, đặc biệt trên các thiết bị giới hạn về tài nguyên phần cứng. Để giải quyết vấn đề này, OPPO đã hợp tác với các nhà cung cấp chipset uy tín để triển khai kiến trúc MoE (Mixture of Experts) trực tiếp trên thiết bị di động.
Để hiểu hơn về MoE, hãy xem xét FNN (Feedforward Neural Network), một trong những loại mạng nơ-ron nhân tạo đơn giản nhất được phát minh. Đối với cấu trúc này, bất kỳ một dữ liệu đầu vào nào đều phải đi qua tất cả các lớp (hidden layer) hoặc "đường dẫn" bất kể dữ liệu đó cần gì. Dù bạn cần tạo ra một hình ảnh hay một bài viết, cả hai yêu cầu này đều phải đi theo cùng một lộ trình qua tất cả các lớp ở giữa, mặc dù không phải tất cả các bước đều cần thiết cho từng tác vụ kể trên. Điều này dễ gây lãng phí tài nguyên, bởi hệ thống không phân biệt mà yêu cầu mọi dữ liệu qua cùng một tuyến xử lý.
Khác với FNN, cấu trúc MoE (Mixture of Experts) như một mạng lưới thông minh biết kích hoạt từng phần cụ thể khi cần thiết. Hãy tưởng tượng MoE như một đội ngũ chuyên gia đa dạng, trong đó mỗi chuyên gia (một mô hình nhỏ hơn được đào tạo riêng biệt cho từng nhiệm vụ) chỉ được gọi vào khi có yêu cầu. Nếu có dữ liệu văn bản, chỉ những chuyên gia về xử lý ngôn ngữ mới được kích hoạt, còn nếu là hình ảnh thì chuyên gia về thị giác sẽ tham gia xử lý. Giống như việc chỉ những thành viên có kỹ năng chuyên biệt được yêu cầu tham gia vào vấn đề, MoE giúp giảm tải công việc, tiết kiệm tài nguyên và tăng tốc độ xử lý.
Nhờ chỉ kích hoạt các chuyên gia cần thiết, MoE giúp tối ưu hoá quá trình xử lý – giống như một hệ thống nơi bạn chỉ bật những công tắc cần thiết cho các nhu cầu khác nhau, thay vì phải chiếu sáng toàn bộ toà nhà cho một vài văn phòng.
Đối với các thiết bị có giới hạn về công suất và dung lượng, MoE cho phép xử lý các tác vụ phức tạp chỉ bằng cách sử dụng các “chuyên gia” cần thiết, thay vì xử lý toàn bộ cùng lúc. Phương pháp này giúp tiết kiệm pin, tăng tốc độ và nâng cao quyền riêng tư khi các tác vụ được thực hiện ngay trên thiết bị.
Một ví dụ cụ thể, khi bạn có một dữ liệu đầu vào “Cuộc họp team vào 3 giờ chiều mai về tiền độ dự án”. Gating Network sẽ bắt đầu phân tích để xác định xem “chuyên gia” nào sẽ được kích hoạt dựa trên dữ liệu đầu vào này. Theo đó, chỉ các “chuyên gia” sau được kích hoạt cho nhiệm vụ:
- Categorization Expert: Xác định đây là văn bản về “Biên bản cuộc họp”
- Data Parsing Event: Sẽ chuẩn hóa yếu tố thời gian trong dữ liệu “3 giờ chiều ngày mai”
- Reminder Expert: Tạo lời nhắc về “Cuộc họp lúc 3 giờ chiều ngày mai”
- Keyword Extraction Expert: Chắt lọc các từ khóa quan trọng như “cuộc họp”, “dự án”, “tiến độ”.
- Summary Generation Expert: Tạo một văn bản tóm tắt như “Cuộc họp thảo luận tiến độ dự án cùng team”
Các “chuyên gia” hình ảnh và dịch thuật không cần thiết cho nhiệm vụ này, do đó sẽ không cần được kích hoạt. Sau khi phân tích, kết quả trả về là một bản ghi chú chi tiết về thông tin, thời gian buổi họp.
Các thử nghiệm trong phòng thí nghiệm cho thấy kiến trúc MoE trên thiết bị giúp tăng tốc độ xử lý AI khoảng 40%, giảm yêu cầu tài nguyên và nâng cao hiệu quả năng lượng. Điều này giúp AI phản hồi nhanh hơn, kéo dài tuổi thọ pin và tăng cường quyền riêng tư khi nhiều tác vụ được xử lý ngay trên thiết bị cá nhân.
Việc OPPO triển khai kiến trúc MoE trên thiết bị di động là một bước đột phá trong đổi mới AI. Bằng cách giảm chi phí tính toán của AI, MoE giúp các thiết bị từ phân khúc cao cấp đến giá cả phải chăng đều có thể thực hiện các tác vụ AI phức tạp, đẩy nhanh quá trình ứng dụng AI trên toàn ngành. Nhờ đó, kiến trúc MoE trên thiết bị di động mở ra cơ hội để ngành công nghiệp đưa các tính năng AI tiên tiến đến gần hơn với nhiều đối tượng người dùng.