Khám phá cách Edge AI cho phép xử lý AI theo thời gian thực, an toàn và hiệu quả trên thiết bị, chuyển đổi các ngành như chăm sóc sức khỏe và xe tự hành.
Trí tuệ nhân tạo biên (Edge AI) tạo ra một môi trường điện toán phi tập trung, nơi các thuật toán trí tuệ nhân tạo (AI) và học máy (ML) được xử lý trực tiếp trên thiết bị cục bộ, thay vì dựa vào các máy chủ từ xa. Bằng cách thực hiện xử lý dữ liệu gần nguồn - chẳng hạn như trên cảm biến, camera hoặc cổng IoT - Trí tuệ nhân tạo biên (Edge AI) giảm đáng kể độ trễ và mức sử dụng băng thông. Phương pháp này rất cần thiết cho các ứng dụng yêu cầu suy luận thời gian thực, trong đó mili giây rất quan trọng, hoặc trong môi trường kết nối internet không ổn định. Việc chuyển đổi từ xử lý tập trung sang biên cho phép các thiết bị tự đưa ra quyết định, tăng cường quyền riêng tư dữ liệu bằng cách lưu trữ thông tin nhạy cảm trên phần cứng cục bộ.
Trong quy trình làm việc AI Edge điển hình, một thiết bị vật lý thu thập dữ liệu thông qua các cảm biến đầu vào. Thay vì truyền dữ liệu thô đến trung tâm điện toán đám mây , thiết bị sử dụng bộ vi xử lý nhúng hoặc bộ tăng tốc chuyên dụng—chẳng hạn như mô-đun NVIDIA Jetson hoặc Google Coral Edge TPU —để chạy các mô hình ML cục bộ.
Để hoạt động hiệu quả trên các thiết bị hạn chế tài nguyên, các mô hình thường trải qua các quy trình tối ưu hóa. Các kỹ thuật như lượng tử hóa mô hình và cắt tỉa mô hình giúp giảm kích thước tệp và độ phức tạp tính toán của mạng nơ-ron mà không làm giảm đáng kể độ chính xác . Các nền tảng được tối ưu hóa, chẳng hạn như TensorRT và Intel OpenVINO , hoạt động như một công cụ suy luận để tăng tốc các mô hình này trên các kiến trúc phần cứng cụ thể.
Mặc dù thường được sử dụng cùng nhau, nhưng việc phân biệt hai khái niệm có liên quan sau đây sẽ rất hữu ích:
Việc triển khai Edge AI đang chuyển đổi các ngành công nghiệp bằng cách cho phép vận hành tự động và phân tích thông minh hơn.
Việc triển khai mô hình lên thiết bị biên thường liên quan đến việc xuất mô hình đã được huấn luyện sang định dạng không phụ thuộc phần cứng. Định dạng ONNX (Open Neural Network Exchange - Trao đổi Mạng Nơ-ron Mở) là một tiêu chuẩn cho phép mô hình chạy trên nhiều nền tảng khác nhau.
Ví dụ sau đây minh họa cách xuất một tệp nhẹ YOLO11 mô hình lý tưởng cho việc triển khai biên giới do tốc độ và hiệu quả của nó:
from ultralytics import YOLO
# Load a lightweight YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to ONNX format for edge deployment
# The 'dynamic' argument allows for variable input sizes
model.export(format="onnx", dynamic=True)
Việc triển khai Edge AI gặp phải những thách thức, chủ yếu liên quan đến nguồn năng lượng và tài nguyên bộ nhớ hạn chế của các thiết bị biên so với các trung tâm dữ liệu lớn. Các nhà phát triển phải cân bằng hiệu suất mô hình với mức tiêu thụ năng lượng, thường sử dụng thiết kế hệ thống trên chip (SoC) từ các công ty như Qualcomm hoặc Ambarella .
Nhìn về tương lai, việc tích hợp mạng 5G sẽ nâng cao hơn nữa AI biên (Edge AI) bằng cách cung cấp kết nối tốc độ cao cần thiết cho việc phối hợp thiết bị, được gọi là trí tuệ bầy đàn. Ngoài ra, các kỹ thuật như học liên kết cho phép các thiết bị biên cùng nhau cải thiện các mô hình toàn cầu trong khi vẫn giữ dữ liệu thô được phân cấp và riêng tư.