Khám phá cách công cụ suy luận tối ưu hóa các mô hình học máy như thế nào, ví dụ: Ultralytics YOLO26 để triển khai thời gian thực. Khám phá các mẹo tối ưu hiệu suất cho AI biên ngay hôm nay.
Công cụ suy luận là một thành phần phần mềm chuyên dụng được thiết kế để thực thi các mô hình học máy đã được huấn luyện và tạo ra các dự đoán từ dữ liệu mới. Không giống như giai đoạn huấn luyện, tập trung vào việc học các mẫu thông qua các quy trình tính toán chuyên sâu như lan truyền ngược , công cụ suy luận được tối ưu hóa nghiêm ngặt cho giai đoạn vận hành được gọi là triển khai mô hình . Mục tiêu chính của nó là chạy các phép tính hiệu quả nhất có thể, giảm thiểu độ trễ suy luận và tối đa hóa thông lượng trên phần cứng mục tiêu, cho dù đó là máy chủ đám mây có khả năng mở rộng hay thiết bị AI biên chạy bằng pin. Bằng cách loại bỏ chi phí cần thiết cho việc huấn luyện, các công cụ này cho phép các mạng nơ-ron phức tạp hoạt động trong các ứng dụng thời gian thực.
Quá trình chuyển đổi từ môi trường huấn luyện sang công cụ suy luận thường bao gồm một số bước tối ưu hóa để tinh giản cấu trúc của mô hình. Vì mô hình không còn cần phải học nữa, công cụ có thể loại bỏ dữ liệu cần thiết cho việc cập nhật gradient, về cơ bản là đóng băng trọng số của mô hình . Các kỹ thuật phổ biến được các công cụ suy luận sử dụng bao gồm hợp nhất lớp, trong đó nhiều phép toán được kết hợp thành một bước duy nhất để giảm truy cập bộ nhớ, và lượng tử hóa mô hình , chuyển đổi trọng số từ định dạng dấu phẩy động độ chính xác cao sang số nguyên độ chính xác thấp hơn (ví dụ: INT8).
Những tối ưu hóa này cho phép các kiến trúc tiên tiến như Ultralytics YOLO26 hoạt động ở tốc độ cực cao mà không làm giảm đáng kể độ chính xác . Các công cụ khác nhau thường được tùy chỉnh cho các hệ sinh thái phần cứng cụ thể để khai thác hiệu suất tối đa:
Các bộ xử lý suy luận là động lực thầm lặng đằng sau nhiều tiện ích của trí tuệ nhân tạo hiện đại, cho phép các hệ thống thị giác máy tính phản ứng tức thì với môi trường xung quanh.
Việc phân biệt giữa phần mềm dùng để tạo mô hình và công cụ dùng để chạy mô hình là rất hữu ích. Một khung huấn luyện (như PyTorch hoặc TensorFlow ) cung cấp các công cụ để thiết kế kiến trúc, tính toán hàm mất mát và cập nhật tham số thông qua học có giám sát . Nó ưu tiên tính linh hoạt và khả năng gỡ lỗi.
Ngược lại, công cụ suy luận (Inference Engine) lấy kết quả cuối cùng từ khung huấn luyện và ưu tiên tốc độ thực thi cũng như hiệu quả bộ nhớ. Mặc dù bạn có thể chạy suy luận trong một khung huấn luyện, nhưng điều đó hiếm khi hiệu quả bằng việc sử dụng một công cụ chuyên dụng, đặc biệt là khi triển khai trên điện thoại di động hoặc thiết bị nhúng thông qua các công cụ như TensorFlow Lite hoặc Apple Core ML .
Các ultralytics Gói phần mềm này trừu tượng hóa phần lớn sự phức tạp của các công cụ suy luận, cho phép người dùng chạy các dự đoán một cách liền mạch. Về cơ bản, nó xử lý việc tiền xử lý hình ảnh và thực thi mô hình. Đối với người dùng muốn mở rộng quy mô, Ultralytics Nền tảng Giúp đơn giản hóa quá trình huấn luyện và xuất mô hình sang các định dạng tối ưu, tương thích với nhiều công cụ suy luận khác nhau.
Ví dụ sau đây minh họa cách tải mô hình YOLO26 đã được huấn luyện trước và chạy suy luận trên một hình ảnh:
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image from a URL
# The 'predict' method acts as the interface to the inference process
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()