Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Công cụ Suy luận (Inference Engine)

Khám phá cách công cụ suy luận tối ưu hóa các mô hình học máy như thế nào, ví dụ: Ultralytics YOLO26 để triển khai thời gian thực. Khám phá các mẹo tối ưu hiệu suất cho AI biên ngay hôm nay.

Công cụ suy luận là một thành phần phần mềm chuyên dụng được thiết kế để thực thi các mô hình học máy đã được huấn luyện và tạo ra các dự đoán từ dữ liệu mới. Không giống như giai đoạn huấn luyện, tập trung vào việc học các mẫu thông qua các quy trình tính toán chuyên sâu như lan truyền ngược , công cụ suy luận được tối ưu hóa nghiêm ngặt cho giai đoạn vận hành được gọi là triển khai mô hình . Mục tiêu chính của nó là chạy các phép tính hiệu quả nhất có thể, giảm thiểu độ trễ suy luận và tối đa hóa thông lượng trên phần cứng mục tiêu, cho dù đó là máy chủ đám mây có khả năng mở rộng hay thiết bị AI biên chạy bằng pin. Bằng cách loại bỏ chi phí cần thiết cho việc huấn luyện, các công cụ này cho phép các mạng nơ-ron phức tạp hoạt động trong các ứng dụng thời gian thực.

Cách các công cụ suy luận tối ưu hóa hiệu suất

Quá trình chuyển đổi từ môi trường huấn luyện sang công cụ suy luận thường bao gồm một số bước tối ưu hóa để tinh giản cấu trúc của mô hình. Vì mô hình không còn cần phải học nữa, công cụ có thể loại bỏ dữ liệu cần thiết cho việc cập nhật gradient, về cơ bản là đóng băng trọng số của mô hình . Các kỹ thuật phổ biến được các công cụ suy luận sử dụng bao gồm hợp nhất lớp, trong đó nhiều phép toán được kết hợp thành một bước duy nhất để giảm truy cập bộ nhớ, và lượng tử hóa mô hình , chuyển đổi trọng số từ định dạng dấu phẩy động độ chính xác cao sang số nguyên độ chính xác thấp hơn (ví dụ: INT8).

Những tối ưu hóa này cho phép các kiến ​​trúc tiên tiến như Ultralytics YOLO26 hoạt động ở tốc độ cực cao mà không làm giảm đáng kể độ chính xác . Các công cụ khác nhau thường được tùy chỉnh cho các hệ sinh thái phần cứng cụ thể để khai thác hiệu suất tối đa:

  • NVIDIA TensorRT : Cung cấp khả năng suy luận hiệu năng cao trên NVIDIA GPU bằng cách sử dụng các nhân xử lý dành riêng cho phần cứng và tối ưu hóa đồ thị mạng.
  • Intel OpenVINO : Tối ưu hóa hiệu năng học sâu trên Intel Các kiến ​​trúc, bao gồm CPU và đồ họa tích hợp, làm cho nó trở nên lý tưởng cho điện toán biên.
  • ONNX Runtime : Một bộ tăng tốc đa nền tảng hỗ trợ các mô hình ở định dạng ONNX , đóng vai trò cầu nối giữa các framework và phần cứng backend khác nhau.

Các Ứng dụng Thực tế

Các bộ xử lý suy luận là động lực thầm lặng đằng sau nhiều tiện ích của trí tuệ nhân tạo hiện đại, cho phép các hệ thống thị giác máy tính phản ứng tức thì với môi trường xung quanh.

  1. Xe tự hành : Trong xe tự lái, các mô hình phát hiện đối tượng phải xác định người đi bộ, biển báo giao thông và các phương tiện khác trong vòng mili giây. Một công cụ suy luận chạy cục bộ trên phần cứng của xe đảm bảo quá trình xử lý này diễn ra với tốc độ suy luận thời gian thực , vì việc dựa vào kết nối đám mây sẽ gây ra sự chậm trễ nguy hiểm.
  2. Sản xuất thông minh : Các nhà máy sử dụng camera IoT công nghiệp để kiểm tra sản phẩm trên dây chuyền lắp ráp. Bộ xử lý suy luận sẽ xử lý nguồn cấp dữ liệu video để phát hiện các bất thường , ngay lập tức báo hiệu các lỗi. Tự động hóa này giúp giảm thiểu lãng phí và đảm bảo kiểm soát chất lượng nghiêm ngặt mà không làm chậm quá trình sản xuất.

Công cụ suy luận so với khung huấn luyện

Việc phân biệt giữa phần mềm dùng để tạo mô hình và công cụ dùng để chạy mô hình là rất hữu ích. Một khung huấn luyện (như PyTorch hoặc TensorFlow ) cung cấp các công cụ để thiết kế kiến ​​trúc, tính toán hàm mất mát và cập nhật tham số thông qua học có giám sát . Nó ưu tiên tính linh hoạt và khả năng gỡ lỗi.

Ngược lại, công cụ suy luận (Inference Engine) lấy kết quả cuối cùng từ khung huấn luyện và ưu tiên tốc độ thực thi cũng như hiệu quả bộ nhớ. Mặc dù bạn có thể chạy suy luận trong một khung huấn luyện, nhưng điều đó hiếm khi hiệu quả bằng việc sử dụng một công cụ chuyên dụng, đặc biệt là khi triển khai trên điện thoại di động hoặc thiết bị nhúng thông qua các công cụ như TensorFlow Lite hoặc Apple Core ML .

Sử dụng công cụ suy luận với YOLO26

Các ultralytics Gói phần mềm này trừu tượng hóa phần lớn sự phức tạp của các công cụ suy luận, cho phép người dùng chạy các dự đoán một cách liền mạch. Về cơ bản, nó xử lý việc tiền xử lý hình ảnh và thực thi mô hình. Đối với người dùng muốn mở rộng quy mô, Ultralytics Nền tảng Giúp đơn giản hóa quá trình huấn luyện và xuất mô hình sang các định dạng tối ưu, tương thích với nhiều công cụ suy luận khác nhau.

Ví dụ sau đây minh họa cách tải mô hình YOLO26 đã được huấn luyện trước và chạy suy luận trên một hình ảnh:

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on an image from a URL
# The 'predict' method acts as the interface to the inference process
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay