Tối ưu hóa hiệu suất AI với độ trễ suy luận thấp. Tìm hiểu các yếu tố chính, các ứng dụng thực tế và các kỹ thuật để tăng cường phản hồi theo thời gian thực.
Độ trễ suy luận là khoảng thời gian trôi qua giữa lúc mô hình học máy (ML) nhận đầu vào và tạo ra đầu ra tương ứng. Chỉ số này, thường được đo bằng mili giây (ms), là một yếu tố quyết định khả năng phản hồi của các hệ thống trí tuệ nhân tạo (AI) . Đối với các nhà phát triển và kỹ sư làm việc trên các dự án thị giác máy tính (CV) , việc giảm thiểu độ trễ thường quan trọng ngang với việc tối đa hóa độ chính xác , đặc biệt là khi triển khai các ứng dụng tương tác với con người hoặc máy móc vật lý. Độ trễ cao dẫn đến hiệu suất chậm chạp, trong khi độ trễ thấp tạo ra trải nghiệm người dùng liền mạch và cho phép ra quyết định ngay lập tức, một khái niệm cơ bản đối với các hệ thống thông minh hiện đại.
Trong lĩnh vực triển khai mô hình , tốc độ xử lý dữ liệu của một hệ thống quyết định tính khả thi của nó đối với các tác vụ cụ thể. Độ trễ suy luận thấp là nền tảng của suy luận thời gian thực , trong đó các dự đoán phải diễn ra trong một khoảng thời gian giới hạn để có thể thực hiện được. Ví dụ, độ trễ vài trăm mili giây có thể chấp nhận được đối với hệ thống đề xuất trên một trang web mua sắm, nhưng lại có thể gây ra thảm họa đối với các hệ thống quan trọng về an toàn. Việc hiểu rõ các yêu cầu về độ trễ cụ thể của một dự án ngay từ đầu chu kỳ phát triển cho phép các nhóm lựa chọn kiến trúc mô hình và cấu hình phần cứng phù hợp để đảm bảo độ tin cậy.
Một số thành phần biến góp phần vào tổng thời gian cần thiết cho một lần suy luận duy nhất:
Tác động thực tế của độ trễ suy luận được hiểu rõ nhất thông qua các trường hợp sử dụng cụ thể khi tốc độ không thể thương lượng.
Điều quan trọng là phải phân biệt "độ trễ" với "thông lượng" vì chúng thường có mối quan hệ nghịch đảo với các mục tiêu tối ưu hóa.
Sự đánh đổi giữa độ trễ và thông lượng này đòi hỏi các nhà phát triển phải điều chỉnh quy trình suy luận của họ theo nhu cầu cụ thể của môi trường triển khai.
Bạn có thể đánh giá hiệu suất của Ultralytics mô hình sử dụng chế độ chuẩn tích hợp. Công cụ này cung cấp số liệu chi tiết về tốc độ suy luận trên các định dạng khác nhau như ONNX hoặc TorchScript .
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
Để đạt được độ trễ thấp nhất có thể, các nhà phát triển thường sử dụng một công cụ suy luận phù hợp với phần cứng của họ. Ví dụ, triển khai một mô hình trên NVIDIA Thiết bị Jetson sử dụng tối ưu hóa TensorRT có thể tăng tốc đáng kể so với việc chạy mã PyTorch thô. Tương tự, việc sử dụng Intel OpenVINO có thể tăng tốc hiệu suất trên các hệ thống tiêu chuẩn. CPU kiến trúc. Các công cụ này tối ưu hóa đồ thị tính toán, hợp nhất các lớp và quản lý bộ nhớ hiệu quả hơn so với các khuôn khổ đào tạo tiêu chuẩn.