Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Độ trễ suy luận

Tối ưu hóa hiệu suất AI với độ trễ suy luận thấp. Tìm hiểu các yếu tố chính, các ứng dụng thực tế và các kỹ thuật để tăng cường phản hồi theo thời gian thực.

Độ trễ suy luận là khoảng thời gian trôi qua giữa lúc mô hình học máy (ML) nhận đầu vào và tạo ra đầu ra tương ứng. Chỉ số này, thường được đo bằng mili giây (ms), là một yếu tố quyết định khả năng phản hồi của các hệ thống trí tuệ nhân tạo (AI) . Đối với các nhà phát triển và kỹ sư làm việc trên các dự án thị giác máy tính (CV) , việc giảm thiểu độ trễ thường quan trọng ngang với việc tối đa hóa độ chính xác , đặc biệt là khi triển khai các ứng dụng tương tác với con người hoặc máy móc vật lý. Độ trễ cao dẫn đến hiệu suất chậm chạp, trong khi độ trễ thấp tạo ra trải nghiệm người dùng liền mạch và cho phép ra quyết định ngay lập tức, một khái niệm cơ bản đối với các hệ thống thông minh hiện đại.

Tầm quan trọng của độ trễ thấp

Trong lĩnh vực triển khai mô hình , tốc độ xử lý dữ liệu của một hệ thống quyết định tính khả thi của nó đối với các tác vụ cụ thể. Độ trễ suy luận thấp là nền tảng của suy luận thời gian thực , trong đó các dự đoán phải diễn ra trong một khoảng thời gian giới hạn để có thể thực hiện được. Ví dụ, độ trễ vài trăm mili giây có thể chấp nhận được đối với hệ thống đề xuất trên một trang web mua sắm, nhưng lại có thể gây ra thảm họa đối với các hệ thống quan trọng về an toàn. Việc hiểu rõ các yêu cầu về độ trễ cụ thể của một dự án ngay từ đầu chu kỳ phát triển cho phép các nhóm lựa chọn kiến trúc mô hình và cấu hình phần cứng phù hợp để đảm bảo độ tin cậy.

Các yếu tố chính ảnh hưởng đến độ trễ

Một số thành phần biến góp phần vào tổng thời gian cần thiết cho một lần suy luận duy nhất:

  • Kiến trúc Mô hình : Thiết kế cấu trúc của mạng nơ-ron (NN) ảnh hưởng rất lớn đến tốc độ của nó. Các mô hình sâu với nhiều lớp, chẳng hạn như bộ biến đổi lớn, vốn đòi hỏi nhiều tính toán hơn so với mạng nơ-ron tích chập (CNN) nhẹ. Các kiến trúc như YOLO11 được tối ưu hóa để cân bằng giữa độ sâu và tốc độ, cho hiệu quả thực thi cao.
  • Tăng tốc phần cứng : Việc lựa chọn bộ xử lý là rất quan trọng. Trong khi CPU tiêu chuẩn xử lý tốt các tác vụ chung, phần cứng chuyên dụng như GPU (Bộ xử lý đồ họa) hoặc TPU (Bộ xử lý Tensor ) được thiết kế để song song hóa các phép toán ma trận cần thiết cho các mô hình AI, giúp giảm đáng kể thời gian tính toán. Công nghệ NVIDIA CUDA là một ví dụ phổ biến về phần mềm hỗ trợ khả năng tăng tốc này.
  • Độ phân giải đầu vào : Xử lý hình ảnh hoặc khung hình video lớn hơn đòi hỏi nhiều tài nguyên tính toán hơn. Việc giảm kích thước đầu vào (ví dụ: từ 640p xuống 320p) có thể giảm độ trễ, mặc dù có khả năng phải đánh đổi bằng việc phát hiện các vật thể nhỏ, một sự đánh đổi đã được nghiên cứu trong các nghiên cứu EfficientNet .
  • Tối ưu hóa Mô hình : Các kỹ thuật như lượng tử hóa mô hình — chuyển đổi trọng số từ số dấu phẩy động 32 bit sang số nguyên 8 bit — và cắt tỉa mô hình giúp loại bỏ các phép tính dư thừa. Các công cụ như ONNX Runtime được xây dựng đặc biệt để giảm độ trễ trên phần cứng mục tiêu.

Các Ứng dụng Thực tế

Tác động thực tế của độ trễ suy luận được hiểu rõ nhất thông qua các trường hợp sử dụng cụ thể khi tốc độ không thể thương lượng.

  1. Lái xe tự động : Trong các ứng dụng AI trong ô tô , xe cộ phải liên tục nhận biết môi trường xung quanh. Một hệ thống phát hiện vật thể , khi nhận diện người đi bộ băng qua đường, phải xử lý dữ liệu từ camera và kích hoạt hệ thống phanh trong vài mili giây. Độ trễ quá mức ở đây sẽ làm tăng khoảng cách phanh, ảnh hưởng trực tiếp đến sự an toàn. Nghiên cứu về độ trễ của xe tự hành cho thấy ngay cả những sự chậm trễ nhỏ cũng có thể dẫn đến các tình huống nguy hiểm.
  2. Robot Công nghiệp : Đối với AI trong sản xuất , robot gắp và đặt tốc độ cao dựa vào hệ thống thị giác để định vị các vật phẩm trên băng chuyền chuyển động nhanh. Nếu độ trễ suy luận vượt quá thời gian vật thể nằm trong tầm với của robot, hệ thống sẽ bị lỗi. Việc triển khai các giải pháp AI biên đảm bảo dữ liệu được xử lý cục bộ trên thiết bị, loại bỏ độ trễ mạng thường gặp ở điện toán đám mây .

Độ trễ suy luận so với Thông lượng

Điều quan trọng là phải phân biệt "độ trễ" với "thông lượng" vì chúng thường có mối quan hệ nghịch đảo với các mục tiêu tối ưu hóa.

  • Độ trễ suy luận tập trung vào thời gian cần thiết cho một dự đoán duy nhất . Đây là số liệu chính cho các ứng dụng tương tác, dành cho một người dùng như trợ lý ảo hoặc robot tự động .
  • Thông lượng đo lường số lượng dự đoán mà hệ thống có thể xử lý trong một khoảng thời gian nhất định (ví dụ: hình ảnh mỗi giây). Thông lượng cao thường đạt được bằng cách tăng kích thước lô , xử lý nhiều đầu vào cùng lúc. Tuy nhiên, việc xử lý theo lô thường làm tăng độ trễ cho từng mục riêng lẻ đang chờ trong hàng đợi.

Sự đánh đổi giữa độ trễ và thông lượng này đòi hỏi các nhà phát triển phải điều chỉnh quy trình suy luận của họ theo nhu cầu cụ thể của môi trường triển khai.

Đo độ trễ bằng Ultralytics

Bạn có thể đánh giá hiệu suất của Ultralytics mô hình sử dụng chế độ chuẩn tích hợp. Công cụ này cung cấp số liệu chi tiết về tốc độ suy luận trên các định dạng khác nhau như ONNX hoặc TorchScript .

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Tối ưu hóa cho sản xuất

Để đạt được độ trễ thấp nhất có thể, các nhà phát triển thường sử dụng một công cụ suy luận phù hợp với phần cứng của họ. Ví dụ, triển khai một mô hình trên NVIDIA Thiết bị Jetson sử dụng tối ưu hóa TensorRT có thể tăng tốc đáng kể so với việc chạy mã PyTorch thô. Tương tự, việc sử dụng Intel OpenVINO có thể tăng tốc hiệu suất trên các hệ thống tiêu chuẩn. CPU kiến trúc. Các công cụ này tối ưu hóa đồ thị tính toán, hợp nhất các lớp và quản lý bộ nhớ hiệu quả hơn so với các khuôn khổ đào tạo tiêu chuẩn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay