Khám phá cách suy luận thời gian thực với Ultralytics YOLO cho phép dự đoán tức thời cho các ứng dụng AI như hệ thống lái xe tự động và an ninh.
Suy luận thời gian thực là quá trình mà một mô hình học máy đã được huấn luyện tiếp nhận dữ liệu đầu vào trực tiếp và tạo ra dự đoán gần như tức thời. Trong bối cảnh này, "thời gian thực" ngụ ý tốc độ xử lý đủ để theo kịp luồng dữ liệu đầu vào, cho phép hệ thống đưa ra quyết định ngay lập tức. Khả năng này là nền tảng của các ứng dụng thị giác máy tính hiện đại, cho phép các thiết bị nhận biết và phản ứng với môi trường với độ trễ tối thiểu.
Chỉ số chính để đánh giá hiệu suất thời gian thực là độ trễ suy luận , đo lường thời gian trôi qua từ khi mô hình nhận đầu vào đến khi tạo ra đầu ra. Để một hệ thống được coi là thời gian thực, độ trễ này phải đủ thấp để đáp ứng các ràng buộc thời gian cụ thể của trường hợp sử dụng. Ví dụ: một hệ thống hiểu video phân tích luồng dữ liệu ở tốc độ 30 khung hình/giây (FPS) cần khoảng 33 mili giây để xử lý mỗi khung hình. Nếu quá trình suy luận mất nhiều thời gian hơn, các khung hình sẽ bị mất và hệ thống sẽ bị trễ.
Để đạt được tốc độ này thường cần sử dụng phần cứng chuyên dụng như GPU hoặc bộ tăng tốc AI Edge chuyên dụng, chẳng hạn như nền tảng NVIDIA Jetson . Ngoài ra, các kỹ sư thường áp dụng các kỹ thuật tối ưu hóa mô hình để giảm độ phức tạp tính toán mà không làm giảm đáng kể độ chính xác.
Điều quan trọng là phải phân biệt quy trình làm việc thời gian thực với suy luận hàng loạt . Trong khi suy luận thời gian thực xử lý từng điểm dữ liệu riêng lẻ khi chúng đến để giảm thiểu độ trễ, suy luận hàng loạt nhóm dữ liệu thành các khối lớn để xử lý cùng nhau sau.
Khả năng đưa ra dự đoán tức thời đã biến đổi một số ngành công nghiệp bằng cách tự động hóa các nhiệm vụ phức tạp đòi hỏi phải đưa ra quyết định trong tích tắc.
Để đạt được tốc độ cần thiết cho các ứng dụng thời gian thực, các nhà phát triển thường triển khai các mô hình sử dụng các công cụ suy luận được tối ưu hóa. Các khuôn khổ như TensorRT cho NVIDIA phần cứng hoặc OpenVINO cho Intel Bộ xử lý có thể tăng tốc đáng kể hiệu suất. Hơn nữa, các kỹ thuật như lượng tử hóa mô hình — giảm độ chính xác của trọng số mô hình từ giá trị dấu phẩy động sang giá trị số nguyên — có thể giảm đáng kể dung lượng bộ nhớ và cải thiện tốc độ thực thi trên các hệ thống nhúng .
Sau đây là Python Ví dụ minh họa cách chạy suy luận thời gian thực trên nguồn cấp dữ liệu webcam bằng cách sử dụng
ultralytics thư viện.
from ultralytics import YOLO
# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")
# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)
# Process the generator to keep the stream running
for result in results:
pass
Khi kết nối 5G mở rộng và phần cứng ngày càng mạnh mẽ hơn, phạm vi của AI thời gian thực cũng ngày càng mở rộng. Các khái niệm như Internet vạn vật (IoT) đang trở nên thông minh hơn, chuyển từ việc thu thập dữ liệu đơn giản sang việc chủ động ra quyết định. Những phát triển trong tương lai, chẳng hạn như YOLO26 sắp ra mắt, hướng đến việc mở rộng những ranh giới này hơn nữa bằng cách cung cấp các mô hình đầu cuối nguyên bản, thậm chí còn nhỏ hơn và nhanh hơn, đảm bảo các thành phố thông minh và thiết bị y tế có thể hoạt động liền mạch theo thời gian thực.