Tìm hiểu cách thức xử lý theo lô liên tục tối ưu hóa. GPU Tăng thông lượng và giảm độ trễ. Khám phá cách sử dụng Ultralytics Sử dụng YOLO26 để tối đa hóa hiệu quả trong các tác vụ học máy sản xuất.
Xử lý theo lô liên tục là một kỹ thuật tối ưu hóa lập lịch và suy luận tiên tiến được sử dụng trong học máy (ML) để tối đa hóa việc sử dụng phần cứng và thông lượng. Trong xử lý theo lô tĩnh truyền thống, một công cụ suy luận chờ một số lượng yêu cầu nhất định tích lũy trước khi xử lý chúng đồng thời. Điều này thường dẫn đến sự thiếu hiệu quả vì hệ thống phải chờ yêu cầu chạy lâu nhất trong lô hoàn thành trước khi giải phóng tài nguyên. Xử lý theo lô liên tục, còn được gọi là xử lý theo lô động hoặc xử lý theo lô lặp, giải quyết vấn đề này bằng cách đưa các yêu cầu mới vào lô tính toán ngay sau khi một yêu cầu đang hoạt động hoàn thành, giảm đáng kể thời gian nhàn rỗi trên GPU và cải thiện hiệu quả tổng thể.
Để hiểu rõ hơn cách dữ liệu được xử lý trong quá trình triển khai mô hình, việc phân biệt giữa xử lý theo lô liên tục (continuous batching) và các thuật ngữ liên quan khác trong bảng thuật ngữ sẽ rất hữu ích:
Xử lý theo lô liên tục là rất quan trọng đối với các hệ thống sản xuất xử lý khối lượng lớn các yêu cầu không thể dự đoán trước. Dưới đây là hai ví dụ cụ thể về ứng dụng của nó:
Khi quản lý các hoạt động triển khai mô hình có lưu lượng truy cập cao, việc suy luận theo luồng lặp đi lặp lại có thể mô phỏng lợi ích của việc xử lý theo lô động bằng cách đảm bảo bộ nhớ được giải phóng dần dần thay vì bị chặn. Tiếp theo Python Ví dụ này minh họa cách sử dụng mẫu generator với API dự đoán mô hình để xử lý hiệu quả luồng hình ảnh liên tục.
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Using stream=True acts as a generator, iteratively processing inputs
# to keep memory usage low and throughput high
results = model.predict(source=["img1.jpg", "img2.jpg", "img3.jpg"], stream=True)
# Process each result as soon as it completes
for result in results:
print(f"Detected {len(result.boxes)} objects in this frame.")
Quản lý việc lập lịch tài nguyên ở cấp hệ thống đòi hỏi sự cân bằng giữa tốc độ xử lý và chi phí vận hành. Các nhóm triển khai các mô hình thị giác máy tính (CV) và ngôn ngữ quy mô lớn ngày càng dựa vào các khung phân phối tiên tiến để quản lý các lô xử lý động này. Đối với các nhóm doanh nghiệp muốn tinh giản cơ sở hạ tầng của mình, Nền tảng Ultralytics cung cấp các công cụ mạnh mẽ để đào tạo, giám sát và xuất các mô hình sang môi trường sản xuất được tối ưu hóa cao.