Learn how model serving bridges the gap between training and production. Explore how to deploy [YOLO26](https://docs.ultralytics.com/models/yolo26/) for real-time inference using the [Ultralytics Platform](https://platform.ultralytics.com).
Việc triển khai mô hình là quá trình lưu trữ một mô hình học máy đã được huấn luyện và cung cấp chức năng của nó cho các ứng dụng phần mềm thông qua giao diện mạng. Nó hoạt động như một cầu nối giữa tệp mô hình tĩnh được lưu trên đĩa và một hệ thống đang hoạt động xử lý dữ liệu thực tế. Sau khi mô hình hoàn thành giai đoạn huấn luyện học máy (ML) , nó phải được tích hợp vào môi trường sản xuất, nơi nó có thể nhận đầu vào—chẳng hạn như hình ảnh, văn bản hoặc dữ liệu dạng bảng—và trả về dự đoán. Điều này thường được thực hiện bằng cách đóng gói mô hình trong một Giao diện Lập trình Ứng dụng (API) , cho phép nó giao tiếp với máy chủ web, ứng dụng di động hoặc thiết bị IoT.
Mục tiêu chính của việc triển khai mô hình là vận hành hiệu quả khả năng mô hình dự đoán . Trong khi huấn luyện tập trung vào độ chính xác và giảm thiểu tổn thất, việc triển khai tập trung vào các chỉ số hiệu suất như độ trễ (tốc độ trả về dự đoán) và thông lượng (số lượng yêu cầu có thể xử lý mỗi giây). Cơ sở hạ tầng triển khai mạnh mẽ đảm bảo rằng các hệ thống thị giác máy tính (CV) vẫn đáng tin cậy dưới tải trọng lớn. Nó thường liên quan đến các công nghệ như container hóa sử dụng các công cụ như Docker , đóng gói mô hình cùng với các phụ thuộc của nó để đảm bảo hoạt động nhất quán trên các môi trường tính toán khác nhau.
Mô hình phục vụ các tính năng AI phổ biến trong nhiều ngành công nghiệp khác nhau bằng cách cho phép đưa ra quyết định ngay lập tức dựa trên dữ liệu.
Để triển khai mô hình hiệu quả, việc xuất mô hình sang định dạng chuẩn hóa như ONNX thường mang lại nhiều lợi ích, giúp thúc đẩy khả năng tương tác giữa các khung huấn luyện và công cụ triển khai khác nhau. Ví dụ sau đây minh họa cách tải mô hình và chạy suy luận, mô phỏng logic sẽ tồn tại bên trong một điểm cuối triển khai bằng Python .
from ultralytics import YOLO
# Load the YOLO26 model (this typically happens once when the server starts)
model = YOLO("yolo26n.pt")
# Simulate an incoming API request with an image source URL
image_source = "https://ultralytics.com/images/bus.jpg"
# Run inference to generate predictions for the user
results = model.predict(source=image_source)
# Process results (e.g., simulating a JSON response to a client)
print(f"Detected {len(results[0].boxes)} objects in the image.")
Việc lựa chọn chiến lược phục vụ phụ thuộc rất nhiều vào trường hợp sử dụng cụ thể. Phục vụ trực tuyến cung cấp phản hồi tức thì thông qua các giao thức như REST hoặc gRPC , điều này rất cần thiết cho các ứng dụng web hướng đến người dùng. Ngược lại, phục vụ theo lô xử lý khối lượng lớn dữ liệu ngoại tuyến, phù hợp cho các tác vụ như tạo báo cáo hàng đêm. Đối với các ứng dụng yêu cầu quyền riêng tư hoặc độ trễ thấp mà không cần phụ thuộc vào internet, AI biên (Edge AI) chuyển quá trình phục vụ trực tiếp đến thiết bị, sử dụng các định dạng được tối ưu hóa như TensorRT để tối đa hóa hiệu suất trên phần cứng hạn chế. Nhiều tổ chức tận dụng Nền tảng Ultralytics để đơn giản hóa việc triển khai các mô hình này đến nhiều điểm cuối khác nhau, bao gồm API đám mây và thiết bị biên.
Mặc dù có liên quan mật thiết, "Phục vụ Mô hình" khác biệt với Triển khai Mô hình và Suy luận .