Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phục Vụ Mô Hình (Model Serving)

Learn how model serving bridges the gap between training and production. Explore how to deploy [YOLO26](https://docs.ultralytics.com/models/yolo26/) for real-time inference using the [Ultralytics Platform](https://platform.ultralytics.com).

Việc triển khai mô hình là quá trình lưu trữ một mô hình học máy đã được huấn luyện và cung cấp chức năng của nó cho các ứng dụng phần mềm thông qua giao diện mạng. Nó hoạt động như một cầu nối giữa tệp mô hình tĩnh được lưu trên đĩa và một hệ thống đang hoạt động xử lý dữ liệu thực tế. Sau khi mô hình hoàn thành giai đoạn huấn luyện học máy (ML) , nó phải được tích hợp vào môi trường sản xuất, nơi nó có thể nhận đầu vào—chẳng hạn như hình ảnh, văn bản hoặc dữ liệu dạng bảng—và trả về dự đoán. Điều này thường được thực hiện bằng cách đóng gói mô hình trong một Giao diện Lập trình Ứng dụng (API) , cho phép nó giao tiếp với máy chủ web, ứng dụng di động hoặc thiết bị IoT.

Vai trò của mô hình phục vụ trong trí tuệ nhân tạo

Mục tiêu chính của việc triển khai mô hình là vận hành hiệu quả khả năng mô hình dự đoán . Trong khi huấn luyện tập trung vào độ chính xác và giảm thiểu tổn thất, việc triển khai tập trung vào các chỉ số hiệu suất như độ trễ (tốc độ trả về dự đoán) và thông lượng (số lượng yêu cầu có thể xử lý mỗi giây). Cơ sở hạ tầng triển khai mạnh mẽ đảm bảo rằng các hệ thống thị giác máy tính (CV) vẫn đáng tin cậy dưới tải trọng lớn. Nó thường liên quan đến các công nghệ như container hóa sử dụng các công cụ như Docker , đóng gói mô hình cùng với các phụ thuộc của nó để đảm bảo hoạt động nhất quán trên các môi trường tính toán khác nhau.

Các Ứng dụng Thực tế

Mô hình phục vụ các tính năng AI phổ biến trong nhiều ngành công nghiệp khác nhau bằng cách cho phép đưa ra quyết định ngay lập tức dựa trên dữ liệu.

  • Sản xuất thông minh: Trong môi trường công nghiệp, trí tuệ nhân tạo (AI) trong hệ thống sản xuất sử dụng các mô hình được hỗ trợ để kiểm tra dây chuyền lắp ráp. Hình ảnh độ phân giải cao của các linh kiện được gửi đến máy chủ cục bộ, nơi mô hình YOLO26 phát hiện các khuyết tật như vết xước hoặc sai lệch, kích hoạt cảnh báo ngay lập tức để loại bỏ các sản phẩm bị lỗi.
  • Tự động hóa bán lẻ: Các nhà bán lẻ sử dụng trí tuệ nhân tạo (AI) trong bán lẻ để nâng cao trải nghiệm khách hàng. Camera được hỗ trợ bởi các mô hình nhận diện vật thể sẽ xác định sản phẩm tại khu vực thanh toán, tự động tính tổng chi phí mà không cần quét mã vạch thủ công.

Triển khai thực tế

Để triển khai mô hình hiệu quả, việc xuất mô hình sang định dạng chuẩn hóa như ONNX thường mang lại nhiều lợi ích, giúp thúc đẩy khả năng tương tác giữa các khung huấn luyện và công cụ triển khai khác nhau. Ví dụ sau đây minh họa cách tải mô hình và chạy suy luận, mô phỏng logic sẽ tồn tại bên trong một điểm cuối triển khai bằng Python .

from ultralytics import YOLO

# Load the YOLO26 model (this typically happens once when the server starts)
model = YOLO("yolo26n.pt")

# Simulate an incoming API request with an image source URL
image_source = "https://ultralytics.com/images/bus.jpg"

# Run inference to generate predictions for the user
results = model.predict(source=image_source)

# Process results (e.g., simulating a JSON response to a client)
print(f"Detected {len(results[0].boxes)} objects in the image.")

Lựa chọn chiến lược đúng đắn

Việc lựa chọn chiến lược phục vụ phụ thuộc rất nhiều vào trường hợp sử dụng cụ thể. Phục vụ trực tuyến cung cấp phản hồi tức thì thông qua các giao thức như REST hoặc gRPC , điều này rất cần thiết cho các ứng dụng web hướng đến người dùng. Ngược lại, phục vụ theo lô xử lý khối lượng lớn dữ liệu ngoại tuyến, phù hợp cho các tác vụ như tạo báo cáo hàng đêm. Đối với các ứng dụng yêu cầu quyền riêng tư hoặc độ trễ thấp mà không cần phụ thuộc vào internet, AI biên (Edge AI) chuyển quá trình phục vụ trực tiếp đến thiết bị, sử dụng các định dạng được tối ưu hóa như TensorRT để tối đa hóa hiệu suất trên phần cứng hạn chế. Nhiều tổ chức tận dụng Nền tảng Ultralytics để đơn giản hóa việc triển khai các mô hình này đến nhiều điểm cuối khác nhau, bao gồm API đám mây và thiết bị biên.

Phân biệt với các thuật ngữ liên quan

Mặc dù có liên quan mật thiết, "Phục vụ Mô hình" khác biệt với Triển khai Mô hìnhSuy luận .

  • Triển khai mô hình: Điều này đề cập đến giai đoạn rộng hơn trong vòng đời phát hành mô hình vào môi trường sản xuất. Phục vụ là cơ chế hoặc phần mềm cụ thể (như NVIDIA Triton Inference Server hoặc TorchServe ) được sử dụng để thực thi mô hình đã triển khai.
  • Suy luận: Đây là hành động toán học tính toán dự đoán từ dữ liệu đầu vào. Mô hình cung cấp cơ sở hạ tầng (mạng lưới, khả năng mở rộng và bảo mật) cho phép quá trình suy luận diễn ra một cách đáng tin cậy cho người dùng cuối.
  • Kiến trúc vi dịch vụ: Việc phục vụ thường được thiết kế dưới dạng một tập hợp các vi dịch vụ , trong đó mô hình hoạt động như một dịch vụ độc lập mà các phần khác của ứng dụng có thể truy vấn, thường trao đổi dữ liệu ở các định dạng nhẹ như JSON .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay