Thuật ngữ

Mô hình phục vụ

Tìm hiểu những điều cơ bản về phục vụ mô hình—triển khai các mô hình AI để dự đoán theo thời gian thực, khả năng mở rộng và tích hợp liền mạch vào các ứng dụng.

Sau khi mô hình Học máy (ML) được đào tạo và xác thực, bước quan trọng tiếp theo là làm cho nó khả dụng để tạo ra các dự đoán trên dữ liệu mới. Quá trình này được gọi là Phục vụ mô hình. Nó bao gồm việc triển khai một mô hình đã đào tạo vào môi trường sản xuất, thường là đằng sau điểm cuối API (Giao diện lập trình ứng dụng) , cho phép các ứng dụng hoặc hệ thống khác yêu cầu dự đoán theo thời gian thực. Phục vụ mô hình đóng vai trò là cầu nối giữa mô hình đã phát triển và ứng dụng thực tế của nó, biến nó từ một tệp tĩnh thành một dịch vụ hoạt động, tạo ra giá trị trong Vòng đời học máy rộng hơn.

Tầm quan trọng của việc phục vụ mô hình

Phục vụ mô hình là nền tảng cho việc vận hành các mô hình ML. Nếu không có nó, ngay cả những mô hình chính xác nhất, như các máy dò đối tượng YOLO Ultralytics hiện đại, vẫn bị cô lập trong môi trường phát triển, không thể tác động đến các quy trình trong thế giới thực. Phục vụ mô hình hiệu quả đảm bảo rằng các thông tin chi tiết và khả năng tự động hóa được phát triển trong quá trình đào tạo có thể truy cập và sử dụng được. Nó cho phép suy luận theo thời gian thực , cho phép các ứng dụng phản hồi động với dữ liệu mới, điều này rất quan trọng đối với các tác vụ từ phát hiện đối tượng trong video đến xử lý ngôn ngữ tự nhiên (NLP) trong chatbot. Cuối cùng, phục vụ mô hình là điều cần thiết để hiện thực hóa lợi tức đầu tư (ROI) của các sáng kiến AI.

Phục vụ mô hình so với triển khai mô hình

Mặc dù thường được sử dụng thay thế cho nhau, Model Serving về mặt kỹ thuật là một thành phần cụ thể trong quy trình rộng hơn của Model Deployment . Triển khai mô hình bao gồm tất cả các bước cần thiết để đưa một mô hình đã được đào tạo và đưa vào hoạt động trong môi trường sản xuất trực tiếp , bao gồm đóng gói, thiết lập cơ sở hạ tầng, tích hợp và giám sát. Model Serving tập trung cụ thể vào lớp cơ sở hạ tầng và phần mềm lưu trữ mô hình và xử lý các yêu cầu dự đoán đến, giúp chức năng của mô hình khả dụng dưới dạng dịch vụ, thường thông qua các giao thức mạng như REST hoặc gRPC . Xem hướng dẫn của chúng tôi về Tùy chọn triển khai mô hình để biết thêm chi tiết.

Ứng dụng trong thế giới thực

Mô hình phục vụ cho phép vô số tính năng do AI điều khiển mà chúng ta tương tác hàng ngày. Sau đây là hai ví dụ:

Nền tảng thương mại điện tử: Hệ thống đề xuất cung cấp các đề xuất sản phẩm được cá nhân hóa cho người dùng theo thời gian thực dựa trên lịch sử duyệt web và sở thích của họ. Cơ sở hạ tầng phục vụ mô hình xử lý hàng triệu yêu cầu, đảm bảo độ trễ suy luận thấp.
Chẩn đoán chăm sóc sức khỏe: Trong phân tích hình ảnh y tế , các mô hình được đào tạo để phát hiện bất thường (như khối u trong ảnh chụp, hãy xem Sử dụng YOLO11 để phát hiện khối u ) được phục vụ thông qua các điểm cuối an toàn. Các bác sĩ lâm sàng có thể tải hình ảnh lên và nhận hỗ trợ chẩn đoán ( X quang: Trí tuệ nhân tạo ) một cách nhanh chóng và hiệu quả.

Các thành phần chính của mô hình phục vụ

Việc triển khai một hệ thống phục vụ mô hình mạnh mẽ bao gồm một số thành phần hoạt động cùng nhau:

Định dạng mô hình: Các mô hình cần được đóng gói theo định dạng phù hợp để phục vụ, chẳng hạn như ONNX hoặc được tối ưu hóa bằng các công cụ như TensorRT để có hiệu suất tốt hơn trên phần cứng cụ thể như GPU NVIDIA .
Serving Framework: Phần mềm chuyên dụng xử lý việc tải mô hình, quản lý tài nguyên và xử lý các yêu cầu suy luận một cách hiệu quả. Ví dụ bao gồm TensorFlow Serving , TorchServe và NVIDIA Triton Inference Server , Ultralytics các mô hình tích hợp với ( Hướng dẫn tích hợp Triton ).
Điểm cuối API: Một giao diện (ví dụ: REST, gRPC) cho phép các ứng dụng khách hàng gửi dữ liệu và nhận dự đoán. Điều này thường được quản lý bởi API Gateway để bảo mật, giới hạn tốc độ và định tuyến.
Cơ sở hạ tầng: Phần cứng và môi trường cơ bản nơi mô hình được phục vụ, có thể là nền tảng điện toán đám mây như Amazon SageMaker hoặc Google Cloud AI Platform (Vertex AI) , máy chủ tại chỗ hoặc thiết bị điện toán biên ( Triển khai trên thiết bị AI biên ). Các công cụ chứa như Docker thường được sử dụng để đóng gói ( Docker Quickstart ).
Giám sát và ghi nhật ký: Công cụ theo dõi số liệu hiệu suất (độ trễ, thông lượng, tỷ lệ lỗi), mức sử dụng tài nguyên và các vấn đề tiềm ẩn như dữ liệu trôi dạt ( Hướng dẫn giám sát mô hình ).

Các nền tảng như Ultralytics HUB hướng đến mục tiêu đơn giản hóa toàn bộ quy trình làm việc này, cung cấp các giải pháp tích hợp để đào tạo, tạo phiên bản, triển khai và phục vụ các mô hình thị giác máy tính , phù hợp với các phương pháp hay nhất của MLOps (Hoạt động học máy) . Các cân nhắc chính bao gồm khả năng mở rộng để xử lý các thay đổi tải, bảo mật ( Bảo mật dữ liệu ) và khả năng bảo trì.

Mô hình phục vụ

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Tầm quan trọng của việc phục vụ mô hình

Phục vụ mô hình so với triển khai mô hình

Ứng dụng trong thế giới thực

Các thành phần chính của mô hình phục vụ

Đọc thêm blog

Tham gia Ultralytics cộng đồng