Phục Vụ Mô Hình (Model Serving)
Tìm hiểu những điều cần thiết về phân phối mô hình—triển khai các mô hình AI để dự đoán theo thời gian thực, khả năng mở rộng và tích hợp liền mạch vào các ứng dụng.
Phục vụ mô hình (Model serving) là quá trình cung cấp một mô hình machine learning (ML) đã được huấn luyện để nhận dữ liệu đầu vào và trả về các dự đoán trong môi trường sản xuất. Sau khi một mô hình được huấn luyện và xác thực, phục vụ là bước quan trọng biến nó từ một tệp tĩnh thành một công cụ hoạt động, có thể cung cấp năng lượng cho các ứng dụng thực tế. Nó bao gồm việc triển khai mô hình trên một máy chủ và tạo một giao diện, thường là một API, cho phép các hệ thống phần mềm khác giao tiếp với nó để suy luận theo thời gian thực (real-time inference).
Mặc dù liên quan chặt chẽ, phục vụ mô hình (model serving) là một thành phần cụ thể trong quy trình triển khai mô hình (model deployment) rộng hơn. Triển khai bao gồm toàn bộ quy trình tích hợp mô hình vào môi trường sản xuất, bao gồm thiết lập cơ sở hạ tầng và giám sát. Phục vụ mô hình đề cập cụ thể đến phần cơ sở hạ tầng chịu trách nhiệm chạy mô hình và xử lý các yêu cầu suy luận một cách hiệu quả.
Các Thành phần Chính của Phục vụ Mô hình
Một hệ thống phục vụ mô hình mạnh mẽ bao gồm một số thành phần tích hợp hoạt động cùng nhau để cung cấp các dự đoán nhanh chóng và đáng tin cậy.
- Định dạng mô hình (Model Format): Trước khi phục vụ, một mô hình phải được đóng gói thành một định dạng tiêu chuẩn. Các định dạng như ONNX đảm bảo khả năng tương tác giữa các framework khác nhau. Để có hiệu suất tối đa, các mô hình có thể được tối ưu hóa bằng các công cụ như TensorRT cho GPU NVIDIA.
- Serving Framework: Phần mềm chuyên dụng tải mô hình, quản lý tài nguyên phần cứng như GPU và xử lý các yêu cầu suy luận. Các framework phổ biến bao gồm TensorFlow Serving, PyTorch Serve và NVIDIA Triton Inference Server hiệu năng cao, có thể được sử dụng với các mô hình Ultralytics thông qua hướng dẫn tích hợp Triton của chúng tôi.
- Điểm cuối API: Đây là cổng giao tiếp cho phép các ứng dụng khách gửi dữ liệu (như hình ảnh hoặc văn bản) và nhận dự đoán của mô hình. REST và gRPC là các giao thức API phổ biến được sử dụng cho mục đích này.
- Cơ sở hạ tầng: Phần cứng vật lý hoặc ảo nơi mô hình chạy. Điều này có thể từ các máy chủ tại chỗ đến các nền tảng điện toán đám mây như Amazon SageMaker và Google Cloud AI Platform. Đối với các ứng dụng yêu cầu độ trễ thấp, các mô hình thường được phục vụ trên các thiết bị AI biên. Container hóa với các công cụ như Docker là điều cần thiết để tạo ra các môi trường phục vụ di động và có khả năng mở rộng.
- Giám sát và Ghi nhật ký: Theo dõi liên tục hiệu suất mô hình và tình trạng hệ thống. Điều này bao gồm giám sát các chỉ số như độ trễ suy luận và thông lượng, cũng như theo dõi các vấn đề như trôi dữ liệu, có thể làm giảm độ chính xác của mô hình theo thời gian. Bạn có thể tìm hiểu thêm trong hướng dẫn về giám sát mô hình của chúng tôi.
Các Ứng dụng Thực tế
Phục vụ mô hình (Model serving) là động cơ đằng sau vô số tính năng được hỗ trợ bởi AI.
- Quản lý hàng tồn kho dựa trên AI: Một công ty bán lẻ sử dụng mô hình Ultralytics YOLO11 để quản lý hàng tồn kho theo thời gian thực. Mô hình này được đóng gói ở định dạng ONNX và được phục vụ trên một máy tính biên nhỏ bên trong cửa hàng. Một camera gửi nguồn cấp video đến điểm cuối phục vụ, nơi thực hiện phát hiện đối tượng để đếm các mặt hàng trên kệ và gửi cảnh báo khi hàng tồn kho thấp.
- Phân tích ảnh y tế trên Cloud: Một hệ thống bệnh viện triển khai một mô hình thị giác máy tính phức tạp để phân tích ảnh y tế. Do kích thước mô hình lớn và nhu cầu tính toán, nó được phục vụ trên một máy chủ đám mây mạnh mẽ với nhiều GPU. Các bác sĩ радиologist tải lên các bản quét độ phân giải cao thông qua một cổng an toàn, cổng này gọi API phục vụ. Mô hình trả về các dự đoán hỗ trợ xác định các bất thường tiềm ẩn, cải thiện tốc độ và độ chính xác chẩn đoán.
Vai trò của MLOps
Phục vụ mô hình (Model serving) là nền tảng của Machine Learning Operations (MLOps). Một chiến lược MLOps tốt đảm bảo rằng toàn bộ vòng đời—từ tiền xử lý dữ liệu (data preprocessing) và huấn luyện mô hình (model training) đến phục vụ và giám sát (monitoring)—được tự động hóa, đáng tin cậy và có khả năng mở rộng (scalable). Các nền tảng như Ultralytics HUB được thiết kế để đơn giản hóa toàn bộ quy trình làm việc này, cung cấp một giải pháp tích hợp để huấn luyện, quản lý phiên bản và phục vụ các mô hình computer vision một cách hiệu quả.