Thuật ngữ

Mô hình phục vụ

Tìm hiểu những điều cơ bản về phục vụ mô hình—triển khai các mô hình AI để dự đoán theo thời gian thực, khả năng mở rộng và tích hợp liền mạch vào các ứng dụng.

Phục vụ mô hình là quá trình cung cấp một mô hình học máy (ML) đã được huấn luyện để nhận dữ liệu đầu vào và trả về dự đoán trong môi trường sản xuất. Sau khi mô hình được huấn luyện và xác thực, phục vụ là bước quan trọng giúp chuyển đổi nó từ một tệp tĩnh thành một công cụ hoạt động, có thể hỗ trợ các ứng dụng thực tế. Quá trình này bao gồm việc triển khai mô hình trên máy chủ và tạo một giao diện, thường là API , cho phép các hệ thống phần mềm khác giao tiếp với nó để suy luận theo thời gian thực .

Mặc dù có liên quan chặt chẽ, việc phục vụ mô hình là một thành phần cụ thể trong quy trình triển khai mô hình rộng hơn. Việc triển khai bao gồm toàn bộ quy trình tích hợp mô hình vào môi trường sản xuất, bao gồm thiết lập và giám sát cơ sở hạ tầng. Phục vụ mô hình đề cập cụ thể đến phần cơ sở hạ tầng đó chịu trách nhiệm vận hành mô hình và xử lý các yêu cầu suy luận một cách hiệu quả.

Các thành phần chính của mô hình phục vụ

Hệ thống phục vụ mô hình mạnh mẽ bao gồm một số thành phần tích hợp hoạt động cùng nhau để đưa ra dự đoán nhanh chóng và đáng tin cậy.

  • Định dạng Mô hình : Trước khi phục vụ, mô hình phải được đóng gói thành một định dạng chuẩn. Các định dạng như ONNX đảm bảo khả năng tương tác trên nhiều nền tảng khác nhau. Để đạt hiệu suất tối đa, các mô hình có thể được tối ưu hóa bằng các công cụ như TensorRT cho GPU NVIDIA .
  • Serving Framework : Phần mềm chuyên dụng tải mô hình, quản lý tài nguyên phần cứng như GPU và xử lý các yêu cầu suy luận. Các framework phổ biến bao gồm TensorFlow Serving , PyTorch ServeNVIDIA Triton Inference Server hiệu suất cao, có thể được sử dụng với các mô hình Ultralytics thông qua hướng dẫn tích hợp Triton của chúng tôi.
  • Điểm cuối API : Đây là cổng giao tiếp cho phép các ứng dụng khách gửi dữ liệu (như hình ảnh hoặc văn bản) và nhận dự đoán của mô hình. REST và gRPC là các giao thức API phổ biến được sử dụng cho mục đích này.
  • Cơ sở hạ tầng : Phần cứng vật lý hoặc ảo nơi mô hình chạy. Điều này có thể bao gồm từ máy chủ tại chỗ đến các nền tảng điện toán đám mây như Amazon SageMakerGoogle Cloud AI Platform . Đối với các ứng dụng yêu cầu độ trễ thấp, các mô hình thường được phục vụ trên các thiết bị AI biên . Việc đóng gói bằng các công cụ như Docker là điều cần thiết để tạo ra các môi trường phục vụ di động và có khả năng mở rộng.
  • Giám sát và Ghi nhật ký : Theo dõi liên tục hiệu suất mô hình và tình trạng hệ thống. Điều này bao gồm giám sát các số liệu như độ trễ suy luận và thông lượng, cũng như theo dõi các vấn đề như độ lệch dữ liệu , có thể làm giảm độ chính xác của mô hình theo thời gian. Bạn có thể tìm hiểu thêm trong hướng dẫn giám sát mô hình của chúng tôi.

Ứng dụng trong thế giới thực

Mô hình phục vụ là động cơ đằng sau vô số tính năng được hỗ trợ bởi AI.

  1. Quản lý hàng tồn kho hỗ trợ AI : Một công ty bán lẻ sử dụng mô hình Ultralytics YOLO11 để quản lý hàng tồn kho theo thời gian thực . Mô hình được đóng gói theo định dạng ONNX và được cài đặt trên một máy tính biên nhỏ bên trong cửa hàng. Camera sẽ gửi dữ liệu video đến điểm cuối phục vụ, nơi thực hiện phát hiện vật thể để đếm các mặt hàng trên kệ và gửi cảnh báo khi hàng tồn kho sắp hết.
  2. Phân tích hình ảnh y tế trên nền tảng đám mây : Một hệ thống bệnh viện triển khai một mô hình thị giác máy tính tinh vi để phân tích hình ảnh y tế . Do kích thước mô hình lớn và nhu cầu tính toán, hệ thống được vận hành trên một máy chủ đám mây mạnh mẽ với nhiều GPU. Các bác sĩ X-quang tải lên các bản quét độ phân giải cao thông qua một cổng thông tin an toàn, được gọi là API phục vụ. Mô hình trả về các dự đoán hỗ trợ xác định các bất thường tiềm ẩn, cải thiện tốc độ và độ chính xác của chẩn đoán.

Vai trò của MLOps

Phục vụ mô hình là nền tảng của Hoạt động Học máy (MLOps) . Một chiến lược MLOps tốt đảm bảo toàn bộ vòng đời—từ tiền xử lý dữ liệuhuấn luyện mô hình đến phục vụ và giám sát —được tự động hóa, đáng tin cậy và có thể mở rộng . Các nền tảng như Ultralytics HUB được thiết kế để đơn giản hóa toàn bộ quy trình làm việc này, cung cấp giải pháp tích hợp để huấn luyện, phiên bản hóa và phục vụ các mô hình thị giác máy tính một cách hiệu quả.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard