Triển khai mô hình
Khám phá những yếu tố thiết yếu của việc triển khai mô hình, chuyển đổi các mô hình ML thành các công cụ thực tế để dự đoán, tự động hóa và đưa ra những hiểu biết sâu sắc dựa trên AI.
Triển khai mô hình là giai đoạn quan trọng trong vòng đời học máy, nơi một mô hình học máy (ML) đã được đào tạo được tích hợp vào môi trường sản xuất để hoạt động trên dữ liệu trực tiếp. Nó thu hẹp khoảng cách giữa phát triển - nơi các mô hình được đào tạo và xác thực trong các cài đặt được kiểm soát - và ứng dụng thực tế, nơi chúng tạo ra giá trị bằng cách cung cấp những hiểu biết có thể hành động. Nếu không được triển khai hiệu quả, ngay cả mạng nơ-ron (NN) tinh vi nhất cũng chỉ là một tệp tĩnh, không thể tương tác với người dùng cuối hoặc các hệ thống phần mềm bên ngoài. Mục tiêu chính là làm cho khả năng dự đoán của mô hình trở nên dễ tiếp cận, đáng tin cậy và có thể mở rộng cho các ứng dụng từ ứng dụng di động đến dịch vụ đám mây doanh nghiệp.
Đường ống triển khai
Việc chuyển đổi mô hình từ môi trường nghiên cứu sang môi trường sản xuất thường liên quan đến một quy trình có cấu trúc được thiết kế để đảm bảo hiệu suất và tính ổn định.
-
Tối ưu hóa Mô hình : Trước khi một mô hình rời khỏi môi trường huấn luyện, nó thường trải qua quá trình tối ưu hóa để cải thiện tốc độ thực thi và giảm mức sử dụng bộ nhớ. Các kỹ thuật như lượng tử hóa làm giảm độ chính xác của trọng số mô hình (ví dụ: từ số dấu phẩy động 32 bit xuống số nguyên 8 bit), giảm đáng kể yêu cầu tính toán mà không ảnh hưởng nhiều đến độ chính xác .
-
Xuất mô hình : Mô hình được tối ưu hóa được chuyển đổi sang định dạng chuẩn, độc lập với khuôn khổ đào tạo. Các định dạng như ONNX (Trao đổi mạng nơ-ron mở) cho phép các mô hình được đào tạo trong PyTorch để chạy trên nhiều công cụ suy luận khác nhau. Để tăng tốc phần cứng cụ thể, các nhà phát triển có thể xuất sang TensorRT để NVIDIA GPU hoặc OpenVINO vì Intel CPU.
-
Container hóa : Để đảm bảo mô hình chạy nhất quán trên các môi trường điện toán khác nhau, việc sử dụng container hóa là một phương pháp phổ biến. Các công cụ như Docker đóng gói mô hình, các phần phụ thuộc và môi trường chạy thực tế thành một đơn vị gọn nhẹ duy nhất, loại bỏ vấn đề "nó hoạt động trên máy của tôi".
-
Điều phối và Mở rộng quy mô : Trong các tình huống nhu cầu cao, các container được triển khai sẽ được quản lý bởi các hệ thống điều phối như Kubernetes . Các nền tảng này xử lý khả năng mở rộng , tự động tạo các phiên bản mô hình mới để xử lý lưu lượng truy cập tăng đột biến và đảm bảo tính khả dụng cao.
Môi trường triển khai
Việc lựa chọn môi trường phụ thuộc rất nhiều vào yêu cầu của ứng dụng liên quan đến độ trễ suy luận , quyền riêng tư dữ liệu và kết nối.
-
Triển khai đám mây : Lưu trữ mô hình trên các nền tảng đám mây như AWS SageMaker hoặc Google Vertex AI mang lại sức mạnh tính toán gần như không giới hạn và khả năng mở rộng dễ dàng. Điều này lý tưởng cho các mô hình ngôn ngữ lớn (LLM) phức tạp hoặc các tác vụ xử lý hàng loạt, nơi phản hồi thời gian thực ít quan trọng hơn.
-
Trí tuệ nhân tạo biên (Edge AI) : Đối với các ứng dụng yêu cầu suy luận thời gian thực mà không phụ thuộc vào internet, các mô hình được triển khai trực tiếp trên các thiết bị cục bộ. Trí tuệ nhân tạo biên sử dụng phần cứng nhỏ gọn, chẳng hạn như NVIDIA Jetson hoặc Raspberry Pi , để xử lý dữ liệu tại nguồn. Phương pháp này giảm thiểu độ trễ và tăng cường quyền riêng tư dữ liệu bằng cách lưu trữ thông tin nhạy cảm trên thiết bị.
-
Dựa trên trình duyệt : Các framework như TensorFlow .js cho phép các mô hình chạy hoàn toàn trong trình duyệt web bằng phần cứng của máy khách. Phương pháp không cần cài đặt này rất phù hợp cho các ứng dụng web tương tác và các tác vụ thị giác máy tính (CV) nhẹ.
Các Ứng dụng Thực tế
-
Kiểm soát Chất lượng Sản xuất Tự động : Trong môi trường nhà máy, mô hình phát hiện vật thể YOLO11 được triển khai đến một thiết bị biên được kết nối với camera trên băng chuyền. Khi sản phẩm đi qua, mô hình sẽ thực hiện phát hiện bất thường theo thời gian thực để xác định các lỗi như vết nứt hoặc nhãn không thẳng hàng. Hệ thống ngay lập tức kích hoạt cánh tay cơ học để loại bỏ các sản phẩm lỗi, tăng đáng kể hiệu quả so với kiểm tra thủ công. Tìm hiểu thêm về AI trong sản xuất .
-
Phân tích Bán lẻ Thông minh : Các nhà bán lẻ triển khai mô hình theo dõi đối tượng để phân tích hành vi khách hàng trong cửa hàng. Bằng cách xử lý nguồn cấp dữ liệu video trên máy chủ cục bộ, hệ thống tạo ra bản đồ nhiệt của các khu vực có lưu lượng truy cập cao và theo dõi độ dài hàng đợi. Dữ liệu này giúp các nhà quản lý tối ưu hóa bố cục cửa hàng và mức độ nhân sự. Xem cách AI trong bán lẻ đang chuyển đổi trải nghiệm mua sắm.
Các khái niệm liên quan: Triển khai so với Phục vụ so với MLOps
Điều quan trọng là phải phân biệt "Triển khai mô hình" với các thuật ngữ liên quan trong hệ sinh thái:
-
Triển khai Mô hình so với Phục vụ Mô hình : Triển khai đề cập đến quy trình tổng thể để đưa một mô hình vào sản xuất. Phục vụ mô hình là cơ chế hoặc phần mềm cụ thể (chẳng hạn như NVIDIA Triton Inference Server hoặc TorchServe ) lắng nghe các yêu cầu API và chạy mô hình để tạo dự đoán. Phục vụ là một thành phần của triển khai.
-
Triển khai Mô hình so với MLOps : Triển khai là một giai đoạn duy nhất trong khuôn khổ MLOps rộng hơn. MLOps (Hoạt động Học máy) bao gồm toàn bộ vòng đời, bao gồm thu thập dữ liệu, đào tạo, đánh giá, triển khai và giám sát mô hình liên tục để detect các vấn đề như sự trôi dạt dữ liệu .
Xuất mô hình để triển khai
Bước đầu tiên phổ biến trong quá trình triển khai là xuất một mô hình đã được đào tạo sang một định dạng có độ tương thích cao. Ví dụ sau đây minh họa cách xuất một mô hình. YOLO11 mô hình để ONNX định dạng sử dụng ultralytics gói, giúp nó sẵn sàng để triển khai trên nhiều nền tảng khác nhau.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Export the model to ONNX format for broad compatibility
# This creates 'yolo11n.onnx' which can be used in deployment environments
model.export(format="onnx")