Thuật ngữ

Công cụ suy luận

Khám phá cách công cụ suy luận hỗ trợ AI bằng cách đưa ra dự đoán theo thời gian thực, tối ưu hóa mô hình và cho phép triển khai đa nền tảng.

Công cụ suy luận là một thành phần phần mềm chuyên dụng thực thi một mô hình học máy đã được đào tạo để tạo ra dự đoán từ dữ liệu mới, chưa từng thấy. Sau khi một mô hình được đào tạo bằng một nền tảng như PyTorch hoặc TensorFlow , công cụ suy luận sẽ tiếp quản và vận hành mô hình đó một cách hiệu quả trong môi trường sản xuất. Mục tiêu chính của nó là tối ưu hóa mô hình về tốc độ và mức sử dụng tài nguyên, giúp có thể thực hiện suy luận thời gian thực trên nhiều nền tảng phần cứng khác nhau, từ máy chủ đám mây mạnh mẽ đến các thiết bị biên bị hạn chế về tài nguyên.

Vai trò của công cụ suy luận

Chức năng cốt lõi của công cụ suy luận là thu hẹp khoảng cách giữa mô hình đã được đào tạo và ứng dụng thực tế của nó. Nó thực hiện một số tối ưu hóa quan trọng để giảm thiểu độ trễ suy luận và tối đa hóa thông lượng mà không ảnh hưởng đáng kể đến độ chính xác .

Các kỹ thuật tối ưu hóa chính bao gồm:

  • Tối ưu hóa đồ thị: Công cụ phân tích đồ thị tính toán của mô hình và áp dụng các tối ưu hóa như "hợp nhất lớp", kết hợp nhiều hoạt động tuần tự thành một hoạt động duy nhất để giảm chi phí tính toán.
  • Tối ưu hóa phần cứng cụ thể: Biên dịch mô hình để chạy trên phần cứng cụ thể, chẳng hạn như CPU , GPU hoặc bộ tăng tốc AI chuyên dụng như TPU của Google . Điều này liên quan đến việc sử dụng các kernel tính toán được tối ưu hóa cao, phù hợp với kiến trúc phần cứng.
  • Giảm độ chính xác: Các kỹ thuật như lượng tử hóa mô hình được sử dụng để chuyển đổi trọng số của mô hình từ số dấu phẩy động 32 bit sang số nguyên 16 bit hoặc 8 bit hiệu quả hơn. Điều này giúp giảm đáng kể mức sử dụng bộ nhớ và tăng tốc tính toán, điều này đặc biệt quan trọng đối với điện toán biên .
  • Cắt tỉa mô hình: Công cụ suy luận có thể tạo điều kiện chạy các mô hình khi các trọng số không cần thiết đã được loại bỏ thông qua việc cắt tỉa mô hình , từ đó giảm thêm kích thước và nhu cầu tính toán của mô hình.

Các công cụ suy luận phổ biến

Nhiều tổ chức đã phát triển các công cụ suy luận hiệu suất cao để tăng tốc các mô hình học sâu . Các lựa chọn phổ biến bao gồm:

  • NVIDIA TensorRT : Một trình tối ưu hóa và thời gian chạy hiệu suất cao cho GPU NVIDIA, mang đến tốc độ suy luận tiên tiến. Ultralytics cung cấp khả năng tích hợp liền mạch với TensorRT để triển khai các mô hình YOLO.
  • OpenVINO của Intel : Bộ công cụ mã nguồn mở để tối ưu hóa và triển khai các mô hình trên phần cứng Intel, bao gồm CPU và GPU tích hợp. Các mô hình Ultralytics có thể dễ dàng được xuất sang OpenVINO .
  • ONNX Runtime : Một công cụ đa nền tảng do Microsoft phát triển có thể chạy các mô hình theo định dạng ONNX (Open Neural Network Exchange) trên nhiều loại phần cứng.
  • TensorFlow Lite (TFLite) : Một giải pháp nhẹ được thiết kế riêng để triển khai các mô hình trên thiết bị di động và thiết bị nhúng, chẳng hạn như các thiết bị chạy Android và iOS.
  • Apache TVM : Một khuôn khổ biên dịch máy học mã nguồn mở có thể tối ưu hóa các mô hình cho nhiều phần cứng phụ trợ khác nhau.

Ứng dụng trong thế giới thực

Công cụ suy luận là xương sống hoạt động của vô số ứng dụng AI.

  1. Trong giải pháp AI cho ô tô , một công cụ suy luận chạy trên máy tính tích hợp của xe để xử lý dữ liệu từ camera và cảm biến. Công cụ này thực thi mô hình phát hiện vật thể như Ultralytics YOLO11 để xác định người đi bộ, biển báo giao thông và các phương tiện khác chỉ trong vài mili giây, cho phép triển khai các tính năng an toàn quan trọng.
  2. Đối với sản xuất thông minh , một công cụ suy luận trên sàn nhà máy cung cấp năng lượng cho hệ thống thị giác máy tính để kiểm soát chất lượng. Hệ thống này phân tích hình ảnh từ dây chuyền sản xuất theo thời gian thực để phát hiện lỗi, đảm bảo sản phẩm đáp ứng tiêu chuẩn chất lượng với tốc độ và độ tin cậy cao.

Công cụ suy luận so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt công cụ suy luận với các thuật ngữ liên quan khác trong MLOps .

  • Khung học máy (ML Framework) so với Công cụ suy luận (Inference Engine): Một khung học máy như PyTorch là một thư viện toàn diện cho cả huấn luyện và triển khai mô hình. Nó bao gồm các công cụ để xây dựng mạng nơ-ron, quản lý tập dữ liệu và chạy các vòng lặp huấn luyện. Ngược lại, công cụ suy luận là một công cụ chuyên biệt cao, tập trung hoàn toàn vào giai đoạn triển khai. Trong khi một khung có các khả năng suy luận cơ bản, một công cụ suy luận chuyên dụng mang lại hiệu suất vượt trội thông qua các tối ưu hóa mạnh mẽ, dành riêng cho phần cứng.

  • Phục vụ Mô hình so với Công cụ Suy luận: Phục vụ Mô hình đề cập đến cơ sở hạ tầng rộng hơn để cung cấp mô hình qua mạng, bao gồm các thành phần như điểm cuối API, bộ cân bằng tải và công cụ giám sát. Công cụ suy luận là thành phần cốt lõi trong hệ thống phục vụ mô hình, thực hiện các yêu cầu dự đoán. Bạn có thể khám phá các tùy chọn triển khai mô hình khác nhau để xem công cụ suy luận phù hợp như thế nào với bức tranh tổng thể. Các nền tảng như Ultralytics HUB hợp lý hóa toàn bộ quy trình này, từ đào tạo đến triển khai được tối ưu hóa.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard