Tích hợp

Triển khai các model Ultralytics YOLO sử dụng tích hợp ExecuTorch

Khám phá cách xuất các model Ultralytics YOLO như Ultralytics YOLO11 sang định dạng ExecuTorch để triển khai PyTorch-native hiệu quả trên các thiết bị biên và di động.

ABAbirami Vina

5 min readNovember 4, 2025

Triển khai các model Ultralytics YOLO với tích hợp ExecuTorch

Một số ứng dụng computer vision như kiểm tra chất lượng tự động, drone tự hành, hay các hệ thống an ninh thông minh sẽ đạt hiệu suất tối ưu khi các model Ultralytics YOLO, chẳng hạn như Ultralytics YOLO11, được chạy gần cảm biến thu nhận hình ảnh. Nói cách khác, các model này cần xử lý dữ liệu trực tiếp tại nơi phát sinh, trên camera, drone hoặc các hệ thống nhúng, thay vì gửi dữ liệu lên đám mây.

Cách tiếp cận này, được gọi là edge AI, cho phép model thực hiện suy luận (inference) trực tiếp trên thiết bị nơi thu thập dữ liệu. Bằng cách xử lý thông tin tại chỗ thay vì phụ thuộc vào các server từ xa, hệ thống có thể đạt độ trễ thấp hơn, tăng cường bảo mật dữ liệu và độ tin cậy cao hơn, ngay cả trong những môi trường có kết nối internet hạn chế hoặc không có kết nối.

Ví dụ, một camera trong dây chuyền sản xuất kiểm tra hàng ngàn sản phẩm mỗi phút, hay một drone điều hướng trong các môi trường phức tạp, không thể chấp nhận sự chậm trễ do xử lý trên đám mây gây ra. Việc chạy YOLO11 trực tiếp trên thiết bị cho phép suy luận tức thì ngay trên thiết bị.

Để việc chạy các model Ultralytics YOLO trên biên (edge) trở nên dễ dàng và hiệu quả hơn, tích hợp ExecuTorch mới được Ultralytics hỗ trợ cung cấp một phương thức tinh gọn để xuất và triển khai model trực tiếp lên các thiết bị di động và nhúng. ExecuTorch là một phần của hệ sinh thái PyTorch Edge, cung cấp giải pháp end-to-end để chạy các model AI trực tiếp trên phần cứng di động và edge, bao gồm điện thoại, thiết bị đeo, bo mạch nhúng và vi điều khiển.

Tích hợp này giúp việc chuyển đổi một model Ultralytics YOLO, chẳng hạn như YOLO11, từ giai đoạn huấn luyện sang triển khai trên các thiết bị edge trở nên đơn giản. Bằng cách kết hợp khả năng xử lý thị giác của YOLO11 với runtime nhẹ của ExecuTorch và pipeline xuất model của PyTorch, người dùng có thể triển khai các model chạy hiệu quả trên phần cứng edge mà vẫn duy trì được độ chính xác và hiệu suất của quá trình suy luận dựa trên PyTorch.

Trong bài viết này, chúng ta sẽ tìm hiểu kỹ hơn về cách thức hoạt động của tích hợp ExecuTorch, lý do tại sao nó là lựa chọn tuyệt vời cho các ứng dụng edge AI, và cách bạn có thể bắt đầu triển khai các model Ultralytics YOLO với ExecuTorch. Hãy cùng bắt đầu nhé!

Link to this sectionExecuTorch là gì?#

Thông thường, khi bạn huấn luyện một model trong PyTorch, nó sẽ chạy trên các server mạnh mẽ hoặc Graphics Processing Units (GPUs) trên đám mây. Tuy nhiên, việc triển khai chính model đó lên một thiết bị di động hoặc nhúng như điện thoại thông minh, drone, hay vi điều khiển lại đòi hỏi một giải pháp chuyên biệt có khả năng xử lý tài nguyên tính toán, bộ nhớ và kết nối hạn chế.

Đó chính là những gì ExecuTorch mang lại. ExecuTorch là giải pháp end-to-end được phát triển như một phần của hệ sinh thái PyTorch Edge, cho phép suy luận hiệu quả ngay trên thiết bị qua các nền tảng di động, nhúng và edge. Nó mở rộng khả năng của PyTorch ra ngoài đám mây, cho phép các model AI chạy trực tiếp trên các thiết bị nội bộ.

Link to this sectionĐưa khả năng suy luận PyTorch đến gần biên (edge)#

Cốt lõi của ExecuTorch là một runtime C++ nhẹ, cho phép các model PyTorch thực thi trực tiếp trên thiết bị. ExecuTorch sử dụng định dạng model PyTorch ExecuTorch (.pte), một định dạng xuất tối ưu được thiết kế để tải nhanh hơn, chiếm ít dung lượng bộ nhớ hơn và cải thiện tính di động.

Nó hỗ trợ XNNPACK làm backend mặc định để suy luận hiệu quả trên Central Processing Unit (CPU) và mở rộng khả năng tương thích với nhiều backend phần cứng khác nhau, bao gồm CoreML, Metal, Vulkan, Qualcomm, MediaTek, Arm EthosU, OpenVINO, và các loại khác.

Các backend này cho phép tăng tốc tối ưu trên các thiết bị di động, nhúng và các thiết bị edge chuyên dụng. ExecuTorch cũng tích hợp với pipeline xuất model của PyTorch, cung cấp hỗ trợ cho các tính năng nâng cao như quantization và xử lý dynamic shape để cải thiện hiệu suất và khả năng thích ứng trong các môi trường triển khai khác nhau.

Quantization giúp giảm kích thước model và tăng tốc độ suy luận bằng cách chuyển đổi các giá trị độ chính xác cao (như float 32-bit) sang các giá trị có độ chính xác thấp hơn, trong khi xử lý dynamic shape giúp model xử lý hiệu quả các kích thước đầu vào thay đổi. Cả hai tính năng này đều rất quan trọng để chạy các model AI trên các thiết bị edge hạn chế về tài nguyên.

Cái nhìn tổng quan về cách hoạt động của ExecuTorch

Hình 1. Cái nhìn về cách ExecuTorch hoạt động (Nguồn)

Link to this sectionMột lớp thống nhất cho phần cứng edge#

Ngoài runtime, ExecuTorch còn đóng vai trò là một lớp trừu tượng hóa thống nhất cho nhiều backend phần cứng. Nói đơn giản, nó trừu tượng hóa các chi tiết phần cứng cụ thể và quản lý cách các model tương tác với các đơn vị xử lý khác nhau, bao gồm CPU, GPU và Neural Processing Units (NPUs).

Khi model đã được xuất, ExecuTorch có thể được cấu hình để nhắm tới backend phù hợp nhất cho một thiết bị cụ thể. Các lập trình viên có thể triển khai model hiệu quả trên nhiều loại phần cứng khác nhau mà không cần viết code riêng cho từng thiết bị hoặc duy trì các quy trình chuyển đổi tách biệt.

Nhờ thiết kế mô-đun, tính di động và khả năng tích hợp PyTorch mượt mà, ExecuTorch là lựa chọn tuyệt vời để triển khai các model computer vision như Ultralytics YOLO11 lên hệ thống di động và nhúng. Nó xóa bỏ rào cản giữa quá trình huấn luyện model và triển khai thực tế, giúp edge AI trở nên nhanh hơn, hiệu quả hơn và dễ triển khai hơn.

Link to this sectionCác tính năng chính của ExecuTorch#

Trước khi xem cách xuất các model Ultralytics YOLO sang định dạng ExecuTorch, hãy cùng tìm hiểu điều gì khiến ExecuTorch trở thành lựa chọn đáng tin cậy để triển khai AI trên biên.

Dưới đây là một số tính năng chính của nó:

Hỗ trợ Quantization: ExecuTorch hỗ trợ model quantization, kỹ thuật chuyển đổi các giá trị độ chính xác cao sang độ chính xác thấp hơn để giảm kích thước model và tăng tốc suy luận. Điều này giúp các model chạy nhanh hơn và sử dụng ít bộ nhớ hơn trên các thiết bị edge mà vẫn duy trì độ chính xác gần như tương đương.
Sử dụng bộ nhớ hiệu quả: Một trong những lợi thế lớn nhất của ExecuTorch là cách nó xử lý bộ nhớ. Thay vì dựa vào phân bổ bộ nhớ động, vốn có thể tạo ra độ trễ và tiêu tốn năng lượng, ExecuTorch sử dụng lập kế hoạch bộ nhớ Ahead-of-Time (AOT). Trong quá trình xuất, nó phân tích đồ thị model và tính toán trước lượng bộ nhớ cần thiết cho mỗi thao tác. Điều này cho phép runtime thực thi model theo một kế hoạch bộ nhớ tĩnh, đảm bảo hiệu suất dự đoán được và ngăn ngừa tình trạng chậm hoặc treo trên các thiết bị có RAM hoặc khả năng xử lý hạn chế.
Metadata model tích hợp sẵn: Khi xuất bằng tích hợp được Ultralytics hỗ trợ, mỗi model đều bao gồm một file YAML chứa các metadata quan trọng như kích thước ảnh đầu vào, tên lớp và các tham số cấu hình. File bổ sung này giúp đơn giản hóa việc tích hợp model vào các ứng dụng khác nhau và đảm bảo hành vi nhất quán trên các nền tảng edge khác nhau.

Link to this sectionCách xuất các model Ultralytics YOLO sang định dạng ExecuTorch#

Bây giờ khi đã hiểu rõ hơn về những gì ExecuTorch cung cấp, hãy cùng thực hiện các bước xuất các model Ultralytics YOLO sang định dạng ExecuTorch.

Link to this sectionBước 1: Cài đặt gói Python của Ultralytics#

Để bắt đầu, bạn cần cài đặt gói Python Ultralytics bằng pip, một trình cài đặt gói. Bạn có thể thực hiện điều này bằng cách chạy lệnh “pip install ultralytics” trong terminal hoặc command prompt của bạn.

Nếu bạn đang làm việc trong môi trường Jupyter Notebook hoặc Google Colab, chỉ cần thêm dấu chấm than trước lệnh, ví dụ: "!pip install ultralytics". Sau khi cài đặt, gói Ultralytics cung cấp mọi công cụ bạn cần để huấn luyện, kiểm thử và xuất các model computer vision, bao gồm Ultralytics YOLO11.

Nếu bạn gặp bất kỳ vấn đề nào trong quá trình cài đặt hoặc xuất model, tài liệu chính thức của Ultralytics và hướng dẫn về các vấn đề phổ biến có các bước khắc phục sự cố chi tiết và các phương pháp tốt nhất để giúp bạn làm việc suôn sẻ.

Link to this sectionBước 2: Xuất Ultralytics YOLO11#

Sau khi cài đặt gói Ultralytics, bạn có thể tải một phiên bản của model YOLO11 và xuất nó sang định dạng ExecuTorch. Ví dụ, bạn có thể sử dụng model đã được huấn luyện sẵn như “yolo11n.pt” và xuất nó bằng cách gọi hàm export với định dạng được thiết lập là “executorch”.

Thao tác này tạo ra một thư mục có tên “yolo11n_executorch_model”, bao gồm file model được tối ưu hóa (.pte) và một file YAML metadata riêng biệt chứa các chi tiết quan trọng như kích thước ảnh và tên lớp.

Dưới đây là code để xuất model của bạn:

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
model.export(format="executorch")

Link to this sectionBước 3: Chạy suy luận sau khi xuất model#

Sau khi xuất, model đã sẵn sàng để triển khai trên các thiết bị edge và di động sử dụng runtime ExecuTorch. File model .pte đã xuất có thể được tải vào ứng dụng của bạn để thực hiện suy luận thời gian thực ngay trên thiết bị mà không cần kết nối đám mây.

Ví dụ, đoạn code dưới đây cho thấy cách tải model đã xuất và chạy suy luận. Suy luận đơn giản có nghĩa là sử dụng một model đã được huấn luyện để đưa ra dự đoán trên dữ liệu mới. Ở đây, model được kiểm thử trên hình ảnh một chiếc xe buýt lấy từ một URL công khai.

executorch_model = YOLO("yolo11n_executorch_model")
results = executorch_model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Sau khi chạy code, bạn sẽ thấy hình ảnh đầu ra với các đối tượng được phát hiện được lưu trong thư mục “runs/detect/predict”.

Phát hiện đối tượng bằng model YOLO11 đã xuất sang định dạng ExecuTorch

Hình 2. Phát hiện đối tượng bằng model YOLO11 đã xuất sang định dạng ExecuTorch.

Link to this sectionLợi ích của việc sử dụng tích hợp ExecuTorch#

Trong khi tìm hiểu các tùy chọn xuất khác nhau được Ultralytics hỗ trợ, bạn có thể tự hỏi điều gì làm cho tích hợp ExecuTorch trở nên độc đáo. Sự khác biệt chính nằm ở khả năng kết hợp hiệu suất, sự đơn giản và tính linh hoạt, giúp việc triển khai các model AI mạnh mẽ trực tiếp trên các thiết bị di động và edge trở nên dễ dàng.

Dưới đây là cái nhìn về một số lợi thế chính của việc sử dụng tích hợp ExecuTorch:

Tùy chọn triển khai linh hoạt: Các model ExecuTorch có thể được triển khai trên các ứng dụng di động, hệ thống nhúng, thiết bị IoT (Internet of Things) và phần cứng AI chuyên dụng. Tính linh hoạt này cho phép các lập trình viên xây dựng các giải pháp AI có khả năng mở rộng, thực thi nhất quán trên nhiều nền tảng và môi trường khác nhau.
Hiệu suất đã được kiểm chứng: Các thử nghiệm trên các thiết bị như Raspberry Pi 5 cho thấy các model YOLO11 được xuất sang định dạng ExecuTorch chạy nhanh hơn khoảng 2 lần so với các phiên bản PyTorch tương đương, với độ chính xác gần như đồng nhất.
API tích hợp linh hoạt: ExecuTorch cung cấp các API C++, Kotlin và Objective-C cho iOS, Android và nhúng Linux, cho phép các lập trình viên tích hợp các model YOLO trực tiếp vào các ứng dụng gốc (native apps).
Hỗ trợ tăng tốc phần cứng: ExecuTorch hỗ trợ nhiều backend tăng tốc phần cứng, bao gồm Vulkan và Metal cho GPU di động, với khả năng tích hợp tùy chọn cho OpenCL và các API cụ thể của nhà cung cấp khác. Nó cũng có thể tận dụng các bộ tăng tốc chuyên dụng như NPU và DSP để đạt được tốc độ tăng đáng kể so với chỉ suy luận trên CPU.

Link to this sectionCác ứng dụng thực tế của YOLO11 và xuất ExecuTorch#

Gần đây, Ultralytics đã được công nhận là một PyTorch ExecuTorch success story, làm nổi bật sự hỗ trợ sớm của chúng tôi cho suy luận ngay trên thiết bị và những đóng góp liên tục vào hệ sinh thái PyTorch. Sự công nhận này phản ánh mục tiêu chung là làm cho AI hiệu suất cao trở nên dễ tiếp cận hơn trên các nền tảng di động và edge.

Link to this sectionTừ đám mây đến biên (edge): Cách ExecuTorch và YOLO11 hiện thực hóa thị giác AI#

Trong thực tế, điều này trông giống như các giải pháp thị giác AI thực tế chạy hiệu quả trên mọi thiết bị, từ điện thoại thông minh đến các hệ thống nhúng. Ví dụ, trong ngành sản xuất, các thiết bị edge đóng vai trò quan trọng trong việc giám sát dây chuyền sản xuất và phát hiện lỗi theo thời gian thực.

Sử dụng YOLO11 để phân tích dây chuyền lắp ráp sản xuất

Hình 3. Ví dụ về việc sử dụng YOLO11 để phân tích một dây chuyền lắp ráp sản xuất. (Nguồn)

Thay vì gửi hình ảnh hoặc dữ liệu cảm biến lên đám mây để xử lý, vốn có thể gây ra độ trễ và phụ thuộc vào kết nối internet, tích hợp ExecuTorch cho phép các model YOLO11 chạy trực tiếp trên phần cứng nội bộ. Điều này có nghĩa là các nhà máy có thể phát hiện vấn đề chất lượng tức thì, giảm thời gian chết và duy trì quyền riêng tư dữ liệu, trong khi vẫn vận hành với tài nguyên tính toán hạn chế.

Dưới đây là một vài ví dụ khác về cách tích hợp ExecuTorch và các model Ultralytics YOLO có thể được áp dụng:

Thành phố thông minh: Bằng cách chạy các model YOLO11 tại chỗ với ExecuTorch, các thành phố có thể đưa ra quyết định dựa trên dữ liệu nhanh hơn, từ phát hiện ùn tắc giao thông đến xác định các mối nguy hiểm, cải thiện khả năng di chuyển và an toàn tổng thể.
Bán lẻ và kho bãi: Với suy luận ngay trên thiết bị, các nhà bán lẻ có thể tự động hóa việc giám sát kệ hàng, theo dõi hàng tồn kho và kiểm tra các gói hàng nhanh chóng và an toàn mà không cần dựa vào kết nối đám mây.
Robot và drone: Các model YOLO11 được tối ưu hóa cho edge cho phép robot và drone nhận dạng đối tượng, điều hướng trong môi trường và đưa ra quyết định theo thời gian thực ngay cả khi không có kết nối internet.

Phát hiện và đếm số lượng xe trong giao thông bằng YOLO11

Hình 4. Phát hiện và đếm ô tô trong giao thông sử dụng YOLO11 (Nguồn)

Link to this sectionCác điểm chính cần lưu ý#

Việc xuất các model Ultralytics YOLO sang định dạng ExecuTorch giúp triển khai các model computer vision trên nhiều thiết bị trở nên dễ dàng, bao gồm điện thoại thông minh, máy tính bảng và các hệ thống nhúng như Raspberry Pi. Điều này có nghĩa là hoàn toàn có thể chạy suy luận tối ưu hóa ngay trên thiết bị mà không cần phụ thuộc vào kết nối đám mây, giúp cải thiện tốc độ, bảo mật và độ tin cậy.

Cùng với ExecuTorch, Ultralytics hỗ trợ một loạt các tích hợp, bao gồm TensorRT, OpenVINO, CoreML, và nhiều công nghệ khác, mang lại cho lập trình viên sự linh hoạt để chạy model trên nhiều nền tảng. Khi việc áp dụng thị giác AI ngày càng phát triển, các tích hợp này giúp đơn giản hóa việc triển khai các hệ thống thông minh được xây dựng để hoạt động hiệu quả trong các điều kiện thực tế.

Bạn tò mò về AI? Hãy xem kho lưu trữ GitHub của chúng tôi, tham gia cộng đồng của chúng tôi, và khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu dự án thị giác AI của bạn. Tìm hiểu thêm về các đổi mới như AI trong bán lẻ và computer vision trong logistics bằng cách truy cập các trang giải pháp của chúng tôi.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Triển khai các model Ultralytics YOLO sử dụng tích hợp ExecuTorch

Link to this sectionExecuTorch là gì?#

Link to this sectionĐưa khả năng suy luận PyTorch đến gần biên (edge)#

Link to this sectionMột lớp thống nhất cho phần cứng edge#

Link to this sectionCác tính năng chính của ExecuTorch#

Link to this sectionCách xuất các model Ultralytics YOLO sang định dạng ExecuTorch#

Link to this sectionBước 1: Cài đặt gói Python của Ultralytics#

Link to this sectionBước 2: Xuất Ultralytics YOLO11#

Link to this sectionBước 3: Chạy suy luận sau khi xuất model#

Link to this sectionLợi ích của việc sử dụng tích hợp ExecuTorch#

Link to this sectionCác ứng dụng thực tế của YOLO11 và xuất ExecuTorch#

Link to this sectionTừ đám mây đến biên (edge): Cách ExecuTorch và YOLO11 hiện thực hóa thị giác AI#

Link to this sectionCác điểm chính cần lưu ý#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!