Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Hướng dẫn

Pruning và Quantization trong thị giác máy tính: Hướng dẫn nhanh

Khám phá lý do tại sao pruning và quantization là cần thiết để tối ưu hóa các model thị giác máy tính và cho phép hiệu suất nhanh hơn trên các thiết bị edge.

ABAbirami Vina
5 min read
Pruning và Quantization trong thị giác máy tính

Các thiết bị edge đang trở nên ngày càng phổ biến cùng với sự tiến bộ của công nghệ. Từ đồng hồ thông minh theo dõi nhịp tim đến máy bay không người lái (drone) giám sát đường phố, các hệ thống edge có thể xử lý dữ liệu theo thời gian thực ngay tại chỗ trên chính thiết bị đó.

Phương pháp này thường nhanh và bảo mật hơn so với việc gửi dữ liệu lên cloud, đặc biệt đối với các ứng dụng liên quan đến dữ liệu cá nhân như nhận diện biển số xe hoặc theo dõi cử chỉ. Đây là những ví dụ về computer vision, một nhánh của trí tuệ nhân tạo (AI) giúp máy móc giải mã và thấu hiểu thông tin hình ảnh.

Ví dụ về phát hiện biển số xe

Hình 1. Ví dụ về nhận diện biển số xe. (Nguồn)

Tuy nhiên, một điểm quan trọng cần cân nhắc là các ứng dụng này đòi hỏi các model vision AI có khả năng xử lý các tác vụ tính toán nặng, sử dụng tài nguyên tối thiểu và hoạt động độc lập. Hầu hết các computer vision models được phát triển cho các hệ thống hiệu năng cao, khiến chúng ít phù hợp để triển khai trực tiếp trên các thiết bị edge.

Để khắc phục khoảng cách này, các developer thường áp dụng các tối ưu hóa có mục tiêu nhằm điều chỉnh model để chạy hiệu quả trên phần cứng nhỏ gọn hơn. Những điều chỉnh này đóng vai trò then chốt cho việc triển khai edge trong thực tế, nơi bộ nhớ và năng lực xử lý bị hạn chế.

Điều thú vị là các computer vision models như Ultralytics YOLO11 đã được thiết kế với tiêu chí tối ưu cho edge, giúp chúng trở nên tuyệt vời cho các tác vụ thời gian thực. Tuy nhiên, hiệu năng của chúng có thể được nâng cao hơn nữa bằng cách sử dụng các kỹ thuật tối ưu hóa model như pruning và quantization, cho phép inference nhanh hơn và giảm tiêu thụ tài nguyên trên các thiết bị bị hạn chế về phần cứng.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn pruning và quantization là gì, cách thức hoạt động của chúng và cách chúng hỗ trợ các model YOLO hoạt động trong các triển khai edge thực tế. Hãy bắt đầu thôi!

Link to this sectionPruning và quantization: Các kỹ thuật cốt lõi trong tối ưu hóa model#

Khi chuẩn bị các model Vision AI để triển khai trên thiết bị edge, một trong những mục tiêu chính là làm cho model nhẹ và đáng tin cậy mà không làm giảm hiệu năng. Việc này thường bao gồm giảm kích thước model và giảm tải tính toán để model có thể vận hành hiệu quả trên phần cứng bị hạn chế về bộ nhớ, năng lượng hoặc năng lực xử lý. Hai cách phổ biến để thực hiện việc này là pruning và quantization.

Pruning là một kỹ thuật model optimization AI giúp các neural network trở nên nhỏ gọn và hiệu quả hơn. Trong nhiều trường hợp, các phần của model như một số kết nối hoặc node nhất định không đóng góp nhiều vào kết quả dự đoán cuối cùng. Pruning hoạt động bằng cách xác định và loại bỏ các phần ít quan trọng này, từ đó giúp giảm kích thước model và tăng tốc hiệu năng.

Mặt khác, quantization là một kỹ thuật tối ưu hóa giúp giảm độ chính xác của các số mà model sử dụng. Thay vì dựa vào các số dấu phẩy động 32-bit có độ chính xác cao, model sẽ chuyển sang các định dạng nhỏ hơn, hiệu quả hơn như số nguyên 8-bit. Thay đổi này giúp giảm mức sử dụng bộ nhớ và tăng tốc độ inference, quá trình mà model thực hiện dự đoán.

Cái nhìn tổng quan về pruning và quantization

Hình 2. Cái nhìn về pruning và quantization. (Nguồn)

Link to this sectionCách thức hoạt động của pruning và quantization#

Bây giờ chúng ta đã hiểu rõ hơn về pruning và quantization, hãy cùng tìm hiểu cách thức hoạt động của cả hai.

Pruning được thực hiện thông qua quy trình gọi là phân tích độ nhạy (sensitivity analysis). Nó xác định các phần nào của neural network model, chẳng hạn như một số trọng số (weights), neuron hoặc kênh (channels) nhất định, ít đóng góp nhất vào kết quả dự đoán cuối cùng. Những phần này có thể được loại bỏ với tác động tối thiểu đến độ chính xác. Sau khi pruning, model thường được huấn luyện lại (retrain) để tinh chỉnh hiệu năng. Chu kỳ này có thể được lặp lại để tìm ra sự cân bằng phù hợp giữa kích thước và độ chính xác.

Trong khi đó, model quantization tập trung vào cách model xử lý dữ liệu. Nó bắt đầu bằng việc hiệu chuẩn (calibration), nơi model chạy trên dữ liệu mẫu để tìm hiểu phạm vi các giá trị cần xử lý. Các giá trị đó sau đó được chuyển đổi từ dấu phẩy động 32-bit sang các định dạng có độ chính xác thấp hơn như số nguyên 8-bit.

Quantization giúp giảm kích thước và độ phức tạp của model

Hình 3. Quantization giúp giảm kích thước và độ phức tạp của model. (Nguồn)

Có nhiều công cụ giúp việc sử dụng pruning và quantization trong các dự án AI thực tế trở nên dễ dàng hơn. Hầu hết các framework AI như PyTorch và TensorFlow đều tích hợp sẵn hỗ trợ cho các kỹ thuật tối ưu hóa này, cho phép developer tích hợp trực tiếp chúng vào quy trình triển khai model.

Sau khi model được tối ưu hóa, các công cụ như ONNX Runtime có thể giúp chạy model hiệu quả trên nhiều nền tảng phần cứng khác nhau như server, desktop và thiết bị edge. Ngoài ra, Ultralytics cung cấp các integration cho phép export model YOLO sang các định dạng phù hợp cho quantization, giúp việc giảm kích thước model và nâng cao hiệu năng trở nên dễ dàng hơn.

Link to this sectionTổng quan về tối ưu hóa model Ultralytics YOLO#

Các model Ultralytics YOLO như YOLO11 được công nhận rộng rãi nhờ khả năng phát hiện đối tượng theo một bước (single-step) nhanh chóng, khiến chúng trở nên lý tưởng cho các vision AI tasks thời gian thực. Chúng đã được thiết kế để nhẹ và đủ hiệu quả cho việc triển khai edge. Tuy nhiên, các lớp chịu trách nhiệm xử lý các đặc trưng hình ảnh, gọi là các lớp convolutional, vẫn có thể đòi hỏi năng lực tính toán đáng kể trong quá trình inference.

Bạn có thể tự hỏi: nếu YOLO11 đã được tối ưu hóa cho mục đích edge, tại sao nó lại cần tối ưu hóa thêm? Đơn giản vì không phải tất cả các thiết bị edge đều giống nhau. Một số chạy trên phần cứng tối giản, như các bộ vi xử lý nhúng nhỏ bé tiêu thụ ít điện năng hơn cả một bóng đèn LED thông thường.

Trong những trường hợp này, ngay cả một model tinh gọn như YOLO11 cũng cần thêm tối ưu hóa để đảm bảo hiệu năng mượt mà và đáng tin cậy. Các kỹ thuật như pruning và quantization giúp giảm kích thước model và tăng tốc độ inference mà không làm ảnh hưởng đáng kể đến độ chính xác, khiến chúng trở nên lý tưởng cho các môi trường bị hạn chế như vậy.

Để việc áp dụng các kỹ thuật tối ưu hóa này trở nên dễ dàng hơn, Ultralytics hỗ trợ nhiều integrations có thể được sử dụng để export model YOLO sang nhiều định dạng như ONNX, TensorRT, OpenVINO, CoreML và PaddlePaddle. Mỗi định dạng đều được thiết kế để hoạt động tốt với các loại phần cứng và môi trường triển khai cụ thể.

Ví dụ, ONNX thường được sử dụng trong các quy trình quantization nhờ khả năng tương thích với nhiều công cụ và nền tảng. Ngược lại, TensorRT được tối ưu hóa cao cho các thiết bị NVIDIA và hỗ trợ inference độ chính xác thấp sử dụng INT8, khiến nó trở nên lý tưởng cho việc triển khai tốc độ cao trên các GPU edge.

Link to this sectionCác trường hợp sử dụng hiệu quả của tối ưu hóa model Ultralytics YOLO#

Khi computer vision tiếp tục mở rộng vào các ứng dụng thực tế, các model YOLO được tối ưu hóa giúp hiện thực hóa việc chạy các tác vụ như phát hiện đối tượng, instance segmentation và theo dõi đối tượng trên phần cứng nhỏ hơn và nhanh hơn. Sau đây, chúng ta hãy cùng thảo luận về một vài trường hợp sử dụng nơi pruning và quantization làm cho các tác vụ computer vision này trở nên hiệu quả và thực tiễn hơn.

Link to this sectionGiám sát thông minh được thúc đẩy bởi YOLO11#

Nhiều không gian công nghiệp, cũng như các khu vực công cộng, phụ thuộc vào việc giám sát thời gian thực để duy trì sự an toàn và bảo mật. Các địa điểm như nhà ga trung chuyển, khu vực sản xuất và các cơ sở ngoài trời lớn cần các hệ thống vision AI có thể phát hiện người hoặc phương tiện một cách nhanh chóng và chính xác. Thông thường, các địa điểm này vận hành với kết nối và phần cứng hạn chế, gây khó khăn cho việc triển khai các model lớn.

Trong những trường hợp như vậy, một model vision AI được tối ưu hóa như YOLO11 là giải pháp tuyệt vời. Kích thước nhỏ gọn và hiệu năng nhanh của nó làm cho nó trở nên hoàn hảo để chạy trên các thiết bị edge tiêu thụ năng lượng thấp, chẳng hạn như embedded cameras hoặc cảm biến thông minh. Các model này có thể xử lý dữ liệu hình ảnh trực tiếp trên thiết bị, cho phép phát hiện thời gian thực các vi phạm an toàn, truy cập trái phép hoặc hoạt động bất thường mà không cần dựa vào kết nối cloud liên tục.

YOLO11 giám sát các khu vực công cộng như ga tàu điện ngầm

Hình 4. YOLO11 có thể được sử dụng để giám sát các nơi công cộng như trạm tàu điện ngầm.

Link to this sectionTăng cường an toàn tại các công trường xây dựng với YOLO11#

Construction sites là các môi trường nhịp độ nhanh và khó lường, đầy rẫy máy móc hạng nặng, công nhân di chuyển và hoạt động liên tục. Các điều kiện có thể thay đổi nhanh chóng do lịch trình thay đổi, di chuyển thiết bị hoặc thậm chí những thay đổi đột ngột về thời tiết. Trong một bối cảnh năng động như vậy, an toàn cho công nhân có thể là một thách thức không ngừng nghỉ.

Giám sát thời gian thực đóng vai trò then chốt, nhưng các hệ thống truyền thống thường dựa vào kết nối cloud hoặc phần cứng đắt tiền vốn có thể không thực tế tại công trường. Đây là nơi các model như YOLO11 phát huy tác dụng. YOLO11 có thể được tối ưu hóa để chạy trên các thiết bị edge nhỏ gọn, hiệu quả làm việc trực tiếp tại hiện trường mà không cần kết nối internet.

Ví dụ, hãy cân nhắc một công trường xây dựng lớn như dự án mở rộng đường cao tốc trải dài hàng mẫu Anh. Trong kiểu bối cảnh này, việc theo dõi thủ công mọi phương tiện hoặc thiết bị có thể rất khó khăn và tốn thời gian. Một drone được trang bị camera và model YOLO11 đã tối ưu hóa có thể hỗ trợ bằng cách tự động phát hiện và theo dõi phương tiện, giám sát lưu lượng giao thông và xác định các vấn đề an toàn như truy cập trái phép hoặc hành vi lái xe không an toàn.

Phân tích hình ảnh từ drone tại một công trường xây dựng

Hình 5. Phân tích hình ảnh từ drone tại công trường xây dựng. (Nguồn)

Link to this sectionƯu và nhược điểm của pruning và quantization trong computer vision#

Dưới đây là một số lợi thế chính mà các phương pháp tối ưu hóa computer vision model như pruning và quantization mang lại:

  • Triển khai tiết kiệm chi phí: Các model nhỏ hơn và hiệu quả hơn có thể giảm nhu cầu sử dụng phần cứng cao cấp đắt tiền, giúp AI trở nên dễ tiếp cận và có khả năng mở rộng hơn trên các trường hợp sử dụng khác nhau.
  • Độ trễ thấp hơn: Bằng cách đơn giản hóa kiến trúc model và giảm chi phí tính toán, các kỹ thuật này có thể giúp đạt được thời gian phản hồi nhanh hơn trong các ứng dụng thời gian thực.
  • Hiệu quả năng lượng: Giảm tải tính toán cũng làm giảm mức tiêu thụ điện năng, điều này đặc biệt hữu ích cho các hệ thống di động hoặc chạy bằng pin.

Mặc dù pruning và quantization mang lại nhiều lợi thế, chúng cũng đi kèm với những đánh đổi nhất định mà các developer nên cân nhắc khi tối ưu hóa model. Dưới đây là một số hạn chế cần lưu ý:

  • Đánh đổi Accuracy: Nếu việc pruning quá mạnh hoặc sử dụng quantization bit cực thấp, độ chính xác của model, đo lường bằng các chỉ số như mAP, có thể bị giảm.
  • Hạn chế phần cứng: Không phải thiết bị nào cũng hỗ trợ các định dạng độ chính xác thấp như INT8 tốt như nhau. Điều này có thể hạn chế vị trí và cách thức triển khai một model đã tối ưu hóa.
  • Độ phức tạp khi triển khai: Để đạt được kết quả tốt thường đòi hỏi sự tinh chỉnh cẩn thận, đặc thù cho từng model. Developer có thể cần phải huấn luyện lại model và thực hiện kiểm thử mở rộng để duy trì hiệu năng trong khi cải thiện hiệu quả.

Link to this sectionCác điểm chính cần lưu ý#

Pruning và quantization là những kỹ thuật hữu ích giúp các model YOLO hoạt động tốt hơn trên các thiết bị edge. Chúng làm giảm kích thước của model, giảm nhu cầu tính toán và tăng tốc độ dự đoán, tất cả mà không làm giảm đáng kể độ chính xác.

Các phương pháp tối ưu hóa này cũng mang lại cho các developer sự linh hoạt để điều chỉnh model cho các loại phần cứng khác nhau mà không cần phải xây dựng lại chúng hoàn toàn. Với một chút tinh chỉnh và kiểm thử, việc áp dụng vision AI vào các tình huống thực tế trở nên dễ dàng hơn.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá repository GitHub của chúng tôi để tìm hiểu thêm về AI. Sẵn sàng bắt đầu các dự án computer vision của bạn? Hãy xem qua các tùy chọn cấp phép của chúng tôi. Khám phá AI trong nông nghiệp và vision AI trong y tế bằng cách truy cập các trang giải pháp của chúng tôi!

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning