Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Tỉa thưa và lượng tử hóa trong thị giác máy tính: Hướng dẫn nhanh

Abirami Vina

5 phút đọc

11 tháng 7, 2025

Tìm hiểu lý do tại sao tỉa thưa (pruning) và lượng tử hóa (quantization) lại rất cần thiết để tối ưu hóa các mô hình thị giác máy tính và giúp chúng hoạt động nhanh hơn trên các thiết bị biên.

Các thiết bị biên (Edge devices) ngày càng trở nên phổ biến với sự tiến bộ của công nghệ. Từ đồng hồ thông minh theo dõi nhịp tim của bạn đến máy bay không người lái trên không giám sát đường phố, các hệ thống biên có thể xử lý dữ liệu theo thời gian thực cục bộ ngay trong thiết bị. 

Phương pháp này thường nhanh hơn và an toàn hơn so với việc gửi dữ liệu lên đám mây, đặc biệt đối với các ứng dụng liên quan đến dữ liệu cá nhân, chẳng hạn như phát hiện biển số xe hoặc theo dõi cử chỉ. Đây là những ví dụ về thị giác máy tính, một nhánh của trí tuệ nhân tạo (AI) cho phép máy móc diễn giải và hiểu thông tin trực quan.

Hình 1. Một ví dụ về nhận dạng biển số xe. (Nguồn)

Tuy nhiên, một yếu tố quan trọng cần xem xét là những ứng dụng như vậy đòi hỏi các mô hình Vision AI có khả năng xử lý tính toán nặng, sử dụng tối thiểu tài nguyên và hoạt động độc lập. Hầu hết các mô hình thị giác máy tính được phát triển cho các hệ thống hiệu suất cao, khiến chúng ít phù hợp hơn để triển khai trực tiếp trên các thiết bị biên. 

Để thu hẹp khoảng cách này, các nhà phát triển thường áp dụng các tối ưu hóa có mục tiêu để điều chỉnh mô hình chạy hiệu quả trên phần cứng nhỏ hơn. Những điều chỉnh này rất quan trọng đối với việc triển khai biên thực tế, nơi bộ nhớ và sức mạnh xử lý bị hạn chế. 

Điều thú vị là, các mô hình thị giác máy tính như Ultralytics YOLO11 đã được thiết kế chú trọng đến hiệu quả biên, khiến chúng trở nên tuyệt vời cho các tác vụ thời gian thực. Tuy nhiên, hiệu suất của chúng có thể được nâng cao hơn nữa bằng cách sử dụng các kỹ thuật tối ưu hóa mô hình như tỉa bớt (pruning) và lượng tử hóa (quantization), cho phép suy luận nhanh hơn và sử dụng ít tài nguyên hơn trên các thiết bị bị hạn chế.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về tỉa thưa (pruning) và lượng tử hóa (quantization) là gì, cách chúng hoạt động và cách chúng có thể giúp các mô hình YOLO hoạt động trong các triển khai biên thực tế. Hãy cùng bắt đầu!

Tỉa thưa và lượng tử hóa: Các kỹ thuật cốt lõi trong tối ưu hóa mô hình

Khi chuẩn bị các mô hình Vision AI để triển khai trên các thiết bị biên, một trong những mục tiêu chính là làm cho mô hình nhẹ và đáng tin cậy mà không làm giảm hiệu suất. Điều này thường liên quan đến việc giảm kích thước và yêu cầu tính toán của mô hình để nó có thể hoạt động hiệu quả trên phần cứng với bộ nhớ, năng lượng hoặc dung lượng xử lý hạn chế. Hai cách phổ biến để thực hiện việc này là tỉa bớt và lượng tử hóa.

Tỉa thưa (Pruning) là một kỹ thuật tối ưu hóa mô hình AI giúp làm cho các mạng nơ-ron nhỏ hơn và hiệu quả hơn. Trong nhiều trường hợp, các phần của mô hình, chẳng hạn như một số kết nối hoặc nút nhất định, không đóng góp nhiều vào các dự đoán cuối cùng của nó. Tỉa thưa hoạt động bằng cách xác định và loại bỏ các phần ít quan trọng này, giúp giảm kích thước của mô hình và tăng tốc hiệu suất của nó.

Mặt khác, lượng tử hóa là một kỹ thuật tối ưu hóa giúp giảm độ chính xác của các con số mà mô hình sử dụng. Thay vì dựa vào các số dấu phẩy động 32-bit có độ chính xác cao, mô hình chuyển sang các định dạng nhỏ hơn, hiệu quả hơn như số nguyên 8-bit. Thay đổi này giúp giảm mức sử dụng bộ nhớ và tăng tốc suy luận, quá trình mà mô hình đưa ra dự đoán.

Hình 2. Cái nhìn về tỉa bớt (pruning) và lượng tử hóa (quantization). (Nguồn)

Cách thức hoạt động của tỉa bớt (pruning) và lượng tử hóa (quantization)

Bây giờ chúng ta đã hiểu rõ hơn về tỉa bớt (pruning) và lượng tử hóa (quantization), hãy cùng xem xét cách cả hai hoạt động. 

Tỉa thưa được thực hiện bằng một quy trình được gọi là phân tích độ nhạy. Nó xác định những phần nào của các mô hình mạng nơ-ron, chẳng hạn như các trọng số, nơ-ron hoặc kênh nhất định, đóng góp ít nhất vào dự đoán đầu ra cuối cùng. Những phần này có thể được loại bỏ với tác động tối thiểu đến độ chính xác. Sau khi tỉa thưa, mô hình thường được huấn luyện lại để tinh chỉnh hiệu suất của nó. Chu kỳ này có thể được lặp lại để tìm sự cân bằng phù hợp giữa kích thước và độ chính xác của nó.

Trong khi đó, lượng tử hóa mô hình tập trung vào cách mô hình xử lý dữ liệu. Nó bắt đầu với hiệu chuẩn, trong đó mô hình chạy trên dữ liệu mẫu để tìm hiểu phạm vi giá trị mà nó cần xử lý. Các giá trị đó sau đó được chuyển đổi từ dấu phẩy động 32 bit sang các định dạng có độ chính xác thấp hơn như số nguyên 8 bit.

Hình 3. Lượng tử hóa giúp giảm kích thước và độ phức tạp của mô hình. (Nguồn)

Có một số công cụ có sẵn giúp bạn dễ dàng sử dụng tỉa thưa và lượng tử hóa trong các dự án AI thực tế. Hầu hết các framework AI, chẳng hạn như PyTorch và TensorFlow, đều bao gồm hỗ trợ tích hợp cho các kỹ thuật tối ưu hóa này, cho phép các nhà phát triển tích hợp chúng trực tiếp vào quy trình triển khai mô hình. 

Sau khi mô hình được tối ưu hóa, các công cụ như ONNX Runtime có thể giúp chạy mô hình hiệu quả trên nhiều nền tảng phần cứng khác nhau như máy chủ, máy tính để bàn và thiết bị biên. Ngoài ra, Ultralytics cung cấp các tích hợp cho phép các mô hình YOLO được xuất ở các định dạng phù hợp để lượng tử hóa, giúp giảm kích thước mô hình và tăng hiệu suất dễ dàng hơn.

Tổng quan về tối ưu hóa mô hình Ultralytics YOLO

Các mô hình Ultralytics YOLO như YOLO11 được công nhận rộng rãi nhờ khả năng phát hiện đối tượng một bước nhanh chóng, khiến chúng trở nên lý tưởng cho các tác vụ Vision AI thời gian thực. Chúng đã được thiết kế đủ nhẹ và hiệu quả để triển khai trên edge. Tuy nhiên, các lớp chịu trách nhiệm xử lý các đặc trưng trực quan, được gọi là lớp tích chập, vẫn có thể đòi hỏi sức mạnh tính toán đáng kể trong quá trình suy luận.

Bạn có thể tự hỏi: nếu YOLO11 đã được tối ưu hóa để sử dụng ở edge, tại sao nó cần được tối ưu hóa thêm? Nói một cách đơn giản, không phải tất cả các thiết bị edge đều giống nhau. Một số chạy trên phần cứng rất tối thiểu, như các bộ xử lý nhúng nhỏ xíu tiêu thụ ít điện năng hơn bóng đèn LED tiêu chuẩn. 

Trong những trường hợp này, ngay cả một mô hình được tinh giản như YOLO11 cũng cần tối ưu hóa bổ sung để đảm bảo hiệu suất mượt mà và đáng tin cậy. Các kỹ thuật như tỉa bớt (pruning) và lượng tử hóa (quantization) giúp giảm kích thước của mô hình và tăng tốc suy luận mà không ảnh hưởng đáng kể đến độ chính xác, làm cho chúng trở nên lý tưởng cho các môi trường bị hạn chế như vậy.

Để giúp bạn dễ dàng áp dụng các kỹ thuật tối ưu hóa này, Ultralytics hỗ trợ nhiều tích hợp khác nhau có thể được sử dụng để xuất các mô hình YOLO sang nhiều định dạng như ONNX, TensorRT, OpenVINO, CoreML và PaddlePaddle. Mỗi định dạng được thiết kế để hoạt động tốt với các loại phần cứng và môi trường triển khai cụ thể. 

Ví dụ: ONNX thường được sử dụng trong quy trình làm việc lượng tử hóa do khả năng tương thích với nhiều công cụ và nền tảng. Mặt khác, TensorRT được tối ưu hóa cao cho các thiết bị NVIDIA và hỗ trợ suy luận độ chính xác thấp bằng INT8, khiến nó trở nên lý tưởng cho việc triển khai tốc độ cao trên GPU biên.

Các trường hợp sử dụng hiệu quả mô hình Ultralytics YOLO được tối ưu hóa

Khi thị giác máy tính tiếp tục mở rộng sang các ứng dụng thực tế khác nhau, các mô hình YOLO được tối ưu hóa giúp bạn có thể chạy các tác vụ như phát hiện đối tượng, phân đoạn thể hiện và theo dõi đối tượng trên phần cứng nhỏ hơn, nhanh hơn. Tiếp theo, chúng ta hãy thảo luận về một vài trường hợp sử dụng trong đó việc cắt tỉa và lượng tử hóa giúp các tác vụ thị giác máy tính này hiệu quả và thiết thực hơn.

Giám sát thông minh được điều khiển bởi YOLO11

Nhiều không gian công nghiệp, cũng như các khu vực công cộng, phụ thuộc vào giám sát thời gian thực để giữ an toàn và bảo mật. Những nơi như nhà ga trung chuyển, địa điểm sản xuất và các cơ sở ngoài trời lớn cần các hệ thống Vision AI có thể phát hiện người hoặc phương tiện một cách nhanh chóng và chính xác. Thông thường, các địa điểm này hoạt động với kết nối hạn chế và các ràng buộc về phần cứng, điều này gây khó khăn cho việc triển khai các mô hình lớn.

Trong những trường hợp như vậy, một mô hình Vision AI được tối ưu hóa như YOLO11 là một giải pháp tuyệt vời. Kích thước nhỏ gọn và hiệu suất nhanh chóng của nó làm cho nó trở nên hoàn hảo để chạy trên các thiết bị biên có công suất thấp, chẳng hạn như camera nhúng hoặc cảm biến thông minh. Các mô hình này có thể xử lý dữ liệu trực quan trực tiếp trên thiết bị, cho phép phát hiện theo thời gian thực các vi phạm an toàn, truy cập trái phép hoặc hoạt động bất thường, mà không cần dựa vào quyền truy cập đám mây liên tục.

Hình 4. YOLO11 có thể được sử dụng để giám sát các địa điểm công cộng như ga tàu điện ngầm.

Tăng cường an toàn tại các công trường xây dựng với YOLO11

Các công trường xây dựng là môi trường có nhịp độ nhanh và khó đoán, chứa đầy máy móc hạng nặng, công nhân di chuyển và hoạt động liên tục. Các điều kiện có thể thay đổi nhanh chóng do thay đổi lịch trình, di chuyển thiết bị hoặc thậm chí thay đổi đột ngột về thời tiết. Trong một bối cảnh năng động như vậy, sự an toàn của người lao động có thể giống như một thách thức liên tục.

Giám sát theo thời gian thực đóng một vai trò quan trọng, nhưng các hệ thống truyền thống thường dựa vào quyền truy cập đám mây hoặc phần cứng đắt tiền, điều này có thể không thực tế tại chỗ. Đây là nơi các mô hình như YOLO11 có thể có tác động. YOLO11 có thể được tối ưu hóa để chạy trên các thiết bị biên nhỏ, hiệu quả, hoạt động trực tiếp tại chỗ mà không cần kết nối internet.

Ví dụ: hãy xem xét một công trường xây dựng lớn như một dự án mở rộng đường cao tốc trải dài trên vài mẫu Anh. Trong loại môi trường này, việc theo dõi thủ công mọi phương tiện hoặc thiết bị có thể khó khăn và tốn thời gian. Một máy bay không người lái được trang bị camera và mô hình YOLO11 được tối ưu hóa có thể giúp tự động phát hiện và theo dõi các phương tiện, giám sát lưu lượng giao thông và xác định các vấn đề an toàn như truy cập trái phép hoặc hành vi lái xe không an toàn.

Hình 5. Phân tích hình ảnh từ máy bay không người lái từ một công trường xây dựng. (Nguồn)

Ưu và nhược điểm của tỉa thưa (pruning) và lượng tử hóa (quantization) trong thị giác máy tính

Dưới đây là một số ưu điểm chính mà các phương pháp tối ưu hóa mô hình thị giác máy tính như tỉa bớt (pruning) và lượng tử hóa (quantization) mang lại:

  • Triển khai hiệu quả về chi phí: Các mô hình nhỏ hơn và hiệu quả hơn có thể giảm nhu cầu về phần cứng cao cấp, đắt tiền, giúp AI dễ tiếp cận và mở rộng quy mô hơn trong các trường hợp sử dụng khác nhau.

  • Độ trễ thấp hơn: Bằng cách đơn giản hóa kiến trúc mô hình và giảm chi phí tính toán, các kỹ thuật này có thể giúp đạt được thời gian phản hồi nhanh hơn trong các ứng dụng thời gian thực.

  • Hiệu quả năng lượng: Giảm tải tính toán cũng làm giảm mức tiêu thụ điện năng, điều này đặc biệt hữu ích cho các hệ thống chạy bằng pin hoặc di động.

Mặc dù tỉa bớt (pruning) và lượng tử hóa (quantization) mang lại nhiều lợi thế, chúng cũng đi kèm với những đánh đổi nhất định mà các nhà phát triển nên xem xét khi tối ưu hóa mô hình. Dưới đây là một số hạn chế cần lưu ý:

  • Đánh đổi về độ chính xác (Accuracy): Nếu việc tỉa thưa quá mạnh hoặc nếu sử dụng lượng tử hóa bit thấp, độ chính xác của mô hình, được đo bằng các số liệu như mAP, có thể giảm.

  • Hạn chế về phần cứng: Không phải tất cả các thiết bị đều hỗ trợ tốt các định dạng có độ chính xác thấp hơn như INT8. Điều này có thể hạn chế nơi và cách triển khai một mô hình được tối ưu hóa.

  • Độ phức tạp khi triển khai: Để đạt được kết quả tốt, thường cần điều chỉnh cẩn thận, cụ thể cho từng mô hình. Các nhà phát triển có thể cần phải huấn luyện lại mô hình và thực hiện kiểm tra rộng rãi để duy trì hiệu suất đồng thời cải thiện hiệu quả.

Những điều cần nhớ

Tỉa thưa (pruning) và lượng tử hóa (quantization) là các kỹ thuật hữu ích giúp các mô hình YOLO hoạt động tốt hơn trên các thiết bị biên (edge devices). Chúng làm giảm kích thước của mô hình, giảm nhu cầu tính toán và tăng tốc độ dự đoán mà không làm giảm đáng kể độ chính xác.

Các phương pháp tối ưu hóa này cũng mang lại cho các nhà phát triển sự linh hoạt để điều chỉnh các mô hình cho các loại phần cứng khác nhau mà không cần phải xây dựng lại chúng hoàn toàn. Với một số điều chỉnh và thử nghiệm, việc áp dụng Vision AI trong các tình huống thực tế trở nên dễ dàng hơn.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Bạn đã sẵn sàng bắt đầu các dự án thị giác máy tính của mình chưa? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá AI trong nông nghiệp và Vision AI trong lĩnh vực chăm sóc sức khỏe bằng cách truy cập các trang giải pháp của chúng tôi! 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard