Cắt tỉa và lượng tử hóa trong thị giác máy tính

Các thiết bị cạnh đang ngày càng trở nên phổ biến với công nghệ tiên tiến. Từ đồng hồ thông minh track nhịp tim của bạn cho đến máy bay không người lái theo dõi đường phố, hệ thống biên có thể xử lý dữ liệu theo thời gian thực tại chỗ trong chính thiết bị.

Phương pháp này thường nhanh hơn và an toàn hơn so với việc gửi dữ liệu lên đám mây, đặc biệt đối với các ứng dụng liên quan đến dữ liệu cá nhân, chẳng hạn như phát hiện biển số xe hoặc theo dõi cử chỉ. Đây là những ví dụ về thị giác máy tính, một nhánh của trí tuệ nhân tạo (AI) cho phép máy móc diễn giải và hiểu thông tin trực quan.

Hình 1. Một ví dụ về nhận dạng biển số xe. (Nguồn)

‍

Tuy nhiên, một yếu tố quan trọng cần xem xét là những ứng dụng như vậy đòi hỏi các mô hình Vision AI có khả năng xử lý tính toán nặng, sử dụng tối thiểu tài nguyên và hoạt động độc lập. Hầu hết các mô hình thị giác máy tính được phát triển cho các hệ thống hiệu suất cao, khiến chúng ít phù hợp hơn để triển khai trực tiếp trên các thiết bị biên.

Để thu hẹp khoảng cách này, các nhà phát triển thường áp dụng các tối ưu hóa có mục tiêu để điều chỉnh mô hình chạy hiệu quả trên phần cứng nhỏ hơn. Những điều chỉnh này rất quan trọng đối với việc triển khai biên thực tế, nơi bộ nhớ và sức mạnh xử lý bị hạn chế.

Điều thú vị là các mô hình thị giác máy tính như Ultralytics YOLO11 đã được thiết kế với tính năng hiệu quả biên, giúp chúng trở nên tuyệt vời cho các tác vụ thời gian thực. Tuy nhiên, hiệu suất của chúng có thể được cải thiện hơn nữa bằng các kỹ thuật tối ưu hóa mô hình như cắt tỉa và lượng tử hóa, cho phép suy luận nhanh hơn và sử dụng tài nguyên ít hơn trên các thiết bị hạn chế.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về cắt tỉa và lượng tử hóa là gì, chúng hoạt động như thế nào và chúng có thể giúp ích như thế nào YOLO Các mô hình hoạt động trong môi trường triển khai biên thực tế. Hãy bắt đầu thôi!

Tỉa thưa và lượng tử hóa: Các kỹ thuật cốt lõi trong tối ưu hóa mô hình

Khi chuẩn bị các mô hình Vision AI để triển khai trên các thiết bị biên, một trong những mục tiêu chính là làm cho mô hình nhẹ và đáng tin cậy mà không làm giảm hiệu suất. Điều này thường liên quan đến việc giảm kích thước và yêu cầu tính toán của mô hình để nó có thể hoạt động hiệu quả trên phần cứng với bộ nhớ, năng lượng hoặc dung lượng xử lý hạn chế. Hai cách phổ biến để thực hiện việc này là tỉa bớt và lượng tử hóa.

Tỉa thưa (Pruning) là một kỹ thuật tối ưu hóa mô hình AI giúp làm cho các mạng nơ-ron nhỏ hơn và hiệu quả hơn. Trong nhiều trường hợp, các phần của mô hình, chẳng hạn như một số kết nối hoặc nút nhất định, không đóng góp nhiều vào các dự đoán cuối cùng của nó. Tỉa thưa hoạt động bằng cách xác định và loại bỏ các phần ít quan trọng này, giúp giảm kích thước của mô hình và tăng tốc hiệu suất của nó.

Mặt khác, lượng tử hóa là một kỹ thuật tối ưu hóa giúp giảm độ chính xác của các con số mà mô hình sử dụng. Thay vì dựa vào các số dấu phẩy động 32-bit có độ chính xác cao, mô hình chuyển sang các định dạng nhỏ hơn, hiệu quả hơn như số nguyên 8-bit. Thay đổi này giúp giảm mức sử dụng bộ nhớ và tăng tốc suy luận, quá trình mà mô hình đưa ra dự đoán.

Hình 2. Cái nhìn về tỉa bớt (pruning) và lượng tử hóa (quantization). (Nguồn)

‍

Cách thức hoạt động của tỉa bớt (pruning) và lượng tử hóa (quantization)

Bây giờ chúng ta đã hiểu rõ hơn về tỉa bớt (pruning) và lượng tử hóa (quantization), hãy cùng xem xét cách cả hai hoạt động.

Tỉa thưa được thực hiện bằng một quy trình được gọi là phân tích độ nhạy. Nó xác định những phần nào của các mô hình mạng nơ-ron, chẳng hạn như các trọng số, nơ-ron hoặc kênh nhất định, đóng góp ít nhất vào dự đoán đầu ra cuối cùng. Những phần này có thể được loại bỏ với tác động tối thiểu đến độ chính xác. Sau khi tỉa thưa, mô hình thường được huấn luyện lại để tinh chỉnh hiệu suất của nó. Chu kỳ này có thể được lặp lại để tìm sự cân bằng phù hợp giữa kích thước và độ chính xác của nó.

Trong khi đó, lượng tử hóa mô hình tập trung vào cách mô hình xử lý dữ liệu. Nó bắt đầu với hiệu chuẩn, trong đó mô hình chạy trên dữ liệu mẫu để tìm hiểu phạm vi giá trị mà nó cần xử lý. Các giá trị đó sau đó được chuyển đổi từ dấu phẩy động 32 bit sang các định dạng có độ chính xác thấp hơn như số nguyên 8 bit.

Hình 3. Lượng tử hóa giúp giảm kích thước và độ phức tạp của mô hình. (Nguồn)

‍

Có một số công cụ giúp việc sử dụng cắt tỉa và lượng tử hóa trong các dự án AI thực tế trở nên dễ dàng hơn. Hầu hết các khuôn khổ AI, chẳng hạn như PyTorch Và TensorFlow , bao gồm hỗ trợ tích hợp cho các kỹ thuật tối ưu hóa này, cho phép các nhà phát triển tích hợp chúng trực tiếp vào quy trình triển khai mô hình.

Khi một mô hình được tối ưu hóa, các công cụ như ONNX Thời gian chạy có thể giúp chạy hiệu quả trên nhiều nền tảng phần cứng khác nhau như máy chủ, máy tính để bàn và thiết bị biên. Ngoài ra, Ultralytics cung cấp các tích hợp cho phép YOLO các mô hình được xuất ra theo định dạng phù hợp để lượng tử hóa, giúp giảm kích thước mô hình và tăng hiệu suất dễ dàng hơn.

Tổng quan về Ultralytics YOLO tối ưu hóa mô hình

Ultralytics YOLO các mô hình như YOLO11 được công nhận rộng rãi nhờ khả năng phát hiện đối tượng nhanh chóng, chỉ trong một bước, khiến chúng trở nên lý tưởng cho các tác vụ Vision AI thời gian thực. Chúng đã được thiết kế để đủ nhẹ và hiệu quả cho việc triển khai biên. Tuy nhiên, các lớp chịu trách nhiệm xử lý các đặc điểm trực quan, được gọi là lớp tích chập, vẫn có thể đòi hỏi sức mạnh tính toán đáng kể trong quá trình suy luận.

Bạn có thể tự hỏi: nếu YOLO11 Đã được tối ưu hóa cho việc sử dụng ở biên, tại sao cần phải tối ưu hóa thêm? Nói một cách đơn giản, không phải tất cả các thiết bị biên đều giống nhau. Một số chạy trên phần cứng rất tối thiểu, chẳng hạn như bộ vi xử lý nhúng siêu nhỏ tiêu thụ ít điện năng hơn cả bóng đèn LED thông thường.

Trong những trường hợp này, ngay cả một mô hình hợp lý như YOLO11 cần tối ưu hóa bổ sung để đảm bảo hiệu suất mượt mà, đáng tin cậy. Các kỹ thuật như cắt tỉa và lượng tử hóa giúp giảm kích thước mô hình và tăng tốc độ suy luận mà không ảnh hưởng đáng kể đến độ chính xác, khiến chúng trở nên lý tưởng cho các môi trường hạn chế như vậy.

Để dễ dàng áp dụng các kỹ thuật tối ưu hóa này, Ultralytics hỗ trợ nhiều tích hợp khác nhau có thể được sử dụng để xuất YOLO mô hình thành nhiều định dạng như ONNX , TensorRT , OpenVINO , CoreML , Và PaddlePaddle . Mỗi định dạng được thiết kế để hoạt động tốt với các loại phần cứng và môi trường triển khai cụ thể.

Ví dụ, ONNX thường được sử dụng trong quy trình lượng tử hóa do khả năng tương thích với nhiều công cụ và nền tảng khác nhau. TensorRT mặt khác, được tối ưu hóa cao cho NVIDIA thiết bị và hỗ trợ suy luận độ chính xác thấp bằng INT8, khiến nó trở nên lý tưởng cho việc triển khai tốc độ cao trên GPU biên.

Các trường hợp sử dụng có tác động của Ultralytics YOLO tối ưu hóa mô hình

Khi tầm nhìn máy tính tiếp tục mở rộng sang nhiều ứng dụng thực tế khác nhau, được tối ưu hóa YOLO Các mô hình này cho phép thực hiện các tác vụ như phát hiện đối tượng, phân đoạn thực thể và theo dõi đối tượng trên phần cứng nhỏ hơn, nhanh hơn. Tiếp theo, hãy cùng thảo luận một vài trường hợp sử dụng mà việc cắt tỉa và lượng tử hóa giúp các tác vụ thị giác máy tính này hiệu quả và thiết thực hơn.

Giám sát thông minh được thúc đẩy bởi YOLO11

Nhiều không gian công nghiệp, cũng như khu vực công cộng, phụ thuộc vào việc giám sát theo thời gian thực để đảm bảo an toàn và an ninh. Những nơi như nhà ga trung chuyển, khu sản xuất và các cơ sở ngoài trời lớn cần các hệ thống Vision AI có thể detect người hoặc phương tiện một cách nhanh chóng và chính xác. Thông thường, những địa điểm này hoạt động với kết nối và hạn chế về phần cứng, khiến việc triển khai các mô hình lớn trở nên khó khăn.

Trong những trường hợp như vậy, một mô hình AI Vision được tối ưu hóa như YOLO11 là một giải pháp tuyệt vời. Kích thước nhỏ gọn và hiệu suất nhanh chóng giúp nó hoàn hảo để chạy trên các thiết bị biên tiêu thụ điện năng thấp, chẳng hạn như camera nhúng hoặc cảm biến thông minh. Các mô hình này có thể xử lý dữ liệu hình ảnh trực tiếp trên thiết bị, cho phép phát hiện vi phạm an toàn, truy cập trái phép hoặc hoạt động bất thường theo thời gian thực mà không cần phụ thuộc vào việc truy cập đám mây liên tục.

Hình 4. YOLO11 có thể được sử dụng để giám sát những nơi công cộng như nhà ga tàu điện ngầm.

‍

Tăng cường an toàn tại các công trường xây dựng với YOLO11

Các công trường xây dựng là môi trường có nhịp độ nhanh và khó đoán, chứa đầy máy móc hạng nặng, công nhân di chuyển và hoạt động liên tục. Các điều kiện có thể thay đổi nhanh chóng do thay đổi lịch trình, di chuyển thiết bị hoặc thậm chí thay đổi đột ngột về thời tiết. Trong một bối cảnh năng động như vậy, sự an toàn của người lao động có thể giống như một thách thức liên tục.

Giám sát thời gian thực đóng vai trò quan trọng, nhưng các hệ thống truyền thống thường dựa vào quyền truy cập đám mây hoặc phần cứng đắt tiền mà có thể không thực tế tại chỗ. Đây là nơi các mô hình như YOLO11 có thể có tác động lớn. YOLO11 có thể được tối ưu hóa để chạy trên các thiết bị biên nhỏ, hiệu quả, hoạt động trực tiếp tại chỗ mà không cần kết nối internet.

Ví dụ, hãy xem xét một công trường xây dựng lớn, chẳng hạn như một dự án mở rộng đường cao tốc, trải dài vài mẫu Anh. Trong bối cảnh này, việc theo dõi thủ công từng phương tiện hoặc thiết bị có thể khó khăn và tốn thời gian. Một máy bay không người lái được trang bị camera và hệ thống giám sát được tối ưu hóa YOLO11 Mô hình này có thể giúp tự động phát hiện và theo dõi các phương tiện, giám sát lưu lượng giao thông và xác định các vấn đề an toàn như truy cập trái phép hoặc hành vi lái xe không an toàn.

Hình 5. Phân tích hình ảnh từ máy bay không người lái từ một công trường xây dựng. (Nguồn)

‍

Ưu và nhược điểm của tỉa thưa (pruning) và lượng tử hóa (quantization) trong thị giác máy tính

Dưới đây là một số ưu điểm chính mà các phương pháp tối ưu hóa mô hình thị giác máy tính như tỉa bớt (pruning) và lượng tử hóa (quantization) mang lại:

Triển khai hiệu quả về chi phí: Các mô hình nhỏ hơn và hiệu quả hơn có thể giảm nhu cầu về phần cứng cao cấp, đắt tiền, giúp AI dễ tiếp cận và mở rộng quy mô hơn trong các trường hợp sử dụng khác nhau.
Độ trễ thấp hơn: Bằng cách đơn giản hóa kiến trúc mô hình và giảm chi phí tính toán, các kỹ thuật này có thể giúp đạt được thời gian phản hồi nhanh hơn trong các ứng dụng thời gian thực.
Hiệu quả năng lượng: Giảm tải tính toán cũng làm giảm mức tiêu thụ điện năng, điều này đặc biệt hữu ích cho các hệ thống chạy bằng pin hoặc di động.

Mặc dù tỉa bớt (pruning) và lượng tử hóa (quantization) mang lại nhiều lợi thế, chúng cũng đi kèm với những đánh đổi nhất định mà các nhà phát triển nên xem xét khi tối ưu hóa mô hình. Dưới đây là một số hạn chế cần lưu ý:

Sự đánh đổi về độ chính xác : Nếu việc cắt tỉa quá mạnh hoặc nếu sử dụng lượng tử hóa bit rất thấp, độ chính xác của mô hình, được đo bằng các số liệu như mAP , có thể thả.
Hạn chế về phần cứng: Không phải tất cả các thiết bị đều hỗ trợ tốt các định dạng có độ chính xác thấp hơn như INT8. Điều này có thể hạn chế nơi và cách triển khai một mô hình được tối ưu hóa.
Độ phức tạp khi triển khai: Để đạt được kết quả tốt, thường cần điều chỉnh cẩn thận, cụ thể cho từng mô hình. Các nhà phát triển có thể cần phải huấn luyện lại mô hình và thực hiện kiểm tra rộng rãi để duy trì hiệu suất đồng thời cải thiện hiệu quả.

Những điều cần nhớ

Cắt tỉa và lượng tử hóa là những kỹ thuật hữu ích giúp YOLO Các mô hình hoạt động tốt hơn trên các thiết bị biên. Chúng giảm kích thước mô hình, giảm nhu cầu tính toán và tăng tốc độ dự đoán, mà không làm giảm đáng kể độ chính xác.

Các phương pháp tối ưu hóa này cũng mang lại cho các nhà phát triển sự linh hoạt để điều chỉnh các mô hình cho các loại phần cứng khác nhau mà không cần phải xây dựng lại chúng hoàn toàn. Với một số điều chỉnh và thử nghiệm, việc áp dụng Vision AI trong các tình huống thực tế trở nên dễ dàng hơn.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Bạn đã sẵn sàng bắt đầu các dự án thị giác máy tính của mình chưa? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá AI trong nông nghiệp và Vision AI trong lĩnh vực chăm sóc sức khỏe bằng cách truy cập các trang giải pháp của chúng tôi!

Tỉa thưa và lượng tử hóa trong thị giác máy tính: Hướng dẫn nhanh

Tỉa thưa và lượng tử hóa: Các kỹ thuật cốt lõi trong tối ưu hóa mô hình

Cách thức hoạt động của tỉa bớt (pruning) và lượng tử hóa (quantization)

Tổng quan về Ultralytics YOLO tối ưu hóa mô hình

Các trường hợp sử dụng có tác động của Ultralytics YOLO tối ưu hóa mô hình

Giám sát thông minh được thúc đẩy bởi YOLO11

‍

Tăng cường an toàn tại các công trường xây dựng với YOLO11

Ưu và nhược điểm của tỉa thưa (pruning) và lượng tử hóa (quantization) trong thị giác máy tính

Những điều cần nhớ

Đọc thêm trong danh mục này

Chắt lọc dữ liệu là gì? Tổng quan nhanh

Học tự giám sát để khử nhiễu: Phân tích từng bước

Ghép hình ảnh trong Vision AI là gì? Giới thiệu nhanh

Hãy cùng nhau xây dựng tương lai
của AI!

Tỉa thưa và lượng tử hóa trong thị giác máy tính: Hướng dẫn nhanh

Tỉa thưa và lượng tử hóa: Các kỹ thuật cốt lõi trong tối ưu hóa mô hình

Cách thức hoạt động của tỉa bớt (pruning) và lượng tử hóa (quantization)

Tổng quan về Ultralytics YOLO tối ưu hóa mô hình

Các trường hợp sử dụng có tác động của Ultralytics YOLO tối ưu hóa mô hình

Giám sát thông minh được thúc đẩy bởi YOLO11

‍

Tăng cường an toàn tại các công trường xây dựng với YOLO11

Ưu và nhược điểm của tỉa thưa (pruning) và lượng tử hóa (quantization) trong thị giác máy tính

Những điều cần nhớ

Đọc thêm trong danh mục này

Chắt lọc dữ liệu là gì? Tổng quan nhanh

Học tự giám sát để khử nhiễu: Phân tích từng bước

Ghép hình ảnh trong Vision AI là gì? Giới thiệu nhanh

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!