Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Tại sao Ultralytics YOLO26 loại bỏ NMS và điều đó làm thay đổi việc triển khai như thế nào

Khám phá cách thức Ultralytics YOLO26 cho phép thực hiện quy trình từ đầu đến cuối thực sự. NMS - Suy luận không cần xử lý hậu kỳ và lý do tại sao việc loại bỏ xử lý hậu kỳ giúp đơn giản hóa việc xuất dữ liệu và triển khai tại biên.

Vào ngày 14 tháng 1, chúng tôi đã ra mắt Ultralytics YOLO26 , thế hệ mới nhất của các mô hình thị giác máy tính của chúng tôi. Với YOLO26, mục tiêu của chúng tôi không chỉ là cải thiện độ chính xác hay tốc độ, mà còn là định hình lại cách thức xây dựng và triển khai các mô hình phát hiện đối tượng trong các hệ thống thực tế.

Khi công nghệ thị giác máy tính chuyển từ nghiên cứu sang ứng dụng thực tiễn, các mô hình ngày càng được kỳ vọng sẽ chạy trên CPU, thiết bị biên, camera, robot và phần cứng nhúng. Trong những môi trường này, độ tin cậy, độ trễ thấp và khả năng triển khai dễ dàng cũng quan trọng không kém hiệu năng.

YOLO26 được thiết kế dựa trên thực tế này, sử dụng kiến trúc đầu cuối được tối ưu hóa giúp loại bỏ sự phức tạp không cần thiết khỏi quy trình suy luận. Một trong những cải tiến quan trọng nhất được thực hiện trong YOLO26 là việc loại bỏ Non-Maximum Suppression , thường được gọi là NMS .

Trong nhiều năm, NMS Đã trở thành một phần tiêu chuẩn của các hệ thống phát hiện đối tượng, được sử dụng như một bước xử lý hậu kỳ để loại bỏ các phát hiện trùng lặp. Mặc dù hiệu quả, nó cũng tạo ra thêm các thách thức về tính toán và triển khai, đặc biệt là trên phần cứng biên.

Với YOLO26, chúng tôi đã áp dụng một cách tiếp cận khác. Bằng cách xem xét lại cách thức tạo ra và huấn luyện các dự đoán, chúng tôi cho phép thực hiện quy trình từ đầu đến cuối thực sự. NMS - Suy luận tự do. Mô hình tạo ra các phát hiện cuối cùng trực tiếp, không dựa vào các bước làm sạch bên ngoài hoặc các quy tắc được tạo thủ công. Điều này làm cho YOLO26 nhanh hơn , dễ xuất hơn và đáng tin cậy hơn khi triển khai trên nhiều nền tảng phần cứng khác nhau.

Hình 1. Phát hiện đối tượng trong ảnh bằng cách sử dụng Ultralytics YOLO26.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn lý do tại sao phương pháp phát hiện đối tượng truyền thống lại dựa vào... NMS Làm thế nào nó trở thành nút thắt cổ chai trong quá trình triển khai, và làm thế nào YOLO26 loại bỏ nhu cầu về các giải pháp tạm thời. Hãy bắt đầu!

Phương pháp phát hiện đối tượng truyền thống thường tạo ra các phát hiện trùng lặp.

Trước khi chúng ta đi sâu vào vấn đề... NMS Để hiểu lý do tại sao chúng tôi loại bỏ nó trong YOLO26, hãy cùng nhìn lại cách các mô hình phát hiện đối tượng truyền thống tạo ra dự đoán của chúng.

Các mô hình phát hiện đối tượng truyền thống thường tạo ra nhiều hộp giới hạn chồng chéo cho cùng một đối tượng. Mỗi hộp này đều có điểm tin cậy riêng, mặc dù tất cả đều đề cập đến cùng một đối tượng trong ảnh.

Điều này xảy ra vì một vài lý do. Thứ nhất, mô hình đưa ra dự đoán tại nhiều vị trí không gian và ở các quy mô khác nhau cùng một lúc. Điều này giúp mô hình hoạt động hiệu quả hơn. detect Điều này không chỉ có nghĩa là các vật thể có kích thước khác nhau, mà còn có nghĩa là các địa điểm lân cận đều có thể nhận diện cùng một vật thể một cách độc lập.

Thứ hai, nhiều hệ thống phát hiện đối tượng sử dụng các phương pháp dựa trên neo, tạo ra một lượng lớn các hộp ứng cử viên xung quanh mỗi vị trí. Mặc dù điều này cải thiện khả năng tìm thấy đối tượng chính xác, nhưng nó cũng làm tăng số lượng dự đoán chồng chéo.

Cuối cùng, bản thân việc phát hiện dựa trên lưới dẫn đến sự dư thừa. Khi một đối tượng nằm gần ranh giới của nhiều ô lưới, một số ô có thể dự đoán một hình hộp cho đối tượng đó, dẫn đến nhiều phát hiện chồng chéo. 

Do đó, kết quả đầu ra thô của mô hình thường chứa nhiều hộp cho cùng một đối tượng. Để kết quả có thể sử dụng được, những dự đoán dư thừa này cần được lọc bỏ sao cho chỉ còn lại một kết quả phát hiện cuối cùng.

Hiểu về hiện tượng ức chế không tối đa

Khi một mô hình phát hiện đối tượng tạo ra nhiều hộp giới hạn chồng chéo cho cùng một đối tượng, các kết quả đó cần được làm sạch trước khi có thể sử dụng. Đây là lúc kỹ thuật loại bỏ các hộp giới hạn không tối đa (Non-Maximum Suppression) được áp dụng.

Loại bỏ các điểm không trùng lặp (Non-Maximum Suppression) là một bước xử lý hậu kỳ được thực hiện sau khi mô hình đã hoàn thành việc đưa ra dự đoán. Mục đích của nó là giảm thiểu các phát hiện trùng lặp để mỗi đối tượng được biểu diễn bằng một hộp giới hạn cuối cùng duy nhất.

Hình 2. Tổng quan về NMS Ảnh do tác giả cung cấp.

Quá trình này hoạt động bằng cách so sánh các hộp giới hạn dựa trên điểm độ tin cậy và mức độ chồng chéo của chúng. Các dự đoán có độ tin cậy rất thấp sẽ bị loại bỏ trước tiên. 

Các ô còn lại sau đó được sắp xếp theo độ tin cậy, và ô có điểm số cao nhất được chọn là ô phát hiện tốt nhất. Ô được chọn đó được so sánh với các ô khác. 

Nếu một hộp khác chồng lấn quá nhiều với hộp đang xét, hộp đó sẽ bị ẩn đi. Sự chồng lấn thường được đo bằng Intersection over Union (Giao điểm trên Hợp nhất), một chỉ số tính toán tỷ lệ giữa diện tích được hai hộp chia sẻ và tổng diện tích mà cả hai hộp cùng bao phủ. Quá trình này lặp lại cho đến khi chỉ còn lại những phát hiện không chồng lấn và có độ tin cậy cao nhất.

Tại sao NMS làm phức tạp việc triển khai

Mặc dù phương pháp loại bỏ các phát hiện trùng lặp (Non-Maximum Suppression) giúp lọc bỏ các phát hiện trùng lặp, nó cũng tạo ra những thách thức trở nên rõ ràng hơn khi các mô hình được đưa từ nghiên cứu vào ứng dụng thực tế.

Một trong những vấn đề lớn nhất là hiệu năng. NMS Quá trình này chạy sau khi suy luận và yêu cầu so sánh các hộp giới hạn với nhau để quyết định giữ lại hộp nào. 

Quá trình này tốn nhiều tài nguyên tính toán và khó có thể song song hóa một cách hiệu quả. Trên các thiết bị biên và CPU Đối với các hệ thống dựa trên , công việc bổ sung này có thể gây ra độ trễ đáng kể, khiến việc đáp ứng các yêu cầu thời gian thực trở nên khó khăn hơn.

NMS Điều này cũng làm tăng độ phức tạp khi triển khai. Vì nó không phải là một phần của mô hình, nên nó phải được triển khai riêng biệt dưới dạng mã xử lý hậu kỳ. 

Các môi trường chạy và nền tảng khác nhau xử lý NMS theo những cách khác nhau, điều này thường có nghĩa là phải duy trì các triển khai tùy chỉnh cho từng môi trường mục tiêu. Những gì hoạt động trong một thiết lập có thể hoạt động hơi khác trong thiết lập khác, khiến việc triển khai trở nên dễ bị lỗi hơn và khó mở rộng hơn.

Tối ưu hóa phần cứng là một thách thức khác. NMS Điều này không hoàn toàn phù hợp với các bộ tăng tốc AI chuyên dụng, vốn được thiết kế để chạy các hoạt động mạng nơ-ron một cách hiệu quả. Do đó, ngay cả khi mô hình chạy nhanh trên phần cứng được tối ưu hóa, NMS có thể trở thành nút thắt cổ chai làm hạn chế hiệu suất tổng thể.

Ngoài những yếu tố trên, NMS Phương pháp này dựa vào các tham số được chọn thủ công như ngưỡng độ tin cậy và ngưỡng chồng lấp. Các thiết lập này có thể ảnh hưởng đáng kể đến kết quả và thường cần được tinh chỉnh cho các tập dữ liệu, ứng dụng hoặc phần cứng khác nhau. Điều này làm cho hành vi trở nên khó dự đoán hơn trong các hệ thống sản xuất và làm tăng thêm chi phí cấu hình.

Giải thích quy trình suy luận phát hiện đối tượng từ đầu đến cuối

Những hạn chế của phương pháp loại bỏ cực đại không trùng lặp (Non-Maximum Suppression) đã khiến chúng tôi phải suy nghĩ lại về cách các mô hình phát hiện đối tượng nên hoạt động trong quá trình suy luận. Thay vì tạo ra nhiều dự đoán chồng chéo và làm sạch chúng sau đó, chúng tôi đã đặt ra một câu hỏi cơ bản hơn. 

Điều gì sẽ xảy ra nếu mô hình có thể trực tiếp tạo ra kết quả phát hiện cuối cùng? Câu hỏi này nằm ở cốt lõi của quá trình suy luận phát hiện đối tượng từ đầu đến cuối. Trong một hệ thống từ đầu đến cuối, mô hình được huấn luyện để xử lý toàn bộ quá trình phát hiện từ đầu đến cuối, mà không cần dựa vào các bước làm sạch bên ngoài.

Thay vì tạo ra nhiều hộp ứng cử viên và lọc chúng sau khi suy luận, mô hình học cách tự tạo ra một tập hợp nhỏ các dự đoán đáng tin cậy, không chồng chéo. Các phát hiện trùng lặp được giải quyết bên trong mạng thay vì bị loại bỏ bằng quá trình xử lý hậu kỳ.

Các kiến trúc mô hình mới hơn đã chứng minh rằng cách tiếp cận này vừa khả thi vừa thiết thực. Với chiến lược huấn luyện phù hợp, các mô hình có thể học cách liên kết mỗi đối tượng với một dự đoán duy nhất thay vì nhiều dự đoán cạnh tranh, giảm thiểu sự dư thừa ngay từ nguồn.

Hình 3. Một ví dụ về việc phát hiện đối tượng bằng cách sử dụng Ultralytics YOLO26.

Để điều này hoạt động hiệu quả, quá trình huấn luyện cũng phải thay đổi. Thay vì để nhiều dự đoán cạnh tranh cho cùng một đối tượng, mô hình học cách đưa ra một quyết định rõ ràng, tạo ra ít kết quả phát hiện hơn nhưng chính xác hơn.

Kết quả tổng thể là một quy trình suy luận đơn giản hơn. Vì các bản sao đã được giải quyết nội bộ, nên không cần thiết phải sử dụng Non-Maximum Suppression trong quá trình suy luận. Đầu ra của mô hình đã là tập hợp các phát hiện cuối cùng.

Thiết kế toàn diện này cũng giúp việc triển khai dễ dàng hơn. Không cần các bước xử lý hậu kỳ hoặc các bước dành riêng cho nền tảng. NMS Với các triển khai này, mô hình được xuất ra hoàn toàn độc lập và hoạt động nhất quán trên các khung suy luận và mục tiêu phần cứng khác nhau.

Như kỹ sư trưởng phụ trách quan hệ đối tác của chúng tôi, Francesco Mattioli giải thích, “Học máy toàn diện thực sự có nghĩa là mô hình phải xử lý mọi thứ từ pixel đến dự đoán, mà không cần các bước xử lý hậu kỳ thủ công làm mất đi tính khác biệt và làm phức tạp quá trình triển khai.”

Làm sao Ultralytics YOLO26 loại bỏ NMS

YOLO26 loại bỏ hiện tượng loại bỏ các đối tượng không phải là đối tượng tối đa (Non-Maximum Suppression) bằng cách thay đổi cách thức học và tạo ra các phát hiện, thay vì dựa vào xử lý hậu kỳ để làm sạch chúng. Thay vì cho phép nhiều dự đoán cạnh tranh cho cùng một đối tượng, YOLO26 được huấn luyện để học một mối quan hệ một-một rõ ràng giữa các đối tượng và kết quả đầu ra.

Điều này một phần được thực hiện nhờ vào khả năng phát hiện dựa trên truy vấn có thể học hỏi, giúp mô hình tập trung vào việc đưa ra một dự đoán duy nhất, đáng tin cậy cho mỗi đối tượng thay vì nhiều ứng cử viên chồng chéo. Mỗi đối tượng được liên kết với một dự đoán duy nhất, tự nhiên làm giảm các phát hiện trùng lặp.

Hành vi này được củng cố thông qua các chiến lược khớp nối nhất quán trong quá trình huấn luyện, khuyến khích mô hình đưa ra một quyết định chắc chắn cho mỗi đối tượng thay vì tạo ra các dự đoán chồng chéo. Cuối cùng, mô hình tạo ra ít dự đoán hơn, nhưng mỗi dự đoán đều đại diện cho một phát hiện cuối cùng. 

Vì sao việc loại bỏ DFL lại xảy ra NMS - khả năng phát hiện miễn phí

Một cải tiến quan trọng khác cho phép NMS - Việc loại bỏ suy luận không cần tham số trong YOLO26 là việc loại bỏ hàm mất mát tiêu điểm phân phối (Distribution Focal Loss, hay DFL). Trong các phiên bản trước đó, YOLO Trong các mô hình này, DFL được sử dụng để cải thiện hồi quy hộp giới hạn bằng cách dự đoán sự phân bố các vị trí hộp có thể có thay vì một giá trị duy nhất. 

Mặc dù phương pháp này đã cải thiện độ chính xác định vị, nhưng nó cũng làm tăng độ phức tạp cho quy trình phát hiện. Độ phức tạp đó trở thành một hạn chế khi chuyển sang suy luận từ đầu đến cuối thực sự. 

DFL đã đưa thêm các phép tính và phạm vi hồi quy cố định, khiến mô hình khó học được cách gán đối tượng một-một rõ ràng và làm tăng sự phụ thuộc vào các bước xử lý hậu kỳ như loại bỏ cực đại cục bộ (Non-Maximum Suppression). Với YOLO26, chúng tôi đã loại bỏ DFL và thiết kế lại hồi quy hộp giới hạn để đơn giản và trực tiếp hơn.

Thay vì dựa vào các kết quả đầu ra dựa trên phân phối, mô hình học cách dự đoán tọa độ hộp chính xác theo cách hỗ trợ ít lần phát hiện hơn nhưng đáng tin cậy hơn. Thay đổi này giúp giảm thiểu các dự đoán chồng chéo ngay từ nguồn và điều chỉnh hồi quy hộp giới hạn phù hợp với quy trình đầu cuối của YOLO26. NMS - Thiết kế miễn phí. 

Ultralytics YOLO26 là NMS - Miễn phí và dễ triển khai

MỘT NMS - Thiết kế không ràng buộc giúp YOLO26 trở thành một mô hình hoàn chỉnh từ đầu đến cuối. Điều này có tác động quan trọng đến việc xuất mô hình

Xuất khẩu nghĩa là chuyển đổi mô hình đã được huấn luyện sang định dạng có thể chạy bên ngoài môi trường huấn luyện, chẳng hạn như... ONNX , TensorRT , CoreML , hoặc OpenVINO Trong các quy trình xử lý dữ liệu truyền thống, quá trình này thường bị gián đoạn vì việc loại bỏ các giá trị không tối đa (Non-Maximum Suppression) không phải là một phần của mô hình. 

Bằng cách loại bỏ NMS YOLO26 hoàn toàn tránh được vấn đề này. Mô hình được xuất ra đã bao gồm mọi thứ cần thiết để tạo ra kết quả phát hiện cuối cùng. 

Điều này giúp mô hình được xuất ra hoàn toàn độc lập và dễ dàng chuyển đổi giữa các khung suy luận và mục tiêu phần cứng khác nhau. Mô hình đó hoạt động nhất quán cho dù được triển khai trên máy chủ nào, CPU - Chỉ dành cho các hệ thống, thiết bị nhúng hoặc bộ tăng tốc biên. Việc triển khai trở nên đơn giản hơn vì những gì bạn xuất ra chính xác là những gì bạn chạy.

Sự đơn giản này đặc biệt quan trọng đối với các ứng dụng biên. Ví dụ, YOLO26 có thể dễ dàng triển khai trên các thiết bị như máy bay không người lái cho các trường hợp sử dụng như giám sát cây trồng, kiểm tra đồng ruộng và phân tích sức khỏe cây trồng, nơi mà ngân sách tính toán và năng lượng hạn chế khiến các quy trình xử lý hậu kỳ phức tạp trở nên không khả thi. Vì mô hình xuất ra kết quả phát hiện cuối cùng trực tiếp, nên nó hoạt động đáng tin cậy trên phần cứng nhẹ mà không cần các bước xử lý bổ sung.

Hình 4. Ultralytics YOLO26 dễ dàng triển khai trên các thiết bị biên như máy bay không người lái.

Tóm lại, NMS - Suy luận không cần mã hóa giúp loại bỏ những trở ngại trong quá trình xuất khẩu và triển khai, đồng thời cho phép tạo ra các hệ thống thị giác sạch hơn và đáng tin cậy hơn. NMS Đó là một giải pháp tạm thời. YOLO26 không cần đến các giải pháp tạm thời nữa.

Những điều cần nhớ

YOLO26 loại bỏ hiện tượng Non-Maximum Suppression bằng cách giải quyết vấn đề cốt lõi của việc phát hiện trùng lặp, thay vì chỉ dọn dẹp chúng sau khi sự việc đã xảy ra. Thiết kế từ đầu đến cuối cho phép mô hình tạo ra các phát hiện cuối cùng trực tiếp, giúp việc xuất và triển khai đơn giản hơn và nhất quán hơn trên các phần cứng khác nhau. NMS Đây là một giải pháp tạm thời hữu ích cho các hệ thống trước đây, nhưng YOLO26 không còn cần đến nó nữa.

Hãy tham gia cộng đồng của chúng tôi và xem kho lưu trữ GitHub để tìm hiểu thêm về Trí tuệ Nhân tạo (AI). Khám phá các trang giải pháp của chúng tôi về AI trong nông nghiệpthị giác máy tính trong bán lẻ . Tìm hiểu các tùy chọn cấp phép của chúng tôi và bắt đầu sử dụng Vision AI ngay hôm nay! 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí