Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Làm thế nào để cải thiện mô hình? mAP Hướng dẫn nhanh về các vật nhỏ

Tìm hiểu cách cải thiện mô hình mAP Trên các đối tượng nhỏ với những lời khuyên thiết thực về chất lượng dữ liệu, tăng cường dữ liệu, chiến lược huấn luyện, đánh giá và triển khai.

Khi việc ứng dụng trí tuệ nhân tạo (AI), học máy và thị giác máy tính tiếp tục phát triển, các hệ thống phát hiện đối tượng đang được sử dụng ở khắp mọi nơi, từ camera giao thông thông minh đến máy bay không người lái và các công cụ phân tích bán lẻ. Thông thường, các hệ thống này được kỳ vọng sẽ... detect Các vật thể ở mọi kích cỡ, dù đó là một chiếc xe tải lớn ở gần máy ảnh hay một người đi bộ nhỏ bé ở xa.

Thông thường, việc phát hiện các vật thể lớn và dễ nhìn thấy sẽ dễ dàng hơn. Ngược lại, việc phát hiện các vật thể nhỏ lại khó khăn hơn.

Khi một vật thể chỉ chiếm một phần rất nhỏ trong hình ảnh, lượng thông tin trực quan để xử lý rất ít. Một người đi bộ ở xa trong luồng giao thông hoặc một chiếc xe nhỏ được chụp từ trên không có thể chỉ chứa vài pixel, nhưng những pixel đó lại có thể mang thông tin quan trọng. 

Các mô hình thị giác máy tính như Ultralytics YOLO Các mô hình dựa vào các mẫu hình ảnh để nhận dạng đối tượng, và khi các mẫu hình ảnh đó bị hạn chế hoặc không rõ ràng, hiệu suất sẽ bị ảnh hưởng. Các chi tiết quan trọng có thể bị mất trong quá trình xử lý, khiến các dự đoán dễ bị lỗi định vị hơn. Ngay cả một sự dịch chuyển nhỏ trong khung giới hạn cũng có thể biến một phát hiện chính xác thành một phát hiện bị bỏ sót.

Khoảng cách này trở nên rõ ràng khi chúng ta xem xét hiệu suất của mô hình. Hầu hết các mô hình phát hiện và phân đoạn đều xử lý tốt các đối tượng có kích thước trung bình và lớn, nhưng các đối tượng nhỏ thường làm giảm độ chính xác tổng thể.

Hiệu năng của học sâu thường được đo bằng độ chính xác trung bình (mean average precision ), hay mAP Chỉ số này phản ánh cả độ chính xác của việc phát hiện và mức độ phù hợp giữa các khung dự đoán với các vật thể thực. 

Nó kết hợp độ chính xác, cho thấy có bao nhiêu đối tượng được dự đoán chính xác, và độ thu hồi, cho thấy có bao nhiêu đối tượng thực tế được phát hiện thành công, trên các mức độ tin cậy khác nhau và tỷ lệ giao nhau trên hợp nhất, hay còn gọi là Intersection over Union. IoU (một chỉ số đo lường mức độ chồng lấp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế) ngưỡng.

Trước đây, chúng ta đã tìm hiểu về phát hiện vật thể nhỏ và lý do tại sao đây lại là một bài toán khó đối với các mô hình thị giác máy tính. Trong bài viết này, chúng ta sẽ tiếp tục xây dựng trên nền tảng đó và tập trung vào cách cải thiện khả năng này. mAP Khi có các vật nhỏ liên quan. Bắt đầu nào!

Tại sao các vật nhỏ lại khó di chuyển hơn? detect ?

Đối với các ứng dụng liên quan đến bộ phát hiện đối tượng, một đối tượng nhỏ được định nghĩa bởi diện tích nó chiếm trong ảnh, chứ không nhất thiết bởi kích thước nó trông nhỏ như thế nào đối với mắt người. Nếu nó chỉ chiếm một phần rất nhỏ của ảnh, nó chứa rất ít thông tin thị giác, điều này khiến thuật toán thị giác máy tính khó nhận diện hơn. detect Chính xác.

Hình 1. Ví dụ hình ảnh minh họa các vật thể nhỏ chiếm diện tích pixel hạn chế ( Nguồn )

Với số lượng điểm ảnh ít hơn, các chi tiết quan trọng như cạnh, hình dạng và kết cấu có thể bị mờ hoặc dễ bị mất. Khi hình ảnh được xử lý bởi mô hình, nó sẽ được thay đổi kích thước và đơn giản hóa để làm nổi bật các mẫu hữu ích. 

Mặc dù điều này giúp mô hình hiểu được toàn bộ khung cảnh, nhưng nó cũng có thể làm giảm bớt các chi tiết nhỏ hơn nữa. Đối với các vật thể nhỏ, những chi tiết đó thường rất cần thiết để phát hiện chính xác.

Những thách thức này càng trở nên rõ ràng hơn khi xem xét các chỉ số đánh giá . Các đối tượng nhỏ đặc biệt nhạy cảm với lỗi định vị. Ngay cả một hộp giới hạn bị lệch nhẹ cũng có thể không đạt được tỷ lệ Giao nhau trên Hợp nhất (Intersection over Union) cần thiết, hay IoU , ngưỡng. 

Khi điều đó xảy ra, một dự đoán có vẻ hợp lý có thể bị coi là không chính xác. Điều này làm giảm cả độ chính xác và độ thu hồi, cuối cùng làm giảm độ chính xác trung bình, hay độ chính xác bình quân. mAP .

Vì các yếu tố này có mối liên hệ chặt chẽ, việc cải thiện hiệu suất thường đòi hỏi phải xem xét toàn bộ hệ thống. Điều đó có nghĩa là phải cân bằng cẩn thận độ phân giải hình ảnh, trích xuất đặc trưng, ​​thiết kế mô hình và cài đặt đánh giá để các chi tiết hình ảnh nhỏ được bảo tồn và diễn giải tốt hơn.

Tầm quan trọng của chất lượng dữ liệu và chú thích

Đối với việc phát hiện vật thể nhỏ, chất lượng của tập dữ liệu thường tạo ra sự khác biệt lớn nhất về hiệu suất. Các vật thể nhỏ chỉ chiếm một phần rất nhỏ trong hình ảnh, điều đó có nghĩa là có rất ít thông tin hình ảnh để mô hình học hỏi. Vì lý do này, dữ liệu huấn luyện trở nên đặc biệt quan trọng. Nếu tập dữ liệu không bao gồm đủ các ví dụ rõ ràng và tiêu biểu, mô hình phát hiện vật thể sẽ gặp khó khăn trong việc nhận dạng các mẫu nhất quán.

Các tập dữ liệu hoạt động tốt trong việc phát hiện vật thể nhỏ thường chứa hình ảnh độ phân giải cao, sự xuất hiện thường xuyên của các mục tiêu nhỏ và điều kiện hình ảnh nhất quán. Mặc dù các tập dữ liệu chung như tập dữ liệu COCO rất hữu ích làm điểm khởi đầu, nhưng chúng thường không phù hợp với quy mô, mật độ hoặc bối cảnh của các trường hợp sử dụng thực tế cụ thể. Trong những trường hợp như vậy, việc thu thập dữ liệu huấn luyện chuyên biệt trở nên cần thiết để cải thiện hiệu suất mô hình.

Chất lượng chú thích cũng đóng vai trò quan trọng. Chú thích thiết lập dữ liệu tham chiếu bằng cách chỉ định nhãn đối tượng chính xác và vị trí hộp giới hạn mà mô hình học cách dự đoán.

Đối với các vật thể nhỏ, các khung bao quanh phải được vẽ cẩn thận và nhất quán. Ngay cả những khác biệt nhỏ trong vị trí đặt khung cũng có thể ảnh hưởng đáng kể đến độ chính xác định vị vì các vật thể nhỏ rất nhạy cảm với những thay đổi ở cấp độ pixel.

Việc chú thích kém hoặc không nhất quán có thể làm giảm đáng kể mAP Nếu các đối tượng bị dán nhãn sai, mô hình sẽ học các mẫu không chính xác, điều này có thể làm tăng tỷ lệ dương tính giả. 

Nếu các đối tượng xuất hiện trong ảnh nhưng lại không có trong dữ liệu tham chiếu, các phát hiện chính xác có thể được tính là dương tính giả trong quá trình đánh giá. Cả hai trường hợp đều làm giảm hiệu suất tổng thể.

Điều thú vị là, nghiên cứu gần đây chỉ ra rằng độ chính xác trung bình đối với các vật thể nhỏ thường chỉ nằm trong khoảng từ 20% đến 40% trên các bộ dữ liệu chuẩn, thấp hơn đáng kể so với các vật thể lớn hơn. Khoảng cách này nhấn mạnh tầm quan trọng của thiết kế bộ dữ liệu và tính nhất quán trong chú thích đối với độ chính xác phát hiện tổng thể.

Việc tăng cường dữ liệu có thể đóng vai trò quan trọng trong việc cải thiện độ chính xác.

Với sự hiểu biết tốt hơn về tầm quan trọng của chất lượng tập dữ liệu và tính nhất quán của chú thích, chúng ta hãy cùng xem xét cách một mô hình phát hiện đối tượng có thể học hỏi hiệu quả hơn từ dữ liệu hiện có. Ngay cả khi việc thu thập thêm hình ảnh khó khăn hoặc tốn kém, vẫn có những cách để cải thiện hiệu suất bằng cách sử dụng tốt hơn dữ liệu đã có sẵn.

Một trong những phương pháp thực tiễn nhất là tăng cường dữ liệu . Phương pháp này đóng vai trò đặc biệt quan trọng trong phát hiện vật thể nhỏ vì các vật thể nhỏ cung cấp ít tín hiệu hình ảnh hơn để mô hình học hỏi. Bằng cách đưa ra các biến thể được kiểm soát trong quá trình huấn luyện, tăng cường dữ liệu giúp mô hình khái quát hóa tốt hơn mà không cần thu thập dữ liệu mới.

Việc tăng cường dữ liệu hiệu quả tập trung vào việc giữ cho các đối tượng nhỏ luôn hiển thị rõ ràng. Các kỹ thuật như thay đổi kích thước có kiểm soát, cắt xén nhẹ và ghép ảnh có thể làm cho các đối tượng nhỏ nổi bật hơn trong khi vẫn giữ nguyên hình dạng và vẻ ngoài của chúng. Mục tiêu là giúp mô hình nhận diện các đối tượng nhỏ thường xuyên hơn và trong các điều kiện hơi khác nhau, mà không làm thay đổi hình dạng thực tế của chúng. 

Tuy nhiên, việc tăng cường dữ liệu cần được áp dụng cẩn thận. Một số phép biến đổi có thể làm giảm khả năng hiển thị của các đối tượng nhỏ hoặc thay đổi hình dạng của chúng theo những cách khó có thể xảy ra trong dữ liệu thực. Khi điều này xảy ra, mô hình có thể gặp khó khăn trong việc học các ranh giới đối tượng chính xác.

Tăng cường dữ liệu thông minh hơn với trí tuệ nhân tạo tạo sinh

Một loại tăng cường dữ liệu thú vị khác đang ngày càng phổ biến là việc sử dụng trí tuệ nhân tạo tạo sinh (generative AI) để tạo ra dữ liệu huấn luyện tổng hợp. Thay vì dựa vào hình ảnh được thu thập và gắn nhãn thủ công, các nhóm giờ đây có thể tạo ra các cảnh thực tế mô phỏng các môi trường cụ thể, kích thước đối tượng, điều kiện ánh sáng và các biến thể nền.

Hình 2. Hình ảnh tổng quan về ảnh chụp từ trên không được tạo ra để tăng cường dữ liệu ( Nguồn )

Phương pháp này đặc biệt hữu ích cho việc phát hiện các vật thể nhỏ, nơi việc thu thập các ví dụ thực tế một cách nhất quán có thể khó khăn. Bằng cách kiểm soát cách các vật thể nhỏ xuất hiện trong hình ảnh tổng hợp, chẳng hạn như điều chỉnh tỷ lệ, mật độ và vị trí, có thể cho phép các mô hình tiếp xúc với nhiều kịch bản huấn luyện hơn. 

Khi được kết hợp cẩn thận với dữ liệu thực, việc tăng cường dữ liệu tổng hợp có thể cải thiện độ bền vững của mô hình, giảm chi phí thu thập dữ liệu và hỗ trợ các cải tiến hiệu suất có mục tiêu hơn.

Các lựa chọn huấn luyện mô hình có thể ảnh hưởng đến các đối tượng nhỏ mAP

Bên cạnh chất lượng dữ liệu và tính nhất quán của chú thích, các lựa chọn trong quá trình huấn luyện mô hình cũng có tác động mạnh mẽ đến hiệu suất phát hiện vật thể nhỏ.

Dưới đây là một số chiến lược đào tạo quan trọng cần xem xét:

  • Bắt đầu với các mô hình đã được huấn luyện sẵn: Một mô hình đã được huấn luyện sẵn, chẳng hạn như Ultralytics YOLO26 , đã học được các mẫu hình ảnh tổng quát từ các tập dữ liệu hình ảnh lớn. Điều này cung cấp một điểm khởi đầu mạnh mẽ thay vì phải huấn luyện từ đầu, đặc biệt hữu ích khi phát hiện các vật thể nhỏ với dữ liệu hạn chế.
  • Sử dụng học chuyển giao một cách chiến lược: Học chuyển giao nghĩa là điều chỉnh một mô hình đã được huấn luyện trước đó cho phù hợp với tập dữ liệu cụ thể của bạn. Nó giúp mô hình tập trung vào các đối tượng nhỏ của bạn đồng thời giảm thiểu hiện tượng quá khớp (ghi nhớ dữ liệu huấn luyện thay vì học các mẫu tổng quát).
  • Giải quyết sự mất cân bằng lớp: Nếu các đối tượng nhỏ xuất hiện ít thường xuyên hơn các đối tượng lớn, mô hình có thể ưu tiên học các đối tượng lớn hơn. Các kỹ thuật như trọng số lớp hoặc chiến lược lấy mẫu giúp đảm bảo các đối tượng nhỏ không bị bỏ qua.
  • Điều chỉnh ngưỡng độ tin cậy và IoU : Các vật thể nhỏ rất nhạy cảm với các lỗi định vị nhỏ. Việc tinh chỉnh các ngưỡng này giúp đánh giá và diễn giải tốt hơn hiệu suất của các vật thể nhỏ trong quá trình xác thực và suy luận.

Các yếu tố cần xem xét về kiến ​​trúc mô hình để phát hiện vật thể nhỏ

Mặc dù bạn có thể sử dụng mô hình phát hiện đối tượng tổng quát cho các tác vụ phát hiện đối tượng nhỏ, nhưng cũng có những kiến ​​trúc mô hình được thiết kế đặc biệt để cải thiện khả năng phát hiện đối tượng nhỏ. Ví dụ, có các biến thể mô hình P2 của mô hình Ultralytics YOLOv8 được tối ưu hóa để bảo toàn các chi tiết không gian nhỏ.

YOLOv8 Mô hình xử lý hình ảnh ở nhiều tỷ lệ khác nhau bằng cách thu nhỏ dần chúng khi di chuyển sâu hơn trong mạng lưới. Điều này giúp mô hình hiểu được toàn bộ khung cảnh, nhưng cũng làm giảm các chi tiết nhỏ.

Khi một vật thể đã rất nhỏ, thông tin thị giác quan trọng có thể biến mất trong quá trình này. Biến thể P2 của Ultralytics YOLOv8 Nó giải quyết vấn đề này bằng cách sử dụng bước nhảy 2 trong kim tự tháp tính năng của nó. 

Kim tự tháp đặc trưng là một phần của mô hình phân tích hình ảnh ở nhiều độ phân giải nội bộ khác nhau để nó có thể... detect các vật thể có kích thước khác nhau. Với bước nhảy 2, hình ảnh được thu nhỏ dần dần hơn ở giai đoạn này, cho phép bảo toàn nhiều chi tiết ở cấp độ pixel ban đầu hơn. 

Do chi tiết không gian được bảo toàn nhiều hơn, các vật thể nhỏ giữ được cấu trúc rõ ràng hơn bên trong mạng lưới. Điều này giúp mô hình dễ dàng định vị và xác định vị trí hơn. detect các đối tượng chỉ chiếm một vài pixel, điều này có thể giúp cải thiện các đối tượng nhỏ. mAP .

Đánh giá dựa trên kích thước để phát hiện vật thể nhỏ

Mặc dù độ chính xác trung bình (MAC) tóm tắt hiệu suất tổng thể của mô hình, nhưng nó không phải lúc nào cũng thể hiện được khả năng xử lý các đối tượng có kích thước khác nhau của mô hình. Đối với các đối tượng nhỏ, hiệu suất thường bị hạn chế bởi độ chính xác định vị hơn là chỉ riêng khả năng phân loại, có nghĩa là những thay đổi nhỏ trong khung giới hạn có thể ảnh hưởng đáng kể đến kết quả.

Nói cách khác, mô hình có thể xác định chính xác lớp của đối tượng, nhưng nếu hộp giới hạn dự đoán bị lệch nhẹ, việc phát hiện vẫn có thể bị coi là không chính xác. Bởi vì các đối tượng nhỏ chỉ bao phủ một số lượng pixel nhỏ, ngay cả một sự dịch chuyển nhỏ trong vị trí của hộp cũng có thể làm giảm đáng kể sự chồng chéo giữa hộp dự đoán và hộp thực tế. Kết quả là, điểm đánh giá có thể giảm ngay cả khi đối tượng được xác định chính xác.

Hình 3. Việc đánh giá khả năng phát hiện vật thể nhỏ có thể gặp khó khăn ( Nguồn )

Một cách tiếp cận mang tính thông tin hơn là đánh giá hiệu năng theo kích thước đối tượng. Hầu hết các tiêu chuẩn đánh giá hiệu năng được sử dụng rộng rãi đều báo cáo độ chính xác trung bình riêng biệt cho các đối tượng nhỏ, trung bình và lớn. 

Phân tích theo kích thước cụ thể này giúp ta hiểu rõ hơn mô hình hoạt động tốt ở đâu và gặp khó khăn ở đâu. Trên thực tế, AP vật thể nhỏ thường kém hơn so với khả năng xử lý ảnh tổng thể. mAP , làm nổi bật những thách thức trong việc bản địa hóa mà có thể không dễ nhận thấy trong các số liệu tổng hợp.

Hãy xem xét các hạn chế về triển khai và những đánh đổi thực tế.

Hiệu suất của mô hình thường thay đổi khi chuyển từ môi trường thử nghiệm được kiểm soát sang triển khai thực tế. Các yếu tố như độ phân giải hình ảnh, tốc độ xử lý và phần cứng sẵn có tạo ra những sự đánh đổi ảnh hưởng trực tiếp đến việc phát hiện các vật thể nhỏ.

Ví dụ, tăng độ phân giải đầu vào có thể cải thiện chất lượng hình ảnh của các vật thể nhỏ. mAP Vì các mục tiêu nhỏ chiếm nhiều pixel hơn và giữ lại nhiều chi tiết hơn. Tuy nhiên, độ phân giải cao hơn cũng làm tăng mức sử dụng bộ nhớ và thời gian xử lý. Điều này có thể làm chậm quá trình suy luận và tăng chi phí vận hành.

Hình 4. Những thách thức trong việc triển khai phát hiện vật thể nhỏ. Ảnh do tác giả cung cấp.

Việc lựa chọn phần cứng đóng vai trò quan trọng trong việc quản lý những sự đánh đổi này. GPU mạnh hơn cho phép tạo ra các mô hình lớn hơn và xử lý nhanh hơn, nhưng môi trường triển khai, đặc biệt là các thiết bị biên, thường có tài nguyên tính toán và bộ nhớ hạn chế. 

Các ứng dụng thời gian thực đặt ra một ràng buộc khác: duy trì độ trễ thấp có thể yêu cầu giảm kích thước mô hình hoặc độ phân giải đầu vào, điều này có thể ảnh hưởng tiêu cực đến khả năng nhận diện các đối tượng nhỏ. Cuối cùng, các quyết định triển khai cần phải cân bằng hiệu suất phát hiện với các hạn chế của phần cứng, yêu cầu về tốc độ và tổng chi phí. 

Tóm lại: Cải thiện mô hình mAP trên các vật nhỏ

Việc cải thiện khả năng phát hiện vật thể nhỏ đòi hỏi một phương pháp thực tiễn và có cấu trúc, đặc biệt là khi làm việc trong môi trường thực tế. Dưới đây là tổng quan về các bước chính cần ghi nhớ:

  • Kiểm tra chất lượng tập dữ liệu của bạn: Hãy chắc chắn rằng tập dữ liệu của bạn bao gồm đủ ví dụ về các vật thể nhỏ, sử dụng hình ảnh có độ phân giải cao khi có thể và phản ánh các điều kiện mà mô hình sẽ được triển khai.
  • Kiểm tra tính nhất quán của chú thích: Đảm bảo các khung giới hạn chính xác, đầy đủ và được dán nhãn nhất quán. Chú thích không nhất quán có thể trực tiếp hạn chế hiệu suất bản địa hóa.
  • Điều chỉnh các thiết lập huấn luyện một cách cẩn trọng: Điều chỉnh kích thước batch, số lượng epoch và các thiết lập tối ưu hóa một cách chu đáo để các đối tượng nhỏ được thể hiện đúng cách trong quá trình huấn luyện.
  • Lặp đi lặp lại từng bước: Thực hiện các điều chỉnh có kiểm soát, đo lường tác động của chúng và tinh chỉnh phương pháp của bạn. Việc lặp đi lặp lại đều đặn, dựa trên dữ liệu sẽ dẫn đến sự cải thiện nhất quán theo thời gian.

Những điều cần nhớ

Cải thiện mAP Đối với việc nhận dạng các vật thể nhỏ, cần có một phương pháp tiếp cận có cấu trúc, dựa trên dữ liệu thay vì những điều chỉnh ngẫu nhiên. Những cải tiến thực sự đến từ việc kết hợp dữ liệu tốt, chú thích nhất quán, huấn luyện cẩn thận và các phương pháp đánh giá phù hợp. Trong các dự án thực tế, việc thử nghiệm liên tục và những thay đổi nhỏ, có thể đo lường được là những yếu tố dẫn đến việc nhận dạng vật thể nhỏ tốt hơn và đáng tin cậy hơn theo thời gian.

Hãy tham gia cộng đồng đang phát triển của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu các tài nguyên AI thực tiễn. Để xây dựng ứng dụng AI thị giác ngay hôm nay, hãy tìm hiểu các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách AI trong nông nghiệp đang thay đổi ngành nông nghiệp và cách AI thị giác trong robot đang định hình tương lai bằng cách truy cập các trang giải pháp của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí