Khám phá khả năng phát hiện vật thể nhỏ với YOLO11

Máy bay không người lái tích hợp trí tuệ nhân tạo thị giác (Vision AI) có thể bay ở độ cao hàng trăm mét so với mặt đất, và vẫn được kỳ vọng sẽ hoạt động an toàn. detect Một người chỉ xuất hiện với vài điểm ảnh trong video của họ. Trên thực tế, đây là một thách thức phổ biến trong các ứng dụng như robot, giám sát và cảm biến từ xa, nơi các hệ thống phải xác định các đối tượng rất nhỏ trong một hình ảnh.

Tuy nhiên, các mô hình phát hiện đối tượng truyền thống thường gặp khó khăn trong việc này. Các đối tượng nhỏ trong hình ảnh và video chỉ chứa rất ít thông tin trực quan. Nói một cách đơn giản, khi mô hình nhìn vào chúng, không có nhiều chi tiết để học hỏi hoặc nhận dạng.

Về cơ bản, các mô hình này thường dựa trên kiến trúc mạng nơ-ron tích chập (CNN). Hình ảnh được truyền qua các lớp của mạng và được chuyển đổi thành bản đồ đặc trưng hoặc các biểu diễn đơn giản hóa làm nổi bật các mẫu liên quan thay vì các điểm ảnh thô.

Khi hình ảnh được xử lý sâu hơn trong mạng lưới, các bản đồ đặc trưng này sẽ nhỏ dần. Điều đó giúp quá trình tính toán nhanh hơn, nhưng cũng có nghĩa là các chi tiết nhỏ có thể biến mất.

Đối với các vật thể nhỏ, những chi tiết đó rất quan trọng. Khi những chi tiết đó biến mất, mô hình thị giác máy tính có thể gặp khó khăn trong việc phát hiện vật thể, dẫn đến các khung bao không chính xác hoặc không nhất quán.

Các hệ thống thị giác máy tính đầu cuối thời gian thực thậm chí còn làm cho vấn đề này trở nên phức tạp hơn. Hình ảnh độ phân giải cao giúp bảo toàn chi tiết, nhưng chúng làm chậm quá trình suy luận và đòi hỏi nhiều tài nguyên hơn. GPU công suất. Độ phân giải thấp hơn chạy nhanh hơn, nhưng các vật thể nhỏ sẽ khó xử lý hơn. detect .

Việc cân bằng giữa tốc độ, độ chính xác và giới hạn phần cứng trở thành một quá trình liên tục. Nhờ những tiến bộ công nghệ gần đây, các mô hình thị giác máy tính như Ultralytics YOLO11 và Ultralytics YOLO26 sắp ra mắt được thiết kế để quản lý sự đánh đổi này hiệu quả hơn.

Hình 1. Sử dụng YOLO11 ĐẾN detect Các vật thể nhỏ trong ảnh chụp từ trên không ( Nguồn )

‍

Trong bài viết này, chúng ta sẽ tìm hiểu lý do tại sao việc phát hiện vật thể nhỏ lại khó khăn và cách thực hiện điều đó. YOLO11 Có thể làm cho mọi việc dễ dàng hơn. Bắt đầu nào!

Phát hiện vật thể nhỏ là gì và tại sao nó lại quan trọng?

Phát hiện vật thể nhỏ là một nhiệm vụ trong thị giác máy tính, một nhánh của trí tuệ nhân tạo, tập trung vào việc xác định và định vị các vật thể chiếm một phần rất nhỏ trong hình ảnh. Những vật thể này thường được biểu diễn trong hình ảnh bằng một số lượng pixel hạn chế, là đơn vị nhỏ nhất của hình ảnh kỹ thuật số. Điều này khiến việc xác định vị trí của chúng trở nên khó khăn hơn. detect so với các mục tiêu lớn hơn và rõ nét hơn (thường chứa nhiều điểm ảnh hơn).

Ví dụ, các phương tiện trong ảnh chụp từ trên không, các công cụ trên sàn nhà máy, hoặc người được camera giám sát góc rộng ghi lại, đều có thể xuất hiện dưới dạng các vật thể nhỏ trong hình ảnh. Việc phát hiện chúng rất quan trọng vì chúng thường mang thông tin quan trọng, và nhiều ứng dụng thực tế, chẳng hạn như giám sát, phụ thuộc vào việc phát hiện này để hoạt động chính xác.

Khi bỏ sót các vật thể nhỏ, hiệu suất hệ thống và khả năng ra quyết định có thể bị ảnh hưởng. Giám sát bằng máy bay không người lái (UAV) là một ví dụ điển hình, trong đó việc bỏ sót một vật thể nhỏ di chuyển trên mặt đất có thể ảnh hưởng đến độ chính xác của điều hướng hoặc theo dõi.

Những thách thức liên quan đến việc phát hiện các vật thể nhỏ

Các hệ thống trước đây sử dụng các đặc trưng được tạo thủ công và các phương pháp thị giác máy tính truyền thống, gặp khó khăn trong các cảnh phức tạp hoặc đa dạng. Ngay cả ngày nay, với các mô hình học sâu hoạt động tốt hơn nhiều, việc phát hiện các mục tiêu nhỏ vẫn khó khăn khi chúng chỉ chiếm một phần rất nhỏ của hình ảnh.

Tiếp theo, chúng ta hãy xem xét một số thách thức phổ biến xuất hiện trong các tình huống thực tế khác nhau khi phát hiện các vật thể nhỏ.

Kích thước, pixel và mất mát thông tin

Các vật thể nhỏ chứa rất ít pixel, điều này hạn chế lượng chi tiết hình ảnh mà mô hình có thể học được trong các giai đoạn như trích xuất đặc trưng. Do đó, các mẫu như cạnh, hình dạng và kết cấu khó nhận biết hơn. detect Điều này khiến các vật thể nhỏ dễ bị lẫn vào môi trường xung quanh hơn.

Khi hình ảnh di chuyển qua các lớp tích chập của mạng nơ-ron, thông tin hình ảnh trong các điểm ảnh dần được nén lại thành các bản đồ đặc trưng. Điều này giúp mô hình duy trì hiệu quả, nhưng cũng có nghĩa là các chi tiết nhỏ sẽ bị mờ đi.

Hình 2. Bản đồ đặc trưng thể hiện các mẫu hình ảnh trực quan ( Nguồn )

‍

Đối với các mục tiêu nhỏ, các tín hiệu quan trọng có thể biến mất trước khi mạng lưới phát hiện có cơ hội hoạt động. Khi điều đó xảy ra, khả năng định vị trở nên kém tin cậy hơn, và các khung bao quanh có thể bị dịch chuyển, chồng chéo hoặc bỏ sót hoàn toàn các đối tượng mục tiêu.

Sự che khuất, sự khác biệt về tỷ lệ và ngữ cảnh

Các thách thức liên quan đến kích thước cũng thường nảy sinh do hiện tượng che khuất. Che khuất xảy ra khi các đối tượng, đặc biệt là các đối tượng nhỏ hơn, bị che khuất một phần bởi các đối tượng khác trong khung cảnh.

Điều này làm giảm diện tích hiển thị của mục tiêu, hạn chế thông tin có sẵn cho bộ phát hiện đối tượng. Ngay cả một sự che khuất nhỏ cũng có thể gây nhầm lẫn cho các mạng phát hiện, đặc biệt khi kết hợp với đầu vào có độ phân giải thấp. Một ví dụ thú vị về điều này có thể thấy trong các bộ dữ liệu UAV như VisDrone , nơi người đi bộ, xe đạp hoặc phương tiện giao thông có thể bị che khuất một phần bởi các tòa nhà, cây cối hoặc các vật thể chuyển động khác.

Hình 3. Một ví dụ từ bộ dữ liệu VisDrone cho thấy các vật thể nhỏ ( Nguồn )

‍

Tương tự, sự thay đổi về kích thước tạo ra một lớp khó khăn khác khi cùng một vật thể xuất hiện rất nhỏ hoặc tương đối lớn tùy thuộc vào khoảng cách và vị trí của camera. Mặc dù gặp phải những trở ngại này, các thuật toán phát hiện vẫn phải nhận dạng được các vật thể nhỏ này ở các kích thước khác nhau mà không làm giảm độ chính xác.

Bối cảnh cũng đóng vai trò quan trọng trong việc phát hiện. Ví dụ, các vật thể lớn thường xuất hiện trong môi trường xung quanh rõ ràng, cung cấp các manh mối trực quan hữu ích. Mặt khác, các mục tiêu nhỏ thường thiếu thông tin bối cảnh này, khiến việc nhận dạng mẫu trở nên khó khăn hơn.

Vấn đề ẩn về chỉ số đo trong phát hiện vật thể nhỏ

Các chỉ số đánh giá phổ biến, chẳng hạn như Intersection over Union ( IoU ) , đo lường mức độ trùng khớp giữa hộp giới hạn được dự đoán và hộp giới hạn thực tế. Trong khi đó, IoU Nó hoạt động tốt với các vật thể lớn, nhưng lại có hành vi hoàn toàn khác đối với các vật thể nhỏ.

Các vật thể nhỏ chỉ chiếm vài pixel, vì vậy ngay cả một sự dịch chuyển nhỏ trong khung dự đoán cũng có thể tạo ra sai số tỷ lệ lớn và làm giảm mạnh độ chính xác. IoU điểm số. Điều này có nghĩa là các vật nhỏ thường không đạt tiêu chuẩn. IoU Ngưỡng được sử dụng để coi một dự đoán là chính xác, ngay cả khi đối tượng hiển thị trong hình ảnh.

Do đó, các lỗi định vị có nhiều khả năng được phân loại là dương tính giả hoặc âm tính giả. Những hạn chế này đã thúc đẩy các nhà nghiên cứu xem xét lại cách các hệ thống phát hiện đối tượng đánh giá và xử lý các đối tượng nhỏ, khó xác định vị trí. detect mục tiêu.

Các đặc điểm đa tỷ lệ: Chìa khóa để phát hiện vật thể nhỏ trong thời gian thực

Trong quá trình các nhà nghiên cứu nỗ lực cải thiện khả năng phát hiện vật thể nhỏ, rõ ràng việc bảo tồn và biểu diễn thông tin hình ảnh trên nhiều tỷ lệ khác nhau là vô cùng quan trọng. Nhận định này được thể hiện rõ trong các nghiên cứu gần đây trên arXiv và trong các bài báo được trình bày tại các hội nghị như Hội nghị Quốc tế IEEE và Hiệp hội Thị giác Máy tính Châu Âu (ECCV).

Khi hình ảnh được xử lý sâu hơn trong mạng nơ-ron, các vật thể nhỏ có thể mất chi tiết hoặc biến mất hoàn toàn, đó là lý do tại sao các mô hình thị giác máy tính hiện đại như YOLO11 Tập trung mạnh vào việc trích xuất đặc trưng tốt hơn. Tiếp theo, chúng ta hãy cùng tìm hiểu các khái niệm cốt lõi đằng sau bản đồ đặc trưng và mạng kim tự tháp đặc trưng để hiểu rõ hơn về chúng.

Bản đồ đặc trưng và biểu diễn theo tỷ lệ

Khi một ảnh đầu vào, chẳng hạn như ảnh viễn thám, được đưa vào mạng nơ-ron, nó sẽ dần được biến đổi thành các bản đồ đặc trưng. Đây là những biểu diễn đơn giản hóa của ảnh, làm nổi bật các mẫu hình ảnh như cạnh, hình dạng và kết cấu.

Khi mạng lưới càng sâu, kích thước không gian của các bản đồ đặc trưng càng nhỏ. Việc giảm kích thước này giúp mô hình hoạt động hiệu quả hơn và tập trung vào thông tin cấp cao. Tuy nhiên, việc thu nhỏ và làm sâu các bản đồ đặc trưng cũng làm giảm chi tiết không gian.

Hình 4. Trích xuất đặc trưng là yếu tố then chốt trong phát hiện vật thể nhỏ. ( Nguồn )

‍

Trong khi các vật thể lớn vẫn giữ đủ thông tin hình ảnh để phát hiện chính xác, các mục tiêu nhỏ có thể mất các chi tiết quan trọng chỉ sau một vài lớp mạng. Khi điều này xảy ra, mô hình có thể gặp khó khăn trong việc nhận ra sự tồn tại của một vật thể nhỏ. Đây là một trong những lý do chính khiến các vật thể nhỏ bị bỏ sót trong các mô hình phát hiện vật thể sâu.

Mạng kim tự tháp đặc trưng và học tập đa quy mô

Mạng kim tự tháp đặc trưng , thường được gọi là FPN, được giới thiệu để giải quyết vấn đề mất chi tiết không gian, và chúng hoạt động như một mô-đun hỗ trợ kết hợp thông tin từ nhiều lớp để các mô hình có thể... detect xử lý các đối tượng nhỏ hiệu quả hơn. Quá trình này còn được gọi là tổng hợp đặc trưng và hợp nhất đặc trưng.

Các lớp nông cung cấp các chi tiết không gian tinh tế, trong khi các lớp sâu hơn bổ sung ngữ cảnh ngữ nghĩa, cho phép học đặc trưng đa tỷ lệ hiệu quả. Không giống như phương pháp lấy mẫu tăng cường đơn giản chỉ phóng to bản đồ đặc trưng, FPN bảo toàn thông tin có ý nghĩa và cải thiện khả năng phát hiện đối tượng nhỏ.

Các phương pháp hiện đại xây dựng dựa trên ý tưởng này bằng cách sử dụng sự kết hợp đặc trưng thích ứng và thiết kế nhận biết ngữ cảnh để tăng cường hơn nữa khả năng phát hiện các mục tiêu nhỏ. Nói cách khác, FPN giúp các mô hình nhìn thấy cả bức tranh tổng thể và các chi tiết nhỏ cùng một lúc. Sự tối ưu hóa này rất cần thiết khi các đối tượng có kích thước nhỏ.

Các mô hình phát hiện đối tượng đã phát triển như thế nào để xử lý các đối tượng nhỏ?

Dưới đây là một cái nhìn thoáng qua về cách các mô hình phát hiện đối tượng đã phát triển và tiến bộ theo thời gian. detect Các vật thể có kích thước khác nhau sẽ rõ nét hơn, kể cả những vật rất nhỏ:

Các phương pháp phát hiện sớm: Các phương pháp phát hiện đối tượng ban đầu dựa vào các đặc điểm được thiết kế thủ công và các thuật toán dựa trên quy tắc bắt nguồn từ xử lý ảnh cổ điển. Vì các đặc điểm này là cố định, hiệu suất giảm dần với các hình ảnh khác nhau.
Giới thiệu về học máy và học sâu: Việc áp dụng học máy và học sâu đánh dấu một bước ngoặt lớn trong nghiên cứu phát hiện đối tượng. Thay vì dựa vào các quy tắc được định sẵn, mạng nơ-ron học được các biểu diễn hình ảnh trực tiếp từ dữ liệu huấn luyện, cải thiện khả năng thích ứng với các kích thước đối tượng và bối cảnh khác nhau.
Mạng tích chập: Các mạng nơ-ron này học cách nhận biết các mẫu trong hình ảnh. Mỗi lớp thu nhận các chi tiết khác nhau, bắt đầu từ các cạnh và màu sắc đơn giản, sau đó là hình dạng, và cuối cùng là toàn bộ đối tượng, khiến chúng trở nên thiết yếu đối với thị giác máy tính hiện đại.
Các thuật toán phát hiện đối tượng hai giai đoạn: Các thuật toán phát hiện hai giai đoạn, chẳng hạn như Faster R-CNN, được giới thiệu bởi Girshick và Ren, trước tiên tạo ra các vùng ứng cử viên và sau đó phân loại chúng. Cách tiếp cận này cải thiện độ chính xác đối với các đối tượng nhỏ nhưng làm tăng chi phí tính toán và giảm hiệu suất thời gian thực.
Máy dò vật thể một giai đoạn: Máy dò một giai đoạn, chẳng hạn như SSD (Single-Shot Detector) và... YOLO Các phần mềm thuộc dòng (You Only Look Once), bao gồm YOLOv3, Ultralytics YOLOv5 và sau này là Ultralytics YOLOv8 , thực hiện phát hiện chỉ trong một lần xử lý. Thiết kế này cải thiện đáng kể tốc độ suy luận trong khi vẫn duy trì độ chính xác cạnh tranh.
Các mô hình tiên tiến nhất hiện nay: Các mô hình phát hiện đối tượng mới hơn tập trung mạnh hơn vào hiệu suất thời gian thực và triển khai tại biên. Gần đây Ultralytics YOLO giấy phép sử dụng hình ảnh, chẳng hạn như Ultralytics YOLO11 và sắp tới Ultralytics Các chip YOLO26 được thiết kế để cân bằng giữa độ chính xác cao và độ trễ suy luận thấp, giúp chúng phù hợp để phát hiện các vật thể có kích thước khác nhau, bao gồm cả các mục tiêu nhỏ, trên các thiết bị có sức mạnh tính toán hạn chế.

Sử dụng YOLO11 cho các trường hợp sử dụng phát hiện vật thể nhỏ

Giờ đây, khi chúng ta đã hiểu rõ hơn về cách thức hoạt động của việc phát hiện vật thể nhỏ, hãy cùng xem xét một vài ứng dụng thực tế trong đó. YOLO11 có thể áp dụng.

UAV và chụp ảnh trên không

Hãy tưởng tượng một chiếc máy bay không người lái đang bay cao trên một con phố đông đúc. Từ độ cao đó, ô tô, xe đạp, và thậm chí cả người đi bộ chỉ còn là vài điểm ảnh trên màn hình.

UAV và các mô-đun chụp ảnh trên không thường ghi lại những cảnh như thế này, trong đó các đối tượng cần quan tâm rất nhỏ và được bao quanh bởi phông nền lộn xộn, điều này gây khó khăn cho các mô hình thị giác máy tính trong việc xử lý chúng. detect .

Trong những trường hợp này, YOLO11 có thể là một lựa chọn mô hình lý tưởng. Ví dụ, một máy bay không người lái được trang bị mô hình như YOLO11 Hệ thống có thể giám sát giao thông trong thời gian thực, phát hiện các phương tiện, người đi xe đạp và người đi bộ khi chúng di chuyển trong khung hình, ngay cả khi mỗi đối tượng chỉ chiếm một phần nhỏ của hình ảnh. Điều này cho phép đưa ra quyết định nhanh hơn và có được những hiểu biết chính xác hơn trong các ứng dụng như quản lý giao thông, an ninh công cộng hoặc quy hoạch đô thị.

Robot và tự động hóa

Robot thường được sử dụng trong môi trường mà độ chính xác và thời gian là vô cùng quan trọng. Trong các môi trường như nhà kho, nhà máy và trang trại, robot có thể cần nhận dạng các vật thể rất nhỏ, chẳng hạn như một bộ phận trên dây chuyền lắp ráp, nhãn trên bao bì hoặc một chồi cây nhỏ trên cánh đồng, và phản hồi nhanh chóng.

Việc phát hiện các vật thể có kích thước này có thể rất phức tạp, đặc biệt khi chúng chỉ xuất hiện dưới dạng vài pixel trong hình ảnh camera hoặc bị che khuất một phần bởi các vật thể khác. Bỏ sót những chi tiết nhỏ này có thể làm chậm quá trình tự động hóa hoặc ảnh hưởng đến khả năng hoàn thành nhiệm vụ của robot.

YOLO11 có thể tạo ra sự khác biệt trong những tình huống này. Khả năng trích xuất đặc trưng được cải tiến và suy luận nhanh chóng cho phép robot detect Các vật thể nhỏ được nhận diện trong thời gian thực và phản hồi ngay lập tức.

YOLO11 Nó cũng hỗ trợ phân đoạn đối tượng, giúp robot hiểu rõ hơn về ranh giới đối tượng và điểm nắm bắt, thay vì chỉ xác định các hộp giới hạn chung. Ví dụ, một cánh tay robot tích hợp với YOLO11 có thể phát hiện các linh kiện nhỏ trên băng chuyền. segment Ghi nhớ hình dạng chính xác của chúng và nhặt chúng lên trước khi chúng di chuyển ra khỏi tầm với, giúp hệ thống duy trì hiệu quả và độ tin cậy.

Điều gì tạo nên YOLO11 hiệu quả trong việc phát hiện vật thể nhỏ

Với rất nhiều mô hình thị giác máy tính hiện có, bạn có thể tự hỏi điều gì tạo nên sự khác biệt giữa chúng. Ultralytics YOLO11 nổi bật.

Dưới đây là một vài lý do tại sao Ultralytics YOLO11 Đây là một lựa chọn tuyệt vời cho các ứng dụng cần phát hiện các vật thể nhỏ:

Trích xuất đặc trưng tốt hơn : YOLO11 Sử dụng kiến trúc khung và cổ được cải tiến để tăng cường khả năng trích xuất đặc trưng, cho phép phát hiện đối tượng chính xác hơn.
Hệ sinh thái và tính dễ sử dụng : Gói Python Ultralytics là một thư viện cung cấp các chức năng tích hợp sẵn để tải, huấn luyện, xác thực và triển khai các mô hình như... YOLO11 Vì các quy trình này chỉ yêu cầu một vài dòng mã, các nhóm có thể nhanh chóng thử nghiệm và tinh chỉnh các mô hình để phát hiện các vật thể nhỏ.
Tối ưu hóa cho triển khai tại biên mạng : YOLO11 có thể hoạt động hiệu quả trên các thiết bị biên như NVIDIA Jetson, Raspberry Pi và các hệ thống camera công nghiệp. Nói một cách đơn giản, nó cho phép thực hiện các tác vụ Trí tuệ Nhân tạo Thị giác theo thời gian thực trực tiếp trên thiết bị.

Các chiến lược thực tiễn cần sử dụng khi phát hiện các vật thể nhỏ bằng YOLO11

Ngoài việc sử dụng một mô hình như YOLO11 Cách bạn chuẩn bị chú thích, tập dữ liệu tổng thể và quy trình huấn luyện mô hình có thể tạo ra sự khác biệt đáng kể về hiệu suất phát hiện.

Dưới đây là tổng quan nhanh về những điều cần tập trung vào:

Tăng cường dữ liệu đúng cách: Việc tăng cường dữ liệu ở mức độ nhẹ, chẳng hạn như thu phóng hoặc cắt xén, có thể giúp mô hình khái quát hóa tốt hơn với các hình ảnh mới. Tuy nhiên, việc tăng cường dữ liệu quy mô lớn quá mức có thể làm biến dạng hoặc loại bỏ các đối tượng nhỏ, khiến mô hình khó học hơn.
Phân tích các trường hợp lỗi: Việc phân tích xem mô hình bỏ sót hoặc nhận dạng sai đối tượng ở đâu giúp tạo ra một đường cơ sở và tiết lộ liệu vấn đề bắt nguồn từ tập dữ liệu, thông tin bị mất trong quá trình trích xuất đặc trưng hay cần điều chỉnh cài đặt huấn luyện.
Thành phần tập dữ liệu: Tập dữ liệu của bạn nên chứa đủ ví dụ về các đối tượng nhỏ để mô hình có thể học được các mẫu có ý nghĩa, và nó phải được cân bằng để các đối tượng lớn hơn không làm lu mờ các đối tượng nhỏ hơn trong quá trình huấn luyện.

Những điều cần nhớ

Việc phát hiện các vật thể nhỏ rất khó khăn vì các mục tiêu nhỏ bị mất chi tiết khi hình ảnh được xử lý qua mô hình thị giác máy tính. YOLO11 Cải thiện khả năng bảo toàn các chi tiết này, giúp phát hiện vật thể nhỏ đáng tin cậy hơn mà không làm giảm hiệu suất thời gian thực. Sự cân bằng này cho phép YOLO11 Nhằm hỗ trợ việc phát hiện chính xác và hiệu quả trong các ứng dụng thực tế.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Khám phá những đổi mới như thị giác máy tính trong bán lẻ và AI trong ngành công nghiệp ô tô bằng cách truy cập các trang giải pháp của chúng tôi. Để bắt đầu xây dựng với thị giác máy tính ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi.

Khám phá khả năng phát hiện vật thể nhỏ với Ultralytics YOLO11

Phát hiện vật thể nhỏ là gì và tại sao nó lại quan trọng?