Khám phá khả năng phát hiện vật thể nhỏ với Ultralytics YOLO11
Khám phá cách thức Ultralytics YOLO11 Cung cấp khả năng phát hiện vật thể nhỏ nhanh chóng và chính xác trong các ứng dụng thực tế như giám sát và robot.

Khám phá cách thức Ultralytics YOLO11 Cung cấp khả năng phát hiện vật thể nhỏ nhanh chóng và chính xác trong các ứng dụng thực tế như giám sát và robot.

Máy bay không người lái tích hợp trí tuệ nhân tạo thị giác (Vision AI) có thể bay ở độ cao hàng trăm mét so với mặt đất, và vẫn được kỳ vọng sẽ hoạt động an toàn. detect Một người chỉ xuất hiện với vài điểm ảnh trong video của họ. Trên thực tế, đây là một thách thức phổ biến trong các ứng dụng như robot, giám sát và cảm biến từ xa, nơi các hệ thống phải xác định các đối tượng rất nhỏ trong một hình ảnh.
Tuy nhiên, các mô hình phát hiện đối tượng truyền thống thường gặp khó khăn trong việc này. Các đối tượng nhỏ trong hình ảnh và video chỉ chứa rất ít thông tin trực quan. Nói một cách đơn giản, khi mô hình nhìn vào chúng, không có nhiều chi tiết để học hỏi hoặc nhận dạng.
Về cơ bản, các mô hình này thường dựa trên kiến trúc mạng nơ-ron tích chập (CNN). Hình ảnh được truyền qua các lớp của mạng và được chuyển đổi thành bản đồ đặc trưng hoặc các biểu diễn đơn giản hóa làm nổi bật các mẫu liên quan thay vì các điểm ảnh thô.
Khi hình ảnh được xử lý sâu hơn trong mạng lưới, các bản đồ đặc trưng này sẽ nhỏ dần. Điều đó giúp quá trình tính toán nhanh hơn, nhưng cũng có nghĩa là các chi tiết nhỏ có thể biến mất.
Đối với các vật thể nhỏ, những chi tiết đó rất quan trọng. Khi những chi tiết đó biến mất, mô hình thị giác máy tính có thể gặp khó khăn trong việc phát hiện vật thể, dẫn đến các khung bao không chính xác hoặc không nhất quán.
Các hệ thống thị giác máy tính đầu cuối thời gian thực thậm chí còn làm cho vấn đề này trở nên phức tạp hơn. Hình ảnh độ phân giải cao giúp bảo toàn chi tiết, nhưng chúng làm chậm quá trình suy luận và đòi hỏi nhiều tài nguyên hơn. GPU công suất. Độ phân giải thấp hơn chạy nhanh hơn, nhưng các vật thể nhỏ sẽ khó xử lý hơn. detect .
Việc cân bằng giữa tốc độ, độ chính xác và giới hạn phần cứng trở thành một quá trình liên tục. Nhờ những tiến bộ công nghệ gần đây, các mô hình thị giác máy tính như Ultralytics YOLO11 và Ultralytics YOLO26 sắp ra mắt được thiết kế để quản lý sự đánh đổi này hiệu quả hơn.

Trong bài viết này, chúng ta sẽ tìm hiểu lý do tại sao việc phát hiện vật thể nhỏ lại khó khăn và cách thực hiện điều đó. YOLO11 Có thể làm cho mọi việc dễ dàng hơn. Bắt đầu nào!
Phát hiện vật thể nhỏ là một nhiệm vụ trong thị giác máy tính, một nhánh của trí tuệ nhân tạo, tập trung vào việc xác định và định vị các vật thể chiếm một phần rất nhỏ trong hình ảnh. Những vật thể này thường được biểu diễn trong hình ảnh bằng một số lượng pixel hạn chế, là đơn vị nhỏ nhất của hình ảnh kỹ thuật số. Điều này khiến việc xác định vị trí của chúng trở nên khó khăn hơn. detect so với các mục tiêu lớn hơn và rõ nét hơn (thường chứa nhiều điểm ảnh hơn).
Ví dụ, các phương tiện trong ảnh chụp từ trên không, các công cụ trên sàn nhà máy, hoặc người được camera giám sát góc rộng ghi lại, đều có thể xuất hiện dưới dạng các vật thể nhỏ trong hình ảnh. Việc phát hiện chúng rất quan trọng vì chúng thường mang thông tin quan trọng, và nhiều ứng dụng thực tế, chẳng hạn như giám sát, phụ thuộc vào việc phát hiện này để hoạt động chính xác.
Khi bỏ sót các vật thể nhỏ, hiệu suất hệ thống và khả năng ra quyết định có thể bị ảnh hưởng. Giám sát bằng máy bay không người lái (UAV) là một ví dụ điển hình, trong đó việc bỏ sót một vật thể nhỏ di chuyển trên mặt đất có thể ảnh hưởng đến độ chính xác của điều hướng hoặc theo dõi.
Các hệ thống trước đây sử dụng các đặc trưng được tạo thủ công và các phương pháp thị giác máy tính truyền thống, gặp khó khăn trong các cảnh phức tạp hoặc đa dạng. Ngay cả ngày nay, với các mô hình học sâu hoạt động tốt hơn nhiều, việc phát hiện các mục tiêu nhỏ vẫn khó khăn khi chúng chỉ chiếm một phần rất nhỏ của hình ảnh.
Tiếp theo, chúng ta hãy xem xét một số thách thức phổ biến xuất hiện trong các tình huống thực tế khác nhau khi phát hiện các vật thể nhỏ.
Các vật thể nhỏ chứa rất ít pixel, điều này hạn chế lượng chi tiết hình ảnh mà mô hình có thể học được trong các giai đoạn như trích xuất đặc trưng. Do đó, các mẫu như cạnh, hình dạng và kết cấu khó nhận biết hơn. detect Điều này khiến các vật thể nhỏ dễ bị lẫn vào môi trường xung quanh hơn.
Khi hình ảnh di chuyển qua các lớp tích chập của mạng nơ-ron, thông tin hình ảnh trong các điểm ảnh dần được nén lại thành các bản đồ đặc trưng. Điều này giúp mô hình duy trì hiệu quả, nhưng cũng có nghĩa là các chi tiết nhỏ sẽ bị mờ đi.

Đối với các mục tiêu nhỏ, các tín hiệu quan trọng có thể biến mất trước khi mạng lưới phát hiện có cơ hội hoạt động. Khi điều đó xảy ra, khả năng định vị trở nên kém tin cậy hơn, và các khung bao quanh có thể bị dịch chuyển, chồng chéo hoặc bỏ sót hoàn toàn các đối tượng mục tiêu.
Các thách thức liên quan đến kích thước cũng thường nảy sinh do hiện tượng che khuất. Che khuất xảy ra khi các đối tượng, đặc biệt là các đối tượng nhỏ hơn, bị che khuất một phần bởi các đối tượng khác trong khung cảnh.
Điều này làm giảm diện tích hiển thị của mục tiêu, hạn chế thông tin có sẵn cho bộ phát hiện đối tượng. Ngay cả một sự che khuất nhỏ cũng có thể gây nhầm lẫn cho các mạng phát hiện, đặc biệt khi kết hợp với đầu vào có độ phân giải thấp. Một ví dụ thú vị về điều này có thể thấy trong các bộ dữ liệu UAV như VisDrone , nơi người đi bộ, xe đạp hoặc phương tiện giao thông có thể bị che khuất một phần bởi các tòa nhà, cây cối hoặc các vật thể chuyển động khác.

Tương tự, sự thay đổi về kích thước tạo ra một lớp khó khăn khác khi cùng một vật thể xuất hiện rất nhỏ hoặc tương đối lớn tùy thuộc vào khoảng cách và vị trí của camera. Mặc dù gặp phải những trở ngại này, các thuật toán phát hiện vẫn phải nhận dạng được các vật thể nhỏ này ở các kích thước khác nhau mà không làm giảm độ chính xác.
Bối cảnh cũng đóng vai trò quan trọng trong việc phát hiện. Ví dụ, các vật thể lớn thường xuất hiện trong môi trường xung quanh rõ ràng, cung cấp các manh mối trực quan hữu ích. Mặt khác, các mục tiêu nhỏ thường thiếu thông tin bối cảnh này, khiến việc nhận dạng mẫu trở nên khó khăn hơn.
Các chỉ số đánh giá phổ biến, chẳng hạn như Intersection over Union ( IoU ) , đo lường mức độ trùng khớp giữa hộp giới hạn được dự đoán và hộp giới hạn thực tế. Trong khi đó, IoU Nó hoạt động tốt với các vật thể lớn, nhưng lại có hành vi hoàn toàn khác đối với các vật thể nhỏ.
Các vật thể nhỏ chỉ chiếm vài pixel, vì vậy ngay cả một sự dịch chuyển nhỏ trong khung dự đoán cũng có thể tạo ra sai số tỷ lệ lớn và làm giảm mạnh độ chính xác. IoU điểm số. Điều này có nghĩa là các vật nhỏ thường không đạt tiêu chuẩn. IoU Ngưỡng được sử dụng để coi một dự đoán là chính xác, ngay cả khi đối tượng hiển thị trong hình ảnh.
Do đó, các lỗi định vị có nhiều khả năng được phân loại là dương tính giả hoặc âm tính giả. Những hạn chế này đã thúc đẩy các nhà nghiên cứu xem xét lại cách các hệ thống phát hiện đối tượng đánh giá và xử lý các đối tượng nhỏ, khó xác định vị trí. detect mục tiêu.
Trong quá trình các nhà nghiên cứu nỗ lực cải thiện khả năng phát hiện vật thể nhỏ, rõ ràng việc bảo tồn và biểu diễn thông tin hình ảnh trên nhiều tỷ lệ khác nhau là vô cùng quan trọng. Nhận định này được thể hiện rõ trong các nghiên cứu gần đây trên arXiv và trong các bài báo được trình bày tại các hội nghị như Hội nghị Quốc tế IEEE và Hiệp hội Thị giác Máy tính Châu Âu (ECCV).
Khi hình ảnh được xử lý sâu hơn trong mạng nơ-ron, các vật thể nhỏ có thể mất chi tiết hoặc biến mất hoàn toàn, đó là lý do tại sao các mô hình thị giác máy tính hiện đại như YOLO11 Tập trung mạnh vào việc trích xuất đặc trưng tốt hơn. Tiếp theo, chúng ta hãy cùng tìm hiểu các khái niệm cốt lõi đằng sau bản đồ đặc trưng và mạng kim tự tháp đặc trưng để hiểu rõ hơn về chúng.
Khi một ảnh đầu vào, chẳng hạn như ảnh viễn thám, được đưa vào mạng nơ-ron, nó sẽ dần được biến đổi thành các bản đồ đặc trưng. Đây là những biểu diễn đơn giản hóa của ảnh, làm nổi bật các mẫu hình ảnh như cạnh, hình dạng và kết cấu.
Khi mạng lưới càng sâu, kích thước không gian của các bản đồ đặc trưng càng nhỏ. Việc giảm kích thước này giúp mô hình hoạt động hiệu quả hơn và tập trung vào thông tin cấp cao. Tuy nhiên, việc thu nhỏ và làm sâu các bản đồ đặc trưng cũng làm giảm chi tiết không gian.

Trong khi các vật thể lớn vẫn giữ đủ thông tin hình ảnh để phát hiện chính xác, các mục tiêu nhỏ có thể mất các chi tiết quan trọng chỉ sau một vài lớp mạng. Khi điều này xảy ra, mô hình có thể gặp khó khăn trong việc nhận ra sự tồn tại của một vật thể nhỏ. Đây là một trong những lý do chính khiến các vật thể nhỏ bị bỏ sót trong các mô hình phát hiện vật thể sâu.
Mạng kim tự tháp đặc trưng , thường được gọi là FPN, được giới thiệu để giải quyết vấn đề mất chi tiết không gian, và chúng hoạt động như một mô-đun hỗ trợ kết hợp thông tin từ nhiều lớp để các mô hình có thể... detect xử lý các đối tượng nhỏ hiệu quả hơn. Quá trình này còn được gọi là tổng hợp đặc trưng và hợp nhất đặc trưng.
Các lớp nông cung cấp các chi tiết không gian tinh tế, trong khi các lớp sâu hơn bổ sung ngữ cảnh ngữ nghĩa, cho phép học đặc trưng đa tỷ lệ hiệu quả. Không giống như phương pháp lấy mẫu tăng cường đơn giản chỉ phóng to bản đồ đặc trưng, FPN bảo toàn thông tin có ý nghĩa và cải thiện khả năng phát hiện đối tượng nhỏ.
Các phương pháp hiện đại xây dựng dựa trên ý tưởng này bằng cách sử dụng sự kết hợp đặc trưng thích ứng và thiết kế nhận biết ngữ cảnh để tăng cường hơn nữa khả năng phát hiện các mục tiêu nhỏ. Nói cách khác, FPN giúp các mô hình nhìn thấy cả bức tranh tổng thể và các chi tiết nhỏ cùng một lúc. Sự tối ưu hóa này rất cần thiết khi các đối tượng có kích thước nhỏ.
Dưới đây là một cái nhìn thoáng qua về cách các mô hình phát hiện đối tượng đã phát triển và tiến bộ theo thời gian. detect Các vật thể có kích thước khác nhau sẽ rõ nét hơn, kể cả những vật rất nhỏ:
Giờ đây, khi chúng ta đã hiểu rõ hơn về cách thức hoạt động của việc phát hiện vật thể nhỏ, hãy cùng xem xét một vài ứng dụng thực tế trong đó. YOLO11 có thể áp dụng.
Hãy tưởng tượng một chiếc máy bay không người lái đang bay cao trên một con phố đông đúc. Từ độ cao đó, ô tô, xe đạp, và thậm chí cả người đi bộ chỉ còn là vài điểm ảnh trên màn hình.
UAV và các mô-đun chụp ảnh trên không thường ghi lại những cảnh như thế này, trong đó các đối tượng cần quan tâm rất nhỏ và được bao quanh bởi phông nền lộn xộn, điều này gây khó khăn cho các mô hình thị giác máy tính trong việc xử lý chúng. detect .
Trong những trường hợp này, YOLO11 có thể là một lựa chọn mô hình lý tưởng. Ví dụ, một máy bay không người lái được trang bị mô hình như YOLO11 Hệ thống có thể giám sát giao thông trong thời gian thực, phát hiện các phương tiện, người đi xe đạp và người đi bộ khi chúng di chuyển trong khung hình, ngay cả khi mỗi đối tượng chỉ chiếm một phần nhỏ của hình ảnh. Điều này cho phép đưa ra quyết định nhanh hơn và có được những hiểu biết chính xác hơn trong các ứng dụng như quản lý giao thông, an ninh công cộng hoặc quy hoạch đô thị.
Robot thường được sử dụng trong môi trường mà độ chính xác và thời gian là vô cùng quan trọng. Trong các môi trường như nhà kho, nhà máy và trang trại, robot có thể cần nhận dạng các vật thể rất nhỏ, chẳng hạn như một bộ phận trên dây chuyền lắp ráp, nhãn trên bao bì hoặc một chồi cây nhỏ trên cánh đồng, và phản hồi nhanh chóng.
Việc phát hiện các vật thể có kích thước này có thể rất phức tạp, đặc biệt khi chúng chỉ xuất hiện dưới dạng vài pixel trong hình ảnh camera hoặc bị che khuất một phần bởi các vật thể khác. Bỏ sót những chi tiết nhỏ này có thể làm chậm quá trình tự động hóa hoặc ảnh hưởng đến khả năng hoàn thành nhiệm vụ của robot.
YOLO11 có thể tạo ra sự khác biệt trong những tình huống này. Khả năng trích xuất đặc trưng được cải tiến và suy luận nhanh chóng cho phép robot detect Các vật thể nhỏ được nhận diện trong thời gian thực và phản hồi ngay lập tức.
YOLO11 Nó cũng hỗ trợ phân đoạn đối tượng, giúp robot hiểu rõ hơn về ranh giới đối tượng và điểm nắm bắt, thay vì chỉ xác định các hộp giới hạn chung. Ví dụ, một cánh tay robot tích hợp với YOLO11 có thể phát hiện các linh kiện nhỏ trên băng chuyền. segment Ghi nhớ hình dạng chính xác của chúng và nhặt chúng lên trước khi chúng di chuyển ra khỏi tầm với, giúp hệ thống duy trì hiệu quả và độ tin cậy.
Với rất nhiều mô hình thị giác máy tính hiện có, bạn có thể tự hỏi điều gì tạo nên sự khác biệt giữa chúng. Ultralytics YOLO11 nổi bật.
Dưới đây là một vài lý do tại sao Ultralytics YOLO11 Đây là một lựa chọn tuyệt vời cho các ứng dụng cần phát hiện các vật thể nhỏ:
Ngoài việc sử dụng một mô hình như YOLO11 Cách bạn chuẩn bị chú thích, tập dữ liệu tổng thể và quy trình huấn luyện mô hình có thể tạo ra sự khác biệt đáng kể về hiệu suất phát hiện.
Dưới đây là tổng quan nhanh về những điều cần tập trung vào:
Việc phát hiện các vật thể nhỏ rất khó khăn vì các mục tiêu nhỏ bị mất chi tiết khi hình ảnh được xử lý qua mô hình thị giác máy tính. YOLO11 Cải thiện khả năng bảo toàn các chi tiết này, giúp phát hiện vật thể nhỏ đáng tin cậy hơn mà không làm giảm hiệu suất thời gian thực. Sự cân bằng này cho phép YOLO11 Nhằm hỗ trợ việc phát hiện chính xác và hiệu quả trong các ứng dụng thực tế.
Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Khám phá những đổi mới như thị giác máy tính trong bán lẻ và AI trong ngành công nghiệp ô tô bằng cách truy cập các trang giải pháp của chúng tôi. Để bắt đầu xây dựng với thị giác máy tính ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi.