Tìm hiểu cách phát hiện hộp giới hạn xoay (OBB) nâng cao khả năng phát hiện đối tượng bằng cách xác định chính xác các đối tượng xoay trong hình ảnh trên các ứng dụng thực tế.

Tìm hiểu cách phát hiện hộp giới hạn xoay (OBB) nâng cao khả năng phát hiện đối tượng bằng cách xác định chính xác các đối tượng xoay trong hình ảnh trên các ứng dụng thực tế.
Việc nhận dạng các đối tượng, bất kể chúng được sắp xếp như thế nào hoặc chúng hướng về hướng nào, là điều tự nhiên đối với chúng ta với tư cách là con người. Cho dù đó là ô tô ở một giao lộ hay thuyền trong một гавань, chúng ta có thể dễ dàng biết chúng là gì và chúng đang chỉ theo hướng nào. Tuy nhiên, đối với các hệ thống trí tuệ nhân tạo (AI), điều đó không đơn giản như vậy.
Ví dụ: thị giác máy tính, một nhánh của AI tập trung vào việc hiểu hình ảnh và video, cho phép các tác vụ như phát hiện đối tượng, giúp máy móc xác định và định vị các đối tượng trong một khung cảnh. Phát hiện đối tượng truyền thống dựa vào các hộp giới hạn (bounding box) thẳng hàng theo trục để vẽ các hộp xung quanh các đối tượng. Các hộp này có các cạnh thẳng và các góc vuông cố định. Cách tiếp cận này hoạt động tốt khi các đối tượng thẳng đứng và không quá gần nhau.
Nhưng khi các vật thể bị nghiêng, xoay hoặc ở gần nhau, tính năng phát hiện vật thể truyền thống thường gặp khó khăn trong việc chụp chúng một cách chính xác. Để xử lý những tình huống phức tạp hơn này, các kỹ thuật như phát hiện hộp giới hạn định hướng (OBB) đã được giới thiệu. Không giống như các hộp giới hạn tiêu chuẩn, OBB có thể xoay để phù hợp với góc và hình dạng của vật thể, cho phép khớp chặt chẽ và chính xác hơn.
Các mô hình thị giác máy tính như Ultralytics YOLO11, hỗ trợ phát hiện OBB, cho phép một loạt các ứng dụng theo thời gian thực, đặc biệt trong các tình huống mà hướng đối tượng quan trọng, chẳng hạn như giám sát trên không. Ngoài ra, phát hiện OBB cũng được sử dụng trong lĩnh vực chăm sóc sức khỏe, nông nghiệp và phân tích tài liệu.
Trong bài viết này, chúng ta sẽ khám phá OBB detection là gì, cách nó hoạt động và các ứng dụng thực tế của nó. Hãy cùng bắt đầu!
Hộp giới hạn hướng là một loại hộp hình chữ nhật được sử dụng trong thị giác máy tính để biểu diễn các đối tượng được phát hiện trong một hình ảnh. Trong khi các hộp giới hạn tiêu chuẩn được căn chỉnh với các trục ngang và dọc của hình ảnh, OBB có thể xoay để phù hợp với góc thực tế của đối tượng.
Khả năng xoay này mang lại một số lợi thế. OBB có thể căn chỉnh chặt chẽ hơn với hướng của một đối tượng, cho phép hộp vừa khít xung quanh hình dạng và hướng của đối tượng. Do đó, việc phát hiện trở nên chính xác và chuẩn xác hơn.
OBB đặc biệt hữu ích khi các đối tượng không hoàn toàn thẳng đứng, chẳng hạn như một chiếc ô tô rẽ trên một con đường cong trong cảnh quay trên không, một cuốn sách bị nghiêng trên bàn hoặc một khối u bị xoay trong ảnh chụp y tế. Bằng cách khớp góc của đối tượng chính xác hơn, OBB cải thiện hiệu suất phát hiện, giảm nhiễu nền và đặc biệt phù hợp cho các ứng dụng mà hướng của đối tượng quan trọng không kém vị trí của nó.
Phát hiện OBB và phát hiện đối tượng truyền thống thoạt nhìn có vẻ giống nhau, nhưng chúng được sử dụng theo những cách khác nhau và cho các tình huống khác nhau. Hãy xem xét kỹ hơn cách chúng so sánh với một ví dụ.
Các mô hình thị giác máy tính, như YOLO11, có thể được huấn luyện để phát hiện và phân loại các đối tượng trong các ứng dụng thực tế khác nhau, chẳng hạn như kiểm tra công nghiệp. Hãy xem xét một dây chuyền lắp ráp nhà máy, nơi các bộ phận máy khác nhau di chuyển dọc theo băng chuyền. Một số bộ phận có thể được đặt gọn gàng, nhưng những bộ phận khác có thể bị xoay nhẹ, nghiêng hoặc chồng lên nhau do rung động hoặc tốc độ.
Phát hiện đối tượng truyền thống sử dụng các hộp hình chữ nhật thẳng đứng, thẳng hàng với các cạnh ngang và dọc của hình ảnh. Vì vậy, khi một bộ phận bị xoay, hộp có thể không vừa khít - nó có thể bỏ sót một phần của đối tượng hoặc bao gồm quá nhiều nền. Điều này có thể làm cho việc phát hiện kém chính xác hơn và hệ thống khó xác định bộ phận một cách tự tin hơn.
Giả sử bạn đang sử dụng tính năng phát hiện OBB. Trong trường hợp này, mô hình có thể vẽ một hộp xoay để khớp với góc chính xác của từng bộ phận. Một bánh răng nghiêng hoặc thành phần góc cạnh sẽ được bao bọc chặt chẽ bởi một hộp phù hợp với hình dạng và hướng của nó. Điều này có nghĩa là độ chính xác tốt hơn, ít lỗi hơn và kết quả đáng tin cậy hơn, đặc biệt là đối với các trường hợp sử dụng như kiểm soát chất lượng tự động hoặc phân loại bằng robot.
Bây giờ chúng ta đã hiểu rõ hơn về OBB detection là gì, hãy xem xét một số mô hình Vision AI được sử dụng rộng rãi nhất hỗ trợ nó.
Một số mô hình thị giác máy tính tiên tiến đã được phát triển đặc biệt để phát hiện các đối tượng bị xoay hoặc nghiêng. Trong số đó, các mô hình Ultralytics YOLO đặc biệt nổi tiếng với khả năng phát hiện OBB đáng tin cậy và hiệu quả.
Các phiên bản trước như Ultralytics YOLOv5 được thiết kế để phát hiện đối tượng tiêu chuẩn. Các phiên bản sau, chẳng hạn như Ultralytics YOLOv8 và YOLO11 gần đây hơn, đã giới thiệu hỗ trợ gốc cho phát hiện OBB. Đặc biệt, YOLO11 cung cấp độ chính xác hiện đại mà không ảnh hưởng đến tốc độ, khiến nó trở thành một lựa chọn hiệu quả cho các ứng dụng thời gian thực.
Các mô hình YOLO11 OBB được huấn luyện trước, chẳng hạn như YOLO11n-obb, được huấn luyện trên các bộ dữ liệu như DOTAv1, bao gồm các hình ảnh trên không được chú thích với một loạt các lớp đối tượng như máy bay, tàu thuyền và sân tennis xuất hiện ở nhiều góc độ và hướng khác nhau.
Ngoài ra, các mô hình này có sẵn với năm kích thước khác nhau, từ nano (n-obb) đến extra-large (x-obb), để phù hợp với các nhu cầu hiệu suất khác nhau. Tính linh hoạt này cho phép chúng được áp dụng trong nhiều ngành khác nhau - từ giám sát cơ sở hạ tầng đô thị và kiểm tra máy móc đến đọc văn bản bị lệch trong các tài liệu được quét.
Trong nhiều tình huống thực tế, các đối tượng bạn cần phát hiện có thể hoàn toàn khác với các đối tượng trong bộ dữ liệu huấn luyện tiêu chuẩn. Ví dụ: các đối tượng như dụng cụ trên dây chuyền sản xuất, bao bì sản phẩm hoặc các thành phần trên bảng mạch có thể bị xoay, đặt không đều hoặc có hình dạng khác.
Để phát hiện chính xác các đối tượng tùy chỉnh này, đặc biệt khi hướng quan trọng, điều quan trọng là phải huấn luyện các mô hình như YOLO11 bằng cách sử dụng hình ảnh và nhãn của riêng bạn. Quá trình này được gọi là huấn luyện tùy chỉnh.
Sau đây là cái nhìn cận cảnh về quy trình từng bước huấn luyện YOLO11 để phát hiện OBB:
Các đối tượng lệch tâm hoặc nghiêng khá phổ biến trong các tình huống thực tế. Hãy cùng xem qua một vài ví dụ về việc OBB detection tạo ra sự khác biệt thực sự bằng cách phát hiện chính xác các đối tượng này.
Phát hiện OBB có thể đưa phân tích hình ảnh y tế tiến thêm một bước bằng cách cải thiện độ chính xác. Hình ảnh y tế thường bao gồm các cấu trúc giải phẫu như khối u, cơ quan hoặc xương. Các cấu trúc này thường xuất hiện ở các hình dạng không đều và hướng khác nhau. Vì OBB có thể xoay để phù hợp với góc của đối tượng, chúng cung cấp khả năng định vị và đo lường chính xác hơn, điều này rất quan trọng cho việc chẩn đoán và lập kế hoạch điều trị.
Cách tiếp cận này đặc biệt hiệu quả khi phân tích hình ảnh X-quang về gãy xương, trong đó vị trí và sự căn chỉnh của xương là những yếu tố quan trọng. Ví dụ: phát hiện OBB đã được sử dụng để phân tích ảnh X-quang khuỷu tay của trẻ em. Bằng cách điều chỉnh theo hướng của xương, nó đã giúp cải thiện độ chính xác phát hiện.
Giám sát trên không là một công cụ thiết yếu trong các lĩnh vực như an toàn công cộng, giám sát môi trường và quy hoạch đô thị. Hình ảnh được chụp bởi máy bay không người lái hoặc vệ tinh có thể giúp xác định các đối tượng như tàu thuyền, xe cộ và tòa nhà. Tuy nhiên, trong những hình ảnh này, các đối tượng thường xuất hiện nhỏ và ở các góc độ bất thường, gây khó khăn hơn cho việc phát hiện chính xác.
Phát hiện OBB giải quyết vấn đề này bằng cách nghiêng các hộp giới hạn để phù hợp với góc của từng đối tượng. Điều này dẫn đến các phép đo chính xác hơn về kích thước và hướng của một đối tượng, hỗ trợ việc ra quyết định tốt hơn trong các lĩnh vực như quy hoạch đô thị, quốc phòng, ứng phó thảm họa và giám sát môi trường.
Một ví dụ thú vị về phát hiện OBB là theo dõi tàu trong giám sát hàng hải. Hình ảnh vệ tinh thường chụp tàu ở các góc độ và kích thước khác nhau do thời tiết, ánh sáng hoặc chuyển động. OBB có thể thích ứng với những thay đổi này, cải thiện khả năng phát hiện, đặc biệt đối với các tàu nhỏ hơn hoặc bị che khuất một phần.
Việc phân loại cây trồng sau thu hoạch là một bước quan trọng để đảm bảo chất lượng trước khi chúng được đóng gói và đưa ra thị trường. Mặc dù nhiều hệ thống hoạt động tốt đối với các loại quả tròn như táo và cam, nhưng các loại cây trồng dài và hẹp, như cà rốt hoặc măng tây, có thể khó xử lý hơn nhiều. Hình dạng của chúng khác nhau và chúng thường kết thúc ở các góc độ khác nhau, khiến chúng khó phát hiện và phân loại chính xác.
Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một hệ thống sử dụng phương pháp phát hiện hộp giới hạn có hướng (OBB) để xác định và đánh giá chất lượng các loại cây trồng này một cách chính xác hơn. Hệ thống có thể phát hiện nhiều loại cây trồng trong một hình ảnh, ngay cả khi chúng bị nghiêng hoặc chồng lên nhau, đồng thời đánh giá chất lượng và vị trí của chúng trong thời gian thực.
Dưới đây là một số lợi ích của việc sử dụng phát hiện OBB:
Mặc dù giúp cải thiện độ chính xác phát hiện trong các cảnh phức tạp, nhưng việc phát hiện OBB đi kèm với một vài hạn chế cần xem xét:
Phát hiện hộp giới hạn theo hướng giúp các giải pháp thị giác máy tính dễ dàng nhận ra các đối tượng không hoàn toàn thẳng hoặc thẳng hàng. Bằng cách nắm bắt cả vị trí và hướng của các đối tượng, tính năng phát hiện OBB giúp tăng độ chính xác trong các trường hợp sử dụng thực tế như quét ảnh y tế, giám sát đất nông nghiệp hoặc phân tích ảnh vệ tinh.
Với các mô hình như YOLO11 giúp việc phát hiện OBB trở nên dễ tiếp cận hơn, nó đang trở thành một lựa chọn thiết thực cho nhiều ngành công nghiệp. Cho dù bạn đang xử lý các đối tượng nghiêng, chồng chéo hoặc có hình dạng kỳ lạ, việc phát hiện OBB sẽ bổ sung thêm một lớp chính xác mà các phương pháp tiêu chuẩn thường bỏ lỡ.
Bạn tò mò về AI? Khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về những đổi mới như AI trong bán lẻ và thị giác máy tính trong ngành logistics trên các trang giải pháp của chúng tôi.