Phát hiện hộp giới hạn định hướng (OBB) là gì?

5 phút đọc

Ngày 9 tháng 6 năm 2025

Khám phá cách phát hiện hộp giới hạn định hướng (OBB) tăng cường phát hiện đối tượng bằng cách xác định chính xác các đối tượng xoay trong hình ảnh trên các ứng dụng thực tế.

Nhận dạng các vật thể, bất kể chúng được sắp xếp như thế nào hoặc chúng hướng về đâu, đều là bản năng tự nhiên của con người chúng ta. Cho dù đó là ô tô ở ngã tư hay thuyền trong bến cảng, chúng ta có thể dễ dàng biết chúng là gì và chúng đang hướng về đâu. Tuy nhiên, đối với các hệ thống trí tuệ nhân tạo (AI) , điều đó không đơn giản như vậy.

Ví dụ, thị giác máy tính , một nhánh của AI tập trung vào việc hiểu hình ảnh và video, cho phép thực hiện các tác vụ như phát hiện đối tượng, giúp máy móc xác định và định vị các đối tượng trong một cảnh. Phát hiện đối tượng truyền thống dựa vào các hộp giới hạn được căn chỉnh theo trục để vẽ các hộp xung quanh các đối tượng. Các hộp này có các cạnh thẳng và góc vuông cố định. Cách tiếp cận này hoạt động tốt khi các đối tượng thẳng đứng và không quá gần nhau. 

Nhưng khi các vật thể nghiêng, xoay hoặc gần nhau, phát hiện vật thể truyền thống thường gặp khó khăn trong việc nắm bắt chúng một cách chính xác. Để xử lý những tình huống phức tạp hơn này, các kỹ thuật như phát hiện hộp giới hạn định hướng (OBB) đã được giới thiệu. Không giống như các hộp giới hạn tiêu chuẩn, OBB có thể xoay để khớp với góc và hình dạng của vật thể, cho phép vừa khít và chính xác hơn.

Các mô hình thị giác máy tính như Ultralytics YOLO11 , hỗ trợ phát hiện OBB, cho phép một loạt các ứng dụng thời gian thực, đặc biệt là trong các tình huống mà định hướng đối tượng quan trọng, chẳng hạn như giám sát trên không. Ngoài ra, phát hiện OBB cũng được sử dụng trong chăm sóc sức khỏe, nông nghiệp và phân tích tài liệu.

Trong bài viết này, chúng ta sẽ khám phá phát hiện OBB là gì, cách thức hoạt động và nơi nó được áp dụng trong các tình huống thực tế. Hãy bắt đầu nào!

__wf_reserved_thừa kế
Hình 1. Một ví dụ về việc sử dụng YOLO11 để phát hiện OBB của thuyền.

Hộp giới hạn định hướng là gì?

Hộp giới hạn định hướng là một loại hộp hình chữ nhật được sử dụng trong thị giác máy tính để biểu diễn các đối tượng được phát hiện trong hình ảnh. Trong khi các hộp giới hạn chuẩn được căn chỉnh theo trục ngang và trục dọc của hình ảnh, OBB có thể xoay để khớp với góc thực tế của đối tượng.

Khả năng xoay này mang lại nhiều lợi thế. OBB có thể căn chỉnh chặt chẽ hơn với hướng của vật thể, cho phép hộp vừa khít với hình dạng và hướng của vật thể. Do đó, việc phát hiện trở nên chính xác và rõ ràng hơn.

OBB đặc biệt hữu ích khi các vật thể không hoàn toàn thẳng đứng, chẳng hạn như một chiếc ô tô rẽ trên đường cong trong cảnh quay trên không, một cuốn sách nghiêng trên bàn hoặc một khối u xoay trong quá trình quét y tế. Bằng cách khớp góc của vật thể chính xác hơn, OBB cải thiện hiệu suất phát hiện, giảm nhiễu nền và đặc biệt tuyệt vời cho các ứng dụng mà hướng của vật thể quan trọng như vị trí của nó.

__wf_reserved_thừa kế
Hình 2. So sánh phát hiện đối tượng và phát hiện OBB.

Phát hiện OBB so với phát hiện đối tượng

Phát hiện OBB và phát hiện đối tượng truyền thống thoạt đầu có vẻ giống nhau, nhưng chúng được sử dụng theo những cách khác nhau và cho những tình huống khác nhau. Hãy cùng xem xét kỹ hơn cách chúng so sánh với một ví dụ.

Các mô hình thị giác máy tính , như YOLO11, có thể được đào tạo để phát hiện và phân loại các đối tượng trong nhiều ứng dụng thực tế, chẳng hạn như kiểm tra công nghiệp. Hãy xem xét một dây chuyền lắp ráp nhà máy, nơi các bộ phận máy khác nhau di chuyển dọc theo băng chuyền. Một số bộ phận có thể được đặt gọn gàng, nhưng một số bộ phận khác có thể bị xoay nhẹ, nghiêng hoặc chồng lên nhau do rung động hoặc tốc độ.

Phát hiện vật thể truyền thống sử dụng các hộp hình chữ nhật thẳng đứng, thẳng hàng với các cạnh ngang và dọc của hình ảnh. Vì vậy, khi một bộ phận được xoay, hộp có thể không vừa vặn - nó có thể bỏ sót một phần của vật thể hoặc bao gồm quá nhiều nền. Điều này có thể khiến việc phát hiện kém chính xác hơn và hệ thống khó xác định bộ phận một cách tự tin hơn.

Bây giờ, giả sử bạn đang sử dụng phát hiện OBB thay thế. Trong trường hợp này, mô hình có thể vẽ một hộp xoay để khớp với góc chính xác của từng bộ phận. Một bánh răng nghiêng hoặc thành phần góc cạnh sẽ được bao bọc chặt chẽ bởi một hộp phù hợp với hình dạng và hướng của nó. Điều này có nghĩa là độ chính xác tốt hơn, ít lỗi hơn và kết quả đáng tin cậy hơn, đặc biệt là đối với các trường hợp sử dụng như kiểm soát chất lượng tự động hoặc phân loại bằng rô-bốt.

Các mô hình phát hiện OBB phổ biến

Bây giờ chúng ta đã hiểu rõ hơn về phát hiện OBB, hãy cùng xem xét một số mô hình Vision AI được sử dụng rộng rãi nhất hỗ trợ nó.

Một số mô hình thị giác máy tính tiên tiến đã được phát triển đặc biệt để phát hiện các vật thể xoay hoặc nghiêng. Trong số đó, các mô hình YOLO của Ultralytics đặc biệt nổi tiếng với khả năng phát hiện OBB đáng tin cậy và hiệu quả.

Các phiên bản trước đó như Ultralytics YOLOv5 được thiết kế để phát hiện đối tượng tiêu chuẩn. Các phiên bản sau đó, như Ultralytics YOLOv8 và YOLO11 gần đây hơn, đã giới thiệu hỗ trợ gốc cho phát hiện OBB. YOLO11, nói riêng, cung cấp độ chính xác tiên tiến mà không ảnh hưởng đến tốc độ, khiến nó trở thành một tùy chọn có tác động cho các ứng dụng thời gian thực.

Các mô hình OBB YOLO11 được đào tạo trước, chẳng hạn như YOLO11n-obb, được đào tạo trên các tập dữ liệu như DOTAv1, bao gồm các hình ảnh trên không được chú thích bằng nhiều lớp đối tượng như máy bay, tàu thủy và sân tennis xuất hiện ở nhiều góc độ và hướng khác nhau. 

Ngoài ra, các mẫu máy này có năm kích cỡ khác nhau, từ nano (n-obb) đến cực lớn (x-obb), để phù hợp với các nhu cầu hiệu suất khác nhau. Tính linh hoạt này cho phép chúng được áp dụng trong nhiều ngành công nghiệp khác nhau - từ giám sát cơ sở hạ tầng đô thị và kiểm tra máy móc đến đọc văn bản bị lệch trong các tài liệu được quét.

Đào tạo tùy chỉnh YOLO11 để phát hiện hộp giới hạn định hướng

Trong nhiều tình huống thực tế, các đối tượng bạn cần phát hiện có thể hoàn toàn khác so với các đối tượng trong tập dữ liệu đào tạo chuẩn. Ví dụ, các đối tượng như công cụ trên dây chuyền sản xuất, bao bì sản phẩm hoặc linh kiện trên bảng mạch có thể bị xoay, đặt không đều hoặc có hình dạng khác nhau. 

Để phát hiện chính xác các đối tượng tùy chỉnh này, đặc biệt là khi hướng quan trọng, điều quan trọng là phải đào tạo các mô hình như YOLO11 bằng hình ảnh và nhãn của riêng bạn. Quá trình này được gọi là đào tạo tùy chỉnh

Sau đây là cái nhìn sâu hơn về quy trình từng bước để đào tạo YOLO11 nhằm phát hiện OBB:

  • Bộ sưu tập hình ảnh : Thu thập các hình ảnh thể hiện đối tượng mục tiêu của bạn từ nhiều góc độ, vị trí và môi trường thực tế khác nhau.
  • Chú thích đối tượng : Ghi nhãn cho từng đối tượng bằng các hộp giới hạn xoay (OBB) để nắm bắt cả vị trí và hướng của chúng bằng các công cụ chú thích có hỗ trợ OBB.
  • Chuẩn bị bộ dữ liệu : Sắp xếp hình ảnh và nhãn của bạn vào cấu trúc thư mục YOLO và tạo tệp cấu hình YAML với tên lớp và đường dẫn bộ dữ liệu của bạn.
  • Đào tạo mô hình : Chọn phiên bản mô hình YOLO11 phù hợp với nhu cầu của bạn và chạy quy trình đào tạo để mô hình có thể học hỏi từ hình ảnh có gắn nhãn của bạn.
  • Đánh giá và triển khai : Kiểm tra mô hình đã đào tạo của bạn trên hình ảnh mới, đánh giá độ chính xác và triển khai trong các ứng dụng thực tế như sản xuất, giám sát trên không hoặc phân tích tài liệu.

Các ứng dụng được kích hoạt bằng phát hiện OBB

Các vật thể lệch tâm hoặc nghiêng khá phổ biến trong các tình huống thực tế. Chúng ta hãy cùng xem qua một vài ví dụ trong đó phát hiện OBB tạo ra sự khác biệt thực sự bằng cách phát hiện chính xác các vật thể này.

Phân tích hình ảnh X-quang sử dụng phát hiện OBB

Phát hiện OBB có thể đưa phân tích hình ảnh y tế tiến xa hơn một bước bằng cách cải thiện độ chính xác. Hình ảnh y tế thường bao gồm các cấu trúc giải phẫu như khối u, cơ quan hoặc xương. Các cấu trúc này thường xuất hiện ở các hình dạng không đều và các hướng khác nhau. Vì OBB có thể xoay để khớp với góc của vật thể, chúng cung cấp khả năng định vị và đo lường chính xác hơn, điều này rất quan trọng đối với chẩn đoán và lập kế hoạch điều trị.

Cách tiếp cận này đặc biệt hiệu quả khi phân tích hình ảnh X-quang gãy xương, trong đó vị trí và sự sắp xếp của xương là những yếu tố chính. Ví dụ, phát hiện OBB đã được sử dụng để phân tích X-quang khuỷu tay nhi khoa . Bằng cách điều chỉnh theo hướng của xương, nó giúp cải thiện độ chính xác của phát hiện. 

__wf_reserved_thừa kế
Hình 3. Tia X (a, d) với chức năng phát hiện vật thể (b, e) và chức năng phát hiện hộp giới hạn định hướng (c, f).

Giám sát trên không được hỗ trợ bởi phát hiện OBB

Giám sát trên không là một công cụ thiết yếu trong các lĩnh vực như an toàn công cộng, giám sát môi trường và quy hoạch thành phố. Hình ảnh do máy bay không người lái hoặc vệ tinh chụp có thể giúp xác định các vật thể như tàu, xe cộ và tòa nhà. Tuy nhiên, trong những hình ảnh này, các vật thể thường xuất hiện nhỏ và ở các góc bất thường, khiến chúng khó phát hiện chính xác hơn.

Phát hiện OBB giải quyết vấn đề này bằng cách nghiêng các hộp giới hạn để phù hợp với góc của từng đối tượng. Điều này dẫn đến các phép đo chính xác hơn về kích thước và hướng của đối tượng, hỗ trợ ra quyết định tốt hơn trong các lĩnh vực như quy hoạch đô thị, quốc phòng, ứng phó thảm họa và giám sát môi trường.

Một ví dụ thú vị về phát hiện OBB là theo dõi tàu trong giám sát hàng hải . Hình ảnh vệ tinh thường chụp tàu ở nhiều góc độ và kích thước khác nhau do thời tiết, ánh sáng hoặc chuyển động. OBB có thể thích ứng với những thay đổi này, cải thiện khả năng phát hiện, đặc biệt là đối với tàu nhỏ hơn hoặc bị che khuất một phần.

__wf_reserved_thừa kế
Hình 4. Một góc nhìn về việc sử dụng phát hiện OBB để giám sát hàng hải.

Sử dụng phát hiện OBB trong nông nghiệp

Phân loại cây trồng sau khi thu hoạch là một bước quan trọng để đảm bảo chất lượng trước khi đóng gói và đưa ra thị trường. Trong khi nhiều hệ thống hoạt động tốt đối với các loại trái cây tròn như táo và cam, thì các loại cây trồng dài và hẹp như cà rốt hoặc chồi Zizania có thể khó xử lý hơn nhiều. Hình dạng của chúng thay đổi và chúng thường kết thúc ở các góc khác nhau, khiến chúng khó phát hiện và phân loại chính xác.

Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một hệ thống sử dụng phát hiện hộp giới hạn định hướng (OBB) để xác định và phân loại các loại cây trồng này chính xác hơn. Hệ thống có thể phát hiện nhiều loại cây trồng trong một hình ảnh, ngay cả khi chúng bị nghiêng hoặc chồng lên nhau, và đánh giá chất lượng và vị trí của chúng theo thời gian thực.

Ưu và nhược điểm của phát hiện OBB

Sau đây là một số lợi ích của việc sử dụng phát hiện OBB:

  • Cải thiện đầu vào cho các tác vụ hạ nguồn: Các tác vụ về thị giác máy tính như phân đoạn trường hợp và theo dõi đối tượng có thể hoạt động tốt hơn khi có khả năng phát hiện đối tượng chính xác hơn .

  • Khả năng suy luận không gian nâng cao: Bằng cách nắm bắt góc định hướng, OBB giúp hiểu được sự liên kết và hướng của vật thể.

  • Giảm sự chồng chéo trong các cảnh đông đúc: OBB giảm sự mơ hồ bằng cách sắp xếp các đối tượng chặt chẽ hơn, ngay cả trong các cảnh đông đúc hoặc lộn xộn.

Mặc dù giúp cải thiện độ chính xác phát hiện trong các cảnh phức tạp, nhưng phát hiện OBB vẫn có một số hạn chế cần cân nhắc:

  • Độ nhạy cao hơn với nhiễu: Những lỗi nhỏ trong dự đoán góc có thể ảnh hưởng lớn hơn đến độ chính xác phát hiện, đặc biệt đối với các vật thể có kích thước dày hoặc dài.
  • Cần có các công cụ chuyên dụng: Vì không phải tất cả các nền tảng đào tạo và gắn nhãn đều hỗ trợ OBB nên việc làm việc với chúng có thể yêu cầu các công cụ hoặc thiết lập bổ sung.

  • Tính khả dụng của bộ dữ liệu hạn chế: So với phát hiện đối tượng tiêu chuẩn, hiện nay có ít bộ dữ liệu có chú thích OBB được công khai hơn, điều này có thể khiến việc bắt đầu hoặc so sánh kết quả trở nên khó khăn hơn một chút.

Những điểm chính

Phát hiện hộp giới hạn định hướng giúp các giải pháp thị giác máy tính dễ dàng nhận ra các vật thể không hoàn toàn thẳng hoặc không thẳng hàng. Bằng cách nắm bắt cả vị trí và hướng của vật thể, phát hiện OBB tăng cường độ chính xác trong các trường hợp sử dụng thực tế như quét hình ảnh y tế, giám sát đất nông nghiệp hoặc phân tích ảnh vệ tinh.

Với các mô hình như YOLO11 giúp phát hiện OBB dễ tiếp cận hơn, nó đang trở thành lựa chọn thiết thực cho nhiều ngành công nghiệp. Cho dù bạn đang xử lý các vật thể nghiêng, chồng chéo hoặc có hình dạng kỳ lạ, phát hiện OBB bổ sung thêm một lớp chính xác mà các phương pháp tiêu chuẩn thường bỏ qua.

Bạn có tò mò về AI không? Hãy khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về các cải tiến như AI trong bán lẻthị giác máy tính trong ngành hậu cần trên các trang giải pháp của chúng tôi.

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard