Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Nhận diện hình hộp giới hạn có hướng (oriented bounding box - OBB) là gì?

5 phút đọc

9 tháng 6, 2025

Tìm hiểu cách phát hiện hộp giới hạn xoay (OBB) nâng cao khả năng phát hiện đối tượng bằng cách xác định chính xác các đối tượng xoay trong hình ảnh trên các ứng dụng thực tế.

Việc nhận dạng các đối tượng, bất kể chúng được sắp xếp như thế nào hoặc chúng hướng về hướng nào, là điều tự nhiên đối với chúng ta với tư cách là con người. Cho dù đó là ô tô ở một giao lộ hay thuyền trong một гавань, chúng ta có thể dễ dàng biết chúng là gì và chúng đang chỉ theo hướng nào. Tuy nhiên, đối với các hệ thống trí tuệ nhân tạo (AI), điều đó không đơn giản như vậy.

Ví dụ: thị giác máy tính, một nhánh của AI tập trung vào việc hiểu hình ảnh và video, cho phép các tác vụ như phát hiện đối tượng, giúp máy móc xác định và định vị các đối tượng trong một khung cảnh. Phát hiện đối tượng truyền thống dựa vào các hộp giới hạn (bounding box) thẳng hàng theo trục để vẽ các hộp xung quanh các đối tượng. Các hộp này có các cạnh thẳng và các góc vuông cố định. Cách tiếp cận này hoạt động tốt khi các đối tượng thẳng đứng và không quá gần nhau. 

Nhưng khi các vật thể bị nghiêng, xoay hoặc ở gần nhau, tính năng phát hiện vật thể truyền thống thường gặp khó khăn trong việc chụp chúng một cách chính xác. Để xử lý những tình huống phức tạp hơn này, các kỹ thuật như phát hiện hộp giới hạn định hướng (OBB) đã được giới thiệu. Không giống như các hộp giới hạn tiêu chuẩn, OBB có thể xoay để phù hợp với góc và hình dạng của vật thể, cho phép khớp chặt chẽ và chính xác hơn.

Các mô hình thị giác máy tính như Ultralytics YOLO11, hỗ trợ phát hiện OBB, cho phép một loạt các ứng dụng theo thời gian thực, đặc biệt trong các tình huống mà hướng đối tượng quan trọng, chẳng hạn như giám sát trên không. Ngoài ra, phát hiện OBB cũng được sử dụng trong lĩnh vực chăm sóc sức khỏe, nông nghiệp và phân tích tài liệu.

Trong bài viết này, chúng ta sẽ khám phá OBB detection là gì, cách nó hoạt động và các ứng dụng thực tế của nó. Hãy cùng bắt đầu!

__wf_reserved_inherit
Hình 1. Một bản demo ví dụ về việc sử dụng YOLO11 để phát hiện OBB của thuyền.

Hình hộp giới hạn có hướng (oriented bounding box) là gì?

Hộp giới hạn hướng là một loại hộp hình chữ nhật được sử dụng trong thị giác máy tính để biểu diễn các đối tượng được phát hiện trong một hình ảnh. Trong khi các hộp giới hạn tiêu chuẩn được căn chỉnh với các trục ngang và dọc của hình ảnh, OBB có thể xoay để phù hợp với góc thực tế của đối tượng.

Khả năng xoay này mang lại một số lợi thế. OBB có thể căn chỉnh chặt chẽ hơn với hướng của một đối tượng, cho phép hộp vừa khít xung quanh hình dạng và hướng của đối tượng. Do đó, việc phát hiện trở nên chính xác và chuẩn xác hơn.

OBB đặc biệt hữu ích khi các đối tượng không hoàn toàn thẳng đứng, chẳng hạn như một chiếc ô tô rẽ trên một con đường cong trong cảnh quay trên không, một cuốn sách bị nghiêng trên bàn hoặc một khối u bị xoay trong ảnh chụp y tế. Bằng cách khớp góc của đối tượng chính xác hơn, OBB cải thiện hiệu suất phát hiện, giảm nhiễu nền và đặc biệt phù hợp cho các ứng dụng mà hướng của đối tượng quan trọng không kém vị trí của nó.

__wf_reserved_inherit
Hình 2. So sánh object detection (phát hiện đối tượng) và OBB detection (phát hiện hộp giới hạn xoay).

Phân biệt giữa OBB detection và object detection

Phát hiện OBB và phát hiện đối tượng truyền thống thoạt nhìn có vẻ giống nhau, nhưng chúng được sử dụng theo những cách khác nhau và cho các tình huống khác nhau. Hãy xem xét kỹ hơn cách chúng so sánh với một ví dụ.

Các mô hình thị giác máy tính, như YOLO11, có thể được huấn luyện để phát hiện và phân loại các đối tượng trong các ứng dụng thực tế khác nhau, chẳng hạn như kiểm tra công nghiệp. Hãy xem xét một dây chuyền lắp ráp nhà máy, nơi các bộ phận máy khác nhau di chuyển dọc theo băng chuyền. Một số bộ phận có thể được đặt gọn gàng, nhưng những bộ phận khác có thể bị xoay nhẹ, nghiêng hoặc chồng lên nhau do rung động hoặc tốc độ.

Phát hiện đối tượng truyền thống sử dụng các hộp hình chữ nhật thẳng đứng, thẳng hàng với các cạnh ngang và dọc của hình ảnh. Vì vậy, khi một bộ phận bị xoay, hộp có thể không vừa khít - nó có thể bỏ sót một phần của đối tượng hoặc bao gồm quá nhiều nền. Điều này có thể làm cho việc phát hiện kém chính xác hơn và hệ thống khó xác định bộ phận một cách tự tin hơn.

Giả sử bạn đang sử dụng tính năng phát hiện OBB. Trong trường hợp này, mô hình có thể vẽ một hộp xoay để khớp với góc chính xác của từng bộ phận. Một bánh răng nghiêng hoặc thành phần góc cạnh sẽ được bao bọc chặt chẽ bởi một hộp phù hợp với hình dạng và hướng của nó. Điều này có nghĩa là độ chính xác tốt hơn, ít lỗi hơn và kết quả đáng tin cậy hơn, đặc biệt là đối với các trường hợp sử dụng như kiểm soát chất lượng tự động hoặc phân loại bằng robot.

Các mô hình phát hiện OBB phổ biến

Bây giờ chúng ta đã hiểu rõ hơn về OBB detection là gì, hãy xem xét một số mô hình Vision AI được sử dụng rộng rãi nhất hỗ trợ nó.

Một số mô hình thị giác máy tính tiên tiến đã được phát triển đặc biệt để phát hiện các đối tượng bị xoay hoặc nghiêng. Trong số đó, các mô hình Ultralytics YOLO đặc biệt nổi tiếng với khả năng phát hiện OBB đáng tin cậy và hiệu quả.

Các phiên bản trước như Ultralytics YOLOv5 được thiết kế để phát hiện đối tượng tiêu chuẩn. Các phiên bản sau, chẳng hạn như Ultralytics YOLOv8 và YOLO11 gần đây hơn, đã giới thiệu hỗ trợ gốc cho phát hiện OBB. Đặc biệt, YOLO11 cung cấp độ chính xác hiện đại mà không ảnh hưởng đến tốc độ, khiến nó trở thành một lựa chọn hiệu quả cho các ứng dụng thời gian thực.

Các mô hình YOLO11 OBB được huấn luyện trước, chẳng hạn như YOLO11n-obb, được huấn luyện trên các bộ dữ liệu như DOTAv1, bao gồm các hình ảnh trên không được chú thích với một loạt các lớp đối tượng như máy bay, tàu thuyền và sân tennis xuất hiện ở nhiều góc độ và hướng khác nhau. 

Ngoài ra, các mô hình này có sẵn với năm kích thước khác nhau, từ nano (n-obb) đến extra-large (x-obb), để phù hợp với các nhu cầu hiệu suất khác nhau. Tính linh hoạt này cho phép chúng được áp dụng trong nhiều ngành khác nhau - từ giám sát cơ sở hạ tầng đô thị và kiểm tra máy móc đến đọc văn bản bị lệch trong các tài liệu được quét.

Huấn luyện tùy chỉnh YOLO11 để phát hiện hộp giới hạn theo hướng

Trong nhiều tình huống thực tế, các đối tượng bạn cần phát hiện có thể hoàn toàn khác với các đối tượng trong bộ dữ liệu huấn luyện tiêu chuẩn. Ví dụ: các đối tượng như dụng cụ trên dây chuyền sản xuất, bao bì sản phẩm hoặc các thành phần trên bảng mạch có thể bị xoay, đặt không đều hoặc có hình dạng khác. 

Để phát hiện chính xác các đối tượng tùy chỉnh này, đặc biệt khi hướng quan trọng, điều quan trọng là phải huấn luyện các mô hình như YOLO11 bằng cách sử dụng hình ảnh và nhãn của riêng bạn. Quá trình này được gọi là huấn luyện tùy chỉnh

Sau đây là cái nhìn cận cảnh về quy trình từng bước huấn luyện YOLO11 để phát hiện OBB:

  • Thu thập ảnh: Thu thập hình ảnh thể hiện các đối tượng mục tiêu của bạn từ các góc độ, vị trí và môi trường thực tế khác nhau.
  • Gán nhãn đối tượng: Gán nhãn cho từng đối tượng bằng cách sử dụng các hộp giới hạn xoay (OBB) để nắm bắt cả vị trí và hướng của chúng bằng các công cụ gán nhãn có hỗ trợ OBB.
  • Chuẩn bị bộ dữ liệu: Sắp xếp hình ảnh và nhãn của bạn vào cấu trúc thư mục YOLO và tạo tệp cấu hình YAML với tên lớp và đường dẫn bộ dữ liệu của bạn.
  • Huấn luyện mô hình: Chọn phiên bản mô hình YOLO11 phù hợp với nhu cầu của bạn và chạy quy trình huấn luyện để mô hình có thể học hỏi từ những hình ảnh đã được gắn nhãn của bạn.
  • Đánh giá và triển khai: Kiểm tra mô hình đã huấn luyện của bạn trên các hình ảnh mới, đánh giá độ chính xác của nó và triển khai nó trong các ứng dụng thực tế như sản xuất, giám sát trên không hoặc phân tích tài liệu.

Các ứng dụng được kích hoạt bởi việc phát hiện OBB

Các đối tượng lệch tâm hoặc nghiêng khá phổ biến trong các tình huống thực tế. Hãy cùng xem qua một vài ví dụ về việc OBB detection tạo ra sự khác biệt thực sự bằng cách phát hiện chính xác các đối tượng này.

Phân tích ảnh X-quang bằng cách sử dụng phát hiện OBB

Phát hiện OBB có thể đưa phân tích hình ảnh y tế tiến thêm một bước bằng cách cải thiện độ chính xác. Hình ảnh y tế thường bao gồm các cấu trúc giải phẫu như khối u, cơ quan hoặc xương. Các cấu trúc này thường xuất hiện ở các hình dạng không đều và hướng khác nhau. Vì OBB có thể xoay để phù hợp với góc của đối tượng, chúng cung cấp khả năng định vị và đo lường chính xác hơn, điều này rất quan trọng cho việc chẩn đoán và lập kế hoạch điều trị.

Cách tiếp cận này đặc biệt hiệu quả khi phân tích hình ảnh X-quang về gãy xương, trong đó vị trí và sự căn chỉnh của xương là những yếu tố quan trọng. Ví dụ: phát hiện OBB đã được sử dụng để phân tích ảnh X-quang khuỷu tay của trẻ em. Bằng cách điều chỉnh theo hướng của xương, nó đã giúp cải thiện độ chính xác phát hiện. 

__wf_reserved_inherit
Hình 3. Ảnh chụp X-quang (a, d) với phát hiện đối tượng (b, e) và phát hiện hộp giới hạn theo hướng (c, f).

Giám sát trên không được hỗ trợ bởi phát hiện OBB

Giám sát trên không là một công cụ thiết yếu trong các lĩnh vực như an toàn công cộng, giám sát môi trường và quy hoạch đô thị. Hình ảnh được chụp bởi máy bay không người lái hoặc vệ tinh có thể giúp xác định các đối tượng như tàu thuyền, xe cộ và tòa nhà. Tuy nhiên, trong những hình ảnh này, các đối tượng thường xuất hiện nhỏ và ở các góc độ bất thường, gây khó khăn hơn cho việc phát hiện chính xác.

Phát hiện OBB giải quyết vấn đề này bằng cách nghiêng các hộp giới hạn để phù hợp với góc của từng đối tượng. Điều này dẫn đến các phép đo chính xác hơn về kích thước và hướng của một đối tượng, hỗ trợ việc ra quyết định tốt hơn trong các lĩnh vực như quy hoạch đô thị, quốc phòng, ứng phó thảm họa và giám sát môi trường.

Một ví dụ thú vị về phát hiện OBB là theo dõi tàu trong giám sát hàng hải. Hình ảnh vệ tinh thường chụp tàu ở các góc độ và kích thước khác nhau do thời tiết, ánh sáng hoặc chuyển động. OBB có thể thích ứng với những thay đổi này, cải thiện khả năng phát hiện, đặc biệt đối với các tàu nhỏ hơn hoặc bị che khuất một phần.

__wf_reserved_inherit
Hình 4. Một cái nhìn về việc sử dụng phát hiện OBB để giám sát hàng hải.

Sử dụng OBB detection trong nông nghiệp

Việc phân loại cây trồng sau thu hoạch là một bước quan trọng để đảm bảo chất lượng trước khi chúng được đóng gói và đưa ra thị trường. Mặc dù nhiều hệ thống hoạt động tốt đối với các loại quả tròn như táo và cam, nhưng các loại cây trồng dài và hẹp, như cà rốt hoặc măng tây, có thể khó xử lý hơn nhiều. Hình dạng của chúng khác nhau và chúng thường kết thúc ở các góc độ khác nhau, khiến chúng khó phát hiện và phân loại chính xác.

Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một hệ thống sử dụng phương pháp phát hiện hộp giới hạn có hướng (OBB) để xác định và đánh giá chất lượng các loại cây trồng này một cách chính xác hơn. Hệ thống có thể phát hiện nhiều loại cây trồng trong một hình ảnh, ngay cả khi chúng bị nghiêng hoặc chồng lên nhau, đồng thời đánh giá chất lượng và vị trí của chúng trong thời gian thực.

Ưu và nhược điểm của phát hiện OBB (OBB detection)

Dưới đây là một số lợi ích của việc sử dụng phát hiện OBB:

  • Cải thiện đầu vào cho các tác vụ hạ nguồn: Các tác vụ computer vision như phân đoạn thể hiện và theo dõi đối tượng có thể hoạt động tốt hơn khi được cung cấp các phát hiện đối tượng chính xác hơn.

  • Nâng cao khả năng suy luận không gian: Bằng cách nắm bắt góc định hướng, OBB giúp bạn có thể hiểu được sự liên kết và hướng của một đối tượng.

  • Giảm sự chồng chéo trong các cảnh đông đúc: OBB giảm sự mơ hồ bằng cách khớp các đối tượng chặt chẽ hơn, ngay cả trong các cảnh bận rộn hoặc lộn xộn.

Mặc dù giúp cải thiện độ chính xác phát hiện trong các cảnh phức tạp, nhưng việc phát hiện OBB đi kèm với một vài hạn chế cần xem xét:

  • Độ nhạy cao hơn với nhiễu: Các lỗi nhỏ trong dự đoán góc có thể có tác động lớn hơn đến độ chính xác phát hiện, đặc biệt đối với các đối tượng được đóng gói chặt chẽ hoặc kéo dài.
  • Yêu cầu các công cụ chuyên dụng: Vì không phải tất cả các nền tảng gắn nhãn và huấn luyện đều hỗ trợ OBB một cách tự nhiên, nên việc làm việc với chúng có thể yêu cầu các công cụ hoặc thiết lập bổ sung.

  • Tính khả dụng của bộ dữ liệu hạn chế: So với object detection (phát hiện đối tượng) tiêu chuẩn, hiện có ít bộ dữ liệu công khai hơn với chú thích OBB, điều này có thể gây khó khăn hơn một chút khi bắt đầu hoặc so sánh kết quả.

Những điều cần nhớ

Phát hiện hộp giới hạn theo hướng giúp các giải pháp thị giác máy tính dễ dàng nhận ra các đối tượng không hoàn toàn thẳng hoặc thẳng hàng. Bằng cách nắm bắt cả vị trí và hướng của các đối tượng, tính năng phát hiện OBB giúp tăng độ chính xác trong các trường hợp sử dụng thực tế như quét ảnh y tế, giám sát đất nông nghiệp hoặc phân tích ảnh vệ tinh.

Với các mô hình như YOLO11 giúp việc phát hiện OBB trở nên dễ tiếp cận hơn, nó đang trở thành một lựa chọn thiết thực cho nhiều ngành công nghiệp. Cho dù bạn đang xử lý các đối tượng nghiêng, chồng chéo hoặc có hình dạng kỳ lạ, việc phát hiện OBB sẽ bổ sung thêm một lớp chính xác mà các phương pháp tiêu chuẩn thường bỏ lỡ.

Bạn tò mò về AI? Khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về những đổi mới như AI trong bán lẻthị giác máy tính trong ngành logistics trên các trang giải pháp của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard