Khám phá cách phát hiện hộp giới hạn định hướng (OBB) tăng cường phát hiện đối tượng bằng cách xác định chính xác các đối tượng xoay trong hình ảnh trên các ứng dụng thực tế.

Khám phá cách phát hiện hộp giới hạn định hướng (OBB) tăng cường phát hiện đối tượng bằng cách xác định chính xác các đối tượng xoay trong hình ảnh trên các ứng dụng thực tế.
Nhận dạng các vật thể, bất kể chúng được sắp xếp như thế nào hoặc chúng hướng về đâu, đều là bản năng tự nhiên của con người chúng ta. Cho dù đó là ô tô ở ngã tư hay thuyền trong bến cảng, chúng ta có thể dễ dàng biết chúng là gì và chúng đang hướng về đâu. Tuy nhiên, đối với các hệ thống trí tuệ nhân tạo (AI) , điều đó không đơn giản như vậy.
Ví dụ, thị giác máy tính , một nhánh của AI tập trung vào việc hiểu hình ảnh và video, cho phép thực hiện các tác vụ như phát hiện đối tượng, giúp máy móc xác định và định vị các đối tượng trong một cảnh. Phát hiện đối tượng truyền thống dựa vào các hộp giới hạn được căn chỉnh theo trục để vẽ các hộp xung quanh các đối tượng. Các hộp này có các cạnh thẳng và góc vuông cố định. Cách tiếp cận này hoạt động tốt khi các đối tượng thẳng đứng và không quá gần nhau.
Nhưng khi các vật thể nghiêng, xoay hoặc gần nhau, phát hiện vật thể truyền thống thường gặp khó khăn trong việc nắm bắt chúng một cách chính xác. Để xử lý những tình huống phức tạp hơn này, các kỹ thuật như phát hiện hộp giới hạn định hướng (OBB) đã được giới thiệu. Không giống như các hộp giới hạn tiêu chuẩn, OBB có thể xoay để khớp với góc và hình dạng của vật thể, cho phép vừa khít và chính xác hơn.
Các mô hình thị giác máy tính như Ultralytics YOLO11 , hỗ trợ phát hiện OBB, cho phép một loạt các ứng dụng thời gian thực, đặc biệt là trong các tình huống mà định hướng đối tượng quan trọng, chẳng hạn như giám sát trên không. Ngoài ra, phát hiện OBB cũng được sử dụng trong chăm sóc sức khỏe, nông nghiệp và phân tích tài liệu.
Trong bài viết này, chúng ta sẽ khám phá phát hiện OBB là gì, cách thức hoạt động và nơi nó được áp dụng trong các tình huống thực tế. Hãy bắt đầu nào!
Hộp giới hạn định hướng là một loại hộp hình chữ nhật được sử dụng trong thị giác máy tính để biểu diễn các đối tượng được phát hiện trong hình ảnh. Trong khi các hộp giới hạn chuẩn được căn chỉnh theo trục ngang và trục dọc của hình ảnh, OBB có thể xoay để khớp với góc thực tế của đối tượng.
Khả năng xoay này mang lại nhiều lợi thế. OBB có thể căn chỉnh chặt chẽ hơn với hướng của vật thể, cho phép hộp vừa khít với hình dạng và hướng của vật thể. Do đó, việc phát hiện trở nên chính xác và rõ ràng hơn.
OBB đặc biệt hữu ích khi các vật thể không hoàn toàn thẳng đứng, chẳng hạn như một chiếc ô tô rẽ trên đường cong trong cảnh quay trên không, một cuốn sách nghiêng trên bàn hoặc một khối u xoay trong quá trình quét y tế. Bằng cách khớp góc của vật thể chính xác hơn, OBB cải thiện hiệu suất phát hiện, giảm nhiễu nền và đặc biệt tuyệt vời cho các ứng dụng mà hướng của vật thể quan trọng như vị trí của nó.
Phát hiện OBB và phát hiện đối tượng truyền thống thoạt đầu có vẻ giống nhau, nhưng chúng được sử dụng theo những cách khác nhau và cho những tình huống khác nhau. Hãy cùng xem xét kỹ hơn cách chúng so sánh với một ví dụ.
Các mô hình thị giác máy tính , như YOLO11, có thể được đào tạo để phát hiện và phân loại các đối tượng trong nhiều ứng dụng thực tế, chẳng hạn như kiểm tra công nghiệp. Hãy xem xét một dây chuyền lắp ráp nhà máy, nơi các bộ phận máy khác nhau di chuyển dọc theo băng chuyền. Một số bộ phận có thể được đặt gọn gàng, nhưng một số bộ phận khác có thể bị xoay nhẹ, nghiêng hoặc chồng lên nhau do rung động hoặc tốc độ.
Phát hiện vật thể truyền thống sử dụng các hộp hình chữ nhật thẳng đứng, thẳng hàng với các cạnh ngang và dọc của hình ảnh. Vì vậy, khi một bộ phận được xoay, hộp có thể không vừa vặn - nó có thể bỏ sót một phần của vật thể hoặc bao gồm quá nhiều nền. Điều này có thể khiến việc phát hiện kém chính xác hơn và hệ thống khó xác định bộ phận một cách tự tin hơn.
Bây giờ, giả sử bạn đang sử dụng phát hiện OBB thay thế. Trong trường hợp này, mô hình có thể vẽ một hộp xoay để khớp với góc chính xác của từng bộ phận. Một bánh răng nghiêng hoặc thành phần góc cạnh sẽ được bao bọc chặt chẽ bởi một hộp phù hợp với hình dạng và hướng của nó. Điều này có nghĩa là độ chính xác tốt hơn, ít lỗi hơn và kết quả đáng tin cậy hơn, đặc biệt là đối với các trường hợp sử dụng như kiểm soát chất lượng tự động hoặc phân loại bằng rô-bốt.
Bây giờ chúng ta đã hiểu rõ hơn về phát hiện OBB, hãy cùng xem xét một số mô hình Vision AI được sử dụng rộng rãi nhất hỗ trợ nó.
Một số mô hình thị giác máy tính tiên tiến đã được phát triển đặc biệt để phát hiện các vật thể xoay hoặc nghiêng. Trong số đó, các mô hình YOLO của Ultralytics đặc biệt nổi tiếng với khả năng phát hiện OBB đáng tin cậy và hiệu quả.
Các phiên bản trước đó như Ultralytics YOLOv5 được thiết kế để phát hiện đối tượng tiêu chuẩn. Các phiên bản sau đó, như Ultralytics YOLOv8 và YOLO11 gần đây hơn, đã giới thiệu hỗ trợ gốc cho phát hiện OBB. YOLO11, nói riêng, cung cấp độ chính xác tiên tiến mà không ảnh hưởng đến tốc độ, khiến nó trở thành một tùy chọn có tác động cho các ứng dụng thời gian thực.
Các mô hình OBB YOLO11 được đào tạo trước, chẳng hạn như YOLO11n-obb, được đào tạo trên các tập dữ liệu như DOTAv1, bao gồm các hình ảnh trên không được chú thích bằng nhiều lớp đối tượng như máy bay, tàu thủy và sân tennis xuất hiện ở nhiều góc độ và hướng khác nhau.
Ngoài ra, các mẫu máy này có năm kích cỡ khác nhau, từ nano (n-obb) đến cực lớn (x-obb), để phù hợp với các nhu cầu hiệu suất khác nhau. Tính linh hoạt này cho phép chúng được áp dụng trong nhiều ngành công nghiệp khác nhau - từ giám sát cơ sở hạ tầng đô thị và kiểm tra máy móc đến đọc văn bản bị lệch trong các tài liệu được quét.
Trong nhiều tình huống thực tế, các đối tượng bạn cần phát hiện có thể hoàn toàn khác so với các đối tượng trong tập dữ liệu đào tạo chuẩn. Ví dụ, các đối tượng như công cụ trên dây chuyền sản xuất, bao bì sản phẩm hoặc linh kiện trên bảng mạch có thể bị xoay, đặt không đều hoặc có hình dạng khác nhau.
Để phát hiện chính xác các đối tượng tùy chỉnh này, đặc biệt là khi hướng quan trọng, điều quan trọng là phải đào tạo các mô hình như YOLO11 bằng hình ảnh và nhãn của riêng bạn. Quá trình này được gọi là đào tạo tùy chỉnh .
Sau đây là cái nhìn sâu hơn về quy trình từng bước để đào tạo YOLO11 nhằm phát hiện OBB:
Các vật thể lệch tâm hoặc nghiêng khá phổ biến trong các tình huống thực tế. Chúng ta hãy cùng xem qua một vài ví dụ trong đó phát hiện OBB tạo ra sự khác biệt thực sự bằng cách phát hiện chính xác các vật thể này.
Phát hiện OBB có thể đưa phân tích hình ảnh y tế tiến xa hơn một bước bằng cách cải thiện độ chính xác. Hình ảnh y tế thường bao gồm các cấu trúc giải phẫu như khối u, cơ quan hoặc xương. Các cấu trúc này thường xuất hiện ở các hình dạng không đều và các hướng khác nhau. Vì OBB có thể xoay để khớp với góc của vật thể, chúng cung cấp khả năng định vị và đo lường chính xác hơn, điều này rất quan trọng đối với chẩn đoán và lập kế hoạch điều trị.
Cách tiếp cận này đặc biệt hiệu quả khi phân tích hình ảnh X-quang gãy xương, trong đó vị trí và sự sắp xếp của xương là những yếu tố chính. Ví dụ, phát hiện OBB đã được sử dụng để phân tích X-quang khuỷu tay nhi khoa . Bằng cách điều chỉnh theo hướng của xương, nó giúp cải thiện độ chính xác của phát hiện.
Giám sát trên không là một công cụ thiết yếu trong các lĩnh vực như an toàn công cộng, giám sát môi trường và quy hoạch thành phố. Hình ảnh do máy bay không người lái hoặc vệ tinh chụp có thể giúp xác định các vật thể như tàu, xe cộ và tòa nhà. Tuy nhiên, trong những hình ảnh này, các vật thể thường xuất hiện nhỏ và ở các góc bất thường, khiến chúng khó phát hiện chính xác hơn.
Phát hiện OBB giải quyết vấn đề này bằng cách nghiêng các hộp giới hạn để phù hợp với góc của từng đối tượng. Điều này dẫn đến các phép đo chính xác hơn về kích thước và hướng của đối tượng, hỗ trợ ra quyết định tốt hơn trong các lĩnh vực như quy hoạch đô thị, quốc phòng, ứng phó thảm họa và giám sát môi trường.
Một ví dụ thú vị về phát hiện OBB là theo dõi tàu trong giám sát hàng hải . Hình ảnh vệ tinh thường chụp tàu ở nhiều góc độ và kích thước khác nhau do thời tiết, ánh sáng hoặc chuyển động. OBB có thể thích ứng với những thay đổi này, cải thiện khả năng phát hiện, đặc biệt là đối với tàu nhỏ hơn hoặc bị che khuất một phần.
Phân loại cây trồng sau khi thu hoạch là một bước quan trọng để đảm bảo chất lượng trước khi đóng gói và đưa ra thị trường. Trong khi nhiều hệ thống hoạt động tốt đối với các loại trái cây tròn như táo và cam, thì các loại cây trồng dài và hẹp như cà rốt hoặc chồi Zizania có thể khó xử lý hơn nhiều. Hình dạng của chúng thay đổi và chúng thường kết thúc ở các góc khác nhau, khiến chúng khó phát hiện và phân loại chính xác.
Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một hệ thống sử dụng phát hiện hộp giới hạn định hướng (OBB) để xác định và phân loại các loại cây trồng này chính xác hơn. Hệ thống có thể phát hiện nhiều loại cây trồng trong một hình ảnh, ngay cả khi chúng bị nghiêng hoặc chồng lên nhau, và đánh giá chất lượng và vị trí của chúng theo thời gian thực.
Sau đây là một số lợi ích của việc sử dụng phát hiện OBB:
Mặc dù giúp cải thiện độ chính xác phát hiện trong các cảnh phức tạp, nhưng phát hiện OBB vẫn có một số hạn chế cần cân nhắc:
Phát hiện hộp giới hạn định hướng giúp các giải pháp thị giác máy tính dễ dàng nhận ra các vật thể không hoàn toàn thẳng hoặc không thẳng hàng. Bằng cách nắm bắt cả vị trí và hướng của vật thể, phát hiện OBB tăng cường độ chính xác trong các trường hợp sử dụng thực tế như quét hình ảnh y tế, giám sát đất nông nghiệp hoặc phân tích ảnh vệ tinh.
Với các mô hình như YOLO11 giúp phát hiện OBB dễ tiếp cận hơn, nó đang trở thành lựa chọn thiết thực cho nhiều ngành công nghiệp. Cho dù bạn đang xử lý các vật thể nghiêng, chồng chéo hoặc có hình dạng kỳ lạ, phát hiện OBB bổ sung thêm một lớp chính xác mà các phương pháp tiêu chuẩn thường bỏ qua.
Bạn có tò mò về AI không? Hãy khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về các cải tiến như AI trong bán lẻ và thị giác máy tính trong ngành hậu cần trên các trang giải pháp của chúng tôi.