Узнайте, как обнаружение ориентированных ограничивающих рамок (OBB) улучшает обнаружение объектов, точно идентифицируя повернутые объекты на изображениях в различных реальных приложениях.

Узнайте, как обнаружение ориентированных ограничивающих рамок (OBB) улучшает обнаружение объектов, точно идентифицируя повернутые объекты на изображениях в различных реальных приложениях.
Распознавание объектов, независимо от того, как они расположены или в какую сторону они обращены, дается нам, людям, естественным образом. Будь то автомобили на перекрестке или лодки в гавани, мы можем легко сказать, что это такое и в каком направлении они движутся. Однако для систем искусственного интеллекта (AI) это не так просто.
Например, компьютерное зрение, раздел ИИ, специализирующийся на понимании изображений и видео, позволяет решать такие задачи, как обнаружение объектов, которое помогает машинам идентифицировать и определять местоположение объектов в кадре. Традиционное обнаружение объектов использует ограничивающие рамки, выровненные по осям, для выделения объектов. Эти рамки имеют прямые стороны и фиксированные прямые углы. Такой подход хорошо работает, когда объекты расположены вертикально и не слишком близко друг к другу.
Но когда объекты наклонены, повернуты или находятся близко друг к другу, традиционное обнаружение объектов часто с трудом захватывает их точно. Для обработки этих более сложных ситуаций были введены такие методы, как обнаружение ориентированных ограничивающих рамок (OBB). В отличие от стандартных ограничивающих рамок, OBB могут поворачиваться, чтобы соответствовать углу и форме объекта, обеспечивая более плотную и точную посадку.
Модели компьютерного зрения, такие как Ultralytics YOLO11, которые поддерживают обнаружение OBB (ориентированных ограничивающих прямоугольников), обеспечивают широкий спектр приложений в реальном времени, особенно в сценариях, где важна ориентация объекта, например, при воздушном наблюдении. Кроме того, обнаружение OBB также используется в здравоохранении, сельском хозяйстве и анализе документов.
В этой статье мы рассмотрим, что такое OBB-детектирование, как оно работает и где оно применяется в реальных сценариях. Начнем!
Ориентированный ограничивающий прямоугольник (oriented bounding box, OBB) — это тип прямоугольника, используемый в компьютерном зрении для представления обнаруженных объектов на изображении. В то время как стандартные ограничивающие прямоугольники выровнены по горизонтальной и вертикальной осям изображения, OBB могут поворачиваться, чтобы соответствовать фактическому углу объекта.
Эта способность вращаться дает несколько преимуществ. OBB могут более точно соответствовать ориентации объекта, позволяя коробке плотно прилегать к форме и направлению объекта. В результате обнаружение становится более точным и четким.
OBB особенно полезны, когда объекты не расположены идеально вертикально, например, автомобиль, поворачивающий на изогнутой дороге на аэрофотосъемке, наклоненная книга на столе или повернутая опухоль на медицинском снимке. Более точно соответствуя углу объекта, OBB повышают эффективность обнаружения, уменьшают фоновые помехи и особенно хорошо подходят для приложений, где ориентация объекта имеет такое же значение, как и его положение.
Обнаружение OBB и традиционное обнаружение объектов на первый взгляд могут показаться похожими, но они используются по-разному и для разных ситуаций. Давайте подробнее рассмотрим, как они соотносятся, на примере.
Модели компьютерного зрения, такие как YOLO11, можно обучать обнаруживать и классифицировать объекты в различных реальных приложениях, таких как промышленный контроль. Рассмотрим заводскую сборочную линию, где различные детали машин перемещаются по конвейерной ленте. Некоторые детали могут быть аккуратно размещены, но другие могут быть слегка повернуты, наклонены или перекрываться из-за вибрации или скорости.
Традиционное обнаружение объектов использует прямые прямоугольные рамки, которые выровнены по горизонтальным и вертикальным краям изображения. Поэтому, когда деталь повернута, рамка может не подходить должным образом - она может оставить часть объекта за пределами рамки или включить слишком много фона. Это может сделать обнаружение менее точным и затруднить системе уверенную идентификацию детали.
Теперь, допустим, вы используете обнаружение OBB. В этом случае модель может нарисовать рамку, которая поворачивается, чтобы соответствовать точному углу каждой детали. Наклонная шестерня или угловой компонент будут плотно заключены в рамку, которая соответствует их форме и направлению. Это означает лучшую точность, меньше ошибок и более надежные результаты, особенно в отношении таких вариантов использования, как автоматизированный контроль качества или роботизированная сортировка.
Теперь, когда у нас есть лучшее понимание того, что такое обнаружение OBB, давайте рассмотрим некоторые из наиболее широко используемых моделей Vision AI, которые его поддерживают.
Разработано несколько продвинутых моделей компьютерного зрения, специально предназначенных для обнаружения повернутых или наклонных объектов. Среди них модели Ultralytics YOLO особенно хорошо известны своими надежными и эффективными возможностями обнаружения OBB.
Более ранние версии, такие как Ultralytics YOLOv5, были разработаны для стандартного обнаружения объектов. Более поздние итерации, такие как Ultralytics YOLOv8 и более новая YOLO11, представили встроенную поддержку обнаружения OBB. В частности, YOLO11 обеспечивает современную точность без ущерба для скорости, что делает ее эффективным вариантом для приложений, работающих в реальном времени.
Предварительно обученные модели YOLO11 OBB, такие как YOLO11n-obb, обучены на наборах данных, таких как DOTAv1, который состоит из аэрофотоснимков с аннотациями для различных классов объектов, таких как самолеты, корабли и теннисные корты, которые отображаются под разными углами и ориентациями.
Кроме того, эти модели доступны в пяти различных размерах, от nano (n-obb) до extra-large (x-obb), чтобы соответствовать различным потребностям в производительности. Эта универсальность позволяет применять их в различных отраслях — от мониторинга городской инфраструктуры и проверки оборудования до чтения искаженного текста в отсканированных документах.
Во многих реальных ситуациях объекты, которые вам нужно обнаружить, могут полностью отличаться от объектов в стандартных наборах обучающих данных. Например, такие объекты, как инструменты на производственной линии, упаковки продуктов или компоненты на печатной плате, могут быть повернуты, нерегулярно размещены или иметь другую форму.
Для точного обнаружения этих пользовательских объектов, особенно когда важна ориентация, необходимо обучать модели, такие как YOLO11, используя собственные изображения и метки. Этот процесс известен как пользовательское обучение.
Вот более подробный обзор пошагового процесса обучения YOLO11 для обнаружения OBB:
Объекты, расположенные не по центру или наклоненные, довольно часто встречаются в реальных сценариях. Давайте рассмотрим несколько примеров, когда обнаружение OBB действительно имеет значение, точно обнаруживая эти объекты.
Обнаружение OBB может вывести анализ медицинских изображений на новый уровень, повысив точность. Медицинские изображения часто включают анатомические структуры, такие как опухоли, органы или кости. Эти структуры часто имеют неправильную форму и различную ориентацию. Поскольку OBB могут вращаться, чтобы соответствовать углу объекта, они обеспечивают более точную локализацию и измерение, что имеет решающее значение для диагностики и планирования лечения.
Этот подход особенно эффективен при анализе рентгеновских снимков костных переломов, где положение и выравнивание костей являются ключевыми факторами. Например, обнаружение OBB использовалось для анализа рентгеновских снимков локтевого сустава у детей. Адаптация к ориентации костей помогла повысить точность обнаружения.
Аэрофотосъемка является важным инструментом в таких секторах, как общественная безопасность, мониторинг окружающей среды и городское планирование. Изображения, полученные с помощью дронов или спутников, могут помочь идентифицировать такие объекты, как корабли, транспортные средства и здания. Однако на этих изображениях объекты часто кажутся маленькими и расположенными под необычными углами, что затрудняет их точное обнаружение.
Обнаружение OBB решает эту проблему, наклоняя ограничивающие рамки в соответствии с углом каждого объекта. Это приводит к более точным измерениям размера и ориентации объекта, поддерживая принятие более эффективных решений в таких областях, как градостроительство, оборона, реагирование на стихийные бедствия и мониторинг окружающей среды.
Интересным примером обнаружения OBB является отслеживание судов в морском наблюдении. Спутниковые снимки часто фиксируют суда под разными углами и в разных размерах из-за погодных условий, освещения или движения. OBB могут адаптироваться к этим изменениям, улучшая обнаружение, особенно для небольших или частично скрытых судов.
Сортировка урожая после сбора — важный шаг для обеспечения качества перед упаковкой и отправкой на рынок. Хотя многие системы хорошо работают с круглыми фруктами, такими как яблоки и апельсины, с длинными и узкими культурами, такими как морковь или побеги Zizania, может быть гораздо сложнее справиться. Их формы различаются, и они часто оказываются под разными углами, что затрудняет их точное обнаружение и сортировку.
Для решения этой задачи исследователи разработали систему, которая использует обнаружение ориентированных ограничивающих рамок (OBB) для более точного выявления и оценки этих культур. Система может обнаруживать несколько культур на одном изображении, даже если они наклонены или перекрываются, и оценивать их качество и положение в режиме реального времени.
Вот некоторые из преимуществ использования OBB-детектирования:
Несмотря на то, что обнаружение OBB помогает повысить точность обнаружения в сложных сценах, следует учитывать несколько ограничений:
Детекция ориентированных ограничивающих рамок упрощает решениям компьютерного зрения распознавание объектов, которые не являются идеально прямыми или выровненными. Захватывая как положение, так и ориентацию объектов, обнаружение OBB повышает точность в реальных сценариях использования, таких как сканирование медицинских изображений, мониторинг сельскохозяйственных угодий или анализ спутниковых фотографий.
Благодаря таким моделям, как YOLO11, которые делают обнаружение OBB более доступным, оно становится практичным выбором для многих отраслей. Независимо от того, имеете ли вы дело с наклонными, перекрывающимися или имеющими неправильную форму объектами, обнаружение OBB добавляет дополнительный уровень точности, который часто упускают стандартные методы.
Интересуетесь ИИ? Изучите наш репозиторий GitHub, присоединяйтесь к нашему сообществу и ознакомьтесь с нашими вариантами лицензирования, чтобы дать старт своему проекту в области компьютерного зрения. Узнайте больше об инновациях, таких как ИИ в розничной торговле и компьютерное зрение в логистике, на страницах наших решений.