Тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Роботакси теперь бродят по улицам Сан-Франциско, а люди перешли от поиска ответов в Интернете к общению с искусственным интеллектом в рамках своей повседневной рутины. Эти изменения говорят о том, что искусственный интеллект (ИИ) развивается быстрее, чем когда-либо, и становится частью повседневной жизни.

Например, одной из областей, развивающихся невероятными темпами, является технология компьютерного зрения. Иначе известная как Vision AI, она представляет собой подобласть ИИ, которая фокусируется на помощи машинам в интерпретации и понимании визуальных данных.

Компьютерное зрение уже повсюду - от автоматизированных касс до беспилотников , исследующих линии электропередач. В основе многих из этих систем лежит обнаружение объектов- основная задача компьютерного зрения, которая позволяет машинам распознавать и находить определенные объекты на изображениях и видео.

С ускорением внедрения ИИ растет и потребность в быстром и точном обнаружении объектов. Модели искусственного интеллекта, такие как Ultralytics YOLO11 и готовящаяся к выпуску Ultralytics YOLO26, были созданы с учетом этих требований, делая обнаружение объектов в реальном времени более надежным и доступным, чем когда-либо.

Рис. 1. Пример использования YOLO11 для обнаружения объектов.

‍

Благодаря такому быстрому прогрессу эта область быстро развивается, и несколько возникающих тенденций определяют, каким будет следующее поколение обнаружения объектов. В этой статье мы рассмотрим семь ключевых тенденций, которые определяют будущее обнаружения объектов.

Как работает обнаружение объектов

Прежде чем мы погрузимся в будущие тенденции обнаружения объектов, давайте сделаем шаг назад и рассмотрим, что такое обнаружение объектов, как оно работает за кулисами и как оно развивалось на протяжении многих лет.

Обнаружение объектов - ключевая часть компьютерного зрения, позволяющая системам искусственного интеллекта определять, что находится на изображении, и точно определять местоположение каждого объекта. Чтобы научиться этому, модели обучаются на больших наборах данных с метками, которые показывают объекты в различных условиях, например под разными углами, при разном освещении, разных размеров и расположения.

Со временем модель улавливает закономерности и визуальные подсказки, которые отличают один объект от другого. После обучения модели Vision AI, такие как Ultralytics YOLO , могут сканировать все изображение за один проход, мгновенно рисуя ограничительные рамки и присваивая метки. Такая скорость и точность делают обнаружение объектов эффективным в реальных приложениях.

Рис. 2. Обнаружение рентгеновского излучения с помощью модели YOLO11 .(Источник)

‍

Реальный пример использования обнаружения объектов в действии

Например, при анализе документов такие компании, как Prezent, используют обнаружение объектов для автоматизации сложной задачи по изменению дизайна слайдов презентации. Традиционно этот процесс требовал многочасовой ручной корректировки, определения заголовков, перестановки текстовых полей, выравнивания изображений и перестройки диаграмм, при этом необходимо было сохранить чистый, последовательный макет.

Преобразуя каждый слайд в изображение, модели Ultralytics YOLO могут detect заголовки, текстовые поля, изображения и диаграммы, сохраняя при этом исходную структуру. Это дает системе точное представление о том, как расположен каждый элемент. Благодаря этой информации весь процесс редизайна, который раньше был медленным и утомительным, теперь можно автоматизировать за считанные секунды.

Эволюция обнаружения объектов в компьютерном зрении

Вот краткий обзор того, как развивалось обнаружение объектов на протяжении многих лет:

Первые годы (1960-1970-е): Ранние методики обнаружения объектов пришли из традиционной обработки изображений и часто основывались на сопоставлении шаблонов. При таком подходе компьютеры сравнивали части изображения (пиксели) с заранее заданными образцами, или шаблонами, в поисках сходства. Поскольку эти шаблоны были фиксированными и не могли адаптироваться к изменениям, метод работал только в идеальных условиях. Даже небольших изменений в освещении, масштабе, повороте или внешнем виде объекта было достаточно, чтобы он не сработал.
‍
Обнаружение на основе признаков (1990-е - 2000-е годы): Исследователи перешли к идее ручной обработки признаков и извлечения признаков, когда люди вручную определяли визуальные подсказки, которые должен искать компьютер, такие как края, углы, формы или изменения яркости. Такие техники, как каскады Хаара (метод, который сканирует простые визуальные паттерны, часто используется для обнаружения лиц) и HOG (метод, который фиксирует направление краев и контуров на изображении), которые часто использовались в паре с SVM-классификаторами (модель машинного обучения, которая разделяет объекты на категории), сделали распознавание объектов более точным и быстрым. Но даже с учетом этих улучшений системы все равно не могли работать достаточно быстро для использования в режиме реального времени.
‍
Революция моделей глубокого обучения (2010-е годы): Глубокое обучение и конволюционные нейронные сети (CNN) - модели, предназначенные для изучения визуальных паттернов путем сканирования изображений в небольших областях за раз, - переосмыслили обнаружение объектов. Такие модели, как R-CNN, Fast R-CNN и Faster R-CNN, обучались визуальным паттернам непосредственно из больших объемов данных. Это позволило получить результаты с высокой точностью, но эти модели по-прежнему сталкивались с проблемой задержки.
‍
Обнаружение в реальном времени с помощью YOLO (середина 2010-х годов): YOLO (You Only Look Once) ознаменовал собой значительный прорыв в области обнаружения объектов, предсказав все ограничительные рамки и метки классов за один проход по сети. Этот единый подход значительно увеличил скорость обнаружения и открыл дорогу приложениям, работающим в режиме реального времени. Примерно в то же время другие модели с одним проходом, такие как SSD (Single Shot Detector), также повысили производительность за счет удаления шагов предложения областей, что сделало обнаружение объектов более быстрым и эффективным.

Последние достижения (2020-е годы): Благодаря значительным усовершенствованиям в разработке и оптимизации моделей в 2020-х годах появились более быстрые и точные современные системы и фреймворки для обнаружения объектов. В Ultralytics YOLO11 были внедрены архитектурные обновления, повысившие скорость обработки, точность и общую производительность в реальном времени. Развивая эту тенденцию, грядущий YOLO26 отличается еще более эффективной и легкой конструкцией, что делает его подходящим для широкого спектра практических приложений.

7 тенденций обнаружения объектов, определяющих будущее

Далее мы рассмотрим семь новых тенденций в области обнаружения объектов, которые привлекают внимание и создают шумиху в сфере компьютерного зрения.

1. Более интеллектуальные задачи обнаружения объектов с помощью граничных вычислений

Традиционные ручные проверки могут замедлить производственные линии и оставить место для пропущенных дефектов. Чтобы справиться с этой проблемой, многие компании обращаются к системам контроля качества на основе искусственного интеллекта с функцией обнаружения объектов.

Исследования показывают, что визуальный контроль на основе ИИ может значительно повысить производительность, иногда на 50 %, и увеличить количество обнаруженных дефектов на 90 % по сравнению с ручным контролем. Интересно, что новая тенденция, набирающая обороты в этой области и других приложениях ИИ для визуального контроля, заключается в том, что этот анализ теперь проводится непосредственно на самих устройствах с помощью пограничных вычислений.

Благодаря пограничным вычислениям интеллект перемещается ближе к месту сбора данных. Камеры и датчики могут запускать модели обнаружения объектов на месте, мгновенно идентифицируя их и определяя их местоположение, не прибегая к облачной обработке. Это позволяет анализировать кадры в режиме реального времени.

Это также уменьшает задержки в сети, снижает потребление полосы пропускания и обеспечивает работу систем даже при нестабильном или недоступном интернет-соединении. В таких быстро меняющихся средах, как производство, переход на обработку данных на устройствах обеспечивает более быструю реакцию, плавность работы и гораздо более надежные результаты.

2. Диагностика с помощью зрения в здравоохранении

Врачи часто тратят много времени на просмотр медицинских снимков, чтобы убедиться, что ничего не упущено. Сегодня многие больницы начинают использовать передовые технологии обнаружения объектов, чтобы ускорить процесс. Это отражает более широкую тенденцию в здравоохранении, где искусственный интеллект зрения все чаще используется для поддержки более раннего обнаружения, ускорения диагностики и более последовательного анализа изображений.

Обнаружение объектов может использоваться для быстрого выделения областей, которые могут потребовать внимания, что способствует принятию решений и улучшению результатов лечения пациентов. Например, такие модели, как YOLO11 , могут помочь врачам обнаружить опухоли мозга на снимках МРТ.

Рис. 3. Обнаружение и локализация опухолей мозга на МРТ-сканах с помощью YOLO11.(Источник)

‍

Поскольку YOLO11 способен распознавать тонкие детали на снимках МРТ, он может помочь выявить небольшие опухоли или опухоли на ранних стадиях с большей точностью. В то время как врачи ставят окончательный диагноз, такие инструменты, как YOLO11 , помогают упростить процесс обследования, быстрее выявляя потенциальные проблемы и не упуская ничего важного.

3. Автономные транспортные средства и видение в реальном времени для повышения безопасности передвижения

На оживленных городских улицах самодвижущиеся автомобили полагаются на камеры и датчики для постоянного мониторинга окружающей обстановки. Эти системы в режиме реального времени detect пешеходов, транспортные средства, полосы движения и дорожные знаки. С помощью компьютерного зрения и алгоритмов обнаружения объектов автономный автомобиль может интерпретировать происходящее вокруг него и принимать решения о безопасном автономном вождении.

В регионах с различными схемами движения и разнообразием транспортных средств эти системы становятся еще сложнее. Например, в недавнем исследовании была проведена оценка Ultralytics YOLOv8 модели на данных о дорожном движении, собранных в Хайдарабаде и Бангалоре, где различные транспортные средства, такие как автомобили, автобусы, мотоциклы, велосипеды и авторикши, делят дорогу динамично и часто непредсказуемо.

Результаты показали, что YOLOv8 отлично справляется с этими сложными сценариями, точно обнаруживая широкий спектр объектов даже в условиях плотного и неструктурированного трафика. Это подчеркивает растущую тенденцию в области автономной мобильности: Модели искусственного интеллекта становятся все более способными справляться со сложными условиями реального мира, которые раньше представляли серьезную проблему для автоматизированных систем.

4. Интеллектуальная автоматизация и робототехника с использованием компьютерного зрения

Работа с мелкими предметами, сортировка обнаруженных объектов и материалов, а также навигация в загроможденном пространстве всегда были сложной задачей для роботов. Эти задачи требуют быстрой адаптации и точного перемещения, с чем традиционные системы автоматизации часто сталкиваются в непредсказуемых условиях.

Растущая тенденция в робототехнике - использование Vision AI, позволяющего роботам воспринимать и реагировать на окружающую обстановку в режиме реального времени. Чтобы изучить эту тенденцию, группа исследователей недавно разработала бытового робота, способного распознавать и сортировать предметы по мере перемещения по помещению.

Используя модели типа YOLO11 для обнаружения объектов, а также камеру глубины и гибкий захват, робот смог самостоятельно распознавать предметы разных форм и размеров и помещать их в нужные места. Этот эксперимент показывает, как сочетание компьютерного зрения с роботизированными системами может улучшить пространственную осведомленность и быстроту реакции.

Рис. 4. Робот, использующий YOLO11 и глубинное зондирование для принятия интеллектуальных решений.(Источник)

‍

Он также демонстрирует, как передовые методы искусственного интеллекта помогают роботам адаптироваться к незнакомой обстановке, со временем обучаясь по визуальным шаблонам. Благодаря этим достижениям роботы становятся все более способными и все более интегрированными в повседневные задачи, от помощи по дому до складской логистики и поддержки здравоохранения.

5. Проактивные системы наблюдения и безопасности

Интеллектуальные системы видеонаблюдения быстро внедряют искусственный интеллект для выявления необычных или небезопасных действий. Благодаря моделям обнаружения объектов камеры могут распознавать потенциальные проблемы в режиме реального времени и сразу же оповещать о них службы безопасности, помогая улучшить как профилактику, так и реагирование.

Например, на производственных предприятиях, где использование смартфонов ограничено по соображениям безопасности, системы искусственного интеллекта могут автоматически detect телефоны в момент их появления и track их перемещение с помощью YOLO и других моделей зрения. Это отражает более широкую тенденцию в сфере безопасности, где искусственный интеллект зрения используется для более активного мониторинга окружающей среды и быстрого реагирования на потенциальные риски.

Помимо обнаружения, эти системы все чаще комбинируются с другими технологиями для создания более полного решения по обеспечению безопасности. Пограничные устройства позволяют обрабатывать отснятый материал локально, сокращая задержки и сохраняя надежность работы, а такие инструменты, как системы контроля доступа или распознавания лиц, добавляют дополнительный уровень проверки. Вместе эти технологии позволяют создавать более интеллектуальные и подключенные сети видеонаблюдения, способные быстро и эффективно реагировать на реальные ситуации.

6. Дополненная реальность и обнаружение объектов в повседневной жизни

На загруженных складах и в больших торговых помещениях работникам часто приходится выполнять множество задач одновременно. Дополненная реальность помогает в этом, помещая цифровые подсказки прямо в реальный мир. В паре с системой обнаружения объектов AR-системы могут идентифицировать предметы, track их местонахождение и отображать полезную информацию в режиме реального времени. Это делает повседневные задачи проще, быстрее и интуитивно понятнее для тех, кто ими пользуется.

Растущая тенденция в этой области - использование Vision AI для превращения повседневных устройств в интеллектуальных помощников, способных понимать окружающую обстановку. По мере того как AR и распознавание объектов продолжают сливаться воедино, на рабочих местах начинают внедряться иммерсивные инструменты, поддерживающие управление без помощи рук и более эффективные рабочие процессы.

Хорошим примером являются AR-очки Amazon с искусственным интеллектом, которые в настоящее время находятся в стадии разработки и тестирования. Эти очки используют обнаружение объектов и классификацию изображений, чтобы распознавать посылки, направлять работников по правильному маршруту и регистрировать доказательства доставки. Это обеспечивает безопасность и свободу рук, что помогает работникам оставаться сосредоточенными и эффективными в течение всего дня.

7. Интеллектуальные устройства на базе IoT для систем технического зрения в реальном времени

Умные устройства превратились в интеллектуальные системы, способные видеть, понимать и реагировать на окружающую обстановку. Интернет вещей (IoT) стимулирует этот сдвиг, соединяя камеры, датчики, машины и интеллектуальные приложения в сети, которые собирают и обрабатывают данные в режиме реального времени.

Когда IoT работает вместе с системой обнаружения объектов и пограничными вычислениями, устройства могут интерпретировать визуальную информацию, выявлять аномалии и мгновенно реагировать на них без участия человека. Таким образом, создаются адаптивные и эффективные системы, обеспечивающие работу умных домов, промышленных предприятий и целых городов.

Например, в недавнем исследовании было показано, как система защиты диких животных на основе IoT использует YOLOv8 для detect животных, приближающихся к сельскохозяйственным угодьям. После обнаружения система принимает решения на основе искусственного интеллекта, чтобы включить мягкие отпугивающие средства, такие как свет или звук, и направить животных в безопасное место. Это помогает предотвратить повреждение урожая и одновременно поддерживает мирное сосуществование с местными дикими животными, показывая, как IoT и компьютерное зрение могут сделать сельское хозяйство более устойчивым.

Другие интересные тенденции Vision AI

Помимо этих семи тенденций в области обнаружения объектов, вот несколько заслуживающих внимания разработок, определяющих будущее искусственного интеллекта в области зрения:

Исследования в области самоконтролируемого обучения: Новые методы глубокого обучения позволяют моделям узнавать полезные визуальные особенности из больших наборов неразмеченных изображений, помогая системам обнаружения объектов совершенствоваться, не полагаясь в значительной степени на ручные аннотации.
‍
Рост обнаружения объектов на основе трансформаторов: Трансформаторы становятся все более распространенными, поскольку они фиксируют дальние связи в изображениях, что позволяет моделям лучше понимать контекст и повышает точность обнаружения.
‍
Интеграция технологии обнаружения света и дальности (LiDAR) для более глубокого 3D-восприятия: Сочетание LiDAR с функцией обнаружения объектов с помощью камеры позволяет получить точную информацию о глубине, улучшая 3D-восприятие для таких приложений, как навигация, робототехника и автономное вождение.

Основные выводы

Обнаружение объектов вышло далеко за рамки базового распознавания изображений и теперь используется для работы интеллектуальных систем, способных принимать решения в режиме реального времени. В будущем будущие модели, вероятно, достигнут еще большей точности и более глубокого понимания контекста, что позволит искусственному зрению стать еще более надежным и универсальным в различных отраслях. По мере развития этих технологий будет формироваться новое поколение более умных и адаптивных систем компьютерного зрения.

Хотите узнать больше? Присоединяйтесь к нашему сообществу и изучайте репозиторий GitHub, чтобы общаться с другими специалистами в области ИИ. Посетите страницы наших решений по ИИ в робототехнике и компьютерному зрению для сельского хозяйства, а также изучите варианты лицензирования, чтобы начать работу с Vision AI уже сегодня.

Будущие тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Как работает обнаружение объектов

Реальный пример использования обнаружения объектов в действии

Эволюция обнаружения объектов в компьютерном зрении

7 тенденций обнаружения объектов, определяющих будущее

1. Более интеллектуальные задачи обнаружения объектов с помощью граничных вычислений

2. Диагностика с помощью зрения в здравоохранении

3. Автономные транспортные средства и видение в реальном времени для повышения безопасности передвижения

4. Интеллектуальная автоматизация и робототехника с использованием компьютерного зрения

5. Проактивные системы наблюдения и безопасности

6. Дополненная реальность и обнаружение объектов в повседневной жизни

7. Интеллектуальные устройства на базе IoT для систем технического зрения в реальном времени

Другие интересные тенденции Vision AI

Основные выводы

Читать больше в этой категории

Будущие тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Забивание более умных голов с помощью искусственного интеллекта в футболе

Исследование SAM 3: новая модель Segment Anything от Meta AI

Давайте строить будущее
ИИ вместе!

Будущие тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Как работает обнаружение объектов

Реальный пример использования обнаружения объектов в действии

Эволюция обнаружения объектов в компьютерном зрении

7 тенденций обнаружения объектов, определяющих будущее

1. Более интеллектуальные задачи обнаружения объектов с помощью граничных вычислений

2. Диагностика с помощью зрения в здравоохранении

3. Автономные транспортные средства и видение в реальном времени для повышения безопасности передвижения

4. Интеллектуальная автоматизация и робототехника с использованием компьютерного зрения

5. Проактивные системы наблюдения и безопасности

6. Дополненная реальность и обнаружение объектов в повседневной жизни

7. Интеллектуальные устройства на базе IoT для систем технического зрения в реальном времени

Другие интересные тенденции Vision AI

Основные выводы

Читать больше в этой категории

Будущие тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Забивание более умных голов с помощью искусственного интеллекта в футболе

Исследование SAM 3: новая модель Segment Anything от Meta AI

Давайте строить будущее ИИ вместе!

Давайте строить будущее
ИИ вместе!