Разбираемся, как работают приложения компьютерного зрения
Погрузись вместе с нами в приложения компьютерного зрения. Мы также пройдемся по различным задачам компьютерного зрения, таким как обнаружение объектов и сегментация.

Изучая историю моделей компьютерного зрения, мы увидели, как эволюционировало компьютерное зрение и какой путь привел к созданию современных продвинутых моделей. Современные модели, такие как Ultralytics YOLOv8, поддерживают множество задач компьютерного зрения и находят применение в самых разных захватывающих сферах.
В этой статье мы разберемся с основами компьютерного зрения и моделей зрения. Мы рассмотрим принципы их работы и разнообразные сферы применения в различных отраслях. Инновации в области компьютерного зрения окружают нас повсюду, незаметно формируя наш мир. Давай изучим их по порядку!
Link to this sectionЧто такое компьютерное зрение?#
Искусственный интеллект (ИИ) — это собирательный термин, охватывающий множество технологий, которые стремятся воспроизвести часть человеческого интеллекта. Одной из таких областей ИИ является компьютерное зрение. Компьютерное зрение фокусируется на том, чтобы дать машинам глаза, которые могут видеть, наблюдать и понимать окружающую среду.
Подобно человеческому зрению, решения в области компьютерного зрения стремятся различать объекты, вычислять расстояния и обнаруживать движения. Однако, в отличие от людей, у которых есть жизненный опыт, помогающий видеть и понимать, компьютеры полагаются на огромные объемы данных, камеры высокого разрешения и сложные алгоритмы.

Рис. 1. Сравнение человеческого и компьютерного зрения.
Системы компьютерного зрения способны обрабатывать и анализировать визуальные данные, такие как изображения и видео, с невероятной скоростью и точностью. Способность быстро и точно анализировать огромные объемы визуальной информации делает компьютерное зрение мощным инструментом в различных отраслях, от производства до здравоохранения.
Link to this sectionМодели зрения поддерживают различные задачи компьютерного зрения#
Модели компьютерного зрения являются основой любого приложения компьютерного зрения. По сути, это вычислительные алгоритмы, использующие методы глубокого обучения, разработанные для того, чтобы дать машинам способность интерпретировать и понимать визуальную информацию. Модели зрения позволяют решать важнейшие задачи компьютерного зрения — от классификации изображений до обнаружения объектов. Давай подробнее рассмотрим некоторые из этих задач и примеры их использования.
Link to this sectionКлассификация изображений#
Классификация изображений включает в себя категоризацию и маркировку изображений по заранее определенным классам. Модель зрения, такая как YOLOv8, может быть обучена на больших наборах данных размеченных изображений. В процессе обучения модель учится распознавать закономерности и признаки, связанные с каждым классом. После обучения она может предсказывать категорию новых, ранее не виденных изображений, анализируя их признаки и сравнивая их с изученными закономерностями.

Рис. 2. Пример классификации изображений. (источник: towardsdatascience.com)
Существуют разные типы классификации изображений. Например, при работе с медицинскими изображениями можно использовать бинарную классификацию для разделения снимков на две группы, например, здоровые или больные. Другой тип — многоклассовая классификация. Она помогает классифицировать изображения по множеству групп, например, классификация различных сельскохозяйственных животных, таких как свиньи, козы и коровы. А если ты хочешь классифицировать животных по группам и подгруппам, например, на млекопитающих и птиц, а затем на виды, такие как львы, тигры, орлы и воробьи, то лучшим вариантом будет иерархическая классификация.
Link to this sectionДетекция объектов#
Обнаружение объектов — это процесс идентификации и локализации объектов на изображениях и кадрах видео с помощью компьютерного зрения. Он состоит из двух задач: локализация объекта, при которой вокруг него рисуются ограничивающие рамки (bbox), и классификация объекта, определяющая его категорию. На основе разметки ограничивающих рамок модель зрения учится распознавать закономерности и признаки, характерные для каждой категории объектов, и предсказывать присутствие и местоположение этих объектов на новых, ранее не виденных изображениях.

Рис. 3. YOLOv8 Обнаружение объектов используется для поиска игроков на футбольном поле.
У обнаружения объектов множество вариантов использования в разных отраслях: от спорта до морской биологии. Например, в ритейле технология Amazon’s Just Walk Out использует обнаружение объектов для автоматизации процесса оплаты, идентифицируя товары, которые берут покупатели. Сочетание компьютерного зрения и данных с сенсоров позволяет покупателям брать нужные товары и уходить без ожидания в очереди.
Давай разберемся, как это работает:
- Камеры, установленные на потолке, фиксируют перемещение покупателей по магазину, и это видео в режиме реального времени обрабатывается моделями зрения.
- Обнаружение объектов используется для определения точного товара, который покупатель берет с полки и кладет в корзину, чтобы соответствующим образом обновить его виртуальную корзину.
- Датчики веса на полках повышают точность, фиксируя изъятие или возвращение товара.
- Когда покупатель покидает магазин, обнаружение объектов и технология распознавания лиц подтверждают его уход, а данные для оплаты (например, кредитная карта) используются для автоматического списания средств.
Link to this sectionСемантическая сегментация и сегментация экземпляров#
Семантическая сегментация и сегментация экземпляров — это задачи компьютерного зрения, помогающие разделять изображения на значимые сегменты. Семантическая сегментация классифицирует пиксели на основе их семантического значения и рассматривает все объекты внутри категории как единое целое с одной и той же меткой. Она подходит для маркировки неисчислимых объектов, таких как «небо» или «океан», или кластеров, таких как «листья» или «трава».
Сегментация экземпляров, с другой стороны, позволяет различать отдельные объекты одного класса, присваивая уникальную метку каждому обнаруженному объекту. Ты можешь использовать сегментацию экземпляров для сегментации исчисляемых объектов, где важно количество и независимость каждого из них. Это позволяет более точно идентифицировать и различать объекты.

Рис. 4. Пример семантической сегментации и сегментации экземпляров.
Контраст между семантической сегментацией и сегментацией экземпляров можно нагляднее понять на примере беспилотных автомобилей. Семантическая сегментация отлично подходит для задач, требующих понимания содержимого сцены, и может использоваться в автономных транспортных средствах для классификации дорожных элементов, таких как пешеходные переходы и дорожные знаки. В то же время, сегментация экземпляров может использоваться для различения отдельных пешеходов, транспортных средств и препятствий.
Link to this sectionОценка позы (pose estimation)#
Оценка позы — это задача компьютерного зрения, сфокусированная на обнаружении и отслеживании ключевых точек позы объекта на изображениях или видео. Чаще всего она используется для оценки позы человека, где ключевыми точками являются такие области, как плечи и колени. Оценка позы человека помогает нам понимать и распознавать действия и движения, что критически важно для множества приложений.

Рис. 5. Пример оценки позы с использованием YOLOv8.
Оценка позы может использоваться в спорте для анализа движений атлетов. НБА использует её для изучения перемещений и позиций игроков во время игры. Отслеживая ключевые точки — плечи, локти, колени и лодыжки — оценка позы дает детальное представление о движениях игроков. Эти данные помогают тренерам разрабатывать лучшие стратегии, оптимизировать тренировочные программы и вносить коррективы прямо во время игры. Кроме того, данные помогают отслеживать усталость игрока и риск травм для улучшения общего состояния здоровья и результатов спортсменов.
Link to this sectionОбнаружение объектов с помощью ориентированных ограничивающих рамок#
Обнаружение объектов с ориентированными ограничивающими рамками (OBB) использует повернутые прямоугольники для точной идентификации и локализации объектов на изображении. В отличие от стандартных ограничивающих рамок, которые выровнены по осям изображения, OBB поворачиваются в соответствии с ориентацией объекта. Это делает их особенно полезными для объектов, которые не расположены идеально горизонтально или вертикально. Они отлично подходят для точного обнаружения и изоляции повернутых объектов, позволяя избежать перекрытий в плотных сценах.

Рис. 6. Пример обнаружения объектов с ориентированными ограничивающими рамками на аэрофотоснимке лодок с использованием YOLOv8.
В морском наблюдении идентификация и отслеживание судов являются ключом к безопасности и управлению ресурсами. OBB-обнаружение можно использовать для точной локализации судов, даже если они расположены очень плотно или под разными углами. Это помогает следить за судоходными путями, управлять морским трафиком и оптимизировать работу портов. Также это может помочь при реагировании на чрезвычайные ситуации, позволяя быстро идентифицировать и оценивать повреждения судов и инфраструктуры после таких событий, как ураганы или разливы нефти.
Link to this sectionОтслеживание объектов#
До сих пор мы обсуждали задачи компьютерного зрения, работающие с изображениями. Отслеживание объектов — это задача компьютерного зрения, позволяющая сопровождать объект на всех кадрах видео. Она начинается с идентификации объекта на первом кадре с помощью алгоритмов обнаружения, а затем постоянно отслеживает его положение по мере перемещения на видео. Отслеживание объектов включает в себя методы обнаружения объектов, извлечения признаков и прогнозирования движения для обеспечения точности сопровождения.

Рис. 7. Использование YOLOv8 для отслеживания рыб.
Модели зрения, такие как YOLOv8, могут использоваться для отслеживания рыб в морской биологии. Используя подводные камеры, исследователи могут наблюдать за перемещениями и поведением рыб в их естественной среде обитания. Процесс начинается с обнаружения отдельных рыб на первых кадрах, а затем их положение отслеживается на всем видео. Отслеживание рыб помогает ученым понять пути миграции, социальное поведение и взаимодействие с окружающей средой. Это также поддерживает методы устойчивого рыболовства, предоставляя данные о распространении и численности рыбы.
Link to this sectionВзгляд на будущее компьютерного зрения#
Компьютерное зрение активно меняет то, как мы используем технологии и взаимодействуем с миром. Используя модели глубокого обучения и сложные алгоритмы для понимания изображений и видео, компьютерное зрение помогает отраслям оптимизировать многие процессы. Задачи компьютерного зрения, такие как обнаружение и отслеживание объектов, позволяют создавать решения, которые раньше казались невозможными. По мере совершенствования технологии компьютерного зрения нас ждет еще много инновационных применений!
Давай учиться и развиваться вместе! Изучи наш репозиторий на GitHub, чтобы увидеть наш вклад в ИИ. Посмотри, как мы с помощью ИИ меняем такие отрасли, как беспилотные автомобили и сельское хозяйство. 🚀






