Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

Исследование различных типов данных для приложений Vision AI

Узнай, как типы визуальных данных, такие как тепловизионная съемка, LiDAR и инфракрасные изображения, расширяют возможности компьютерного зрения в различных отраслях.

АБАбирами Вина
4 min read
Типы визуальных данных для приложений Vision AI

Такие технологии, как дроны, раньше были ограничены и доступны лишь исследователям и специалистам, но сегодня передовое оборудование становится доступным более широкой аудитории. Этот сдвиг меняет способы сбора визуальных данных. Благодаря доступности технологий мы можем получать изображения и видео из самых разных источников, а не только с традиционных камер.

Параллельно с этим стремительно развивается видеоаналитика, основанная на компьютерном зрении, — отрасли искусственного интеллекта (ИИ), которая позволяет машинам эффективнее интерпретировать и обрабатывать визуальные данные. Этот прогресс открыл новые возможности для автоматизации, обнаружения объектов и анализа в реальном времени. Машины теперь могут распознавать паттерны, отслеживать движения и анализировать сложную визуальную информацию.

К ключевым типам визуальных данных относятся RGB-изображения (красный, зеленый, синий), которые часто используются для распознавания объектов; тепловизионные изображения, помогающие обнаруживать тепловые сигнатуры в условиях низкой освещенности; и данные о глубине, позволяющие машинам понимать трехмерное пространство. Каждый из этих типов данных играет жизненно важную роль в работе различных приложений компьютерного зрения — от систем наблюдения до медицинской визуализации.

В этой статье мы рассмотрим основные виды визуальных данных, используемых в компьютерном зрении, и выясним, как каждый из них способствует повышению точности, эффективности и производительности в различных отраслях. Приступим!

Link to this sectionСамый распространенный тип датасетов с ИИ-изображениями и видео#

Обычно, когда ты снимаешь фото на смартфон или смотришь запись с камер видеонаблюдения, ты работаешь с RGB-изображениями. RGB расшифровывается как «красный, зеленый и синий» (red, green, blue) — это три цветовых канала, которые представляют визуальную информацию в цифровых изображениях.

RGB-изображения и видео — это тесно связанные типы визуальных данных, используемые в компьютерном зрении, и оба вида захватываются стандартными камерами. Основное различие заключается в том, что изображения фиксируют один момент времени, тогда как видео — это последовательность кадров, показывающая изменения со временем.

RGB-изображения обычно используются для задач компьютерного зрения, таких как обнаружение объектов, сегментация экземпляров и оценка позы, при поддержке таких моделей, как Ultralytics YOLO11. Эти приложения основаны на выявлении паттернов, форм или специфических характеристик в одном кадре.

Видео, с другой стороны, незаменимы, когда важны движение или время, например, для распознавания жестов, систем наблюдения или отслеживания действий. Поскольку видео можно рассматривать как ряд изображений, модели компьютерного зрения, такие как YOLO11, обрабатывают их кадр за кадром, чтобы понять движение и поведение в динамике.

Например, YOLO11 можно использовать для анализа RGB-изображений или видео с целью обнаружения сорняков и подсчета растений на сельскохозяйственных полях. Это улучшает мониторинг урожая и помогает отслеживать изменения на протяжении циклов роста для более эффективного управления фермой.

YOLO11 обнаруживает и подсчитывает растения для мониторинга урожая

Рис. 1. YOLO11 может обнаруживать и подсчитывать растения для более умного мониторинга урожая.

Link to this sectionДанные о глубине в компьютерном зрении: LiDAR и 3D-восприятие#

Данные о глубине добавляют третье измерение к визуальной информации, указывая на то, как далеко объекты находятся от камеры или датчика. В отличие от RGB-изображений, которые фиксируют только цвет и текстуру, данные о глубине предоставляют пространственный контекст. Они демонстрируют расстояние между объектами и камерой, что позволяет интерпретировать 3D-структуру сцены.

Этот тип данных собирается с помощью таких технологий, как LiDAR, стереозрение (использование двух камер для имитации человеческого восприятия глубины) и ToF-камеры (Time-of-Flight, измеряющие время прохождения света до объекта и обратно).

Среди них LiDAR (Light Detection and Ranging — обнаружение и определение дальности с помощью света) часто является наиболее надежным для измерения глубины. Он работает путем отправки быстрых лазерных импульсов и измерения времени их возвращения. Результатом является высокоточная 3D-карта, называемая облаком точек, которая выделяет форму, положение и расстояние до объектов в реальном времени.

Link to this sectionРастущая роль LiDAR в системах компьютерного зрения#

Технологию LiDAR можно разделить на два основных типа, каждый из которых предназначен для конкретных задач и сред. Давай подробнее рассмотрим оба типа:

  • Воздушный LiDAR: Обычно используется для картографирования больших территорий. Сканеры воздушного LiDAR устанавливаются на дроны или самолеты для захвата данных высокого разрешения для масштабного топографического картирования. Это идеальный вариант для съемки местности, лесов и ландшафтов.
  • Наземный LiDAR: Этот тип LiDAR-данных собирается с датчиков, установленных на транспортных средствах или стационарных платформах, для таких задач, как мониторинг инфраструктуры, строительство и картирование помещений. Он предоставляет очень детальные данные для небольших локальных участков, что полезно для городского планирования и геодезической съемки конкретных объектов.

Эффективным применением данных LiDAR являются автономные транспортные средства, где они играют ключевую роль в обнаружении полос движения, предотвращении столкновений и выявлении ближайших объектов. LiDAR создает подробные 3D-карты окружающей среды в реальном времени, позволяя транспортному средству видеть объекты, вычислять расстояние до них и безопасно передвигаться.

LiDAR позволяет автономным транспортным средствам составлять карту глубины и обнаруживать объекты

Рис. 2. Технология LiDAR позволяет автономным транспортным средствам отображать глубину и обнаруживать объекты.

Link to this sectionИспользование тепловых и инфракрасных данных в ИИ-приложениях#

RGB-изображения фиксируют то, что мы видим в видимом спектре света; однако другие технологии визуализации, такие как тепловизионная и инфракрасная, выходят за эти рамки. Инфракрасная визуализация улавливает инфракрасный свет, излучаемый или отражаемый объектами, что полезно в условиях низкой освещенности.

Тепловизионная визуализация, напротив, обнаруживает тепло, излучаемое объектами, и показывает разницу температур, что позволяет работать в полной темноте или сквозь дым, туман и другие препятствия. Этот тип данных особенно полезен для мониторинга и выявления проблем, особенно в тех отраслях, где температурные изменения могут сигнализировать о потенциальных неисправностях.

Интересным примером является использование тепловизоров для мониторинга электрических компонентов на предмет перегрева. Обнаруживая разницу температур, тепловизионные камеры могут выявить проблемы до того, как они приведут к поломке оборудования, возгоранию или дорогостоящему ущербу.

Тепловизионная съемка, используемая для мониторинга электрических компонентов

Рис. 3. Пример использования тепловизионной съемки для мониторинга электрических компонентов.

Аналогично, инфракрасные изображения помогают обнаруживать утечки в трубопроводах или изоляции, выявляя перепады температур, которые указывают на выход газов или жидкостей, что критически важно для предотвращения опасных ситуаций и повышения энергоэффективности.

Link to this sectionМультиспектральная и гиперспектральная визуализация в ИИ#

В то время как инфракрасная и тепловизионная съемка фиксируют специфические аспекты электромагнитного спектра, мультиспектральная визуализация собирает свет из нескольких выбранных диапазонов длин волн, каждый из которых предназначен для конкретной цели, например, для оценки состояния растительности или идентификации материалов поверхности.

Гиперспектральная визуализация делает еще один шаг вперед, захватывая свет в сотнях очень узких и непрерывных диапазонов длин волн. Это дает детальную световую сигнатуру для каждого пикселя изображения, предлагая гораздо более глубокое понимание наблюдаемого материала.

Сравнение мультиспектральной и гиперспектральной съемки

Рис. 4. Сравнение мультиспектральной и гиперспектральной визуализации.

И мультиспектральная, и гиперспектральная визуализация используют специальные сенсоры и фильтры для захвата света на разных длинах волн. Затем данные организуются в 3D-структуру, называемую спектральным кубом, где каждый слой представляет отдельную длину волны.

ИИ-модели могут анализировать эти данные для обнаружения характеристик, которые не видны обычным камерам или человеческому глазу. Например, в фенотипировании растений гиперспектральная визуализация может использоваться для мониторинга здоровья и роста растений путем обнаружения едва заметных изменений в их листьях или стеблях, таких как дефицит питательных веществ или стресс. Это помогает исследователям оценивать состояние растений и оптимизировать сельскохозяйственные практики без использования инвазивных методов.

Link to this sectionАнализ радарных и сонарных изображений с помощью ИИ#

Радарная и сонарная визуализация — это технологии, которые обнаруживают и наносят на карту объекты путем отправки сигналов и анализа их отражений, подобно LiDAR. В отличие от RGB-визуализации, которая опирается на световые волны для захвата визуальной информации, радар использует электромагнитные волны (обычно радиоволны), а сонар — звуковые волны. Обе системы, радарная и сонарная, излучают импульсы и измеряют время возвращения сигнала от объекта, предоставляя информацию о его расстоянии, размере и скорости.

Радарная визуализация особенно полезна при плохой видимости, например, во время тумана, дождя или ночью. Поскольку она не зависит от света, она может обнаруживать самолеты, транспортные средства или рельеф в полной темноте. Это делает радар надежным выбором в авиации, мониторинге погоды и автономной навигации.

Для сравнения, сонарная визуализация часто используется в подводной среде, куда не проникает свет. Она использует звуковые волны, которые проходят сквозь воду и отражаются от погруженных объектов, позволяя обнаруживать подводные лодки, составлять карты океанского дна и выполнять подводные спасательные миссии. Достижения в области компьютерного зрения теперь позволяют еще больше улучшить подводное обнаружение путем объединения данных сонара с интеллектуальным анализом для повышения качества обнаружения и принятия решений.

Как гидролокатор использует ультразвуковые импульсы для измерения глубины моря

Рис. 5. Как сонарная система использует ультразвуковые импульсы для измерения глубины моря.

Link to this sectionСинтетические и симулированные визуальные данные для обучения ИИ-моделей#

До сих пор мы обсуждали типы данных, которые можно собрать в реальном мире. Однако синтетические и симулированные визуальные данные — это виды искусственного контента. Синтетические данные создаются с нуля с использованием 3D-моделирования или генеративного ИИ для получения реалистичных изображений или видео.

Взгляд на синтетически сгенерированные изображения

Рис. 6. Взгляд на синтетически сгенерированные изображения.

Симулированные данные похожи, но они включают создание виртуальных сред, имитирующих поведение физического мира, включая отражение света, образование теней и движение объектов. Хотя все симулированные визуальные данные являются синтетическими, не все синтетические данные являются симулированными. Ключевое различие в том, что симулированные данные воспроизводят реалистичное поведение, а не только внешний вид.

Эти типы данных полезны для обучения моделей компьютерного зрения, особенно когда данные реального мира сложно собрать или когда необходимо симулировать специфические редкие ситуации. Разработчики могут создавать целые сцены, выбирать типы объектов, их положение и освещение, а также автоматически добавлять метки, например, ограничивающие рамки (BBox) для обучения. Это помогает быстро создавать обширные и разнообразные датасеты без необходимости в реальных фотографиях или ручной разметке, которая может быть дорогой и трудоемкой.

Например, в здравоохранении синтетические данные можно использовать для обучения моделей сегментации клеток рака груди, где сбор и разметка больших наборов реальных изображений затруднены. Синтетические и симулированные данные обеспечивают гибкость и контроль, заполняя пробелы там, где реальные визуальные данные ограничены.

Link to this sectionВыбор подходящего типа визуальных данных для твоего ИИ-приложения#

Теперь, когда мы разобрались, как работают различные типы визуальных данных и для чего они нужны, давай подробнее рассмотрим, какие из них лучше всего подходят для конкретных задач:

  • RGB-изображения: Идеально подходят для общих задач компьютерного зрения, таких как классификация изображений и обнаружение объектов. Они фиксируют цвет и текстуру, но ограничены в сложных условиях, таких как низкая освещенность или плохая видимость.
  • LiDAR: Этот тип визуализации обеспечивает высокоточное 3D-картирование с использованием лазерных импульсов. Отлично подходит для приложений, требующих точных измерений расстояния, таких как робототехника, автономные транспортные средства и инспекция инфраструктуры.
  • Тепловизионная визуализация: Поскольку она может обнаруживать разницу температур, она полезна в условиях плохой видимости, например, при ночном мониторинге, пожаротушении или обнаружении утечек тепла в оборудовании и зданиях.
  • Мультиспектральная и гиперспектральная визуализация: Полезны для задач, требующих детального анализа материалов, таких как сельскохозяйственный мониторинг, контроль качества в фармацевтике или дистанционное зондирование. Эти методы дают более глубокое понимание за счет сбора данных в широком диапазоне длин волн за пределами видимого света.
  • Радарная и сонарная визуализация: Являются предпочтительными в средах с низкой видимостью. Радар использует радиоволны и полезен в авиации и навигации, тогда как сонар использует звуковые волны для работы при подводном обнаружении.
  • Синтетические и симулированные визуальные данные: Идеальны для обучения ИИ-моделей, когда данные реального мира ограничены, недоступны или их трудно размечать. Эти искусственные визуальные материалы помогают создавать разнообразные датасеты для сложных сценариев, таких как редкие события или критически важные для безопасности условия.

Иногда один тип данных может не обеспечить достаточную точность или контекст в реальных ситуациях. Здесь на помощь приходит мультимодальная сенсорная интеграция. Объединяя RGB с другими типами данных, такими как тепловые, данные о глубине или LiDAR, системы могут преодолеть индивидуальные ограничения, повышая надежность и адаптивность.

Например, при автоматизации склада использование RGB для распознавания объектов, глубины — для измерения расстояния, а тепловизионной съемки — для обнаружения перегрева оборудования делает операции более эффективными и безопасными. В конечном итоге, лучшие результаты достигаются путем выбора или объединения типов данных на основе специфических потребностей твоего приложения.

Link to this sectionОсновные выводы#

При создании моделей компьютерного зрения выбор правильного типа визуальных данных имеет решающее значение. Задачи, такие как обнаружение объектов, сегментация и отслеживание движения, зависят не только от алгоритмов, но и от качества входных данных. Чистые, разнообразные и точные датасеты помогают снизить уровень шума и повысить производительность.

Комбинируя типы данных, такие как RGB, глубина, тепловые данные и LiDAR, ИИ-системы получают более полное представление об окружающей среде, становясь надежнее в различных условиях. По мере развития технологий это, вероятно, позволит компьютерному зрению стать быстрее, адаптивнее и эффективнее во многих отраслях.

Присоединяйся к нашему сообществу и изучай наш репозиторий на GitHub, чтобы узнать больше о компьютерном зрении. Открой для себя различные приложения, связанные с ИИ в здравоохранении и компьютерным зрением в ритейле на страницах наших решений. Ознакомься с нашими вариантами лицензирования, чтобы начать работу с компьютерным зрением.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения