Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Изучение различных типов данных для приложений Vision AI

Абирами Вина

4 мин чтения

9 мая 2025 г.

Узнайте, как типы визуальных данных, такие как тепловизионная съемка, LiDAR и инфракрасные изображения, обеспечивают разнообразные приложения компьютерного зрения в различных отраслях.

Такие технологии, как дроны, раньше были ограничены и доступны только исследователям и специалистам, но в настоящее время передовое оборудование становится все более доступным для широкой аудитории. Этот сдвиг меняет способы сбора визуальных данных. Благодаря более доступным технологиям мы теперь можем получать изображения и видео из различных источников, а не только с традиционных камер.

Параллельно с этим, аналитика изображений, обеспечиваемая компьютерным зрением, отраслью искусственного интеллекта (ИИ), быстро развивается, позволяя машинам более эффективно интерпретировать и обрабатывать визуальные данные. Это достижение открыло новые возможности для автоматизации, обнаружения объектов и анализа в реальном времени. Теперь машины могут распознавать закономерности, отслеживать движения и понимать сложные визуальные входные данные.

Некоторые ключевые типы визуальных данных включают изображения RGB (красный, зеленый, синий), которые обычно используются для распознавания объектов, тепловизионную съемку, которая помогает обнаруживать тепловые сигнатуры в условиях низкой освещенности, и данные о глубине, которые позволяют машинам понимать 3D-среду. Каждый из этих типов данных играет жизненно важную роль в обеспечении работы различных приложений Vision AI, от наблюдения до медицинской визуализации.

В этой статье мы рассмотрим основные типы визуальных данных, используемых в Vision AI, и изучим, как каждый из них способствует повышению точности, эффективности и производительности в различных отраслях. Давайте начнем!

Наиболее распространенный тип наборов данных изображений и видео для ИИ

Как правило, когда вы используете смартфон для фотосъемки или просмотра видео с камер видеонаблюдения, вы работаете с изображениями RGB. RGB означает красный, зеленый и синий — это три цветовых канала, которые представляют визуальную информацию в цифровых изображениях. 

RGB-изображения и видео — это тесно связанные типы визуальных данных, используемые в компьютерном зрении, оба из которых снимаются с помощью стандартных камер. Ключевое различие заключается в том, что изображения фиксируют один момент, а видео — это последовательность кадров, показывающих, как вещи меняются со временем.

RGB-изображения обычно используются для задач компьютерного зрения, таких как обнаружение объектов, сегментация экземпляров и оценка позы, поддерживаемые такими моделями, как Ultralytics YOLO11. Эти приложения основаны на выявлении закономерностей, форм или конкретных признаков в одном кадре. 

Видео, с другой стороны, необходимы, когда важен фактор движения или времени, например, для распознавания жестов, видеонаблюдения или отслеживания действий. Поскольку видео можно рассматривать как последовательность изображений, модели компьютерного зрения, такие как YOLO11, обрабатывают их покадрово, чтобы понять движение и поведение во времени.

Например, YOLO11 можно использовать для анализа RGB-изображений или видео для обнаружения сорняков и подсчета растений на сельскохозяйственных полях. Это улучшает мониторинг посевов и помогает отслеживать изменения в течение вегетационных циклов для более эффективного управления фермерским хозяйством.

Рис. 1. YOLO11 может обнаруживать и подсчитывать растения для более эффективного мониторинга посевов.

Данные о глубине в Vision AI: LiDAR и 3D-восприятие

Данные о глубине добавляют третье измерение к визуальной информации, указывая, как далеко объекты находятся от камеры или датчика. В отличие от RGB-изображений, которые только фиксируют цвет и текстуру, данные о глубине обеспечивают пространственный контекст. Они показывают расстояние между объектами и камерой, позволяя интерпретировать 3D-компоновку сцены.

Этот тип данных собирается с помощью таких технологий, как LiDAR, стереозрение (использование двух камер для имитации человеческого восприятия глубины) и камеры Time-of-Flight (измерение времени, которое требуется свету, чтобы достичь объекта и вернуться обратно). 

Среди них LiDAR (Light Detection and Ranging) часто является наиболее надежным для измерения глубины. Он работает, отправляя быстрые лазерные импульсы и измеряя время, которое требуется им, чтобы отразиться обратно. Результатом является высокоточная 3D-карта, известная как облако точек, которая выделяет форму, положение и расстояние объектов в режиме реального времени.

Растущая роль LiDAR в системах Vision AI

Технологию LiDAR можно разделить на два основных типа, каждый из которых предназначен для конкретных приложений и сред. Вот более подробный взгляд на оба типа:

  • Аэро LiDAR: Обычно используется для картографирования больших территорий, аэро LiDAR-сканеры устанавливаются на дроны или самолеты для сбора данных с высоким разрешением для крупномасштабного топографического картографирования. Он идеально подходит для съемки местности, лесов и ландшафтов.

  • Наземный LiDAR: Этот тип данных LiDAR собирается с датчиков, установленных на транспортных средствах или стационарных платформах, для таких применений, как мониторинг инфраструктуры, строительство и картографирование помещений. Он предоставляет очень подробные данные для небольших, локализованных областей, что делает его полезным для таких задач, как городское планирование и съемка конкретных сооружений.

Важным применением данных LiDAR является использование в автономных транспортных средствах, где он играет ключевую роль в таких задачах, как обнаружение полосы движения, предотвращение столкновений и идентификация близлежащих объектов. LiDAR генерирует подробные 3D-карты окружающей среды в режиме реального времени, позволяя транспортному средству видеть объекты, вычислять расстояние до них и безопасно перемещаться.

Рис. 2. Технология LiDAR позволяет автономным транспортным средствам отображать глубину и обнаруживать объекты.

Использование тепловых и инфракрасных данных в приложениях AI

RGB-изображения фиксируют то, что мы видим в спектре видимого света; однако другие технологии визуализации, такие как тепловая и инфракрасная визуализация, выходят за рамки этого. Инфракрасная визуализация фиксирует инфракрасный свет, который излучается или отражается объектами, что делает ее полезной в условиях низкой освещенности.

Тепловая визуализация, напротив, обнаруживает тепло, излучаемое объектами, и показывает разницу температур, позволяя ей работать в полной темноте или сквозь дым, туман и другие препятствия. Этот тип данных особенно полезен для мониторинга и выявления проблем, особенно в отраслях, где изменения температуры могут сигнализировать о потенциальных проблемах.

Интересным примером является использование тепловой визуализации для мониторинга электрических компонентов на предмет признаков перегрева. Обнаруживая разницу температур, тепловизионные камеры могут выявлять проблемы до того, как они приведут к отказу оборудования, пожарам или дорогостоящему ущербу. 

Рис. 3. Пример использования тепловой визуализации для мониторинга электрических компонентов.

Аналогичным образом, инфракрасные изображения могут помочь обнаружить утечки в трубопроводах или изоляции, выявляя разницу температур, которая указывает на утечку газов или жидкостей, что имеет решающее значение для предотвращения опасных ситуаций и повышения энергоэффективности.

Мультиспектральная и гиперспектральная визуализация в AI

В то время как инфракрасная и тепловая визуализация фиксируют определенные аспекты электромагнитного спектра, мультиспектральная визуализация собирает свет из нескольких выбранных диапазонов длин волн, каждый из которых выбран для определенной цели, например, для обнаружения здоровой растительности или идентификации материалов поверхности. 

Гиперспектральная визуализация идет еще дальше, фиксируя свет в сотнях очень узких и непрерывных диапазонов длин волн. Это обеспечивает подробную световую сигнатуру для каждого пикселя в изображении, предлагая гораздо более глубокое понимание любого наблюдаемого материала.

Рис. 4. Сравнение мультиспектральной и гиперспектральной визуализации.

Как мультиспектральная, так и гиперспектральная визуализация используют специальные датчики и фильтры для захвата света на разных длинах волн. Затем данные организуются в трехмерную структуру, называемую спектральным кубом, где каждый слой представляет собой разную длину волны. 

Модели AI могут анализировать эти данные для обнаружения функций, которые обычные камеры или человеческий глаз не могут увидеть. Например, в фенотипировании растений гиперспектральная визуализация может использоваться для мониторинга здоровья и роста растений путем обнаружения незначительных изменений в их листьях или стеблях, таких как дефицит питательных веществ или стресс. Это помогает исследователям оценивать здоровье растений и оптимизировать методы ведения сельского хозяйства без необходимости использования инвазивных методов.

Анализ радиолокационных и гидролокационных изображений с использованием ИИ

Радиолокационная и гидролокационная визуализация — это технологии, которые обнаруживают и отображают объекты, отправляя сигналы и анализируя их отражения, подобно LiDAR. В отличие от RGB-изображений, которые используют световые волны для захвата визуальной информации, радар использует электромагнитные волны, обычно радиоволны, а гидролокатор — звуковые волны. Обе системы, радиолокационная и гидролокационная, излучают импульсы и измеряют время, необходимое сигналу для отражения от объекта, предоставляя информацию о его расстоянии, размере и скорости.

Радиолокационная визуализация особенно полезна при плохой видимости, например, во время тумана, дождя или в ночное время. Поскольку она не зависит от света, она может обнаруживать самолеты, транспортные средства или местность в полной темноте. Это делает радар надежным выбором в авиации, метеорологическом мониторинге и автономной навигации.

В сравнении с этим, гидролокационная визуализация обычно используется в подводных средах, куда не проникает свет. Она использует звуковые волны, которые распространяются в воде и отражаются от подводных объектов, что позволяет обнаруживать подводные лодки, составлять карты морского дна и выполнять подводные спасательные операции. Достижения в области компьютерного зрения в настоящее время позволяют дополнительно улучшить подводное обнаружение путем объединения данных гидролокатора с интеллектуальным анализом для улучшения обнаружения и принятия решений.

Рис. 5. Как гидролокатор использует ультразвуковые импульсы для измерения глубины моря.

Синтетические и смоделированные визуальные данные для обучения моделей ИИ

До сих пор различные типы данных, которые мы обсуждали, были теми, которые можно собрать из реального мира. Однако синтетические и смоделированные визуальные данные — это типы искусственного контента. Синтетические данные генерируются с нуля с использованием 3D-моделирования или генеративного ИИ для создания реалистично выглядящих изображений или видео. 

Рис. 6. Пример синтетически сгенерированных изображений.

Смоделированные данные похожи, но включают в себя создание виртуальных сред, которые воспроизводят поведение физического мира, включая отражение света, формирование теней и движение объектов. Хотя все смоделированные визуальные данные являются синтетическими, не все синтетические данные являются смоделированными. Ключевое различие заключается в том, что смоделированные данные воспроизводят реалистичное поведение, а не только внешний вид.

Эти типы данных полезны для обучения моделей компьютерного зрения, особенно когда реальные данные трудно собрать или когда необходимо смоделировать конкретные, редкие ситуации. Разработчики могут создавать целые сцены, выбирать типы объектов, положения и освещение, а также автоматически добавлять метки, такие как ограничивающие рамки, для обучения. Это помогает быстро создавать большие, разнообразные наборы данных без необходимости использования реальных фотографий или ручной разметки, что может быть дорогостоящим и трудоемким.

Например, в здравоохранении синтетические данные можно использовать для обучения моделей сегментации клеток рака молочной железы, где сбор и разметка больших наборов данных реальных изображений затруднены. Синтетические и смоделированные данные обеспечивают гибкость и контроль, заполняя пробелы, где реальные визуальные данные ограничены.

Выбор правильного типа визуальных данных для вашего приложения ИИ

Теперь, когда мы рассмотрели, как работают различные типы визуальных данных и что они могут делать, давайте подробнее рассмотрим, какие типы данных лучше всего подходят для конкретных задач:

  • RGB-изображения: Идеально подходят для общих задач компьютерного зрения, таких как классификация изображений и обнаружение объектов. Они захватывают цвет и текстуру, но ограничены в сложных условиях, таких как слабое освещение или плохая видимость.

  • LiDAR-изображения: Этот тип визуализации предлагает высокоточное 3D-картографирование с использованием лазерных импульсов. Он отлично подходит для приложений, требующих точных измерений расстояния, таких как робототехника, автономные транспортные средства и инспекция инфраструктуры.
  • Тепловизионные изображения: Поскольку они могут обнаруживать разницу температур, они полезны в условиях низкой видимости, таких как ночной мониторинг, пожаротушение или обнаружение утечек тепла в механизмах и зданиях.
  • Мультиспектральные и гиперспектральные изображения: Полезны для задач, требующих детального анализа материалов, таких как сельскохозяйственный мониторинг, контроль качества фармацевтической продукции или дистанционное зондирование. Эти методы обеспечивают более глубокое понимание, захватывая данные в широком диапазоне длин волн за пределами видимого света.

  • Радиолокационные и гидролокационные изображения: Предпочтительны в условиях низкой видимости. Радар использует радиоволны и полезен в авиации и навигации, а гидролокатор использует звуковые волны для работы под водой.

  • Синтетические и смоделированные визуальные данные: Идеально подходят для обучения моделей ИИ, когда реальные данные ограничены, недоступны или их трудно разметить. Эти искусственные визуальные данные помогают создавать разнообразные наборы данных для сложных сценариев, таких как редкие события или критические для безопасности условия.

Иногда одного типа данных может быть недостаточно для обеспечения достаточной точности или контекста в реальных ситуациях. Именно здесь ключевым становится мультимодальное объединение датчиков. Объединяя RGB с другими типами данных, такими как тепловые, глубинные или LiDAR, системы могут преодолеть индивидуальные ограничения, повышая надежность и адаптируемость. 

Например, в автоматизации складов использование RGB для распознавания объектов, глубины для измерения расстояния и тепловизора для обнаружения перегрева оборудования делает операции более эффективными и безопасными. В конечном счете, наилучшие результаты достигаются за счет выбора или объединения типов данных на основе конкретных потребностей вашего приложения.

Основные выводы

При создании моделей Vision AI выбор правильного типа визуальных данных имеет решающее значение. Такие задачи, как обнаружение объектов, сегментация и отслеживание движения, зависят не только от алгоритмов, но и от качества входных данных. Чистые, разнообразные и точные наборы данных помогают уменьшить шум и повысить производительность.

Объединяя типы данных, такие как RGB, глубина, тепловизионные и LiDAR, системы ИИ получают более полное представление об окружающей среде, что делает их более надежными в различных условиях. По мере того, как технологии продолжают совершенствоваться, это, вероятно, откроет путь к тому, что Vision AI станет быстрее, адаптируемее и окажет большее влияние на различные отрасли.

Присоединяйтесь к нашему сообществу и изучите наш репозиторий GitHub, чтобы узнать больше о компьютерном зрении. Откройте для себя различные приложения, связанные с ИИ в здравоохранении и компьютерным зрением в розничной торговле, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования, чтобы начать работу с Vision AI.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена