Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Полное руководство по аугментации данных в 2025 году

Абирами Вина

6 мин чтения

14 февраля 2025 г.

Узнайте, как увеличение объема данных изображений помогает моделям Vision AI лучше обучаться, повышать точность и более эффективно работать в реальных ситуациях.

Благодаря буму ИИ такие явления, как работающие на заводах роботы и самоуправляемые автомобили, курсирующие по улицам, все чаще попадают в заголовки новостей. ИИ меняет способ взаимодействия машин с миром, от улучшения медицинской визуализации до помощи в контроле качества на производственных линиях.

Значительная часть этого прогресса связана с компьютерным зрением, разделом ИИ, который позволяет машинам понимать и интерпретировать изображения. Подобно тому, как люди учатся распознавать объекты и закономерности с течением времени, модели Vision AI, такие как Ultralytics YOLO11, должны быть обучены на больших объемах данных изображений, чтобы развить свое визуальное понимание.

Однако, собрать такое огромное количество визуальных данных не всегда легко. Несмотря на то, что сообщество компьютерного зрения создало много больших наборов данных, в них все еще могут отсутствовать определенные вариации - например, изображения с объектами при слабом освещении, частично скрытые предметы или вещи, рассматриваемые под разными углами. Эти различия могут сбивать с толку модели компьютерного зрения, которые были обучены только в определенных условиях.

Аугментация данных изображений — это метод, который решает эту проблему путем внесения новых изменений в существующие данные. Внося изменения в изображения, такие как корректировка цветов, поворот или изменение перспективы, набор данных становится более разнообразным, что помогает моделям Vision AI лучше распознавать объекты в реальных ситуациях.

В этой статье мы рассмотрим, как работает аугментация данных изображений и какое влияние она может оказать на приложения компьютерного зрения.

Что такое увеличение объема данных изображения?

Предположим, вы пытаетесь узнать друга в толпе, но на нем надеты солнцезащитные очки или он стоит в тени. Даже с этими незначительными изменениями во внешности вы все равно знаете, кто это. С другой стороны, модель Vision AI может столкнуться с трудностями при таких вариациях, если она не была обучена распознавать объекты в различных условиях.

Аугментация данных изображений улучшает производительность модели компьютерного зрения, добавляя измененные версии существующих изображений в обучающие данные, вместо сбора тысяч новых изображений. 

Изменения изображений, такие как отражение, поворот, регулировка яркости или добавление небольших искажений, подвергают модели Vision AI более широкому спектру условий. Вместо того чтобы полагаться на огромные наборы данных, модели могут эффективно обучаться на небольших наборах данных с дополненными изображениями. 

__wf_reserved_inherit
Рис. 1. Примеры дополненных изображений автомобиля.

Важность увеличения данных в компьютерном зрении

Вот некоторые из ключевых причин, почему аугментация так важна для компьютерного зрения:

  • Сокращает требования к данным: Сбор больших наборов изображений требует времени и ресурсов. Для эффективного обучения моделей можно использовать аугментацию без необходимости в огромных наборах данных.
  • Предотвращает переобучение: Модель, обученная на слишком малом количестве примеров, может запоминать детали вместо распознавания общих закономерностей. Добавление разнообразия посредством аугментации гарантирует, что модели Vision AI обучаются таким образом, чтобы их можно было применять к новым и невиданным данным.
  • Имитирует несовершенные изображения: Изображения в наборах данных часто слишком идеальны, но фотографии в реальном мире могут быть размытыми, затемненными или искаженными. Дополнение изображений шумом, окклюзиями или другими вариациями делает их более реалистичными.
  • Повышает устойчивость модели: Обучение с использованием различных изображений помогает ИИ справляться с изменениями в реальном мире, делая его более надежным в различных средах, условиях освещения и ситуациях.

Когда следует использовать увеличение объема данных изображения?

Аугментация данных изображений особенно полезна, когда модели компьютерного зрения необходимо распознавать объекты в различных ситуациях, но у нее недостаточно разнообразных изображений. 

Например, если исследователи обучают модель Vision AI для идентификации редких подводных видов, которые редко фотографируются, набор данных может быть небольшим или не иметь достаточной вариативности. Путем аугментации изображений — корректировки цветов для имитации различной глубины воды, добавления шума для имитации мутных условий или незначительного изменения форм для учета естественного движения — модель может научиться более точно обнаруживать подводные объекты.

Вот еще несколько ситуаций, когда аугментация имеет большое значение:

  • Балансировка набора данных: Некоторые объекты могут появляться в обучающих данных реже, что делает модели Vision AI предвзятыми. Аугментация помогает создать больше примеров редких объектов, чтобы модель могла справедливо распознавать все категории.
  • Адаптация к различным камерам: Изображения могут выглядеть по-разному в зависимости от устройства. Аугментация помогает моделям Vision AI хорошо работать с фотографиями с разным разрешением, освещением и качеством.
  • Исправление незначительных ошибок маркировки: Небольшие сдвиги, обрезка или повороты помогают моделям компьютерного зрения правильно распознавать объекты, даже если исходные метки не идеально выровнены.

Как работает увеличение объема данных изображения

На заре развития компьютерного зрения увеличение объема данных изображений в основном включало в себя основные методы обработки изображений, такие как отражение, поворот и обрезка, для повышения разнообразия набора данных. По мере совершенствования ИИ были внедрены более продвинутые методы, такие как корректировка цветов (преобразования цветового пространства), повышение резкости или размытие изображений (ядерные фильтры) и объединение нескольких изображений вместе (смешивание изображений) для улучшения обучения.

Аугментация может происходить до и во время обучения модели. До обучения модифицированные изображения можно добавить в набор данных, чтобы обеспечить большее разнообразие. Во время обучения изображения можно случайным образом изменять в реальном времени, помогая моделям Vision AI адаптироваться к различным условиям.

Эти изменения вносятся с помощью математических преобразований. Например, поворот наклоняет изображение, обрезка удаляет части, имитируя различные виды, а изменения яркости имитируют изменения освещения. Размытие смягчает изображения, повышение резкости делает детали более четкими, а смешивание изображений объединяет части разных изображений. Платформы визуального ИИ и инструменты, такие как OpenCV, TensorFlow и PyTorch, могут автоматизировать эти процессы, делая аугментацию быстрой и эффективной.

Основные методы увеличения объема данных изображений

Теперь, когда мы обсудили, что такое аугментация данных изображений, давайте подробнее рассмотрим некоторые фундаментальные методы аугментации данных изображений, используемые для улучшения обучающих данных.

Регулировка ориентации и положения

Моделям компьютерного зрения, таким как YOLO11, часто необходимо распознавать объекты под разными углами и с разных точек обзора. Чтобы помочь в этом, изображения можно переворачивать по горизонтали или вертикали, чтобы модель ИИ научилась распознавать объекты с разных точек обзора. 

Аналогично, небольшое вращение изображений изменяет их угол, позволяя модели идентифицировать объекты с разных точек зрения. Кроме того, сдвиг изображений в разных направлениях (перенос) помогает моделям адаптироваться к небольшим изменениям положения. Эти преобразования гарантируют, что модели лучше обобщаются в реальных условиях, где размещение объектов на изображении непредсказуемо.

__wf_reserved_inherit
Рис. 2. Различные методы аугментации, связанные с ориентацией и положением.

Изменение размера и обрезка

Что касается реальных решений компьютерного зрения, объекты на изображениях могут появляться на разных расстояниях и в разных размерах. Модели Vision AI должны быть достаточно надежными, чтобы обнаруживать их независимо от этих различий. 

Для повышения адаптивности можно использовать следующие методы аугментации:

  • Масштабирование: Изменение размера изменяет размер изображения, сохраняя при этом его пропорции, позволяя моделям ИИ обнаруживать объекты на разных расстояниях.
  • Кадрирование: Удаляет ненужные части изображения, помогая модели сосредоточиться на ключевых областях и уменьшая отвлекающие факторы на заднем плане.
  • Сдвиг: Небольшое искажение изображения имитирует наклон или растяжение, помогая ИИ распознавать объекты под разными углами.

Эти корректировки помогают моделям компьютерного зрения распознавать объекты, даже если их размер или форма незначительно меняются.

Корректировка перспективы и искажений

Объекты на изображениях могут выглядеть по-разному в зависимости от угла камеры, что затрудняет распознавание для моделей компьютерного зрения. Чтобы помочь моделям справиться с этими вариациями, методы расширения могут регулировать то, как объекты представлены на изображениях. 

Например, преобразования перспективы могут изменять угол обзора, создавая впечатление, что объект виден с другой позиции. Это позволяет моделям Vision AI распознавать объекты, даже если они наклонены или сняты с необычного ракурса. 

Другой пример — упругая трансформация, которая растягивает, изгибает или деформирует изображения для имитации естественных искажений, так что объекты выглядят так, как если бы они находились в отражениях или под давлением. 

Модификации цвета и освещения

Условия освещения и различия в цвете могут существенно повлиять на то, как модели Vision AI интерпретируют изображения. Поскольку объекты могут выглядеть по-разному при различных настройках освещения, следующие методы аугментации могут помочь справиться с этими ситуациями:

  • Регулировка яркости и контрастности: Имитация различных условий освещения помогает моделям Vision AI распознавать объекты как в яркой, так и в темной среде.
  • Колорит: Случайное изменение оттенка, насыщенности и цветового баланса делает модели компьютерного зрения более адаптируемыми к различным камерам и условиям освещения.
  • Преобразование в оттенки серого: Преобразование изображений в черно-белый формат побуждает модели Vision AI фокусироваться на формах и текстурах, а не на цвете.
__wf_reserved_inherit
Рис. 3. Примеры аугментаций, связанных с вариациями цвета.

Передовые методы расширения данных изображений

До сих пор мы рассматривали только методы аугментации, которые изменяют одно изображение. Однако некоторые передовые методы включают объединение нескольких изображений для улучшения обучения ИИ.

Например, MixUp смешивает два изображения вместе, помогая моделям компьютерного зрения понимать взаимосвязи между объектами и улучшая их способность к обобщению в различных сценариях. CutMix идет еще дальше, заменяя часть одного изображения частью другого, позволяя моделям учиться на нескольких контекстах в пределах одного изображения. Между тем, CutOut работает иначе, удаляя случайные части изображения, обучая модели Vision AI распознавать объекты, даже когда они частично скрыты или заслонены.

__wf_reserved_inherit
Рис. 4. Продвинутые методы аугментации данных изображений.

Роль генеративного ИИ в аугментации данных изображений

Генеративный ИИ набирает обороты во многих отраслях и повседневных приложениях. Вы, вероятно, сталкивались с ним в связи с изображениями, сгенерированными ИИ, дипфейк-видео или приложениями, которые создают реалистичные аватары. Но помимо творчества и развлечений, генеративный ИИ играет решающую роль в обучении моделей Vision AI, генерируя новые изображения из существующих.

Вместо простого переворачивания или вращения изображений, он может создавать реалистичные вариации — изменять выражения лица, стили одежды или даже имитировать различные погодные условия. Эти вариации помогают моделям компьютерного зрения становиться более адаптируемыми и точными в различных реальных сценариях. Продвинутые генеративные модели ИИ, такие как GAN (Generative Adversarial Networks) и диффузионные модели, также могут заполнять недостающие детали или создавать высококачественные синтетические изображения.

Ограничения аугментации данных изображения

Хотя аугментация данных улучшает наборы данных для обучения, существуют также некоторые ограничения, которые следует учитывать. Вот несколько ключевых проблем, связанных с аугментацией изображений:

  • Ограниченное разнообразие данных: Дополненные изображения берутся из существующих данных и не могут привнести совершенно новые закономерности или редкие перспективы.
  • Потенциальное искажение данных (Potential data distortion): Чрезмерные преобразования могут сделать изображения нереалистичными, что может снизить точность модели в реальных сценариях.
  • Увеличение вычислительной мощности: Аугментация в реальном времени, которая происходит во время обучения модели, может потребовать довольно много вычислительной мощности, замедляя обучение и увеличивая использование памяти.
  • Дисбаланс классов сохраняется: Аугментация не создает совершенно новые образцы, поэтому недостаточно представленные категории могут по-прежнему приводить к предвзятому обучению.

Реальное применение аугментации изображений

Интересным применением увеличения объема данных изображения является использование в самоуправляемых автомобилях, где решения, принимаемые за доли секунды моделями компьютерного зрения, такими как YOLO11, имеют решающее значение. Модель должна уметь точно определять дороги, людей и другие объекты.

Однако, условия реального мира, с которыми сталкивается беспилотный автомобиль, могут быть непредсказуемыми. Плохая погода, размытость в движении и скрытые знаки могут сделать решения Vision AI в этом секторе сложными. Обучения моделей компьютерного зрения только на изображениях реального мира часто недостаточно. Наборы изображений для моделей в беспилотных автомобилях должны быть разнообразными, чтобы модель могла научиться справляться с неожиданными ситуациями.

Аугментация данных изображений решает эту проблему путем имитации тумана, регулировки яркости и искажения форм. Эти изменения помогают моделям распознавать объекты в различных условиях. В результате модели становятся умнее и надежнее. 

Благодаря расширенному обучению решения Vision AI в самоуправляемых автомобилях лучше адаптируются и принимают более безопасные решения. Более точные результаты означают меньше аварий и улучшенную навигацию. 

__wf_reserved_inherit
Рис. 5. Пример увеличения объема данных изображений применительно к беспилотным автомобилям.

Автомобили с автоматическим управлением — это всего лишь один пример. Фактически, увеличение объема данных изображений имеет решающее значение в широком спектре секторов, от медицинской визуализации до розничной аналитики. Любое приложение, которое использует компьютерное зрение, может потенциально выиграть от увеличения объема данных изображений.

Основные выводы

Системы Vision AI должны уметь распознавать объекты в различных условиях, но сбор бесконечных реальных изображений для обучения может быть затруднен. Увеличение объема данных изображений решает эту проблему, создавая вариации существующих изображений, помогая моделям быстрее учиться и лучше работать в реальных ситуациях. Это повышает точность, гарантируя, что модели Vision AI, такие как YOLO11, могут справляться с различным освещением, углами и условиями окружающей среды.

Для предприятий и разработчиков увеличение объема данных изображений экономит время и усилия, делая модели компьютерного зрения более надежными. От здравоохранения до самоуправляемых автомобилей, многие отрасли зависят от этого. По мере развития Vision AI, увеличение объема данных будет оставаться важной частью создания более интеллектуальных и адаптируемых моделей для будущего.

Присоединяйтесь к нашему сообществу и посетите наш репозиторий на GitHub, чтобы увидеть ИИ в действии. Ознакомьтесь с нашими вариантами лицензирования и узнайте больше об ИИ в сельском хозяйстве и компьютерном зрении в производстве на страницах наших решений.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена