Руководства

Полное руководство по аугментации данных в 2025 году

Узнай, как аугментация изображений помогает моделям Vision AI лучше обучаться, повышать точность и эффективнее работать в реальных условиях.

АБАбирами Вина

6 min readFebruary 14, 2025

Аугментация изображений создает разнообразные вариации для обучения Vision AI

Благодаря буму ИИ такие явления, как роботы на заводах и беспилотные автомобили на улицах, все чаще попадают в заголовки новостей. ИИ меняет то, как машины взаимодействуют с миром: от улучшения медицинской визуализации до контроля качества на производственных линиях.

Значительная часть этого прогресса связана с computer vision — отраслью ИИ, которая позволяет машинам понимать и интерпретировать изображения. Подобно тому, как люди со временем учатся распознавать объекты и закономерности, модели компьютерного зрения, такие как Ultralytics YOLO11, должны обучаться на больших объемах данных изображений, чтобы развивать свое визуальное понимание.

Однако собрать такой огромный объем визуальных данных не всегда просто. Несмотря на то что сообщество специалистов по компьютерному зрению создало множество больших datasets, в них все еще могут отсутствовать определенные вариации — например, изображения объектов при слабом освещении, частично скрытые предметы или объекты, снятые под разными углами. Эти различия могут сбивать с толку модели компьютерного зрения, которые обучались только на специфических условиях.

Аугментация data augmentation изображений — это метод, который решает эту проблему путем внесения новых вариаций в существующие данные. Благодаря внесению изменений в изображения, таких как корректировка цветов, поворот или смещение перспективы, набор данных становится более разнообразным, что помогает моделям компьютерного зрения лучше распознавать объекты в реальных условиях.

В этой статье мы разберем, как работает аугментация данных изображений и какое влияние она может оказать на приложения компьютерного зрения.

Link to this sectionЧто такое аугментация данных изображений?#

Представь, что ты пытаешься узнать друга в толпе, но он в солнечных очках или стоит в тени. Даже с учетом этих незначительных изменений во внешности ты все равно понимаешь, кто это. С другой стороны, модель компьютерного зрения может испытывать трудности с такими вариациями, если ее не научили распознавать объекты в разных условиях.

Аугментация данных изображений повышает производительность модели компьютерного зрения за счет добавления модифицированных версий существующих изображений в обучающие данные вместо сбора тысяч новых снимков.

Изменения изображений, такие как отражение, поворот, настройка яркости или добавление небольших искажений, открывают моделям компьютерного зрения доступ к более широкому спектру условий. Вместо того чтобы полагаться на массивные наборы данных, модели могут эффективно обучаться на меньших наборах данных с аугментированными изображениями.

Примеры аугментированных изображений автомобиля

Рис. 1. Примеры аугментированных изображений автомобиля.

Link to this sectionВажность аугментации данных в компьютерном зрении#

Вот несколько ключевых причин, почему аугментация необходима для компьютерного зрения:

Снижение требований к данным: сбор больших наборов данных изображений требует времени и ресурсов. Аугментация может быть использована для эффективного обучения моделей без необходимости в огромных наборах данных.
Предотвращение переобучения: модель, обученная на слишком малом количестве примеров, может запомнить детали вместо распознавания общих закономерностей. Добавление разнообразия с помощью аугментации гарантирует, что модели компьютерного зрения учатся таким образом, чтобы применять знания к новым и ранее не виденным данным.
Имитация несовершенных изображений: изображения в наборах данных часто слишком идеальны, но реальные фотографии могут быть размытыми, скрытыми или искаженными. Аугментация изображений с помощью шума, окклюзий или других вариаций делает их более реалистичными.
Повышение устойчивости модели: обучение с использованием разнообразных изображений помогает ИИ справляться с изменениями в реальном мире, делая его более надежным в различных средах, условиях освещения и ситуациях.

Link to this sectionКогда следует использовать аугментацию данных изображений?#

Аугментация данных изображений особенно полезна, когда модели компьютерного зрения нужно распознавать объекты в разных ситуациях, но не хватает разнообразных изображений.

Например, если исследователи обучают модель компьютерного зрения идентифицировать редкие подводные виды, которые редко фотографируются, набор данных может быть небольшим или недостаточно разнообразным. Аугментируя изображения — настраивая цвета для имитации разной глубины воды, добавляя шум для имитации мутных условий или слегка изменяя формы для учета естественного движения — модель может научиться detect underwater objects более точно.

Вот некоторые другие ситуации, где аугментация имеет большое значение:

Балансировка набора данных: некоторые объекты могут появляться реже в обучающих данных, что делает модели компьютерного зрения предвзятыми. Аугментация помогает создать больше примеров редких объектов, чтобы модель могла распознавать все категории справедливо.
Адаптация к разным камерам: изображения могут выглядеть по-разному в зависимости от устройства. Аугментация помогает моделям компьютерного зрения хорошо работать с фотографиями разного разрешения, освещения и качества.
Исправление мелких ошибок разметки: небольшие сдвиги, кадрирование или повороты помогают моделям компьютерного зрения правильно распознавать объекты, даже если исходная разметка не идеально выровнена.

Link to this sectionКак работает аугментация данных изображений#

На ранних этапах развития компьютерного зрения аугментация данных в основном включала базовые методы image processing, такие как отражение, поворот и кадрирование для увеличения разнообразия набора данных. По мере развития ИИ стали внедряться более продвинутые методы, такие как корректировка цветов (преобразования цветового пространства), повышение резкости или размытие изображений (ядерные фильтры) и смешивание нескольких изображений (image mixing) для улучшения обучения.

Аугментация может происходить до и во время model training. До обучения в набор данных можно добавить модифицированные изображения для обеспечения большего разнообразия. Во время обучения изображения могут случайным образом изменяться в реальном времени, помогая моделям компьютерного зрения адаптироваться к различным условиям.

Эти изменения выполняются с помощью математических преобразований. Например, поворот наклоняет изображение, кадрирование удаляет части для имитации разных видов, а изменения яркости имитируют вариации освещения. Размытие смягчает изображения, повышение резкости делает детали четче, а смешивание изображений объединяет части разных снимков. Vision AI frameworks и такие инструменты, как OpenCV, TensorFlow и PyTorch, могут автоматизировать эти процессы, делая аугментацию быстрой и эффективной.

Link to this sectionОсновные методы аугментации данных изображений#

Теперь, когда мы обсудили, что такое аугментация данных изображений, давайте подробнее рассмотрим некоторые фундаментальные методы аугментации данных, используемые для улучшения обучающих данных.

Link to this sectionНастройка ориентации и положения#

Computer vision models, такие как YOLO11, часто должны распознавать объекты с разных углов и точек обзора. Чтобы помочь в этом, изображения можно отражать по горизонтали или вертикали, чтобы модель ИИ училась распознавать объекты с разных точек зрения.

Точно так же небольшое вращение изображений меняет их угол, позволяя модели идентифицировать объекты с разных перспектив. Кроме того, смещение изображений в разных направлениях (трансляция) помогает моделям адаптироваться к небольшим позиционным изменениям. Эти преобразования гарантируют, что модели лучше обобщаются для реальных условий, где расположение объекта на изображении непредсказуемо.

Различные методы аугментации, связанные с ориентацией и положением

Рис. 2. Различные методы аугментации, связанные с ориентацией и положением.

Link to this sectionИзменение размера и кадрирование#

Что касается реальных computer vision solutions, объекты на изображениях могут появляться на разном расстоянии и иметь разный размер. Модели компьютерного зрения должны быть достаточно устойчивыми, чтобы обнаруживать их независимо от этих различий.

Для улучшения адаптивности можно использовать следующие методы аугментации:

Масштабирование: изменение размера меняет размер изображения при сохранении его пропорций, позволяя моделям ИИ обнаруживать объекты на разном расстоянии.
Кадрирование: удаляет ненужные части изображения, помогая модели сосредоточиться на ключевых областях и уменьшая отвлекающие факторы фона.
Сдвиг (Shearing): небольшое искажение изображения имитирует наклоненный или растянутый вид, помогая ИИ распознавать объекты под разными углами.

Эти корректировки помогают моделям компьютерного зрения распознавать объекты, даже если их размер или форма немного меняются.

Link to this sectionКорректировка перспективы и искажений#

Объекты на изображениях могут выглядеть по-разному в зависимости от угла камеры, что затрудняет распознавание для моделей компьютерного зрения. Чтобы помочь моделям справляться с этими вариациями, методы аугментации могут корректировать способ представления объектов на изображениях.

Например, преобразования перспективы могут менять угол обзора, заставляя объект выглядеть так, как будто на него смотрят с другой позиции. Это позволяет моделям компьютерного зрения распознавать объекты, даже если они наклонены или сняты с необычного ракурса.

Другой пример — эластичная деформация, которая растягивает, изгибает или коробит изображения для имитации естественных искажений, чтобы объекты выглядели так, как они выглядели бы в отражениях или под давлением.

Link to this sectionМодификации цвета и освещения#

Условия освещения и цветовые различия могут значительно повлиять на то, как модели компьютерного зрения интерпретируют изображения. Поскольку объекты могут выглядеть по-разному при различных настройках освещения, следующие методы аугментации могут помочь справиться с этими ситуациями:

Настройка яркости и контрастности: имитация различных условий освещения помогает моделям компьютерного зрения распознавать объекты как в ярких, так и в темных условиях.
Цветовой джиттер (Color jittering): случайное изменение оттенка, насыщенности и цветового баланса делает модели компьютерного зрения более адаптируемыми к различным камерам и условиям освещения.
Преобразование в оттенки серого: преобразование изображений в черно-белые побуждает модели компьютерного зрения сосредоточиться на формах и текстурах, а не на цвете.

Примеры аугментаций, связанных с вариациями цвета

Рис. 3. Примеры аугментаций, связанных с цветовыми вариациями.

Link to this sectionПродвинутые методы аугментации данных изображений#

До сих пор мы рассматривали только методы аугментации, которые изменяют одно изображение. Однако некоторые продвинутые методы включают объединение нескольких изображений для улучшения обучения ИИ.

Например, MixUp смешивает два изображения, помогая моделям компьютерного зрения понимать взаимосвязи между объектами и улучшая их способность обобщать знания в различных сценариях. CutMix идет еще дальше, заменяя часть одного изображения частью другого, позволяя моделям учиться на нескольких контекстах в рамках одного изображения. Тем временем, CutOut работает иначе, удаляя случайные части изображения, обучая модели компьютерного зрения распознавать объекты, даже если они частично скрыты или заслонены.

Продвинутые техники аугментации изображений, такие как MixUp, CutMix и CutOut

Рис. 4. Продвинутые методы аугментации данных изображений.

Link to this sectionРоль генеративного ИИ в аугментации данных изображений#

Generative AI набирает популярность во многих отраслях и повседневных приложениях. Ты наверняка сталкивался с этим в контексте изображений, созданных ИИ, видео с дипфейками или приложений, создающих реалистичные аватары. Но помимо творчества и развлечений, генеративный ИИ играет решающую роль в обучении моделей компьютерного зрения, генерируя новые изображения из существующих.

Вместо того чтобы просто отражать или вращать картинки, он может создавать реалистичные вариации — менять выражения лиц, стили одежды или даже имитировать разные погодные условия. Эти вариации помогают моделям компьютерного зрения стать более адаптируемыми и точными в разнообразных реальных сценариях. Продвинутые модели генеративного ИИ, такие как GAN (генеративно-состязательные сети) и diffusion models, также могут заполнять недостающие детали или создавать высококачественные синтетические изображения.

Link to this sectionОграничения аугментации данных изображений#

Хотя аугментация данных улучшает обучающие наборы данных, существуют также некоторые ограничения, которые следует учитывать. Вот несколько ключевых проблем, связанных с аугментацией данных изображений:

Ограниченное разнообразие данных: аугментированные изображения берутся из существующих данных и не могут привнести совершенно новые паттерны или редкие ракурсы.
Потенциальное искажение данных: чрезмерные преобразования могут сделать изображения нереалистичными, потенциально снижая точность модели в реальных условиях.
Повышенная вычислительная нагрузка: аугментация в реальном времени, происходящая во время обучения модели, может требовать довольно много вычислительной мощности, замедляя обучение и увеличивая использование памяти.
Сохранение дисбаланса классов: аугментация не создает полностью новые образцы, поэтому недостаточно представленные категории все равно могут приводить к предвзятому обучению.

Link to this sectionРеальное применение аугментации данных изображений#

Интересным примером применения аугментации данных изображений являются беспилотные автомобили, где мгновенные решения, принимаемые моделями компьютерного зрения, такими как YOLO11, имеют решающее значение. Модель должна точно обнаруживать дороги, людей и другие объекты.

Однако условия, с которыми сталкивается беспилотный автомобиль в реальном мире, могут быть непредсказуемыми. Плохая погода, размытие при движении и скрытые знаки могут усложнить работу решений ИИ в этом секторе. Обучения моделей компьютерного зрения только на реальных изображениях часто недостаточно. Наборы данных изображений для моделей в беспилотных автомобилях должны быть разнообразными, чтобы модель могла научиться справляться с непредвиденными ситуациями.

Аугментация данных изображений решает эту проблему путем имитации тумана, настройки яркости и искажения форм. Эти изменения помогают моделям распознавать объекты в разных условиях. В результате модели становятся умнее и надежнее.

С помощью аугментированного обучения vision AI solutions in self-driving cars лучше адаптируются и принимают более безопасные решения. Более точные результаты означают меньше аварий и улучшенную навигацию.

Аугментация изображений, примененная к снимкам для беспилотных автомобилей

Рис. 5. Пример аугментации данных изображений применительно к беспилотным автомобилям.

Беспилотные автомобили — это лишь один пример. На самом деле, аугментация данных изображений имеет решающее значение во многих секторах, от медицинской визуализации до розничной аналитики. Любое приложение, которое полагается на компьютерное зрение, потенциально может выиграть от аугментации данных изображений.

Link to this sectionОсновные выводы#

Системы компьютерного зрения должны быть способны распознавать объекты в разных условиях, но сбор бесконечного количества реальных изображений для обучения может быть сложным. Аугментация данных изображений решает эту проблему, создавая вариации существующих изображений, помогая моделям учиться быстрее и лучше работать в реальных ситуациях. Это повышает точность, гарантируя, что модели компьютерного зрения, такие как YOLO11, могут справляться с разным освещением, ракурсами и средами.

Для бизнеса и разработчиков аугментация данных изображений экономит время и усилия, делая модели компьютерного зрения более надежными. От здравоохранения до беспилотных автомобилей, многие отрасли зависят от нее. Поскольку ИИ компьютерного зрения продолжает развиваться, аугментация будет оставаться неотъемлемой частью создания более умных и адаптивных моделей для будущего.

Присоединяйся к our community и посети our GitHub repository, чтобы увидеть ИИ в действии. Ознакомься с our licensing options и узнай больше об AI in agriculture и computer vision in manufacturing на страницах наших решений.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Полное руководство по аугментации данных в 2025 году

Link to this sectionЧто такое аугментация данных изображений?#

Link to this sectionВажность аугментации данных в компьютерном зрении#

Link to this sectionКогда следует использовать аугментацию данных изображений?#

Link to this sectionКак работает аугментация данных изображений#

Link to this sectionОсновные методы аугментации данных изображений#

Link to this sectionНастройка ориентации и положения#

Link to this sectionИзменение размера и кадрирование#

Link to this sectionКорректировка перспективы и искажений#

Link to this sectionМодификации цвета и освещения#

Link to this sectionПродвинутые методы аугментации данных изображений#

Link to this sectionРоль генеративного ИИ в аугментации данных изображений#

Link to this sectionОграничения аугментации данных изображений#

Link to this sectionРеальное применение аугментации данных изображений#

Link to this sectionОсновные выводы#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!