Полное руководство по расширению данных в 2025 году

Абирами Вина

6 минут чтения

14 февраля 2025 г.

Узнайте, как расширение данных изображений помогает моделям искусственного интеллекта лучше обучаться, повышать точность и эффективнее работать в реальных ситуациях.

В связи с бумом ИИ такие явления, как роботы, работающие на заводах, и самоуправляемые автомобили, перемещающиеся по улицам, все чаще попадают в заголовки газет. ИИ меняет способы взаимодействия машин с миром: от улучшения медицинской визуализации до контроля качества на производственных линиях.

Значительная часть этого прогресса связана с компьютерным зрением- направлением ИИ, позволяющим машинам понимать и интерпретировать изображения. Подобно тому, как человек со временем учится распознавать объекты и закономерности, модели ИИ, подобные Ultralytics YOLO11, необходимо обучать на больших объемах данных изображений, чтобы развить их визуальное восприятие.

Однако собрать такое огромное количество визуальных данных не всегда просто. Несмотря на то что специалисты по компьютерному зрению создали множество больших наборов данных, в них все равно могут быть упущены некоторые варианты - например, изображения с объектами при слабом освещении, частично скрытые предметы или предметы, рассматриваемые под разными углами. Эти различия могут сбить с толку модели компьютерного зрения, которые обучались только на определенных условиях.

Дополнение данных изображениями - это техника, которая решает эту проблему путем внесения новых вариаций в существующие данные. Внося изменения в изображения, например, изменяя цвета, поворачивая или смещая перспективу, набор данных становится более разнообразным, что помогает моделям искусственного интеллекта лучше распознавать объекты в реальных ситуациях.

В этой статье мы рассмотрим, как работает увеличение данных изображения и какое влияние оно может оказать на приложения компьютерного зрения.

Что такое увеличение данных изображения?

Допустим, вы пытаетесь узнать друга в толпе, но он надел солнцезащитные очки или стоит в тенистом месте. Даже при таких незначительных изменениях во внешности вы все равно узнаете его. С другой стороны, модель искусственного интеллекта может не справиться с такими изменениями, если она не была обучена распознавать объекты в различных условиях.

Дополнение данных изображениями повышает производительность моделей компьютерного зрения за счет добавления модифицированных версий существующих изображений к обучающим данным, вместо того чтобы собирать тысячи новых изображений. 

Изменения в изображениях, такие как переворачивание, поворот, регулировка яркости или добавление небольших искажений, позволяют моделям искусственного интеллекта Vision AI работать в более широком диапазоне условий. Вместо того чтобы полагаться на массивные базы данных, модели могут эффективно обучаться на небольших обучающих базах данных с дополненными изображениями. 

__wf_reserved_inherit
Рис. 1. Примеры дополненных изображений автомобиля.

Важность дополнения данных в компьютерном зрении

Вот несколько основных причин, по которым аугментация необходима для компьютерного зрения:

  • Уменьшает потребность в данных: Сбор больших наборов данных изображений требует времени и ресурсов. Дополнение может быть использовано для эффективного обучения моделей, не требуя огромных наборов данных.
  • Предотвращает чрезмерную подгонку: Модель, обученная на слишком малом количестве примеров, может запоминать детали, а не распознавать общие закономерности. Внесение разнообразия с помощью дополнений обеспечивает обучение моделей ИИ Vision таким образом, чтобы они были применимы к новым и невиданным данным.
  • Имитирует несовершенные изображения: Изображения в наборах данных часто слишком идеальны, но реальные фотографии могут быть размытыми, затемненными или искаженными. Дополнение изображений шумом, окклюзиями или другими вариациями делает их более реалистичными.
  • Повышение надежности моделей: Обучение на различных изображениях помогает искусственному интеллекту справляться с изменениями в реальном мире, делая его более надежным в различных условиях, освещении и ситуациях.

В каких случаях следует использовать увеличение данных изображения?

Дополнение данных изображениями особенно полезно, когда модель компьютерного зрения должна распознавать объекты в различных ситуациях, но не имеет достаточного количества разнообразных изображений. 

Например, если исследователи обучают модель искусственного интеллекта для определения редких подводных видов, которые редко фотографируются, набор данных может быть небольшим или недостаточно разнообразным. Если дополнить изображения - изменить цвета для имитации различной глубины воды, добавить шум для имитации мутной среды или слегка изменить формы для учета естественного движения - модель сможет научиться более точно определять подводные объекты .

Вот еще несколько ситуаций, когда аугментация имеет большое значение:

  • Сбалансированность набора данных: Некоторые объекты могут встречаться в обучающих данных реже, что делает модели ИИ Vision предвзятыми. Дополнение помогает создать больше примеров редких объектов, чтобы модель могла справедливо распознавать все категории.
  • Адаптация к различным камерам: Изображения могут выглядеть по-разному в зависимости от устройства. Дополнение помогает моделям Vision AI хорошо работать с фотографиями с разным разрешением, освещением и качеством.
  • Исправление незначительных ошибок маркировки: Небольшие сдвиги, обрезка или повороты помогают моделям компьютерного зрения правильно распознавать объекты, даже если исходные метки не идеально выровнены.

Как работает увеличение данных изображения

На заре компьютерного зрения увеличение объема данных изображения включало в себя, прежде всего, базовые методы обработки изображений, такие как переворачивание, поворот и обрезка для увеличения разнообразия наборов данных. По мере совершенствования искусственного интеллекта появились более продвинутые методы, такие как корректировка цветов (преобразование цветового пространства), повышение резкости или размытие изображений (ядерные фильтры), а также смешивание нескольких изображений (смешивание изображений) для улучшения обучения.

Дополнение может происходить как до, так и во время обучения модели. Перед обучением в набор данных можно добавить измененные изображения, чтобы внести в него больше разнообразия. Во время обучения изображения могут произвольно изменяться в режиме реального времени, помогая моделям ИИ адаптироваться к различным условиям.

Эти изменения производятся с помощью математических преобразований. Например, поворот наклоняет изображение, кадрирование удаляет части, чтобы имитировать различные виды, а изменение яркости имитирует изменения освещения. Размытие смягчает изображение, повышение резкости делает детали более четкими, а смешивание изображений объединяет части разных изображений. Фреймворки и инструменты искусственного интеллекта, такие как OpenCV, TensorFlow и PyTorch, позволяют автоматизировать эти процессы, делая процесс дополнения быстрым и эффективным.

Основные методы увеличения данных изображения

Теперь, когда мы обсудили, что такое увеличение данных изображения, давайте рассмотрим некоторые основные методы увеличения данных изображения, используемые для улучшения обучающих данных.

Регулировка ориентации и положения

Модели компьютерного зрения, такие как YOLO11, часто нуждаются в распознавании объектов под разными углами и с разных точек зрения. Чтобы помочь в этом, изображения можно переворачивать по горизонтали или вертикали, чтобы модель ИИ училась распознавать объекты с разных точек зрения. 

Аналогично, поворот изображений слегка изменяет угол их наклона, позволяя модели идентифицировать объекты с разных точек зрения. Кроме того, смещение изображений в разные стороны (перевод) помогает моделям приспособиться к небольшим изменениям положения. Благодаря этим преобразованиям модели лучше адаптируются к реальным условиям, когда расположение объектов на изображении непредсказуемо.

__wf_reserved_inherit
Рис. 2. Различные методы увеличения ориентации и положения.

Изменение размера и обрезка

Применительно к реальным решениям в области компьютерного зрения объекты на изображениях могут появляться на разных расстояниях и иметь разные размеры. Модели искусственного зрения должны быть достаточно надежными, чтобы обнаруживать их независимо от этих различий. 

Для повышения адаптивности можно использовать следующие методы наращивания:

  • Масштабирование: Изменение размера изображения с сохранением его пропорций позволяет моделям искусственного интеллекта обнаруживать объекты на разных расстояниях.
  • Обрезка: Удаляет ненужные части изображения, помогая модели сосредоточиться на ключевых областях и уменьшая отвлекающий фон.
  • Стрижка: Небольшой перекос изображения имитирует наклон или растяжение, помогая искусственному интеллекту распознавать объекты под разными углами.

Эти корректировки помогают моделям компьютерного зрения распознавать объекты, даже если их размер или форма незначительно меняются.

Регулировка перспективы и искажений

Объекты на изображениях могут выглядеть по-разному в зависимости от угла обзора камеры, что затрудняет распознавание для моделей компьютерного зрения. Чтобы помочь моделям справиться с этими вариациями, методы дополнения могут корректировать представление объектов на изображениях. 

Например, преобразования перспективы могут изменять угол обзора, заставляя объект выглядеть так, как будто его видят с другой позиции. Это позволяет моделям Vision AI распознавать объекты, даже если они наклонены или сняты с необычной точки зрения. 

Другой пример - эластичное преобразование, которое растягивает, сгибает или деформирует изображения для имитации естественных искажений, чтобы объекты выглядели так, как они выглядели бы в отражении или под давлением. 

Изменения цвета и освещения

Условия освещения и цветовые различия могут существенно повлиять на интерпретацию изображений моделями ИИ Vision. Поскольку объекты могут выглядеть по-разному при различных параметрах освещения, следующие техники дополнения могут помочь справиться с этими ситуациями:

  • Регулировка яркости и контрастности: Имитация различных условий освещения помогает моделям Vision AI распознавать объекты как в светлом, так и в темном окружении.
  • Дробление цвета: Случайное изменение оттенка, насыщенности и цветового баланса делает модели компьютерного зрения более адаптируемыми к различным камерам и условиям освещения.
  • Преобразование в градации серого: Преобразование изображений в черно-белые позволяет моделям ИИ Vision сосредоточиться на формах и текстурах, а не на цвете.
__wf_reserved_inherit
Рис. 3. Примеры дополнений, связанных с цветовыми вариациями.

Передовые методы дополнения данных изображения

До сих пор мы изучали только те методы дополнения, которые изменяют одно изображение. Однако некоторые передовые методы предполагают объединение нескольких изображений для улучшения обучения ИИ.

Например, MixUp смешивает два изображения, помогая моделям компьютерного зрения понять взаимосвязь между объектами и улучшая их способность к обобщению в различных сценариях. CutMix делает еще один шаг вперед, заменяя часть одного изображения частью другого, позволяя моделям учиться на нескольких контекстах одного и того же изображения. CutOut работает по-другому, удаляя случайные части изображения, обучая модели искусственного интеллекта распознавать объекты, даже если они частично скрыты или загорожены.

__wf_reserved_inherit
Рис. 4. Передовые методы дополнения данных изображения.

Роль генеративного ИИ в дополнении данных изображений

Генеративный ИИ набирает обороты во многих отраслях и повседневных приложениях. Вы, вероятно, сталкивались с ним в связи с создаваемыми искусственным интеллектом изображениями, видеороликами deepfake или приложениями, создающими реалистичные аватары. Но помимо творчества и развлечений, генеративный ИИ играет важную роль в обучении моделей Vision AI, создавая новые изображения на основе существующих.

Вместо того чтобы просто переворачивать или вращать изображения, он может создавать реалистичные вариации - менять выражения лиц, стиль одежды или даже имитировать различные погодные условия. Такие вариации помогают моделям компьютерного зрения стать более адаптируемыми и точными в различных сценариях реального мира. Передовые генеративные модели ИИ, такие как GAN (Generative Adversarial Networks) и диффузионные модели, также могут восполнять недостающие детали или создавать высококачественные синтетические изображения.

Ограничения при дополнении данных изображения

Несмотря на то, что увеличение данных улучшает обучающие наборы данных, необходимо учитывать и некоторые ограничения. Вот несколько ключевых проблем, связанных с дополнением данных изображений:

  • Ограниченное разнообразие данных: Дополненные изображения создаются на основе существующих данных и не могут привнести совершенно новые паттерны или редкие перспективы.
  • Потенциальное искажение данных: Чрезмерные преобразования могут сделать изображения нереалистичными, что потенциально снижает точность модели в реальных сценариях.
  • Увеличение объема вычислений: Дополнения в реальном времени, происходящие во время обучения модели, могут требовать значительных вычислительных мощностей, замедляя обучение и увеличивая расход памяти.
  • Дисбаланс классов сохраняется: Дополнение не создает абсолютно новых образцов, поэтому недопредставленные категории все равно могут привести к необъективному обучению.

Реальное применение дополнения данных изображения

Интересным применением дополнения данных изображения является использование в самоуправляемых автомобилях, где решения, принимаемые в доли секунды моделями компьютерного зрения, такими как YOLO11, имеют решающее значение. Модель должна быть способна точно определять дороги, людей и другие объекты.

Однако реальные условия, с которыми сталкивается самоуправляемый автомобиль, могут быть непредсказуемыми. Плохая погода, размытость движения и скрытые знаки могут сделать решения на основе искусственного зрения в этом секторе сложными. Обучения моделей компьютерного зрения только на реальных изображениях зачастую недостаточно. Наборы изображений для моделей самодвижущихся автомобилей должны быть разнообразными, чтобы модель могла научиться справляться с неожиданными ситуациями.

Дополнение данных изображения решает эту проблему, имитируя туман, регулируя яркость и искажая формы. Эти изменения помогают моделям распознавать объекты в различных условиях. В результате модели становятся умнее и надежнее. 

Благодаря расширенному обучению решения Vision AI в самоуправляемых автомобилях лучше адаптируются и принимают более безопасные решения. Более точные результаты означают уменьшение количества аварий и улучшение навигации. 

__wf_reserved_inherit
Рис. 5. Пример дополнения данных изображения применительно к самоуправляемым автомобилям.

Самоуправляемые автомобили - лишь один из примеров. На самом деле расширение данных изображений имеет огромное значение в самых разных отраслях, от медицинской визуализации до аналитики розничной торговли. Любое приложение, использующее компьютерное зрение, может получить потенциальную выгоду от расширения данных изображения.

Основные выводы

Системы искусственного интеллекта должны уметь распознавать объекты в различных условиях, но собрать бесконечное количество изображений реального мира для обучения может быть непросто. Дополнение данных изображениями решает эту проблему путем создания вариаций существующих изображений, помогая моделям быстрее обучаться и лучше работать в реальных условиях. Это повышает точность, гарантируя, что модели искусственного интеллекта, такие как YOLO11, могут работать с различным освещением, углами и средой.

Для компаний и разработчиков увеличение данных изображений экономит время и силы, делая модели компьютерного зрения более надежными. От него зависят многие отрасли - от здравоохранения до самодвижущихся автомобилей. По мере развития искусственного интеллекта дополнения будут оставаться неотъемлемой частью построения более интеллектуальных и адаптируемых моделей будущего.

Присоединяйтесь к нашему сообществу и посетите наш репозиторий GitHub, чтобы увидеть ИИ в действии. Изучите наши варианты лицензирования и узнайте больше об ИИ в сельском хозяйстве и компьютерном зрении в производстве на страницах наших решений.

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена