Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Повышение надежности модели ИИ за счет увеличения объема данных

Узнайте, как добавление реалистичных вариаций в обучающие данные посредством расширения данных помогает повысить надежность модели ИИ и ее эффективность в реальных условиях.

Тестирование является важной частью создания любого технологического решения. Оно показывает командам, как система действительно работает до ее запуска, и позволяет им устранить проблемы на раннем этапе. Это верно для многих областей, включая искусственный интеллект, где модели должны справляться с непредсказуемыми реальными условиями после их внедрения.

Например, компьютерное зрение — это отрасль ИИ, которая учит машины понимать изображения и видео. Модели компьютерного зрения, такие как Ultralytics , поддерживают такие задачи, как обнаружение объектов, сегментация экземпляров и классификация изображений.

Они могут использоваться во многих отраслях для таких задач, как мониторинг пациентов, анализ трафика, автоматическая касса и контроль качества в производстве. Однако даже с передовыми моделями и высококачественными обучающими данными решения Vision AI могут столкнуться с трудностями при столкновении с реальными изменениями, такими как изменение освещения, движение или частично заслоненные объекты.

Это происходит потому, что модели обучаются на примерах, которые им дают во время обучения. Если они ранее не сталкивались с такими условиями, как блики, смазывание движения или частичная видимость, они с меньшей вероятностью смогут правильно распознавать объекты в таких сценариях.

Один из способов повысить надежность модели — это увеличение объема данных. Вместо сбора больших объемов новых данных инженеры могут вносить небольшие, но значимые изменения в существующие изображения, например, корректировать освещение, обрезать или смешивать изображения. Это помогает модели научиться распознавать одни и те же объекты в более широком диапазоне ситуаций.

В этой статье мы рассмотрим, как увеличение объема данных повышает устойчивость модели и надежность систем Vision AI при внедрении за пределами контролируемой среды. Приступим!

Как проверить надежность модели

Прежде чем углубиться в тему увеличения объема данных, давайте обсудим, как определить, действительно ли модель компьютерного зрения готова к использованию в реальных условиях. 

Надежная модель продолжает хорошо работать даже при изменении условий, а не только при работе с чистыми, идеально маркированными изображениями. Вот несколько практических факторов, которые следует учитывать при оценке надежности модели ИИ:

  • Изменения освещения: модели могут вести себя по-разному при воздействии яркого света, слабого освещения, бликов или теней, что может повлиять на надежность обнаружения объектов.
  • Частичная окклюзия: в повседневных ситуациях объекты часто закрываются другими предметами или видны только частично. Более надежная модель способна распознавать их даже при отсутствии части визуальной информации.
  • Переполненные сцены: среды с большим количеством перекрывающихся объектов могут затруднять обнаружение. Модели, которые хорошо работают в таких случаях, как правило, более надежны в сложных условиях.

Хорошие результаты на чистых, идеально снятых изображениях не всегда означают высокую производительность в реальных условиях. Регулярное тестирование в различных условиях помогает показать, насколько хорошо модель работает после внедрения.

Что такое увеличение объема данных?

Внешний вид объекта на фотографии может меняться в зависимости от освещения, угла, расстояния или фона. При обучении модели компьютерного зрения набор данных, на котором она обучается, должен включать в себя такие вариации, чтобы она могла хорошо работать в непредсказуемых условиях.

Увеличение объема данных расширяет набор данных для обучения за счет создания дополнительных примеров на основе уже имеющихся изображений. Это достигается путем применения намеренных изменений, таких как поворот или отражение изображения, регулировка яркости или кадрирование его части. 

Например, представьте, что у вас есть только одна фотография кошки. Если повернуть изображение или изменить его яркость, можно создать несколько новых версий из этой единственной фотографии. Каждая версия выглядит немного по-разному, но все равно это фотография одной и той же кошки. Эти вариации помогают научить модель тому, что объект может выглядеть по-разному, оставаясь тем же самым.

Рис. 1. Пример увеличения изображения кошки (Источник)

Как увеличение объема данных улучшает производительность модели

Во время обучения модели увеличение объема данных может быть встроено непосредственно в процесс обучения. Вместо того, чтобы вручную создавать и хранить новые копии изображений, можно применять случайные преобразования при загрузке каждого изображения. 

Это означает, что модель каждый раз видит немного другую версию изображения, будь то более яркую, перевернутую или частично скрытую. Такие методы, как случайное стирание, могут даже удалять небольшие области изображения, чтобы имитировать реальные ситуации, когда объект заблокирован или виден только частично.

Рис. 2. Примеры увеличения на основе случайного стирания (Источник)

Просмотр множества различных версий одного и того же изображения позволяет модели научиться определять важные особенности, а не полагаться на один идеальный пример. Такое разнообразие укрепляет надежность модели ИИ, благодаря чему она может более надежно работать в реальных условиях.

Общие методы увеличения объема данных

Ниже приведены некоторые методы увеличения объема данных, используемые для внесения вариаций в обучающие изображения:

  • Геометрические преобразования: эти методы изменяют пространственное представление объекта в изображении. Поворот, отражение, изменение размера, кадрирование или сдвиг изображения позволяют модели понять, как объект можно рассматривать под разными углами или с разных расстояний.
  • Настройка цвета и освещения: в реальных условиях освещение редко бывает постоянным. Изображения могут быть слишком яркими, слишком темными или слегка искаженными по цвету в зависимости от окружающей среды или используемой камеры. Регулировка яркости, контрастности, оттенка и насыщенности позволяет моделям справляться с этими визуальными изменениями и хорошо работать в различных сценах.
  • Изменения качества изображения: размытие или визуальный шум могут привести к нечеткости изображений. Добавление размытия или шума во время обучения помогает модели научиться справляться с размытием движения, изображениями при слабом освещении или результатами камеры низкого качества, благодаря чему она становится менее чувствительной к неидеальным визуальным эффектам.
  • Аугментации на основе окклюзии: в реальных условиях объекты часто частично закрываются другими объектами. Это называется окклюзией изображения. Скрытие или маскировка небольших участков изображения во время обучения помогает модели научиться detect , даже если видна только их часть.
  • Дополнение несколькими изображениями: эти методы объединяют части нескольких изображений в один учебный пример, что может увеличить количество объектов в поле зрения и улучшить способность модели обрабатывать сложные или перегруженные сцены.
Рис. 3. Пример увеличения количества изображений (Источник)

Упрощение расширения данных с помощьюPython Ultralytics Python

Управление наборами данных, создание вариаций изображений и написание кода преобразования могут добавить дополнительные шаги к созданию приложения компьютерного зрения. Python Ultralytics Python помогает упростить этот процесс, предоставляя единый интерфейс для обучения, запуска и развертыванияYOLO Ultralytics YOLO , таких как YOLO26. В рамках этих усилий по оптимизации рабочих процессов обучения пакет включает встроенное, Ultralytics расширение данных, оптимизированное для YOLO .

Он также поддерживает полезные интеграции, которые устраняют необходимость в отдельных инструментах или настраиваемом коде. В частности, для увеличения объема данных пакет интегрируется с Albumentations, широко используемой библиотекой для увеличения объема изображений. Эта интеграция позволяет автоматически применять увеличение объема данных во время обучения без необходимости использования дополнительных скриптов или настраиваемого кода.

Управление аннотациями и расширенными наборами данных

Еще одним фактором, влияющим на надежность модели, является качество аннотаций. Четкие и точные метки, созданные и управляемые с помощью инструментов аннотирования, таких как Roboflow, помогают модели понять, где находятся объекты и как они выглядят.

Во время обучения динамически применяются такие методы расширения данных, как переворот, кадрирование и поворот, а аннотации автоматически корректируются в соответствии с этими изменениями. Когда метки точны, этот процесс работает бесперебойно и предоставляет модели множество реалистичных примеров одной и той же сцены.

Если аннотации неточны или несогласованны, эти ошибки могут повторяться во всех дополненных изображениях, что снижает эффективность обучения. Использование точных аннотаций с самого начала предотвращает распространение этих ошибок и способствует повышению надежности модели.

Улучшение приложений Vision AI с помощью увеличения объема данных

Далее рассмотрим примеры того, как увеличение объема данных способствует повышению надежности моделей ИИ в реальных приложениях.

Повышение точности обнаружения объектов в реальных условиях

Синтетические изображения часто используются для обучения систем обнаружения объектов, когда реальные данные ограничены, конфиденциальны или их сложно собрать. Они позволяют командам быстро генерировать примеры продуктов, окружающей среды и ракурсов камеры без необходимости снимать каждый сценарий в реальной жизни. 

Однако синтетические наборы данных иногда могут выглядеть слишком чистыми по сравнению с реальными видеозаписями, где меняется освещение, объекты перекрываются, а сцены включают в себя фоновый беспорядок. Увеличение объема данных помогает преодолеть этот разрыв за счет введения реалистичных вариаций, таких как различное освещение, шум или расположение объектов, благодаря чему модель учится справляться с типами условий, с которыми она столкнется при внедрении.

Например, в недавнем исследовании YOLO11 была обучена исключительно на синтетических изображениях, а для введения дополнительных вариаций было добавлено увеличение объема данных. Это сыграло важную роль в обучении модели более широкому распознаванию объектов. Модель показала хорошие результаты при тестировании на реальных изображениях, несмотря на то, что во время обучения она никогда не видела реальных данных.

Повышение надежности решений для медицинской визуализации

Наборы данных медицинской визуализации часто ограничены, а сами сканы могут различаться в зависимости от типа оборудования, настроек визуализации или клинической среды. Различия в анатомии пациентов, углах, освещении или визуальном шуме могут затруднять обучение моделей компьютерного зрения шаблонам, которые хорошо обобщаются для всех пациентов и больниц.

Увеличение объема данных помогает решить эту проблему путем создания нескольких вариаций одного и того же сканирования во время обучения, например, добавления шума, небольшого сдвига изображения или применения небольших искажений. Эти изменения делают обучающие данные более репрезентативными для реальных клинических условий.

Например, в исследовании по педиатрической визуализации ученые использовали YOLO11 анатомической сегментации и обучили его на расширенных медицинских данных. Они ввели такие вариации, как добавление шума, небольшие сдвиги положения и небольшие искажения, чтобы сделать изображения более реалистичными.

Рис. 4. Оригинальные и увеличенные медицинские изображения детей (Источник)

Изучая эти вариации, модель сосредоточилась на значимых анатомических особенностях, а не на поверхностных различиях. Это сделало результаты сегментации более стабильными для различных сканов и случаев пациентов.

Основные выводы

Сбор разнообразных данных является сложной задачей, но увеличение объема данных позволяет моделям учиться на более широком спектре визуальных условий. Это приводит к повышению надежности моделей при работе с окклюзиями, изменениями освещения и переполненными сценами. В целом, это помогает им работать более надежно за пределами контролируемых учебных сред. 

Присоединяйтесь к нашему сообществу и изучайте последние достижения в области искусственного интеллекта на нашем репозитории GitHub. Посетите страницы наших решений, чтобы узнать, как такие приложения, как ИИ в производстве и компьютерное зрение в здравоохранении, способствуют прогрессу, а также ознакомьтесь с нашими вариантами лицензирования для создания вашего следующего ИИ-решения.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно