Повышение надежности модели ИИ за счет увеличения объема данных
Узнайте, как добавление реалистичных вариаций в обучающие данные посредством расширения данных помогает повысить надежность модели ИИ и ее эффективность в реальных условиях.
Узнайте, как добавление реалистичных вариаций в обучающие данные посредством расширения данных помогает повысить надежность модели ИИ и ее эффективность в реальных условиях.
Тестирование является важной частью создания любого технологического решения. Оно показывает командам, как система действительно работает до ее запуска, и позволяет им устранить проблемы на раннем этапе. Это верно для многих областей, включая искусственный интеллект, где модели должны справляться с непредсказуемыми реальными условиями после их внедрения.
Например, компьютерное зрение — это отрасль ИИ, которая учит машины понимать изображения и видео. Модели компьютерного зрения, такие как Ultralytics , поддерживают такие задачи, как обнаружение объектов, сегментация экземпляров и классификация изображений.
Они могут использоваться во многих отраслях для таких задач, как мониторинг пациентов, анализ трафика, автоматическая касса и контроль качества в производстве. Однако даже с передовыми моделями и высококачественными обучающими данными решения Vision AI могут столкнуться с трудностями при столкновении с реальными изменениями, такими как изменение освещения, движение или частично заслоненные объекты.
Это происходит потому, что модели обучаются на примерах, которые им дают во время обучения. Если они ранее не сталкивались с такими условиями, как блики, смазывание движения или частичная видимость, они с меньшей вероятностью смогут правильно распознавать объекты в таких сценариях.
Один из способов повысить надежность модели — это увеличение объема данных. Вместо сбора больших объемов новых данных инженеры могут вносить небольшие, но значимые изменения в существующие изображения, например, корректировать освещение, обрезать или смешивать изображения. Это помогает модели научиться распознавать одни и те же объекты в более широком диапазоне ситуаций.
В этой статье мы рассмотрим, как увеличение объема данных повышает устойчивость модели и надежность систем Vision AI при внедрении за пределами контролируемой среды. Приступим!
Прежде чем углубиться в тему увеличения объема данных, давайте обсудим, как определить, действительно ли модель компьютерного зрения готова к использованию в реальных условиях.
Надежная модель продолжает хорошо работать даже при изменении условий, а не только при работе с чистыми, идеально маркированными изображениями. Вот несколько практических факторов, которые следует учитывать при оценке надежности модели ИИ:
Хорошие результаты на чистых, идеально снятых изображениях не всегда означают высокую производительность в реальных условиях. Регулярное тестирование в различных условиях помогает показать, насколько хорошо модель работает после внедрения.
Внешний вид объекта на фотографии может меняться в зависимости от освещения, угла, расстояния или фона. При обучении модели компьютерного зрения набор данных, на котором она обучается, должен включать в себя такие вариации, чтобы она могла хорошо работать в непредсказуемых условиях.
Увеличение объема данных расширяет набор данных для обучения за счет создания дополнительных примеров на основе уже имеющихся изображений. Это достигается путем применения намеренных изменений, таких как поворот или отражение изображения, регулировка яркости или кадрирование его части.
Например, представьте, что у вас есть только одна фотография кошки. Если повернуть изображение или изменить его яркость, можно создать несколько новых версий из этой единственной фотографии. Каждая версия выглядит немного по-разному, но все равно это фотография одной и той же кошки. Эти вариации помогают научить модель тому, что объект может выглядеть по-разному, оставаясь тем же самым.

Во время обучения модели увеличение объема данных может быть встроено непосредственно в процесс обучения. Вместо того, чтобы вручную создавать и хранить новые копии изображений, можно применять случайные преобразования при загрузке каждого изображения.
Это означает, что модель каждый раз видит немного другую версию изображения, будь то более яркую, перевернутую или частично скрытую. Такие методы, как случайное стирание, могут даже удалять небольшие области изображения, чтобы имитировать реальные ситуации, когда объект заблокирован или виден только частично.

Просмотр множества различных версий одного и того же изображения позволяет модели научиться определять важные особенности, а не полагаться на один идеальный пример. Такое разнообразие укрепляет надежность модели ИИ, благодаря чему она может более надежно работать в реальных условиях.
Ниже приведены некоторые методы увеличения объема данных, используемые для внесения вариаций в обучающие изображения:

Управление наборами данных, создание вариаций изображений и написание кода преобразования могут добавить дополнительные шаги к созданию приложения компьютерного зрения. Python Ultralytics Python помогает упростить этот процесс, предоставляя единый интерфейс для обучения, запуска и развертыванияYOLO Ultralytics YOLO , таких как YOLO26. В рамках этих усилий по оптимизации рабочих процессов обучения пакет включает встроенное, Ultralytics расширение данных, оптимизированное для YOLO .
Он также поддерживает полезные интеграции, которые устраняют необходимость в отдельных инструментах или настраиваемом коде. В частности, для увеличения объема данных пакет интегрируется с Albumentations, широко используемой библиотекой для увеличения объема изображений. Эта интеграция позволяет автоматически применять увеличение объема данных во время обучения без необходимости использования дополнительных скриптов или настраиваемого кода.
Еще одним фактором, влияющим на надежность модели, является качество аннотаций. Четкие и точные метки, созданные и управляемые с помощью инструментов аннотирования, таких как Roboflow, помогают модели понять, где находятся объекты и как они выглядят.
Во время обучения динамически применяются такие методы расширения данных, как переворот, кадрирование и поворот, а аннотации автоматически корректируются в соответствии с этими изменениями. Когда метки точны, этот процесс работает бесперебойно и предоставляет модели множество реалистичных примеров одной и той же сцены.
Если аннотации неточны или несогласованны, эти ошибки могут повторяться во всех дополненных изображениях, что снижает эффективность обучения. Использование точных аннотаций с самого начала предотвращает распространение этих ошибок и способствует повышению надежности модели.
Далее рассмотрим примеры того, как увеличение объема данных способствует повышению надежности моделей ИИ в реальных приложениях.
Синтетические изображения часто используются для обучения систем обнаружения объектов, когда реальные данные ограничены, конфиденциальны или их сложно собрать. Они позволяют командам быстро генерировать примеры продуктов, окружающей среды и ракурсов камеры без необходимости снимать каждый сценарий в реальной жизни.
Однако синтетические наборы данных иногда могут выглядеть слишком чистыми по сравнению с реальными видеозаписями, где меняется освещение, объекты перекрываются, а сцены включают в себя фоновый беспорядок. Увеличение объема данных помогает преодолеть этот разрыв за счет введения реалистичных вариаций, таких как различное освещение, шум или расположение объектов, благодаря чему модель учится справляться с типами условий, с которыми она столкнется при внедрении.
Например, в недавнем исследовании YOLO11 была обучена исключительно на синтетических изображениях, а для введения дополнительных вариаций было добавлено увеличение объема данных. Это сыграло важную роль в обучении модели более широкому распознаванию объектов. Модель показала хорошие результаты при тестировании на реальных изображениях, несмотря на то, что во время обучения она никогда не видела реальных данных.
Наборы данных медицинской визуализации часто ограничены, а сами сканы могут различаться в зависимости от типа оборудования, настроек визуализации или клинической среды. Различия в анатомии пациентов, углах, освещении или визуальном шуме могут затруднять обучение моделей компьютерного зрения шаблонам, которые хорошо обобщаются для всех пациентов и больниц.
Увеличение объема данных помогает решить эту проблему путем создания нескольких вариаций одного и того же сканирования во время обучения, например, добавления шума, небольшого сдвига изображения или применения небольших искажений. Эти изменения делают обучающие данные более репрезентативными для реальных клинических условий.
Например, в исследовании по педиатрической визуализации ученые использовали YOLO11 анатомической сегментации и обучили его на расширенных медицинских данных. Они ввели такие вариации, как добавление шума, небольшие сдвиги положения и небольшие искажения, чтобы сделать изображения более реалистичными.

Изучая эти вариации, модель сосредоточилась на значимых анатомических особенностях, а не на поверхностных различиях. Это сделало результаты сегментации более стабильными для различных сканов и случаев пациентов.
Сбор разнообразных данных является сложной задачей, но увеличение объема данных позволяет моделям учиться на более широком спектре визуальных условий. Это приводит к повышению надежности моделей при работе с окклюзиями, изменениями освещения и переполненными сценами. В целом, это помогает им работать более надежно за пределами контролируемых учебных сред.
Присоединяйтесь к нашему сообществу и изучайте последние достижения в области искусственного интеллекта на нашем репозитории GitHub. Посетите страницы наших решений, чтобы узнать, как такие приложения, как ИИ в производстве и компьютерное зрение в здравоохранении, способствуют прогрессу, а также ознакомьтесь с нашими вариантами лицензирования для создания вашего следующего ИИ-решения.