Использование дополнений Albumentations для диверсификации данных

Абирами Вина

5 минут чтения

17 февраля 2025 г.

Узнайте, как использовать Albumentations для дополнений при пользовательском обучении Ultralytics YOLO11, чтобы улучшить работу модели с различными обучающими данными.

При создании решений для компьютерного зрения сбор разнообразного набора изображений для обучения моделей искусственного интеллекта может стать важнейшей частью процесса. Часто это требует много времени и денег, а иногда собранные изображения все равно недостаточно разнообразны для эффективного обучения моделей.

Например, модели компьютерного зрения, такие как Ultralytics YOLO11, могут быть специально обучены на наборах данных изображений для решения различных задач компьютерного зрения, связанных с различными приложениями. Разнообразие данных - ключевой момент, поскольку оно помогает модели лучше обобщать информацию, позволяя ей распознавать объекты и паттерны в широком диапазоне реальных сценариев.

Если вы столкнулись с проблемой нехватки разнообразных данных, отличным решением могут стать методы дополнения изображений. Такие методы, как поворот, переворот и регулировка яркости, помогут увеличить разнообразие набора данных, улучшая способность модели работать с более широким диапазоном условий.

Именно поэтому Ultralytics поддерживает интеграцию для расширения данных изображений. С помощью Albumentations, популярного инструмента, предлагающего набор трансформаций, можно создавать разнообразные визуальные данные. Эта интеграция упрощает процесс обучения YOLO11, автоматически дополняя учебные изображения, что приводит к повышению производительности модели. 

В этой статье мы рассмотрим, как можно использовать интеграцию Albumentations, ее преимущества и влияние на обучение моделей.

Что такое альбуминация?

Модели компьютерного зрения могут обучаться на основе широкого набора высококачественных изображений для распознавания объектов в различных средах. Сбор больших наборов данных из реальных источников может быть медленным, дорогостоящим и неэффективным. Чтобы упростить эту задачу, можно использовать расширение данных изображений для создания новых вариаций существующих изображений, что поможет моделям обучаться в различных сценариях без сбора дополнительных данных.

В частности, вы можете использовать Albumentations, библиотеку с открытым исходным кодом, представленную для эффективного дополнения данных изображения в 2018 году. Она поддерживает множество операций, от простых геометрических изменений, таких как повороты и перевороты, до более сложных корректировок, таких как яркость, контрастность и добавление шума.

__wf_reserved_inherit
Рис. 1. Примеры различных типов дополнений к данным изображения.

Основные характеристики Albumentations

Albumentations известен своей высокой производительностью, что означает, что он может быстро и эффективно обрабатывать изображения. Построенный на оптимизированных библиотеках OpenCV и NumPy, он обрабатывает большие наборы данных с минимальным временем обработки, что делает его идеальным для быстрого пополнения данных во время обучения модели.

Вот некоторые другие ключевые особенности Albumentations:

  • Широкий выбор трансформаций: Albumentations предоставляет более 70 типов дополнений. Эти вариации помогают моделям научиться обнаруживать объекты, несмотря на изменения освещения, углов или фона.
  • Оптимизировано для скорости: в нем используются передовые методы оптимизации, такие как SIMD (Single Instruction, Multiple Data), которые обрабатывают несколько точек данных одновременно, чтобы ускорить увеличение изображения и эффективно обрабатывать большие наборы данных.
  • Три уровня дополнений: Он улучшает данные тремя способами. Например, аугментации на уровне пикселей корректируют яркость и цвет, не изменяя объекты. При этом дополнения на пространственном уровне изменяют расположение объектов, сохраняя основные детали, а дополнения на уровне смешивания смешивают части разных изображений, создавая новые образцы.

Почему вы должны использовать интеграцию Albumentations?

Вы можете задаться вопросом: существует множество способов применения дополнений к набору данных, и вы даже можете создать свои собственные с помощью таких инструментов, как OpenCV. Так почему же стоит выбрать интеграцию, поддерживающую такую библиотеку, как Albumentations?

Ручное создание дополнений с помощью таких инструментов, как OpenCV, может занять много времени и требует определенного опыта. Кроме того, может быть сложно точно настроить преобразования для получения наилучших результатов. Интеграция Albumentations упрощает этот процесс. Она предлагает множество готовых преобразований, которые помогут вам сэкономить время и силы при подготовке набора данных.

Еще одна причина выбрать интеграцию Albumentations заключается в том, что она прекрасно сочетается с конвейером обучения моделей Ultralytics. Это значительно упрощает обучение YOLO11, поскольку дополнения автоматически применяются в процессе обучения. Это упрощает процесс, и вы можете сосредоточиться на улучшении модели, а не на подготовке данных. 

Начало работы с интеграцией Albumentations

Интересно, что использование интеграций Albumentations для обучения YOLO11 более простое, чем может показаться. После установки нужных библиотек интеграция автоматически применяет дополнения к данным изображений во время обучения. Это помогает модели обучаться на разных вариантах изображений, используя один и тот же набор данных.

Далее мы рассмотрим, как установить и использовать интеграцию Albumentations при индивидуальном обучении YOLO11.

Установка пакета Ultralytics Python и Albumentations

Перед применением дополнений необходимо установить как пакет Ultralytics Python, так и Albumentations. Интеграция построена таким образом, что обе библиотеки по умолчанию работают без проблем, поэтому вам не нужно беспокоиться о сложных конфигурациях.

Весь процесс установки можно завершить всего за пару минут с помощью одной команды pip, которая представляет собой инструмент управления пакетами для установки библиотек Python, как показано на рисунке ниже. 

__wf_reserved_inherit
Рис. 2. Установка ультралитиков и альбуминаторов.

После установки Albumentations режим обучения модели Ultralytics автоматически применяет дополнения к изображениям во время обучения. Если Albumentations не установлен, эти дополнения применяться не будут. Для получения более подробной информации вы можете обратиться к официальной документации Ultralytics.

Обучение YOLO11 с помощью интеграции Albumentations

Давайте лучше разберемся, что происходит под капотом интеграции Albumentations. 

Вот более подробный взгляд на аугментации, применяемые во время тренировок YOLO11:

  • Размытие: это преобразование добавляет к изображению легкое размытие. Это помогает модели обнаружить объекты, даже если они не в фокусе.
  • Медианное размытие: Уменьшает случайный шум, сохраняя края объектов на изображении. Благодаря этому модель легче обнаруживает объекты в сложных условиях.
  • Градации серого: Преобразуя изображение в черно-белое, это дополнение помогает модели сосредоточиться на формах и текстурах, а не на цветах.
  • CLAHE (адаптивная гистограммная эквализация с ограничением контраста): Эта функция повышает контрастность изображений, особенно в слишком темных или трудноразличимых областях, например в условиях недостаточной освещенности или тумана. Благодаря этому объекты в таких областях становятся более четкими, и модели легче их идентифицировать.
__wf_reserved_inherit
Рис. 3. Пример увеличения градаций серого, примененного к изображению кошки.

Применение YOLO11 и интеграция Albumentations

Если вы настраиваете YOLO11 для конкретного применения, интеграция Albumentations поможет повысить производительность модели за счет адаптации к различным условиям. Давайте обсудим некоторые реальные приложения и задачи, которые может решить эта интеграция.

Совершенствование медицинской визуализации

ИИ в здравоохранении помогает врачам более точно анализировать медицинские изображения, чтобы помочь в постановке диагноза и улучшить уход за пациентами. Более того, около пятой части медицинских организаций уже используют решения на основе ИИ. 

Однако создание таких решений на основе компьютерного зрения сопряжено с определенными трудностями. Медицинские снимки в разных больницах могут сильно отличаться друг от друга, на что влияют такие факторы, как различное оборудование, настройки и даже опыт специалистов. Различия в яркости, контрастности и экспозиции могут повлиять на согласованность и точность моделей Vision AI, что затрудняет их надежную работу в различных условиях.

Именно здесь интеграция таких инструментов, как Albumentations, становится незаменимой. Создавая несколько дополненных версий одного и того же снимка, Albumentations позволяет модели учиться на различных качествах изображения. Это помогает модели стать более надежной, позволяя ей точно выявлять заболевания как на высококачественных, так и на низкокачественных изображениях. 

__wf_reserved_inherit
Рис. 4. Дополненные рентгеновские изображения.

Усиление безопасности и наблюдения

Еще одно интересное применение ИИ для зрения - безопасность и видеонаблюдение. Обнаружение объектов в реальном времени может помочь службам безопасности быстро выявлять потенциальные угрозы. 

Основная проблема, связанная с этим приложением, заключается в том, что камеры наблюдения снимают видео при различных условиях освещения в течение дня, и эти условия могут существенно повлиять на то, как модель воспринимает такие изображения. Такие факторы, как низкая освещенность, блики или плохая видимость, могут затруднить для моделей компьютерного зрения обнаружение объектов или последовательное распознавание потенциальных угроз.

Интеграция Albumentations помогает применять преобразования для имитации различных условий освещения. Это позволяет модели научиться обнаруживать объекты как при ярком, так и при слабом освещении, что делает ее более надежной и улучшает время отклика в сложных условиях.

Переосмысление рабочих процессов в розничной торговле и улучшение качества обслуживания клиентов

Пролив в проходе супермаркета, пробегающая по магазину собака или ребенок, опрокинувший витрину с товаром, - вот лишь несколько примеров повседневных событий, которые могут стать краеугольным камнем для применения искусственного зрения в розничной торговле . Компьютерное зрение все чаще используется для улучшения качества обслуживания покупателей: оно позволяет отслеживать поведение покупателей, контролировать пешеходный трафик и идентифицировать товары на полках. Однако системы искусственного интеллекта могут с трудом понимать и точно обрабатывать такие ситуации в реальном мире.

Хотя не все сценарии могут быть представлены в наборе данных компьютерного зрения, интеграция Albumentations помогает дополнить данные, чтобы охватить множество возможных ситуаций, таких как неожиданное освещение, необычные углы или препятствия. Это помогает моделям компьютерного зрения адаптироваться к различным условиям, улучшая их способность справляться с нестандартными ситуациями и делать точные прогнозы в динамичных условиях розничной торговли.

Основные выводы

Сбор разнообразных реальных данных для обучения моделей может быть сложной задачей, но Albumentations упрощает ее, создавая вариации изображений, которые помогают моделям адаптироваться к различным условиям. 

Интеграция Albumentations, поддерживаемая Ultralytics, упрощает процесс применения этих дополнений при индивидуальном обучении YOLO11. В результате повышается качество наборов данных, что благоприятно сказывается на широком спектре отраслей благодаря созданию более точных и надежных моделей Vision AI.

Присоединяйтесь к нашему сообществу и изучите наш репозиторий GitHub, чтобы узнать больше об искусственном интеллекте, а также ознакомьтесь с нашими вариантами лицензирования для запуска ваших проектов Vision AI. Вас интересуют такие инновации, как ИИ в производстве или компьютерное зрение в самодвижущихся автомобилях? Посетите страницы наших решений, чтобы узнать больше. 

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена