Ultralytics YOLO Data Augmentation with Albumentations

При создании решения в области компьютерного зрения сбор разнообразного набора изображений для обучения моделей Vision AI может быть важной частью процесса. Это часто требует много времени и денег, и иногда собранные изображения все равно недостаточно разнообразны для эффективного обучения моделей.

Например, модели компьютерного зрения, такие как Ultralytics YOLO11 можно обучать на наборах данных изображений для различных задач компьютерного зрения, связанных с различными приложениями. Разнообразие данных - ключевой момент, поскольку оно помогает модели лучше обобщать информацию, позволяя ей распознавать объекты и паттерны в широком диапазоне реальных сценариев.

Если вам не хватает разнообразных данных, методы увеличения объема данных изображений могут стать отличным решением. Такие методы, как вращение, отражение и регулировка яркости, могут помочь увеличить разнообразие вашего набора данных, улучшая способность модели обрабатывать более широкий спектр условий.

Именно поэтому Ultralytics поддерживает интеграцию для расширения данных изображений. С помощью Albumentations, популярного инструмента, предлагающего набор трансформаций, можно создавать разнообразные визуальные данные. Эта интеграция упрощает процесс обучения YOLO11 , автоматически дополняя учебные изображения, что приводит к улучшению работы модели.

В этой статье мы рассмотрим, как вы можете использовать интеграцию Albumentations, ее преимущества и ее влияние на обучение моделей.

Что такое Albumentations?

Модели компьютерного зрения могут обучаться на широком наборе высококачественных изображений для распознавания объектов в различных средах. Сбор больших наборов данных из реальных источников может быть медленным, дорогостоящим и неэффективным. Чтобы упростить эту задачу, вы можете использовать аугментацию изображений для создания новых вариаций существующих изображений, помогая моделям учиться на различных сценариях без сбора дополнительных данных.

В частности, вы можете использовать Albumentations, библиотеку с открытым исходным кодом, представленную для эффективного увеличения объема данных изображений в 2018 году. Она поддерживает различные операции, от простых геометрических изменений, таких как повороты и отражения, до более сложных настроек, таких как яркость, контрастность и добавление шума.

__wf_reserved_inherit — Рис. 1. Примеры различных типов аугментации изображений.

‍

Ключевые особенности Albumentations

Albumentations известен своей высокой производительностью, что означает, что он может обрабатывать изображения быстро и эффективно. Построенный на оптимизированных библиотеках, таких как OpenCV и NumPy, он обрабатывает большие массивы данных с минимальным временем обработки, что делает его идеальным для быстрого пополнения данных в процессе обучения модели.

Вот некоторые другие ключевые особенности Albumentations:

Широкий выбор трансформаций: Albumentations предоставляет более 70 типов дополнений. Эти вариации помогают моделям научиться detect объекты, несмотря на изменения освещения, углов или фона.
‍
Оптимизировано для скорости: Он использует передовые методы оптимизации, такие как SIMD (Single Instruction, Multiple Data), который обрабатывает несколько точек данных одновременно, чтобы ускорить увеличение изображений и эффективно обрабатывать большие наборы данных.
‍
Три уровня аугментации: Она улучшает данные тремя способами. Например, аугментация на уровне пикселей регулирует яркость и цвет, не изменяя объекты. Между тем, аугментация на пространственном уровне изменяет положение объектов, сохраняя при этом ключевые детали, а аугментация на уровне смешивания смешивает части разных изображений для создания новых образцов.

Зачем использовать интеграцию Albumentations?

Вы можете задаться вопросом: существует множество способов применения дополнений к набору данных, и вы даже можете создать свои собственные с помощью таких инструментов, как OpenCV. Так почему же стоит выбрать интеграцию, поддерживающую такую библиотеку, как Albumentations?

Ручное создание дополнений с помощью таких инструментов, как OpenCV , может занять много времени и требует определенного опыта. Кроме того, может быть сложно точно настроить преобразования для получения наилучших результатов. Интеграция Albumentations упрощает этот процесс. Она предлагает множество готовых преобразований, которые помогут вам сэкономить время и силы при подготовке набора данных.

Еще одна причина выбрать интеграцию Albumentations заключается в том, что она прекрасно сочетается с конвейеромобучения моделей Ultralytics . Это значительно упрощает обучение YOLO11, поскольку дополнения автоматически применяются в процессе обучения. Это упрощает процесс, и вы можете сосредоточиться на улучшении модели, а не на подготовке данных.

Начало работы с интеграцией Albumentations

Интересно, что использование интеграций Albumentations для обучения YOLO11 более простое, чем может показаться. После установки нужных библиотек интеграция автоматически применяет дополнения к данным изображений во время обучения. Это помогает модели обучаться на разных вариантах изображений, используя один и тот же набор данных.

Далее мы рассмотрим, как установить и использовать интеграцию Albumentations при индивидуальном обучении YOLO11.

Установка пакета Ultralytics Python и Albumentations

Перед применением дополнений необходимо установить как пакетUltralytics Python , так и Albumentations. Интеграция построена таким образом, что обе библиотеки по умолчанию работают без проблем, поэтому вам не нужно беспокоиться о сложных конфигурациях.

Весь процесс установки можно завершить всего за пару минут с помощью одной команды pip, которая представляет собой инструмент управления пакетами для установки библиотек Python , как показано на изображении ниже.

После установки Albumentations режим обучения модели Ultralytics автоматически применяет дополнения к изображениям во время обучения. Если Albumentations не установлен, эти дополнения применяться не будут. Для получения более подробной информации вы можете обратиться к официальной документации Ultralytics .

Обучение YOLO11 с помощью интеграции Albumentations

Давайте лучше поймем, что происходит под капотом интеграции Albumentations.

Вот более подробный взгляд на аугментации, применяемые во время тренировок YOLO11 :

Размытие: это преобразование добавляет к изображению легкое размытие. Это помогает модели detect объекты, даже если они не в фокусе.
‍
Медианное размытие: Уменьшает случайный шум, сохраняя края объектов на изображении. Благодаря этому модель легче detect объекты в сложных условиях.
‍
Оттенки серого: Преобразование изображения в черно-белое может помочь модели сосредоточиться на формах и текстурах, а не на цветах.
‍
CLAHE (Contrast limited adaptive histogram equalization): Этот метод аугментации повышает контрастность изображений, особенно в областях, которые слишком темные или трудноразличимые, например, в условиях низкой освещенности или задымленности. Это делает объекты в этих областях более четкими и легкими для идентификации моделью.

‍

Применение YOLO11 и интеграция Albumentations

Если вы настраиваете YOLO11 для конкретного применения, интеграция Albumentations поможет повысить производительность модели за счет адаптации к различным условиям. Давайте обсудим некоторые реальные приложения и задачи, которые может решить эта интеграция.

Улучшение медицинской визуализации

Использование Vision AI в здравоохранении помогает врачам более точно анализировать медицинские изображения, чтобы помогать в диагностике и улучшать уход за пациентами. Фактически, около пятой части организаций здравоохранения уже используют решения на основе искусственного интеллекта.

Однако, создание таких решений в области компьютерного зрения сопряжено с рядом проблем. Медицинские снимки могут сильно различаться в разных больницах из-за различий в оборудовании, настройках и даже опыте техников. Вариации яркости, контрастности и экспозиции могут влиять на согласованность и точность моделей Vision AI, что затрудняет их надежную работу в различных средах.

Именно здесь интеграция таких инструментов, как Albumentations, становится незаменимой. Создавая несколько дополненных версий одного и того же снимка, Albumentations позволяет модели учиться на различных качествах изображения. Это помогает модели стать более надежной, позволяя ей точно detect заболевания как на высококачественных, так и на низкокачественных изображениях.

‍

Улучшение безопасности и видеонаблюдения

Еще одно интересное применение Vision AI — в сфере безопасности и наблюдения. Обнаружение объектов в режиме реального времени может помочь командам безопасности быстро выявлять потенциальные угрозы.

Основная проблема, связанная с этим приложением, заключается в том, что камеры наблюдения снимают видео при различных условиях освещения в течение дня, и эти условия могут существенно повлиять на то, как модель воспринимает такие изображения. Такие факторы, как низкая освещенность, блики или плохая видимость, могут затруднить для моделей компьютерного зрения detect объектов или последовательное распознавание потенциальных угроз.

Интеграция Albumentations помогает применять преобразования для имитации различных условий освещения. Это позволяет модели научиться detect объекты как при ярком, так и при слабом освещении, что делает ее более надежной и улучшает время отклика в сложных условиях.

Переосмысление розничных рабочих процессов и клиентского опыта

Разлитый товар в проходе супермаркета, собака, бегущая по магазину, или ребенок, опрокидывающий витрину с товарами, — это лишь несколько примеров повседневных событий, которые могут быть крайними случаями для Vision AI в розничной торговле. Компьютерное зрение все чаще используется для улучшения качества обслуживания клиентов путем отслеживания поведения покупателей, мониторинга пешеходного трафика и идентификации товаров на полках. Однако эти реальные ситуации могут быть трудными для понимания и точной обработки системами ИИ.

Хотя не каждый сценарий может быть представлен в наборе данных компьютерного зрения, интеграция Albumentations помогает за счет расширения данных для охвата многих возможных ситуаций, таких как неожиданное освещение, необычные углы или препятствия. Это помогает моделям компьютерного зрения адаптироваться к различным условиям, улучшая их способность обрабатывать крайние случаи и делать точные прогнозы в динамичной розничной среде.

Основные выводы

Сбор разнообразных реальных данных для обучения моделей может быть сложным, но Albumentations упрощает эту задачу, создавая вариации изображений, которые помогают моделям адаптироваться к различным условиям.

Интеграция Albumentations, поддерживаемая Ultralytics , упрощает процесс применения этих дополнений при индивидуальном обучении YOLO11. В результате повышается качество наборов данных, что благоприятно сказывается на широком спектре отраслей благодаря созданию более точных и надежных моделей Vision AI.

Присоединяйтесь к нашему сообществу и изучите наш репозиторий на GitHub, чтобы узнать больше об ИИ, и ознакомьтесь с нашими вариантами лицензирования, чтобы дать старт своим проектам в области Vision AI. Интересуетесь инновациями, такими как ИИ в производстве или компьютерное зрение в самоуправляемых автомобилях? Посетите страницы наших решений, чтобы узнать больше.

Использование аугментаций Albumentations для диверсификации ваших данных