Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Использование аугментаций Albumentations для диверсификации ваших данных

Абирами Вина

5 мин чтения

17 февраля 2025 г.

Узнайте, как использовать Albumentations для увеличения данных при пользовательском обучении Ultralytics YOLO11, чтобы повысить производительность модели с помощью разнообразных данных обучения.

При создании решения в области компьютерного зрения сбор разнообразного набора изображений для обучения моделей Vision AI может быть важной частью процесса. Это часто требует много времени и денег, и иногда собранные изображения все равно недостаточно разнообразны для эффективного обучения моделей.

Например, модели компьютерного зрения, такие как Ultralytics YOLO11, могут быть специально обучены на наборах изображений для различных задач компьютерного зрения, связанных с различными приложениями. Разнообразные данные имеют ключевое значение, поскольку они помогают модели лучше обобщать, позволяя ей распознавать объекты и закономерности в широком диапазоне реальных сценариев.

Если вам не хватает разнообразных данных, методы увеличения объема данных изображений могут стать отличным решением. Такие методы, как вращение, отражение и регулировка яркости, могут помочь увеличить разнообразие вашего набора данных, улучшая способность модели обрабатывать более широкий спектр условий.

Вот почему Ultralytics поддерживает интеграцию для увеличения объема данных изображений. Используя Albumentations, популярный инструмент, предлагающий набор преобразований, вы можете создавать разнообразные визуальные данные. Эта интеграция упрощает процесс обучения YOLO11 за счет автоматического увеличения количества обучающих изображений, что приводит к повышению производительности модели. 

В этой статье мы рассмотрим, как вы можете использовать интеграцию Albumentations, ее преимущества и ее влияние на обучение моделей.

Что такое Albumentations?

Модели компьютерного зрения могут обучаться на широком наборе высококачественных изображений для распознавания объектов в различных средах. Сбор больших наборов данных из реальных источников может быть медленным, дорогостоящим и неэффективным. Чтобы упростить эту задачу, вы можете использовать аугментацию изображений для создания новых вариаций существующих изображений, помогая моделям учиться на различных сценариях без сбора дополнительных данных.

В частности, вы можете использовать Albumentations, библиотеку с открытым исходным кодом, представленную для эффективного увеличения объема данных изображений в 2018 году. Она поддерживает различные операции, от простых геометрических изменений, таких как повороты и отражения, до более сложных настроек, таких как яркость, контрастность и добавление шума.

__wf_reserved_inherit
Рис. 1. Примеры различных типов аугментации изображений.

Ключевые особенности Albumentations

Albumentations известна своей высокой производительностью, что означает, что она может быстро и эффективно обрабатывать изображения. Построенная на оптимизированных библиотеках, таких как OpenCV и NumPy, она обрабатывает большие наборы данных с минимальным временем обработки, что делает ее идеальной для быстрой аугментации данных во время обучения модели.

Вот некоторые другие ключевые особенности Albumentations:

  • Широкий спектр преобразований: Albumentations предоставляет более 70 типов аугментаций. Эти вариации помогают моделям научиться обнаруживать объекты, несмотря на изменения в освещении, углах или фоне.
  • Оптимизировано для скорости: Он использует передовые методы оптимизации, такие как SIMD (Single Instruction, Multiple Data), который обрабатывает несколько точек данных одновременно, чтобы ускорить увеличение изображений и эффективно обрабатывать большие наборы данных.
  • Три уровня аугментации: Она улучшает данные тремя способами. Например, аугментация на уровне пикселей регулирует яркость и цвет, не изменяя объекты. Между тем, аугментация на пространственном уровне изменяет положение объектов, сохраняя при этом ключевые детали, а аугментация на уровне смешивания смешивает части разных изображений для создания новых образцов.

Зачем использовать интеграцию Albumentations?

Возможно, вам интересно: существует множество способов применения аугментаций к набору данных, и вы даже можете создать свои собственные, используя такие инструменты, как OpenCV. Так зачем выбирать интеграцию, которая поддерживает такую библиотеку, как Albumentations?

Создание аугментаций вручную с помощью таких инструментов, как OpenCV, может занять много времени и требует определенных знаний. Кроме того, может быть сложно точно настроить преобразования для получения наилучших результатов. Интеграция Albumentations упрощает этот процесс. Она предлагает множество готовых к использованию преобразований, которые могут сэкономить ваше время и усилия при подготовке набора данных.

Еще одна причина выбрать интеграцию Albumentations заключается в том, что она бесперебойно работает с конвейером обучения моделей Ultralytics. Это значительно упрощает пользовательскую настройку YOLO11, поскольку аугментации автоматически применяются во время обучения. Это упрощает процесс, поэтому вы можете больше сосредоточиться на улучшении своей модели, а не на подготовке данных. 

Начало работы с интеграцией Albumentations

Интересно, что использование интеграции Albumentations для обучения YOLO11 проще, чем может показаться. После настройки необходимых библиотек интеграция автоматически применяет аугментацию данных изображения во время обучения. Это помогает модели учиться на различных вариациях изображений, используя один и тот же набор данных.

Далее, давайте рассмотрим, как установить и использовать интеграцию Albumentations при пользовательской тренировке YOLO11.

Установка Python-пакета Ultralytics и Albumentations

Перед применением аугментаций необходимо установить как пакет Ultralytics Python, так и Albumentations. Интеграция построена таким образом, что обе библиотеки по умолчанию бесперебойно работают вместе, поэтому вам не нужно беспокоиться о сложных конфигурациях.

Весь процесс установки можно завершить всего за пару минут с помощью одной команды pip, которая является инструментом управления пакетами для установки библиотек Python, как показано на изображении ниже. 

__wf_reserved_inherit
Рис. 2. Установка Ultralytics и Albumentations.

После установки Albumentations режим обучения модели Ultralytics автоматически применяет аугментацию изображений во время обучения. Если Albumentations не установлен, эти аугментации не будут применены. Для получения более подробной информации вы можете обратиться к официальной документации Ultralytics.

Обучение YOLO11 с помощью интеграции Albumentations

Давайте лучше поймем, что происходит под капотом интеграции Albumentations. 

Вот более подробный обзор аугментаций, применяемых во время обучения YOLO11:

  • Размытие: Это преобразование добавляет небольшое размытие к изображению. Это помогает модели обнаруживать объекты, даже если они не в фокусе.
  • Медианное размытие: Уменьшает случайный шум, сохраняя края объектов на изображении. Это облегчает модели обнаружение объектов в сложных условиях.
  • Оттенки серого: Преобразование изображения в черно-белое может помочь модели сосредоточиться на формах и текстурах, а не на цветах.
  • CLAHE (Contrast limited adaptive histogram equalization): Этот метод аугментации повышает контрастность изображений, особенно в областях, которые слишком темные или трудноразличимые, например, в условиях низкой освещенности или задымленности. Это делает объекты в этих областях более четкими и легкими для идентификации моделью.
__wf_reserved_inherit
Рис. 3. Пример применения аугментации в оттенках серого к изображению кошки.

Применение YOLO11 и интеграции Albumentations

Если вы выполняете пользовательскую тренировку YOLO11 для конкретного приложения, интеграция Albumentations может помочь повысить производительность модели, адаптируясь к различным условиям. Давайте обсудим некоторые реальные приложения и проблемы, которые может решить эта интеграция.

Улучшение медицинской визуализации

Использование Vision AI в здравоохранении помогает врачам более точно анализировать медицинские изображения, чтобы помогать в диагностике и улучшать уход за пациентами. Фактически, около пятой части организаций здравоохранения уже используют решения на основе искусственного интеллекта. 

Однако, создание таких решений в области компьютерного зрения сопряжено с рядом проблем. Медицинские снимки могут сильно различаться в разных больницах из-за различий в оборудовании, настройках и даже опыте техников. Вариации яркости, контрастности и экспозиции могут влиять на согласованность и точность моделей Vision AI, что затрудняет их надежную работу в различных средах.

Именно здесь интеграция таких инструментов, как Albumentations, становится необходимой. Создавая несколько дополненных версий одного и того же скана, Albumentations позволяет модели учиться на различных качествах изображения. Это помогает модели стать более надежной, позволяя ей точно обнаруживать заболевания как на изображениях высокого, так и низкого качества. 

__wf_reserved_inherit
Рис. 4. Дополненные рентгеновские снимки.

Улучшение безопасности и видеонаблюдения

Еще одно интересное применение Vision AI — в сфере безопасности и наблюдения. Обнаружение объектов в режиме реального времени может помочь командам безопасности быстро выявлять потенциальные угрозы. 

Основная проблема, связанная с этим приложением, заключается в том, что камеры видеонаблюдения снимают кадры в различных условиях освещения в течение дня, и эти условия могут существенно повлиять на то, как модель понимает такие изображения. Такие факторы, как условия низкой освещенности, блики или плохая видимость, могут затруднить моделям компьютерного зрения последовательное обнаружение объектов или распознавание потенциальных угроз.

Интеграция Albumentations помогает, применяя преобразования для имитации различных условий освещения. Это позволяет модели научиться обнаруживать объекты как в условиях яркого, так и слабого освещения, что делает ее более надежной и улучшает время отклика в сложных условиях.

Переосмысление розничных рабочих процессов и клиентского опыта

Разлитый товар в проходе супермаркета, собака, бегущая по магазину, или ребенок, опрокидывающий витрину с товарами, — это лишь несколько примеров повседневных событий, которые могут быть крайними случаями для Vision AI в розничной торговле. Компьютерное зрение все чаще используется для улучшения качества обслуживания клиентов путем отслеживания поведения покупателей, мониторинга пешеходного трафика и идентификации товаров на полках. Однако эти реальные ситуации могут быть трудными для понимания и точной обработки системами ИИ.

Хотя не каждый сценарий может быть представлен в наборе данных компьютерного зрения, интеграция Albumentations помогает за счет расширения данных для охвата многих возможных ситуаций, таких как неожиданное освещение, необычные углы или препятствия. Это помогает моделям компьютерного зрения адаптироваться к различным условиям, улучшая их способность обрабатывать крайние случаи и делать точные прогнозы в динамичной розничной среде.

Основные выводы

Сбор разнообразных реальных данных для обучения моделей может быть сложным, но Albumentations упрощает эту задачу, создавая вариации изображений, которые помогают моделям адаптироваться к различным условиям. 

Интеграция Albumentations, поддерживаемая Ultralytics, упрощает процесс применения этих аугментаций во время пользовательской тренировки YOLO11. Это приводит к улучшению качества набора данных, что приносит пользу широкому спектру отраслей за счет создания более точных и надежных моделей Vision AI.

Присоединяйтесь к нашему сообществу и изучите наш репозиторий на GitHub, чтобы узнать больше об ИИ, и ознакомьтесь с нашими вариантами лицензирования, чтобы дать старт своим проектам в области Vision AI. Интересуетесь инновациями, такими как ИИ в производстве или компьютерное зрение в самоуправляемых автомобилях? Посетите страницы наших решений, чтобы узнать больше. 

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена