YOLO12 объясняется: Реальные приложения и сценарии использования

Абирами Вина

5 минут чтения

26 февраля 2025 г.

Откройте для себя YOLO12, новейшую модель компьютерного зрения! Узнайте, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в различных отраслях.

Компьютерное зрение - это область искусственного интеллекта (ИИ), которая помогает машинам понимать изображения и видео. Эта область развивается невероятными темпами, поскольку исследователи и разработчики ИИ постоянно расширяют границы возможностей. ИИ-сообщество постоянно стремится сделать модели быстрее, умнее и эффективнее. Один из последних прорывов - YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.

YOLO12 была разработана исследователями из Университета Буффало, SUNY (Университет штата Нью-Йорк) и Университета Китайской академии наук. В YOLO12 реализованы уникальные механизмы внимания, позволяющие модели фокусироваться на наиболее важных частях изображения, а не обрабатывать все подряд. 

В нем также реализована технология FlashAttention, ускоряющая обработку данных при меньшем объеме памяти, и механизм зонального внимания, призванный имитировать естественное сосредоточение человека на центральных объектах.

Благодаря этим улучшениям YOLO12n стал на 2,1% точнее, чем YOLOv10n, а YOLO12m - на +1,0% точнее, чем YOLO11m. Однако за это приходится платить - YOLO12n работает на 9 % медленнее, чем YOLOv10n, а YOLO12m - на 3 % медленнее, чем YOLO11m.

__wf_reserved_inherit
Рис. 1. Пример использования YOLO12 для обнаружения объектов.

В этой статье мы рассмотрим, чем отличается YOLO12 от предыдущих версий и где его можно применить.

Дорога к выпуску YOLO12

Серия моделей YOLO - это набор моделей компьютерного зрения, предназначенных для обнаружения объектов в режиме реального времени, то есть они могут быстро идентифицировать и находить объекты на изображениях и видео. С течением времени каждая версия улучшалась с точки зрения скорости, точности и эффективности.

Например, Ultralytics YOLOv5, выпущенная в 2020 году, получила широкое распространение благодаря быстрому и простому обучению и развертыванию. Позже Ultralytics YOLOv8 усовершенствовал эту систему, предложив дополнительную поддержку задач компьютерного зрения, таких как сегментация объектов и отслеживание объектов. 

Недавно в Ultralytics YOLO11 основное внимание было уделено улучшению обработки данных в реальном времени при сохранении баланса между скоростью и точностью. Например, YOLO11m имеет на 22 % меньше параметров, чем YOLOv8m, но при этом обеспечивает лучшую производительность обнаружения на наборе данных COCO - широко используемом эталоне для оценки моделей обнаружения объектов.

Основываясь на этих достижениях, YOLO12 меняет способ обработки визуальной информации. Вместо того чтобы одинаково относиться ко всем частям изображения, он отдает предпочтение наиболее важным областям, повышая точность обнаружения. Проще говоря, YOLO12 опирается на предыдущие усовершенствования и стремится к большей точности.

Ключевые особенности YOLO12

В YOLO12 реализован ряд усовершенствований, которые улучшают задачи компьютерного зрения, сохраняя при этом скорость обработки в реальном времени. Вот обзор ключевых особенностей YOLO12:

  • Архитектура, ориентированная на внимание: Вместо того чтобы одинаково относиться ко всем частям изображения, YOLO12 фокусируется на наиболее важных областях. Это повышает точность и сокращает ненужную обработку, делая обнаружение более четким и эффективным даже на загроможденных изображениях.
  • FlashAttention: YOLO12 ускоряет анализ изображений, используя при этом меньше памяти. Благодаря FlashAttention (алгоритму, экономящему память), он оптимизирует обработку данных, снижая нагрузку на оборудование и делая задачи реального времени более плавными и надежными.
  • Остаточно эффективные сети агрегирования слоев (R-ELAN): YOLO12 организует свои слои более эффективно с помощью R-ELAN, что улучшает обработку и обучение модели на основе данных. Это делает обучение более стабильным, распознавание объектов - более четким, а требования к вычислительным ресурсам - более низкими, что позволяет эффективно работать в различных средах.

Чтобы понять, как эти функции работают в реальной жизни, рассмотрим торговый центр. YOLO12 может помочь отследить покупателей, определить украшения магазина, такие как растения в горшках или рекламные вывески, а также обнаружить неправильно расставленные или брошенные товары. 

Архитектура, ориентированная на внимание, помогает сосредоточиться на самых важных деталях, а FlashAttention обеспечивает быструю обработку информации, не перегружая систему. Благодаря этому операторы торговых центров могут повысить уровень безопасности, упорядочить планировку магазинов и улучшить общее впечатление от покупок.

__wf_reserved_inherit
Рис. 2. Обнаружение объектов в торговом центре с помощью YOLO12.

Однако YOLO12 также имеет некоторые ограничения, которые следует учитывать:

  • Более медленное время обучения: Из-за своей архитектуры YOLO12 требует больше времени на обучение по сравнению с YOLO11.
  • Проблемы с экспортом: Некоторые пользователи могут столкнуться с трудностями при экспорте моделей YOLO12, особенно при их интеграции в конкретные среды развертывания.

Понимание контрольных показателей производительности YOLO12

YOLO12 выпускается в нескольких вариантах, каждый из которых оптимизирован для различных нужд. Малые версии (nano и small) имеют приоритет скорости и эффективности, что делает их идеальными для мобильных устройств и пограничных вычислений. Средние и большие версии обеспечивают баланс между скоростью и точностью, а YOLO12x (сверхбольшой) предназначен для высокоточных приложений, таких как промышленная автоматизация, медицинская визуализация и передовые системы наблюдения.

Благодаря этим вариантам YOLO12 обеспечивает различные уровни производительности в зависимости от размера модели. Бенчмарк-тесты показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокой средней точности (mAP). 

Однако некоторые модели, такие как YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, что свидетельствует о компромиссе между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя и использует больше, чем YOLO11. Это делает ее отличным выбором для приложений, где точность важнее скорости.

__wf_reserved_inherit
Рис. 3. Сравнение ультралитиков YOLO11 и YOLO12.

Использование YOLO12 через пакет Ultralytics Python

YOLO12 поддерживается пакетом Ultralytics Python и прост в использовании, что делает его доступным как для новичков, так и для профессионалов. С помощью всего нескольких строк кода пользователи могут загружать предварительно обученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на пользовательских наборах данных. Пакет Ultralytics Python упрощает этот процесс, избавляя от необходимости выполнять сложные шаги по настройке.

Например, вот шаги, которые нужно выполнить, чтобы использовать YOLO12 для обнаружения объектов:

  • Установите пакет Ultralytics: Сначала установите пакет Ultralytics Python, который предоставляет инструменты, необходимые для эффективного запуска YOLO12. Это гарантирует, что все зависимости установлены правильно.
  • Загрузите предварительно обученную модель YOLO12: Выберите подходящий вариант YOLO12 (nano, small, medium, large или extra large) в зависимости от уровня точности и скорости, необходимых для решения вашей задачи.
  • Предоставьте изображение или видео: Введите изображение или видеофайл, который вы хотите проанализировать. YOLO12 также может обрабатывать видео в реальном времени для обнаружения в режиме реального времени.
  • Запустите процесс обнаружения: Модель сканирует визуальные данные, идентифицирует объекты и размещает вокруг них ограничительные рамки. Она помечает каждый обнаруженный объект, указывая его предсказанный класс и балл доверия.
  • Настройка параметров обнаружения: Вы также можете изменить такие параметры, как пороги уверенности, чтобы точно настроить точность и производительность обнаружения.
  • Сохраните или используйте полученный результат: Обработанное изображение или видео, содержащее обнаруженные объекты, можно сохранить или интегрировать в приложение для дальнейшего анализа, автоматизации или принятия решений.

Эти шаги делают YOLO12 удобным для использования в самых разных областях, от видеонаблюдения и отслеживания розничной торговли до медицинской визуализации и автономных транспортных средств.

Практическое применение YOLO12

YOLO12 может использоваться в различных реальных приложениях благодаря поддержке обнаружения объектов, сегментации экземпляров, классификации изображений, оценки позы и ориентированного обнаружения объектов (OBB). 

__wf_reserved_inherit
Рис. 4. YOLO12 поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров.

Однако, как мы уже говорили, для моделей YOLO12 точность важнее скорости, поэтому они обрабатывают изображения немного дольше, чем предыдущие версии. Этот компромисс делает YOLO12 идеальным для приложений, где точность важнее скорости в реальном времени, например:

  • Медицинская визуализация: YOLO12 можно обучить с высокой точностью обнаруживать опухоли или аномалии на рентгеновских и магнитно-резонансных снимках, что делает его полезным инструментом для врачей и радиологов, которым необходим точный анализ изображений для диагностики.
  • Контроль качества в производстве: Он может помочь выявить дефекты продукции в процессе производства, гарантируя, что только высококачественные изделия попадут на рынок, сокращая отходы и повышая эффективность.
  • Криминалистический анализ: Правоохранительные органы могут настраивать YOLO12 для анализа записей с камер наблюдения и сбора улик. В уголовных расследованиях точность крайне важна для выявления ключевых деталей.
  • Точное земледелие: Фермеры могут использовать YOLO12 для анализа состояния посевов, обнаружения болезней и вредителей, а также для мониторинга состояния почвы. Точные оценки помогают оптимизировать сельскохозяйственные стратегии, что ведет к повышению урожайности и рациональному использованию ресурсов.

Начало работы с YOLO12

Перед запуском YOLO12 важно убедиться, что ваша система соответствует необходимым требованиям.

Технически YOLO12 может работать на любом специализированном GPU (графическом процессоре). По умолчанию он не требует FlashAttention, поэтому может работать на большинстве GPU-систем без него. Однако включение FlashAttention может быть особенно полезно при работе с большими наборами данных или изображениями высокого разрешения, поскольку помогает предотвратить замедления, снизить потребление памяти и повысить эффективность обработки. 

Чтобы использовать FlashAttention, вам понадобится графический процессор NVIDIA одной из этих серий: Turing (T4, Quadro RTX), Ampere (серия RTX 30, A30, A40, A100), Ada Lovelace (серия RTX 40) или Hopper (H100, H200).

Учитывая удобство и доступность, пакет Ultralytics Python пока не поддерживает вывод FlashAttention, поскольку его установка может быть достаточно сложной с технической точки зрения. Чтобы узнать больше о начале работы с YOLO12 и оптимизации его производительности, ознакомьтесь с официальной документацией Ultralytics.

Основные выводы

По мере развития компьютерного зрения модели становятся все более точными и эффективными. YOLO12 улучшает задачи компьютерного зрения, такие как обнаружение объектов, сегментация объектов и классификация изображений, с помощью обработки, ориентированной на внимание, и FlashAttention, повышая точность и оптимизируя использование памяти.

В то же время компьютерное зрение стало доступным как никогда. YOLO12 прост в использовании благодаря пакету Ultralytics Python и, благодаря своей ориентации на точность, а не на скорость, хорошо подходит для медицинской визуализации, промышленных проверок и робототехники - приложений, где точность имеет ключевое значение.

Вам интересно узнать об искусственном интеллекте? Посетите наш репозиторий GitHub и присоединитесь к нашему сообществу. Ознакомьтесь с инновациями в таких отраслях, как ИИ в самоуправляемых автомобилях и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и воплотите в жизнь свои проекты в области искусственного интеллекта. 🚀

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена