Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

YOLO12: реальные приложения и примеры использования

Абирами Вина

5 мин чтения

26 февраля 2025 г.

Откройте для себя YOLO12, новейшую модель компьютерного зрения! Узнайте, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в различных отраслях.

Компьютерное зрение — это раздел искусственного интеллекта (ИИ), который помогает машинам понимать изображения и видео. Это область, которая развивается невероятными темпами, потому что исследователи и разработчики ИИ постоянно расширяют границы возможного. Сообщество ИИ всегда стремится сделать модели быстрее, умнее и эффективнее. Одним из последних прорывов является YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.

YOLO12 была разработана исследователями из Университета в Буффало, SUNY (Государственный университет Нью-Йорка) и Университета Китайской академии наук. В новом уникальном подходе YOLO12 представляет механизмы внимания, позволяющие модели фокусироваться на наиболее важных частях изображения, а не обрабатывать все одинаково. 

Он также оснащен FlashAttention, технологией, которая ускоряет обработку при меньшем использовании памяти, и механизмом area attention, разработанным для имитации того, как люди естественным образом сосредотачиваются на центральных объектах.

Эти улучшения делают YOLO12n на 2,1% точнее, чем YOLOv10n, а YOLO12m — на 1,0% точнее, чем YOLO11m. Однако это достигается за счет компромисса: YOLO12n на 9% медленнее, чем YOLOv10n, а YOLO12m — на 3% медленнее, чем YOLO11m.

__wf_reserved_inherit
Рис. 1. Пример использования YOLO12 для обнаружения объектов.

В этой статье мы рассмотрим, что отличает YOLO12, как она соотносится с предыдущими версиями и где ее можно применять.

Путь к релизу YOLO12

Серия моделей YOLO - это набор моделей компьютерного зрения, предназначенных для обнаружения объектов в реальном времени, что означает, что они могут быстро идентифицировать и находить объекты на изображениях и видео. Со временем каждая версия улучшалась с точки зрения скорости, точности и эффективности.

Например, Ultralytics YOLOv5, выпущенная в 2020 году, получила широкое распространение благодаря своей скорости и простоте пользовательской настройки и развертывания. Позже Ultralytics YOLOv8 улучшила ее, предложив дополнительную поддержку для задач компьютерного зрения, таких как сегментация экземпляров и отслеживание объектов. 

Совсем недавно Ultralytics YOLO11 сосредоточилась на улучшении обработки в реальном времени, сохраняя при этом баланс между скоростью и точностью. Например, YOLO11m имела на 22% меньше параметров, чем YOLOv8m, но при этом обеспечивала лучшую производительность обнаружения на наборе данных COCO, широко используемом эталоне для оценки моделей обнаружения объектов.

Основываясь на этих достижениях, YOLO12 представляет собой сдвиг в способе обработки визуальной информации. Вместо того, чтобы относиться ко всем частям изображения одинаково, она отдает приоритет наиболее релевантным областям, повышая точность обнаружения. Проще говоря, YOLO12 опирается на предыдущие улучшения, стремясь при этом к большей точности.

Ключевые особенности YOLO12

YOLO12 представляет несколько улучшений, которые повышают эффективность задач компьютерного зрения, сохраняя при этом скорость обработки в реальном времени. Вот обзор ключевых особенностей YOLO12:

  • Архитектура, ориентированная на внимание: Вместо того, чтобы относиться ко всем частям изображения одинаково, YOLO12 фокусируется на наиболее важных областях. Это повышает точность и сокращает ненужную обработку, делая обнаружение более четким и эффективным даже на загроможденных изображениях.
  • FlashAttention: YOLO12 ускоряет анализ изображений, потребляя при этом меньше памяти. Благодаря FlashAttention (алгоритму с эффективным использованием памяти) он оптимизирует обработку данных, снижая нагрузку на оборудование и делая задачи, выполняемые в реальном времени, более плавными и надежными.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): В YOLO12 более эффективно организованы слои с использованием R-ELAN, что улучшает обработку и усвоение данных моделью. Это повышает стабильность обучения, четкость распознавания объектов и снижает вычислительные требования, обеспечивая эффективную работу в различных средах.

Чтобы понять, как эти функции работают в реальной жизни, представьте себе торговый центр. YOLO12 может помочь отслеживать покупателей, идентифицировать элементы декора магазина, такие как комнатные растения или рекламные вывески, а также обнаруживать потерянные или забытые предметы. 

Его архитектура, ориентированная на внимание, помогает ему сосредоточиться на наиболее важных деталях, а FlashAttention обеспечивает быструю обработку всего объема данных без перегрузки системы. Это упрощает операторам торговых центров задачи по повышению безопасности, организации планировки магазинов и улучшению общего впечатления от покупок.

__wf_reserved_inherit
Рис. 2. Обнаружение объектов в торговом центре с помощью YOLO12.

Однако, у YOLO12 также есть некоторые ограничения, которые следует учитывать:

  • Более медленное время обучения: Из-за своей архитектуры YOLO12 требует больше времени обучения по сравнению с YOLO11.
  • Проблемы экспорта: Некоторые пользователи могут столкнуться с трудностями при экспорте моделей YOLO12, особенно при их интеграции в определенные среды развертывания.

Понимание эталонных показателей производительности YOLO12

YOLO12 поставляется в нескольких вариантах, каждый из которых оптимизирован для различных потребностей. Меньшие версии (nano и small) приоритезируют скорость и эффективность, что делает их идеальными для мобильных устройств и edge computing. Версии medium и large обеспечивают баланс между скоростью и точностью, а YOLO12x (extra large) предназначена для высокоточных приложений, таких как промышленная автоматизация, медицинская визуализация и передовые системы наблюдения.

Благодаря этим вариациям YOLO12 обеспечивает различные уровни производительности в зависимости от размера модели. Эталонные тесты показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокого среднего значения точности (mAP). 

Однако, некоторые модели, такие как YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, что демонстрирует компромисс между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя она все еще использует больше, чем YOLO11. Это делает ее отличным выбором для приложений, где точность важнее, чем скорость.

__wf_reserved_inherit
Рис. 3. Сравнение Ultralytics YOLO11 и YOLO12.

Использование YOLO12 через Python-пакет Ultralytics

YOLO12 поддерживается пакетом Ultralytics Python, прост в использовании и доступен как для начинающих, так и для профессионалов. Всего с помощью нескольких строк кода пользователи могут загружать предварительно обученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на пользовательских наборах данных. Пакет Ultralytics Python упрощает этот процесс, устраняя необходимость в сложных этапах настройки.

Например, вот шаги, которые необходимо выполнить, чтобы использовать YOLO12 для обнаружения объектов:

  • Установите пакет Ultralytics: Сначала установите пакет Ultralytics Python, который предоставляет инструменты, необходимые для эффективного запуска YOLO12. Это гарантирует правильную настройку всех зависимостей.
  • Загрузите предварительно обученную модель YOLO12: Выберите подходящий вариант YOLO12 (nano, small, medium, large или extra large) в зависимости от уровня точности и скорости, необходимых для вашей задачи.
  • Предоставьте изображение или видео: Загрузите файл изображения или видео, который вы хотите проанализировать. YOLO12 также может обрабатывать потоковое видео для обнаружения в реальном времени.
  • Запустите процесс обнаружения: Модель сканирует визуальные данные, идентифицирует объекты и размещает вокруг них ограничивающие рамки. Она помечает каждый обнаруженный объект своим прогнозируемым классом и оценкой достоверности.
  • Настройка параметров обнаружения: Вы также можете изменять такие параметры, как пороги достоверности, для точной настройки точности и производительности обнаружения.
  • Сохраните или используйте вывод: Обработанное изображение или видео, теперь содержащее обнаруженные объекты, можно сохранить или интегрировать в приложение для дальнейшего анализа, автоматизации или принятия решений.

Эти шаги упрощают использование YOLO12 для различных приложений, от видеонаблюдения и отслеживания розничной торговли до медицинской визуализации и автономных транспортных средств.

Практическое применение YOLO12

YOLO12 можно использовать в различных реальных приложениях благодаря поддержке object detection, instance segmentation, классификации изображений, оценки позы и обнаружения ориентированных объектов (OBB). 

__wf_reserved_inherit
Рис. 4. YOLO12 поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров.

Однако, как мы обсуждали ранее, модели YOLO12 ставят точность выше скорости, а это означает, что им требуется немного больше времени для обработки изображений по сравнению с более ранними версиями. Этот компромисс делает YOLO12 идеальным для приложений, где точность важнее скорости в реальном времени, таких как:

  • Медицинская визуализация: YOLO12 можно настроить для обнаружения опухолей или отклонений на рентгеновских снимках и МРТ с высокой точностью, что делает его полезным инструментом для врачей и рентгенологов, которым требуется точный анализ изображений для диагностики.
  • Контроль качества в производстве: Он может помочь выявить дефекты продукции в процессе производства, гарантируя, что на рынок попадут только высококачественные изделия, при этом сокращая отходы и повышая эффективность.
  • Криминалистический анализ: Правоохранительные органы могут точно настроить YOLO12 для анализа отснятого материала видеонаблюдения и сбора доказательств. В уголовных расследованиях точность жизненно важна для выявления ключевых деталей.
  • Точное земледелие (Precision agriculture): Фермеры могут использовать YOLO12 для анализа здоровья посевов, обнаружения болезней или заражения вредителями и мониторинга состояния почвы. Точные оценки помогают оптимизировать стратегии ведения сельского хозяйства, что приводит к повышению урожайности и рациональному использованию ресурсов.

Начало работы с YOLO12

Перед запуском YOLO12 важно убедиться, что ваша система соответствует необходимым требованиям.

Технически, YOLO12 может работать на любом выделенном GPU (графическом процессоре). По умолчанию он не требует FlashAttention, поэтому может работать на большинстве GPU-систем без него. Однако включение FlashAttention может быть особенно полезным при работе с большими наборами данных или изображениями с высоким разрешением, поскольку это помогает предотвратить замедление работы, снизить использование памяти и повысить эффективность обработки. 

Для использования FlashAttention вам понадобится графический процессор NVIDIA из одной из следующих серий: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) или Hopper (H100, H200).

Учитывая удобство использования и доступность, Python-пакет Ultralytics пока не поддерживает инференс FlashAttention, поскольку его установка может быть довольно сложной с технической точки зрения. Чтобы узнать больше о том, как начать работу с YOLO12 и оптимизировать ее производительность, ознакомьтесь с официальной документацией Ultralytics.

Основные выводы

По мере развития компьютерного зрения модели становятся все более точными и эффективными. YOLO12 улучшает задачи компьютерного зрения, такие как обнаружение объектов, сегментация экземпляров и классификация изображений, благодаря обработке с акцентом на внимание и FlashAttention, повышая точность при одновременной оптимизации использования памяти.

В то же время, компьютерное зрение стало доступнее, чем когда-либо. YOLO12 прост в использовании через Python-пакет Ultralytics и, благодаря своей ориентации на точность, а не на скорость, хорошо подходит для медицинской визуализации, промышленного контроля и робототехники — приложений, где точность имеет ключевое значение.

Интересуетесь ИИ? Посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Ознакомьтесь с инновациями в таких секторах, как ИИ в автомобилях с автоматическим управлением и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и воплотите в жизнь свои проекты Vision AI. 🚀

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена