Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

YOLO12: реальные приложения и примеры использования

Абирами Вина

5 мин чтения

26 февраля 2025 г.

Откройте для себя YOLO12, новейшую модель компьютерного зрения! Узнайте, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в различных отраслях.

Компьютерное зрение - это область искусственного интеллекта (ИИ), которая помогает машинам понимать изображения и видео. Эта область развивается невероятными темпами, поскольку исследователи и разработчики ИИ постоянно расширяют границы возможностей. ИИ-сообщество постоянно стремится сделать модели быстрее, умнее и эффективнее. Один из последних прорывов - YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.

YOLO12 была разработана исследователями из Университета в Буффало, SUNY (Государственный университет Нью-Йорка) и Университета Китайской академии наук. В новом уникальном подходе YOLO12 представляет механизмы внимания, позволяющие модели фокусироваться на наиболее важных частях изображения, а не обрабатывать все одинаково. 

Он также оснащен FlashAttention, технологией, которая ускоряет обработку при меньшем использовании памяти, и механизмом area attention, разработанным для имитации того, как люди естественным образом сосредотачиваются на центральных объектах.

Эти улучшения делают YOLO12n на 2,1% точнее, чем YOLOv10n, а YOLO12m — на 1,0% точнее, чем YOLO11m. Однако это достигается за счет компромисса: YOLO12n на 9% медленнее, чем YOLOv10n, а YOLO12m — на 3% медленнее, чем YOLO11m.

__wf_reserved_inherit
Рис. 1. Пример использования YOLO12 для detect объектов.

В этой статье мы рассмотрим, что отличает YOLO12, как она соотносится с предыдущими версиями и где ее можно применять.

Путь к релизу YOLO12

Серия моделейYOLO - это набор моделей компьютерного зрения, предназначенных для обнаружения объектов в режиме реального времени, то есть они могут быстро идентифицировать и находить объекты на изображениях и видео. С течением времени каждая версия улучшалась с точки зрения скорости, точности и эффективности.

Например, Ultralytics YOLOv5выпущенная в 2020 году, получила широкое распространение благодаря быстрому и простому обучению и развертыванию. Позже, Ultralytics YOLOv8 улучшила его, предложив дополнительную поддержку задач компьютерного зрения, таких как сегментация экземпляров и отслеживание объектов. 

Совсем недавно, Ultralytics YOLO11 сосредоточилась на улучшении обработки данных в реальном времени, сохраняя баланс между скоростью и точностью. Например, YOLO11m имеет на 22 % меньше параметров, чем YOLOv8m, но при этом обеспечивает лучшую производительность обнаружения на наборе данных COCO - широко используемом эталоне для оценки моделей обнаружения объектов.

Основываясь на этих достижениях, YOLO12 представляет собой сдвиг в способе обработки визуальной информации. Вместо того, чтобы относиться ко всем частям изображения одинаково, она отдает приоритет наиболее релевантным областям, повышая точность обнаружения. Проще говоря, YOLO12 опирается на предыдущие улучшения, стремясь при этом к большей точности.

Ключевые особенности YOLO12

YOLO12 представляет несколько улучшений, которые повышают эффективность задач компьютерного зрения, сохраняя при этом скорость обработки в реальном времени. Вот обзор ключевых особенностей YOLO12:

  • Архитектура, ориентированная на внимание: Вместо того, чтобы относиться ко всем частям изображения одинаково, YOLO12 фокусируется на наиболее важных областях. Это повышает точность и сокращает ненужную обработку, делая обнаружение более четким и эффективным даже на загроможденных изображениях.
  • FlashAttention: YOLO12 ускоряет анализ изображений, потребляя при этом меньше памяти. Благодаря FlashAttention (алгоритму с эффективным использованием памяти) он оптимизирует обработку данных, снижая нагрузку на оборудование и делая задачи, выполняемые в реальном времени, более плавными и надежными.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): В YOLO12 более эффективно организованы слои с использованием R-ELAN, что улучшает обработку и усвоение данных моделью. Это повышает стабильность обучения, четкость распознавания объектов и снижает вычислительные требования, обеспечивая эффективную работу в различных средах.

Чтобы понять, как эти функции работают в реальной жизни, рассмотрим торговый центр. YOLO12 может помочь track покупателей, определить украшения магазина, такие как растения в горшках или рекламные вывески, а также обнаружить неправильно расставленные или брошенные товары. 

Его архитектура, ориентированная на внимание, помогает ему сосредоточиться на наиболее важных деталях, а FlashAttention обеспечивает быструю обработку всего объема данных без перегрузки системы. Это упрощает операторам торговых центров задачи по повышению безопасности, организации планировки магазинов и улучшению общего впечатления от покупок.

__wf_reserved_inherit
Рис. 2. Обнаружение объектов в торговом центре с помощью YOLO12.

Однако, у YOLO12 также есть некоторые ограничения, которые следует учитывать:

  • Более медленное время обучения: Из-за своей архитектуры YOLO12 требует больше времени на обучение по сравнению с YOLO11.
  • Проблемы экспорта: Некоторые пользователи могут столкнуться с трудностями при экспорте моделей YOLO12, особенно при их интеграции в определенные среды развертывания.

Понимание эталонных показателей производительности YOLO12

YOLO12 поставляется в нескольких вариантах, каждый из которых оптимизирован для различных потребностей. Меньшие версии (nano и small) приоритезируют скорость и эффективность, что делает их идеальными для мобильных устройств и edge computing. Версии medium и large обеспечивают баланс между скоростью и точностью, а YOLO12x (extra large) предназначена для высокоточных приложений, таких как промышленная автоматизация, медицинская визуализация и передовые системы наблюдения.

Благодаря этим вариантам YOLO12 обеспечивает различные уровни производительности в зависимости от размера модели. Бенчмарк-тесты показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокой средней точностиmAP). 

Однако некоторые модели, такие как YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, демонстрируя компромисс между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя и использует больше, чем YOLO11. Это делает ее отличным выбором для приложений, где точность важнее скорости.

__wf_reserved_inherit
Рис. 3. Сравнение Ultralytics YOLO11 и YOLO12.

Использование YOLO12 через пакет Ultralytics Python

YOLO12 поддерживается пакетомUltralytics Python и прост в использовании, что делает его доступным как для новичков, так и для профессионалов. С помощью всего нескольких строк кода пользователи могут загружать предварительно обученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на пользовательских наборах данных. Пакет Ultralytics Python упрощает этот процесс, избавляя от необходимости выполнять сложные шаги по настройке.

Например, вот шаги, которые необходимо выполнить, чтобы использовать YOLO12 для обнаружения объектов:

  • Установите пакет Ultralytics : Сначала установите пакет Ultralytics Python , который предоставляет инструменты, необходимые для эффективного запуска YOLO12. Это гарантирует, что все зависимости установлены правильно.
  • Загрузите предварительно обученную модель YOLO12: Выберите подходящий вариант YOLO12 (nano, small, medium, large или extra large) в зависимости от уровня точности и скорости, необходимых для вашей задачи.
  • Предоставьте изображение или видео: Загрузите файл изображения или видео, который вы хотите проанализировать. YOLO12 также может обрабатывать потоковое видео для обнаружения в реальном времени.
  • Запустите процесс обнаружения: Модель сканирует визуальные данные, идентифицирует объекты и размещает вокруг них ограничивающие рамки. Она помечает каждый обнаруженный объект своим прогнозируемым классом и оценкой достоверности.
  • Настройка параметров обнаружения: Вы также можете изменять такие параметры, как пороги достоверности, для точной настройки точности и производительности обнаружения.
  • Сохраните или используйте вывод: Обработанное изображение или видео, теперь содержащее обнаруженные объекты, можно сохранить или интегрировать в приложение для дальнейшего анализа, автоматизации или принятия решений.

Эти шаги упрощают использование YOLO12 для различных приложений, от видеонаблюдения и отслеживания розничной торговли до медицинской визуализации и автономных транспортных средств.

Практическое применение YOLO12

YOLO12 можно использовать в различных реальных приложениях благодаря поддержке object detection, instance segmentation, классификации изображений, оценки позы и обнаружения ориентированных объектов (OBB). 

__wf_reserved_inherit
Рис. 4. YOLO12 поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров.

Однако, как мы обсуждали ранее, модели YOLO12 ставят точность выше скорости, а это означает, что им требуется немного больше времени для обработки изображений по сравнению с более ранними версиями. Этот компромисс делает YOLO12 идеальным для приложений, где точность важнее скорости в реальном времени, таких как:

  • Медицинская визуализация: YOLO12 можно обучить с высокой точностью detect опухоли или аномалии на рентгеновских и магнитно-резонансных снимках, что делает его полезным инструментом для врачей и радиологов, которым необходим точный анализ изображений для диагностики.
  • Контроль качества в производстве: Он может помочь выявить дефекты продукции в процессе производства, гарантируя, что на рынок попадут только высококачественные изделия, при этом сокращая отходы и повышая эффективность.
  • Криминалистический анализ: Правоохранительные органы могут точно настроить YOLO12 для анализа отснятого материала видеонаблюдения и сбора доказательств. В уголовных расследованиях точность жизненно важна для выявления ключевых деталей.
  • Точное земледелие: Фермеры могут использовать YOLO12 для анализа состояния посевов, detect болезней и вредителей, а также для мониторинга состояния почвы. Точные оценки помогают оптимизировать сельскохозяйственные стратегии, что ведет к повышению урожайности и рациональному использованию ресурсов.

Начало работы с YOLO12

Перед запуском YOLO12 важно убедиться, что ваша система соответствует необходимым требованиям.

Технически YOLO12 может работать на любом специализированном GPU (графическом процессоре). По умолчанию он не требует FlashAttention, поэтому может работать на большинстве GPU без него. Однако включение FlashAttention может быть особенно полезно при работе с большими наборами данных или изображениями высокого разрешения, так как помогает предотвратить замедления, снизить потребление памяти и повысить эффективность обработки. 

Чтобы использовать FlashAttention, вам понадобитсяGPU NVIDIA одной из этих серий: Turing (T4, Quadro RTX), Ampere (серия RTX 30, A30, A40, A100), Ada Lovelace (серия RTX 40) или Hopper (H100, H200).

Учитывая удобство и доступность, пакет Ultralytics Python пока не поддерживает вывод FlashAttention, поскольку его установка может быть довольно сложной с технической точки зрения. Чтобы узнать больше о начале работы с YOLO12 и оптимизации его производительности, ознакомьтесь с официальной документацией Ultralytics .

Основные выводы

По мере развития компьютерного зрения модели становятся все более точными и эффективными. YOLO12 улучшает задачи компьютерного зрения, такие как обнаружение объектов, сегментация экземпляров и классификация изображений, благодаря обработке с акцентом на внимание и FlashAttention, повышая точность при одновременной оптимизации использования памяти.

В то же время компьютерное зрение стало доступным как никогда. YOLO12 прост в использовании благодаря пакету Ultralytics Python и, благодаря своей ориентации на точность, а не на скорость, хорошо подходит для медицинской визуализации, промышленного контроля и робототехники - приложений, где точность имеет ключевое значение.

Интересуетесь ИИ? Посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Ознакомьтесь с инновациями в таких секторах, как ИИ в автомобилях с автоматическим управлением и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и воплотите в жизнь свои проекты Vision AI. 🚀

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно