YOLO12: пояснения, реальные применения и сценарии использования
Открой для себя YOLO12, новейшую модель компьютерного зрения! Узнай, как её архитектура, сфокусированная на механизмах внимания, и технология FlashAttention улучшают задачи обнаружения объектов в разных отраслях.

Компьютерное зрение — это отрасль искусственного интеллекта (ИИ), помогающая машинам распознавать изображения и видео. Эта область развивается невероятно быстро, так как исследователи и разработчики ИИ постоянно расширяют ее границы. Сообщество ИИ стремится сделать модели быстрее, умнее и эффективнее. Один из последних прорывов — YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.
YOLO12 была разработана исследователями из Университета в Буффало, Университета штата Нью-Йорк (SUNY) и Университета Китайской академии наук. В рамках уникального подхода YOLO12 внедряет механизмы внимания, позволяющие модели фокусироваться на самых важных частях изображения, а не обрабатывать всё одинаково.
Она также оснащена FlashAttention — техникой, которая ускоряет обработку при меньшем использовании памяти, и механизмом пространственного внимания (area attention), разработанным для имитации того, как люди естественным образом фокусируются на центральных объектах.
Благодаря этим улучшениям YOLO12n на 2,1% точнее, чем YOLOv10n, а YOLO12m на 1,0% точнее, чем YOLO11m. Однако за это приходится платить: YOLO12n работает на 9% медленнее, чем YOLOv10n, а YOLO12m — на 3% медленнее, чем YOLO11m.

Рис. 1. Пример использования YOLO12 для обнаружения объектов.
В этой статье мы разберем, что отличает YOLO12, как она соотносится с предыдущими версиями и где её можно применять.
Link to this sectionПуть к выпуску YOLO12#
Серия моделей YOLO представляет собой набор моделей компьютерного зрения, предназначенных для обнаружения объектов в реальном времени, что означает их способность быстро идентифицировать и находить объекты на изображениях и видео. Со временем каждая версия улучшалась в плане скорости, точности и эффективности.
Например, Ultralytics YOLOv5, выпущенная в 2020 году, получила широкое распространение благодаря своей скорости, а также простоте дообучения и развертывания. Позже Ultralytics YOLOv8 усовершенствовала этот опыт, предложив дополнительную поддержку для таких задач компьютерного зрения, как сегментация экземпляров и отслеживание объектов.
Совсем недавно Ultralytics YOLO11 сфокусировалась на улучшении обработки в реальном времени при сохранении баланса между скоростью и точностью. К примеру, модель YOLO11m содержала на 22% меньше параметров, чем YOLOv8m, но при этом обеспечивала более высокую производительность обнаружения на наборе данных COCO — широко используемом эталоне для оценки моделей обнаружения объектов.
Основываясь на этих достижениях, YOLO12 меняет подход к обработке визуальной информации. Вместо того чтобы относиться ко всем частям изображения одинаково, она отдает приоритет наиболее релевантным областям, что повышает точность обнаружения. Проще говоря, YOLO12 развивает предыдущие улучшения, стремясь при этом к большей точности.
Link to this sectionКлючевые особенности YOLO12#
YOLO12 представляет ряд улучшений, которые повышают эффективность задач компьютерного зрения, сохраняя при этом скорость обработки в реальном времени. Вот обзор основных функций YOLO12:
- Архитектура, ориентированная на внимание: Вместо того чтобы обрабатывать все части изображения равнозначно, YOLO12 фокусируется на самых важных областях. Это повышает точность и сокращает объем ненужных вычислений, делая обнаружение более четким и эффективным даже на загроможденных изображениях.
- FlashAttention: YOLO12 ускоряет анализ изображений, используя меньше памяти. С помощью FlashAttention (алгоритма с эффективным использованием памяти) она оптимизирует обработку данных, снижая нагрузку на оборудование и делая задачи реального времени более плавными и надежными.
- R-ELAN (Residual Efficient Layer Aggregation Networks): YOLO12 более эффективно организует свои слои с помощью R-ELAN, что улучшает обработку и усвоение данных моделью. Это делает обучение более стабильным, распознавание объектов — более четким, а требования к вычислительным ресурсам — более низкими, что позволяет модели эффективно работать в различных средах.
Чтобы понять, как эти функции работают в реальной жизни, представьте торговый центр. YOLO12 может помочь отслеживать покупателей, распознавать элементы декора магазина, такие как горшечные растения или рекламные вывески, и замечать забытые или оставленные без присмотра предметы.
Архитектура, ориентированная на внимание, помогает модели сосредоточиться на наиболее важных деталях, а FlashAttention гарантирует, что всё будет обработано быстро без перегрузки системы. Это упрощает операторам торговых центров повышение безопасности, организацию пространства и улучшение общего покупательского опыта.

Рис. 2. Обнаружение объектов в торговом центре с помощью YOLO12.
Однако у YOLO12 есть и некоторые ограничения, которые следует учитывать:
- Более длительное время обучения: Из-за своей архитектуры YOLO12 требует больше времени на обучение по сравнению с YOLO11.
- Сложности при экспорте: Некоторые пользователи могут столкнуться с трудностями при экспорте моделей YOLO12, особенно при их интеграции в определенные среды развертывания.
Link to this sectionПонимание показателей производительности YOLO12#
YOLO12 представлена в нескольких вариантах, каждый из которых оптимизирован под конкретные нужды. Меньшие версии (nano и small) отдают приоритет скорости и эффективности, что делает их идеальными для мобильных устройств и периферийных вычислений. Средние и крупные версии обеспечивают баланс между скоростью и точностью, а YOLO12x (extra large) разработана для задач повышенной точности, таких как промышленная автоматизация, медицинская визуализация и современные системы наблюдения.
Благодаря такому разнообразию YOLO12 обеспечивает различный уровень производительности в зависимости от размера модели. Бенчмарки показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокого среднего показателя точности (mAP).
Однако некоторые модели, такие как YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, что демонстрирует компромисс между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя и больше, чем YOLO11. Это делает её отличным выбором для приложений, где точность важнее, чем максимальная скорость.

Рис. 3. Сравнение Ultralytics YOLO11 и YOLO12.
Link to this sectionИспользование YOLO12 через Python-пакет Ultralytics#
YOLO12 поддерживается Python-пакетом Ultralytics и проста в использовании, что делает её доступной как для новичков, так и для профессионалов. Всего за несколько строк кода пользователи могут загружать предобученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на собственных наборах данных. Python-пакет Ultralytics упрощает этот процесс, устраняя необходимость в сложной настройке.
Например, вот шаги, которые тебе нужно пройти, чтобы использовать YOLO12 для обнаружения объектов:
- Установи пакет Ultralytics: Сначала установи Python-пакет Ultralytics, который предоставляет инструменты, необходимые для эффективной работы YOLO12. Это гарантирует, что все зависимости настроены правильно.
- Загрузи предобученную модель YOLO12: Выбери подходящий вариант YOLO12 (nano, small, medium, large или extra large) в зависимости от уровня точности и скорости, требуемых для твоей задачи.
- Предоставь изображение или видео: Введи файл изображения или видео, который хочешь проанализировать. YOLO12 также может обрабатывать потоковое видео для обнаружения в реальном времени.
- Запусти процесс обнаружения: Модель сканирует визуальные данные, идентифицирует объекты и помещает их в ограничивающие рамки (bounding boxes). Она маркирует каждый обнаруженный объект предсказанным классом и показателем уверенности.
- Настрой параметры обнаружения: Ты также можешь изменять такие параметры, как пороги уверенности (confidence thresholds), чтобы настроить точность и производительность обнаружения.
- Сохрани или используй результат: Обработанное изображение или видео, содержащее обнаруженные объекты, можно сохранить или интегрировать в приложение для дальнейшего анализа, автоматизации или принятия решений.
Эти шаги делают YOLO12 легкой в использовании для множества приложений: от систем наблюдения и ритейл-аналитики до медицинской визуализации и автономных транспортных средств.
Link to this sectionПрактическое применение YOLO12#
YOLO12 можно использовать во множестве реальных задач благодаря поддержке обнаружения объектов, сегментации экземпляров, классификации изображений, оценки позы и ориентированного обнаружения объектов (OBB).

Рис. 4. YOLO12 поддерживает такие задачи, как обнаружение объектов и сегментация экземпляров.
Однако, как мы обсуждали ранее, модели YOLO12 отдают приоритет точности перед скоростью, а значит, им требуется немного больше времени на обработку изображений по сравнению с более ранними версиями. Этот компромисс делает YOLO12 идеальной для задач, где точность важнее, чем скорость в реальном времени, например:
- Медицинская визуализация: YOLO12 можно обучить для высокоточного обнаружения опухолей или патологий на рентгеновских снимках и МРТ, что делает её полезным инструментом для врачей и радиологов, которым необходим точный анализ изображений для постановки диагноза.
- Контроль качества на производстве: Она может помочь в выявлении производственных дефектов, гарантируя, что на рынок попадут только качественные товары, при этом сокращая отходы и повышая эффективность.
- Криминалистический анализ: Правоохранительные органы могут настроить YOLO12 для анализа записей с камер наблюдения и сбора доказательств. В уголовных расследованиях точность критически важна для определения ключевых деталей.
- Точное земледелие: Фермеры могут использовать YOLO12 для анализа здоровья сельскохозяйственных культур, обнаружения болезней или вредителей и мониторинга состояния почвы. Точная оценка помогает оптимизировать стратегии ведения сельского хозяйства, что ведет к повышению урожайности и эффективности управления ресурсами.
Link to this sectionНачало работы с YOLO12#
Перед запуском YOLO12 важно убедиться, что твоя система соответствует необходимым требованиям.
Технически YOLO12 может работать на любом выделенном GPU (графическом процессоре). По умолчанию она не требует FlashAttention, поэтому может работать на большинстве GPU-систем и без него. Однако включение FlashAttention может быть особенно полезным при работе с большими наборами данных или изображениями высокого разрешения, так как это помогает предотвратить замедление, снизить использование памяти и повысить эффективность обработки.
Чтобы использовать FlashAttention, тебе понадобится NVIDIA GPU одной из следующих серий: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) или Hopper (H100, H200).
Учитывая удобство и доступность, Python-пакет Ultralytics пока не поддерживает инференс через FlashAttention, поскольку его установка может быть довольно технически сложной. Чтобы узнать больше о начале работы с YOLO12 и оптимизации её производительности, ознакомься с официальной документацией Ultralytics.
Link to this sectionОсновные выводы#
По мере развития компьютерного зрения модели становятся более точными и эффективными. YOLO12 улучшает выполнение задач компьютерного зрения, таких как обнаружение объектов, сегментация экземпляров и классификация изображений, благодаря обработке на основе внимания и FlashAttention, повышая точность и оптимизируя использование памяти.
В то же время компьютерное зрение становится доступнее, чем когда-либо. YOLO12 легко использовать через Python-пакет Ultralytics, и благодаря акценту на точности, а не на скорости, она отлично подходит для медицинской визуализации, промышленных проверок и робототехники — областей, где точность имеет решающее значение.
Интересуешься ИИ? Загляни в наш репозиторий GitHub и присоединяйся к нашему сообществу. Исследуй инновации в таких секторах, как ИИ в самоуправляемых автомобилях и компьютерное зрение в сельском хозяйстве на наших страницах решений. Ознакомься с нашими вариантами лицензирования и воплощай в жизнь свои проекты в области визуального ИИ. 🚀






