Откройте для себя YOLO12, новейшую модель компьютерного зрения! Узнайте, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в различных отраслях.
Откройте для себя YOLO12, новейшую модель компьютерного зрения! Узнайте, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в различных отраслях.
Компьютерное зрение - это область искусственного интеллекта (ИИ), которая помогает машинам понимать изображения и видео. Эта область развивается невероятными темпами, поскольку исследователи и разработчики ИИ постоянно расширяют границы возможностей. ИИ-сообщество постоянно стремится сделать модели быстрее, умнее и эффективнее. Один из последних прорывов - YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.
YOLO12 была разработана исследователями из Университета в Буффало, SUNY (Государственный университет Нью-Йорка) и Университета Китайской академии наук. В новом уникальном подходе YOLO12 представляет механизмы внимания, позволяющие модели фокусироваться на наиболее важных частях изображения, а не обрабатывать все одинаково.
Он также оснащен FlashAttention, технологией, которая ускоряет обработку при меньшем использовании памяти, и механизмом area attention, разработанным для имитации того, как люди естественным образом сосредотачиваются на центральных объектах.
Эти улучшения делают YOLO12n на 2,1% точнее, чем YOLOv10n, а YOLO12m — на 1,0% точнее, чем YOLO11m. Однако это достигается за счет компромисса: YOLO12n на 9% медленнее, чем YOLOv10n, а YOLO12m — на 3% медленнее, чем YOLO11m.

В этой статье мы рассмотрим, что отличает YOLO12, как она соотносится с предыдущими версиями и где ее можно применять.
Серия моделейYOLO - это набор моделей компьютерного зрения, предназначенных для обнаружения объектов в режиме реального времени, то есть они могут быстро идентифицировать и находить объекты на изображениях и видео. С течением времени каждая версия улучшалась с точки зрения скорости, точности и эффективности.
Например, Ultralytics YOLOv5выпущенная в 2020 году, получила широкое распространение благодаря быстрому и простому обучению и развертыванию. Позже, Ultralytics YOLOv8 улучшила его, предложив дополнительную поддержку задач компьютерного зрения, таких как сегментация экземпляров и отслеживание объектов.
Совсем недавно, Ultralytics YOLO11 сосредоточилась на улучшении обработки данных в реальном времени, сохраняя баланс между скоростью и точностью. Например, YOLO11m имеет на 22 % меньше параметров, чем YOLOv8m, но при этом обеспечивает лучшую производительность обнаружения на наборе данных COCO - широко используемом эталоне для оценки моделей обнаружения объектов.
Основываясь на этих достижениях, YOLO12 представляет собой сдвиг в способе обработки визуальной информации. Вместо того, чтобы относиться ко всем частям изображения одинаково, она отдает приоритет наиболее релевантным областям, повышая точность обнаружения. Проще говоря, YOLO12 опирается на предыдущие улучшения, стремясь при этом к большей точности.
YOLO12 представляет несколько улучшений, которые повышают эффективность задач компьютерного зрения, сохраняя при этом скорость обработки в реальном времени. Вот обзор ключевых особенностей YOLO12:
Чтобы понять, как эти функции работают в реальной жизни, рассмотрим торговый центр. YOLO12 может помочь track покупателей, определить украшения магазина, такие как растения в горшках или рекламные вывески, а также обнаружить неправильно расставленные или брошенные товары.
Его архитектура, ориентированная на внимание, помогает ему сосредоточиться на наиболее важных деталях, а FlashAttention обеспечивает быструю обработку всего объема данных без перегрузки системы. Это упрощает операторам торговых центров задачи по повышению безопасности, организации планировки магазинов и улучшению общего впечатления от покупок.

Однако, у YOLO12 также есть некоторые ограничения, которые следует учитывать:
YOLO12 поставляется в нескольких вариантах, каждый из которых оптимизирован для различных потребностей. Меньшие версии (nano и small) приоритезируют скорость и эффективность, что делает их идеальными для мобильных устройств и edge computing. Версии medium и large обеспечивают баланс между скоростью и точностью, а YOLO12x (extra large) предназначена для высокоточных приложений, таких как промышленная автоматизация, медицинская визуализация и передовые системы наблюдения.
Благодаря этим вариантам YOLO12 обеспечивает различные уровни производительности в зависимости от размера модели. Бенчмарк-тесты показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокой средней точностиmAP).
Однако некоторые модели, такие как YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, демонстрируя компромисс между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя и использует больше, чем YOLO11. Это делает ее отличным выбором для приложений, где точность важнее скорости.

YOLO12 поддерживается пакетомUltralytics Python и прост в использовании, что делает его доступным как для новичков, так и для профессионалов. С помощью всего нескольких строк кода пользователи могут загружать предварительно обученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на пользовательских наборах данных. Пакет Ultralytics Python упрощает этот процесс, избавляя от необходимости выполнять сложные шаги по настройке.
Например, вот шаги, которые необходимо выполнить, чтобы использовать YOLO12 для обнаружения объектов:
Эти шаги упрощают использование YOLO12 для различных приложений, от видеонаблюдения и отслеживания розничной торговли до медицинской визуализации и автономных транспортных средств.
YOLO12 можно использовать в различных реальных приложениях благодаря поддержке object detection, instance segmentation, классификации изображений, оценки позы и обнаружения ориентированных объектов (OBB).

Однако, как мы обсуждали ранее, модели YOLO12 ставят точность выше скорости, а это означает, что им требуется немного больше времени для обработки изображений по сравнению с более ранними версиями. Этот компромисс делает YOLO12 идеальным для приложений, где точность важнее скорости в реальном времени, таких как:
Перед запуском YOLO12 важно убедиться, что ваша система соответствует необходимым требованиям.
Технически YOLO12 может работать на любом специализированном GPU (графическом процессоре). По умолчанию он не требует FlashAttention, поэтому может работать на большинстве GPU без него. Однако включение FlashAttention может быть особенно полезно при работе с большими наборами данных или изображениями высокого разрешения, так как помогает предотвратить замедления, снизить потребление памяти и повысить эффективность обработки.
Чтобы использовать FlashAttention, вам понадобитсяGPU NVIDIA одной из этих серий: Turing (T4, Quadro RTX), Ampere (серия RTX 30, A30, A40, A100), Ada Lovelace (серия RTX 40) или Hopper (H100, H200).
Учитывая удобство и доступность, пакет Ultralytics Python пока не поддерживает вывод FlashAttention, поскольку его установка может быть довольно сложной с технической точки зрения. Чтобы узнать больше о начале работы с YOLO12 и оптимизации его производительности, ознакомьтесь с официальной документацией Ultralytics .
По мере развития компьютерного зрения модели становятся все более точными и эффективными. YOLO12 улучшает задачи компьютерного зрения, такие как обнаружение объектов, сегментация экземпляров и классификация изображений, благодаря обработке с акцентом на внимание и FlashAttention, повышая точность при одновременной оптимизации использования памяти.
В то же время компьютерное зрение стало доступным как никогда. YOLO12 прост в использовании благодаря пакету Ultralytics Python и, благодаря своей ориентации на точность, а не на скорость, хорошо подходит для медицинской визуализации, промышленного контроля и робототехники - приложений, где точность имеет ключевое значение.
Интересуетесь ИИ? Посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Ознакомьтесь с инновациями в таких секторах, как ИИ в автомобилях с автоматическим управлением и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и воплотите в жизнь свои проекты Vision AI. 🚀