Откройте для себя YOLO12, новейшую модель компьютерного зрения! Узнайте, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в различных отраслях.
Откройте для себя YOLO12, новейшую модель компьютерного зрения! Узнайте, как ее архитектура, ориентированная на внимание, и технология FlashAttention улучшают задачи обнаружения объектов в различных отраслях.
Компьютерное зрение — это раздел искусственного интеллекта (ИИ), который помогает машинам понимать изображения и видео. Это область, которая развивается невероятными темпами, потому что исследователи и разработчики ИИ постоянно расширяют границы возможного. Сообщество ИИ всегда стремится сделать модели быстрее, умнее и эффективнее. Одним из последних прорывов является YOLO12, новейшее дополнение к серии моделей YOLO (You Only Look Once), выпущенное 18 февраля 2025 года.
YOLO12 была разработана исследователями из Университета в Буффало, SUNY (Государственный университет Нью-Йорка) и Университета Китайской академии наук. В новом уникальном подходе YOLO12 представляет механизмы внимания, позволяющие модели фокусироваться на наиболее важных частях изображения, а не обрабатывать все одинаково.
Он также оснащен FlashAttention, технологией, которая ускоряет обработку при меньшем использовании памяти, и механизмом area attention, разработанным для имитации того, как люди естественным образом сосредотачиваются на центральных объектах.
Эти улучшения делают YOLO12n на 2,1% точнее, чем YOLOv10n, а YOLO12m — на 1,0% точнее, чем YOLO11m. Однако это достигается за счет компромисса: YOLO12n на 9% медленнее, чем YOLOv10n, а YOLO12m — на 3% медленнее, чем YOLO11m.

В этой статье мы рассмотрим, что отличает YOLO12, как она соотносится с предыдущими версиями и где ее можно применять.
Серия моделей YOLO - это набор моделей компьютерного зрения, предназначенных для обнаружения объектов в реальном времени, что означает, что они могут быстро идентифицировать и находить объекты на изображениях и видео. Со временем каждая версия улучшалась с точки зрения скорости, точности и эффективности.
Например, Ultralytics YOLOv5, выпущенная в 2020 году, получила широкое распространение благодаря своей скорости и простоте пользовательской настройки и развертывания. Позже Ultralytics YOLOv8 улучшила ее, предложив дополнительную поддержку для задач компьютерного зрения, таких как сегментация экземпляров и отслеживание объектов.
Совсем недавно Ultralytics YOLO11 сосредоточилась на улучшении обработки в реальном времени, сохраняя при этом баланс между скоростью и точностью. Например, YOLO11m имела на 22% меньше параметров, чем YOLOv8m, но при этом обеспечивала лучшую производительность обнаружения на наборе данных COCO, широко используемом эталоне для оценки моделей обнаружения объектов.
Основываясь на этих достижениях, YOLO12 представляет собой сдвиг в способе обработки визуальной информации. Вместо того, чтобы относиться ко всем частям изображения одинаково, она отдает приоритет наиболее релевантным областям, повышая точность обнаружения. Проще говоря, YOLO12 опирается на предыдущие улучшения, стремясь при этом к большей точности.
YOLO12 представляет несколько улучшений, которые повышают эффективность задач компьютерного зрения, сохраняя при этом скорость обработки в реальном времени. Вот обзор ключевых особенностей YOLO12:
Чтобы понять, как эти функции работают в реальной жизни, представьте себе торговый центр. YOLO12 может помочь отслеживать покупателей, идентифицировать элементы декора магазина, такие как комнатные растения или рекламные вывески, а также обнаруживать потерянные или забытые предметы.
Его архитектура, ориентированная на внимание, помогает ему сосредоточиться на наиболее важных деталях, а FlashAttention обеспечивает быструю обработку всего объема данных без перегрузки системы. Это упрощает операторам торговых центров задачи по повышению безопасности, организации планировки магазинов и улучшению общего впечатления от покупок.

Однако, у YOLO12 также есть некоторые ограничения, которые следует учитывать:
YOLO12 поставляется в нескольких вариантах, каждый из которых оптимизирован для различных потребностей. Меньшие версии (nano и small) приоритезируют скорость и эффективность, что делает их идеальными для мобильных устройств и edge computing. Версии medium и large обеспечивают баланс между скоростью и точностью, а YOLO12x (extra large) предназначена для высокоточных приложений, таких как промышленная автоматизация, медицинская визуализация и передовые системы наблюдения.
Благодаря этим вариациям YOLO12 обеспечивает различные уровни производительности в зависимости от размера модели. Эталонные тесты показывают, что некоторые варианты YOLO12 превосходят YOLOv10 и YOLO11 по точности, достигая более высокого среднего значения точности (mAP).
Однако, некоторые модели, такие как YOLO12m, YOLO12l и YOLO12x, обрабатывают изображения медленнее, чем YOLO11, что демонстрирует компромисс между точностью обнаружения и скоростью. Несмотря на это, YOLO12 остается эффективной, требуя меньше параметров, чем многие другие модели, хотя она все еще использует больше, чем YOLO11. Это делает ее отличным выбором для приложений, где точность важнее, чем скорость.

YOLO12 поддерживается пакетом Ultralytics Python, прост в использовании и доступен как для начинающих, так и для профессионалов. Всего с помощью нескольких строк кода пользователи могут загружать предварительно обученные модели, выполнять различные задачи компьютерного зрения на изображениях и видео, а также обучать YOLO12 на пользовательских наборах данных. Пакет Ultralytics Python упрощает этот процесс, устраняя необходимость в сложных этапах настройки.
Например, вот шаги, которые необходимо выполнить, чтобы использовать YOLO12 для обнаружения объектов:
Эти шаги упрощают использование YOLO12 для различных приложений, от видеонаблюдения и отслеживания розничной торговли до медицинской визуализации и автономных транспортных средств.
YOLO12 можно использовать в различных реальных приложениях благодаря поддержке object detection, instance segmentation, классификации изображений, оценки позы и обнаружения ориентированных объектов (OBB).

Однако, как мы обсуждали ранее, модели YOLO12 ставят точность выше скорости, а это означает, что им требуется немного больше времени для обработки изображений по сравнению с более ранними версиями. Этот компромисс делает YOLO12 идеальным для приложений, где точность важнее скорости в реальном времени, таких как:
Перед запуском YOLO12 важно убедиться, что ваша система соответствует необходимым требованиям.
Технически, YOLO12 может работать на любом выделенном GPU (графическом процессоре). По умолчанию он не требует FlashAttention, поэтому может работать на большинстве GPU-систем без него. Однако включение FlashAttention может быть особенно полезным при работе с большими наборами данных или изображениями с высоким разрешением, поскольку это помогает предотвратить замедление работы, снизить использование памяти и повысить эффективность обработки.
Для использования FlashAttention вам понадобится графический процессор NVIDIA из одной из следующих серий: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) или Hopper (H100, H200).
Учитывая удобство использования и доступность, Python-пакет Ultralytics пока не поддерживает инференс FlashAttention, поскольку его установка может быть довольно сложной с технической точки зрения. Чтобы узнать больше о том, как начать работу с YOLO12 и оптимизировать ее производительность, ознакомьтесь с официальной документацией Ultralytics.
По мере развития компьютерного зрения модели становятся все более точными и эффективными. YOLO12 улучшает задачи компьютерного зрения, такие как обнаружение объектов, сегментация экземпляров и классификация изображений, благодаря обработке с акцентом на внимание и FlashAttention, повышая точность при одновременной оптимизации использования памяти.
В то же время, компьютерное зрение стало доступнее, чем когда-либо. YOLO12 прост в использовании через Python-пакет Ultralytics и, благодаря своей ориентации на точность, а не на скорость, хорошо подходит для медицинской визуализации, промышленного контроля и робототехники — приложений, где точность имеет ключевое значение.
Интересуетесь ИИ? Посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Ознакомьтесь с инновациями в таких секторах, как ИИ в автомобилях с автоматическим управлением и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и воплотите в жизнь свои проекты Vision AI. 🚀