Зелёная проверка
Ссылка копируется в буфер обмена

Что такое YOLOE? Усовершенствование моделей компьютерного зрения

Узнай, как YOLOE позволяет находить объекты по простой подсказке или фотографии. Это позволяет использовать более умное и быстрое компьютерное зрение без переобучения или тонкой настройки моделей.

Обнаружение объектов - ключевая задача компьютерного зрения, цель которой - идентифицировать и определить местоположение объектов на изображениях или видео. Это важнейшая часть компьютерного зрения, области искусственного интеллекта (ИИ), которая позволяет машинам понимать и интерпретировать визуальные данные. Например, обнаружение объектов может помочь идентифицировать автомобиль на фотографии или заметить человека в видеозаписи.

Одна из самых известных серий моделей, поддерживающих задачи компьютерного зрения, такие как обнаружение объектов, - это серия моделей YOLO (You Only Look Once). Разработанные для скорости и точности, модели YOLO постоянно улучшались с течением времени. Например, одна из последних версий, Ultralytics YOLO11отлично проявляет себя в реальных условиях, обеспечивая точные результаты даже в более сложных средах.

Развивая этот прогресс, новая модель под названием YOLOE призвана расширить возможности моделей YOLO . В отличие от традиционных моделей, которые требуют переобучения для распознавания новых объектов, YOLOE может следовать простым текстовым или графическим подсказкам, чтобы обнаружить объекты, которые она раньше не видела, что делает ее гораздо более адаптируемой к меняющимся условиям окружающей среды.

В этой статье мы подробно рассмотрим , что делает YOLOE уникальным, как он сравнивается с предыдущими моделями YOLO и как ты можешь начать использовать его уже сегодня. Давай начнем!

Обзор YOLOE

YOLOE - это модель компьютерного зрения, которая делает обнаружение объектов на шаг дальше. Она была представлена в марте 2025 года исследователями из Университета Цинхуа. От традиционных моделей YOLOE отличает использование распознавания по открытому словарю. 

В то время как большинство моделей обучены распознавать фиксированный список объектов, YOLOE позволяет тебе указать, что именно искать, с помощью короткого описания или примера изображения. Например, если ты ищешь "зеленый рюкзак", ты можешь либо ввести это описание, либо показать модели фотографию, и YOLOE найдет его в сцене.

Кроме того, даже без подсказок YOLOE может самостоятельно обнаружить множество повседневных предметов. Эта способность распознавать объекты, которых он никогда раньше не видел, называется нулевым обнаружением. Она особенно полезна в динамичных средах, где задача или интересующие тебя объекты могут неожиданно меняться.

Рис. 1. Взгляд на возможности YOLOE.

Ключевые особенности YOLOE

YOLOE поддерживает широкий спектр функций, призванных повысить его производительность в реальных приложениях. Благодаря способности обрабатывать как структурированный, так и неструктурированный ввод, YOLOE открывает новые возможности для обнаружения и сегментации объектов. 

Вот некоторые ключевые особенности модели:

  • Обнаружение на основе подсказок: YOLOE может искать объекты на основе короткой текстовой подсказки или примера изображения. Это значит, что тебе не нужно переучивать модель каждый раз, когда меняется задача; просто опиши или покажи модели, что ты ищешь.
  • Сегментация экземпляра: Помимо рисования ограничительных рамок вокруг объектов, YOLOE может очертить их точную форму с помощью сегментации экземпляров. Это особенно полезно, когда объекты накладываются друг на друга или когда тебе нужно знать точные границы объекта.
  • Распознавание объектов без подсказок: YOLOE может распознавать объекты даже без специальных инструкций. Он использует набор заранее заученных описаний для быстрой идентификации объектов, что делает процесс более быстрым и эффективным.

Сравнение YOLOE с другими моделями YOLO

Теперь, когда мы лучше понимаем, что такое YOLOE, давай посмотрим на некоторые похожие модели из семейства YOLO . 

По мере того как компьютерное зрение прогрессировало, прогрессировали и модели YOLO . Например, Ultralytics YOLOv8 обеспечила поддержку новых задач, таких как сегментация и классификация, а более поздние версии, например Ultralytics YOLO11, сфокусировались на повышении точности и производительности для более широкого круга задач.

Кроме того, в январе 2024 года была выпущена игра YOLO, в которой появилась возможность использовать письменные подсказки, позволяющие пользователям описывать объекты, которые они хотят найти. Хотя YOLO был отличным вариантом для обнаружения нулевого выстрела, ему не хватало таких функций, как сегментация экземпляров и поддержка визуальных подсказок. 

YOLOE развивает YOLO, добавляя эти возможности, улучшая гибкость и производительность и предлагая более эффективный инструмент для реальных приложений компьютерного зрения.

Рис. 2. YOLO и YOLOE оба поддерживают обнаружение нулевого выстрела.

Использование YOLOE с пакетом Ultralytics Python

Хочешь ли ты обнаружить конкретные объекты или изучить все на изображении, начать работу с YOLOE очень просто. Эта модель поддерживается пакетом Ultralytics Python , что позволяет легко интегрировать ее в твои проекты. Далее давай разберемся, как ее использовать.

Установка пакета Ultralytics

Первым шагом будет установка пакетаUltralytics Python с помощью менеджера пакетов, например 'pip'. Это можно сделать, выполнив команду "pip install ultralytics" в терминале или командной строке.

После установки пакета у тебя будет все необходимое для загрузки модели, составления прогнозов и экспериментов с различными режимами обнаружения. Если во время установки у тебя возникнут какие-либо проблемы, в официальной документации Ultralytics есть полезный раздел по устранению неполадок

Есть несколько разных способов использовать YOLOE для выполнения предсказаний. Запускать предсказания - значит использовать обученную модель для идентификации и определения местоположения объектов на изображениях или видео. Эти разные методы позволяют тебе настроить взаимодействие с моделью в зависимости от твоих конкретных потребностей.

Давай обсудим каждый из этих методов по очереди.

Обнаружение определенных объектов с помощью текстовых или графических подсказок

YOLOE может обнаруживать объекты на основе короткого текстового описания. Например, если ты ищешь лошадь в движении, то можешь использовать подсказку вроде "лошадь идет".

Чтобы начать, сначала загрузи предварительно обученную модель YOLOE и задай свой запрос (описание того, что ты хочешь, чтобы модель искала), как показано в фрагменте кода ниже.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Когда модель и подсказка настроены, ты можешь запустить модель на изображении или видео. Замени путь к файлу в коде на путь к твоему изображению или видеофайлу:

results = model.predict("path/to/your/image.jpg")
results[0].show()

В результате на экране появится изображение, на котором обнаруженный объект будет четко обозначен в соответствии с твоей подсказкой. Ты можешь изменить подсказку для поиска разных объектов, например "красный чемодан", "велосипед" или "зебра", в зависимости от того, что ты ищешь.

Рис. 3. Пример использования YOLOE для обнаружения конкретных объектов с помощью текстовой подсказки.

Точно так же ты можешь использовать изображение для подсказки YOLOE с помощью пакета Ultralytics Python . В режиме визуальной подсказки модель использует изображение, чтобы найти похожие предметы в другой сцене. Это особенно полезно для объектов, которые сложно описать или у которых нет четких обозначений. 

Чтобы более подробно изучить код для этого, ты можешь заглянуть в документациюUltralytics .

Общее обнаружение объектов с помощью YOLOE

В некоторых случаях ты можешь не знать, что именно искать, или не искать конкретный объект. Вот тут-то и пригодится режим без подсказок. 

С этой опцией тебе не нужно вводить описание или предоставлять пример изображения. YOLOE просто самостоятельно анализирует изображения и обнаруживает все, что может распознать, например людей, животных, мебель или повседневные предметы.

Это полезный способ изучить сцену, не давая модели никаких конкретных указаний. Сканируешь ли ты переполненную комнату или просматриваешь кадры с большой активностью, режим "без подсказок" позволит тебе быстро понять, что присутствует на изображении. 

Ты можешь использовать следующий код, чтобы запустить YOLOE в режиме без подсказок. Сначала загружается модель, затем она обрабатывает изображение и автоматически обнаруживает на нем объекты. Наконец, выводятся результаты, и обнаруженные объекты подсвечиваются. 

Не забудь заменить путь к файлу на реальный путь к твоему изображению.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Изображение, показанное ниже, - пример того, что может обнаружить YOLOE в режиме без подсказок.

Рис. 4. Использование YOLOE в режиме без подсказок.

Применение YOLOE в реальном времени

Способность YOLOE реагировать как на текстовые, так и на графические подсказки делает его надежным инструментом для приложений, работающих в режиме реального времени. Его гибкость особенно полезна в быстро меняющейся обстановке, где важны точность и время. 

Давай рассмотрим несколько реальных примеров того, как можно использовать YOLOE.

Улучшение обработки багажа: Обнаружение багажа в режиме реального времени

В загруженных аэропортах поиск конкретного багажа может оказаться непростой задачей, особенно если речь идет о пропавших сумках. YOLOE может упростить этот процесс, помогая сканировать видео в реальном времени и быстро определяя предметы по простым подсказкам вроде "красная сумка". 

Если сумка пропала или ее неправильно поставили, персонал может легко изменить подсказку на поиск другого предмета, например "черного чемодана". Такая способность к мгновенной адаптации может помочь персоналу аэропорта быстро найти нужный багаж, не просматривая долгие часы видеозаписей и не переучивая модель, что делает обработку багажа и решение проблем с пропажей багажа намного быстрее и эффективнее.

Мониторинг общественных мест с помощью YOLOE

Записи с камер наблюдения в общественных местах, таких как переполненные рынки и кафе, часто включают в себя смесь людей, предметов и действий, которые меняются в течение дня. YOLOE может анализировать эти кадры в режиме реального времени, используя режим без подсказок, автоматически обнаруживая такие предметы, как сумки, столы или велосипеды, не требуя специальных инструкций.

Рис. 5. YOLOE может обнаруживать различные объекты в оживленном общественном пространстве.

Это особенно полезно для команд безопасности, чтобы заметить оставленные без присмотра предметы или отследить движение толпы. Способность YOLOE обнаруживать сразу несколько объектов облегчает управление общественными пространствами во время мероприятий или в периоды большой загруженности, помогая командам оставаться информированными и оперативными.

Плюсы и минусы YOLOE

Вот несколько ключевых преимуществ использования YOLOE для приложений компьютерного зрения:

  • Производительность в реальном времени: YOLOE оптимизирован для быстрой и эффективной обработки данных, что обеспечивает обнаружение в реальном времени даже в динамичных средах, таких как прямые видеопотоки или оживленные общественные места.
  • Масштабируемость: YOLOE масштабируется и хорошо работает в самых разных сферах, от безопасности и наблюдения до розничной торговли, здравоохранения и автономных транспортных средств.
  • Простота в использовании: Поскольку YOLOE поддерживается пакетом Ultralytics Python , его легко интегрировать в твои существующие проекты по компьютерному зрению.

Однако при использовании YOLOE нужно помнить о нескольких ограничениях. Вот несколько факторов, которые стоит учитывать:

  • Требуется достаточное количество обучающих данных: Хотя YOLOE поддерживает обнаружение нулевых выстрелов, его производительность на невидимых объектах зависит от того, насколько хорошо он обобщает данные обучения. В некоторых случаях ему могут понадобиться дополнительные данные или тонкая настройка, чтобы хорошо справляться с узкоспециализированными задачами.
  • Чувствителен к качеству входных данных: На точность модели могут повлиять некачественные изображения или видео. Размытые или плохо освещенные входные данные могут снизить способность модели к точному обнаружению объектов, поэтому для оптимальной работы важны высококачественные входные данные.

Основные выводы

YOLOE привносит в компьютерное зрение больше гибкости, позволяя пользователям направлять обнаружение с помощью текстовых или графических подсказок. Это хорошо работает в реальных ситуациях, когда сцены быстро меняются, а переобучение не представляется возможным.

От обработки багажа до мониторинга общественных мест - YOLOE с легкостью адаптируется к новым задачам. По мере того как искусственный интеллект становится все более доступным, такие модели, как YOLOE, помогают все большему числу отраслей использовать технологии технического зрения практичными и эффективными способами.

Присоединяйся к нашему сообществу и изучай наш репозиторий GitHub, чтобы узнать больше об инновациях в области ИИ. Открой для себя последние достижения в таких областях, как ИИ в розничной торговле и компьютерное зрение в здравоохранении, на страницах наших решений. Ознакомься с нашими вариантами лицензирования и начни работать с компьютерным зрением уже сегодня!

Логотип LinkedInЛоготип ТвиттераЛоготип FacebookСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения