Что такое YOLOE? Усовершенствование моделей компьютерного зрения

Абирами Вина

5 минут чтения

8 мая 2025 г.

Узнайте, как YOLOE позволяет находить объекты по простой подсказке или фотографии. Это позволяет использовать более интеллектуальное и быстрое компьютерное зрение без необходимости переобучения или точной настройки моделей.

Обнаружение объектов - одна из ключевых задач компьютерного зрения, целью которой является идентификация и определение местоположения объектов на изображениях или видео. Это важнейшая часть компьютерного зрения, области искусственного интеллекта (ИИ), которая позволяет машинам понимать и интерпретировать визуальные данные. Например, распознавание объектов помогает идентифицировать автомобиль на фотографии или заметить человека в видеозаписи.

Одной из самых известных серий моделей, поддерживающих задачи компьютерного зрения, такие как обнаружение объектов, является серия моделей YOLO (You Only Look Once). Модели YOLO, разработанные для обеспечения скорости и точности, постоянно совершенствуются с течением времени. Например, одна из последних версий, Ultralytics YOLO11, отлично работает в реальных условиях, обеспечивая точные результаты даже в более сложных средах.

Новая модель под названием YOLOE призвана расширить возможности моделей YOLO. В отличие от традиционных моделей, которые требуют переобучения для распознавания новых объектов, YOLOE может следовать простым текстовым или графическим подсказкам для обнаружения объектов, которые она раньше не видела, что делает ее гораздо более адаптируемой к меняющимся условиям.

В этой статье мы подробно рассмотрим , что делает YOLOE уникальным, как он отличается от предыдущих моделей YOLO и как вы можете начать использовать его уже сегодня. Давайте начнем!

Обзор YOLOE

YOLOE - это модель компьютерного зрения, которая позволяет сделать шаг вперед в обнаружении объектов. Она была представлена в марте 2025 года исследователями из Университета Цинхуа. От традиционных моделей YOLOE отличает использование распознавания по открытому словарю. 

В то время как большинство моделей обучены распознавать фиксированный список объектов, YOLOE позволяет указать, что именно искать, с помощью краткого описания или примера изображения. Например, если вы ищете "зеленый рюкзак", вы можете ввести это описание или показать модели фотографию, и YOLOE найдет его в сцене.

Кроме того, даже без подсказок YOLOE может самостоятельно обнаружить множество повседневных объектов. Эта способность распознавать объекты, которых он никогда раньше не видел, называется "обнаружением с нулевого выстрела". Она особенно полезна в динамичных средах, где задача или интересующие объекты могут неожиданно измениться.

Рис. 1. Обзор возможностей YOLOE.

Ключевые особенности YOLOE

YOLOE поддерживает широкий спектр функций, призванных повысить его производительность в реальных приложениях. Благодаря способности обрабатывать как структурированные, так и неструктурированные данные, YOLOE открывает новые возможности для обнаружения и сегментации объектов. 

Вот некоторые ключевые особенности этой модели:

  • Обнаружение по подсказке: YOLOE может искать объекты на основе короткой текстовой подсказки или примера изображения. Это означает, что вам не нужно заново обучать модель каждый раз, когда меняется задача; просто опишите или покажите модели, что вы ищете.
  • Сегментация экземпляра: Помимо рисования ограничительных рамок вокруг объектов, YOLOE может очертить их точную форму с помощью сегментации экземпляров. Это особенно полезно, когда объекты накладываются друг на друга или когда необходимо точно определить границы объекта.
  • Распознавание объектов без подсказок: YOLOE может распознавать объекты даже без специальных инструкций. Он использует набор заранее заученных описаний для быстрой идентификации объектов, что делает процесс более быстрым и эффективным.

Сравнение YOLOE с другими моделями YOLO

Теперь, когда мы лучше понимаем, что такое YOLOE, давайте посмотрим на некоторые похожие модели семейства YOLO. 

По мере развития компьютерного зрения развивались и модели YOLO. Например, в Ultralytics YOLOv8 появилась поддержка новых задач, таких как сегментация и классификация, а более поздние версии, такие как Ultralytics YOLO11, были направлены на повышение точности и производительности для более широкого круга задач.

Кроме того, в январе 2024 года была выпущена игра YOLO-World, в которой появилась возможность использовать письменные подсказки, позволяющие пользователям описывать объекты, которые они хотят найти. Хотя YOLO-World был отличным вариантом для обнаружения нулевых выстрелов, ему не хватало таких функций, как сегментация экземпляров и поддержка визуальных подсказок. 

YOLOE развивает YOLO-World, добавляя эти возможности, повышая гибкость и производительность и предлагая более эффективный инструмент для реальных приложений компьютерного зрения.

Рис. 2. YOLO-World и YOLOE поддерживают обнаружение нулевого выстрела.

Использование YOLOE с пакетом Ultralytics Python

Хотите ли вы обнаружить конкретные объекты или изучить все на изображении, начать работу с YOLOE очень просто. Эта модель поддерживается пакетом Ultralytics Python, что позволяет легко интегрировать ее в ваши проекты. Далее мы рассмотрим, как ее использовать.

Установка пакета Ultralytics

Первым шагом будет установка пакета Ultralytics Python с помощью менеджера пакетов, например 'pip'. Вы можете сделать это, выполнив команду "pip install ultralytics" в терминале или командной строке.

После установки пакета у вас будет все необходимое для загрузки модели, составления прогнозов и экспериментов с различными режимами обнаружения. Если во время установки возникнут какие-либо проблемы, в официальной документации Ultralytics есть полезный раздел по устранению неполадок

Существует несколько различных способов использования YOLOE для выполнения прогнозов. Выполнение прогнозов означает использование обученной модели для идентификации и определения местоположения объектов на изображениях или видео. Эти различные методы позволяют настроить взаимодействие с моделью в зависимости от ваших конкретных потребностей.

Давайте обсудим каждый из этих методов по очереди.

Обнаружение определенных объектов с помощью текстовых или графических подсказок

YOLOE может обнаруживать объекты на основе короткого текстового описания. Например, если вы ищете лошадь в движении, вы можете использовать подсказку типа "лошадь идет".

Чтобы начать работу, сначала загрузите предварительно обученную модель YOLOE и задайте запрос (описание того, что вы хотите, чтобы модель искала), как показано в приведенном ниже фрагменте кода.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

После того как модель и подсказка настроены, вы можете запустить модель на изображении или видео. Замените путь к файлу в коде на путь к изображению или видеофайлу:

results = model.predict("path/to/your/image.jpg")
results[0].show()

В результате на экране появится изображение с четко обозначенным обнаруженным объектом в соответствии с вашим запросом. Вы можете изменить подсказку для поиска различных объектов, например "красный чемодан", "велосипед" или "зебра", в зависимости от того, что вы ищете.

Рис. 3. Пример использования YOLOE для обнаружения конкретных объектов с помощью текстовой подсказки.

Аналогичным образом можно использовать изображение для подсказки YOLOE с помощью пакета Ultralytics Python. В режиме визуальной подсказки модель использует изображение для поиска похожих предметов в другой сцене. Это особенно полезно для объектов, которые сложно описать или у которых нет четких обозначений. 

Чтобы более подробно изучить код для этого, вы можете ознакомиться с документацией Ultralytics.

Обнаружение общих объектов с помощью YOLOE

В некоторых случаях вы можете не знать, что именно искать, или искать не конкретный объект. Вот тут-то и пригодится режим без подсказок. 

При использовании этой опции вам не нужно вводить описание или приводить пример изображения. YOLOE просто самостоятельно анализирует изображения и обнаруживает все, что может распознать, например людей, животных, мебель или повседневные предметы.

Это полезный способ изучить сцену, не давая модели никаких конкретных указаний. Сканируете ли вы переполненную комнату или просматриваете кадры с активной деятельностью, режим "без подсказок" позволит вам быстро понять, что присутствует на изображении. 

Вы можете использовать следующий код для запуска YOLOE в режиме без подсказок. Сначала загружается модель, затем она обрабатывает изображение и автоматически обнаруживает на нем объекты. Наконец, выводятся результаты, и обнаруженные объекты выделяются. 

Не забудьте заменить путь к файлу на реальный путь к изображению.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Изображение, показанное ниже, - пример того, что может обнаружить YOLOE в режиме без подсказок.

Рис. 4. Использование YOLOE в режиме без подсказок.

Применение YOLOE в реальном времени

Способность YOLOE реагировать как на текстовые, так и на графические подсказки делает его надежным инструментом для приложений, работающих в режиме реального времени. Его гибкость особенно полезна в быстро меняющихся средах, где важны точность и время. 

Давайте рассмотрим несколько реальных примеров использования YOLOE.

Улучшение обработки багажа: Обнаружение багажа в режиме реального времени

В загруженных аэропортах поиск конкретного багажа может оказаться непростой задачей, особенно если речь идет о пропавших сумках. YOLOE может упростить этот процесс, помогая сканировать видео в реальном времени и быстро определяя предметы по простым подсказкам, например "красная сумка". 

Если сумка пропала или неправильно установлена, сотрудники могут легко изменить подсказку для поиска другого предмета, например "черного чемодана". Такая способность к мгновенной адаптации может помочь персоналу аэропорта быстро найти нужный багаж, не просматривая многочасовые записи и не переучивая модель, что делает обработку багажа и решение проблем с пропажей багажа намного быстрее и эффективнее.

Мониторинг общественных мест с помощью YOLOE

Записи с камер видеонаблюдения в общественных местах, таких как переполненные рынки и кафе, часто включают в себя множество людей, предметов и действий, которые меняются в течение дня. YOLOE может анализировать эти записи в режиме реального времени, используя режим без подсказок, автоматически обнаруживая такие предметы, как сумки, столы или велосипеды, не требуя специальных инструкций.

Рис. 5. YOLOE может обнаруживать различные объекты в оживленном общественном месте.

Это особенно полезно для служб безопасности, чтобы обнаружить оставленные без присмотра предметы или отследить движение толпы. Способность YOLOE обнаруживать сразу несколько объектов упрощает управление общественными пространствами во время мероприятий или в периоды большой загруженности, помогая командам оставаться информированными и оперативными.

Плюсы и минусы YOLOE

Вот некоторые из ключевых преимуществ использования YOLOE для приложений компьютерного зрения:

  • Работа в режиме реального времени: YOLOE оптимизирован для быстрой и эффективной обработки данных, что обеспечивает обнаружение в режиме реального времени даже в динамичных средах, таких как потоковое видео или оживленные общественные места.
  • Масштабируемость: YOLOE масштабируется и хорошо подходит для широкого спектра приложений, от безопасности и наблюдения до розничной торговли, здравоохранения и автономных транспортных средств.
  • Простота использования: Поскольку YOLOE поддерживается пакетом Ultralytics Python, его легко интегрировать в существующие проекты по компьютерному зрению.

Однако при использовании YOLOE следует помнить о некоторых ограничениях. Вот несколько факторов, которые следует учитывать:

  • Требуется достаточное количество обучающих данных: Хотя YOLOE поддерживает обнаружение нулевых выстрелов, его производительность на невидимых объектах зависит от того, насколько хорошо он обобщает данные обучения. В некоторых случаях для успешного выполнения узкоспециализированных задач ему могут потребоваться дополнительные данные или тонкая настройка.
  • Чувствительность к качеству входных данных: На точность модели могут повлиять некачественные изображения или видео. Размытые или плохо освещенные входные данные могут снизить способность модели точно обнаруживать объекты, поэтому для оптимальной работы важно использовать высококачественные входные данные.

Основные выводы

YOLOE придает компьютерному зрению большую гибкость, позволяя пользователям направлять распознавание с помощью текстовых или графических подсказок. Это хорошо работает в реальных ситуациях, когда сцены быстро меняются, а переобучение не представляется возможным.

YOLOE легко адаптируется к новым задачам - от обработки багажа до мониторинга общественных мест. По мере того как искусственный интеллект становится все более доступным, такие модели, как YOLOE, помогают все большему числу отраслей промышленности использовать технологии технического зрения практичными и эффективными способами.

Присоединяйтесь к нашему сообществу и изучайте наш репозиторий GitHub, чтобы узнать больше об инновациях в области ИИ. На страницах наших решений вы найдете информацию о последних достижениях в таких областях, как ИИ в розничной торговле и компьютерное зрение в здравоохранении. Ознакомьтесь с нашими вариантами лицензирования и начните работать с компьютерным зрением уже сегодня!

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена