Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Что такое YOLOE? Развитие моделей компьютерного зрения

Абирами Вина

5 мин чтения

8 мая 2025 г.

Узнайте, как YOLOE позволяет находить объекты с помощью простого запроса или фотографии. Это обеспечивает более интеллектуальное и быстрое компьютерное зрение без переобучения или тонкой настройки моделей.

Обнаружение объектов — это ключевая задача компьютерного зрения, цель которой — идентифицировать и локализовать объекты на изображениях или видео. Это важная часть компьютерного зрения, области искусственного интеллекта (ИИ), которая позволяет машинам понимать и интерпретировать визуальные данные. Например, обнаружение объектов может помочь идентифицировать автомобиль на картинке или заметить человека в видеопотоке.

Одной из самых известных серий моделей, поддерживающих задачи компьютерного зрения, такие как обнаружение объектов, является серия моделей YOLO (You Only Look Once). Разработанные для скорости и точности, модели YOLO постоянно совершенствовались с течением времени. Например, одна из последних версий, Ultralytics YOLO11, хорошо работает в реальных ситуациях, обеспечивая точные результаты даже в более сложных условиях.

Продвигая этот прогресс дальше, новая модель под названием YOLOE направлена на расширение возможностей моделей YOLO. В отличие от традиционных моделей, которые требуют переобучения для распознавания новых объектов, YOLOE может следовать простым текстовым или графическим запросам для обнаружения объектов, которые она раньше не видела, что делает ее гораздо более адаптируемой к изменяющимся условиям.

В этой статье мы подробнее рассмотрим что делает YOLOE уникальной, как она соотносится с предыдущими моделями YOLO и как вы можете начать использовать ее сегодня. Давайте начнем!

Обзор YOLOE

YOLOE — это модель компьютерного зрения, которая выводит обнаружение объектов на новый уровень. Она была представлена в марте 2025 года исследователями из Университета Цинхуа. Отличительной особенностью YOLOE от традиционных моделей является использование обнаружения с открытым словарем. 

В то время как большинство моделей обучены распознавать фиксированный список объектов, YOLOE позволяет вам указывать, что искать, используя краткое описание или пример изображения. Например, если вы ищете «зеленый рюкзак», вы можете либо ввести это описание, либо показать модели фотографию, и YOLOE найдет его в кадре.

Кроме того, даже без каких-либо подсказок YOLOE может самостоятельно обнаруживать множество повседневных объектов. Эта способность распознавать объекты, которые она никогда раньше не видела, называется zero-shot detection (обнаружение с нулевым обучением). Это особенно полезно в динамических средах, где задача или интересующие объекты могут неожиданно меняться.

Рис. 1. Обзор возможностей YOLOE.

Ключевые особенности YOLOE

YOLOE поддерживает широкий спектр функций, предназначенных для повышения ее производительности в реальных приложениях. Благодаря своей способности обрабатывать как структурированные, так и неструктурированные входные данные, YOLOE открывает новые возможности для обнаружения и сегментации объектов. 

Вот некоторые из ключевых особенностей, которые предлагает эта модель:

  • Обнаружение на основе подсказок: YOLOE может искать объекты на основе короткой текстовой подсказки или примера изображения. Это означает, что вам не нужно переобучать модель каждый раз, когда меняется ваша задача; просто опишите или покажите модели, что вы ищете.
  • Сегментация экземпляров: В дополнение к рисованию ограничивающих рамок вокруг объектов, YOLOE может очерчивать их точную форму, используя сегментацию экземпляров. Это особенно полезно, когда объекты перекрываются или когда вам необходимо знать точные границы объекта.
  • Распознавание объектов без подсказок: YOLOE может распознавать объекты даже без конкретных инструкций. Она использует набор предварительно изученных описаний для быстрой идентификации объектов, что делает процесс быстрее и эффективнее.

Сравнение YOLOE с другими моделями YOLO

Теперь, когда мы лучше понимаем, что такое YOLOE, давайте взглянем на некоторые модели семейства YOLO, которые похожи на нее. 

По мере развития компьютерного зрения развивались и модели YOLO. Например, Ultralytics YOLOv8 принесла поддержку новых задач, таких как сегментация и классификация, в то время как более поздние версии, такие как Ultralytics YOLO11, были сосредоточены на повышении точности и производительности для более широкого круга задач.

Также, YOLO-World была выпущена в январе 2024 года и представила возможность использовать письменные подсказки, позволяя пользователям описывать объекты, которые они хотят найти. Хотя YOLO-World была отличным вариантом для обнаружения с нулевым обучением, ей не хватало таких функций, как сегментация экземпляров и поддержка визуальных подсказок. 

YOLOE основывается на YOLO-World, добавляя эти возможности, улучшая гибкость и производительность, и предлагая более эффективный инструмент для реальных приложений компьютерного зрения.

Рис. 2. YOLO-World и YOLOE поддерживают обнаружение с нулевым обучением.

Использование YOLOE с Python-пакетом Ultralytics

Начать работу с YOLOE просто, независимо от того, хотите ли вы обнаруживать определенные объекты или исследовать все изображение. Эта модель поддерживается Python-пакетом Ultralytics, что упрощает ее интеграцию в ваши проекты. Далее мы рассмотрим, как ее использовать.

Установка пакета Ultralytics

Первый шаг — установить Python-пакет Ultralytics с помощью менеджера пакетов, такого как ‘pip’. Это можно сделать, выполнив команду “pip install ultralytics” в вашем терминале или командной строке.

После установки пакета у вас будет все необходимое для загрузки модели, выполнения прогнозов и экспериментов с различными режимами обнаружения. Если у вас возникнут какие-либо проблемы во время установки, в официальной документации Ultralytics есть полезный раздел по устранению неполадок

Существует несколько различных способов использования YOLOE для выполнения прогнозов. Выполнение прогнозов означает использование обученной модели для идентификации и определения местоположения объектов на изображениях или видео. Эти различные методы позволяют вам настраивать взаимодействие с моделью в зависимости от ваших конкретных потребностей.

Давайте обсудим каждый из этих методов по очереди.

Обнаружение определенных объектов с помощью текстовых или графических запросов

YOLOE может обнаруживать объекты на основе краткого текстового описания. Например, если вы ищете лошадь в движении, вы можете использовать запрос, например, «лошадь идет».

Для начала загрузите предварительно обученную модель YOLOE и установите свой запрос (описание того, что вы хотите, чтобы модель искала), как показано в фрагменте кода ниже.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

После того, как ваша модель и запрос установлены, вы можете запустить модель на изображении или видео. Замените путь к файлу в коде путем к вашему файлу изображения или видео:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Это отобразит изображение с четко обозначенным обнаруженным объектом на основе вашего запроса. Вы можете изменить запрос для поиска различных объектов, таких как «красный чемодан», «велосипед» или «зебра», в зависимости от того, что вы ищете.

Рис. 3. Пример использования YOLOE для обнаружения определенных объектов с помощью текстового запроса.

Аналогично, вы можете использовать изображение для запроса YOLOE с помощью Python-пакета Ultralytics. В режиме визуального запроса модель использует изображение для поиска похожих объектов в другой сцене. Это особенно полезно для объектов, которые трудно описать или для которых отсутствуют четкие метки. 

Чтобы изучить код для этого более подробно, вы можете ознакомиться с документацией Ultralytics.

Общее обнаружение объектов с использованием YOLOE

В некоторых случаях вы можете точно не знать, что искать, или вы можете не искать конкретный объект. Вот тут-то и пригодится режим без запросов. 

С помощью этой опции вам не нужно вводить описание или предоставлять пример изображения. YOLOE просто анализирует изображения самостоятельно и обнаруживает все, что может распознать, например, людей, животных, мебель или предметы повседневного обихода.

Это полезный способ исследовать сцену, не давая модели никаких конкретных инструкций. Независимо от того, сканируете ли вы переполненную комнату или просматриваете кадры с большим количеством действий, режим без запросов позволяет быстро увидеть, что присутствует на изображении. 

Вы можете использовать следующий код для запуска YOLOE в режиме без запросов. Сначала загружается модель, затем она обрабатывает изображение и автоматически обнаруживает объекты на нем. Наконец, результаты отображаются, и обнаруженные объекты выделяются. 

Обязательно замените путь к файлу фактическим путем к вашему изображению.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Изображение, показанное ниже, является примером того, что YOLOE может обнаружить в режиме без запросов.

Рис. 4. Использование YOLOE в режиме без запросов.

Приложения YOLOE в реальном времени

Способность YOLOE реагировать как на текстовые, так и на графические запросы делает его надежным инструментом для приложений реального времени. Его гибкость особенно полезна в быстро меняющихся средах, где важны время и точность. 

Давайте рассмотрим несколько реальных примеров использования YOLOE.

Совершенствование обработки багажа: Обнаружение багажа в реальном времени

В оживленных аэропортах поиск конкретного багажа может быть затруднен, особенно когда речь идет о пропавших сумках. YOLOE может упростить этот процесс, помогая сканировать видео в реальном времени и быстро идентифицировать предметы на основе простых запросов, таких как «красная сумка». 

Если сумка потерялась или была не на месте, персонал может легко изменить запрос для поиска другого предмета, например, «черного чемодана». Эта способность мгновенно адаптироваться может помочь сотрудникам аэропорта быстро найти нужный багаж, не просматривая долгие часы отснятого материала и не переобучая модель, что значительно ускоряет и повышает эффективность обработки багажа и решения проблем с пропавшим багажом.

Мониторинг общественных мест с помощью YOLOE

Видеозаписи с камер наблюдения в общественных местах, таких как переполненные рынки и кафе, часто содержат смесь людей, объектов и действий, которые меняются в течение дня. YOLOE может анализировать эти кадры в режиме реального времени, используя режим без запросов, автоматически обнаруживая такие предметы, как сумки, столы или велосипеды, без необходимости в конкретных инструкциях.

Рис. 5. YOLOE может обнаруживать различные объекты в оживленном общественном месте.

Это особенно полезно для групп безопасности для выявления оставленных без присмотра предметов или отслеживания движения толпы. Способность YOLOE обнаруживать несколько объектов одновременно упрощает управление общественными местами во время мероприятий или в периоды повышенной нагрузки, помогая командам оставаться в курсе событий и оперативно реагировать.

Плюсы и минусы YOLOE

Вот некоторые из ключевых преимуществ использования YOLOE для приложений компьютерного зрения:

  • Производительность в реальном времени: YOLOE оптимизирован для быстрой и эффективной обработки, обеспечивая обнаружение в реальном времени даже в динамических средах, таких как прямые видеотрансляции или оживленные общественные места.
  • Масштабируемость: YOLOE масштабируем и хорошо работает для широкого спектра приложений, от безопасности и наблюдения до розничной торговли, здравоохранения и автономных транспортных средств.
  • Простота использования: Поскольку YOLOE поддерживается пакетом Ultralytics Python, ее легко интегрировать в существующие проекты компьютерного зрения.

Однако при использовании YOLOE следует помнить о некоторых ограничениях. Вот несколько факторов, которые следует учитывать:

  • Требуется достаточное количество данных для обучения: Хотя YOLOE поддерживает обнаружение объектов без предварительного обучения, ее производительность на незнакомых объектах зависит от того, насколько хорошо она обобщает данные, полученные в процессе обучения. В некоторых случаях может потребоваться дополнительная информация или тонкая настройка для эффективной работы в узкоспециализированных задачах.
  • Чувствительность к качеству входных данных: На точность модели может влиять низкое качество изображений или видео. Размытые или плохо освещенные входные данные могут снизить способность модели точно обнаруживать объекты, поэтому для оптимальной производительности важны высококачественные входные данные.

Основные выводы

YOLOE обеспечивает большую гибкость в компьютерном зрении, позволяя пользователям направлять обнаружение с помощью текстовых или графических подсказок. Она хорошо работает в реальных ситуациях, когда сцены быстро меняются и переобучение невозможно.

От обработки багажа до мониторинга общественных мест, YOLOE легко адаптируется к новым задачам. Поскольку ИИ становится все более доступным, такие модели, как YOLOE, помогают все большему числу отраслей использовать технологии компьютерного зрения практичными и эффективными способами.

Присоединяйтесь к нашему сообществу и изучите наш репозиторий GitHub, чтобы узнать больше об инновациях в области ИИ. Откройте для себя последние достижения в таких областях, как ИИ в розничной торговле и компьютерное зрение в здравоохранении на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и начните работу с компьютерным зрением уже сегодня!

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена