Узнайте, как YOLOE позволяет находить объекты с помощью простого запроса или фотографии. Это обеспечивает более интеллектуальное и быстрое компьютерное зрение без переобучения или тонкой настройки моделей.
Узнайте, как YOLOE позволяет находить объекты с помощью простого запроса или фотографии. Это обеспечивает более интеллектуальное и быстрое компьютерное зрение без переобучения или тонкой настройки моделей.
Обнаружение объектов — это ключевая задача компьютерного зрения, цель которой — идентифицировать и локализовать объекты на изображениях или видео. Это важная часть компьютерного зрения, области искусственного интеллекта (ИИ), которая позволяет машинам понимать и интерпретировать визуальные данные. Например, обнаружение объектов может помочь идентифицировать автомобиль на картинке или заметить человека в видеопотоке.
Одной из самых известных серий моделей, поддерживающих задачи компьютерного зрения, такие как обнаружение объектов, является серия моделей YOLO (You Only Look Once). Разработанные для скорости и точности, модели YOLO постоянно совершенствовались с течением времени. Например, одна из последних версий, Ultralytics YOLO11, хорошо работает в реальных ситуациях, обеспечивая точные результаты даже в более сложных условиях.
Продвигая этот прогресс дальше, новая модель под названием YOLOE направлена на расширение возможностей моделей YOLO. В отличие от традиционных моделей, которые требуют переобучения для распознавания новых объектов, YOLOE может следовать простым текстовым или графическим запросам для обнаружения объектов, которые она раньше не видела, что делает ее гораздо более адаптируемой к изменяющимся условиям.
В этой статье мы подробнее рассмотрим что делает YOLOE уникальной, как она соотносится с предыдущими моделями YOLO и как вы можете начать использовать ее сегодня. Давайте начнем!
YOLOE — это модель компьютерного зрения, которая выводит обнаружение объектов на новый уровень. Она была представлена в марте 2025 года исследователями из Университета Цинхуа. Отличительной особенностью YOLOE от традиционных моделей является использование обнаружения с открытым словарем.
В то время как большинство моделей обучены распознавать фиксированный список объектов, YOLOE позволяет вам указывать, что искать, используя краткое описание или пример изображения. Например, если вы ищете «зеленый рюкзак», вы можете либо ввести это описание, либо показать модели фотографию, и YOLOE найдет его в кадре.
Кроме того, даже без каких-либо подсказок YOLOE может самостоятельно обнаруживать множество повседневных объектов. Эта способность распознавать объекты, которые она никогда раньше не видела, называется zero-shot detection (обнаружение с нулевым обучением). Это особенно полезно в динамических средах, где задача или интересующие объекты могут неожиданно меняться.

YOLOE поддерживает широкий спектр функций, предназначенных для повышения ее производительности в реальных приложениях. Благодаря своей способности обрабатывать как структурированные, так и неструктурированные входные данные, YOLOE открывает новые возможности для обнаружения и сегментации объектов.
Вот некоторые из ключевых особенностей, которые предлагает эта модель:
Теперь, когда мы лучше понимаем, что такое YOLOE, давайте взглянем на некоторые модели семейства YOLO, которые похожи на нее.
По мере развития компьютерного зрения развивались и модели YOLO. Например, Ultralytics YOLOv8 принесла поддержку новых задач, таких как сегментация и классификация, в то время как более поздние версии, такие как Ultralytics YOLO11, были сосредоточены на повышении точности и производительности для более широкого круга задач.
Также, YOLO-World была выпущена в январе 2024 года и представила возможность использовать письменные подсказки, позволяя пользователям описывать объекты, которые они хотят найти. Хотя YOLO-World была отличным вариантом для обнаружения с нулевым обучением, ей не хватало таких функций, как сегментация экземпляров и поддержка визуальных подсказок.
YOLOE основывается на YOLO-World, добавляя эти возможности, улучшая гибкость и производительность, и предлагая более эффективный инструмент для реальных приложений компьютерного зрения.

Начать работу с YOLOE просто, независимо от того, хотите ли вы обнаруживать определенные объекты или исследовать все изображение. Эта модель поддерживается Python-пакетом Ultralytics, что упрощает ее интеграцию в ваши проекты. Далее мы рассмотрим, как ее использовать.
Первый шаг — установить Python-пакет Ultralytics с помощью менеджера пакетов, такого как ‘pip’. Это можно сделать, выполнив команду “pip install ultralytics” в вашем терминале или командной строке.
После установки пакета у вас будет все необходимое для загрузки модели, выполнения прогнозов и экспериментов с различными режимами обнаружения. Если у вас возникнут какие-либо проблемы во время установки, в официальной документации Ultralytics есть полезный раздел по устранению неполадок.
Существует несколько различных способов использования YOLOE для выполнения прогнозов. Выполнение прогнозов означает использование обученной модели для идентификации и определения местоположения объектов на изображениях или видео. Эти различные методы позволяют вам настраивать взаимодействие с моделью в зависимости от ваших конкретных потребностей.
Давайте обсудим каждый из этих методов по очереди.
YOLOE может обнаруживать объекты на основе краткого текстового описания. Например, если вы ищете лошадь в движении, вы можете использовать запрос, например, «лошадь идет».
Для начала загрузите предварительно обученную модель YOLOE и установите свой запрос (описание того, что вы хотите, чтобы модель искала), как показано в фрагменте кода ниже.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))После того, как ваша модель и запрос установлены, вы можете запустить модель на изображении или видео. Замените путь к файлу в коде путем к вашему файлу изображения или видео:
results = model.predict("path/to/your/image.jpg")
results[0].show()Это отобразит изображение с четко обозначенным обнаруженным объектом на основе вашего запроса. Вы можете изменить запрос для поиска различных объектов, таких как «красный чемодан», «велосипед» или «зебра», в зависимости от того, что вы ищете.

Аналогично, вы можете использовать изображение для запроса YOLOE с помощью Python-пакета Ultralytics. В режиме визуального запроса модель использует изображение для поиска похожих объектов в другой сцене. Это особенно полезно для объектов, которые трудно описать или для которых отсутствуют четкие метки.
Чтобы изучить код для этого более подробно, вы можете ознакомиться с документацией Ultralytics.
В некоторых случаях вы можете точно не знать, что искать, или вы можете не искать конкретный объект. Вот тут-то и пригодится режим без запросов.
С помощью этой опции вам не нужно вводить описание или предоставлять пример изображения. YOLOE просто анализирует изображения самостоятельно и обнаруживает все, что может распознать, например, людей, животных, мебель или предметы повседневного обихода.
Это полезный способ исследовать сцену, не давая модели никаких конкретных инструкций. Независимо от того, сканируете ли вы переполненную комнату или просматриваете кадры с большим количеством действий, режим без запросов позволяет быстро увидеть, что присутствует на изображении.
Вы можете использовать следующий код для запуска YOLOE в режиме без запросов. Сначала загружается модель, затем она обрабатывает изображение и автоматически обнаруживает объекты на нем. Наконец, результаты отображаются, и обнаруженные объекты выделяются.
Обязательно замените путь к файлу фактическим путем к вашему изображению.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()Изображение, показанное ниже, является примером того, что YOLOE может обнаружить в режиме без запросов.

Способность YOLOE реагировать как на текстовые, так и на графические запросы делает его надежным инструментом для приложений реального времени. Его гибкость особенно полезна в быстро меняющихся средах, где важны время и точность.
Давайте рассмотрим несколько реальных примеров использования YOLOE.
В оживленных аэропортах поиск конкретного багажа может быть затруднен, особенно когда речь идет о пропавших сумках. YOLOE может упростить этот процесс, помогая сканировать видео в реальном времени и быстро идентифицировать предметы на основе простых запросов, таких как «красная сумка».
Если сумка потерялась или была не на месте, персонал может легко изменить запрос для поиска другого предмета, например, «черного чемодана». Эта способность мгновенно адаптироваться может помочь сотрудникам аэропорта быстро найти нужный багаж, не просматривая долгие часы отснятого материала и не переобучая модель, что значительно ускоряет и повышает эффективность обработки багажа и решения проблем с пропавшим багажом.
Видеозаписи с камер наблюдения в общественных местах, таких как переполненные рынки и кафе, часто содержат смесь людей, объектов и действий, которые меняются в течение дня. YOLOE может анализировать эти кадры в режиме реального времени, используя режим без запросов, автоматически обнаруживая такие предметы, как сумки, столы или велосипеды, без необходимости в конкретных инструкциях.

Это особенно полезно для групп безопасности для выявления оставленных без присмотра предметов или отслеживания движения толпы. Способность YOLOE обнаруживать несколько объектов одновременно упрощает управление общественными местами во время мероприятий или в периоды повышенной нагрузки, помогая командам оставаться в курсе событий и оперативно реагировать.
Вот некоторые из ключевых преимуществ использования YOLOE для приложений компьютерного зрения:
Однако при использовании YOLOE следует помнить о некоторых ограничениях. Вот несколько факторов, которые следует учитывать:
YOLOE обеспечивает большую гибкость в компьютерном зрении, позволяя пользователям направлять обнаружение с помощью текстовых или графических подсказок. Она хорошо работает в реальных ситуациях, когда сцены быстро меняются и переобучение невозможно.
От обработки багажа до мониторинга общественных мест, YOLOE легко адаптируется к новым задачам. Поскольку ИИ становится все более доступным, такие модели, как YOLOE, помогают все большему числу отраслей использовать технологии компьютерного зрения практичными и эффективными способами.
Присоединяйтесь к нашему сообществу и изучите наш репозиторий GitHub, чтобы узнать больше об инновациях в области ИИ. Откройте для себя последние достижения в таких областях, как ИИ в розничной торговле и компьютерное зрение в здравоохранении на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и начните работу с компьютерным зрением уже сегодня!