Что такое YOLOE? Развиваем модели компьютерного зрения
Узнай, как YOLOE позволяет находить объекты с помощью простого запроса или фото. Это делает компьютерное зрение умнее и быстрее без необходимости дообучения или настройки моделей.

Детекция объектов — это ключевая задача компьютерного зрения, цель которой заключается в идентификации и локализации объектов на изображениях или видео. Это важнейшая часть computer vision, области искусственного интеллекта (ИИ), позволяющей машинам понимать и интерпретировать визуальные данные. Например, детекция объектов может помочь найти автомобиль на фотографии или обнаружить человека в видеопотоке.
Одной из самых известных серий моделей для computer vision tasks, таких как детекция объектов, является серия YOLO (You Only Look Once). Созданные для скорости и точности, модели YOLO постоянно совершенствуются. Например, одна из последних версий, Ultralytics YOLO11, отлично работает в реальных условиях, обеспечивая точные результаты даже в сложных ситуациях.
Развивая этот прогресс, новая модель под названием YOLOE призвана расширить возможности моделей YOLO. В отличие от традиционных моделей, требующих дообучения для распознавания новых объектов, YOLOE может следовать простым текстовым или визуальным подсказкам (промптам) для детекции объектов, которые она раньше не видела, что делает ее намного более адаптивной к меняющейся среде.
В этой статье мы подробнее рассмотрим, что делает YOLOE уникальной, как она соотносится с предыдущими моделями YOLO и как ты можешь начать использовать ее уже сегодня. Поехали!
Link to this sectionОбзор YOLOE#
YOLOE — это модель компьютерного зрения, которая делает шаг вперед в детекции объектов. Она была представлена в марте 2025 года исследователями из Университета Цинхуа. Что отличает YOLOE от традиционных моделей, так это использование детекции с открытым словарем (open-vocabulary detection).
Хотя большинство моделей обучены распознавать фиксированный список объектов, YOLOE позволяет тебе указать, что искать, используя короткое описание или пример изображения. Например, если ты ищешь «зеленый рюкзак», ты можешь либо ввести это описание, либо показать модели фотографию, и YOLOE найдет его на сцене.
Кроме того, даже без какой-либо подсказки YOLOE может самостоятельно обнаруживать множество повседневных объектов. Эта способность распознавать объекты, которые она никогда не видела раньше, называется zero-shot detection. Это особенно полезно в динамических средах, где задача или интересующие объекты могут неожиданно измениться.

Рис. 1. Взгляд на возможности YOLOE.
Link to this sectionКлючевые особенности YOLOE#
YOLOE поддерживает широкий спектр функций, разработанных для повышения производительности в реальных задачах. Благодаря способности обрабатывать как структурированные, так и неструктурированные входные данные, YOLOE открывает новые возможности для детекции и сегментации объектов.
Вот некоторые из ключевых функций, которые предлагает модель:
- Детекция на основе подсказок: YOLOE может искать объекты на основе короткой текстовой подсказки или примера изображения. Это означает, что тебе не нужно переобучать модель каждый раз, когда меняется задача; просто опиши или покажи модели то, что ты ищешь.
- Instance segmentation: помимо рисования ограничивающих рамок (bounding boxes) вокруг объектов, YOLOE может обводить их точный контур с помощью сегментации экземпляров. Это особенно полезно, когда объекты перекрываются или когда тебе нужно знать точные границы объекта.
- Распознавание объектов без подсказок: YOLOE может распознавать объекты даже без конкретных инструкций. Она использует набор заранее изученных описаний для быстрой идентификации объектов, что делает процесс быстрее и эффективнее.
Link to this sectionСравнение YOLOE с другими моделями YOLO#
Теперь, когда у тебя есть лучшее понимание того, что такое YOLOE, давай взглянем на некоторые похожие модели из семейства YOLO.
По мере развития компьютерного зрения развивались и модели YOLO. Например, Ultralytics YOLOv8 добавила поддержку новых задач, таких как сегментация и классификация, а более поздние версии, такие как Ultralytics YOLO11, сфокусировались на улучшении точности и производительности для более широкого круга задач.
Также в январе 2024 года была выпущена модель YOLO-World, которая представила возможность использовать текстовые подсказки, позволяя пользователям описывать объекты, которые они хотят найти. Хотя YOLO-World была отличным вариантом для zero-shot детекции, в ней отсутствовали такие функции, как сегментация экземпляров и поддержка визуальных подсказок.
YOLOE развивает идеи YOLO-World, добавляя эти возможности, улучшая гибкость и производительность, а также предлагая более эффективный инструмент для прикладных задач компьютерного зрения.

Рис. 2. YOLO-World и YOLOE поддерживают zero-shot детекцию.
Link to this sectionИспользование YOLOE с пакетом Ultralytics для Python#
Независимо от того, хочешь ли ты обнаружить конкретные объекты или изучить всё на изображении, начать работу с YOLOE просто. Эта модель поддерживается пакетом Ultralytics для Python, что упрощает ее интеграцию в твои проекты. Давай разберемся, как ее использовать.
Link to this sectionУстановка пакета Ultralytics#
Первый шаг — установить Ultralytics Python package с помощью менеджера пакетов, например pip. Ты можешь сделать это, выполнив команду “pip install ultralytics” в своем терминале или командной строке.
Как только пакет будет установлен, у тебя будет всё необходимое для загрузки модели, создания предсказаний и экспериментов с различными режимами детекции. Если у тебя возникнут проблемы во время установки, официальная документация Ultralytics предлагает полезный раздел по устранению неполадок.
Существует несколько способов использования YOLOE для запуска предсказаний. Запуск предсказаний означает использование обученной модели для идентификации и локализации объектов на изображениях или видео. Эти различные методы позволяют настроить взаимодействие с моделью в зависимости от твоих конкретных потребностей.
Давай разберем каждый из этих методов по очереди.
Link to this sectionДетекция конкретных объектов с помощью текстовых или визуальных подсказок#
YOLOE может обнаруживать объекты на основе короткого текстового описания. Например, если ты ищешь лошадь в движении, ты можешь использовать подсказку вроде "horse walking".
Для начала загрузи предобученную модель YOLOE и задай свою подсказку (описание того, что модель должна искать), как показано в фрагменте кода ниже.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Как только модель и подсказка заданы, ты можешь запустить модель на изображении или видео. Замени путь к файлу в коде на путь к своему изображению или видеофайлу:
results = model.predict("path/to/your/image.jpg")
results[0].show()Это отобразит изображение с четко отмеченным обнаруженным объектом на основе твоей подсказки. Ты можешь менять подсказку для поиска других объектов, таких как "red suitcase", "bicycle" или "zebra", в зависимости от того, что ты ищешь.

Рис. 3. Пример использования YOLOE для поиска конкретных объектов с помощью текстовой подсказки.
Аналогично, ты можешь использовать изображение, чтобы дать подсказку YOLOE с помощью пакета Ultralytics для Python. В режиме визуальных подсказок модель использует изображение для поиска похожих предметов на другой сцене. Это особенно полезно для объектов, которые трудно описать или которые не имеют четких меток.
Чтобы подробнее изучить код для этого, ты можешь ознакомиться с документацией Ultralytics.
Link to this sectionОбщая детекция объектов с помощью YOLOE#
В некоторых случаях ты можешь не знать точно, что искать, или можешь не искать какой-то конкретный объект. В этом случае пригодится режим без подсказок.
При таком подходе тебе не нужно вводить описание или предоставлять пример изображения. YOLOE просто анализирует изображения самостоятельно и detects всё, что может распознать, например, людей, животных, мебель или повседневные предметы.
Это полезный способ изучить сцену, не давая модели никаких специфических инструкций. Независимо от того, сканируешь ли ты многолюдную комнату или просматриваешь записи с большим количеством активности, режим без подсказок дает тебе быстрый обзор того, что присутствует на изображении.
Ты можешь использовать следующий код для запуска YOLOE в режиме без подсказок. Сначала модель загружается, затем она обрабатывает изображение и автоматически обнаруживает объекты на нем. В конце результаты отображаются, а найденные объекты подсвечиваются.
Не забудь заменить путь к файлу на реальный путь к твоему изображению.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()Изображение ниже — это пример того, что YOLOE может обнаружить в режиме без подсказок.

Рис. 4. Использование YOLOE в режиме без подсказок.
Link to this sectionПрименение YOLOE в реальном времени#
Способность YOLOE реагировать как на текстовые, так и на визуальные подсказки делает ее надежным инструментом для приложений реального времени. Ее гибкость особенно полезна в динамичных условиях, где время и точность имеют решающее значение.
Давай рассмотрим несколько реальных примеров того, как можно использовать YOLOE.
Link to this sectionУлучшение обработки багажа: детекция багажа в реальном времени#
В оживленных airports поиск конкретного багажа может быть сложной задачей, особенно когда речь идет о пропавших сумках. YOLOE может упростить этот процесс, помогая сканировать видео в прямом эфире и быстро идентифицировать предметы на основе простых подсказок, таких как "red bag".
Если сумка пропала или была перемещена, персонал может легко изменить подсказку для поиска другого предмета, например "black suitcase". Эта способность мгновенно адаптироваться может помочь сотрудникам аэропорта быстро находить нужный багаж без просмотра длинных часов записи или переобучения модели, делая обработку багажа и решение проблем с пропавшими вещами намного быстрее и эффективнее.
Link to this sectionМониторинг общественных мест с помощью YOLOE#
Записи камер наблюдения в общественных местах, таких как людные рынки и кафе, часто содержат множество людей, объектов и событий, которые меняются в течение дня. YOLOE может анализировать эти записи в реальном времени в режиме без подсказок, автоматически обнаруживая такие предметы, как сумки, столы или велосипеды, без необходимости в специальных инструкциях.

Рис. 5. YOLOE может обнаруживать различные объекты в людном общественном месте.
Это особенно полезно для security teams, чтобы замечать оставленные без присмотра предметы или отслеживать движение толпы. Способность YOLOE обнаруживать несколько объектов одновременно упрощает управление общественными местами во время мероприятий или в часы пик, помогая командам оставаться информированными и реагировать быстрее.
Link to this sectionПлюсы и минусы YOLOE#
Вот некоторые ключевые преимущества использования YOLOE для задач компьютерного зрения:
- Производительность в реальном времени: YOLOE оптимизирована для быстрой и эффективной обработки, что позволяет выполнять детекцию в реальном времени даже в динамичных условиях, таких как прямые видеотрансляции или людные общественные пространства.
- Scalability: YOLOE масштабируема и хорошо подходит для самых разных приложений: от безопасности и видеонаблюдения до ритейла, здравоохранения и автономных транспортных средств.
- Простота использования: Поскольку YOLOE поддерживается пакетом Ultralytics для Python, ее легко интегрировать в существующие проекты по компьютерному зрению.
Тем не менее, при использовании YOLOE следует учитывать несколько ограничений. Вот пара факторов, которые стоит принять во внимание:
- Требуются достаточные данные для обучения: Хотя YOLOE поддерживает zero-shot детекцию, ее эффективность на объектах, которые она не видела ранее, зависит от того, насколько хорошо она обобщает данные из обучающей выборки. В некоторых случаях могут потребоваться дополнительные данные или дообучение (fine-tuning) для качественной работы в узкоспециализированных задачах.
- Чувствительность к качеству входных данных: На точность модели могут повлиять изображения или видео низкого качества. Размытый или плохо освещенный входной сигнал может снизить способность модели точно обнаруживать объекты, поэтому высококачественные данные важны для оптимальной работы.
Link to this sectionОсновные выводы#
YOLOE привносит больше гибкости в компьютерное зрение, позволяя направлять детекцию с помощью текстовых или визуальных подсказок. Она хорошо работает в реальных условиях, где сцены быстро меняются, а переобучение невозможно.
От обработки багажа до мониторинга общественных мест — YOLOE легко адаптируется к новым задачам. Поскольку ИИ становится все более доступным, такие модели, как YOLOE, помогают большему количеству отраслей использовать технологии зрения практичными и эффективными способами.
Присоединяйся к нашему community и изучай наш GitHub repository, чтобы узнать больше об инновациях в области ИИ. Открывай для себя последние достижения в таких областях, как AI in retail и computer vision in healthcare на наших страницах с решениями. Ознакомься с нашими licensing options и начни работу с компьютерным зрением уже сегодня!






