Узнайте, как YOLOE позволяет находить объекты по простой подсказке или фотографии. Это позволяет использовать более интеллектуальное и быстрое компьютерное зрение без необходимости переобучения или точной настройки моделей.

Узнайте, как YOLOE позволяет находить объекты по простой подсказке или фотографии. Это позволяет использовать более интеллектуальное и быстрое компьютерное зрение без необходимости переобучения или точной настройки моделей.
Обнаружение объектов - одна из ключевых задач компьютерного зрения, целью которой является идентификация и определение местоположения объектов на изображениях или видео. Это важнейшая часть компьютерного зрения, области искусственного интеллекта (ИИ), которая позволяет машинам понимать и интерпретировать визуальные данные. Например, распознавание объектов помогает идентифицировать автомобиль на фотографии или заметить человека в видеозаписи.
Одной из самых известных серий моделей, поддерживающих задачи компьютерного зрения, такие как обнаружение объектов, является серия моделей YOLO (You Only Look Once). Модели YOLO, разработанные для обеспечения скорости и точности, постоянно совершенствуются с течением времени. Например, одна из последних версий, Ultralytics YOLO11, отлично работает в реальных условиях, обеспечивая точные результаты даже в более сложных средах.
Новая модель под названием YOLOE призвана расширить возможности моделей YOLO. В отличие от традиционных моделей, которые требуют переобучения для распознавания новых объектов, YOLOE может следовать простым текстовым или графическим подсказкам для обнаружения объектов, которые она раньше не видела, что делает ее гораздо более адаптируемой к меняющимся условиям.
В этой статье мы подробно рассмотрим , что делает YOLOE уникальным, как он отличается от предыдущих моделей YOLO и как вы можете начать использовать его уже сегодня. Давайте начнем!
YOLOE - это модель компьютерного зрения, которая позволяет сделать шаг вперед в обнаружении объектов. Она была представлена в марте 2025 года исследователями из Университета Цинхуа. От традиционных моделей YOLOE отличает использование распознавания по открытому словарю.
В то время как большинство моделей обучены распознавать фиксированный список объектов, YOLOE позволяет указать, что именно искать, с помощью краткого описания или примера изображения. Например, если вы ищете "зеленый рюкзак", вы можете ввести это описание или показать модели фотографию, и YOLOE найдет его в сцене.
Кроме того, даже без подсказок YOLOE может самостоятельно обнаружить множество повседневных объектов. Эта способность распознавать объекты, которых он никогда раньше не видел, называется "обнаружением с нулевого выстрела". Она особенно полезна в динамичных средах, где задача или интересующие объекты могут неожиданно измениться.
YOLOE поддерживает широкий спектр функций, призванных повысить его производительность в реальных приложениях. Благодаря способности обрабатывать как структурированные, так и неструктурированные данные, YOLOE открывает новые возможности для обнаружения и сегментации объектов.
Вот некоторые ключевые особенности этой модели:
Теперь, когда мы лучше понимаем, что такое YOLOE, давайте посмотрим на некоторые похожие модели семейства YOLO.
По мере развития компьютерного зрения развивались и модели YOLO. Например, в Ultralytics YOLOv8 появилась поддержка новых задач, таких как сегментация и классификация, а более поздние версии, такие как Ultralytics YOLO11, были направлены на повышение точности и производительности для более широкого круга задач.
Кроме того, в январе 2024 года была выпущена игра YOLO-World, в которой появилась возможность использовать письменные подсказки, позволяющие пользователям описывать объекты, которые они хотят найти. Хотя YOLO-World был отличным вариантом для обнаружения нулевых выстрелов, ему не хватало таких функций, как сегментация экземпляров и поддержка визуальных подсказок.
YOLOE развивает YOLO-World, добавляя эти возможности, повышая гибкость и производительность и предлагая более эффективный инструмент для реальных приложений компьютерного зрения.
Хотите ли вы обнаружить конкретные объекты или изучить все на изображении, начать работу с YOLOE очень просто. Эта модель поддерживается пакетом Ultralytics Python, что позволяет легко интегрировать ее в ваши проекты. Далее мы рассмотрим, как ее использовать.
Первым шагом будет установка пакета Ultralytics Python с помощью менеджера пакетов, например 'pip'. Вы можете сделать это, выполнив команду "pip install ultralytics" в терминале или командной строке.
После установки пакета у вас будет все необходимое для загрузки модели, составления прогнозов и экспериментов с различными режимами обнаружения. Если во время установки возникнут какие-либо проблемы, в официальной документации Ultralytics есть полезный раздел по устранению неполадок.
Существует несколько различных способов использования YOLOE для выполнения прогнозов. Выполнение прогнозов означает использование обученной модели для идентификации и определения местоположения объектов на изображениях или видео. Эти различные методы позволяют настроить взаимодействие с моделью в зависимости от ваших конкретных потребностей.
Давайте обсудим каждый из этих методов по очереди.
YOLOE может обнаруживать объекты на основе короткого текстового описания. Например, если вы ищете лошадь в движении, вы можете использовать подсказку типа "лошадь идет".
Чтобы начать работу, сначала загрузите предварительно обученную модель YOLOE и задайте запрос (описание того, что вы хотите, чтобы модель искала), как показано в приведенном ниже фрагменте кода.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
После того как модель и подсказка настроены, вы можете запустить модель на изображении или видео. Замените путь к файлу в коде на путь к изображению или видеофайлу:
results = model.predict("path/to/your/image.jpg")
results[0].show()
В результате на экране появится изображение с четко обозначенным обнаруженным объектом в соответствии с вашим запросом. Вы можете изменить подсказку для поиска различных объектов, например "красный чемодан", "велосипед" или "зебра", в зависимости от того, что вы ищете.
Аналогичным образом можно использовать изображение для подсказки YOLOE с помощью пакета Ultralytics Python. В режиме визуальной подсказки модель использует изображение для поиска похожих предметов в другой сцене. Это особенно полезно для объектов, которые сложно описать или у которых нет четких обозначений.
Чтобы более подробно изучить код для этого, вы можете ознакомиться с документацией Ultralytics.
В некоторых случаях вы можете не знать, что именно искать, или искать не конкретный объект. Вот тут-то и пригодится режим без подсказок.
При использовании этой опции вам не нужно вводить описание или приводить пример изображения. YOLOE просто самостоятельно анализирует изображения и обнаруживает все, что может распознать, например людей, животных, мебель или повседневные предметы.
Это полезный способ изучить сцену, не давая модели никаких конкретных указаний. Сканируете ли вы переполненную комнату или просматриваете кадры с активной деятельностью, режим "без подсказок" позволит вам быстро понять, что присутствует на изображении.
Вы можете использовать следующий код для запуска YOLOE в режиме без подсказок. Сначала загружается модель, затем она обрабатывает изображение и автоматически обнаруживает на нем объекты. Наконец, выводятся результаты, и обнаруженные объекты выделяются.
Не забудьте заменить путь к файлу на реальный путь к изображению.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
Изображение, показанное ниже, - пример того, что может обнаружить YOLOE в режиме без подсказок.
Способность YOLOE реагировать как на текстовые, так и на графические подсказки делает его надежным инструментом для приложений, работающих в режиме реального времени. Его гибкость особенно полезна в быстро меняющихся средах, где важны точность и время.
Давайте рассмотрим несколько реальных примеров использования YOLOE.
В загруженных аэропортах поиск конкретного багажа может оказаться непростой задачей, особенно если речь идет о пропавших сумках. YOLOE может упростить этот процесс, помогая сканировать видео в реальном времени и быстро определяя предметы по простым подсказкам, например "красная сумка".
Если сумка пропала или неправильно установлена, сотрудники могут легко изменить подсказку для поиска другого предмета, например "черного чемодана". Такая способность к мгновенной адаптации может помочь персоналу аэропорта быстро найти нужный багаж, не просматривая многочасовые записи и не переучивая модель, что делает обработку багажа и решение проблем с пропажей багажа намного быстрее и эффективнее.
Записи с камер видеонаблюдения в общественных местах, таких как переполненные рынки и кафе, часто включают в себя множество людей, предметов и действий, которые меняются в течение дня. YOLOE может анализировать эти записи в режиме реального времени, используя режим без подсказок, автоматически обнаруживая такие предметы, как сумки, столы или велосипеды, не требуя специальных инструкций.
Это особенно полезно для служб безопасности, чтобы обнаружить оставленные без присмотра предметы или отследить движение толпы. Способность YOLOE обнаруживать сразу несколько объектов упрощает управление общественными пространствами во время мероприятий или в периоды большой загруженности, помогая командам оставаться информированными и оперативными.
Вот некоторые из ключевых преимуществ использования YOLOE для приложений компьютерного зрения:
Однако при использовании YOLOE следует помнить о некоторых ограничениях. Вот несколько факторов, которые следует учитывать:
YOLOE придает компьютерному зрению большую гибкость, позволяя пользователям направлять распознавание с помощью текстовых или графических подсказок. Это хорошо работает в реальных ситуациях, когда сцены быстро меняются, а переобучение не представляется возможным.
YOLOE легко адаптируется к новым задачам - от обработки багажа до мониторинга общественных мест. По мере того как искусственный интеллект становится все более доступным, такие модели, как YOLOE, помогают все большему числу отраслей промышленности использовать технологии технического зрения практичными и эффективными способами.
Присоединяйтесь к нашему сообществу и изучайте наш репозиторий GitHub, чтобы узнать больше об инновациях в области ИИ. На страницах наших решений вы найдете информацию о последних достижениях в таких областях, как ИИ в розничной торговле и компьютерное зрение в здравоохранении. Ознакомьтесь с нашими вариантами лицензирования и начните работать с компьютерным зрением уже сегодня!