Узнай, как YOLOE позволяет находить объекты по простой подсказке или фотографии. Это позволяет использовать более умное и быстрое компьютерное зрение без переобучения или тонкой настройки моделей.
Обнаружение объектов - ключевая задача компьютерного зрения, цель которой - идентифицировать и определить местоположение объектов на изображениях или видео. Это важнейшая часть компьютерного зрения, области искусственного интеллекта (ИИ), которая позволяет машинам понимать и интерпретировать визуальные данные. Например, обнаружение объектов может помочь идентифицировать автомобиль на фотографии или заметить человека в видеозаписи.
Одна из самых известных серий моделей, поддерживающих задачи компьютерного зрения, такие как обнаружение объектов, - это серия моделей YOLO (You Only Look Once). Разработанные для скорости и точности, модели YOLO постоянно улучшались с течением времени. Например, одна из последних версий, Ultralytics YOLO11отлично проявляет себя в реальных условиях, обеспечивая точные результаты даже в более сложных средах.
Развивая этот прогресс, новая модель под названием YOLOE призвана расширить возможности моделей YOLO . В отличие от традиционных моделей, которые требуют переобучения для распознавания новых объектов, YOLOE может следовать простым текстовым или графическим подсказкам, чтобы обнаружить объекты, которые она раньше не видела, что делает ее гораздо более адаптируемой к меняющимся условиям окружающей среды.
В этой статье мы подробно рассмотрим , что делает YOLOE уникальным, как он сравнивается с предыдущими моделями YOLO и как ты можешь начать использовать его уже сегодня. Давай начнем!
YOLOE - это модель компьютерного зрения, которая делает обнаружение объектов на шаг дальше. Она была представлена в марте 2025 года исследователями из Университета Цинхуа. От традиционных моделей YOLOE отличает использование распознавания по открытому словарю.
В то время как большинство моделей обучены распознавать фиксированный список объектов, YOLOE позволяет тебе указать, что именно искать, с помощью короткого описания или примера изображения. Например, если ты ищешь "зеленый рюкзак", ты можешь либо ввести это описание, либо показать модели фотографию, и YOLOE найдет его в сцене.
Кроме того, даже без подсказок YOLOE может самостоятельно обнаружить множество повседневных предметов. Эта способность распознавать объекты, которых он никогда раньше не видел, называется нулевым обнаружением. Она особенно полезна в динамичных средах, где задача или интересующие тебя объекты могут неожиданно меняться.
YOLOE поддерживает широкий спектр функций, призванных повысить его производительность в реальных приложениях. Благодаря способности обрабатывать как структурированный, так и неструктурированный ввод, YOLOE открывает новые возможности для обнаружения и сегментации объектов.
Вот некоторые ключевые особенности модели:
Теперь, когда мы лучше понимаем, что такое YOLOE, давай посмотрим на некоторые похожие модели из семейства YOLO .
По мере того как компьютерное зрение прогрессировало, прогрессировали и модели YOLO . Например, Ultralytics YOLOv8 обеспечила поддержку новых задач, таких как сегментация и классификация, а более поздние версии, например Ultralytics YOLO11, сфокусировались на повышении точности и производительности для более широкого круга задач.
Кроме того, в январе 2024 года была выпущена игра YOLO, в которой появилась возможность использовать письменные подсказки, позволяющие пользователям описывать объекты, которые они хотят найти. Хотя YOLO был отличным вариантом для обнаружения нулевого выстрела, ему не хватало таких функций, как сегментация экземпляров и поддержка визуальных подсказок.
YOLOE развивает YOLO, добавляя эти возможности, улучшая гибкость и производительность и предлагая более эффективный инструмент для реальных приложений компьютерного зрения.
Хочешь ли ты обнаружить конкретные объекты или изучить все на изображении, начать работу с YOLOE очень просто. Эта модель поддерживается пакетом Ultralytics Python , что позволяет легко интегрировать ее в твои проекты. Далее давай разберемся, как ее использовать.
Первым шагом будет установка пакетаUltralytics Python с помощью менеджера пакетов, например 'pip'. Это можно сделать, выполнив команду "pip install ultralytics" в терминале или командной строке.
После установки пакета у тебя будет все необходимое для загрузки модели, составления прогнозов и экспериментов с различными режимами обнаружения. Если во время установки у тебя возникнут какие-либо проблемы, в официальной документации Ultralytics есть полезный раздел по устранению неполадок.
Есть несколько разных способов использовать YOLOE для выполнения предсказаний. Запускать предсказания - значит использовать обученную модель для идентификации и определения местоположения объектов на изображениях или видео. Эти разные методы позволяют тебе настроить взаимодействие с моделью в зависимости от твоих конкретных потребностей.
Давай обсудим каждый из этих методов по очереди.
YOLOE может обнаруживать объекты на основе короткого текстового описания. Например, если ты ищешь лошадь в движении, то можешь использовать подсказку вроде "лошадь идет".
Чтобы начать, сначала загрузи предварительно обученную модель YOLOE и задай свой запрос (описание того, что ты хочешь, чтобы модель искала), как показано в фрагменте кода ниже.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Когда модель и подсказка настроены, ты можешь запустить модель на изображении или видео. Замени путь к файлу в коде на путь к твоему изображению или видеофайлу:
results = model.predict("path/to/your/image.jpg")
results[0].show()
В результате на экране появится изображение, на котором обнаруженный объект будет четко обозначен в соответствии с твоей подсказкой. Ты можешь изменить подсказку для поиска разных объектов, например "красный чемодан", "велосипед" или "зебра", в зависимости от того, что ты ищешь.
Точно так же ты можешь использовать изображение для подсказки YOLOE с помощью пакета Ultralytics Python . В режиме визуальной подсказки модель использует изображение, чтобы найти похожие предметы в другой сцене. Это особенно полезно для объектов, которые сложно описать или у которых нет четких обозначений.
Чтобы более подробно изучить код для этого, ты можешь заглянуть в документациюUltralytics .
В некоторых случаях ты можешь не знать, что именно искать, или не искать конкретный объект. Вот тут-то и пригодится режим без подсказок.
С этой опцией тебе не нужно вводить описание или предоставлять пример изображения. YOLOE просто самостоятельно анализирует изображения и обнаруживает все, что может распознать, например людей, животных, мебель или повседневные предметы.
Это полезный способ изучить сцену, не давая модели никаких конкретных указаний. Сканируешь ли ты переполненную комнату или просматриваешь кадры с большой активностью, режим "без подсказок" позволит тебе быстро понять, что присутствует на изображении.
Ты можешь использовать следующий код, чтобы запустить YOLOE в режиме без подсказок. Сначала загружается модель, затем она обрабатывает изображение и автоматически обнаруживает на нем объекты. Наконец, выводятся результаты, и обнаруженные объекты подсвечиваются.
Не забудь заменить путь к файлу на реальный путь к твоему изображению.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
Изображение, показанное ниже, - пример того, что может обнаружить YOLOE в режиме без подсказок.
Способность YOLOE реагировать как на текстовые, так и на графические подсказки делает его надежным инструментом для приложений, работающих в режиме реального времени. Его гибкость особенно полезна в быстро меняющейся обстановке, где важны точность и время.
Давай рассмотрим несколько реальных примеров того, как можно использовать YOLOE.
В загруженных аэропортах поиск конкретного багажа может оказаться непростой задачей, особенно если речь идет о пропавших сумках. YOLOE может упростить этот процесс, помогая сканировать видео в реальном времени и быстро определяя предметы по простым подсказкам вроде "красная сумка".
Если сумка пропала или ее неправильно поставили, персонал может легко изменить подсказку на поиск другого предмета, например "черного чемодана". Такая способность к мгновенной адаптации может помочь персоналу аэропорта быстро найти нужный багаж, не просматривая долгие часы видеозаписей и не переучивая модель, что делает обработку багажа и решение проблем с пропажей багажа намного быстрее и эффективнее.
Записи с камер наблюдения в общественных местах, таких как переполненные рынки и кафе, часто включают в себя смесь людей, предметов и действий, которые меняются в течение дня. YOLOE может анализировать эти кадры в режиме реального времени, используя режим без подсказок, автоматически обнаруживая такие предметы, как сумки, столы или велосипеды, не требуя специальных инструкций.
Это особенно полезно для команд безопасности, чтобы заметить оставленные без присмотра предметы или отследить движение толпы. Способность YOLOE обнаруживать сразу несколько объектов облегчает управление общественными пространствами во время мероприятий или в периоды большой загруженности, помогая командам оставаться информированными и оперативными.
Вот несколько ключевых преимуществ использования YOLOE для приложений компьютерного зрения:
Однако при использовании YOLOE нужно помнить о нескольких ограничениях. Вот несколько факторов, которые стоит учитывать:
YOLOE привносит в компьютерное зрение больше гибкости, позволяя пользователям направлять обнаружение с помощью текстовых или графических подсказок. Это хорошо работает в реальных ситуациях, когда сцены быстро меняются, а переобучение не представляется возможным.
От обработки багажа до мониторинга общественных мест - YOLOE с легкостью адаптируется к новым задачам. По мере того как искусственный интеллект становится все более доступным, такие модели, как YOLOE, помогают все большему числу отраслей использовать технологии технического зрения практичными и эффективными способами.
Присоединяйся к нашему сообществу и изучай наш репозиторий GitHub, чтобы узнать больше об инновациях в области ИИ. Открой для себя последние достижения в таких областях, как ИИ в розничной торговле и компьютерное зрение в здравоохранении, на страницах наших решений. Ознакомься с нашими вариантами лицензирования и начни работать с компьютерным зрением уже сегодня!
Начни свое путешествие с будущим машинного обучения