Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Эволюция обнаружения объектов и модели YOLO от Ultralytics

Абирами Вина

4 мин чтения

18 октября 2024 г.

Присоединяйтесь к нам, чтобы взглянуть на эволюцию обнаружения объектов. Мы сосредоточимся на том, как модели YOLO (You Only Look Once) продвинулись за последние годы.

Компьютерное зрение - это подобласть искусственного интеллекта (ИИ), которая фокусируется на обучении машин видеть и понимать изображения и видео, подобно тому, как люди воспринимают реальный мир. В то время как распознавание объектов или идентификация действий является для людей чем-то само собой разумеющимся, эти задачи требуют специальных и специализированных методов компьютерного зрения, когда речь идет о машинах. Например, одной из ключевых задач компьютерного зрения является обнаружение объектов, которое включает в себя идентификацию и локализацию объектов на изображениях или видео. 

С 1960-х годов исследователи работают над усовершенствованием методов detect объектов с помощью компьютеров. Ранние методы, такие как сопоставление шаблонов, предполагали перемещение заранее определенного шаблона по изображению для поиска совпадений. Хотя эти подходы были инновационными, они не справлялись с изменениями размера, ориентации и освещения объекта. Сегодня у нас есть такие продвинутые модели, как Ultralytics YOLO11 которые могут с впечатляющей точностью detect даже маленькие и частично скрытые объекты, известные как окклюдированные объекты.

Поскольку компьютерное зрение продолжает развиваться, важно оглянуться на то, как развивались эти технологии. В этой статье мы рассмотрим эволюцию обнаружения объектов и прольем свет на трансформацию моделейYOLO (You Only Look Once). Давайте начнем!

Истоки компьютерного зрения

Прежде чем перейти к обнаружению объектов, давайте посмотрим, как зародилось компьютерное зрение. Истоки компьютерного зрения берут начало в конце 1950-х - начале 1960-х годов, когда ученые начали изучать, как мозг обрабатывает визуальную информацию. В ходе экспериментов с кошками исследователи Дэвид Хьюбел и Торстен Визель обнаружили, что мозг реагирует на простые паттерны, такие как края и линии. Это послужило основой для идеи выделения признаков - концепции, согласно которой зрительные системы detect и распознают основные признаки изображений, такие как края, а затем переходят к более сложным паттернам.

Рис. 1. Изучение реакции мозга кошки на световые полосы помогло разработать выделение признаков в компьютерном зрении.

Примерно в то же время появилась новая технология, которая могла преобразовывать физические изображения в цифровые форматы, что вызвало интерес к тому, как машины могут обрабатывать визуальную информацию. В 1966 году проект Summer Vision Project Массачусетского технологического института (MIT) продвинул дело еще дальше. Хотя проект не был полностью успешным, он был направлен на создание системы, которая могла бы отделять передний план от фона на изображениях. Для многих в сообществе Vision AI этот проект знаменует собой официальное начало компьютерного зрения как научной области.

Понимание истории обнаружения объектов

По мере развития компьютерного зрения в конце 1990-х - начале 2000-х годов методы обнаружения объектов перешли от базовых техник, таких как сопоставление шаблонов, к более продвинутым подходам. Одним из популярных методов стал каскад Хаара, который широко использовался для таких задач, как распознавание лиц. Он работал путем сканирования изображений с помощью скользящего окна, проверки наличия специфических особенностей, таких как края или текстуры, в каждом участке изображения, а затем комбинирования этих особенностей для detect объектов, таких как лица. Каскад Хаара был намного быстрее предыдущих методов.

Рис. 2. Использование каскадов Хаара для обнаружения лиц.

Наряду с ними были представлены такие методы, как гистограмма ориентированных градиентов (HOG) и метод опорных векторов (SVM). HOG использовал метод скользящего окна для анализа изменений света и теней в небольших участках изображения, помогая идентифицировать объекты на основе их формы. Затем SVM классифицировали эти признаки, чтобы определить идентичность объекта. Эти методы повысили точность, но все еще испытывали трудности в реальных условиях и были медленнее по сравнению с современными технологиями.

Необходимость в обнаружении объектов в реальном времени

В 2010-х годах рост глубокого обучения и сверточных нейронных сетей (CNN) привел к серьезным изменениям в обнаружении объектов. CNN позволили компьютерам автоматически изучать важные признаки из больших объемов данных, что сделало обнаружение намного более точным. 

Ранние модели, такие как R-CNN (Region-based Convolutional Neural Networks), значительно повысили точность, помогая идентифицировать объекты более аккуратно, чем более старые методы. 

Однако, эти модели работали медленно, потому что они обрабатывали изображения в несколько этапов, что делало их непрактичными для приложений реального времени в таких областях, как автомобили с автоматическим управлением или видеонаблюдение.

С акцентом на ускорение работы были разработаны более эффективные модели. Такие модели, как Fast R-CNN и Faster R-CNN, помогли усовершенствовать способ выбора областей интереса и сократить количество шагов, необходимых для обнаружения. Хотя это и ускорило обнаружение объектов, этого все еще было недостаточно для многих реальных приложений, которым требовались мгновенные результаты. Растущий спрос на обнаружение в реальном времени подтолкнул к разработке еще более быстрых и эффективных решений, которые могли бы сбалансировать скорость и точность.

Рис. 3. Сравнение скорости R-CNN, Fast R-CNN и Faster R-CNN.

Модели YOLO (You Only Look Once): Важная веха

YOLO это модель обнаружения объектов, которая переосмысливает компьютерное зрение, позволяя в режиме реального времени обнаруживать множество объектов на изображениях и видео, что делает ее совершенно уникальной по сравнению с предыдущими методами обнаружения. Вместо того чтобы анализировать каждый обнаруженный объект по отдельности, архитектураYOLO рассматривает обнаружение объектов как единую задачу, предсказывая местоположение и класс объектов за один раз с помощью CNN. 

Модель работает, разделяя изображение на сетку, при этом каждая часть отвечает за обнаружение объектов в своей области. Она делает несколько прогнозов для каждого раздела и отфильтровывает менее уверенные результаты, сохраняя только точные. 

Рис. 4. Обзор работы YOLO .

Внедрение YOLO в приложения компьютерного зрения сделало обнаружение объектов намного быстрее и эффективнее, чем предыдущие модели. Благодаря своей скорости и точности YOLO быстро стал популярным выбором для решений реального времени в таких отраслях, как производство, здравоохранение и робототехника.

Еще один важный момент: поскольку YOLO был с открытым исходным кодом, разработчики и исследователи могли постоянно совершенствовать его, что привело к появлению еще более продвинутых версий.

Путь от YOLO к YOLO11

Модели YOLO постоянно совершенствовались с течением времени, развиваясь в каждой версии. Наряду с улучшением производительности, эти усовершенствования сделали модели более удобными в использовании для людей с разным уровнем технического опыта.

Например, когда Ultralytics YOLOv5развертывание моделей стало проще с помощью PyTorchчто позволило более широкому кругу пользователей работать с продвинутым ИИ. Это позволило объединить точность и удобство, дав возможность большему числу людей реализовать обнаружение объектов без необходимости быть экспертами по кодированию.

Рис. 5. Эволюция моделей YOLO .

Ultralytics YOLOv8 продолжила этот прогресс, добавив поддержку таких задач, как сегментация экземпляров, и сделав модели более гибкими. YOLO стало проще использовать как для базовых, так и для более сложных приложений, что делает его полезным в различных сценариях.

С последней моделью, Ultralytics YOLO11были проведены дополнительные оптимизации. Благодаря уменьшению количества параметров и повышению точности он стал более эффективным для задач реального времени. Независимо от того, являетесь ли вы опытным разработчиком или новичком в области искусственного интеллекта, YOLO11 предлагает передовой подход к обнаружению объектов, который легко доступен.

Знакомство с YOLO11: новые функции и улучшения

YOLO11, представленный на ежегодном гибридном мероприятии Ultralytics YOLO Vision 2024 (YV24), поддерживает те же задачи компьютерного зрения, что и YOLOv8, такие как обнаружение объектов, сегментация экземпляров, классификация изображений и оценка позы. Таким образом, пользователи могут легко перейти на эту новую модель без необходимости корректировать свои рабочие процессы. Кроме того, обновленная архитектура YOLO11делает прогнозы еще более точными. Так, YOLO11m достигает более высокой средней точностиmAP) на наборе данныхCOCO с 22 % меньшим количеством параметров, чем YOLOv8m.

YOLO11 также создан для эффективной работы на различных платформах, от смартфонов и других периферийных устройств до более мощных облачных систем. Такая гибкость обеспечивает бесперебойную работу приложений в реальном времени на различных аппаратных установках. Кроме того, YOLO11 работает быстрее и эффективнее, сокращая вычислительные затраты и ускоряя время вычислений. Независимо от того, используете ли вы пакетUltralytics Python или не имеющий кода Ultralytics HUB, вы легко интегрируете YOLO11 в существующие рабочие процессы.

Будущее моделей YOLO и обнаружения объектов

Влияние передового обнаружения объектов на приложения реального времени и краевой ИИ уже ощущается во всех отраслях. Поскольку такие отрасли, как нефтегазовая, здравоохранение и розничная торговля, все больше полагаются на ИИ, спрос на быстрое и точное обнаружение объектов продолжает расти. YOLO11 призван удовлетворить этот спрос, обеспечив высокопроизводительное обнаружение даже на устройствах с ограниченной вычислительной мощностью. 

По мере развития краевого ИИ, вероятно, модели обнаружения объектов, подобные YOLO11 , станут еще более важными для принятия решений в реальном времени в средах, где скорость и точность имеют решающее значение. Благодаря постоянному совершенствованию дизайна и адаптивности, будущее обнаружения объектов обещает принести еще больше инноваций в самых разных областях применения.

Основные выводы

Обнаружение объектов прошло долгий путь эволюции от простых методов до передовых технологий глубокого обучения, которые мы видим сегодня. Модели YOLO лежат в основе этого прогресса, обеспечивая более быстрое и точное обнаружение в реальном времени в различных отраслях. YOLO11 развивает это наследие, повышая эффективность, снижая вычислительные затраты и увеличивая точность, что делает его надежным выбором для различных приложений реального времени. Благодаря постоянным достижениям в области искусственного интеллекта и компьютерного зрения, будущее обнаружения объектов представляется ярким, и есть возможности для еще большего повышения скорости, точности и адаптивности.

Интересуетесь ИИ? Оставайтесь на связи с нашим сообществом, чтобы продолжать обучение! Посмотрите наш репозиторий на GitHub, чтобы узнать, как мы используем ИИ для создания инновационных решений в таких отраслях, как производство и здравоохранение. 🚀

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно