Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Ultralytics YOLO

Эволюция обнаружения объектов и моделей YOLO от Ultralytics

Присоединяйся к нам, чтобы оглянуться на эволюцию обнаружения объектов. Мы сосредоточимся на том, как модели YOLO (You Only Look Once) развивались за последние годы.

АБАбирами Вина
4 min read
Эволюция обнаружения объектов и моделей YOLO

Компьютерное зрение — это подраздел искусственного интеллекта (ИИ), который фокусируется на обучении машин видеть и понимать изображения и видео, подобно тому, как люди воспринимают реальный мир. Хотя распознавание объектов или идентификация действий для людей являются естественными задачами, для машин они требуют особых и специализированных методов компьютерного зрения. Например, одной из ключевых задач в компьютерном зрении является обнаружение объектов, которое включает в себя идентификацию и определение местоположения объектов на изображениях или видео.

С 1960-х годов исследователи работают над улучшением того, как компьютеры могут обнаруживать объекты. Ранние методы, такие как шаблонное сопоставление, предполагали наложение предопределенного шаблона на изображение для поиска совпадений. Несмотря на инновационность, эти подходы испытывали трудности с изменениями размера объекта, ориентации и освещения. Сегодня у нас есть передовые модели, такие как Ultralytics YOLO11, которые способны обнаруживать даже маленькие и частично скрытые объекты (так называемые окклюдированные объекты) с впечатляющей точностью.

По мере того как компьютерное зрение продолжает развиваться, важно оглянуться назад на то, как эти технологии совершенствовались. В этой статье мы исследуем эволюцию обнаружения объектов и прольем свет на трансформацию моделей YOLO (You Only Look Once). Давай начнем!

Link to this sectionИстоки компьютерного зрения#

Прежде чем погрузиться в обнаружение объектов, давай посмотрим, с чего начиналось компьютерное зрение. Истоки компьютерного зрения восходят к концу 1950-х и началу 1960-х годов, когда ученые начали изучать, как мозг обрабатывает визуальную информацию. В экспериментах с кошками исследователи Дэвид Хьюбел и Торстен Визель обнаружили, что мозг реагирует на простые паттерны, такие как края и линии. Это легло в основу идеи извлечения признаков — концепции, согласно которой визуальные системы обнаруживают и распознают базовые характеристики изображений, такие как края, прежде чем переходить к более сложным паттернам.

Эксперимент с мозгом кошки, который вдохновил на извлечение признаков в компьютерном зрении

Рис. 1. Изучение того, как мозг кошки реагирует на световые полосы, помогло в развитии извлечения признаков в компьютерном зрении.

Примерно в то же время появились новые технологии, которые могли превращать физические изображения в цифровые форматы, что вызвало интерес к тому, как машины могут обрабатывать визуальную информацию. В 1966 году проект Summer Vision Project в Массачусетском технологическом институте (MIT) продвинул дело дальше. Хотя проект не увенчался полным успехом, он был направлен на создание системы, способной отделять передний план от фона на изображениях. Для многих в сообществе vision AI этот проект знаменует официальное начало компьютерного зрения как научной дисциплины.

Link to this sectionПонимание истории обнаружения объектов#

По мере развития компьютерного зрения в конце 1990-х и начале 2000-х годов методы обнаружения объектов сместились от базовых техник, таких как шаблонное сопоставление, к более продвинутым подходам. Одним из популярных методов стал Haar Cascade, который получил широкое распространение для таких задач, как обнаружение лиц. Он работал путем сканирования изображений скользящим окном, проверяя наличие конкретных признаков, таких как границы или текстуры, в каждой части изображения, а затем объединяя эти признаки для обнаружения объектов, например, лиц. Haar Cascade работал гораздо быстрее предыдущих методов.

Использование Haar Cascade для обнаружения лиц

Рис. 2. Использование Haar Cascade для обнаружения лиц.

Наряду с этим были представлены такие методы, как гистограмма направленных градиентов (HOG) и метод опорных векторов (SVM). HOG использовал технику скользящего окна для анализа того, как свет и тени меняются в небольших частях изображения, помогая идентифицировать объекты на основе их формы. Затем SVM классифицировал эти признаки для определения объекта. Эти методы повысили точность, но все еще испытывали трудности в реальных условиях и были медленнее по сравнению с современными техниками.

Link to this sectionПотребность в обнаружении объектов в реальном времени#

В 2010-х годах развитие глубокого обучения и сверточных нейронных сетей (CNN) привело к серьезному сдвигу в обнаружении объектов. CNN позволили компьютерам автоматически изучать важные признаки из больших объемов данных, что сделало обнаружение гораздо более точным.

Ранние модели, такие как R-CNN (региональные сверточные нейронные сети), стали значительным улучшением в плане точности, помогая идентифицировать объекты точнее, чем старые методы.

Однако эти модели были медленными, так как обрабатывали изображения в несколько этапов, что делало их непрактичными для приложений реального времени, таких как беспилотные автомобили или видеонаблюдение.

С целью ускорения процесса были разработаны более эффективные модели. Модели вроде Fast R-CNN и Faster R-CNN помогли за счет оптимизации выбора областей интереса и сокращения количества шагов, необходимых для обнаружения. Хотя это сделало обнаружение объектов быстрее, его все еще было недостаточно для многих реальных приложений, требующих мгновенных результатов. Растущий спрос на обнаружение в реальном времени подтолкнул развитие еще более быстрых и эффективных решений, которые могли бы сбалансировать скорость и точность.

Сравнение скоростей R-CNN, Fast R-CNN и Faster R-CNN

Рис. 3. Сравнение скорости работы R-CNN, Fast R-CNN и Faster R-CNN.

Link to this sectionМодели YOLO (You Only Look Once): важная веха#

YOLO — это модель обнаружения объектов, которая переопределила компьютерное зрение, обеспечив обнаружение нескольких объектов в реальном времени на изображениях и видео, что делает её уникальной по сравнению с предыдущими методами. Вместо того чтобы анализировать каждый обнаруженный объект по отдельности, архитектура YOLO рассматривает обнаружение объектов как единую задачу, предсказывая положение и класс объектов за один проход с помощью CNN.

Модель работает путем разделения изображения на сетку, где каждая часть отвечает за обнаружение объектов в своей зоне. Она делает множественные предсказания для каждой секции и отфильтровывает результаты с низкой уверенностью, оставляя только точные.

Обзор принципа работы YOLO

Рис. 4. Обзор того, как работает YOLO.

Внедрение YOLO в приложения компьютерного зрения сделало обнаружение объектов намного быстрее и эффективнее, чем в более ранних моделях. Благодаря своей скорости и точности, YOLO быстро стала популярным выбором для решений в реальном времени в таких отраслях, как производство, здравоохранение и робототехника.

Еще один важный момент: поскольку YOLO была проектом с открытым исходным кодом, разработчики и исследователи смогли постоянно улучшать её, что привело к созданию еще более совершенных версий.

Link to this sectionПуть от YOLO к YOLO11#

Модели YOLO постепенно совершенствовались с течением времени, основываясь на достижениях каждой предыдущей версии. Помимо улучшения производительности, эти изменения сделали модели более доступными для пользователей с разным уровнем технической подготовки.

Например, с появлением Ultralytics YOLOv5 развертывание моделей стало проще благодаря PyTorch, что позволило более широкому кругу пользователей работать с продвинутым ИИ. Это объединило точность и удобство использования, дав большему количеству людей возможность внедрять обнаружение объектов, не будучи экспертами в программировании.

Эволюция моделей YOLO

Рис. 5. Эволюция моделей YOLO.

Ultralytics YOLOv8 продолжила этот прогресс, добавив поддержку задач, таких как сегментация экземпляров, и сделав модели более гибкими. Стало проще использовать YOLO как для базовых, так и для более сложных приложений, что сделало её полезной в различных сценариях.

В новейшей модели, Ultralytics YOLO11, были проведены дальнейшие оптимизации. Благодаря сокращению количества параметров при одновременном повышении точности, она стала более эффективной для задач реального времени. Независимо от того, являешься ли ты опытным разработчиком или новичком в ИИ, YOLO11 предлагает передовой и легкодоступный подход к обнаружению объектов.

Link to this sectionЗнакомство с YOLO11: новые функции и улучшения#

YOLO11, представленная на ежегодном гибридном мероприятии Ultralytics, YOLO Vision 2024 (YV24), поддерживает те же задачи компьютерного зрения, что и YOLOv8, такие как обнаружение объектов, сегментация экземпляров, классификация изображений и оценка позы. Таким образом, пользователи могут легко перейти на эту новую модель без необходимости корректировать свои рабочие процессы. Кроме того, модернизированная архитектура YOLO11 делает предсказания еще более точными. В частности, YOLO11m достигает более высокого среднего показателя точности (mAP) на наборе данных COCO с использованием на 22% меньшего количества параметров, чем YOLOv8m.

YOLO11 также разработана для эффективной работы на ряде платформ, от смартфонов и других периферийных устройств до более мощных облачных систем. Эта гибкость обеспечивает плавную работу на различных аппаратных конфигурациях для приложений реального времени. Кроме того, YOLO11 быстрее и эффективнее, что снижает вычислительные затраты и ускоряет время вывода. Используешь ли ты пакет Ultralytics Python или no-code Ultralytics HUB, интегрировать YOLO11 в существующие рабочие процессы легко.

Link to this sectionБудущее моделей YOLO и обнаружения объектов#

Влияние передового обнаружения объектов на приложения реального времени и периферийный ИИ уже ощущается во многих отраслях. Поскольку такие секторы, как нефтегазовая промышленность, здравоохранение и розничная торговля, все больше полагаются на ИИ, спрос на быстрое и точное обнаружение объектов продолжает расти. YOLO11 стремится удовлетворить этот запрос, обеспечивая высокопроизводительное обнаружение даже на устройствах с ограниченной вычислительной мощностью.

По мере развития периферийного ИИ (Edge AI) модели обнаружения объектов, такие как YOLO11, вероятно, станут еще более важными для принятия решений в реальном времени в условиях, где скорость и точность критически важны. Благодаря постоянному улучшению дизайна и адаптируемости, будущее обнаружения объектов обещает принести еще больше инноваций в самых разных приложениях.

Link to this sectionОсновные выводы#

Обнаружение объектов проделало долгий путь, эволюционировав от простых методов до передовых техник глубокого обучения, которые мы видим сегодня. Модели YOLO были в центре этого прогресса, обеспечивая более быстрое и точное обнаружение в реальном времени для различных отраслей. YOLO11 опирается на это наследие, повышая эффективность, снижая вычислительные затраты и улучшая точность, что делает её надежным выбором для широкого спектра приложений реального времени. С учетом постоянных достижений в области ИИ и компьютерного зрения будущее обнаружения объектов выглядит ярким, открывая возможности для еще больших улучшений в скорости, точности и адаптивности.

Любопытно узнать об ИИ? Оставайся на связи с нашим сообществом, чтобы продолжать учиться! Загляни в наш репозиторий GitHub, чтобы узнать, как мы используем ИИ для создания инновационных решений в таких отраслях, как производство и здравоохранение. 🚀

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения