Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

История моделей зрения

Изучи историю, достижения, вызовы и будущие направления моделей зрения.

МОМостафа Ибрагим
5 min read
История моделей зрения

Link to this sectionЧто такое компьютерное зрение#

Представь, что ты заходишь в магазин, где камера распознает твое лицо, анализирует настроение и предлагает товары, соответствующие твоим предпочтениям — и все это в реальном времени. Это не научная фантастика, а реальность, ставшая возможной благодаря современным моделям зрения. Согласно отчету Fortune Business Insight, объем мирового рынка компьютерного зрения в 2023 году оценивался в 20,31 млрд долларов США и, по прогнозам, вырастет с 25,41 млрд долларов США в 2024 году до 175,72 млрд долларов США к 2032 году, что отражает стремительный прогресс и растущее внедрение этой технологии в различных отраслях.

Область компьютерного зрения позволяет компьютерам обнаруживать, идентифицировать и анализировать объекты на изображениях. Как и другие области, связанные с ИИ, компьютерное зрение быстро развивалось на протяжении последних десятилетий, достигнув значительных успехов.

История компьютерного зрения обширна. На ранних этапах модели компьютерного зрения были способны обнаруживать лишь простые формы и края, зачастую ограничиваясь базовыми задачами, такими как распознавание геометрических фигур или различение светлых и темных областей. Однако современные модели могут выполнять сложные задачи, такие как детекция объектов в реальном времени, распознавание лиц и даже интерпретация эмоций по выражениям лица с исключительной точностью и эффективностью. Этот колоссальный прогресс подчеркивает невероятные достижения в вычислительной мощности, алгоритмической сложности и доступности огромных объемов данных для обучения.

В этой статье мы рассмотрим ключевые вехи в развитии компьютерного зрения. Мы совершим путешествие к его истокам, углубимся в трансформационное влияние сверточных нейронных сетей (CNN) и изучим значительные достижения, которые последовали за ними.

Link to this sectionРанние истоки компьютерного зрения#

Как и в других областях ИИ, раннее развитие компьютерного зрения началось с фундаментальных исследований и теоретических работ. Важной вехой стала новаторская работа Лоуренса Г. Робертса по распознаванию 3D-объектов, задокументированная в его диссертации "Машинное восприятие трехмерных тел" в начале 1960-х годов. Его вклад заложил основу для будущих достижений в этой области.

Link to this sectionПервые алгоритмы — обнаружение границ#

Ранние исследования в области компьютерного зрения фокусировались на методах обработки изображений, таких как обнаружение границ и извлечение признаков. Алгоритмы, такие как оператор Собеля, разработанный в конце 1960-х годов, были одними из первых, кто обнаруживал границы путем вычисления градиента интенсивности изображения.

Изображение, демонстрирующее обнаружение границ

Рис. 1. Изображение, демонстрирующее обнаружение границ, где на левой стороне показан исходный объект, а на правой — версия с выделенными границами.

Методы, такие как детекторы границ Собеля и Кэнни, сыграли решающую роль в идентификации границ на изображениях, что необходимо для распознавания объектов и понимания сцен.

Link to this sectionМашинное обучение и компьютерное зрение#

Link to this sectionРаспознавание образов#

В 1970-х годах распознавание образов стало ключевым направлением компьютерного зрения. Исследователи разработали методы распознавания фигур, текстур и объектов на изображениях, что открыло путь для более сложных задач зрения.

Распознавание образов

Рис. 2. Распознавание образов.

Один из ранних методов распознавания образов включал сопоставление с шаблоном, при котором изображение сравнивается с набором шаблонов для поиска наилучшего соответствия. Этот подход был ограничен из-за чувствительности к изменениям масштаба, поворотам и шуму.

Сопоставление шаблона на изображении

Рис. 3. Шаблон слева, найденный на изображении справа.

Ранние системы компьютерного зрения были ограничены недостаточной вычислительной мощностью того времени. Компьютеры в 1960-х и 1970-х годах были громоздкими, дорогими и обладали ограниченными возможностями обработки.

Link to this sectionИзменяя правила игры с помощью глубокого обучения#

Link to this sectionГлубокое обучение и сверточные нейронные сети#

Глубокое обучение и сверточные нейронные сети (CNN) ознаменовали собой поворотный момент в области компьютерного зрения. Эти достижения радикально изменили то, как компьютеры интерпретируют и анализируют визуальные данные, открыв возможности для широкого спектра приложений, которые ранее считались невозможными.

Link to this sectionКак работают CNN?#

Архитектура сверточной нейронной сети (CNN)

Рис. 4. Архитектура сверточной нейронной сети (CNN).

  1. Сверточные слои: CNN используют сверточные слои — тип моделей глубокого обучения, предназначенных для обработки структурированных данных, таких как изображения или последовательности, путем автоматического изучения иерархических паттернов для сканирования изображения с помощью фильтров или ядер. Эти фильтры обнаруживают различные признаки, такие как края, текстуры и цвета, скользя по изображению и вычисляя скалярные произведения. Каждый фильтр активирует определенные паттерны на изображении, позволяя модели изучать иерархические признаки.
  2. Функции активации: После свертки применяются функции активации, такие как ReLU (Rectified Linear Unit) — популярная функция активации в глубоком обучении, которая выводит входные данные напрямую, если они положительны, и ноль в противном случае, помогая нейронным сетям эффективно изучать нелинейные зависимости в данных. Это помогает сети изучать сложные паттерны и представления.
  3. Слои пулинга (Pooling Layers): Слои пулинга выполняют операцию понижающей дискретизации, которая уменьшает размерность карты признаков, помогая извлекать наиболее важные признаки при одновременном снижении вычислительных затрат и переобучения.
  4. Полносвязные слои: Финальные слои CNN — это полносвязные слои, которые интерпретируют признаки, извлеченные сверточными слоями и слоями пулинга, для выработки предсказаний. Эти слои аналогичны тем, что используются в традиционных нейронных сетях.

Link to this sectionЭволюция моделей компьютерного зрения на основе CNN#

Путь моделей зрения был долгим, и среди них можно выделить наиболее примечательные:

  • LeNet (1989): LeNet была одной из самых ранних архитектур CNN, используемой преимущественно для распознавания цифр в рукописных чеках. Ее успех заложил основу для более сложных CNN, доказав потенциал глубокого обучения в обработке изображений.

  • AlexNet (2012): AlexNet значительно превзошла существующие модели в конкурсе ImageNet, продемонстрировав мощь глубокого обучения. Эта модель использовала активацию ReLU, dropout и аугментацию данных, установив новые стандарты в классификации изображений и вызвав широкий интерес к CNN.

  • VGGNet (2014): Используя более мелкие сверточные фильтры (3x3), VGGNet достигла впечатляющих результатов в задачах классификации изображений, подтвердив важность глубины сети для достижения более высокой точности.

  • ResNet (2015): ResNet решила проблему деградации в глубоких сетях путем внедрения остаточного обучения (residual learning). Это новшество позволило обучать гораздо более глубокие сети, что привело к достижению передовых показателей в различных задачах компьютерного зрения.

  • YOLO (You Only Look Once): YOLO произвела революцию в детекции объектов, сведя ее к единой задаче регрессии, напрямую предсказывая bounding boxes и вероятности классов по полным изображениям за один проход. Этот подход позволил осуществлять детекцию объектов в реальном времени с беспрецедентной скоростью и точностью, что сделало его пригодным для задач, требующих мгновенной обработки, таких как автономное вождение и видеонаблюдение.

Link to this sectionПриложения компьютерного зрения#

Link to this sectionЗдравоохранение#

Применений компьютерного зрения множество. Например, такие модели зрения, как Ultralytics YOLOv8, используются в медицинской визуализации для обнаружения таких заболеваний, как рак и диабетическая ретинопатия. Они анализируют рентгеновские снимки, МРТ и КТ с высокой точностью, выявляя аномалии на ранних стадиях. Эта способность к ранней диагностике позволяет своевременно проводить лечение и улучшать результаты для пациентов.

Обнаружение опухоли головного мозга с помощью Ultralytics YOLOv8

Рис. 5. Обнаружение опухоли головного мозга с помощью Ultralytics YOLOv8.

Link to this sectionОхрана окружающей среды#

Модели компьютерного зрения помогают отслеживать и защищать исчезающие виды животных, анализируя изображения и видео из их среды обитания. Они идентифицируют и отслеживают поведение животных, предоставляя данные об их популяции и перемещениях. Эта технология обосновывает стратегии охраны природы и политические решения по защите таких видов, как тигры и слоны.

С помощью ИИ в компьютерном зрении можно отслеживать другие экологические угрозы, такие как лесные пожары и вырубка лесов, обеспечивая быстрое реагирование местных властей.

Спутниковый снимок лесного пожара

Рис. 6. Спутниковый снимок лесного пожара.

Link to this sectionВызовы и будущие направления#

Несмотря на уже достигнутые значительные успехи, из-за их чрезвычайной сложности и высоких требований к разработке, модели зрения сталкиваются с многочисленными вызовами, требующими дальнейших исследований и будущих улучшений.

Link to this sectionИнтерпретируемость и объяснимость#

Модели зрения, особенно модели глубокого обучения, часто воспринимаются как "черные ящики" с ограниченной прозрачностью. Это связано с тем, что такие модели невероятно сложны. Отсутствие интерпретируемости препятствует доверию и подотчетности, особенно в критически важных областях, например, в здравоохранении.

Link to this sectionВычислительные требования#

Обучение и развертывание современных моделей ИИ требуют значительных вычислительных ресурсов. Это особенно актуально для моделей зрения, которые часто требуют обработки больших объемов данных изображений и видео. Изображения и видео высокого разрешения, являясь одними из самых ресурсоемких обучающих входных данных, увеличивают вычислительную нагрузку. Например, одно изображение HD может занимать несколько мегабайт памяти, делая процесс обучения ресурсоемким и длительным.

Это требует мощного оборудования и оптимизированных алгоритмов компьютерного зрения для обработки огромных массивов данных и сложных вычислений, вовлеченных в разработку эффективных моделей зрения. Исследования в области более эффективных архитектур, сжатия моделей и аппаратных ускорителей, таких как GPU и TPU, являются ключевыми направлениями, которые продвинут будущее моделей зрения.

Эти улучшения направлены на снижение вычислительных требований и повышение эффективности обработки. Более того, использование передовых предобученных моделей, таких как YOLOv8, может значительно сократить необходимость в длительном обучении, упрощая процесс разработки и повышая эффективность.

Link to this sectionПостоянно меняющийся ландшафт#

Сегодня области применения моделей зрения обширны: от здравоохранения, например, обнаружения опухолей, до повседневных задач, таких как мониторинг дорожного движения. Эти передовые модели принесли инновации в бесчисленное количество отраслей, обеспечив повышенную точность, эффективность и возможности, которые раньше казались невообразимыми.

По мере того как технология продолжает развиваться, потенциал моделей зрения для внедрения инноваций и улучшения различных аспектов жизни и промышленности остается безграничным. Эта непрерывная эволюция подчеркивает важность дальнейших исследований и разработок в области компьютерного зрения.

Интересуешься будущим ИИ в области зрения? Для получения дополнительной информации о последних достижениях изучи документацию Ultralytics, а также ознакомься с проектами на GitHub Ultralytics и GitHub YOLOv8. Кроме того, для получения сведений о применении ИИ в различных отраслях будут особенно полезны страницы решений по беспилотным автомобилям и производству.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения