Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Компьютерное зрение (CV)

Раскройте потенциал ИИ с помощью компьютерного зрения! Узнайте о его роли в обнаружении объектов, здравоохранении, самоуправляемых автомобилях и многом другом. Узнайте больше прямо сейчас!

Компьютерное зрение (CV) — это область искусственного интеллекта (ИИ), которая обучает компьютеры интерпретировать и понимать визуальный мир. Используя цифровые изображения с камер, видео и модели глубокого обучения, машины могут точно идентифицировать и классифицировать объекты, а затем реагировать на то, что они «видят». Цель состоит в том, чтобы позволить компьютерам воспроизводить человеческое зрение, задача, которая включает в себя обработку и анализ огромных объемов визуальных данных, чтобы понять их. Как область, она быстро росла благодаря достижениям в глубоком обучении и доступности больших наборов данных.

Как работает компьютерное зрение

Компьютерное зрение работает путем применения алгоритмов машинного обучения (ML) к визуальным данным. Вместо того чтобы быть явно запрограммированной на распознавание объекта, модель CV учится идентифицировать закономерности на основе тысяч или миллионов помеченных изображений. Например, чтобы обучить модель распознаванию кошек, ей будут переданы бесчисленные изображения кошек, пока она не научится самостоятельно различать признаки кошки.

Современное компьютерное зрение (CV) в значительной степени опирается на модели глубокого обучения, в частности на свёрточные нейронные сети (CNN). CNN — это тип нейронной сети, который очень эффективен при обработке изображений. Он работает путем применения фильтров (или ядер) к изображению для создания карт признаков, которые выделяют важные характеристики, такие как края, текстуры и формы. Эти сети лежат в основе многих распространенных задач компьютерного зрения, позволяя машинам анализировать визуальную информацию с возрастающей точностью.

Компьютерное зрение и обработка изображений

Компьютерное зрение и обработка изображений тесно связаны, но это не одно и то же. Обработка изображений является подмножеством CV и фокусируется на манипулировании цифровыми изображениями для их улучшения или извлечения полезной информации. Она включает в себя такие операции, как повышение резкости, размытие или фильтрация изображения. В отличие от этого, компьютерное зрение идет на шаг дальше, стремясь интерпретировать и понимать содержание изображения. Например, обработка изображений может использоваться для улучшения качества фотографии, а компьютерное зрение будет использоваться для идентификации людей, объектов и сцен на этой фотографии. Вы можете узнать больше о различиях в этом подробном обзоре цифровой обработки изображений.

Основные задачи в компьютерном зрении

Компьютерное зрение охватывает несколько ключевых задач, которые позволяют машинам анализировать и интерпретировать визуальные данные:

  • Детекция объектов: Это включает в себя идентификацию и определение местоположения объектов на изображении или видео. Модель, такая как Ultralytics YOLO, рисует ограничивающую рамку вокруг каждого обнаруженного объекта и присваивает ему метку класса.
  • Классификация изображений: Эта задача включает в себя присвоение одного лейбла всему изображению из предопределенного набора категорий. Например, классификация изображения как содержащего «кошку» или «собаку».
  • Сегментация изображений: В отличие от обнаружения объектов, сегментация классифицирует каждый пиксель на изображении. Она обеспечивает гораздо более детальное понимание содержимого изображения. Подзадачи включают сегментацию экземпляров и семантическую сегментацию.
  • Оценка позы: Используется для определения положения и ориентации человека или объекта в пространстве. Широко используется в робототехнике, дополненной реальности и анализе деятельности человека.
  • Отслеживание объектов: Эта задача включает в себя отслеживание одного или нескольких объектов с течением времени в видеопоследовательности. Это имеет решающее значение для таких приложений, как наблюдение и автономная навигация.

Применение в реальном мире

Приложения компьютерного зрения все шире используются в различных секторах:

Инструменты и фреймворки

Разработка и развертывание моделей компьютерного зрения упрощается различными инструментами и фреймворками. Библиотеки, такие как PyTorch (посетите официальный сайт PyTorch) и TensorFlow (посетите официальный сайт TensorFlow), являются основой для создания моделей. Библиотеки с открытым исходным кодом, такие как OpenCV, предоставляют обширную коллекцию функций для компьютерного зрения в реальном времени.

Платформы, такие как Ultralytics HUB, оптимизируют весь жизненный цикл проекта компьютерного зрения, от управления наборами данных и обучения пользовательских моделей до развертывания. Использование стандартизированных форматов, таких как ONNX, также помогает обеспечить совместимость между различными фреймворками. По мере развития этих технологий они будут продолжать стимулировать инновации в различных отраслях.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена