Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Понимание видео

Изучите понимание видео (Video Understanding) — передовой ИИ, который интерпретирует действия и события в видео. Узнайте, как он работает и поддерживает приложения в автономном вождении и интеллектуальной безопасности.

Понимание видео — это передовая область искусственного интеллекта (AI) и компьютерного зрения (CV), которая позволяет машинам автоматически интерпретировать и анализировать содержание видео. В отличие от обработки статических изображений, понимание видео включает в себя анализ последовательностей кадров для распознавания не только объектов, но и их действий, взаимодействий и временного контекста событий. Оно направлено на достижение целостного понимания видеоданных, подобно тому, как люди воспринимают и интерпретируют динамические сцены. Эта возможность является основополагающей для широкого спектра приложений, от автономных транспортных средств до автоматизированного наблюдения и модерации контента.

Как работает понимание видео

Системы понимания видео обычно объединяют несколько методов искусственного интеллекта для обработки и интерпретации визуальной и временной информации. Процесс начинается с базовых задач компьютерного зрения, выполняемых на отдельных видеокадрах. Эти задачи часто включают:

  • Детекция объектов: Идентификация и определение местоположения объектов в каждом кадре. Модели, такие как Ultralytics YOLO, очень эффективны для этого начального этапа.
  • Отслеживание объектов: Отслеживание идентифицированных объектов в последовательности кадров для понимания их движения и сохранения.
  • Оценка позы: Распознавание позы и ключевых точек человеческого тела, что имеет решающее значение для анализа действий человека.
  • Сегментация изображений: Классификация каждого пикселя в кадре для понимания точной формы и границ объектов.

После извлечения этих пространственных признаков система анализирует их во времени с использованием моделей, предназначенных для последовательных данных, таких как рекуррентные нейронные сети (RNN) или, чаще в современных архитектурах, сети Transformer. Эти модели выявляют закономерности в том, как изменяются объекты и сцены, что позволяет выполнять задачи более высокого уровня, такие как распознавание действий, обнаружение событий и суммирование видео. Некоторые продвинутые архитектуры, такие как 3D-сверточные нейронные сети, предназначены для одновременного изучения пространственных и временных признаков. Весь процесс управляется в рамках целостной структуры Machine Learning Operations (MLOps) для обеспечения эффективного обучения, развертывания и мониторинга.

Понимание видео в сравнении со смежными концепциями

Важно отличать понимание видео от других связанных задач компьютерного зрения.

  • Понимание видео в сравнении с обнаружением/отслеживанием объектов: Обнаружение объектов определяет, что находится в одном кадре, а отслеживание объектов отслеживает эти объекты в нескольких кадрах. Понимание видео использует результаты этих задач для интерпретации почему — действий, событий и взаимодействий, происходящих с течением времени. Например, отслеживание человека — это отслеживание объектов; определение того, что человек открывает дверь, — это понимание видео.
  • Понимание видео в сравнении с распознаванием изображений: Распознавание изображений фокусируется на классификации объектов или сцен в пределах одного статического изображения. Понимание видео расширяет эту концепцию во временное измерение, анализируя последовательность изображений для понимания динамических событий. Это требует понимания не только "что", но и "как" и "когда".
  • Понимание видео в сравнении с преобразованием текста в видео: Преобразование текста в видео — это задача генеративного ИИ, которая создает видеоконтент из текстовых описаний. И наоборот, понимание видео — это аналитическая задача, которая извлекает смысл и генерирует описания или структурированные данные из существующего видеоконтента.

Применение в реальном мире

Понимание видео лежит в основе растущего числа инновационных решений в различных отраслях.

  1. Интеллектуальное видеонаблюдение и безопасность: В приложениях безопасности системы понимания видео могут автоматически обнаруживать необычные действия. Например, система может отслеживать потоки видеонаблюдения в больнице, чтобы определить, когда пациент упал, или анализировать трафик в розничном магазине для выявления краж. Эти системы выходят за рамки простого обнаружения движения, понимая контекст действий, значительно снижая количество ложных срабатываний и обеспечивая более быстрое реагирование. Вы можете узнать больше, прочитав о улучшении интеллектуального видеонаблюдения с помощью Ultralytics YOLO11.
  2. Автономное вождение: Для самоуправляемых автомобилей понимание дороги имеет решающее значение. Модели понимания видео анализируют потоки с камер, чтобы предсказать намерения пешеходов, интерпретировать поведение других транспортных средств и распознавать дорожные сигналы в сложных сценариях. Этот глубокий уровень понимания необходим для безопасной и надежной навигации. Эта область часто опирается на обширные исследования в области распознавания действий для автономных систем.

Другие приложения включают модерацию контента на платформах социальных сетей путем пометки неприемлемых видео, спортивную аналитику путем обобщения основных моментов игры и создание интерактивных развлечений. Платформы, такие как Ultralytics HUB, предоставляют инструменты для обучения пользовательских моделей для этих специализированных задач, в то время как интеграция с такими инструментами, как TensorRT, оптимизирует их для вывода в реальном времени.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена