Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Video Understanding

Изучи, как анализ видео (Video Understanding) исследует временную динамику для интерпретации действий. Научись внедрять отслеживание в реальном времени с помощью Ultralytics YOLO26 для передового ИИ.

Понимание видео — это сложная область computer vision (CV), направленная на то, чтобы позволить машинам воспринимать, анализировать и интерпретировать визуальные данные во времени. В отличие от стандартного image recognition, которое обрабатывает статические снимки изолированно, понимание видео включает анализ последовательностей кадров для понимания временной динамики, контекста и причинно-следственных связей. Обрабатывая «четвертое измерение» времени, системы ИИ могут выйти за рамки простого распознавания объектов к пониманию действий, событий и разворачивающегося в сцене повествования. Эта возможность важна для создания интеллектуальных систем, способных безопасно и эффективно взаимодействовать в динамичных реальных условиях.

Link to this sectionОсновные компоненты анализа видео#

Для успешной интерпретации видеоконтента модели должны синтезировать два основных типа информации: пространственные признаки (что находится в кадре) и временные признаки (как объекты меняются). Это требует сложной архитектуры, которая часто сочетает в себе несколько стратегий нейронных сетей.

  • Convolutional Neural Networks (CNNs): Эти сети обычно служат пространственным каркасом, извлекая визуальные признаки, такие как формы, текстуры и объекты из отдельных кадров.
  • Recurrent Neural Networks (RNNs): Архитектуры, такие как модули Long Short-Term Memory (LSTM), используются для обработки последовательности признаков, извлеченных CNN, что позволяет модели «запоминать» предыдущие кадры и предсказывать будущие состояния.
  • Optical Flow: Многие системы используют алгоритмы оптического потока для явного вычисления векторов движения пикселей между кадрами, предоставляя критически важные данные о скорости и направлении независимо от внешнего вида объекта.
  • Vision Transformers (ViTs): Современные подходы все чаще полагаются на attention mechanisms для взвешивания важности различных кадров или областей, что позволяет модели сосредоточиться на ключевых событиях в длинном видеопотоке.

Link to this sectionРеальные приложения#

Способность понимать временной контекст открыла двери для продвинутой автоматизации в различных отраслях.

  • Autonomous Vehicles: Самоуправляемые автомобили используют понимание видео для предсказания траекторий пешеходов и других транспортных средств. Анализируя модели движения, система может предугадать потенциальные столкновения и выполнить сложные маневры.
  • Action Recognition: В спортивной аналитике и healthcare monitoring системы распознают специфические действия человека — например, как игрок забивает гол или как пациент падает — чтобы предоставить автоматизированные инсайты или оповещения.
  • Smart Retail: Магазины используют эти системы для anomaly detection, чтобы выявлять кражи или анализировать модели трафика покупателей для оптимизации планировки магазина.
  • Модерация контента: Крупные медиаплатформы используют понимание видео для автоматической пометки нежелательного контента или классификации загрузок по темам, что значительно сокращает необходимость ручной проверки.

Link to this sectionРазграничение похожих концепций#

Хотя понимание видео охватывает широкий спектр возможностей, оно отличается от ряда смежных терминов в сфере ИИ.

  • Video Understanding vs. Object Tracking: Трекинг фокусируется на поддержании уникальной идентификации экземпляра (например, конкретного автомобиля) при его движении между кадрами. Понимание видео интерпретирует поведение этого автомобиля, например, распознает, что он «паркуется» или «превышает скорость».
  • Video Understanding vs. Pose Estimation: Оценка позы обнаруживает геометрическую конфигурацию суставов тела в одном кадре или последовательности. Понимание видео использует эти данные для вывода смысла движения, например, «машет рукой в знак приветствия».
  • Video Understanding vs. Multimodal AI: В то время как понимание видео фокусируется на визуальных последовательностях, мультимодальный ИИ объединяет видео с аудио, текстом или данными датчиков для более целостного анализа.

Link to this sectionРеализация анализа видео с помощью YOLO26#

Фундаментальным шагом в понимании видео является надежное обнаружение и отслеживание объектов для установления временной непрерывности. Модель Ultralytics YOLO26 обеспечивает передовую производительность для трекинга в реальном времени, что служит прекурсором для высокоуровневого анализа поведения.

Следующий пример демонстрирует, как выполнять трекинг объектов на видеоисточнике с использованием Python API:

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

Link to this sectionПроблемы и будущие тенденции#

Несмотря на значительный прогресс, понимание видео остается вычислительно затратным из-за огромного объема данных в видеопотоках высокого разрешения. Вычисление FLOPS для 3D-сверток или временных трансформеров может быть непосильным для устройств edge AI. Чтобы решить эту задачу, исследователи разрабатывают эффективные архитектуры, такие как Temporal Shift Module (TSM), и используют инструменты оптимизации, такие как NVIDIA TensorRT, для обеспечения real-time inference.

Будущие разработки движутся в сторону сложного multimodal learning, где модели интегрируют аудиосигналы (например, звук сирены) и текстовый контекст для достижения более глубокого понимания. Платформы, такие как Ultralytics Platform, также развиваются для оптимизации аннотирования и управления сложными видеодатасетами, упрощая обучение кастомных моделей для конкретных временных задач.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения