Глоссарий

Понимание видео

Узнайте, как Video Understanding анализирует временную динамику для интерпретации действий. Научитесь реализовывать отслеживание в реальном времени с помощью Ultralytics для продвинутого искусственного интеллекта.

Понимание видео — это сложная отрасль компьютерного зрения (CV), направленная на то, чтобы машины могли воспринимать, анализировать и интерпретировать визуальные данные во времени. В отличие от стандартного распознавания изображений, которое обрабатывает статические снимки изолированно, понимание видео включает в себя анализ последовательностей кадров для понимания временной динамики, контекста и причинно-следственных связей. Обрабатывая «четвертое измерение» времени, системы искусственного интеллекта могут выйти за рамки простого распознавания объектов и перейти к пониманию действий, событий и сюжета, разворачивающегося в кадре. Эта возможность необходима для создания интеллектуальных систем, способных безопасно и эффективно взаимодействовать в динамичной реальной среде.

Основные компоненты видеоанализа

Для успешной интерпретации видеоконтента модели должны синтезировать два основных типа информации: пространственные характеристики (что находится в кадре) и временные характеристики (как вещи меняются). Это требует сложной архитектуры, которая часто сочетает в себе несколько стратегий нейронных сетей.

Сверточные нейронные сети (CNN): Эти сети обычно служат пространственной основой, извлекая визуальные характеристики, такие как формы, текстуры и объекты из отдельных кадров.
Рекуррентные нейронные сети (RNN): Архитектуры, такие как блоки с длинной краткосрочной памятью (LSTM) , используются для обработки последовательности признаков, извлеченных CNN, что позволяет модели «запоминать» прошлые кадры и предсказывать будущие состояния.
Оптический поток: Многие системы используют алгоритмы оптического потока для явного вычисления векторов движения пикселей между кадрами, предоставляя важные данные о скорости и направлении движения независимо от внешнего вида объекта.
Vision Transformers (ViTs): Современные подходы все чаще полагаются на механизмы внимания, чтобы оценить важность различных кадров или областей, позволяя модели сосредоточиться на ключевых событиях в длинном видеопотоке .

Применение в реальном мире

Способность понимать временной контекст открыла путь к продвинутой автоматизации в различных отраслях.

Автономные транспортные средства: Автомобили с автономным управлением используют понимание видео для прогнозирования траекторий движения пешеходов и других транспортных средств. Анализируя модели движения, система может предвидеть потенциальные столкновения и выполнять сложные маневры
Распознавание действий: в спортивной аналитике и мониторинге здравоохранения системы идентифицируют конкретные действия человека, такие как забивание гола игроком или падение пациента, для предоставления автоматических аналитических данных или оповещений.
Умная розничная торговля: магазины используют эти системы для обнаружения аномалий с целью выявления краж или анализа моделей движения покупателей для оптимизации планировки.
Модерация контента: крупные медиаплатформы используют понимание видео для автоматического отметки неуместного контента или классификации загрузок по темам, что значительно снижает необходимость ручной проверки.

Различение смежных понятий

Хотя понимание видео охватывает широкий спектр возможностей, оно отличается от нескольких связанных терминов в сфере искусственного интеллекта.

Понимание видео против отслеживания объектов: отслеживание сосредоточено на поддержании уникальной идентичности экземпляра (например, конкретного автомобиля) по мере его перемещения по кадрам. Понимание видео интерпретирует поведение этого автомобиля, например, распознает, что он «паркуется» или «превышает скорость».
Понимание видео против оценки позы: Оценка позы определяет геометрическую конфигурацию суставов тела в одном кадре или последовательности кадров. Понимание видео использует эти данные для вывода значения движения, например «помахать рукой в знак приветствия».
Понимание видео против мультимодального ИИ: в то время как понимание видео сосредоточено на визуальных последовательностях, мультимодальный ИИ объединяет видео с аудио, текстом или данными датчиков для более целостного анализа.

Реализация видеоанализа с помощью YOLO26

Основополагающим шагом в понимании видео является надежное обнаружение и отслеживание объектов для установления временной непрерывности. Модель Ultralytics обеспечивает передовую производительность для отслеживания в реальном времени, что служит предшественником анализа поведения более высокого уровня.

Следующий пример демонстрирует, как выполнить отслеживание объектов на видеоисточнике с помощью Python :

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

Проблемы и будущие тенденции

Несмотря на значительный прогресс, понимание видео по-прежнему требует больших вычислительных затрат из-за огромного объема данных в потоках видео высокой четкости. Расчет FLOPS для 3D- сверток или временных трансформаторов может быть непосильной задачей для периферийных устройств искусственного интеллекта. Для решения этой проблемы исследователи разрабатывают эффективные архитектуры, такие как модуль временного сдвига (TSM), и используют инструменты оптимизации, такие как NVIDIA TensorRT , чтобы обеспечить вывод в реальном времени.

Будущие разработки движутся в направлении сложного мультимодального обучения, где модели интегрируют аудиосигналы (например, сирену) и текстовый контекст для достижения более глубокого понимания. Такие платформы, как Ultralytics , также развиваются, чтобы оптимизировать аннотирование и управление сложными наборами данных видео, упрощая обучение пользовательских моделей для конкретных временных задач.

Понимание видео

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Основные компоненты видеоанализа

Применение в реальном мире

Различение смежных понятий

Реализация видеоанализа с помощью YOLO26

Проблемы и будущие тенденции

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics