Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Понимание видео

Изучите понимание видео (Video Understanding) — передовой ИИ, который интерпретирует действия и события в видео. Узнайте, как он работает и поддерживает приложения в автономном вождении и интеллектуальной безопасности.

Понимание видео - это быстро развивающаяся область в рамках компьютерного зрения (КВ) и искусственного интеллекта (ИИ), которая направленная на то, чтобы дать машинам возможность интерпретировать и анализировать визуальные данные с течением времени. В отличие от стандартного распознавания изображений, которое анализирует статичные снимки, видеопонимание обрабатывает последовательности кадров, чтобы понять временную динамику, контекст и причинно-следственные связи в сцене. Эта способность позволяет системам не только определять, какие объекты, но и делать выводы о происходящем, предсказывать будущие действия и понимать "историю", стоящую за визуальным вводом. Такой целостный подход необходим для создания систем, которые взаимодействуют естественным образом с физическим миром, от автономных транспортных средств, ориентирующихся в дорожном движении, до умных помощников, следящих за безопасностью дома.

Основные механизмы видеоанализа

Техническая архитектура, лежащая в основе понимания видео, значительно сложнее, чем статическое обнаружения объектов. Чтобы эффективно обрабатывать видео, модели глубокого обучения должны одновременно обрабатывать пространственные характеристики (внешний вид объектов) и временные характеристики (как эти объекты перемещаются и изменяются).

В современных системах часто используется многоступенчатый конвейер:

  1. Пространственный анализ: Магистральная сеть, часто Конволюционная нейронная сеть (CNN) или трансформатор зрения (ViT), извлекает визуальные характеристики из отдельных кадров.
  2. Временное моделирование: Эти пространственные характеристики агрегируются во времени с помощью таких архитектур, как Длительная кратковременная память (LSTM) сети или, все чаще, модели трансформеров Используя механизмы внимания, чтобы сосредоточиться на на соответствующих событиях на временной шкале.
  3. Распознавание действий: Модель классифицирует конкретные действия, такие как "бег", "падение" или "махание руками". "падение" или "махание руками", часто используя наборы данных, разработанные для распознавания действий.

Этот процесс часто поддерживается методы оптического потока для явного track векторов движения векторов движения между кадрами, что повышает способность модели различать паттерны движения. Достижения в области краевых вычислений позволяют выполнять эти интенсивные вычислительные выполнять локально на устройствах для в режиме реального времени.

Дифференциация ключевых понятий

Для того чтобы оценить сферу его применения, важно отличать понимание видео от смежных задач компьютерного зрения:

  • Видеопонимание против отслеживания объектов: В то время как отслеживание объектов фокусируется на сохранении идентичности конкретного объекта во всех кадрах (например, слежение за автомобилем), видеопонимание интерпретирует поведение этого объекта (например, автомобиль паркуется).
  • Понимание видео в сравнении с обнаружением аномалий: Обнаружение аномалий - это подмножество видео понимание видео, специально настроенное на выявление необычных событий, часто используемое в интеллектуальном видеонаблюдении.
  • Видеопонимание против генеративного ИИ: пока генеративный ИИ и модели преобразования текста в видео создают новый контент, а понимание видео понимание - это аналитический процесс, который извлекает структурированные сведения из существующего материала.

Применение в реальном мире

Способность воспринимать динамичные сцены является движущей силой инноваций во всех отраслях промышленности:

  • Здравоохранение и наблюдение за пациентами: Больницы используют видеопонимание для мониторинга движения пациентов перемещения пациентов без постоянного контроля со стороны человека. Используя оценки позы, системы могут detect падения или анализировать прогресс в реабилитации походки. Подробнее о ИИ в здравоохранении, чтобы узнать, как эти технологии улучшают состояние пациентов.
  • Спортивная аналитика: Тренеры и телеведущие используют эти системы для анализа стратегий игроков и динамики игры стратегии игроков и динамики игры в автоматическом режиме. Отслеживая ключевые моменты и выявление сложных моментов, команды получают конкурентное преимущество благодаря анализу данных. Ознакомьтесь с нашей информацией о ИИ в спортивной аналитике.
  • Розничная аналитика: Магазины анализируют посещаемость и взаимодействие покупателей с товарами, чтобы оптимизировать выкладки. Это включает сегментацию экземпляров, чтобы различать отдельных покупателей в переполненных проходах.

Реализация видеоанализа с помощью Ultralytics

Основополагающим шагом в понимании видео является надежное отслеживание объектов. Следующий пример демонстрирует, как реализовать отслеживание с помощью Ultralytics YOLO11 модели. Этот устанавливает временную непрерывность, необходимую для анализа более высокого уровня. В перспективе такие модели, как YOLO26, нацелены на дальнейшую интеграцию этих возможностей для более быстрой сквозной обработки видео.

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)

# Process results to extract tracking IDs and class names
for result in results:
    boxes = result.boxes.xywh.cpu()
    track_ids = result.boxes.id.int().cpu().tolist()
    print(f"Detected IDs in this frame: {track_ids}")

Проблемы и будущие направления

Несмотря на значительный прогресс, понимание видео сталкивается с такими проблемами, как высокие вычислительные затраты и сложность обработки окклюзии, когда объекты временно исчезают из поля зрения. Исследователи активно работают над эффективными архитектурами моделей для уменьшения задержки и самоподдерживающегося обучения для тренировки моделей на огромных объемах немаркированных видеоданных.

Такие инструменты, как NVIDIA TensorRT и ONNX часто используются для оптимизация этих тяжелых моделей для развертывания. По мере развития этой области мы можем ожидать более тесной интеграции мультимодального ИИ, сочетающего видео с аудио и текстом для еще более глубокого понимания.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас