YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

비디오 이해

비디오 이해, 즉 비디오에서 행동과 이벤트를 해석하는 고급 AI를 살펴보세요. 작동 방식과 자율 주행 및 스마트 보안 분야에서 어떻게 애플리케이션을 강화하는지 알아보세요.

비디오 이해는 기계가 비디오 콘텐츠를 자동으로 해석하고 분석할 수 있도록 하는 고급 인공 지능(AI)컴퓨터 비전(CV) 분야입니다. 정지 이미지 처리와 달리 비디오 이해는 프레임 시퀀스를 분석하여 객체뿐만 아니라 객체의 동작, 상호 작용 및 이벤트의 시간적 컨텍스트를 인식합니다. 이는 인간이 동적 장면을 인식하고 해석하는 방식과 매우 유사하게 비디오 데이터에 대한 전체적인 이해를 달성하는 것을 목표로 합니다. 이 기능은 자율 주행 차량에서 자동 감시 및 콘텐츠 조정에 이르기까지 광범위한 애플리케이션의 기본입니다.

비디오 이해 작동 원리

비디오 이해 시스템은 일반적으로 시각적 및 시간적 정보를 처리하고 해석하기 위해 여러 AI 기술을 통합합니다. 이 프로세스는 개별 비디오 프레임에서 수행되는 기본적인 컴퓨터 비전 작업으로 시작됩니다. 이러한 작업에는 다음이 포함되는 경우가 많습니다.

이러한 공간적 특징이 추출되면 시스템은 RNN(순환 신경망) 또는 최신 아키텍처에서 더 일반적으로 사용되는 Transformer 네트워크와 같이 순차적 데이터를 위해 설계된 모델을 사용하여 시간 경과에 따른 특징을 분석합니다. 이러한 모델은 객체와 장면이 변경되는 방식의 패턴을 식별하여 동작 인식, 이벤트 감지 및 비디오 요약과 같은 상위 수준 작업을 가능하게 합니다. 3D 컨볼루션 신경망과 같은 일부 고급 아키텍처는 공간적 및 시간적 특징을 동시에 학습하도록 설계되었습니다. 전체 프로세스는 효율적인 학습, 배포 및 모니터링을 보장하기 위해 응집력 있는 MLOps(Machine Learning Operations) 프레임워크 내에서 관리됩니다.

비디오 이해 vs. 관련 개념

비디오 이해를 다른 관련 컴퓨터 비전 작업과 구별하는 것이 중요합니다.

  • 비디오 이해 vs. 객체 탐지/추적: 객체 탐지는 단일 프레임에 무엇이 있는지 식별하고, 객체 추적은 여러 프레임에서 해당 객체를 추적합니다. 비디오 이해는 이러한 작업의 출력을 사용하여 이유—시간 경과에 따라 발생하는 작업, 이벤트 및 상호 작용을 해석합니다. 예를 들어, 사람을 추적하는 것은 객체 추적이고, 그 사람이 문을 열고 있다는 것을 식별하는 것은 비디오 이해입니다.
  • 비디오 이해 vs. 이미지 인식: 이미지 인식은 단일 정지 이미지 내에서 객체 또는 장면을 분류하는 데 중점을 둡니다. 비디오 이해는 이 개념을 시간 차원으로 확장하여 일련의 이미지를 분석하여 동적 이벤트를 파악합니다. '무엇'뿐만 아니라 '어떻게' 및 '언제'도 이해해야 합니다.
  • 비디오 이해 vs. 텍스트-비디오: 텍스트-비디오는 텍스트 설명에서 비디오 콘텐츠를 생성하는 생성형 AI 작업입니다. 반대로 비디오 이해는 기존 비디오 콘텐츠에서 의미를 추출하고 설명 또는 구조화된 데이터를 생성하는 분석 작업입니다.

실제 애플리케이션

비디오 이해는 다양한 산업 분야에서 점점 더 많은 혁신적인 솔루션에 동력을 제공합니다.

  1. 스마트 감시 및 보안: 보안 애플리케이션에서 비디오 이해 시스템은 비정상적인 활동을 자동으로 감지할 수 있습니다. 예를 들어, 시스템은 병원에서 감시 피드를 모니터링하여 환자가 넘어졌을 때를 식별하거나 소매점에서 교통 상황을 분석하여 도난을 감지할 수 있습니다. 이러한 시스템은 단순한 동작 감지를 넘어 행동의 맥락을 이해하여 오경보를 크게 줄이고 더 빠른 대응을 가능하게 합니다. Ultralytics YOLO11로 스마트 감시를 개선하는 방법에 대해 자세히 알아볼 수 있습니다.
  2. 자율 주행: 자율 주행차의 경우 도로를 이해하는 것이 매우 중요합니다. 비디오 이해 모델은 카메라의 피드를 분석하여 보행자의 의도를 예측하고, 다른 차량의 행동을 해석하고, 복잡한 시나리오에서 교통 신호를 인식합니다. 이러한 깊이 있는 이해는 안전하고 신뢰할 수 있는 내비게이션에 필수적입니다. 이 분야는 종종 자율 시스템을 위한 행동 인식에 대한 광범위한 연구에 의존합니다.

다른 응용 분야로는 부적절한 비디오를 식별하여 소셜 미디어 플랫폼의 콘텐츠를 조정하거나, 게임 하이라이트를 요약하여 스포츠 분석을 하거나, 엔터테인먼트 분야에서 인터랙티브 경험을 만드는 것 등이 있습니다. Ultralytics HUB와 같은 플랫폼은 이러한 특수 작업을 위해 맞춤형 모델을 훈련할 수 있는 도구를 제공하며, TensorRT와 같은 도구와의 통합은 실시간 추론을 위해 모델을 최적화합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.