Yolo 비전 선전
선전
지금 참여하기
용어집

비디오 이해

비디오 이해 기술이 시간적 역학을 분석하여 동작을 해석하는 방식을 살펴보세요. 고급 AI를 위한 Ultralytics 활용한 실시간 추적 구현 방법을 배워보세요.

비디오 이해는 컴퓨터 비전(CV) 의 정교한 분야로, 기계가 시각 데이터를 시간에 걸쳐 인지하고 분석하며 해석할 수 있도록 하는 데 중점을 둡니다. 정적 스냅샷을 개별적으로 처리하는 표준 이미지 인식과 달리, 비디오 이해는 시간적 역학, 맥락 및 인과 관계를 파악하기 위해 프레임 시퀀스를 분석하는 것을 포함합니다. 시간이라는 '4차원'을 처리함으로써 AI 시스템은 단순한 객체 식별을 넘어 행동, 사건, 그리고 장면 내에서 전개되는 서사를 이해할 수 있습니다. 이러한 능력은 동적인 현실 세계 환경에서 안전하고 효과적으로 상호작용할 수 있는 지능형 시스템을 구축하는 데 필수적입니다.

영상 분석의 핵심 구성 요소

동영상 콘텐츠를 성공적으로 해석하려면 모델은 두 가지 주요 정보 유형을 종합해야 합니다: 공간적 특징(프레임 내 존재하는 대상)과 시간적 특징(사물의 변화 방식). 이는 종종 여러 신경망 전략을 결합하는 복잡한 아키텍처를 요구합니다.

  • 컨볼루션 신경망(CNN): 이러한 네트워크는 일반적으로 공간적 백본 역할을 수행하며 개별 프레임에서 형태, 질감, 물체와 같은 시각적 특징을 추출합니다.
  • 순환 신경망(RNN): CNN이 추출한 특징 시퀀스를 처리하기 위해 장단기 기억(LSTM) 유닛과 같은 아키텍처가 사용되며, 이를 통해 모델은 과거 프레임을 "기억"하고 미래 상태를 예측할 수 있습니다.
  • 광학 흐름: 많은 시스템이 프레임 간 픽셀의 운동 벡터를 명시적으로 계산하기 위해 광학 흐름 알고리즘을 활용하며, 이는 물체의 외관과 무관하게 속도와 방향에 관한 핵심 데이터를 제공합니다.
  • 비전 트랜스포머(ViTs): 현대적인 접근법은 점점 더 어텐션 메커니즘에 의존하여 서로 다른 프레임이나 영역의 중요도를 가중치 부여함으로써, 모델이 긴 영상 스트림에서 핵심 이벤트에 집중할 수 있도록 합니다.

실제 애플리케이션

시간적 맥락을 이해하는 능력은 다양한 산업 분야에서 첨단 자동화의 문을 열었다.

  • 자율주행 차량: 자율주행차는 영상 이해 기술을 활용해 보행자 및 다른 차량의 궤적을 예측합니다. 움직임 패턴을 분석함으로써 시스템은 잠재적 충돌을 예측하고 복잡한 조작을 실행할 수 있습니다.
  • 동작 인식: 스포츠 분석 및 건강 모니터링 분야에서 시스템은 특정 인간 활동—예를 들어 선수가 골을 넣거나 환자가 넘어지는 상황—을 식별하여 자동화된 인사이트나 경보를 제공합니다.
  • 스마트 리테일: 매장들은 이러한 시스템을 활용하여 도난을 식별하기 위한 이상 탐지나 더 나은 레이아웃 최적화를 위한 고객 동선 패턴 분석을 수행합니다.
  • 콘텐츠 검토: 대형 미디어 플랫폼은 영상 이해 기술을 활용해 부적절한 콘텐츠를 자동으로 표시하거나 업로드된 콘텐츠를 주제별로 분류함으로써 수동 검토의 필요성을 크게 줄입니다.

관련 개념 구분하기

비디오 이해는 광범위한 역량을 포괄하지만, AI 분야에서 여러 관련 용어와는 구별됩니다.

  • 영상 이해 vs. 객체 추적추적은 특정 차량과 같은 개체가 프레임 간 이동할 때 고유한 정체성을 유지하는 데 중점을 둡니다. 영상 이해는 해당 차량의 행동을 해석하여 "주차 중" 또는 "과속 중"임을 인식하는 등의 작업을 수행합니다.
  • 영상 이해 vs. 자세 추정: 자세 추정(Pose estimation)은 단일 프레임 또는 시퀀스에서 신체 관절의 기하학적 배열을 감지합니다. 동영상 이해(Video understanding)는 이 데이터를 활용하여 "인사하며 손을 흔드는" 등의 동작 의미를 추론합니다.
  • 영상 이해 vs. 다중 모달 AI: 영상 이해는 시각적 시퀀스에 집중하는 반면, 다중 모달 AI는 영상에 오디오, 텍스트 또는 센서 데이터를 결합하여 보다 종합적인 분석을 수행합니다.

YOLO26을 활용한 영상 분석 구현

영상 이해의 기초 단계는 시간적 연속성을 확립하기 위해 객체를 견고하게 탐지하고 추적하는 것이다. Ultralytics 모델은 실시간 추적에 있어 최첨단 성능을 제공하며, 이는 고차원적 행동 분석의 선행 단계 역할을 한다.

다음 예제는 Python 사용하여 비디오 소스에서 객체 추적을 수행하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

도전 과제와 미래 트렌드

비록 상당한 진전이 있었음에도 불구하고, 비디오 이해는 고해상도 비디오 스트림의 방대한 데이터 양으로 인해 여전히 계산 비용이 많이 듭니다. 3D 컨볼루션이나 시간적 트랜스포머를 위한 FLOPS 계산은 에지 AI 장치에 부담스러울 수 있습니다. 이를 해결하기 위해 연구자들은 시간 이동 모듈(TSM) 과 같은 효율적인 아키텍처를 개발하고 NVIDIA CUDA와 같은 최적화 도구를 활용하고 있습니다. NVIDIA TensorRT 과 같은 최적화 도구를 활용하여 실시간 추론을 가능하게 하고 있습니다.

향후 발전 방향은 정교한 다중 모드 학습으로 나아가고 있으며, 모델은 오디오 신호(예: 사이렌)와 텍스트적 맥락을 통합하여 더 깊은 이해를 달성합니다. Ultralytics 같은 플랫폼들도 복잡한 영상 데이터셋의 주석 작업 및 관리를 간소화하기 위해 진화하고 있어, 특정 시간 기반 작업에 맞춤형 모델을 훈련시키는 것이 더 쉬워지고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기