비디오 이해, 즉 비디오에서 행동과 이벤트를 해석하는 고급 AI를 살펴보세요. 작동 방식과 자율 주행 및 스마트 보안 분야에서 어떻게 애플리케이션을 강화하는지 알아보세요.
비디오 이해란 기계 학습 모델이 시각적 데이터를 시간 경과에 따라 처리, 분석 및 이해하는 능력을 의미합니다. 정적 스냅샷을 분석하는 이미지 인식과 달리, 영상 이해는 시간적 역학, 맥락 및 인과 관계를 파악하기 위해 프레임 시퀀스를 해석하는 것을 포함합니다. 이를 통해 AI 시스템은 단순히 물체를 식별할 뿐만 아니라 동영상 클립 내에서 펼쳐지는 행동, 사건 및 "이야기"를 이해할 수 있습니다. 이는 자율 주행부터 자동화된 스포츠 분석에 이르기까지 다양한 동적 애플리케이션을 구동하는 현대 컴퓨터 비전(CV) 의 핵심 구성 요소입니다.
동영상 분석에는 공간적 정보와 시간적 정보라는 두 가지 서로 다른 유형의 정보를 처리해야 합니다. 공간적 특징은 단일 프레임에 나타나는 요소(물체, 배경, 질감)와 관련되는 반면, 시간적 특징은 이러한 요소들이 시간에 따라 어떻게 변화하는지(움직임, 속도, 상호작용)를 설명합니다.
현대 영상 이해 시스템은 종종 다단계 접근법을 사용합니다:
비디오 이해 기술은 기존에 인간의 관찰이 필요했던 복잡한 시각적 작업을 자동화함으로써 산업을 변화시키고 있습니다.
비디오 이해를 다른 컴퓨터 비전 작업과 구분하는 것이 중요합니다:
비디오 이해의 핵심 구성 요소는 견고한 객체 탐지 및 추적입니다. 다음 예시는 Ultralytics 모델을 사용한 추적 구현 방법을 보여줍니다. 이는 고차원 행동 분석에 필요한 시간적 연속성을 확립합니다.
import cv2
from ultralytics import YOLO
# Load the YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")
# Open a video file
video_path = "path/to/video.mp4"
cap = cv2.VideoCapture(video_path)
# Process video frames
while cap.isOpened():
success, frame = cap.read()
if success:
# Track objects with persistence to maintain IDs over time
results = model.track(frame, persist=True)
# Visualize the results
annotated_frame = results[0].plot()
cv2.imshow("YOLO26 Tracking", annotated_frame)
if cv2.waitKey(1) & 0xFF == ord("q"):
break
else:
break
cap.release()
cv2.destroyAllWindows()
비록 발전이 이루어졌음에도 불구하고, 고해상도 비디오 스트림의 방대한 데이터 양으로 인해 영상 이해는 여전히 계산 집약적입니다. 연구자들은 지연 시간과 계산 비용을 줄이기 위해 보다 효율적인 모델 아키텍처를 적극적으로 개발 중입니다. 모델 양자화 및 프루닝과 같은 기술은 이러한 모델을 에지 디바이스에 배포하는 데 필수적입니다.
미래 발전 방향은 다중 모달 AI를 지향하며, 영상 데이터에 오디오 및 텍스트 컨텍스트를 결합해 더 깊은 이해를 가능케 합니다. 예를 들어, 모델은 타이어 삐걱거리는 소리와 시각 데이터를 함께 활용해 교통사고를 더 빠르게 식별할 수 있습니다. NVIDIA TensorRT 와 OpenVINO 은 실시간 추론을 위해 이러한 복잡한 모델을 최적화하는 데 계속해서 핵심적인 역할을 수행하고 있습니다.
