Yolo 비전 선전
선전
지금 참여하기
용어집

비디오 이해

비디오 이해, 즉 비디오에서 행동과 이벤트를 해석하는 고급 AI를 살펴보세요. 작동 방식과 자율 주행 및 스마트 보안 분야에서 어떻게 애플리케이션을 강화하는지 알아보세요.

비디오 이해란 기계 학습 모델이 시각적 데이터를 시간 경과에 따라 처리, 분석 및 이해하는 능력을 의미합니다. 정적 스냅샷을 분석하는 이미지 인식과 달리, 영상 이해는 시간적 역학, 맥락 및 인과 관계를 파악하기 위해 프레임 시퀀스를 해석하는 것을 포함합니다. 이를 통해 AI 시스템은 단순히 물체를 식별할 뿐만 아니라 동영상 클립 내에서 펼쳐지는 행동, 사건 및 "이야기"를 이해할 수 있습니다. 이는 자율 주행부터 자동화된 스포츠 분석에 이르기까지 다양한 동적 애플리케이션을 구동하는 현대 컴퓨터 비전(CV) 의 핵심 구성 요소입니다.

비디오 분석의 핵심 메커니즘

동영상 분석에는 공간적 정보와 시간적 정보라는 두 가지 서로 다른 유형의 정보를 처리해야 합니다. 공간적 특징은 단일 프레임에 나타나는 요소(물체, 배경, 질감)와 관련되는 반면, 시간적 특징은 이러한 요소들이 시간에 따라 어떻게 변화하는지(움직임, 속도, 상호작용)를 설명합니다.

현대 영상 이해 시스템은 종종 다단계 접근법을 사용합니다:

  • 공간적 특징 추출: 컨볼루션 신경망(CNN)이나 비전 트랜스포머(ViT)와 같은 백본 네트워크가 개별 프레임을 처리하여 detect 식별 특성을 파악합니다.
  • 시간적 집계: 움직임을 이해하기 위해 모델은 다음과 같은 아키텍처를 활용합니다. 장단기 기억(LSTM)네트워크 또는 시간적 트랜스포머. 이러한 구성 요소는 시퀀스 전반에 걸쳐 공간적 특징이 어떻게 진화하는지 분석하며, 종종 주의 메커니즘을 활용하여 타임라인 내 중요한 순간에 집중합니다.
  • 고차원적 추론: 최종 단계에서는 활동을 분류하거나 미래 사건을 예측합니다. 이 단계에서 모델은 움직임의 속도와 리듬을 기반으로 "걷기"와 "달리기" 같은 유사한 행동을 구분합니다.

실제 애플리케이션

비디오 이해 기술은 기존에 인간의 관찰이 필요했던 복잡한 시각적 작업을 자동화함으로써 산업을 변화시키고 있습니다.

  • 자율주행: 자율주행차는 보행자 및 다른 차량의 행동을 예측하기 위해 영상 이해에 크게 의존합니다. 주변 물체의 궤적과 속도를 분석함으로써 차량의 인식 시스템은 잠재적 충돌을 예측하고 안전한 주행 결정을 내릴 수 있습니다.
  • 스마트 리테일 및 보안: 소매 환경에서 시스템은 쇼핑객 행동을 분석하여 매장 레이아웃을 최적화하거나 detect 수 있습니다. 보안 애플리케이션은 이상 탐지 기술을 활용해 제한 구역에서 배회하는 사람이나 갑작스러운 군중 집결과 같은 비정상적인 활동을 실시간으로 감지하여 담당자에게 알립니다.
  • 의료 모니터링: 영상 이해 기술은 움직임을 관찰하여 고통 징후를 감지함으로써 환자 치료를 지원합니다. 예를 들어, 자세 추정 알고리즘은 보행 패턴을 분석하여 track 진행 상황을 track , 침습적 센서 없이도 노인 요양 시설에서 detect 수 있습니다.

핵심 개념 차별화

비디오 이해를 다른 컴퓨터 비전 작업과 구분하는 것이 중요합니다:

  • 영상 이해 vs. 객체 추적: 객체 추적은 프레임 간 특정 인스턴스의 동일성을 유지하는 데 중점을 두는 반면(예: 특정 차량 추적), 영상 이해는 해당 객체의 행동 맥락을 해석합니다(예: 차량이 신호 위반을 인식).
  • 영상 이해 vs. 텍스트-투-비디오: 텍스트-투-비디오는 텍스트 프롬프트로부터 새로운 시각적 콘텐츠를 생성하는 생성적 과정입니다. 영상 이해는 기존 영상 자료로부터 의미를 추출하는 분석적 과정입니다.

Ultralytics 비디오 분석 구현하기

비디오 이해의 핵심 구성 요소는 견고한 객체 탐지 및 추적입니다. 다음 예시는 Ultralytics 모델을 사용한 추적 구현 방법을 보여줍니다. 이는 고차원 행동 분석에 필요한 시간적 연속성을 확립합니다.

import cv2
from ultralytics import YOLO

# Load the YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")

# Open a video file
video_path = "path/to/video.mp4"
cap = cv2.VideoCapture(video_path)

# Process video frames
while cap.isOpened():
    success, frame = cap.read()
    if success:
        # Track objects with persistence to maintain IDs over time
        results = model.track(frame, persist=True)

        # Visualize the results
        annotated_frame = results[0].plot()
        cv2.imshow("YOLO26 Tracking", annotated_frame)

        if cv2.waitKey(1) & 0xFF == ord("q"):
            break
    else:
        break

cap.release()
cv2.destroyAllWindows()

도전 과제와 미래 트렌드

비록 발전이 이루어졌음에도 불구하고, 고해상도 비디오 스트림의 방대한 데이터 양으로 인해 영상 이해는 여전히 계산 집약적입니다. 연구자들은 지연 시간과 계산 비용을 줄이기 위해 보다 효율적인 모델 아키텍처를 적극적으로 개발 중입니다. 모델 양자화 및 프루닝과 같은 기술은 이러한 모델을 에지 디바이스에 배포하는 데 필수적입니다.

미래 발전 방향은 다중 모달 AI를 지향하며, 영상 데이터에 오디오 및 텍스트 컨텍스트를 결합해 더 깊은 이해를 가능케 합니다. 예를 들어, 모델은 타이어 삐걱거리는 소리와 시각 데이터를 함께 활용해 교통사고를 더 빠르게 식별할 수 있습니다. NVIDIA TensorRTOpenVINO실시간 추론을 위해 이러한 복잡한 모델을 최적화하는 데 계속해서 핵심적인 역할을 수행하고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기