Yolo 비전 선전
선전
지금 참여하기
용어집

비디오 이해

비디오 이해, 즉 비디오에서 행동과 이벤트를 해석하는 고급 AI를 살펴보세요. 작동 방식과 자율 주행 및 스마트 보안 분야에서 어떻게 애플리케이션을 강화하는지 알아보세요.

비디오 이해는 빠르게 진화하고 있는 분야입니다. 컴퓨터 비전(CV)인공 지능(AI) 분야에서 빠르게 발전하고 있는 기계가 시각적 데이터를 해석하고 분석할 수 있도록 하는 데 중점을 둡니다. 표준 정적인 이미지를 분석하는 이미지 인식 스냅샷, 비디오 이해 프로세스 프레임의 시퀀스를 분석하여 시간적 장면 내의 역학, 컨텍스트, 인과 관계를 이해합니다. 이 기능을 통해 시스템은 어떤 객체가 있는지 식별할 수 있을 뿐만 아니라 물체가 존재하는지 식별할 뿐만 아니라 무슨 일이 일어나고 있는지 추론하고, 향후 행동을 예측하고, 시각적 입력 뒤에 숨겨진 "시각적 입력 뒤에 숨겨진 '스토리'를 이해할 수 있습니다. 이러한 전체적인 접근 방식은 물리적 세계와 자연스럽게 상호작용하는 시스템을 물리적 세계와 자연스럽게 상호작용하는 시스템을 만드는 데 필수적입니다. 교통을 탐색하는 자율 주행 차량부터 스마트한 스마트 어시스턴트에 이르기까지 물리적 세계와 자연스럽게 상호작용하는 시스템을 만드는 데 필수적입니다.

비디오 분석의 핵심 메커니즘

비디오 이해의 기술적 아키텍처는 정적 객체 감지보다 훨씬 더 복잡한 정적 객체 감지보다 훨씬 복잡합니다. 비디오를 효과적으로 처리하려면 딥러닝 모델은 공간적 특징(물체의 모양)과 시간적 특징(물체가 움직이는 방식)을 동시에 처리해야 합니다. 공간적 특징(물체의 모양)과 시간적 특징(물체가 움직이고 변화하는 방식)을 동시에 처리해야 합니다.

최신 시스템에서는 다단계 파이프라인을 사용하는 경우가 많습니다:

  1. 공간 분석: 백본 네트워크, 종종 컨볼루션 신경망(CNN) 또는 비전 트랜스포머(ViT)로 불리는 중추 네트워크는 개별 프레임에서 시각적 특징을 추출합니다.
  2. 시간적 모델링: 이러한 공간적 특징은 다음과 같은 아키텍처를 사용하여 시간에 따라 집계됩니다. 장단기 메모리(LSTM) 네트워크 또는 점점 더 많이 사용되는 트랜스포머 모델 주의 집중 메커니즘을 활용하여 주의 메커니즘을 활용하는 트랜스포머 모델을 사용합니다.
  3. 동작 인식: 이 모델은 '달리기', '넘어지기', '흔들기'와 같은 특정 활동을 분류합니다. "넘어지기" 또는 "손 흔들기"와 같은 특정 활동을 분류하며, 주로 행동 인식을 위해 설계된 행동 인식.

이 프로세스는 종종 다음에서 지원됩니다. 모션을 명시적으로 track 광학 흐름 기법 벡터를 명시적으로 추적하여 모델의 움직임 패턴을 식별하는 능력을 향상시킵니다. 엣지 컴퓨팅의 발전으로 엣지 컴퓨팅의 발전으로 이러한 연산 집약적인 작업을 디바이스에서 로컬로 수행하여 실시간 추론.

핵심 개념 차별화

비디오 이해와 관련 컴퓨터 비전 작업을 구분하여 그 범위를 파악하는 것이 중요합니다:

  • 비디오 이해와 객체 추적 비교: 반면 객체 추적은 특정 인스턴스의 정체성을 유지하는 데 중점을 두지만 특정 인스턴스의 신원을 유지하는 데 초점을 맞추는 반면(예: 자동차를 따라가는 경우), 비디오 이해는 해당 객체의 동작을 해석합니다. 동작을 해석합니다(예: 자동차가 주차 중).
  • 비디오 이해와 이상 징후 탐지 비교: 이상 징후 탐지는 비디오 이해의 하위 집합입니다. 이상값이나 비정상적인 이벤트를 표시하도록 특별히 조정된 비디오 이해의 일부로, 스마트 감시에서 자주 사용됩니다. 스마트 서베일런스.
  • 비디오 이해와 제너레이티브 AI: 반면 제너레이티브 AI와 텍스트-비디오 모델은 새로운 콘텐츠를 생성하는 반면, 비디오 이해는 기존 영상에서 구조화된 인사이트를 추출하는 분석 프로세스입니다.

실제 애플리케이션

역동적인 장면을 이해하는 능력은 주요 산업 전반에서 혁신을 주도합니다:

  • 의료 및 환자 모니터링: 병원은 영상 이해를 활용하여 사람의 지속적인 감독 없이도 환자의 환자의 움직임을 모니터링합니다. 포즈 추정 기능을 사용하면 자세 추정을 통해 시스템은 낙상을 detect 보행 재활 진행 상황을 분석할 수 있습니다. 자세히 알아보기 의료 분야의 AI에서 이러한 기술이 어떻게 환자 치료 결과를 개선하는 방법을 알아보세요.
  • 스포츠 분석: 코치와 방송사는 이러한 시스템을 사용하여 선수의 전략과 경기의 역학을 자동으로 분석합니다. 키포인트를 추적하고 복잡한 플레이를 식별함으로써 팀은 데이터 기반 인사이트를 통해 경쟁 우위를 확보할 수 있습니다. 다음에 대한 인사이트를 살펴보세요. 스포츠 분석의 AI.
  • 리테일 인텔리전스: 매장에서는 고객 유동 인구와 제품과의 상호 작용을 분석하여 레이아웃을 최적화합니다. 여기에는 다음이 포함됩니다. 인스턴스 세분화를 통해 구분하기 위한 인스턴스 세분화가 포함됩니다.

Ultralytics 비디오 분석 구현하기

비디오 이해의 기본 단계는 신뢰할 수 있는 객체 추적입니다. 다음 예는 다음과 같은 방법을 보여줍니다. 추적을 구현하는 방법을 Ultralytics YOLO11 모델을 사용하여 추적을 구현하는 방법을 보여줍니다. 이 는 더 높은 수준의 분석에 필요한 시간적 연속성을 설정합니다. 향후 출시 예정인 다음과 같은 모델 YOLO26은 이러한 기능을 더욱 통합하여 다음과 같은 목표를 달성하고자 합니다. 더 빠른 엔드투엔드 비디오 처리.

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)

# Process results to extract tracking IDs and class names
for result in results:
    boxes = result.boxes.xywh.cpu()
    track_ids = result.boxes.id.int().cpu().tolist()
    print(f"Detected IDs in this frame: {track_ids}")

과제 및 향후 방향

상당한 진전에도 불구하고 비디오 이해는 높은 컴퓨팅 비용과 높은 계산 비용과 처리의 어려움 객체가 일시적으로 시야에서 일시적으로 시야에서 사라지는 오클루전 처리의 어려움과 같은 문제에 직면해 있습니다. 연구원들은 지연 시간을 줄이고 지연 시간을 줄이기 위한 효율적인 모델 아키텍처와 모델을 훈련시키는 자기 지도 학습 모델을 훈련하기 위한 효율적인 모델 아키텍처를 연구하고 있습니다.

다음과 같은 도구 NVIDIA TensorRTONNX 는 이러한 무거운 모델을 이러한 무거운 모델을 최적화하는 데 자주 사용됩니다. 이 분야가 발전함에 따라 비디오와 오디오, 텍스트를 결합하는 비디오와 오디오 및 텍스트를 결합하여 더욱 심층적인 이해를 위해 비디오와 오디오 및 텍스트를 결합하는 멀티모달 AI의 긴밀한 통합을 기대할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기