비디오 이해, 즉 비디오에서 행동과 이벤트를 해석하는 고급 AI를 살펴보세요. 작동 방식과 자율 주행 및 스마트 보안 분야에서 어떻게 애플리케이션을 강화하는지 알아보세요.
비디오 이해는 빠르게 진화하고 있는 분야입니다. 컴퓨터 비전(CV) 및 인공 지능(AI) 분야에서 빠르게 발전하고 있는 기계가 시각적 데이터를 해석하고 분석할 수 있도록 하는 데 중점을 둡니다. 표준 정적인 이미지를 분석하는 이미지 인식 스냅샷, 비디오 이해 프로세스 프레임의 시퀀스를 분석하여 시간적 장면 내의 역학, 컨텍스트, 인과 관계를 이해합니다. 이 기능을 통해 시스템은 어떤 객체가 있는지 식별할 수 있을 뿐만 아니라 물체가 존재하는지 식별할 뿐만 아니라 무슨 일이 일어나고 있는지 추론하고, 향후 행동을 예측하고, 시각적 입력 뒤에 숨겨진 "시각적 입력 뒤에 숨겨진 '스토리'를 이해할 수 있습니다. 이러한 전체적인 접근 방식은 물리적 세계와 자연스럽게 상호작용하는 시스템을 물리적 세계와 자연스럽게 상호작용하는 시스템을 만드는 데 필수적입니다. 교통을 탐색하는 자율 주행 차량부터 스마트한 스마트 어시스턴트에 이르기까지 물리적 세계와 자연스럽게 상호작용하는 시스템을 만드는 데 필수적입니다.
비디오 이해의 기술적 아키텍처는 정적 객체 감지보다 훨씬 더 복잡한 정적 객체 감지보다 훨씬 복잡합니다. 비디오를 효과적으로 처리하려면 딥러닝 모델은 공간적 특징(물체의 모양)과 시간적 특징(물체가 움직이는 방식)을 동시에 처리해야 합니다. 공간적 특징(물체의 모양)과 시간적 특징(물체가 움직이고 변화하는 방식)을 동시에 처리해야 합니다.
최신 시스템에서는 다단계 파이프라인을 사용하는 경우가 많습니다:
이 프로세스는 종종 다음에서 지원됩니다. 모션을 명시적으로 track 광학 흐름 기법 벡터를 명시적으로 추적하여 모델의 움직임 패턴을 식별하는 능력을 향상시킵니다. 엣지 컴퓨팅의 발전으로 엣지 컴퓨팅의 발전으로 이러한 연산 집약적인 작업을 디바이스에서 로컬로 수행하여 실시간 추론.
비디오 이해와 관련 컴퓨터 비전 작업을 구분하여 그 범위를 파악하는 것이 중요합니다:
역동적인 장면을 이해하는 능력은 주요 산업 전반에서 혁신을 주도합니다:
비디오 이해의 기본 단계는 신뢰할 수 있는 객체 추적입니다. 다음 예는 다음과 같은 방법을 보여줍니다. 추적을 구현하는 방법을 Ultralytics YOLO11 모델을 사용하여 추적을 구현하는 방법을 보여줍니다. 이 는 더 높은 수준의 분석에 필요한 시간적 연속성을 설정합니다. 향후 출시 예정인 다음과 같은 모델 YOLO26은 이러한 기능을 더욱 통합하여 다음과 같은 목표를 달성하고자 합니다. 더 빠른 엔드투엔드 비디오 처리.
from ultralytics import YOLO
# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)
# Process results to extract tracking IDs and class names
for result in results:
boxes = result.boxes.xywh.cpu()
track_ids = result.boxes.id.int().cpu().tolist()
print(f"Detected IDs in this frame: {track_ids}")
상당한 진전에도 불구하고 비디오 이해는 높은 컴퓨팅 비용과 높은 계산 비용과 처리의 어려움 객체가 일시적으로 시야에서 일시적으로 시야에서 사라지는 오클루전 처리의 어려움과 같은 문제에 직면해 있습니다. 연구원들은 지연 시간을 줄이고 지연 시간을 줄이기 위한 효율적인 모델 아키텍처와 모델을 훈련시키는 자기 지도 학습 모델을 훈련하기 위한 효율적인 모델 아키텍처를 연구하고 있습니다.
다음과 같은 도구 NVIDIA TensorRT 및 ONNX 는 이러한 무거운 모델을 이러한 무거운 모델을 최적화하는 데 자주 사용됩니다. 이 분야가 발전함에 따라 비디오와 오디오, 텍스트를 결합하는 비디오와 오디오 및 텍스트를 결합하여 더욱 심층적인 이해를 위해 비디오와 오디오 및 텍스트를 결합하는 멀티모달 AI의 긴밀한 통합을 기대할 수 있습니다.