용어집

비디오 이해

비디오에서 동작과 이벤트를 해석하는 고급 AI인 비디오 이해에 대해 알아보세요. 자율 주행 및 스마트 보안 분야에서 어떻게 작동하고 앱을 지원하는지 알아보세요.

비디오 이해는 기계가 비디오의 콘텐츠를 자동으로 해석하고 분석할 수 있도록 하는 인공 지능(AI)컴퓨터 비전(CV) 의 고급 분야입니다. 정적 이미지 처리와 달리 비디오 이해는 프레임 시퀀스를 분석하여 객체뿐만 아니라 객체의 행동, 상호 작용 및 이벤트의 시간적 맥락을 인식합니다. 이는 인간이 동적인 장면을 인식하고 해석하는 방식과 마찬가지로 비디오 데이터를 전체적으로 이해하는 것을 목표로 합니다. 이 기능은 자율 주행 차량부터 자동화된 감시 및 콘텐츠 조정에 이르기까지 광범위한 애플리케이션의 기반이 됩니다.

비디오 이해의 작동 방식

비디오 이해 시스템은 일반적으로 여러 AI 기술을 통합하여 시각적 및 시간적 정보를 처리하고 해석합니다. 이 프로세스는 개별 비디오 프레임에서 수행되는 기본적인 컴퓨터 비전 작업으로 시작됩니다. 이러한 작업에는 종종 다음이 포함됩니다:

  • 물체 감지: 각 프레임 내에서 객체를 식별하고 위치를 파악합니다. 이 초기 단계에는 Ultralytics YOLO와 같은 모델이 매우 효과적입니다.
  • 객체 추적: 일련의 프레임에 걸쳐 식별된 객체를 추적하여 객체의 움직임과 지속성을 파악합니다.
  • 포즈 추정: 인체의 자세와 주요 포인트를 인식하는 것으로, 사람의 행동을 분석하는 데 매우 중요합니다.
  • 이미지 세분화: 프레임의 각 픽셀을 분류하여 물체의 정확한 모양과 경계를 파악합니다.

이러한 공간 특징이 추출되면 시스템은 순환 신경망(RNN) 또는 최신 아키텍처에서 더 일반적으로 사용되는 트랜스포머 네트워크와 같은 순차적 데이터용으로 설계된 모델을 사용하여 시간 경과에 따라 이를 분석합니다. 이러한 모델은 객체와 장면이 변화하는 패턴을 식별하여 동작 인식, 이벤트 감지, 동영상 요약과 같은 더 높은 수준의 작업을 수행할 수 있게 해줍니다. 3D 컨볼루션 신경망과 같은 일부 고급 아키텍처는 공간 및 시간적 특징을 동시에 학습하도록 설계되었습니다. 전체 프로세스는 효율적인 학습, 배포 및 모니터링을 보장하기 위해 응집력 있는 머신 러닝 운영(MLOps) 프레임워크 내에서 관리됩니다.

동영상 이해와 관련 개념 비교

비디오 이해를 다른 관련 컴퓨터 비전 작업과 구별하는 것이 중요합니다.

  • 비디오 이해와 객체 감지/추적 비교: 객체 감지는 단일 프레임에 있는 객체를 식별하고 객체 추적은 여러 프레임에 걸쳐 해당 객체를 따라갑니다. 비디오 이해는 이러한 작업의 결과를 사용하여 시간 경과에 따라 발생하는 동작, 이벤트 및 상호 작용의 이유를해석합니다. 예를 들어, 사람을 추적하는 것은 객체 추적이고, 그 사람이 문을 열고 있는 것을 식별하는 것은 비디오 이해입니다.
  • 비디오 이해와 이미지 인식 비교: 이미지 인식은 하나의 정적인 이미지 내에서 객체나 장면을 분류하는 데 중점을 둡니다. 비디오 이해는 이 개념을 시간 차원으로 확장하여 일련의 이미지를 분석하여 동적 이벤트를 이해합니다. 이를 위해서는 "무엇"뿐만 아니라 "어떻게", "언제"에 대한 이해도 필요합니다.
  • 비디오 이해와 텍스트-투-비디오 비교: 텍스트 비디오 변환은 텍스트 설명에서 비디오 콘텐츠를 생성하는 생성형 AI 작업입니다. 반대로 비디오 이해는 기존 비디오 콘텐츠에서 의미를 추출하고 설명 또는 구조화된 데이터를 생성하는 분석 작업입니다.

실제 애플리케이션

비디오 이해는 다양한 산업 분야에서 점점 더 많은 혁신적인 솔루션의 원동력이 되고 있습니다.

  1. 스마트 감시 및 보안: 보안 애플리케이션에서 비디오 이해 시스템은 비정상적인 활동을 자동으로 감지할 수 있습니다. 예를 들어, 시스템은 병원에서 감시 영상을 모니터링하여 환자가 쓰러진 시점을 파악하거나 소매점의 트래픽을 분석하여 도난을 감지할 수 있습니다. 이러한 시스템은 단순한 동작 감지를 넘어 행동의 맥락을 이해함으로써 오경보를 크게 줄이고 더 빠른 대응을 가능하게 합니다. 자세한 내용은 Ultralytics YOLO11로 스마트 감시 강화에 대해 읽어보세요.
  2. 자율 주행: 자율 주행 차량의 경우 도로를 이해하는 것이 중요합니다. 비디오 이해 모델은 카메라의 피드를 분석하여 보행자의 의도를 예측하고, 다른 차량의 행동을 해석하며, 복잡한 시나리오에서 교통 신호를 인식합니다. 이러한 심층적인 이해력은 안전하고 안정적인 내비게이션을 위해 필수적입니다. 이 분야는 자율 주행 시스템의 행동 인식에 대한 광범위한 연구에 의존하는 경우가 많습니다.

다른 애플리케이션으로는 부적절한 동영상에 플래그를 지정하여 소셜 미디어 플랫폼에서 콘텐츠를 중재하고, 게임 하이라이트를 요약하여 스포츠 분석을 하고, 엔터테인먼트에서 대화형 경험을 생성하는 것 등이 있습니다. Ultralytics HUB와 같은 플랫폼은 이러한 특수 작업을 위한 맞춤형 모델을 훈련할 수 있는 도구를 제공하며, TensorRT와 같은 도구와의 통합을 통해 실시간 추론에 최적화할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨