비디오 이해, 즉 비디오에서 행동과 이벤트를 해석하는 고급 AI를 살펴보세요. 작동 방식과 자율 주행 및 스마트 보안 분야에서 어떻게 애플리케이션을 강화하는지 알아보세요.
비디오 이해는 기계가 비디오 콘텐츠를 자동으로 해석하고 분석할 수 있도록 하는 고급 인공 지능(AI) 및 컴퓨터 비전(CV) 분야입니다. 정지 이미지 처리와 달리 비디오 이해는 프레임 시퀀스를 분석하여 객체뿐만 아니라 객체의 동작, 상호 작용 및 이벤트의 시간적 컨텍스트를 인식합니다. 이는 인간이 동적 장면을 인식하고 해석하는 방식과 매우 유사하게 비디오 데이터에 대한 전체적인 이해를 달성하는 것을 목표로 합니다. 이 기능은 자율 주행 차량에서 자동 감시 및 콘텐츠 조정에 이르기까지 광범위한 애플리케이션의 기본입니다.
비디오 이해 시스템은 일반적으로 시각적 및 시간적 정보를 처리하고 해석하기 위해 여러 AI 기술을 통합합니다. 이 프로세스는 개별 비디오 프레임에서 수행되는 기본적인 컴퓨터 비전 작업으로 시작됩니다. 이러한 작업에는 다음이 포함되는 경우가 많습니다.
이러한 공간적 특징이 추출되면 시스템은 RNN(순환 신경망) 또는 최신 아키텍처에서 더 일반적으로 사용되는 Transformer 네트워크와 같이 순차적 데이터를 위해 설계된 모델을 사용하여 시간 경과에 따른 특징을 분석합니다. 이러한 모델은 객체와 장면이 변경되는 방식의 패턴을 식별하여 동작 인식, 이벤트 감지 및 비디오 요약과 같은 상위 수준 작업을 가능하게 합니다. 3D 컨볼루션 신경망과 같은 일부 고급 아키텍처는 공간적 및 시간적 특징을 동시에 학습하도록 설계되었습니다. 전체 프로세스는 효율적인 학습, 배포 및 모니터링을 보장하기 위해 응집력 있는 MLOps(Machine Learning Operations) 프레임워크 내에서 관리됩니다.
비디오 이해를 다른 관련 컴퓨터 비전 작업과 구별하는 것이 중요합니다.
비디오 이해는 다양한 산업 분야에서 점점 더 많은 혁신적인 솔루션에 동력을 제공합니다.
다른 응용 분야로는 부적절한 비디오를 식별하여 소셜 미디어 플랫폼의 콘텐츠를 조정하거나, 게임 하이라이트를 요약하여 스포츠 분석을 하거나, 엔터테인먼트 분야에서 인터랙티브 경험을 만드는 것 등이 있습니다. Ultralytics HUB와 같은 플랫폼은 이러한 특수 작업을 위해 맞춤형 모델을 훈련할 수 있는 도구를 제공하며, TensorRT와 같은 도구와의 통합은 실시간 추론을 위해 모델을 최적화합니다.