욜로 비전 선전
선전
지금 참여하기

스트리밍 분야의 비전 AI 뒷이야기

Abirami Vina

3분 읽기

2024년 12월 10일

컴퓨터 비전이 더 나은 사용자 경험을 위해 개인화된 추천 및 실시간 콘텐츠 분석으로 스트리밍 플랫폼을 향상시키는 방법을 알아보세요.

스트리밍 플랫폼에서 좋아하는 프로그램을 시청하는 것이 얼마나 쉬운지 궁금한 적이 있습니까? 그리 오래 전에는 엔터테인먼트가 매우 달랐습니다. TV 프로그램은 고정되어 있었고 시청자는 일반적으로 방송되는 내용을 시청했습니다. 스트리밍 서비스는 이러한 패러다임을 바꾸었습니다. 설문 조사에 따르면 글로벌 비디오 스트리밍 시장은 2023년에 1,068억 3천만 달러로 평가되었으며 2034년에는 8,658억 5천만 달러에 이를 것으로 예상됩니다.

인공지능(AI)은 이러한 발전의 중심에 있었습니다. 특히 이 분야에서 컴퓨터 비전 혁신이 증가하고 있습니다. 비전 AI는 스트리밍 플랫폼이 프레임을 분석하고 패턴을 인식하여 비디오 콘텐츠를 이해하고 해석할 수 있도록 합니다. 

시각적 데이터를 처리함으로써 컴퓨터 비전은 플랫폼이 더 스마트한 추천을 생성하고 콘텐츠 구성을 개선하며 대화형 기능을 향상시키는 데 도움이 됩니다. 이 기사에서는 컴퓨터 비전이 스트리밍 플랫폼이 콘텐츠 전달을 개선하고 사용자 참여를 개선하며 콘텐츠 검색을 단순화하는 데 어떻게 도움이 되는지 살펴봅니다. 시작해 보겠습니다!

Fig 1. 글로벌 비디오 스트리밍 시장입니다.

컴퓨터 비전 및 스트리밍 플랫폼 살펴보기

스트리밍 플랫폼과 관련하여 컴퓨터 비전은 비디오를 개별 프레임으로 분할하고 Ultralytics YOLO11과 같은 모델을 사용하여 분석하는 데 도움이 될 수 있습니다. YOLO11은 레이블이 지정된 예제의 대규모 데이터 세트에서 사용자 정의 훈련을 받을 수 있습니다. 레이블이 지정된 예제는 포함된 객체, 발생하는 작업 또는 장면 유형과 같은 세부 정보로 태그가 지정된 이미지 또는 비디오 프레임입니다. 이는 모델이 유사한 패턴을 인식하는 데 도움이 됩니다. 이러한 모델은 객체를 감지하고, 장면을 분류하고, 실시간으로 패턴을 식별하여 콘텐츠에 대한 귀중한 통찰력을 제공할 수 있습니다.

이것이 어떻게 작동하는지 더 잘 이해하기 위해 컴퓨터 비전이 스트리밍 플랫폼에서 사용자 경험을 최적화하고 콘텐츠 접근성을 높이는 데 어떻게 적용되는지 몇 가지 예를 살펴보겠습니다.

개인 맞춤형 추천을 위한 장면 인식

장면 인식은 시각적 콘텐츠와 테마를 기반으로 이미지 또는 비디오 프레임을 분류하는 컴퓨터 비전 기술입니다. 개별 객체보다는 장면의 전체적인 설정이나 분위기를 식별하는 데 중점을 두는 특수한 형태의 이미지 분류라고 생각할 수 있습니다. 

예를 들어, 장면 인식 시스템은 색상, 질감, 조명 및 객체와 같은 특징을 분석하여 장면을 '침실', '숲길' 또는 '바위 해안'과 같은 범주로 그룹화할 수 있습니다. 장면 인식은 스트리밍 플랫폼이 콘텐츠에 효과적으로 태그를 지정하고 구성할 수 있도록 합니다.

Fig 2. AI를 사용한 장면 분류입니다.

개인화된 추천에서 핵심적인 역할을 합니다. 사용자가 "햇볕이 잘 드는 해안"과 같은 평온한 야외 환경이나 "세련된 주방"과 같은 트렌디한 인테리어가 있는 콘텐츠를 자주 시청하는 경우 플랫폼은 유사한 비주얼이 있는 쇼나 영화를 추천할 수 있습니다. 장면 인식은 콘텐츠 검색을 단순화하고 사용자의 시청 선호도에 맞는 추천을 제공합니다.

이미지 및 썸네일 생성

이미지 및 썸네일 생성은 시청자의 시선을 사로잡고 주요 순간을 강조하기 위해 비디오에 대한 시각적 미리보기를 만드는 프로세스입니다. AI와 컴퓨터 비전은 이 프로세스를 자동화하여 썸네일이 관련성 있고 시선을 사로잡도록 할 수 있습니다.

다음은 프로세스 작동 방식입니다.

  • 프레임 분석: 컴퓨터 비전 시스템은 수천 개의 비디오 프레임을 스캔하여 눈에 띄는 순간을 식별하는 것으로 시작할 수 있습니다. 여기에는 비디오 콘텐츠를 가장 잘 나타내는 감정 표현, 주요 행동 또는 시각적으로 눈에 띄는 장면이 포함될 수 있습니다.
  • 모션 분석: 잠재적 프레임이 선택되면 Vision AI를 사용하여 선명하고 흐릿함이 없는지 확인하여 썸네일의 전체적인 시각적 품질을 향상시킬 수 있습니다.
  • 객체 감지 및 장면 분석: YOLO11과 같은 모델(객체 감지 및 인스턴스 분할과 같은 컴퓨터 비전 작업 지원)을 사용하여 시스템은 객체, 문자 또는 설정과 같은 프레임의 중요한 요소를 감지할 수 있습니다. 이 단계는 썸네일이 비디오의 본질을 정확하게 반영하는지 다시 확인합니다.
  • 이미지 개선: 선택된 프레임은 카메라 각도, 조명 및 구도와 같은 요소를 고려하여 개선됩니다. 
  • 개인화: 마지막으로, 머신 러닝 알고리즘을 사용하여 사용자 선호도 및 시청 기록을 기반으로 썸네일을 개인화할 수 있습니다. 이렇게 하면 시각적 요소를 개별 취향에 맞게 조정하여 관심을 끌고 참여를 유도할 가능성이 높아집니다.

유사한 실제 응용 분야의 좋은 예는 Netflix의 컴퓨터 비전 사용입니다. Netflix는 프레임을 분석하여 감정, 컨텍스트 및 영화적 세부 사항을 감지하여 개별 시청자의 선호도에 맞는 썸네일을 만듭니다. 예를 들어 로맨틱 코미디를 즐겨 보는 사용자는 가벼운 순간을 강조하는 썸네일을 볼 수 있고, 액션 팬은 강렬하고 활기찬 장면을 볼 수 있습니다.

그림 3. TV 프로그램 썸네일은 시청자 선호도에 맞게 사용자 정의할 수 있습니다.

자동화된 콘텐츠 미리보기 

스트리밍 플랫폼을 스크롤할 때 보이는 짧고 눈길을 사로잡는 미리보기는 무작위가 아닙니다. 그것들은 주의를 끌고 비디오의 가장 매력적인 순간을 강조하기 위해 컴퓨터 비전과 같은 기술을 사용하여 신중하게 만들어집니다. 최고의 순간이 선택되면 부드럽고 매력적인 미리보기로 함께 묶입니다. 

이러한 순간을 선택하는 과정은 다음과 같은 주요 단계를 거칩니다:

  • 장면 분할: 비디오는 조명, 카메라 각도 또는 시각적 요소의 변화와 같은 자연스러운 전환에 따라 더 작은 섹션으로 나뉩니다.
  • 모션 감지: 역동적이고 활동적인 순간을 식별하여 미리보기가 주의를 사로잡도록 합니다.
  • 현저성 모델: 색상, 밝기 및 대비와 같은 시각적 특징을 분석하여 장면에서 가장 눈에 띄는 부분을 정확히 찾아냅니다.
  • 얼굴 표정 분석: 강렬한 감정 표현이 담긴 순간을 선택하여 시청자와 더 깊은 유대감을 형성합니다.

콘텐츠 분류 및 태깅

영화를 장르, 분위기 또는 특정 테마별로 탐색하는 기능은 정확한 콘텐츠 분류 및 태깅에 달려 있습니다. 인기 있는 스트리밍 플랫폼은 컴퓨터 비전을 사용하여 비디오에서 객체, 액션, 설정 또는 감정을 분석한 다음 관련 태그를 할당하여 이 프로세스를 자동화합니다. 이는 대규모 미디어 라이브러리를 구성하고 콘텐츠를 시청자 선호도에 맞춰 개인화된 추천을 보다 정확하게 만드는 데 도움이 됩니다.

장면 분할, 객체 탐지 및 활동 인식과 같은 비전 AI 기술을 사용하여 콘텐츠에 효과적으로 태그를 지정할 수 있습니다. 객체, 감정적 톤 및 액션과 같은 주요 요소를 식별하여 각 제목에 대한 자세한 메타데이터를 생성합니다. 그런 다음 이 메타데이터를 머신 러닝을 사용하여 분석하여 사용자가 원하는 것을 더 쉽게 찾고 전반적인 검색 경험을 개선하는 데 도움이 되는 카테고리를 만들 수 있습니다.

그림 4. 개인화된 스트리밍 추천을 위한 자동화된 콘텐츠 분류의 예입니다.

AI 기반 스트리밍 플랫폼의 이점과 과제

컴퓨터 비전은 사용자 경험을 향상시키는 혁신적인 기능으로 스트리밍 플랫폼을 개선하고 있습니다. 고려해야 할 몇 가지 고유한 이점은 다음과 같습니다.

  • 적응형 스트리밍 품질: 컴퓨터 비전은 비디오 장면을 분석하여 더 높은 품질이 필요한 고화질 또는 디테일한 순간을 찾아낼 수 있습니다. 이러한 통찰력을 사용하여 사용자 장치 및 인터넷 속도에 맞게 스트리밍 품질을 조정할 수 있습니다.
  • 실시간 행동 모니터링: AI를 사용하여 실시간 스트림을 모니터링하여 실시간으로 불법 복제를 감지할 수 있습니다. 또한 오버레이(예: 로고 또는 광고) 추가 또는 다른 플랫폼으로 스트림 재전송과 같은 무단 행위를 식별할 수도 있습니다.
  • 에너지 효율적인 콘텐츠 전송: Vision AI 인사이트는 사용자 수요 및 시청 패턴을 분석하여 콘텐츠 전송을 최적화할 수 있습니다. 인기 있는 콘텐츠를 로컬에 캐싱하고 비디오 품질을 조정하면 대역폭 사용량과 에너지 소비를 줄여 스트리밍을 더욱 지속 가능하게 만들 수 있습니다.

다양한 장점에도 불구하고 이러한 혁신을 구현하는 동안 염두에 두어야 할 특정 제한 사항도 있습니다.

  • 높은 계산 수요: 컴퓨터 비전 알고리즘은 비디오 콘텐츠를 처리하고 분석하는 데 많은 계산 능력을 필요로 하며, 이는 비용 및 에너지 사용 증가로 이어질 수 있습니다.
  • 데이터 개인 정보 보호 문제: 컴퓨터 비전은 사용자 상호 작용 및 콘텐츠의 대규모 데이터 세트에 의존하기 때문에 데이터 개인 정보 보호 및 보안에 대한 우려를 제기할 수 있습니다.
  • 데이터 편향(Data Bias): 컴퓨터 비전 모델은 학습 데이터의 편향을 반영할 수 있습니다. 이로 인해 특정 유형의 콘텐츠를 선호하고 추천의 다양성을 줄일 수 있습니다.

스트리밍 플랫폼에서 AI의 미래

에지 컴퓨팅 및 3D 기술과 같은 혁신은 우리가 엔터테인먼트를 경험하는 방식의 미래를 형성하는 데 도움이 됩니다. 에지 컴퓨팅은 비디오가 스트리밍되는 위치에 더 가까운 곳에서 비디오를 처리하는 데 사용될 수 있습니다. 이는 지연 시간을 줄이고 대역폭을 절약하며, 이는 특히 라이브 스트리밍 및 대화형 콘텐츠에 중요합니다. 더 빠른 응답 시간은 시청자에게 더 부드럽고 매력적인 경험을 의미합니다.

동시에 3D 기술은 쇼, 영화 및 인터랙티브 기능에 깊이와 현실감을 더하고 있습니다. 이러한 발전은 또한 증강 현실(AR) 및 가상 현실(VR)과 같은 새로운 가능성을 열어줍니다. VR 헤드셋과 같은 장치를 사용하면 시청자가 완전히 몰입형 환경으로 들어갈 수 있습니다. 디지털 세계와 물리적 세계 간의 경계가 흐려져 완전히 새로운 수준의 참여를 만들 수 있습니다.

Fig 5. VR 기반의 인터랙티브 경험으로 스트리밍을 재구성하는 예시입니다.

주요 내용

컴퓨터 비전은 비디오 분석을 더 스마트하게 만들고, 콘텐츠 분류를 더 빠르게 만들고, 추천을 더 개인화함으로써 스트리밍 플랫폼을 재정의하고 있습니다. Ultralytics YOLO11과 같은 모델을 사용하면 플랫폼은 객체를 감지하고 장면을 실시간으로 분류할 수 있습니다. 이는 콘텐츠 태깅을 더 쉽게 만들고 쇼와 영화가 제안되는 방식을 개선하는 데 도움이 됩니다.

Vision AI와 통합된 스트리밍 플랫폼은 시청자에게 더욱 몰입감 있는 경험을 제공하는 동시에 플랫폼 운영을 더욱 원활하고 효율적으로 만듭니다. 기술이 발전함에 따라 스트리밍 서비스는 더욱 인터랙티브해져 더욱 풍부하고 몰입도 높은 엔터테인먼트 경험을 제공할 가능성이 높습니다.

AI에 대해 더 궁금하신가요? 저희 GitHub 저장소를 방문하여 더 자세히 알아보고 저희 커뮤니티와 연결해 보세요. 헬스케어 분야의 AI농업 분야의 컴퓨터 비전의 다양한 응용 분야를 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.