深圳尤洛视觉
深圳
立即加入

一探流媒体视觉 AI 的幕后

Abirami Vina

3 分钟阅读

2024 年 12 月 10 日

探索计算机视觉如何通过个性化推荐和实时内容分析来增强流媒体平台,从而改善用户体验。

您是否曾经想过流媒体平台是如何如此轻松地让您观看自己喜欢的节目的?不久之前,娱乐还非常不同。电视节目时间表是固定的,观众通常只能观看正在播出的节目。流媒体服务改变了这种模式。调查显示,全球视频流媒体市场在 2023 年的估值为 1068.3 亿美元,预计到 2034 年将达到 8658.5 亿美元。

人工智能 (AI) 在这一演变中发挥了关键作用。具体来说,我们看到该领域的计算机视觉创新有所增加。视觉 AI 允许流媒体平台通过分析帧和识别模式来理解和解释视频内容。 

通过处理视觉数据,计算机视觉帮助平台创建更智能的推荐、改进内容组织,甚至增强互动功能。在本文中,我们将探讨计算机视觉如何帮助流媒体平台改进内容交付、优化用户参与度并简化内容发现。让我们开始吧!

图 1. 全球视频流媒体市场。

探索计算机视觉和流媒体平台

在流媒体平台方面,计算机视觉可以帮助将视频分解为单独的帧,并使用像 Ultralytics YOLO11 这样的模型进行分析。YOLO11可以在大型标注示例数据集上进行自定义训练。标注示例是用细节(例如它们包含的对象、发生的动作或场景类型)标记的图像或视频帧。这有助于模型学习识别相似的模式。这些模型可以实时检测对象、分类场景 并识别模式,从而提供对内容的宝贵见解。

为了更好地理解这是如何运作的,让我们看一些计算机视觉在流媒体平台中的应用示例,以优化用户体验并使内容更易于访问。

用于个性化推荐的场景识别

场景识别是一种计算机视觉技术,它根据图像或视频帧的视觉内容和主题对其进行分类。它可以被认为是图像分类的一种特殊形式,其重点是识别场景的整体设置或氛围,而不是单个对象。 

例如,场景识别系统可以通过分析颜色、纹理、光照和物体等特征,将场景分组为“备用卧室”、“森林小路”或“岩石海岸”等类别。场景识别使流媒体平台能够有效地标记和组织内容。

图 2. 使用 AI 对场景进行分类。

它在个性化推荐中起着关键作用。如果用户经常观看以宁静的户外环境(如“阳光海岸”)或时尚的室内设计(如“时尚厨房”)为特色的内容,则该平台可以推荐具有相似视觉效果的节目或电影。场景识别简化了内容发现,并为用户提供符合其观看偏好的推荐内容。

图像和缩略图生成

图像和缩略图生成是为视频创建视觉预览以吸引观众并突出关键时刻的过程。AI 和计算机视觉可以自动执行此过程,以确保缩略图具有相关性和吸引力。

以下是流程的工作方式:

  • 帧分析: 计算机视觉系统可以首先扫描数千个视频帧,以识别出突出的时刻。这些时刻可能包括情感表达、关键动作或最能代表视频内容的视觉上引人注目的场景。
  • 运动分析: 一旦选择了潜在的帧,就可以使用 Vision AI 来检查它们是否清晰且没有模糊,从而提高缩略图的整体视觉质量。
  • 目标检测和场景分析: 使用诸如YOLO11(支持目标检测和实例分割等计算机视觉任务)等模型,系统可以检测帧中的重要元素,例如对象、角色或设置。此步骤再次确认缩略图准确地反映了视频的本质。
  • 图像优化: 然后通过考虑相机角度、光照和构图等因素来优化所选帧。 
  • 个性化: 最后,可以使用 机器学习 算法根据用户偏好和观看历史记录来个性化缩略图。 这样做可以根据个人品味定制视觉效果,使它们更有可能吸引注意力并提高参与度。

一个类似的现实应用的好例子是Netflix使用计算机视觉来自动生成缩略图。通过分析帧以检测情绪、上下文和电影细节,Netflix创建能够引起个人观众偏好的缩略图。例如,喜欢浪漫喜剧的用户可能会看到突出轻松时刻的缩略图,而动作片迷可能会看到一个紧张、高能量的场景。

图 3.电视节目缩略图可根据观众的喜好进行定制。

自动化内容预览 

当您滚动浏览流媒体平台时,您看到的那些简短、引人注目的预览并非随机的。它们是使用计算机视觉等技术精心制作的,旨在吸引注意力并突出视频中最引人入胜的时刻。一旦选定了最佳时刻,它们就会被拼接成流畅、引人入胜的预览。 

选择这些时刻背后的过程涉及几个关键步骤:

  • 场景分割:视频根据自然过渡(例如光照、相机角度或视觉效果的变化)被分成更小的部分。
  • 运动检测:识别动态的、充满动作的时刻,以确保预览能够吸引注意力。
  • 显著性模型: 分析颜色、亮度和对比度等视觉特征,以确定场景中最引人注目的部分。
  • 面部表情分析:选择具有强烈情感表达的时刻,以创建与观众更深层次的连接。

内容分类和标签

按类型、情绪或特定主题浏览电影的能力依赖于准确的内容分类和标记。流行的流媒体平台使用计算机视觉来自动化此过程,通过分析视频中的对象、动作、设置或情感,然后分配相关的标签。这有助于组织大型媒体库,并通过将内容与观看者的偏好相匹配,使个性化推荐更加准确。

诸如场景分割、目标检测和 活动识别 等视觉 AI 技术可用于有效地标记内容。通过识别诸如对象、情感基调和动作等关键元素,它们为每个标题创建详细的元数据。然后可以使用机器学习分析元数据以创建类别,从而使用户可以更轻松地找到他们想要的内容并改善整体浏览体验。

图 4.用于个性化流媒体推荐的自动内容分类示例。

AI 赋能的流媒体平台的优势与挑战

计算机视觉正在通过创新的功能改进流媒体平台,从而增强用户体验。以下是一些值得考虑的独特优势:

  • 自适应流媒体质量:计算机视觉可以分析视频场景,以发现需要更高质量的高运动或详细时刻。然后,这些见解可用于调整流媒体质量,以适应用户的设备和互联网速度。
  • 实时行为监控: 人工智能可用于监控直播流以实时检测盗版行为。它还可以识别未经授权的操作,例如添加叠加层(例如,徽标或广告)或将流重新广播到其他平台。
  • 高效节能的内容分发: 视觉 AI 洞察力可以通过分析用户需求和观看模式来优化内容分发。在本地缓存热门内容并调整视频质量可以减少带宽使用和能源消耗,从而使流媒体更具可持续性

尽管有诸多优势,但在实施这些创新时,也需要注意某些局限性:

  • 高计算需求:计算机视觉算法需要强大的计算能力来处理和分析视频内容,这可能导致成本和能源消耗的增加。
  • 数据隐私问题:由于计算机视觉依赖于大量的用户交互和内容数据集,因此可能会引起对数据隐私和安全的担忧。
  • 数据偏见:计算机视觉模型可以反映其训练数据中的偏见。这可能会导致他们偏爱某些类型的内容并减少推荐的多样性。

AI在流媒体平台中的未来

边缘计算和 3D 技术等创新正在帮助塑造我们未来体验娱乐的方式。边缘计算可用于处理更靠近视频流式传输位置的视频。它可以减少延迟并节省带宽,这对于直播和互动内容尤其重要。更快的响应时间意味着为观众提供更流畅、更具吸引力的体验。

与此同时,3D 技术正在为节目、电影和互动功能增加深度和真实感。这些进步也为增强现实 (AR) 和虚拟现实 (VR) 等新可能性打开了大门。借助 VR 头显等设备,观众可以进入完全沉浸式的环境。数字世界和物理世界之间的界限可能会变得模糊,从而创造出全新水平的参与度。

图 5. 通过 VR 驱动的交互体验重塑流媒体。

主要要点

计算机视觉通过使视频分析更智能、内容分类更快、推荐更个性化,从而重新定义流媒体平台。借助Ultralytics YOLO11等模型,平台可以实时检测对象和分类场景。这有助于简化内容标记,并改进节目和电影的推荐方式。

与视觉 AI 集成的流媒体平台为观众提供更具吸引力的体验,同时确保更流畅、更高效的平台运营。随着技术的进步,流媒体服务可能会变得更具互动性,提供更丰富、更沉浸式的娱乐体验。

对 AI 感兴趣吗?访问我们的 GitHub 仓库 以了解更多信息并与我们的 社区 建立联系。探索 医疗保健中的 AI农业中的计算机视觉 的各种应用。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板