术语表

CLIP(对比语言-图像预培训)

了解 OpenAI 的 CLIP 如何通过零镜头学习、图像-文本配准和计算机视觉中的实际应用来革新人工智能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

CLIP(对比语言-图像预训练)是OpenAI开发的一种多功能神经网络(NN),擅长理解用日常语言描述的视觉概念。与需要精心标注数据集的传统图像分类模型不同,CLIP 通过分析从互联网上获取的数以亿计的图像-文本对进行学习。它采用了一种称为对比学习的技术,以掌握图像与其相应文本描述之间错综复杂的关系。这种独特的训练方法使 CLIP 能够在没有特定训练的情况下在各种任务中表现出色,这种强大的能力被称为 "零镜头学习"。

夹子的工作原理

CLIP 的架构由两大部分组成:图像编码器和文本编码器。图像编码器通常采用视觉转换器 (ViT)ResNet 等架构,处理图像以提取关键的视觉特征。与此同时,文本编码器(通常基于自然语言处理 (NLP) 中常用的Transformer模型)分析相关的文本描述,以捕捉其语义。在训练阶段,CLIP 会学习将图像和文本的表征(嵌入)投射到一个共享的多维空间中。对比学习过程的核心目标是最大化正确图像-文本对的嵌入之间的相似度(通常用余弦相似度来衡量),同时最小化给定批次中错误图像-文本对的相似度。这种方法能有效地教会模型将视觉模式与相关单词和短语联系起来,详情请参见CLIP 原文

主要特点和优势

CLIP 最显著的优势在于其非凡的零镜头学习能力。由于它学习的是视觉数据与语言之间的广泛联系,而不是固定的类别,因此它可以根据在训练过程中从未遇到过的全新文本描述对图像进行分类,从而在很多情况下无需进行特定任务的微调。例如,即使 CLIP 没有明确接受过 "蓝狗素描 "的图像训练,它也可以通过结合所学到的 "素描"、"蓝色 "和 "狗 "的概念,识别出描述为 "蓝狗素描 "的图像。这种适应性使 CLIP 在各种计算机视觉 (CV)应用中具有极高的价值。即使与在标准基准数据集(ImageNet)接受监督学习范式训练的模型相比,CLIP 也能取得极具竞争力的性能。

夹子与其他型号

CLIP 的方法不同于其他常见的人工智能 (AI)模型:

  • 有监督图像分类器:传统的分类器是从每个图像都有特定标签(如 "猫"、"狗")的数据集中学习的。这些分类器擅长处理预定义的类别,但在处理未见过的概念时却显得力不从心。CLIP 可从非结构化图像-文本对中学习,从而实现对任意文本提示的零镜头分类
  • 物体检测模型:类似模型 Ultralytics YOLO等模型侧重于物体检测,使用边界框识别图像中物体的位置并进行分类。虽然这些模型对于检测分割等定位任务非常强大,但它们并不具备 CLIP 对于任意语言描述进行分类的内在理解能力。您可以查看 YOLO 模型的检测性能比较
  • 其他视觉语言模型 (VLM):CLIP 是一种多模态模型。其他 VLM 可能专注于视觉问题解答(VQA)或详细图像字幕等任务,而 CLIP 的主要优势在于其强大的零镜头图像分类和图像-文本相似性匹配功能。在Ultralytics 博客上了解有关不同类型 VLM 的更多信息。
  • 生成模型: 稳定扩散DALL-E等模型侧重于从文本创建图像(文本到图像)。虽然 CLIP 本身并不生成图像,但其文本编码器通常用于生成模型,以确保输出图像与输入文本提示完全一致。

实际应用

CLIP 的独特功能可用于多种实际用途:

  • 内容管理:根据对不恰当或不需要内容的文字描述,自动过滤或标记图片,而无需预先标注每种可能违规的示例。OpenAI 使用 CLIP作为其内容管理工具的一部分。
  • 语义图像搜索:让用户能够使用自然语言查询而不仅仅是关键字或标签来搜索庞大的图片库(如Unsplash等图片库网站或个人照片集)。例如,搜索 "日落时有棕榈树的宁静海滩"。
  • 提高可访问性:为视障用户自动生成相关图像描述。
  • 引导生成式人工智能:如前所述,CLIP 的编码器有助于引导生成式人工智能模型生成准确反映复杂文本提示的图像。

局限性和未来方向

尽管 CLIP 具有开创性的功能,但它也并非没有局限性。它依赖于大量未经整理的互联网数据,这意味着它可能会继承文本和图像中存在的社会偏见,从而引发人们对人工智能公平性和潜在算法偏见的担忧。此外,CLIP 在执行需要精确空间推理(如准确计算物体数量)或识别极其精细的视觉细节的任务时也会遇到困难。研究人员正在积极探索各种方法,以减轻这些偏差,增强细粒度理解,并将 CLIP 的语义知识与YOLOv11 等模型的定位优势相结合。使用Ultralytics HUB 等平台可以简化不同模型类型的组合和实验管理。通过Ultralytics 博客等资源随时了解人工智能的最新发展。

阅读全部