术语表

CLIP(对比语言-图像预培训)

了解 OpenAI 的 CLIP 如何通过零镜头学习、图像-文本配准和计算机视觉中的实际应用来革新人工智能。

CLIP(对比语言-图像预训练)是OpenAI开发的一种突破性多模态模型,它将文本和图像连接在一个共享的理解空间内。与针对图像分类等单一任务训练的传统模型不同,CLIP 直接从自然语言描述中学习视觉概念。它在互联网上的海量图像-文本对数据集上进行训练,使其能够执行各种任务,而无需对每项任务进行特定的训练--这种能力被称为 "零镜头学习"。这种方法使它成为新一代人工智能应用的强大基础模型

如何使用

CLIP 背后的核心理念是学习一个共享的嵌入空间,在这个空间中,图像和文本都可以表示为向量。它使用两个独立的编码器:图像使用视觉转换器(ViT)或类似结构,文本使用文本转换器。在训练过程中,该模型会得到一批图像-文本对,并学习预测哪个文本标题对应哪个图像。这是通过对比学习实现的,模型的目标是使正确配对的嵌入相似度最大化,而错误配对的嵌入相似度最小化。原始研究论文详细介绍了这一结果,即对概念的强大理解,将视觉数据与语言上下文联系起来。在LAION-5B 等数据集上训练的开源实现 OpenCLIP 使这项技术得以广泛应用。

实际应用

CLIP 的独特功能可用于多种实际用途:

  • 语义图像搜索:CLIP 为高级搜索系统提供支持,用户可以使用自然语言查询而不是关键字标签来查找图片。例如,用户可以在电子商务目录中搜索 "男士蓝色条纹衬衫",即使产品没有明确标注这些确切的词语,也能得到相关结果。Ultralytics 提供的语义图像搜索解决方案使用 CLIP 和FAISS(Facebook 人工智能相似性搜索)在大型图像库中进行快速准确的检索。
  • 内容审核:社交媒体平台可以使用 CLIP 自动标记其政策中描述内容的图片,如仇恨符号或暴力图片。这种方法比传统方法更加灵活,因为它可以根据文本描述识别违规行为,而不需要为每一种可能的违禁内容预设标签数据集。
  • 引导生成式人工智能:CLIP 的编码器对于引导 DALL-E 或 Stable Diffusion 等生成式人工智能模型至关重要。当用户提供文本提示时,CLIP 会对生成的图像进行评估,看它与提示含义的匹配程度,从而指导模型生成更准确、更相关的视觉效果。
  • 提高可访问性:该模型可自动为图像生成内容丰富、描述性强的标题,屏幕阅读器可利用这些标题向视障用户描述视觉内容,从而大大提高网络的可访问性

CLIP vs. YOLO

必须将 CLIP 与Ultralytics YOLO 等专业计算机视觉 (CV)模型区分开来。

  • CLIP擅长语义理解。它能从广义的概念角度理解图像的内容(例如,它能理解 "生日派对 "的概念)。它的强项是将语言与视觉连接起来,以完成分类和搜索等任务,这使它成为一个强大的视觉语言模型
  • YOLO 模型擅长定位。它们专为物体检测和分割而设计,可识别图像中物体的精确位置和边界(例如,定位生日派对上的每个人、蛋糕和气球)。

这些模型虽然各不相同,但却是相辅相成的。未来的 CV 可能会将 CLIP 等模型的语义上下文与YOLO11等探测器的定位精度结合起来,以构建更复杂的人工智能系统。

局限性和未来方向

尽管 CLIP 功能强大,但它也有局限性。由于它是在来自互联网的大量未经整理的数据基础上进行训练的,因此它可以吸收和复制这些数据中的社会偏见,从而引发人们对人工智能公平性和潜在算法偏见的担忧。此外,它在某些需要精细细节或空间推理的任务上也很吃力,比如精确计算物体数量。正在进行的研究,包括斯坦福大学基础模型研究中心(CRFM)等机构的工作,都集中在减少这些偏差和提高其能力上。将 CLIP 的知识整合到不同的工作流程中,可以通过Ultralytics HUB 等平台进行管理,从而简化模型和数据集管理

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板