深圳尤洛视觉
深圳
立即加入
词汇表

CLIP (对比语言-图像预训练)

了解 OpenAI 的 CLIP 如何通过零样本学习、图像-文本对齐以及计算机视觉中的实际应用来革新 AI。

CLIP(对比语言-图像预训练)是由 OpenAI 开发的一项突破性的多模态模型,它在共享的理解空间中连接文本和图像。与为单一任务(如图像分类)训练的传统模型不同,CLIP 直接从自然语言描述中学习视觉概念。它在来自互联网的大量图像-文本对数据集上进行训练,使其能够执行各种任务,而无需为每个任务进行专门训练,这种能力被称为零样本学习。这种方法使其成为新一代 AI 应用的强大基础模型

工作原理

CLIP背后的核心思想是学习一个共享的嵌入空间,其中图像和文本都可以表示为向量。它使用两个独立的编码器:一个用于图像的Vision Transformer (ViT)或类似的架构,以及一个用于文本的文本Transformer。在训练过程中,模型会获得一批图像-文本对,并学习预测哪个文本标题对应于哪个图像。这是通过对比学习实现的,模型的目标是最大化正确配对的嵌入相似度,同时最小化不正确配对的嵌入相似度。结果在原始研究论文中有详细说明,是对概念的强大理解,将视觉数据与语言环境联系起来。一个开源实现OpenCLIP,在LAION-5B等数据集上训练,已使这项技术得到广泛应用。

实际应用

CLIP 的独特功能使其适用于多种实际用途:

  • 语义图像搜索:CLIP 为高级搜索系统提供支持,用户可以使用自然语言查询而不是关键词标签来查找图像。例如,用户可以在电子商务目录中搜索“男士蓝色条纹衬衫”,即使产品没有明确标记这些确切的词语,也能获得相关的结果。Ultralytics 提供了一种语义图像搜索解决方案,该解决方案使用 CLIP 和 FAISS(Facebook AI 相似性搜索),以便在大型图像库中进行快速准确的检索。
  • 内容审核:社交媒体平台可以使用CLIP自动标记描述其政策中所述内容的图像,例如仇恨符号或暴力画面。这比传统方法更灵活,因为它可以通过文本描述识别违规行为,而无需为每种可能的违禁内容类型预先标记数据集。
  • 指导生成式 AI: CLIP 的编码器对于指导 生成式 AI 模型(如 DALL-E 或 Stable Diffusion)至关重要。当用户提供文本提示时,CLIP 会评估生成的图像,以查看其与提示含义的匹配程度,从而指导模型生成更准确和相关的视觉效果。
  • 提高可访问性: 该模型可以自动生成丰富的、描述性的图像标题,屏幕阅读器可以使用这些标题向视力障碍用户描述视觉内容,从而显着提高 Web 可访问性

CLIP vs. YOLO

区分 CLIP 与专门的计算机视觉 (CV)模型(如 Ultralytics YOLO)非常重要。

  • CLIP擅长语义理解。它从广泛的概念意义上理解图像包含什么(例如,它理解“生日派对”的概念)。它的优势在于将语言与视觉效果联系起来,以进行分类和搜索等任务,使其成为强大的视觉语言模型
  • YOLO 模型 擅长 定位。它们专为 目标检测 和分割而设计,可识别图像中物体的精确位置和边界(例如,定位生日聚会上的每个人、蛋糕和气球)。

这些模型虽然不同,但具有互补性。CV 的未来可能涉及将 CLIP 等模型的语义上下文与 YOLO11 等检测器的定位精度相结合,以构建更复杂的 AI 系统。

局限性和未来方向

尽管CLIP功能强大,但它也存在局限性。由于它是在来自互联网的大量未经整理的数据上训练的,因此它可能会吸收并复制该数据中存在的社会偏见,从而导致人们对AI公平性和潜在的算法偏见的担忧。它还在某些需要精细细节或空间推理的任务中表现不佳,例如准确地计算对象。包括斯坦福大学基础模型研究中心(CRFM)等机构的工作在内的持续研究,侧重于减轻这些偏见并提高其能力。可以使用Ultralytics HUB等平台管理将CLIP的知识集成到不同工作流程中,该平台简化了模型和数据集管理

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板