词汇表

CLIP (对比语言-图像预训练)

了解 OpenAI 的 CLIP 如何通过零样本学习、图像-文本对齐以及计算机视觉中的实际应用来革新 AI。

CLIP（对比语言-图像预训练）是由 OpenAI 开发的一项突破性的多模态模型，它在共享的理解空间中连接文本和图像。与为单一任务（如图像分类）训练的传统模型不同，CLIP 直接从自然语言描述中学习视觉概念。它在来自互联网的大量图像-文本对数据集上进行训练，使其能够执行各种任务，而无需为每个任务进行专门训练，这种能力被称为零样本学习。这种方法使其成为新一代 AI 应用的强大基础模型。

工作原理

CLIP背后的核心思想是学习一个共享的嵌入空间，其中图像和文本都可以表示为向量。它使用两个独立的编码器：一个用于图像的Vision Transformer (ViT)或类似的架构，以及一个用于文本的文本Transformer。在训练过程中，模型会获得一批图像-文本对，并学习预测哪个文本标题对应于哪个图像。这是通过对比学习实现的，模型的目标是最大化正确配对的嵌入相似度，同时最小化不正确配对的嵌入相似度。结果在原始研究论文中有详细说明，是对概念的强大理解，将视觉数据与语言环境联系起来。一个开源实现OpenCLIP，在LAION-5B等数据集上训练，已使这项技术得到广泛应用。

实际应用

CLIP 的独特功能使其适用于多种实际用途：

语义图像搜索：CLIP 为高级搜索系统提供支持，用户可以使用自然语言查询而不是关键词标签来查找图像。例如，用户可以在电子商务目录中搜索“男士蓝色条纹衬衫”，即使产品没有明确标记这些确切的词语，也能获得相关的结果。Ultralytics 提供了一种语义图像搜索解决方案，该解决方案使用 CLIP 和 FAISS（Facebook AI 相似性搜索），以便在大型图像库中进行快速准确的检索。
内容审核：社交媒体平台可以使用CLIP自动标记描述其政策中所述内容的图像，例如仇恨符号或暴力画面。这比传统方法更灵活，因为它可以通过文本描述识别违规行为，而无需为每种可能的违禁内容类型预先标记数据集。
指导生成式 AI： CLIP 的编码器对于指导生成式 AI 模型（如 DALL-E 或 Stable Diffusion）至关重要。当用户提供文本提示时，CLIP 会评估生成的图像，以查看其与提示含义的匹配程度，从而指导模型生成更准确和相关的视觉效果。
提高可访问性: 该模型可以自动生成丰富的、描述性的图像标题，屏幕阅读器可以使用这些标题向视力障碍用户描述视觉内容，从而显着提高 Web 可访问性。

CLIP vs. YOLO

区分 CLIP 与专门的计算机视觉 (CV)模型（如 Ultralytics YOLO）非常重要。

CLIP擅长语义理解。它从广泛的概念意义上理解图像包含什么（例如，它理解“生日派对”的概念）。它的优势在于将语言与视觉效果联系起来，以进行分类和搜索等任务，使其成为强大的视觉语言模型。
YOLO 模型 擅长定位。它们专为目标检测和分割而设计，可识别图像中物体的精确位置和边界（例如，定位生日聚会上的每个人、蛋糕和气球）。

这些模型虽然不同，但具有互补性。CV 的未来可能涉及将 CLIP 等模型的语义上下文与 YOLO11 等检测器的定位精度相结合，以构建更复杂的 AI 系统。

局限性和未来方向

尽管CLIP功能强大，但它也存在局限性。由于它是在来自互联网的大量未经整理的数据上训练的，因此它可能会吸收并复制该数据中存在的社会偏见，从而导致人们对AI公平性和潜在的算法偏见的担忧。它还在某些需要精细细节或空间推理的任务中表现不佳，例如准确地计算对象。包括斯坦福大学基础模型研究中心（CRFM）等机构的工作在内的持续研究，侧重于减轻这些偏见并提高其能力。可以使用Ultralytics HUB等平台管理将CLIP的知识集成到不同工作流程中，该平台简化了模型和数据集管理。

CLIP (对比语言-图像预训练)

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

工作原理

实际应用

CLIP vs. YOLO

局限性和未来方向

阅读更多此类别的内容

Ultralytics 在 2025 年 PyTorch 大会上的主要亮点

利用自我监督学习对图像进行去噪处理

视觉人工智能为驾驶员注意力监控系统提供动力

加入 Ultralytics 社区