术语表

嵌入

了解什么是嵌入,以及嵌入如何通过捕捉数据中的语义关系为 NLP、推荐和计算机视觉提供人工智能支持。

嵌入是现代机器学习(ML)的基石,是一种将文字、图像甚至用户等高维数据转换为有意义、密集和低维数字向量的强大方法。嵌入的主要目的是捕捉原始数据的语义关系和潜在上下文。在这个向量空间中,具有相似含义或特征的项目会被放置在彼此更靠近的位置。这样,人工智能模型就能执行复杂的推理和相似性任务,而这在原始的非结构化数据中是不可能实现的。

如何创建嵌入

嵌入通常是由深度学习模型在训练过程中自动学习的。通常使用PyTorchTensorFlow 等框架构建的神经网络会根据相关任务进行训练,例如预测句子中的下一个单词或对图像进行分类。然后将该网络中的一个隐藏层用作嵌入层。当模型学会执行任务时,它会调整该层的权重,从而有效地学会将每个输入项映射到一个包含其最重要特征的向量上。这一过程就是一种降维,将海量信息压缩成紧凑有用的格式。

应用与实例

嵌入式是从自然语言处理(NLP)计算机视觉等各种人工智能应用的基础。

  • 电子商务推荐引擎推荐系统使用嵌入式来代表用户和产品。如果用户经常购买或查看具有相似嵌入式的商品(如各种跑步装备),系统就能识别该向量邻域中的其他产品(如能量胶或水合包)并向其推荐。这比简单的关键词匹配要有效得多。
  • 语义搜索和图像检索语义搜索系统不依赖于标签或元数据,而是使用嵌入技术根据概念含义查找结果。用户可以搜索 "暑假照片",系统会检索出海滩、山脉和旅行场景的图片,即使图片描述中没有这些确切的词语。这得益于CLIP 等模型,它们能为文本和图像生成对齐的嵌入,从而实现强大的多模式模型功能。同样的原理可以实现强大的可视化搜索,这是许多现代应用程序的关键功能。您甚至可以使用我们的相似性搜索指南创建自己的搜索

其他应用还包括药物发现(嵌入分子以预测相互作用)和音乐流媒体服务(推荐具有相似音频特征的歌曲)。

嵌入与相关概念

将嵌入与相关术语区分开来很有帮助:

  • 嵌入与特征提取嵌入是通过深度学习实现的一种复杂的、通常是自动化的特征提取形式。传统的特征工程可能需要手动定义特征(例如,图像的颜色直方图),而嵌入式则是在训练过程中直接从数据中学习相关特征。
  • 嵌入与矢量搜索/矢量数据库:嵌入是数据项的矢量表示。矢量搜索是查询嵌入集合,找出与查询矢量最相似(最接近)的嵌入的过程,通常使用近似近邻(ANN)算法来提高效率。矢量数据库(如PineconeMilvus)是专门的数据库,针对大量嵌入式数据的存储、索引和快速矢量搜索进行了优化。
  • 嵌入与标记化标记化是将文本分解成更小单位(标记)的过程。然后将这些标记映射到嵌入式中。因此,标记化是创建或检索嵌入表示之前的一个初步步骤。BERTGPT-4等具有里程碑意义的 NLP 模型都依赖于这两步过程。

嵌入为机器学习模型提供了一种强大的数据表示方式,使其能够理解不同数据类型中的语义相似性和复杂模式。嵌入式是Ultralytics HUB 等现代 ML 平台不可或缺的功能,它简化了对象检测图像分类等任务的高级人工智能模型的创建。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板