知识图谱
了解知识图谱如何通过建模复杂关系来革新 AI,从而实现语义搜索、个性化推荐等。
知识图谱是一种综合数据模型,它将信息组织并整合为现实世界中的实体网络(如对象、事件或抽象概念)以及它们之间的显式关系。
实体(如对象、事件、情境或抽象概念)以及它们之间的明确关系。与
标准的关系数据库将数据存储在死板的行和列中,知识图谱则将数据构造成一个
不同的是,知识图谱将数据结构为由相互连接的节点和边组成的灵活网络。这种架构反映了人类在认知过程中关联事实的方式、
使
人工智能(AI)系统能够
推理、推断上下文并发现海量数据集中隐藏的模式。这种语义结构是
语义网的基本要素,它创建了一个框架,在这个框架中,数据是
机可读和内在关联的框架。
知识图谱的解剖结构由两个主要部分组成:节点代表实体(如 "阿尔伯特-爱因斯坦 "或 "相对论"),边代表实体。
节点,代表实体(如 "阿尔伯特-爱因斯坦 "或 "相对论");边,定义它们之间的关系(如 "由......提出")。
定义它们之间关系的边(如 "由......提出")。通过遵守像
资源描述框架(RDF)等标准,这些图可以将不同的数据源统一起来。
统一起来。著名的实施案例包括
Google的知识图谱、
以及社区驱动的项目,如
维基数据。
在 AI 和机器学习中的应用
知识图谱在推进各种
知识图谱提供了统计模型可能会忽略的结构化上下文。
结构化背景,否则统计模型可能会忽略这些背景。
-
语义搜索:传统
搜索引擎通常依赖于关键词匹配。知识图谱使引擎能够理解查询背后的 "意图"。
查询背后的 "意图"。例如,搜索 "捷豹 "可能指的是动物或汽车品牌;知识图谱利用上下文来消除歧义,从而提供更精确的搜索结果。
知识图谱利用上下文来消除术语的歧义,从而提供更精确的结果。
-
推荐系统:在
在零售业的人工智能中,这些图表映射了用户、产品和购买行为之间复杂的
用户、产品和购买行为之间的复杂关系。如果用户购买了照相机,图谱就会理解其与 "SD 卡 "或 "三脚架 "之间的联系。
与 "SD 卡 "或 "三脚架 "的联系,不仅仅是因为其他人购买了它们,而是因为它们是功能相关的配件。
功能相关的配件。
-
检索增强生成(RAG):
大型语言模型 (LLM)
有时会生成似是而非的信息。通过
检索-增强生成(RAG)将知识图谱整合在一起,人工智能代理就可以在生成响应之前查询经过验证的真相来源,从而显著减少 LLM 的幻觉。
人工智能代理可以在生成响应之前查询经过验证的真相来源,从而大大减少LLM 中的幻觉并提高
事实准确性。
-
计算机视觉(CV)背景:
视觉模型能detect 物体,而知识图谱则能理解场景。知识图谱可以将检测到的
"头盔 "和 "背心 "与 "安全合规性 "的概念联系起来,从而为工业监控提供高级推理。
推理。
代码示例:提取图形的实体
下面的Python 代码段演示了如何使用
Ultralytics YOLO11模型来detect 图像中的物体。
这些检测结果可以作为填充知识图谱的实体节点,将图像与其包含的对象联系起来。
包含的对象。
from ultralytics import YOLO
# Load the official YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract entities to populate a knowledge graph node
graph_entities = []
for box in results[0].boxes:
class_id = int(box.cls)
entity_label = results[0].names[class_id]
confidence = float(box.conf)
# Create a simplified node representation
graph_entities.append({"entity": entity_label, "type": "Object", "confidence": confidence})
print(graph_entities)
真实世界的例子
-
医疗保健领域的药物发现:在医疗保健领域
人工智能在医疗保健领域的应用
图来模拟复杂的生物相互作用。通过连接基因、蛋白质、疾病和药物等实体
等数据库中的基因、蛋白质、疾病和药物
UniProt 等数据库中的基因、蛋白质、疾病和药物等实体联系起来,算法就能预测潜在的药物靶点和副作用。这
算法可以预测潜在的药物靶点和副作用。
医学图像分析或文献
回顾。
-
供应链优化:物流公司利用知识图谱创建供应链的数字孪生
其供应链的数字孪生图。节点代表供应商、仓库、零件和产品,边代表运输路线或装配依赖关系。
路线或装配依赖关系。这种结构有利于
大数据分析,使公司能够通过查询图
图来预测延误、优化路线和管理库存风险。
电子表格。
知识图谱与相关概念
要了解知识图谱的独特价值,最好将其与相关的数据管理和搜索技术区分开来。
搜索技术区别开来。
-
矢量数据库:矢量
数据库以高维嵌入的形式存储数据,以便进行相似性搜索(如查找看起来相似的图像)。
矢量数据库以高维嵌入的方式存储数据,可进行相似性搜索(例如,查找看起来相似的图像)。虽然对
矢量搜索功能强大,但它依赖于隐含的数学
接近性。相比之下,知识图谱依赖于显式的语义连接(例如 "A 暗示 B")。
-
关系数据库(RDBMS):传统数据库(如 SQL)将数据存储在具有固定模式的表中。
模式。它们擅长结构化事务,但在处理高度相互关联的数据时却显得力不从心。查询复杂的
关系(如朋友的朋友的朋友),在 SQL 中计算成本很高,但在图中使用
查询语言(如SPARQL或 Cypher)查询复杂的关系(如朋友的朋友
图数据库(如 Neo4j)中使用的查询语言(如 SPARQL 或 Cypher)。
-
自然语言处理(NLP):
NLP 专注于理解和生成人类语言。知识图谱通常是 NLP 系统的结构化 "记忆"。
"记忆",使其能够将语言能力建立在从数据挖掘工作中获得的事实数据的基础上。
数据挖掘工作。