遇见 YOLO26: 下一代视觉 AI。
Ultralytics
指南

神经符号 AI 新兴领域的入门介绍

探索神经符号 AI 如何结合学习与逻辑,以构建能够理解上下文并提供更透明、可解释决策的系统。

ABAbirami Vina
6 min read
将神经网络与推理相结合的神经符号 AI

如今,得益于 人工智能 (AI) 的快速发展和计算能力的日益普及,先进 AI 模型的发布速度比以往任何时候都快。事实上,AI 领域正在推动许多行业的重大创新。

例如,在医疗保健领域,AI 系统正被用于辅助医疗影像分析等任务以实现早期诊断。然而,与任何技术一样,AI 也有其局限性。

一个主要的担忧是透明度。例如,目标检测模型可以准确地定位 MRI 脑部扫描中的肿瘤,但很难理解模型是如何得出这一结论的。这种可解释性的缺乏使得医生和研究人员更难完全信任或验证 AI 的结果。

这正是为什么人们对神经符号 AI 这一新兴领域越来越感兴趣。神经符号 AI 将 深度学习 的模式识别优势与 符号 AI 中结构化的、基于规则的推理相结合。其目标是创建不仅能做出准确预测,还能以人类可理解的方式解释其推理过程的系统。

在本文中,我们将探讨神经符号人工智能的工作原理,以及它如何将学习与推理结合起来,从而构建更透明、更具情境感知的系统。让我们开始吧!

Link to this section神经符号 AI 的两个方面:学习与推理#

在深入探讨神经符号 AI 之前,让我们先仔细看看它所融合的两个子领域:深度学习和符号 AI。

深度学习专注于识别数据中的模式,而符号 AI 则使用规则、逻辑或常识来推理问题。两者各有优缺点。通过将它们结合起来,神经符号 AI 创建了既能从数据中学习又能更清晰地解释其决策的系统。

Link to this section深度学习概述#

深度学习是机器学习的一个分支,它使用人工神经网络,其灵感在某种程度上来自于大脑处理信息的方式。这些网络通过分析大量数据并调整其内部连接来学习,从而提高性能。

这使得它们能够识别图像、声音和文本中的模式,而无需针对每种情况手工编写规则。正因如此,深度学习对于图像识别、语音处理和语言翻译等侧重感知的任务非常有效。

一个很好的例子是训练用于分割图像中物体的 计算机视觉模型。通过足够多的标记示例,它可以在实时交通监控中实时学会区分道路、车辆和行人。

然而,尽管它们很准确,但深度学习模型通常难以清晰地解释它们是如何得出特定结果的。这一挑战通常被称为“黑盒问题”,使得用户更难解释或验证模型的决策,特别是在医疗保健或金融等敏感领域。这一点至关重要,因为负责任的 AI 需要透明度、信任以及理解模型为何做出特定预测的能力。

Link to this section探索符号 AI#

符号 AI 采用了一种更结构化的智能和决策方法。它使用符号表示知识,并应用逻辑规则来处理这些知识,类似于我们使用推理和语言来解决问题的方式。推理过程中的每一步都是明确定义的,这使得符号 AI 的决策具有 透明度 且更容易解释。

符号知识在遵循清晰且定义明确的规则的任务中表现特别出色,例如规划、调度或管理结构化知识。然而,符号 AI 在处理非结构化数据或不完全符合预定义类别的场景时会遇到困难。

符号方法在实际应用中的一个常见例子是早期的国际象棋程序。它们遵循手工制作的规则和固定策略,而不是从之前的游戏中学习或适应不同的对手。结果,它们的玩法往往僵化且可预测。

AI 结构及其子领域一览

图 1. AI 结构及其子领域概览。(图片由作者提供)

Link to this section什么是神经符号 AI?#

2010 年代,随着深度学习的广泛采用,研究人员开始寻求超越简单的模式识别,转向理解关系和上下文的方法。这种转变使得 AI 模型不仅能够检测场景中的物体(如猫和垫子),还能解释这些物体之间的关系,例如识别出猫正坐在垫子上。

然而,这一进展也凸显了一个核心局限。深度学习模型在识别模式方面表现出色,但往往难以解释其推理过程或处理陌生情况。这种对推理的重新关注将研究人员带回了一个自 20 世纪 80 年代以来就已存在的领域:神经符号 AI。

神经符号 AI 集成了深度学习和符号 AI。它使模型能够像深度学习那样从示例中学习,同时也能像符号 AI 那样应用逻辑和推理。

简而言之,神经符号 AI 可以识别信息、理解上下文,并为其决策提供更清晰的解释。这种方法使我们更接近于开发出行为更可靠、更人性化的 AI 系统。

理解神经符号 AI

图 2. 理解神经符号 AI(图片由作者提供)

Link to this section神经符号 AI 的工作基础#

神经符号架构将学习和推理汇集在一个框架内。它通常包含三个主要部分:用于解释原始数据的神经感知层、用于应用逻辑的符号推理层,以及连接两者的集成层。接下来,我们将更深入地研究每一层。

Link to this section神经感知层#

神经感知组件处理非结构化数据(如图像、视频、文本或音频),并将其转换为系统可以处理的内部表示。它通常使用深度学习模型来检测输入中的模式并识别对象或特征。在此阶段,系统识别出数据中存在的内容,但尚不对其含义、关系或上下文进行推理。

以下是该层中常用的一些深度学习模型类型:

  • 卷积神经网络 (CNNs):它们是一种旨在处理网格状数据(如图像)的神经网络。CNN 使用卷积滤波器扫描图像以检测边缘、纹理和形状等模式。通过堆叠这些模式,它们学会识别汽车、水果和人等物体。
  • Transformer:Transformer 是旨在理解输入的不同部分之间如何相互关联的模型。它们不必严格按顺序读取信息,而是可以同时查看数据的多个部分,并决定哪些部分最重要。这有助于它们理解文本、图像或两者兼有的上下文。由于这种灵活性,Transformer 是大多数现代语言模型和许多视觉语言系统的核心架构。
  • 循环神经网络 (RNNs):这种类型的模型旨在分析序列数据,例如语音或时间序列信号。它保持着对先前输入的记忆,这意味着其预测可以将随时间变化的上下文考虑在内。

最终,这些神经模型从原始数据中提取并表示有意义的特征。这些输出随后成为符号推理层的输入,该层会对系统检测到的内容进行解释和推理。

Link to this section符号推理层#

符号推理层获取神经感知层产生的信息,并利用逻辑对其进行解析。它不仅依赖于模式,还依赖于规则、知识图谱、知识库和本体论(对概念及其相互关系的有组织描述)。这些有助于系统理解不同要素如何组合在一起,以及在给定情况下哪些操作是有意义的。

例如,在自动驾驶汽车中,神经感知层可能在摄像头画面中识别出一个红灯。随后,符号推理层可以应用一条规则,例如:“如果灯是红色的,车辆必须停车。”由于推理基于明确的规则,系统的决策更容易解释和验证,这在涉及安全和问责的场景中尤为重要。

Link to this section集成层#

集成层连接了神经感知层和符号推理层,确保学习和推理协同工作。在一个方向上,它将神经模型的输出(例如检测到行人)转换为描述该物体及其属性的符号表示。

在另一个方向上,它获取符号规则(例如“如果行人在人行横道上,车辆必须停车”)并将其转换为指导神经模型的信号。这可能涉及突出显示图像的相关区域、影响注意力或塑造模型的决策路径。

这种双向交换形成了一个反馈循环。神经端从符号规则中获得结构和可解释性,而符号端则能根据现实世界的数据更有效地进行调整。逻辑神经网络 (LNNs) 等技术通过将逻辑约束直接嵌入神经架构中,有助于实现这种交互。

通过这种方式连接感知和推理,神经符号 AI 可以产生既准确又易于解释的决策。许多研究人员将这种方法视为朝着更可靠、更符合人类 AI 迈出的有希望的一步,并有可能成为未来迈向 人工通用智能 (AGI) 的基础。

Link to this section神经符号 AI 的应用#

现在我们对什么是神经符号 AI 及其工作原理有了更好的理解,让我们来看看它的一些现实应用场景。

Link to this section驾驶更安全:从看到行人到理解行人#

自动驾驶汽车需要了解周围环境才能安全运行。它们使用计算机视觉等技术来检测行人、车辆、车道线和交通标志。

虽然深度学习模型可以准确识别这些物体,但它们并不总是理解这些物体在上下文中的含义,或者它们在现实情况中是如何相互关联的。例如,神经模型可能识别出人行横道上的行人,但无法判断他们是准备过马路还是只是站在那里等待。

神经符号 AI 试图通过使自动驾驶汽车能够将视觉识别与逻辑推理相结合来弥合这一差距,从而使它们能够解释情况,而不仅仅是识别物体。最新的 AI 研究表明,将神经感知与符号规则相结合的系统可以改善 行人行为预测

在这些系统中,神经组件分析行人的姿态、动作和位置等视觉线索。符号组件随后应用逻辑规则,考虑到行人是否靠近人行横道或当前交通信号指示什么等因素。

通过结合这两个视角,神经符号系统不仅能简单地检测到行人。它还可以对行人是否可能过马路做出合理的预测,并且可以解释为什么做出该决定。这使得自动驾驶汽车的行为更安全、更透明。

使用神经符号 AI 基于观察到的行人行为进行预测

图 3. 使用神经符号 AI 基于观察到的行人行为进行预测。(来源

Link to this section视觉问答中的逻辑解释#

神经符号 AI 的另一个重要应用是 视觉问答 (VQA)。VQA 系统旨在回答关于图像的问题。

它将大语言模型 (LLMs) 和视觉模型结合在一起执行多模态推理,将系统所见与所理解的内容结合起来。例如,如果向 VQA 系统展示一张图像并问:“杯子在桌子上吗?”,它不仅要识别物体,还要理解它们之间的关系。它需要确定杯子是否真的位于场景中的桌子上。

最近的一项研究展示了神经符号 AI 如何通过集成神经感知和符号推理来增强 VQA。在提出的系统中,神经网络首先分析图像以识别物体及其属性,例如颜色、形状或大小。

随后,符号推理组件应用逻辑规则来解释这些物体之间如何关联并回答问题。如果被问及“场景中有多少个灰色圆柱体?”,神经部分识别出所有圆柱体及其颜色,而符号部分则根据标准过滤它们并计算正确的数量。

需要抽象知识和逻辑的 VQA 场景示例

图 4. 需要抽象知识和逻辑的 VQA 场景示例。(来源

此类研究展示了神经符号 VQA 如何超越简单地提供答案。由于模型可以展示其得出结论所采取的步骤,它支持 可解释 AI,即系统能够做出预测并以人们能理解的方式证明其推理过程。

Link to this section神经符号 AI 的优缺点#

以下是使用神经符号 AI 的一些主要好处:

  • 更强的推理能力: 与纯深度学习模型不同,神经符号 AI 可以执行需要多步推理、规划、遵循规则以及处理结构化知识领域的任务,而这些正是符号 AI 的传统强项。
  • 适应性: 这些系统在处理新的或未见过的任务时表现良好,因为它们可以进行超出训练范围的逻辑推理。它们不仅是死记硬背数据,而是理解了关系和模式。
  • 对噪声和歧义的鲁棒性: 当数据嘈杂、不完整或模棱两可时,逻辑约束有助于防止错误。推理层可以强制执行规则,指导或纠正神经预测。

尽管潜力巨大,但神经符号 AI 仍在发展中,并伴随着某些实际挑战。以下是其一些主要局限性:

  • 复杂的集成: 虽然这种混合框架提供了强大的可解释性,但设计融合感知和推理的算法仍然具有挑战性。
  • 可扩展性: 在处理大型知识图谱或复杂规则集时,符号推理可能会变得缓慢或计算成本高昂。这使得自动驾驶、视频处理或大规模知识推理等实时应用更难高效部署。
  • 推理鲁棒性: 如果符号规则过于僵化,系统可能会在模棱两可或不可预测的现实场景中遇到困难。平衡灵活的学习与可靠的推理仍然是一个持续的挑战。

Link to this section关键要点#

神经符号 AI 代表了构建不仅能感知世界,而且能对世界进行推理并解释其决策的 AI 系统的重要一步。与主要依赖从数据中学习的模式的传统深度学习系统不同,神经符号 AI 将统计学习与结构化逻辑和知识相结合。它不是取代深度学习,而是在其基础上构建,使我们更接近于开发出能够以更像人类的方式理解和推理的 AI。

加入我们的 社区 并探索我们的 GitHub 存储库。查看我们的解决方案页面,发现 农业中的 AI医疗保健中的计算机视觉 的各种应用。探索我们的 许可选项 并开始构建你的视觉 AI 项目!

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅