探索神经符号人工智能如何将学习和逻辑结合起来,以构建能理解上下文并提供更透明、可解释决策的系统。
探索神经符号人工智能如何将学习和逻辑结合起来,以构建能理解上下文并提供更透明、可解释决策的系统。
如今,由于人工智能(AI)的快速发展和计算能力的不断提高,先进的人工智能模型发布的速度比以往任何时候都要快。事实上,人工智能领域正在推动许多行业进行有意义的创新。
例如,在医疗保健领域,人工智能系统正被用于协助分析医疗图像以进行早期诊断等任务。然而,与任何技术一样,人工智能也有其局限性。
一个主要的问题是透明度。例如,物体检测模型可能会在核磁共振脑部扫描中准确定位肿瘤,但很难理解该模型是如何得出这一结论的。由于缺乏可解释性,医生和研究人员很难完全信任或验证人工智能的结果。
这正是神经符号人工智能这一新兴领域日益受到关注的原因。神经符号人工智能将深度学习的模式识别优势与符号人工智能中基于规则的结构化推理相结合。其目标是创造出既能做出准确预测,又能以人类能够理解的方式解释其推理的系统。
在本文中,我们将探讨神经符号人工智能的工作原理,以及它如何将学习和推理结合在一起,从而构建更加透明、具有上下文感知能力的系统。让我们开始吧!
在深入研究神经符号人工智能之前,让我们先仔细看看它所汇集的两个子领域:深度学习和符号人工智能。
深度学习侧重于识别数据中的模式,而符号人工智能则使用规则、逻辑或常识来推理问题。二者各有所长,但也有局限性。神经符号人工智能将两者结合起来,创造出既能从数据中学习,又能更清晰地解释其决策的系统。
深度学习是机器学习的一个分支,它使用人工神经网络,灵感来源于大脑处理信息的方式。这些网络通过分析大量数据和调整内部连接来提高性能。
这使它们能够识别图像、声音和文本中的模式,而无需针对每种情况手工制定规则。正因为如此,深度学习对于图像识别、语音处理和语言翻译等以感知为重点的任务非常有效。
一个很好的例子就是经过训练的计算机视觉模型,可以分割图像中的物体。有了足够多的标注示例,它就能学会在实时交通录像中分离道路、车辆和行人。
然而,尽管深度学习模型很准确,但它们往往很难清楚地解释它们是如何得出特定结果的。这一挑战通常被称为 "黑箱问题",它使用户更难解释或验证模型的决策,尤其是在医疗保健或金融等敏感领域。这一点非常重要,因为负责任的人工智能需要透明度、信任以及理解模型为何做出某种预测的能力。
符号人工智能对智能和决策采取了一种更有条理的方法。它使用符号来表示知识,并应用逻辑规则来处理这些知识,类似于我们使用推理和语言来解决问题的方式。推理过程中的每一步都有定义,这使得符号人工智能的决策透明化,更容易解释。
符号知识在遵循清晰明确规则的任务中尤其有效,例如规划、调度或管理结构化知识。然而,符号人工智能在处理非结构化数据或不完全符合预定义类别的情况时就会遇到困难。
早期的国际象棋程序就是符号方法应用的一个常见例子。它们遵循手工制定的规则和固定的策略,而不是从以前的对局中学习或适应不同的对手。因此,它们的棋局往往是僵化和可预测的。

2010 年代,随着深度学习得到越来越广泛的应用,研究人员开始寻找超越简单模式识别的方法,进而理解关系和上下文。这一转变使人工智能模型不仅能检测场景中的物体,如猫和垫子,还能解释这些物体之间的关系,如识别出猫坐在垫子上。
然而,这一进展也凸显了一个核心局限。深度学习模型可以很好地识别模式,但它们往往难以解释自己的推理或处理不熟悉的情况。对推理的重新关注让研究人员回到了自 20 世纪 80 年代就已存在的领域:神经符号人工智能。
神经符号人工智能整合了深度学习和符号人工智能。它能让模型以深度学习的方式从示例中学习,同时也能像符号人工智能那样应用逻辑和推理。
简而言之,神经符号人工智能可以识别信息、理解上下文,并为其决策提供更清晰的解释。这种方法让我们更接近于开发出行为更可靠、更像人类的人工智能系统。

神经符号架构将学习和推理整合在一个框架内。它通常包括三个主要部分:解释原始数据的神经感知层、应用逻辑的符号推理层以及连接两者的整合层。接下来,我们将仔细研究每一层。
神经感知组件处理非结构化数据,如图像、视频、文本或音频,并将其转换为系统可以处理的内部表征。它通常使用深度学习模型来检测模式并识别输入中的对象或特征。在这一阶段,系统能识别数据中的内容,但还不能推理出意义、关系或上下文。
以下是本层中常用的几种深度学习模型:
最终,这些神经模型从原始数据中提取并表示出有意义的特征。然后,这一输出将成为符号推理层的输入,符号推理层将对系统检测到的内容进行解释和推理。
符号推理层利用神经感知层产生的信息,并通过逻辑加以理解。它不只是根据模式来工作,而是依靠规则、知识图谱、知识库和本体(对概念及其相互关系的有组织描述)等东西。这些都有助于系统理解不同元素如何相互配合,以及在特定情况下哪些行为是合理的。
例如,在自动驾驶汽车中,神经感知层可以从摄像头画面中识别出红色交通信号灯。然后,符号推理层就可以应用一条规则,比如:"如果是红灯,车辆必须停止"。由于推理是基于明确的规则,系统的决定更容易解释和验证,这在安全和责任至关重要的情况下尤为重要。
整合层连接神经感知层和符号推理层,确保学习和推理同时进行。在一个方向上,它将神经模型的输出(如检测行人)转换为描述物体及其属性的符号表征。
在另一个方向上,它采用符号规则(例如,"如果行人在人行横道上,车辆必须停下来"),并将其转化为指导神经模型的信号。这可能涉及突出图像的相关区域、影响注意力或塑造模型的决策路径。
这种双向交流形成了一个反馈回路。神经方面从符号规则中获得结构和可解释性,而符号方面则可以根据真实世界的数据进行更有效的调整。逻辑神经网络(LNN)等技术通过将逻辑约束直接嵌入神经架构,有助于实现这种互动。
通过这种方式将感知和推理联系起来,神经符号人工智能可以做出既准确又更容易解释的决定。许多研究人员认为,这种方法是迈向更可靠、更符合人类需求的人工智能的重要一步,并有可能为未来人工通用智能(AGI)的发展奠定基础。
既然我们已经对什么是神经符号人工智能及其工作原理有了更深入的了解,那就让我们来看看它在现实世界中的一些应用案例吧。
自动驾驶汽车需要了解周围环境才能安全运行。它们利用计算机视觉等技术来探测行人、车辆、车道标记和交通标志。
虽然深度学习模型可以准确识别这些对象,但它们并不总能理解这些对象在上下文中的含义,或者它们在现实世界中的相互关系。例如,神经模型可能会识别出人行横道上的行人,但却无法判断他们是要过马路还是只是站着等待。
神经符号人工智能试图弥合这一差距,使自动驾驶汽车能够将视觉识别与逻辑推理相结合,从而能够解释情况而不仅仅是识别物体。最近的人工智能研究表明,将神经感知与符号规则相结合的系统可以改善行人行为预测。
在这些系统中,神经组件分析行人的姿势、动作和位置等视觉线索。然后,符号组件应用逻辑规则,考虑行人是否靠近人行横道或当前交通信号指示等因素。
将这两个角度结合起来,神经符号系统所能做的就不仅仅是检测到行人这么简单了。它可以合理预测行人是否可能横穿马路,并解释自己做出这一决定的原因。这将使自动驾驶汽车的行为更安全、更透明。

神经符号人工智能的另一个重要应用是视觉问题解答(VQA)。VQA 系统旨在回答有关图像的问题。
它将大型语言模型(LLM)和视觉模型结合起来,执行多模态推理,将系统看到的与系统理解的结合起来。例如,如果向 VQA 系统展示一幅图像,并询问 "杯子在桌子上吗?",该系统不仅要识别物体,还要理解物体之间的关系。它需要确定杯子是否确实位于场景中桌子的顶部。
最近的一项研究展示了神经符号人工智能如何通过将神经感知与符号推理相结合来增强 VQA。在提议的系统中,神经网络首先分析图像,识别物体及其属性,如颜色、形状或大小。
然后,符号推理部分会应用逻辑规则来解释这些物体之间的关系,并回答问题。如果问 "场景中有多少个灰色圆柱体?",神经部分会识别出所有圆柱体及其颜色,符号部分会根据标准对其进行过滤,并计算出正确的圆柱体。

这些研究展示了神经符号 VQA 如何超越单纯提供答案的范畴。由于模型可以显示得出结论的步骤,因此它支持可解释的人工智能,即系统以人们可以理解的方式进行预测并证明其推理的合理性。
以下是使用神经符号人工智能的一些主要优势:
尽管神经符号人工智能潜力巨大,但它仍在不断发展,并面临着一些实际挑战。以下是它的一些主要局限:
神经符号人工智能是朝着构建不仅能感知世界,还能推理世界并解释其决策的人工智能系统迈出的重要一步。传统的深度学习系统主要依赖从数据中学到的模式,而神经符号人工智能则不同,它将统计学习与结构化逻辑和知识相结合。它不是取代深度学习,而是建立在深度学习的基础上,让我们更接近于开发出能以更像人类的方式理解和推理的人工智能。
加入我们的社区,探索我们的GitHub 存储库。查看我们的解决方案页面,了解人工智能在农业和计算机视觉在医疗保健领域的各种应用。了解我们的许可选项,开始构建您的人工智能视觉项目!