Visual Reasoning

探索人工智能中的视觉推理，了解模型如何推断空间逻辑。发现如何使用 Ultralytics YOLO26 构建高级推理流水线。

人工智能中的视觉推理是指模型分析、解释视觉和空间数据并从中进行逻辑推演的能力。虽然标准的计算机视觉 (CV) 系统擅长识别场景中存在哪些物体，但视觉推理更进一步，旨在理解这些物体是如何相互作用以及为什么会产生这种相互作用的。受到人类视觉推理认知能力的启发并经由标准的认知心理学测试评估，此功能使 AI 模型能够进行复杂的图片分析，推断空间关系，并仅根据视觉上下文解决多步骤问题。这是在多模态 AI 系统中弥合原始感知与可执行智能之间鸿沟的关键组件。

Link to this section核心概念与“图像思维”范式#

从历史上看，机器学习模型在应用逻辑推演之前会将图像数据转换为文本。然而，2024 年和 2025 年的最新进展普及了一种范式，即模型能够内在地用图像思考。通过利用潜在的视觉推理，先进的视觉-语言模型 (VLM) 可以在得出结论之前生成中间视觉表征——类似于人类如何可视化心智地图，正如 NIH Toolbox 空间参数所定义的那样。

这种方法通常使用一种称为多模态思维可视化 (MVoT) 的机制。系统无需仅依赖基于文本的思维链，而是可以探索空间可视化推理来验证几何变化、评估遮挡并跟踪 3D 空间中的连续运动。

Link to this section视觉推理与相关能力对比#

将视觉推理与其他重叠的 AI 术语区分开来会有所帮助：

推理模型： 这是一个更广泛的类别，包含专为多步骤逻辑推演而设计的模型，通常用于文本、数学或编码。视觉推理专门将这些推演原则应用于视觉和空间数据。
视觉问答 (VQA)： VQA 是一种特定的应用或任务，AI 对用户关于图像的提示提供自然语言答案。视觉推理是支持 VQA 的底层认知能力，使模型能够根据空间上下文推断出正确答案。

Link to this section实际应用#

动态解释空间上下文的能力正在跨物理和数字领域开启变革性的智能代理工作流。

机器人与具身智能中的 AI： 自主智能体和机械臂需要复杂的空间智能来导航复杂的环境。通过利用视觉推理，机器人可以推断出一个易碎物体被堆叠在沉重的箱子下面，并从逻辑上规划一系列动作将其取出而不会造成损坏，这在很大程度上依赖于评估动态物理约束。
医疗诊断中的 AI： 在医学影像中，从业者使用视觉推理系统来超越基本的异常检测。模型可以评估 3D MRI 扫描，以从结构上推断肿瘤相对于周围器官的生长轨迹，从而为手术规划提供关键的几何背景。

Link to this section为推理流水线实现感知#

为了构建有效的推理系统，开发者依赖高速感知模型从物理世界中提取结构化上下文。Ultralytics YOLO26 作为一个强大的基础层，能迅速将像素转换为结构化的边界框坐标和对象类别。然后，这些结构化数据被输入到使用 PyTorch 或 TensorFlow 等框架构建的专用视觉推理引擎中，以评估空间逻辑。

如果你正在为此任务比较 YOLO26 和 YOLO11，YOLO26 的原生端到端架构可最大限度地减少推理延迟，使其成为实时逻辑流水线的理想选择。

以下 Python 代码片段演示了如何使用 YOLO26 提取空间坐标，从而提供下游空间推理所需的必要感知输入：

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Run inference to detect objects in a scene
results = model("https://ultralytics.com/images/bus.jpg")

# Extract structured spatial data for the visual reasoning engine
for result in results:
    for box in result.boxes:
        cls_name = model.names[int(box.cls)]
        # xyxy provides exact spatial coordinates (left, top, right, bottom)
        coords = box.xyxy[0].tolist()
        print(f"Object: {cls_name}, Spatial Coordinates: {coords}")

扩展这些复杂的多模态应用需要强大的基础设施。Ultralytics Platform 提供了一个统一的环境，可以无缝标注空间智能数据集、在云端训练模型并部署可靠的边缘感知系统。随着该领域向更先进的空间任务智能代理框架推进，并在前沿视觉研究的支持下，将高精度的目标检测与逻辑推演相结合代表了人工智能的下一个前沿。