遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Visual Reasoning

探索人工智能中的视觉推理,了解模型如何推断空间逻辑。发现如何使用 Ultralytics YOLO26 构建高级推理流水线。

人工智能中的视觉推理是指模型分析、解释视觉和空间数据并从中进行逻辑推演的能力。虽然标准的 计算机视觉 (CV) 系统擅长识别场景中存在哪些物体,但视觉推理更进一步,旨在理解这些物体是如何相互作用以及为什么会产生这种相互作用的。受到 人类视觉推理认知能力 的启发并经由标准的 认知心理学测试 评估,此功能使 AI 模型能够进行复杂的图片分析,推断空间关系,并仅根据视觉上下文解决多步骤问题。这是在 多模态 AI 系统中弥合原始感知与可执行智能之间鸿沟的关键组件。

Link to this section核心概念与“图像思维”范式#

从历史上看,机器学习模型在应用逻辑推演之前会将图像数据转换为文本。然而,2024 年和 2025 年的最新进展普及了一种范式,即模型能够内在地 用图像思考。通过利用潜在的视觉推理,先进的 视觉-语言模型 (VLM) 可以在得出结论之前生成中间视觉表征——类似于人类如何可视化心智地图,正如 NIH Toolbox 空间参数 所定义的那样。

这种方法通常使用一种称为多模态思维可视化 (MVoT) 的机制。系统无需仅依赖基于文本的思维链,而是可以探索 空间可视化推理 来验证几何变化、评估遮挡并跟踪 3D 空间中的连续运动。

Link to this section视觉推理与相关能力对比#

将视觉推理与其他重叠的 AI 术语区分开来会有所帮助:

  • 推理模型 这是一个更广泛的类别,包含专为多步骤逻辑推演而设计的模型,通常用于文本、数学或编码。视觉推理专门将这些推演原则应用于视觉和空间数据。
  • 视觉问答 (VQA) VQA 是一种特定的应用或任务,AI 对用户关于图像的提示提供自然语言答案。视觉推理是支持 VQA 的底层认知能力,使模型能够根据空间上下文推断出正确答案。

Link to this section实际应用#

动态解释空间上下文的能力正在跨物理和数字领域开启变革性的 智能代理工作流

  • 机器人与具身智能中的 AI 自主智能体和机械臂需要复杂的空间智能来导航复杂的环境。通过利用视觉推理,机器人可以推断出一个易碎物体被堆叠在沉重的箱子下面,并从逻辑上规划一系列动作将其取出而不会造成损坏,这在很大程度上依赖于 评估动态物理约束
  • 医疗诊断中的 AI 在医学影像中,从业者使用视觉推理系统来超越基本的 异常检测。模型可以评估 3D MRI 扫描,以从结构上推断肿瘤相对于周围器官的生长轨迹,从而为手术规划提供关键的几何背景。

Link to this section为推理流水线实现感知#

为了构建有效的推理系统,开发者依赖高速感知模型从物理世界中提取结构化上下文。Ultralytics YOLO26 作为一个强大的基础层,能迅速将像素转换为结构化的 边界框 坐标和对象类别。然后,这些结构化数据被输入到使用 PyTorchTensorFlow 等框架构建的专用视觉推理引擎中,以评估空间逻辑。

如果你正在为此任务 比较 YOLO26 和 YOLO11,YOLO26 的原生端到端架构可最大限度地减少推理延迟,使其成为实时逻辑流水线的理想选择。

以下 Python 代码片段演示了如何使用 YOLO26 提取空间坐标,从而提供下游空间推理所需的必要感知输入:

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Run inference to detect objects in a scene
results = model("https://ultralytics.com/images/bus.jpg")

# Extract structured spatial data for the visual reasoning engine
for result in results:
    for box in result.boxes:
        cls_name = model.names[int(box.cls)]
        # xyxy provides exact spatial coordinates (left, top, right, bottom)
        coords = box.xyxy[0].tolist()
        print(f"Object: {cls_name}, Spatial Coordinates: {coords}")

扩展这些复杂的多模态应用需要强大的基础设施。Ultralytics Platform 提供了一个统一的环境,可以无缝标注 空间智能 数据集、在云端训练模型并部署可靠的边缘感知系统。随着该领域向更先进的 空间任务智能代理框架 推进,并在 前沿视觉研究 的支持下,将高精度的 目标检测 与逻辑推演相结合代表了人工智能的下一个前沿。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅