探索融合现实 (MR),这项技术可将虚拟对象与现实世界无缝融合。了解 AI 和计算机视觉如何为这种互动体验提供支持。
融合现实(MR)是人类与数字内容交互方式的一次复杂演变,它创造了一个物理世界与虚拟世界密不可分的环境。 在这种环境中,物理世界和虚拟世界密不可分。与增强现实(AR)中的基本叠加不同 与增强现实(AR)中的基本叠加不同,混合现实 现实技术确保数字对象不仅出现在用户的视野中,而且还能与现实世界的环境进行物理交互。 现实世界的环境进行物理交互。在混合现实场景中,虚拟球可以从物理桌面上滚落,并在真实地面上弹跳、 或者一个数字角色可以躲在现实生活中的沙发后面,展示出对深度、遮挡和物理边界的理解。 物理边界。这种无缝集成在很大程度上依赖于先进的 计算机视觉(CV)和 人工智能(AI)来实时映射周围环境。 实时映射周围环境。
要使 "融合现实 "令人信服,系统必须对物理世界有深刻的语义理解。要做到这一点 要做到这一点,需要将激光雷达传感器和深度摄像头等专用硬件 激光雷达传感器和深度摄像头,以及强大的软件 算法。核心技术通常包括 同步定位和绘图 (SLAM),允许设备在构建未知环境地图的同时track 自身运动。
在这一管道中,深度学习(DL)模型 发挥着举足轻重的作用。具体来说 物体检测可识别场景中的物品、 而实例分割则会划定它们的 精确的边界。这种像素级的精确度对于 "遮挡"--即真实物体遮挡虚拟物体的视觉效果--至关重要。 这种视觉效果是指真实物体遮挡了虚拟物体的视线,从而保持深度的错觉。高性能模型,如 Ultralytics YOLO11这样的高性能模型通常用于提供低 推理延迟,以保持这些 交互所需的低推理延迟,使用户能够顺利进行交互,不会感到恶心。
掌握空间计算术语可能具有挑战性。将这些技术视为 虚拟性的连续体:
通过弥合数字数据与实际行动之间的差距,混合现实技术正在改变各行各业。
任何混合现实系统的基本组成部分都是能够detect 和定位现实世界中的物体,从而使虚拟内容能够对其做出反应。
的能力,这样虚拟内容才能对它们做出反应。下面的示例展示了如何利用
ultralytics 来执行实时物体检测,从而提供锚定虚拟资产所需的坐标数据。
锚定虚拟资产所需的坐标数据。
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform inference on an image (or video frame from an MR headset)
results = model("path/to/scene.jpg")
# Display results
# In an MR app, the bounding box coordinates (results[0].boxes.xyxy)
# would be used to anchor 3D graphics to the detected object.
results[0].show()
融合现实技术的未来与边缘人工智能的发展息息相关。 边缘人工智能的发展息息相关。随着头显和眼镜变得越来越轻,处理视觉数据的重任 处理视觉数据的繁重工作必须直接在设备上进行,以尽量减少延迟。在 模型量化技术的进步使复杂的神经网络 在移动硬件上高效运行。此外,集成 此外,生成式人工智能的整合使动态虚拟资产的创建成为可能。 资产,使我们更接近广泛应用空间计算的愿景。 空间计算的愿景。 空间计算的愿景。