Découvrez la réalité mixte (RM), la technologie qui fusionne de manière transparente les objets virtuels avec le monde réel. Découvrez comment l'IA et la vision par ordinateur alimentent cette expérience interactive.
La réalité fusionnée (RM) représente une évolution sophistiquée dans la manière dont les humains interagissent avec le contenu numérique, créant un environnement où les mondes physique et virtuel deviennent inextricablement liés. un environnement où les mondes physique et virtuel sont inextricablement liés. Contrairement aux superpositions de base que l'on trouve dans la réalité augmentée (RA), la réalité fusionnée La réalité fusionnée garantit que les objets numériques n'apparaissent pas seulement dans le champ de vision de l'utilisateur, mais qu'ils interagissent aussi physiquement avec l'environnement réel. l'environnement réel. Dans un scénario de RM, une balle virtuelle peut rouler sur une table physique et rebondir sur le sol réel, ou un personnage numérique peut se cacher derrière un canapé réel, démontrant ainsi une compréhension de la profondeur, de l'occlusion et des limites physiques. des limites physiques. Cette intégration transparente s'appuie fortement sur les technologies avancées de vision par ordinateur (VPI) et sur l'intelligence artificielle (IA ) l'intelligence artificielle (IA) pour cartographier les l'environnement en temps réel.
Pour que la réalité fusionnée soit convaincante, le système doit posséder une compréhension sémantique approfondie du monde physique. Cette compréhension sémantique est obtenue grâce à une combinaison de matériel spécialisé, tel que des ordinateurs de poche. par une combinaison de matériel spécialisé, comme les capteurs LiDAR et les caméras de profondeur, et de puissants logiciels. les capteurs LiDAR et les caméras de profondeur, et de puissants algorithmes puissants. La technologie de base implique souvent La localisation et la cartographie simultanées (SLAM), qui permet à un appareil de track son propre mouvement tout en construisant une carte de l'environnement inconnu.
Au sein de ce pipeline, les modèles d'apprentissage profond (Deep Learning, DL) jouent un rôle central. Plus précisément, la détection d' objets identifie les éléments de la scène, tandis que la segmentation des instances délimite leurs frontières précises. Cette précision au niveau du pixel est cruciale pour l'"occlusion", l'effet visuel dans lequel un objet réel bloque la vue d'un objet virtuel, maintenant ainsi l'illusion de la profondeur. réel bloque la vue d'un objet virtuel, ce qui maintient l'illusion de profondeur. Des modèles très performants tels que Ultralytics YOLO11 sont souvent utilisés pour fournir la faible latence d'inférence latence d'inférence nécessaire pour que ces interactions soient fluides et exemptes de nausées pour l'utilisateur.
Naviguer dans la terminologie de l'informatique spatiale peut s'avérer difficile. Il est utile de considérer ces technologies sur le continuum de la virtualité continuum de la virtualité:
La réalité fusionnée transforme les industries en comblant le fossé entre les données numériques et l'action physique.
L'un des éléments fondamentaux de tout système de réalité fusionnée est la capacité de detect et de localiser des objets dans le monde réel afin que le contenu virtuel puisse réagir à ces objets.
réel afin que le contenu virtuel puisse y réagir. L'exemple suivant montre comment utiliser
ultralytics de détecter les objets en temps réel, ce qui permet d'obtenir les coordonnées nécessaires à l'ancrage des actifs virtuels.
l'ancrage des biens virtuels.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform inference on an image (or video frame from an MR headset)
results = model("path/to/scene.jpg")
# Display results
# In an MR app, the bounding box coordinates (results[0].boxes.xyxy)
# would be used to anchor 3D graphics to the detected object.
results[0].show()
L'avenir de la réalité fusionnée est étroitement lié au développement de l'IA de pointe. Edge AI. Les casques et les lunettes devenant de plus en plus légers, le traitement des données visuelles doit se faire directement sur l'appareil afin de minimiser le temps de latence. traitement des données visuelles doit se faire directement sur l'appareil afin de minimiser les délais. Les progrès en matière de quantification des modèles permettent aux réseaux neuronaux complexes complexes de fonctionner efficacement sur du matériel mobile. En outre, l'intégration de l l 'IA générative permet de créer des actifs virtuels dynamiques à la volée, ce qui nous rapproche dynamiques à la volée, ce qui nous rapproche de la vision d'une informatique spatiale généralisée, où l'on ne peut pas se passer de l'information. l'informatique spatiale, où le physique et le physique et numérique sont indiscernables.