اكتشف كيف تمكّن الذكاء المكاني الذكاء الاصطناعي من إدراك العالم ثلاثي الأبعاد والتنقل فيه. تعلم كيفية بناء أنظمة مدركة للمساحة باستخدام Ultralytics Ultralytics .
تشير الذكاء المكاني إلى قدرة نظام الذكاء الاصطناعي على إدراك وفهم والتنقل في العالم المادي في ثلاثة أبعاد. على عكس الرؤية الحاسوبية التقليدية، التي غالبًا ما تحلل الصور ثنائية الأبعاد على أنها لقطات ثابتة ، فإن الذكاء المكاني ينطوي على التفكير في العمق والهندسة والحركة والعلاقات بين الأشياء في بيئة ديناميكية. وهي تمكّن الآلات ليس فقط من "رؤية" وحدات البكسل، بل ومن فهم السياق المادي للمشهد، مما يتيح لها التفاعل مع العالم الحقيقي بشكل أكثر فعالية. هذه القدرة هي الجسر بين البيانات المرئية الرقمية والحركة المادية، وهي بمثابة حجر الزاوية لوكلاء الذكاء الاصطناعي المتقدمين والأنظمة الروبوتية.
لتحقيق فهم شبيه بالإنسان للمساحة، يعتمد نظام الذكاء الاصطناعي على العديد من التقنيات والمفاهيم المترابطة .
الذكاء المكاني يغير الصناعات من خلال تمكين الآلات من العمل بشكل مستقل في بيئات معقدة.
على الرغم من ارتباطهما الوثيق، من المفيد التمييز بين الذكاء المكاني والرؤية الحاسوبية. الرؤية الحاسوبية هي مجال أوسع يركز على استخلاص معلومات مفيدة من الصور الرقمية والفيديوهات والمدخلات البصرية الأخرى. وهي تشمل مهام مثل التصنيف أو الكشف الأساسي ثنائي الأبعاد. الذكاء المكاني هو مجموعة فرعية متخصصة أو تطور للرؤية الحاسوبية تضيف على وجه التحديد بعد الفضاء والفيزياء. وهي تنتقل من "ما هذا الشيء؟" (الرؤية) إلى "أين هذا الشيء، وكيف يتم توجيهه، وكيف يمكنني التفاعل معه؟" (الذكاء المكاني).
يمكن للمطورين بناء أساس أنظمة الذكاء المكاني باستخدام Ultralytics . من خلال تدريب نماذج مثل Ultralytics على مهام مثل الكشف عن الصندوق المحدد الموجه (OBB) أو تقدير الوضع، يمكن للمهندسين توفير البيانات الهندسية اللازمة لتطبيقات الروبوتات أو الواقع المعزز .
فيما يلي مثال بسيط لاستخراج النقاط المرجعية المكانية باستخدام نموذج تقدير الوضع، وهو خطوة حاسمة في فهم حركة الإنسان داخل الفضاء ثلاثي الأبعاد:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
التطورات الحديثة في محولات الرؤية (ViT) و نماذج الأساس تسرع هذا المجال بشكل أكبر، مما يسمح للأنظمة بتعميم الفهم المكاني عبر بيئات مختلفة دون الحاجة إلى إعادة تدريب مكثفة. مع استمرار الأبحاث من مجموعات مثل HAI في ستانفورد و Google ، يمكننا أن نتوقع أن تصبح الذكاء المكاني ميزة قياسية في الجيل القادم من الأجهزة الذكية.