Узнайте, как пространственный интеллект позволяет ИИ воспринимать и ориентироваться в трехмерном мире. Научитесь создавать системы с пространственным восприятием с помощью Ultralytics и Ultralytics .
Пространственный интеллект — это способность системы искусственного интеллекта воспринимать, понимать и ориентироваться в трехмерном физическом мире. В отличие от традиционного компьютерного зрения, которое часто анализирует 2D-изображения как статичные снимки, пространственный интеллект включает в себя рассуждения о глубине, геометрии, движении и взаимосвязях между объектами в динамичной среде. Оно позволяет машинам не просто «видеть» пиксели, но и понимать физический контекст сцены, что дает им возможность более эффективно взаимодействовать с реальным миром. Эта способность является мостом между цифровыми визуальными данными и физическими действиями, служа основой для передовых агентов искусственного интеллекта и робототехнических систем.
Для достижения человекоподобного понимания пространства система ИИ опирается на несколько взаимосвязанных технологий и концепций.
Пространственный интеллект преобразует отрасли промышленности, позволяя машинам автономно работать в сложных условиях.
Несмотря на тесную взаимосвязь, полезно различать пространственный интеллект и компьютерное зрение. Компьютерное зрение — это более широкая область, направленная на извлечение значимой информации из цифровых изображений, видео и других визуальных данных. Она включает в себя такие задачи, как классификация или базовое 2D-обнаружение. Пространственный интеллект — это специализированное подполе или эволюция компьютерного зрения, которое специально добавляет измерение пространства и физики. Оно переходит от вопроса «Что это за объект?» (зрение) к вопросу «Где находится этот объект, как он ориентирован и как я могу с ним взаимодействовать?» (пространственный интеллект).
Разработчики могут создавать основу для систем пространственного интеллекта с помощью Ultralytics . Обучая модели, такие как Ultralytics , выполнению таких задач, как обнаружение ориентированных ограничивающих рамок (OBB) или оценка положения, инженеры могут предоставлять необходимые геометрические данные для последующих робототехнических или AR-приложений .
Вот простой пример извлечения пространственных ключевых точек с помощью модели оценки позы, что является важным шагом в понимании движений человека в трехмерном пространстве:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
Недавние достижения в области Vision Transformers (ViT) и базовых моделей еще больше ускоряют развитие этой области, позволяя системам обобщать пространственное понимание в различных средах без необходимости повторного обучения. По мере продолжения исследований таких групп, как HAI Стэнфордского университета и Google , можно ожидать, что пространственный интеллект станет стандартной функцией в следующем поколении интеллектуальных устройств.