Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Пространственный интеллект

Узнайте, как пространственный интеллект позволяет ИИ воспринимать и ориентироваться в трехмерном мире. Научитесь создавать системы с пространственным восприятием с помощью Ultralytics и Ultralytics .

Пространственный интеллект — это способность системы искусственного интеллекта воспринимать, понимать и ориентироваться в трехмерном физическом мире. В отличие от традиционного компьютерного зрения, которое часто анализирует 2D-изображения как статичные снимки, пространственный интеллект включает в себя рассуждения о глубине, геометрии, движении и взаимосвязях между объектами в динамичной среде. Оно позволяет машинам не просто «видеть» пиксели, но и понимать физический контекст сцены, что дает им возможность более эффективно взаимодействовать с реальным миром. Эта способность является мостом между цифровыми визуальными данными и физическими действиями, служа основой для передовых агентов искусственного интеллекта и робототехнических систем.

Основные компоненты пространственного интеллекта

Для достижения человекоподобного понимания пространства система ИИ опирается на несколько взаимосвязанных технологий и концепций.

  • Восприятие глубины и 3D-реконструкция: системы должны преобразовывать 2D-данные с камер в 3D-изображения. Такие технологии, как монокулярная оценка глубины, позволяют моделям прогнозировать расстояние по одному изображению, а 3D-обнаружение объектов помогает определять объем и ориентацию предметов в данном пространстве.
  • SLAM (одновременная локализация и картографирование): это позволяет устройству, например роботу или дрону, составлять карту неизвестной среды, track при track свое собственное местоположение в ней. Современные подходы часто объединяют визуальный SLAM с глубоким обучением для повышения надежности в меняющихся условиях освещения.
  • Геометрическое мышление: помимо обнаружения, система должна понимать физические ограничения — знать, что чашка стоит на столе или что для прохода необходимо открыть дверь. Это часто включает в себя оценку положения для track объектов или суставов человека в режиме реального времени.
  • Воплощенный ИИ: эта концепция связывает восприятие с действием. Воплощенный агент не просто наблюдает; он использует пространственные данные для планирования движений, обхода препятствий и манипулирования объектами, аналогично тому, как ИИ в робототехнике функционирует на производстве .

Применение в реальном мире

Пространственный интеллект преобразует отрасли промышленности, позволяя машинам автономно работать в сложных условиях.

  • Автономная робототехника и логистика: на складах роботы используют пространственный интеллект для навигации по переполненным проходам, идентификации конкретных упаковок с помощью обнаружения объектов и их точного размещения на конвейерах. Они должны рассчитывать пространственное соотношение между своим захватом и коробкой, чтобы обеспечить надежное удержание без раздавливания предмета.
  • Дополненная реальность (AR) и смешанная реальность: устройства, такие как умные очки, используют пространственные вычисления для привязки цифрового контента к физическому миру. Например, приложение AR для технического обслуживания может накладывать инструкции по ремонту непосредственно на конкретную деталь двигателя. Это требует точного отслеживания объектов, чтобы графика оставалась выровненной при движении головы пользователя.

Пространственный интеллект против компьютерного зрения

Несмотря на тесную взаимосвязь, полезно различать пространственный интеллект и компьютерное зрение. Компьютерное зрение — это более широкая область, направленная на извлечение значимой информации из цифровых изображений, видео и других визуальных данных. Она включает в себя такие задачи, как классификация или базовое 2D-обнаружение. Пространственный интеллект — это специализированное подполе или эволюция компьютерного зрения, которое специально добавляет измерение пространства и физики. Оно переходит от вопроса «Что это за объект?» (зрение) к вопросу «Где находится этот объект, как он ориентирован и как я могу с ним взаимодействовать?» (пространственный интеллект).

Реализация пространственного восприятия с помощью Ultralytics

Разработчики могут создавать основу для систем пространственного интеллекта с помощью Ultralytics . Обучая модели, такие как Ultralytics , выполнению таких задач, как обнаружение ориентированных ограничивающих рамок (OBB) или оценка положения, инженеры могут предоставлять необходимые геометрические данные для последующих робототехнических или AR-приложений .

Вот простой пример извлечения пространственных ключевых точек с помощью модели оценки позы, что является важным шагом в понимании движений человека в трехмерном пространстве:

from ultralytics import YOLO

# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")

# Access the keypoints (x, y coordinates and confidence)
for result in results:
    # keypoints.xy returns a tensor of shape (N, 17, 2)
    keypoints = result.keypoints.xy
    print(f"Detected keypoints for {len(keypoints)} persons.")

Недавние достижения в области Vision Transformers (ViT) и базовых моделей еще больше ускоряют развитие этой области, позволяя системам обобщать пространственное понимание в различных средах без необходимости повторного обучения. По мере продолжения исследований таких групп, как HAI Стэнфордского университета и Google , можно ожидать, что пространственный интеллект станет стандартной функцией в следующем поколении интеллектуальных устройств.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас