공간 지능이 어떻게 AI가 3차원 세계를 인식하고 탐색할 수 있게 하는지 알아보세요. Ultralytics Ultralytics 활용해 공간 인지 시스템을 구축하는 방법을 배워보세요.
공간 지능은 인공 지능 시스템이 물리적 세계를 3차원으로 인지하고 이해하며 탐색하는 능력을 의미합니다. 기존 컴퓨터 비전이 주로 정적 스냅샷으로 2D 이미지를 분석하는 것과 달리, 공간 지능은 깊이, 기하학, 움직임, 동적 환경 내 객체 간 관계에 대한 추론을 포함합니다. 이는 기계가 단순히 픽셀을 '보는' 것을 넘어 장면의 물리적 맥락을 이해하도록 하여 실제 세계와 더 효과적으로 상호작용할 수 있게 합니다. 이 능력은 디지털 시각 데이터와 물리적 행동 사이의 가교 역할을 하며, 고급 AI 에이전트와 로봇 시스템의 초석이 됩니다.
인간과 유사한 공간 이해력을 달성하기 위해, 인공지능 시스템은 상호 연결된 여러 기술과 개념에 의존한다.
공간 지능은 복잡한 환경에서 기계가 자율적으로 작동할 수 있도록 함으로써 산업을 변화시키고 있다.
비록 밀접하게 연관되어 있지만, 공간 지능과 컴퓨터 비전을 구분하는 것이 유용합니다. 컴퓨터 비전은 디지털 이미지, 동영상 및 기타 시각적 입력에서 의미 있는 정보를 도출하는 데 초점을 맞춘 더 광범위한 분야입니다. 분류나 기본적인 2D 탐지와 같은 작업을 포함합니다. 공간 지능은 컴퓨터 비전의 특수한 하위 분야 또는 진화 형태로, 공간과 물리적 차원을 구체적으로 추가합니다. 이는 "이 물체는 무엇인가?"(비전)에서 "이 물체는 어디에 있으며, 어떻게 배치되어 있고, 어떻게 상호작용할 수 있는가?"(공간 지능)로 진화합니다.
개발자는 Ultralytics 활용하여 공간 지능 시스템의 기반을 구축할 수 있습니다. 엔지니어는 Ultralytics 같은 모델을 방향성 경계 상자(OBB) 탐지나 자세 추정과 같은 작업에 훈련함으로써 하류 로봇공학 또는 AR 애플리케이션에 필요한 기하학적 데이터를 제공할 수 있습니다.
다음은 3차원 공간 내에서 인간의 움직임을 이해하는 데 핵심적인 단계인 자세 추정 모델을 사용하여 공간적 키포인트를 추출하는 간단한 예시입니다:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
비전 트랜스포머(ViT) 와 파운데이션 모델의 최근 발전은 이 분야를 더욱 가속화하여, 시스템이 광범위한 재훈련 없이도 다양한 환경에서 공간적 이해를 일반화할 수 있게 합니다. 스탠퍼드 HAI 및 Google 같은 연구진의 연구가 지속됨에 따라, 차세대 스마트 기기에서 공간 지능이 표준 기능으로 자리 잡을 것으로 기대됩니다.