Explore how grounding connects natural language to visual data. Learn about open-vocabulary detection and how to implement it using [YOLO26](https://docs.ultralytics.com/models/yolo26/) and YOLO-World for real-time [multimodal AI](https://www.ultralytics.com/glossary/multimodal-ai) applications.
접지(grounding)란 인공 지능 시스템이 추상적 개념(일반적으로 자연어에서 파생됨)을 시각 데이터나 감각 입력과 같은 물리적 세계의 구체적 표현과 연결하는 능력을 의미합니다. 컴퓨터 비전 분야에서 이는 모델이 단순히 텍스트를 처리하는 것이 아니라 "개를 산책시키는 사람"과 같은 구문을 분석하여 이미지나 영상 피드 내에서 해당 개체를 정확히 위치 파악할 수 있음을 뜻합니다. 이 과정은 상징적 추론과 픽셀 수준 인식 사이의 간극을 메우며, 인지과학의 근본적인 상징 접지 문제를 해결합니다. 언어적 토큰을 시각적 특징에 연결함으로써 접지는 현대 다중 모달 AI의 초석 역할을 수행하며, 기계가 역동적인 인간 환경과 보다 직관적으로 상호작용할 수 있게 합니다.
기술적 수준에서 그라운딩은 서로 다른 모달리티의 데이터를 공유하는 고차원 벡터 공간으로 정렬하는 과정이다. 자연어 처리(NLP)에 사용되는 트랜스포머 프레임워크를 기반으로 구축된 고급 아키텍처는 텍스트 설명과 시각적 입력 모두에 대해 임베딩으로 알려진 수치적 표현을 생성한다. 훈련 과정에서 모델은 텍스트 프롬프트(예: "파란색 백팩")의 임베딩과 해당 시각 영역의 임베딩 사이 거리를 최소화하도록 학습합니다.
이러한 정렬 방식은 개방형 어휘 감지(Open-Vocabulary Detection)를 가능하게 합니다. 모델이 고정된 범주 집합에 국한되는 기존 지도 학습과 달리, 그라운딩(grounding)은 제로샷 학습(zero-shot learning)을 가능하게 합니다. 그라운딩된 모델은 훈련 과정에서 명시적으로 본 적이 없는 객체도 해당 객체를 설명하는 언어를 이해한다면 식별할 수 있습니다. 이러한 유연성은 PyTorch와 같은 딥러닝 프레임워크에 의해 지원됩니다. PyTorch과 같은 딥 러닝 프레임워크에 의해 지원되며, 이러한 다중 모달 정렬에 필요한 복잡한 행렬 연산을 용이하게 합니다.
접지 기술은 시스템이 사용자 의도를 해석하고 비정형 환경을 효과적으로 탐색할 수 있도록 함으로써 산업을 재편하고 있습니다.
Ultralytics YOLO 같은 특수 아키텍처를 통해 접지를 지원합니다. 표준 모델은 특정 데이터셋으로의 훈련이 필요한 반면, YOLO 텍스트 프롬프트를 통해 사용자가 즉시 맞춤형 탐지 클래스를 정의할 수 있게 합니다. 이는 재훈련 없이도 자연어 입력을 이미지에 효과적으로 "접지"시킵니다.
다음 예는 ultralytics 사용자 정의 텍스트 설명을 기반으로 detect 패키지:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
접지의 유용성을 완전히 이해하기 위해서는 유사한 컴퓨터 비전 작업들과 구분하는 것이 도움이 됩니다:
기술 발전에도 불구하고, 접지는 여전히 계산 집약적이다. 대규모 언어 모델을 비전 인코더와 정렬하는 GPU 상당한 GPU 효율적인 메모리 관리가 필요하며, 이는 종종 NVIDIA와 같은 하드웨어 혁신 기업들이 해결하는 과제이다. NVIDIA와 같은 하드웨어 혁신 기업들이 해결하는 과제입니다. 또한 모델은 언어적 모호성으로 인해 어려움을 겪을 수 있으며, "bat"이라는 단어가 스포츠 장비인지 동물인지 판단하기 위해선 넓은 문맥 창이 필요합니다.
미래 발전은 본질적으로 다중 모달을 지원하는 통합 기반 모델로 나아가고 있습니다. Ultralytics 같은 도구는 개발자가 이러한 작업에 필요한 복잡한 데이터셋을 관리할 수 있도록 진화하며, 데이터 주석 작업과 모델 배포를 위한 간소화된 워크플로를 제공합니다. 이러한 기술이 성숙해짐에 따라, 지오딩(grounding)이 에지 디바이스에 원활하게 통합되어 보다 스마트하고 반응성이 뛰어난 AI 애플리케이션이 가능해질 것으로 기대됩니다.