Yolo 비전 선전
선전
지금 참여하기
용어집

Grounding

Explore how grounding connects natural language to visual data. Learn about open-vocabulary detection and how to implement it using [YOLO26](https://docs.ultralytics.com/models/yolo26/) and YOLO-World for real-time [multimodal AI](https://www.ultralytics.com/glossary/multimodal-ai) applications.

접지(grounding)란 인공 지능 시스템이 추상적 개념(일반적으로 자연어에서 파생됨)을 시각 데이터나 감각 입력과 같은 물리적 세계의 구체적 표현과 연결하는 능력을 의미합니다. 컴퓨터 비전 분야에서 이는 모델이 단순히 텍스트를 처리하는 것이 아니라 "개를 산책시키는 사람"과 같은 구문을 분석하여 이미지나 영상 피드 내에서 해당 개체를 정확히 위치 파악할 수 있음을 뜻합니다. 이 과정은 상징적 추론과 픽셀 수준 인식 사이의 간극을 메우며, 인지과학의 근본적인 상징 접지 문제를 해결합니다. 언어적 토큰을 시각적 특징에 연결함으로써 접지는 현대 다중 모달 AI의 초석 역할을 수행하며, 기계가 역동적인 인간 환경과 보다 직관적으로 상호작용할 수 있게 합니다.

접지의 메커니즘

기술적 수준에서 그라운딩은 서로 다른 모달리티의 데이터를 공유하는 고차원 벡터 공간으로 정렬하는 과정이다. 자연어 처리(NLP)에 사용되는 트랜스포머 프레임워크를 기반으로 구축된 고급 아키텍처는 텍스트 설명과 시각적 입력 모두에 대해 임베딩으로 알려진 수치적 표현을 생성한다. 훈련 과정에서 모델은 텍스트 프롬프트(예: "파란색 백팩")의 임베딩과 해당 시각 영역의 임베딩 사이 거리를 최소화하도록 학습합니다.

이러한 정렬 방식은 개방형 어휘 감지(Open-Vocabulary Detection)를 가능하게 합니다. 모델이 고정된 범주 집합에 국한되는 기존 지도 학습과 달리, 그라운딩(grounding)은 제로샷 학습(zero-shot learning)을 가능하게 합니다. 그라운딩된 모델은 훈련 과정에서 명시적으로 본 적이 없는 객체도 해당 객체를 설명하는 언어를 이해한다면 식별할 수 있습니다. 이러한 유연성은 PyTorch와 같은 딥러닝 프레임워크에 의해 지원됩니다. PyTorch과 같은 딥 러닝 프레임워크에 의해 지원되며, 이러한 다중 모달 정렬에 필요한 복잡한 행렬 연산을 용이하게 합니다.

실제 애플리케이션

접지 기술은 시스템이 사용자 의도를 해석하고 비정형 환경을 효과적으로 탐색할 수 있도록 함으로써 산업을 재편하고 있습니다.

  • 로봇공학에서의 인공지능:지상화 (Grounding)는 구두 지시를 실행하는 자율 에이전트에게 필수적이다. 창고 로봇이 "상단 선반의 패키지를 집어라"라는 지시를 받으면, "패키지"와 "상단 선반"이라는 개념을 시야 내 특정 3차원 좌표에 지상화해야 한다. 이 능력은 MIT CSAIL의 로봇공학 연구에서 주요 초점으로, 로봇이 인간과 함께 안전하게 작동할 수 있게 한다.
  • 의미 기반 검색 및 미디어 검색: 그라운딩 기술은 키워드 매칭을 넘어선 고급 검색 엔진의 핵심 동력입니다. 사용자는 "해질녘에 좌회전하는 자전거 타는 사람"과 같은 복잡한 설명으로 동영상 아카이브를 검색할 수 있으며, 시스템은 그라운딩을 활용해 특정 타임스탬프를 추출합니다. 이는 보안 및 미디어 관리를 위한 동영상 이해도를 크게 향상시킵니다.
  • 보조 기술: 시각 장애 사용자를 위해, 그라운딩은 애플리케이션이 실시간으로 주변 환경을 설명하거나 환경에 관한 질문에 답변할 수 있도록 지원합니다. 이는 음성 생성과 연계된 강력한 이미지 인식 기술에 기반합니다.

Ultralytics YOLO 접지하기

Ultralytics YOLO 같은 특수 아키텍처를 통해 접지를 지원합니다. 표준 모델은 특정 데이터셋으로의 훈련이 필요한 반면, YOLO 텍스트 프롬프트를 통해 사용자가 즉시 맞춤형 탐지 클래스를 정의할 수 있게 합니다. 이는 재훈련 없이도 자연어 입력을 이미지에 효과적으로 "접지"시킵니다.

다음 예는 ultralytics 사용자 정의 텍스트 설명을 기반으로 detect 패키지:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

접지와 관련 개념의 구분

접지의 유용성을 완전히 이해하기 위해서는 유사한 컴퓨터 비전 작업들과 구분하는 것이 도움이 됩니다:

  • vs. 객체 탐지: 최신 기술인 YOLO26과 같은 기존 탐지 모델은 사전 정의된 폐쇄형 범주 집합(예: COCO 80개 클래스)에서 객체를 식별합니다. 반면 그라운딩은 개방형으로, 자유 형식 텍스트를 기반으로 객체를 식별합니다.
  • vs. 이미지 캡셔닝: 캡셔닝은 전체 이미지에 대한 설명 문장을 생성합니다(이미지 $\to$ 텍스트). 그라운딩은 일반적으로 반대 방향 또는 양방향으로 작동하며, 텍스트 입력을 기반으로 특정 시각적 요소를 찾아냅니다(텍스트 $\to$ 이미지 영역).
  • vs. 시각적 질문 답변(VQA): VQA는 이미지에 대한 특정 질문(예: "차량은 어떤 색입니까?")에 답하는 작업입니다. 그라운딩은 특히 국소화 단계—언급된 객체 주변에 바운딩 박스를 그리는 작업—에 집중합니다.

과제 및 향후 전망

기술 발전에도 불구하고, 접지는 여전히 계산 집약적이다. 대규모 언어 모델을 비전 인코더와 정렬하는 GPU 상당한 GPU 효율적인 메모리 관리가 필요하며, 이는 종종 NVIDIA와 같은 하드웨어 혁신 기업들이 해결하는 과제이다. NVIDIA와 같은 하드웨어 혁신 기업들이 해결하는 과제입니다. 또한 모델은 언어적 모호성으로 인해 어려움을 겪을 수 있으며, "bat"이라는 단어가 스포츠 장비인지 동물인지 판단하기 위해선 넓은 문맥 창이 필요합니다.

미래 발전은 본질적으로 다중 모달을 지원하는 통합 기반 모델로 나아가고 있습니다. Ultralytics 같은 도구는 개발자가 이러한 작업에 필요한 복잡한 데이터셋을 관리할 수 있도록 진화하며, 데이터 주석 작업과 모델 배포를 위한 간소화된 워크플로를 제공합니다. 이러한 기술이 성숙해짐에 따라, 지오딩(grounding)이 에지 디바이스에 원활하게 통합되어 보다 스마트하고 반응성이 뛰어난 AI 애플리케이션이 가능해질 것으로 기대됩니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기