YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

Grounding

AI의 그라운딩이 추상적인 개념을 실제 데이터에 연결하여 동적 애플리케이션에서 컨텍스트, 정확성 및 신뢰를 어떻게 향상시키는지 알아보세요.

Grounding은 인공지능 분야에서 자연어로 표현된 개념을 이미지나 비디오와 같은 다른 양식의 해당 데이터에 연결하거나 'grounding'하는 작업입니다. 간단히 말해, '프리스비를 잡는 개'와 같은 구문이 특정 그림 내에서 무엇을 의미하는지 기계가 이해하도록 가르치는 것입니다. 이는 언어적 설명을 지각 세계의 특정 객체, 속성 및 관계에 연결하여 단순한 인식을 뛰어넘습니다. Grounding은 추상적인 언어와 구체적인 감각 입력 사이의 간극을 좁혀 더욱 인간과 유사한 방식으로 세상과 상호 작용할 수 있는 AI 시스템을 만드는 데 중요한 기능입니다. 자연어 처리(NLP)컴퓨터 비전(CV)을 모두 통합하는 고급 멀티모달 모델의 핵심 구성 요소입니다.

Grounding은 어떻게 작동하나요?

Grounding 모델은 이미지와 텍스트 설명이 짝을 이루는 대규모 데이터 세트에서 훈련됩니다. 이러한 설명에는 이미지 내의 특정 영역 또는 객체에 연결된 자세한 구문이 포함되는 경우가 많으며, 때로는 바운딩 박스로 정의되기도 합니다. 일반적으로 Transformer 기반 아키텍처를 사용하는 모델은 텍스트와 이미지 모두에 대해 풍부한 숫자 표현 또는 임베딩을 생성하는 방법을 학습합니다. 그런 다음 이러한 임베딩을 정렬하여 '오른쪽에 있는 높은 건물'이라는 구문의 표현이 이미지의 해당 픽셀 영역의 표현과 밀접하게 일치하도록 학습합니다. 이 프로세스는 기호(단어)가 어떻게 의미를 갖게 되는지에 대한 철학적, 기술적 과제인 기호 Grounding 문제의 기본입니다. YOLO-World와 같은 최신 모델은 grounding 원리의 실제 적용인 개방형 어휘 감지를 개척하고 있습니다.

실제 애플리케이션

Grounding은 시각적 장면을 미묘하게 이해해야 하는 정교한 애플리케이션을 가능하게 합니다.

  • 대화형 로봇 공학: 로봇 공학에서 그라운딩을 통해 로봇은 자연어 명령을 따를 수 있습니다. 예를 들어 사용자는 창고 로봇에게 "큰 파란색 상자 뒤에 있는 작은 빨간색 상자를 집어 올리십시오."라고 지시할 수 있습니다. 로봇의 AI는 이 전체 문구를 그라운딩하여 객체, 속성(작은, 빨간색, 큰, 파란색) 및 공간 관계(뒤에)를 이해하여 작업을 올바르게 실행해야 합니다. 이는 제조 자동화에서 의료 분야의 보조 로봇에 이르기까지 애플리케이션에 매우 중요합니다.
  • 시각적 질의 응답(VQA) 및 이미지 검색: "소화전 옆에 주차된 차는 무슨 색깔이야?"와 같은 질문을 시스템에 던졌을 때, 시스템은 먼저 "차"와 "소화전"이라는 구문을 이미지 내에서 찾아내야 합니다. 그런 후에야 차의 색깔을 식별하고 질문에 답할 수 있습니다. 이는 더욱 직관적이고 강력한 시맨틱 검색 도구를 가능하게 하고, 더 유용한 가상 비서 개발을 지원합니다.

관련 개념과의 차별성

그라운딩을 다른 컴퓨터 비전 작업과 구별하는 것이 중요합니다.

  • 객체 감지: 표준 객체 감지는 고정된 어휘에서 미리 정의된 클래스('사람', '자전거' 등)의 인스턴스를 식별합니다. 대조적으로, 그라운딩은 개방형 어휘 작업입니다. 표준 감지기가 처리할 수 없는 "화창한 날에 자전거를 타는 사람"과 같이 자유 형식의 설명적인 자연어를 기반으로 객체의 위치를 찾습니다.
  • 시맨틱 분할: 이 작업은 이미지의 모든 픽셀에 클래스 레이블을 할당합니다(예: 모든 픽셀에 '하늘', '도로' 또는 '나무'로 레이블 지정). 그라운딩은 텍스트 프롬프트에 설명된 특정 객체 또는 영역만 분리하는 데 더 중점을 둡니다. 이는 인스턴스 분할의 한 형태인 참조 표현식 분할이라는 하위 작업과 더 밀접한 관련이 있습니다.

과제 및 향후 방향

견고한 접지(grounding) 모델을 개발하는 데에는 몇 가지 어려움이 있습니다. 인간 언어의 고유한 모호성과 풍부함을 모델링하기가 어렵습니다. 필요한 대규모의 정확하게 주석이 달린 데이터 세트를 만드는 데 비용과 노동력이 많이 소요됩니다. 예를 들어 RefCOCO와 같은 데이터 세트가 있습니다. 또한 이러한 복잡한 모델을 훈련하는 데 필요한 컴퓨팅 리소스는 상당할 수 있으며, 종종 분산 훈련 또는 광범위한 클라우드 훈련이 필요합니다. 실시간 추론을 위해 모델이 효율적으로 수행되도록 하는 것 또한 중요한 과제입니다.

미래 연구는 arXiv와 같은 플랫폼에 자주 게시되며, 보이지 않는 객체 설명에 더 잘 일반화하기 위해 제로샷 학습과 같은 기술을 통해 성능을 향상시키는 데 중점을 둡니다. Allen Institute for AI (AI2)와 같은 조직은 이러한 영역을 적극적으로 연구하고 있습니다. 그라운딩 기술이 발전함에 따라 더욱 자연스러운 인간-AI 협업이 가능해지고 AI 시스템이 세상에 대한 진정하고 실행 가능한 이해에 더 가까워질 것입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.