AI의 그라운딩이 추상적인 개념을 실제 데이터에 연결하여 동적 애플리케이션에서 컨텍스트, 정확성 및 신뢰를 어떻게 향상시키는지 알아보세요.
접지란 인공 지능(AI) 의 추상적인 개념(일반적으로 자연어의 단어나 구문)을 이미지의 픽셀이나 로봇의 감각 데이터와 같은 이미지의 픽셀이나 로봇의 감각 데이터와 같은 물리적 세계에 연결하는 과정입니다. 간단히 말해서, 컴퓨터가 "잠자는 고양이"라는 "잠자는 고양이"라는 텍스트를 컴퓨터가 읽었다면, 접지는 사진을 보고 고양이가 위치한 특정 영역( 특정 영역을 식별하는 기능입니다. 이 기능은 언어적 기호와 지각적 정보 사이의 의미적 간극을 메워줍니다. 정보 사이의 의미적 간극을 메워줍니다. 인지 과학의 상징 접지 문제. 기존 시스템에서는 기존 시스템은 텍스트와 이미지를 개별적으로 처리할 수 있지만, 접지를 사용하면 멀티모달 AI는 텍스트와 이미지의 관계를 보다 직관적인 인간과 기계의 상호작용을 촉진합니다.
기술적 수준에서 접지는 고차원 벡터 공간을 정렬하는 데 의존합니다. 최신 모델은 다음을 활용합니다. 딥러닝(DL) 아키텍처, 특히 트랜스포머를 사용하여 텍스트와 이미지를 임베딩이라고 하는 임베딩이라고 하는 수치 표현으로 변환합니다. 학습하는 동안 학습하는 동안 모델은 텍스트 구문(예: "빨간 자동차")의 임베딩을 해당 개체에 해당하는 시각적 특징인 해당 개체에 해당하는 시각적 특징을 매핑하는 방법을 학습합니다.
이 프로세스를 통해 개방형 어휘 감지가 가능합니다. 고정된 목록으로 제한되는 표준 객체 감지와는 달리 의 사전 학습된 클래스(예: COCO 80개 클래스)로 제한되는 표준 개체 감지와 달리, 접지 모델은 텍스트에 설명된 모든 개체를 식별할 수 있습니다. 프롬프트. 이는 제로 샷 학습을 활용합니다. 모델은 훈련 중에 이전에 명시적으로 본 적이 없는 객체를 단순히 언어를 이해함으로써 식별합니다. 설명하는 언어를 이해하는 것만으로 식별합니다. CLIP에 대한 OpenAI와 같은 기관의 연구를 통해 이러한 시각적 표현과 텍스트 표현을 일치시키기 위한 토대를 마련했습니다.
접지는 기계가 사용자의 의도를 해석하고 환경과 상호 작용하는 방식을 변화시킵니다.
그리고 ultralytics 패키지를 통해 접지를 지원합니다. YOLO 모델입니다. 이 모델
을 사용하면 사용자가 텍스트 프롬프트를 사용하여 사용자 정의 클래스를 즉석에서 정의할 수 있으므로 재교육 없이도 텍스트를
이미지에 효과적으로 "접지"할 수 있습니다.
다음 예는 사전 학습된 모델을 로드하고 특정 개체를 detect 사용자 지정 프롬프트를 정의하는 방법을 보여줍니다. 객체를 감지하는 방법을 보여줍니다:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
접지를 이해하려면 유사한 컴퓨터 비전 작업과 구분하는 것이 도움이 됩니다:
기술 발전에도 불구하고 접지는 여전히 계산 집약적인 작업입니다. 방대한 언어 모델을 비전과 정렬하기 인코더에 맞추려면 상당한 GPU 리소스가 필요합니다. 또한 모델 은 "은행"이라는 문구가 강둑이나 금융 기관을 지칭할 수 있는 모호성 때문에 어려움을 겪을 수 있습니다, AI는 컨텍스트 창에 의존하여 정확한 시각적 근거를 찾아야 합니다.
이러한 모델이 효율적으로 작동하도록 보장하는 것은 실시간 추론을 위해 효율적으로 작동하도록 하는 것은 개발 중입니다. 연구원들은 또한 데이터 편향 문제를 해결하고 있습니다. 다양한 문화와 맥락에서 공정하게 일반화할 수 있도록 데이터 편향 문제를 해결하고 있습니다. AI 윤리학에서 자주 논의되는 주제이기도 합니다.