Ultralytics 비전 언어 모델(VLM) Ultralytics 탐구하세요. Ultralytics 활용하여 VQA 및 오픈 어휘 감지를 위해 컴퓨터 비전과 대규모 언어 모델(LLM)을 어떻게 연결하는지 알아보세요.
비전 언어 모델(VLM)은 시각 정보(이미지 또는 동영상)와 텍스트 정보를 동시에 처리하고 해석할 수 있는 인공 지능의 한 유형입니다. 기존 컴퓨터 비전 모델이 픽셀 데이터에만 집중하거나, 대규모 언어 모델(LLM) 이 텍스트만 이해하는 것과 달리, VLM은 이 두 모달리티 간의 격차를 해소합니다. 이미지-텍스트 쌍으로 구성된 방대한 데이터셋으로 훈련함으로써, 이 모델들은 시각적 특징을 언어적 개념과 연관시키는 법을 학습하여 이미지를 설명하고, 시각적 장면에 대한 질문에 답하며, 심지어 "보는 것"을 기반으로 명령을 실행할 수 있습니다.
기본적으로 VLM은 일반적으로 두 가지 주요 구성 요소로 이루어집니다: 비전 인코더와 텍스트 인코더입니다. 비전 인코더는 이미지를 처리하여 특징 맵과 시각적 표현을 추출하는 반면, 텍스트 인코더는 언어적 입력을 처리합니다. 이러한 서로 다른 데이터 흐름은 크로스 어텐션과 같은 메커니즘을 사용하여 시각적 정보와 텍스트 정보를 공유 임베딩 공간에서 정렬시키기 위해 융합됩니다.
2024년과 2025년의 최근 발전은 단일 트랜스포머 백본이 두 가지 모달리티를 모두 처리하는 더 통합된 아키텍처로 나아가고 있습니다. 예를 들어, Google 2 와 같은 모델은 이러한 스트림을 효과적으로 통합함으로써 복잡한 추론 작업에서 성능을 향상시킬 수 있음을 보여줍니다. 이러한 정렬을 통해 모델은 맥락을 이해할 수 있게 되는데, 예를 들어 "apple"이라는 단어가 식료품점 이미지에서는 과일을 의미하지만 로고에서는 기술 회사를 의미한다는 것을 인식할 수 있습니다.
시각과 언어를 통해 세상을 이해하는 능력은 다양한 산업 분야에 걸쳐 다채로운 응용 가능성을 열어줍니다:
VLMs의 특정 역할을 이해하기 위해 다른 AI 범주와 구분하는 것이 유용합니다:
현대식 VLMs는 사전 정의된 클래스 대신 자유 형식 텍스트 프롬프트를 사용해 detect 수 있는 "개방형 어휘" 탐지를 지원합니다. 이는 Ultralytics YOLO 같은 모델의 핵심 기능으로, 재훈련 없이 동적 클래스 정의를 가능하게 합니다.
다음 예는 ultralytics detect 객체를 detect 패키지
텍스트로 설명된:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
비전 언어 모델은 강력하지만 상당한 과제에 직면해 있습니다. 주요 문제 중 하나는 환각 현상인데, 이는 모델이 실제로 존재하지 않는 이미지 내의 객체나 텍스트를 확신하며 설명하는 경우를 말합니다. 연구자들은 인간 피드백 기반 강화 학습(RLHF)과 같은 기법을 통해 정확성과 근거성을 개선하기 위해 적극적으로 연구하고 있습니다.
또 다른 과제는 계산 비용입니다. 이러한 대규모 모델을 훈련하려면 상당한 GPU 필요합니다. 그러나 Ultralytics 같은 효율적인 아키텍처의 출시로 에지 디바이스에 고급 비전 기능을 적용하는 데 도움이 되고 있습니다. 앞으로 VLM이 로봇 에이전트에서 핵심적인 역할을 수행하여 로봇이 복잡한 언어 명령을 기반으로 물체를 탐색하고 조작할 수 있게 될 것으로 기대됩니다.
이론적 기반에 관심이 있는 분들을 위해, OpenAI의 원본 CLIP 논문은 대비적 언어-이미지 사전 훈련에 대한 탁월한 통찰력을 제공합니다. 또한 이러한 아키텍처의 급속한 발전을 추적하려면 CVPR 학회 논문을 꾸준히 살펴보는 것이 필수적입니다. 자체 비전 모델 훈련을 실험하려면 데이터셋 관리와 모델 배포를 효율적으로 처리할 수 있는 Ultralytics 활용할 수 있습니다.