Yolo 비전 선전
선전
지금 참여하기
용어집

시각적 지시 조정

시각적 지시 조정이 어떻게 비전 언어 모델이 인간의 지시를 따르도록 하는지 알아보세요. Ultralytics 사용하여 고급 AI 워크플로를 구축하는 방법을 배워보세요.

시각적 지시 튜닝은 기존의 자연어 처리 기법을 다중 모달 영역으로 확장하는 혁신적인 기계 학습 기술입니다. 개발자는 비전 언어 모델(VLM) 을 훈련시켜 이미지나 동영상 입력을 기반으로 한 명확한 인간의 지시를 따르도록 함으로써, 시각적 콘텐츠를 이해하고 추론할 수 있는 AI 비서를 만들 수 있습니다. 사전 정의된 범주를 출력하는 일반적인 이미지 분류 모델과 달리, 시각적 지시 튜닝은 모델이 장면 묘사, 이미지 내 텍스트 읽기, 공간적 관계에 대한 구체적인 질문 답변과 같은 복잡하고 개방형 과제를 수행할 수 있도록 지원합니다. 이는 텍스트 기반 대규모 언어 모델(LLM) 과 기존 컴퓨터 비전 파이프라인 간의 격차를 해소합니다.

개념과 차이점 이해하기

시각적 지시 조정을 제대로 이해하려면, AI 생태계 내의 밀접하게 관련된 개념들과 이를 구분해 보는 것이 도움이 됩니다:

  • 지시어 튜닝: 일반적으로 텍스트 전용 대규모 언어 모델(LLM)이 인간의 의도를 안전하고 정확하게 따르도록 조정하는 것을 의미합니다. 시각적 지시어 튜닝은 이와 동일한 방법론을 적용하되, 프롬프트와 기대 출력물에 이미지를 포함시킵니다.
  • 시각적 프롬프팅: 일반적으로 이미지에 사각형 테두리를 그리거나, 특정 지점을 표시하거나, 영역을 가리는 등의 시각적 단서를 활용해 AI와 상호작용함으로써 모델의 주의를 유도하는 방식입니다. 반면, 시각적 지시 튜닝은 시각적 데이터와 결합된 자연어 명령에 크게 의존합니다.

훈련 과정은 일반적으로 이미지-텍스트-지시문 3원조 형식으로 구성된 방대한 데이터셋을 활용해 사전 훈련된 다중 모달 기반 모델을 미세 조정하는 방식으로 이루어집니다. LLaVA(Large Language-and-Vision Assistant) 프로젝트와 같은 시각적 지시 조정에 관한 선구적인 arXiv 연구는 이러한 모델들이 놀라운 제로샷 성능을 달성할 수 있음을 입증했습니다. 오늘날 주요 AI 기업들은 이 기술을 활용하여 OpenAI GPT-4o, Anthropic 3.5 Sonnet, Google Gemini를 포함한 고급 모델을 구동하고 있습니다.

실제 애플리케이션

다중 모달 딥러닝 아키텍처를 사람의 의도와 연계함으로써, 시각적 지시 조정은 다양한 산업 분야에서 높은 상호작용성을 갖춘 애플리케이션을 구현합니다:

  • 의료 진단 분야의 AI: 의료 전문가는 시각적 질문 응답(VQA)을 위해 지시어 기반 모델을 활용할 수 있습니다. 예를 들어, 방사선과 전문의가 X선 영상과 함께 “좌하엽의 폐렴 징후를 표시하고 설명해 달라”는 지시어를 시스템에 입력하면, AI가 협력적인 진단 보조 도구 역할을 수행할 수 있습니다.
  • 제조 품질 관리에서의 AI: 운영자는 결함 탐지 모델을 처음부터 딱딱하게 훈련시키는 대신, Microsoft 와 같은 비전 시스템에 “이 새로 제작된 금속 케이스의 미세한 흠집이나 찌그러짐을 식별해 달라”고 지시할 수 있습니다.

비전 워크플로 구축

이러한 기능을 활용하는 시스템을 구축하기 위해 개발자들은 종종 강력한 물체 탐지 모델을 활용해 이미지에서 구조적 맥락을 추출한 후, 해당 데이터를 VLM으로 전달합니다. 개발자들은 PyTorch 문서나 TensorFlow 모델을 활용하여 하이브리드 파이프라인을 구축할 수 있습니다.

예를 들어, Ultralytics YOLO 사용하여 장면을 신속하게 파악하고, 후속 VLM을 위한 정보가 담긴 언어 프롬프트를 생성할 수 있습니다:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

이러한 차세대 애플리케이션에 필요한 복잡하고 다중 모달 데이터셋을 관리하는 것은 쉽지 않은 과제일 수 있습니다. Ultralytics 데이터셋 주석 달기, 클라우드 훈련, 원활한 모델 배포를 위한 엔드투엔드 도구를 제공함으로써 이 과정을 간소화합니다. ACM 디지털 라이브러리나 IEEE Xplore 컴퓨터 비전 아카이브에서 최신 논문을 읽고 계시든, 지시어에 최적화된 고성능 비전 시스템으로의 전환은 인공지능 분야의 최첨단을 대표합니다. YOLO26 인식 기술과 최적화된 추론 모델을 결합함으로써, 기업들은 놀라울 정도로 견고한 AI 에이전트를 배포할 수 있습니다.

함께 AI의 미래를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요