Visual Instruction Tuning

시각적 지시 튜닝이 어떻게 Vision Language Model이 인간의 지시를 따를 수 있게 하는지 알아보십시오. Ultralytics YOLO26을 사용하여 고급 AI 워크플로를 구축하는 방법을 배울 수 있습니다.

시각적 지시 튜닝은 전통적인 자연어 처리 방식을 멀티모달 영역으로 확장하는 혁신적인 머신 러닝 기술입니다. Vision Language Model (VLM)을 학습시켜 이미지나 비디오 입력을 기반으로 명시적인 인간의 지시를 따르게 함으로써, 개발자는 시각적 콘텐츠를 이해하고 추론하는 AI 어시스턴트를 만들 수 있습니다. 미리 정의된 카테고리를 출력하는 표준 image classification 모델과 달리, 시각적 지시 튜닝은 모델이 장면 설명, 이미지 내 텍스트 읽기, 공간 관계에 대한 구체적인 질문 답변과 같이 복잡하고 개방형인 작업을 실행할 수 있도록 합니다. 이는 텍스트 기반 large language models (LLMs)과 기존 computer vision 파이프라인 간의 격차를 해소합니다.

Link to this section개념 및 차이점 이해하기#

시각적 지시 튜닝을 파악하기 위해 AI 생태계 내의 관련 개념들과 구분하는 것이 도움이 됩니다.

Instruction Tuning: 일반적으로 텍스트 전용 LLM이 인간의 의도를 안전하고 정확하게 따르도록 정렬하는 것을 의미합니다. 시각적 지시 튜닝은 동일한 방법론을 적용하되 프롬프트와 예상 출력에 이미지를 통합합니다.
Visual Prompting: 대개 바운딩 박스 그리기, 포인트 배치, 이미지의 특정 영역 마스킹 등 시각적 단서를 사용하여 AI와 상호 작용함으로써 모델의 초점을 안내합니다. 반면, 시각적 지시 튜닝은 시각적 데이터와 쌍을 이루는 자연어 명령에 크게 의존합니다.

The training process generally involves fine-tuning a pre-trained multi-modal foundation model using extensive datasets formatted as image-text-instruction triplets. Pioneering arXiv research on visual instruction tuning, such as the LLaVA (Large Language-and-Vision Assistant) project, demonstrated that these models can achieve remarkable zero-shot capabilities. Today, major AI organizations employ this technique to power advanced models, including OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, and Google DeepMind Gemini.

Link to this section실제 응용 분야#

multimodal deep learning 아키텍처를 인간의 의도와 정렬함으로써 시각적 지시 튜닝은 다양한 산업 전반에서 매우 인터랙티브한 애플리케이션을 가능하게 합니다.

AI in Healthcare Diagnostics: 의료 전문가는 지시 튜닝된 모델을 Visual Question Answering (VQA)에 활용할 수 있습니다. 방사선 전문의는 X-레이 이미지와 함께 "좌하엽의 폐렴 징후를 강조하고 설명해 주세요"라는 지시를 내려 AI가 협력적인 진단 보조 도구로 작동하게 할 수 있습니다.
AI in Manufacturing Quality Control: 처음부터 경직된 결함 탐지 모델을 학습시키는 대신, 작업자는 "새로 제작된 금속 케이싱의 미세한 흠집이나 찌그러짐을 식별하세요"라고 말함으로써 Microsoft Florence-2와 같은 비전 시스템에 지시할 수 있습니다.

Link to this section비전 워크플로 구축하기#

이러한 기능을 활용하는 시스템을 구축하기 위해 개발자들은 종종 강력한 object detection 모델을 사용하여 이미지에서 구조적 맥락을 추출한 후 해당 데이터를 VLM으로 전달합니다. PyTorch multi-modal documentation 또는 TensorFlow vision models을 사용하여 하이브리드 파이프라인을 생성할 수 있습니다.

예를 들어, Ultralytics YOLO 모델을 사용하여 장면을 빠르게 인식하고 하위 VLM을 위한 정보가 포함된 언어 프롬프트를 생성할 수 있습니다.

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

차세대 애플리케이션에 필요한 복잡한 멀티모달 데이터셋을 관리하는 것은 어려울 수 있습니다. Ultralytics Platform은 데이터셋 어노테이션, 클라우드 학습 및 원활한 모델 배포를 위한 엔드투엔드 도구를 제공하여 이 과정을 간소화합니다. ACM digital library나 IEEE Xplore computer vision 아카이브에서 최신 논문을 읽든, 지시 튜닝된 고성능 비전 시스템으로의 전환은 인공지능의 최첨단을 나타냅니다. YOLO26 인식과 튜닝된 추론 모델을 결합함으로써 조직은 매우 강력한 AI 에이전트를 배포할 수 있습니다.