시각적 지시 조정이 어떻게 비전 언어 모델이 인간의 지시를 따르도록 하는지 알아보세요. Ultralytics 사용하여 고급 AI 워크플로를 구축하는 방법을 배워보세요.
시각적 지시 튜닝은 기존의 자연어 처리 기법을 다중 모달 영역으로 확장하는 혁신적인 기계 학습 기술입니다. 개발자는 비전 언어 모델(VLM) 을 훈련시켜 이미지나 동영상 입력을 기반으로 한 명확한 인간의 지시를 따르도록 함으로써, 시각적 콘텐츠를 이해하고 추론할 수 있는 AI 비서를 만들 수 있습니다. 사전 정의된 범주를 출력하는 일반적인 이미지 분류 모델과 달리, 시각적 지시 튜닝은 모델이 장면 묘사, 이미지 내 텍스트 읽기, 공간적 관계에 대한 구체적인 질문 답변과 같은 복잡하고 개방형 과제를 수행할 수 있도록 지원합니다. 이는 텍스트 기반 대규모 언어 모델(LLM) 과 기존 컴퓨터 비전 파이프라인 간의 격차를 해소합니다.
시각적 지시 조정을 제대로 이해하려면, AI 생태계 내의 밀접하게 관련된 개념들과 이를 구분해 보는 것이 도움이 됩니다:
훈련 과정은 일반적으로 이미지-텍스트-지시문 3원조 형식으로 구성된 방대한 데이터셋을 활용해 사전 훈련된 다중 모달 기반 모델을 미세 조정하는 방식으로 이루어집니다. LLaVA(Large Language-and-Vision Assistant) 프로젝트와 같은 시각적 지시 조정에 관한 선구적인 arXiv 연구는 이러한 모델들이 놀라운 제로샷 성능을 달성할 수 있음을 입증했습니다. 오늘날 주요 AI 기업들은 이 기술을 활용하여 OpenAI GPT-4o, Anthropic 3.5 Sonnet, Google Gemini를 포함한 고급 모델을 구동하고 있습니다.
다중 모달 딥러닝 아키텍처를 사람의 의도와 연계함으로써, 시각적 지시 조정은 다양한 산업 분야에서 높은 상호작용성을 갖춘 애플리케이션을 구현합니다:
이러한 기능을 활용하는 시스템을 구축하기 위해 개발자들은 종종 강력한 물체 탐지 모델을 활용해 이미지에서 구조적 맥락을 추출한 후, 해당 데이터를 VLM으로 전달합니다. 개발자들은 PyTorch 문서나 TensorFlow 모델을 활용하여 하이브리드 파이프라인을 구축할 수 있습니다.
예를 들어, Ultralytics YOLO 사용하여 장면을 신속하게 파악하고, 후속 VLM을 위한 정보가 담긴 언어 프롬프트를 생성할 수 있습니다:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
이러한 차세대 애플리케이션에 필요한 복잡하고 다중 모달 데이터셋을 관리하는 것은 쉽지 않은 과제일 수 있습니다. Ultralytics 데이터셋 주석 달기, 클라우드 훈련, 원활한 모델 배포를 위한 엔드투엔드 도구를 제공함으로써 이 과정을 간소화합니다. ACM 디지털 라이브러리나 IEEE Xplore 컴퓨터 비전 아카이브에서 최신 논문을 읽고 계시든, 지시어에 최적화된 고성능 비전 시스템으로의 전환은 인공지능 분야의 최첨단을 대표합니다. YOLO26 인식 기술과 최적화된 추론 모델을 결합함으로써, 기업들은 놀라울 정도로 견고한 AI 에이전트를 배포할 수 있습니다.
미래의 머신러닝 여정을 시작하세요