YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Visual Instruction Tuning

시각적 지시 튜닝이 어떻게 Vision Language Model이 인간의 지시를 따를 수 있게 하는지 알아보십시오. Ultralytics YOLO26을 사용하여 고급 AI 워크플로를 구축하는 방법을 배울 수 있습니다.

시각적 지시 튜닝은 전통적인 자연어 처리 방식을 멀티모달 영역으로 확장하는 혁신적인 머신 러닝 기술입니다. Vision Language Model (VLM)을 학습시켜 이미지나 비디오 입력을 기반으로 명시적인 인간의 지시를 따르게 함으로써, 개발자는 시각적 콘텐츠를 이해하고 추론하는 AI 어시스턴트를 만들 수 있습니다. 미리 정의된 카테고리를 출력하는 표준 image classification 모델과 달리, 시각적 지시 튜닝은 모델이 장면 설명, 이미지 내 텍스트 읽기, 공간 관계에 대한 구체적인 질문 답변과 같이 복잡하고 개방형인 작업을 실행할 수 있도록 합니다. 이는 텍스트 기반 large language models (LLMs)과 기존 computer vision 파이프라인 간의 격차를 해소합니다.

Link to this section개념 및 차이점 이해하기#

시각적 지시 튜닝을 파악하기 위해 AI 생태계 내의 관련 개념들과 구분하는 것이 도움이 됩니다.

  • Instruction Tuning: 일반적으로 텍스트 전용 LLM이 인간의 의도를 안전하고 정확하게 따르도록 정렬하는 것을 의미합니다. 시각적 지시 튜닝은 동일한 방법론을 적용하되 프롬프트와 예상 출력에 이미지를 통합합니다.
  • Visual Prompting: 대개 바운딩 박스 그리기, 포인트 배치, 이미지의 특정 영역 마스킹 등 시각적 단서를 사용하여 AI와 상호 작용함으로써 모델의 초점을 안내합니다. 반면, 시각적 지시 튜닝은 시각적 데이터와 쌍을 이루는 자연어 명령에 크게 의존합니다.

The training process generally involves fine-tuning a pre-trained multi-modal foundation model using extensive datasets formatted as image-text-instruction triplets. Pioneering arXiv research on visual instruction tuning, such as the LLaVA (Large Language-and-Vision Assistant) project, demonstrated that these models can achieve remarkable zero-shot capabilities. Today, major AI organizations employ this technique to power advanced models, including OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, and Google DeepMind Gemini.

Link to this section실제 응용 분야#

multimodal deep learning 아키텍처를 인간의 의도와 정렬함으로써 시각적 지시 튜닝은 다양한 산업 전반에서 매우 인터랙티브한 애플리케이션을 가능하게 합니다.

  • AI in Healthcare Diagnostics: 의료 전문가는 지시 튜닝된 모델을 Visual Question Answering (VQA)에 활용할 수 있습니다. 방사선 전문의는 X-레이 이미지와 함께 "좌하엽의 폐렴 징후를 강조하고 설명해 주세요"라는 지시를 내려 AI가 협력적인 진단 보조 도구로 작동하게 할 수 있습니다.
  • AI in Manufacturing Quality Control: 처음부터 경직된 결함 탐지 모델을 학습시키는 대신, 작업자는 "새로 제작된 금속 케이싱의 미세한 흠집이나 찌그러짐을 식별하세요"라고 말함으로써 Microsoft Florence-2와 같은 비전 시스템에 지시할 수 있습니다.

Link to this section비전 워크플로 구축하기#

이러한 기능을 활용하는 시스템을 구축하기 위해 개발자들은 종종 강력한 object detection 모델을 사용하여 이미지에서 구조적 맥락을 추출한 후 해당 데이터를 VLM으로 전달합니다. PyTorch multi-modal documentation 또는 TensorFlow vision models을 사용하여 하이브리드 파이프라인을 생성할 수 있습니다.

예를 들어, Ultralytics YOLO 모델을 사용하여 장면을 빠르게 인식하고 하위 VLM을 위한 정보가 포함된 언어 프롬프트를 생성할 수 있습니다.

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

차세대 애플리케이션에 필요한 복잡한 멀티모달 데이터셋을 관리하는 것은 어려울 수 있습니다. Ultralytics Platform은 데이터셋 어노테이션, 클라우드 학습 및 원활한 모델 배포를 위한 엔드투엔드 도구를 제공하여 이 과정을 간소화합니다. ACM digital libraryIEEE Xplore computer vision 아카이브에서 최신 논문을 읽든, 지시 튜닝된 고성능 비전 시스템으로의 전환은 인공지능의 최첨단을 나타냅니다. YOLO26 인식과 튜닝된 추론 모델을 결합함으로써 조직은 매우 강력한 AI 에이전트를 배포할 수 있습니다.

Explore solutions

Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.