Yolo 비전 선전
선전
지금 참여하기
용어집

멀티모달 학습

AI 분야에서 멀티모달 학습의 강력한 힘을 발견하세요! 모델이 다양한 데이터 유형을 통합하여 더욱 풍부하고 실제적인 문제 해결을 지원하는 방법을 살펴보세요.

Multi-modal learning is a sophisticated approach in artificial intelligence (AI) that trains algorithms to process, understand, and correlate information from multiple distinct types of data, or "modalities." Unlike traditional systems that specialize in a single input type—such as text for translation or pixels for image recognition—multi-modal learning mimics human cognition by integrating diverse sensory inputs like visual data, spoken audio, textual descriptions, and sensor readings. This holistic approach allows machine learning (ML) models to develop a deeper, context-aware understanding of the world, leading to more robust and versatile predictions.

멀티 모달 학습 작동 방식

The core challenge in multi-modal learning is translating different data types into a shared mathematical space where they can be compared and combined. This process generally involves three main stages: encoding, alignment, and fusion.

  1. Feature Extraction: Specialized neural networks process each modality independently. For instance, convolutional neural networks (CNNs) or Vision Transformers (ViTs) might extract features from images, while Recurrent Neural Networks (RNNs) or Transformers process text.
  2. Embeddings Alignment: The model learns to map these diverse features into shared high-dimensional vectors. In this shared space, the vector for the word "cat" and the vector for an image of a cat are brought close together. Techniques like contrastive learning, popularized by papers such as OpenAI's CLIP, are essential here.
  3. 데이터 융합: 마지막으로 정보는 작업 수행을 위해 통합됩니다. 융합은 초기 단계(원시 데이터 결합), 후기 단계(최종 예측 결합) 또는 각 모달리티의 중요도를 동적으로 가중치 부여하는 어텐션 메커니즘을 활용한 중간 단계의 하이브리드 방법을 통해 이루어질 수 있습니다.

실제 애플리케이션

Multi-modal learning is the engine behind many of today's most impressive AI breakthroughs, bridging the gap between distinct data silos to solve complex problems.

  • 시각적 질문 답변(VQA): 이 응용 분야에서는 시스템이 이미지를 분석하고 "신호등은 무슨 색인가요?"와 같은 자연어 질문에 답변해야 합니다. 이를 위해 모델은 텍스트의 의미를 이해하고 컴퓨터 비전을 활용하여 해당 시각적 요소를 공간적으로 찾아내야 합니다.
  • Autonomous Vehicles: Self-driving cars rely heavily on sensor fusion, combining data from LiDAR point clouds, camera video feeds, and radar to navigate safely. This multi-modal input ensures that if one sensor fails (e.g., a camera blinded by sun glare), others can maintain road safety.
  • 의료 진단: 의료 분야 인공지능은 의료 영상 분석 (MRI 또는 X-레이 등)과 비정형 텍스트 형태의 환자 병력 및 유전적 데이터를 동시에 분석하는 다중 모달 학습을 활용합니다. 이러한 포괄적 접근은 의사들이 더 정확한 진단을 내리는 데 도움을 주며, 이는 Nature Digital Medicine 저널에서 자주 논의되는 주제입니다.
  • 생성형 AI: 텍스트 프롬프트로부터 이미지를 생성하는 도구들, 예를 들어 Stable Diffusion은 전적으로 모델이 언어적 묘사와 시각적 질감 간의 관계를 이해하는 능력에 의존한다.

Ultralytics 통한 멀티 모달 객체 감지

표준 객체 탐지기는 사전 정의된 클래스에 의존하는 반면, YOLO 같은 다중 모달 접근법은 사용자가 개방형 어휘 텍스트 프롬프트를 활용해 detect 수 있게 합니다. 이는 Ultralytics 내에서 텍스트 개념과 시각적 특징을 연결하는 강력한 역량을 입증합니다.

The following Python code snippet shows how to use a pre-trained YOLO-World model to detect objects based on custom text inputs.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

주요 용어 차별화

최신 AI의 환경을 탐색하려면 '다중 모드 학습'을 관련 개념과 구별하는 것이 도움이 됩니다:

  • 다중 모달 모델: "다중 모달 학습"은 방법론 및 연구 분야를 의미합니다. "다중 모달 모델"( GPT-4나 Google 제미니와 같은)은 해당 훈련 과정을 통해 생성된 구체적인 산출물 또는 소프트웨어 제품을 가리킵니다.
  • 단일 모달 AI: 전통적 컴퓨터 비전은 일반적으로 단일 모달로, 시각적 데이터에만 집중합니다. Ultralytics 같은 모델은 물체 탐지를 위한 최첨단 CV 도구이지만, 대규모 다중 모달 파이프라인의 일부가 아닌 한 일반적으로 시각적 입력만으로 작동합니다.
  • 대규모 언어 모델(LLM): 기존의 LLM은 텍스트에 대해서만 학습된 단일 모드입니다. 하지만 업계는 이미지와 텍스트를 기본적으로 처리할 수 있는 '대형 멀티모달 모델(LMM)'로 전환하고 있습니다. 모델(LMM)로 전환하고 있으며, 이러한 추세는 다음과 같은 프레임워크에 의해 지원됩니다. PyTorchTensorFlow.

향후 전망

멀티모달 학습의 궤적은 다음과 같은 시스템을 지향합니다. 인공 일반 지능(AGI) 특성을 지닌 시스템으로 향하고 있습니다. 이러한 모델은 시각적, 물리적 현실에 언어를 성공적으로 접목함으로써 통계적 상관관계를 넘어 통계적 상관관계를 넘어 진정한 추론으로 나아가고 있습니다. 다음과 같은 기관의 연구 MIT CSAIL스탠포드 기초 모델 연구 센터와 같은 기관의 연구는 계속해서 기계가 복잡한 다중 감각 환경을 인식하고 상호 작용하는 방법의 경계를 계속해서 넓혀가고 있습니다.

Ultralytics 이러한 발전 사항들을 Ultralytics 통합하여 사용자가 데이터를 관리하고, 모델을 훈련시키며, YOLO26의 속도부터 오픈 어휘 검출의 다용도성에 이르기까지 사용 가능한 모든 방식의 스펙트럼을 활용하는 솔루션을 배포할 수 있도록 지원합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기