Multi-Modal Learning

AI에서의 멀티모달 학습을 살펴보십시오. 텍스트, 시각 정보, 오디오를 통합하여 Ultralytics YOLO26 및 YOLO-World와 같은 견고한 모델을 만드는 방법을 알아보십시오. 오늘 더 많은 내용을 확인해 보십시오!

멀티모달 학습은 인공지능(AI) 분야의 정교한 접근 방식으로, 여러 유형의 데이터 또는 "모달리티(modalities)"로부터 정보를 처리, 이해 및 상관관계 분석을 수행하도록 알고리즘을 훈련합니다. 번역을 위한 텍스트나 이미지 인식을 위한 픽셀과 같이 단일 입력 유형에 특화된 기존 시스템과 달리, 멀티모달 학습은 시각적 데이터, 음성 오디오, 텍스트 설명 및 센서 판독값과 같은 다양한 감각 입력을 통합하여 인간의 인지 능력을 모방합니다. 이러한 전체론적 접근 방식을 통해 머신러닝(ML) 모델은 세상에 대한 더 깊고 맥락을 파악하는 이해를 발전시켜 더욱 강력하고 다재다능한 예측을 수행할 수 있게 합니다.

Link to this section멀티모달 학습의 작동 방식#

멀티모달 학습의 핵심 과제는 서로 다른 데이터 유형을 비교하고 결합할 수 있는 공유 수학적 공간으로 변환하는 것입니다. 이 과정은 일반적으로 인코딩, 정렬, 융합의 세 가지 주요 단계를 거칩니다.

특성 추출: 특수 신경망이 각 모달리티를 독립적으로 처리합니다. 예를 들어, 합성곱 신경망(CNN)이나 비전 트랜스포머(ViTs)는 이미지에서 특성을 추출할 수 있으며, 순환 신경망(RNN)이나 Transformer는 텍스트를 처리할 수 있습니다.
Embeddings Alignment: The model learns to map these diverse features into shared high-dimensional vectors. In this shared space, the vector for the word "cat" and the vector for an image of a cat are brought close together. Techniques like contrastive learning, popularized by papers such as OpenAI's CLIP, are essential here.
데이터 융합: 마지막으로, 정보를 병합하여 작업을 수행합니다. 융합은 초기 단계(원시 데이터 결합), 후기 단계(최종 예측 결합) 또는 어텐션 메커니즘(attention mechanism)을 사용하여 각 모달리티의 중요도를 동적으로 가중하는 중간 하이브리드 방식을 통해 이루어질 수 있습니다.

Link to this section실제 애플리케이션 사례#

멀티모달 학습은 오늘날 가장 인상적인 AI 혁신의 원동력이 되며, 복잡한 문제를 해결하기 위해 서로 다른 데이터 사일로(silos) 간의 간극을 메워줍니다.

시각적 질문 답변(VQA): 이 응용 분야에서 시스템은 이미지를 분석하고 "신호등 색깔은 무엇입니까?"와 같은 자연어 질문에 답해야 합니다. 이를 위해서는 모델이 텍스트의 의미를 이해하고 컴퓨터 비전을 사용하여 해당 시각적 요소를 공간적으로 위치 지정해야 합니다.
자율주행 차량: 자율주행 자동차는 LiDAR 포인트 클라우드, 카메라 비디오 피드, 레이더의 데이터를 결합하여 안전하게 주행하는 센서 융합 기술에 크게 의존합니다. 이러한 멀티모달 입력은 하나의 센서가 실패하더라도(예: 태양 눈부심으로 인한 카메라 차단) 다른 센서가 도로 안전을 유지할 수 있도록 보장합니다.
의료 진단: 의료 분야의 AI는 의료 이미지 분석(MRI 또는 X-레이 등)과 비정형 텍스트 환자 기록 및 유전 데이터를 함께 분석함으로써 멀티모달 학습을 활용합니다. 이러한 포괄적인 관점은 의사가 더 정확한 진단을 내리는 데 도움을 주며, 이는 Nature Digital Medicine 저널에서 자주 다뤄지는 주제입니다.
생성형 AI: Stable Diffusion과 같이 텍스트 프롬프트로부터 이미지를 생성하는 도구는 언어적 설명과 시각적 질감 간의 관계를 이해하는 모델의 능력에 전적으로 의존합니다.

Link to this sectionUltralytics를 활용한 멀티모달 객체 탐지#

표준 객체 탐지기는 미리 정의된 클래스에 의존하는 반면, YOLO-World와 같은 멀티모달 접근 방식은 사용자가 오픈 어휘 텍스트 프롬프트를 사용하여 객체를 탐지할 수 있도록 합니다. 이는 Ultralytics 생태계 내에서 텍스트 개념과 시각적 특성을 연결하는 강력함을 보여줍니다.

다음 Python 코드 스니펫은 사전 훈련된 YOLO-World 모델을 사용하여 사용자 지정 텍스트 입력을 기반으로 객체를 탐지하는 방법을 보여줍니다.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this section주요 용어 구분#

현대 AI 환경을 탐색하기 위해 '멀티모달 학습'을 관련 개념과 구분하는 것이 도움이 됩니다:

멀티모달 모델: "멀티모달 학습"은 방법론 및 연구 분야를 의미합니다. "멀티모달 모델"(GPT-4 또는 Google의 Gemini 등)은 해당 훈련 과정에서 생성된 특정 산출물 또는 소프트웨어 제품입니다.
유니모달 AI: 전통적인 컴퓨터 비전은 일반적으로 시각적 데이터에만 집중하는 유니모달입니다. Ultralytics YOLO26과 같은 모델은 객체 탐지를 위한 최첨단 CV 도구이지만, 더 큰 멀티모달 파이프라인의 일부가 아닌 이상 일반적으로 시각적 입력만 처리합니다.
거대 언어 모델(LLMs): 전통적인 LLM은 텍스트로만 훈련된 유니모달입니다. 그러나 업계는 PyTorch 및 TensorFlow와 같은 프레임워크의 지원을 받아 이미지를 텍스트와 함께 고유하게 처리할 수 있는 "거대 멀티모달 모델(LMMs)"로 전환되고 있습니다.

Link to this section미래 전망#

멀티모달 학습의 궤적은 인공 일반 지능(AGI) 특성을 가진 시스템을 향하고 있습니다. 언어를 시각적 및 물리적 현실에 성공적으로 접목함으로써, 이러한 모델은 통계적 상관관계를 넘어 진정한 추론의 단계로 나아가고 있습니다. MIT CSAIL 및 Stanford Center for Research on Foundation Models와 같은 기관의 연구는 기계가 복잡한 다중 감각 환경을 어떻게 인식하고 상호작용하는지에 대한 경계를 계속 확장하고 있습니다.

Ultralytics는 이러한 발전을 Ultralytics Platform에 통합하여 사용자가 데이터를 관리하고, 모델을 훈련하며, YOLO26의 속도부터 오픈 어휘 탐지의 다재다능함까지 사용 가능한 모든 모달리티를 활용하는 솔루션을 배포할 수 있도록 지원합니다.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Multi-Modal Learning

Link to this section멀티모달 학습의 작동 방식#

Link to this section실제 애플리케이션 사례#

Link to this sectionUltralytics를 활용한 멀티모달 객체 탐지#

Link to this section주요 용어 구분#

Link to this section미래 전망#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!