Multimodal AI
멀티모달 AI와 이것이 상황 인식 이해를 위해 텍스트와 비전을 어떻게 통합하는지 살펴보십시오. 오늘 Ultralytics YOLO26 및 오픈 보캐블러리 모델을 사용하는 방법을 알아보십시오.
Multimodal AI는 여러 가지 서로 다른 유형의 데이터 또는 "모달리티(modalities)"를 동시에 처리, 해석 및 합성하도록 설계된 정교한 인공지능(AI) 시스템 클래스를 의미합니다. 텍스트를 위한 자연어 처리(NLP)나 이미지를 위한 컴퓨터 비전(CV)과 같이 단일 입력 소스를 전문으로 하는 기존의 유니모달(unimodal) 시스템과 달리, Multimodal AI는 다양한 데이터 스트림을 통합하여 인간의 인식을 모방합니다. 이러한 통합에는 시각적 데이터(이미지, 비디오)와 언어 데이터(텍스트, 음성) 및 감각 정보(LiDAR, 레이더, 열화상)를 결합하는 것이 포함될 수 있습니다. 이러한 결합된 입력을 활용함으로써 모델은 복잡한 실제 시나리오에 대해 더 깊고 맥락을 인식하는 이해를 달성하며, 범용 인공지능(AGI)의 광범위한 기능에 한 걸음 더 다가갑니다.
Link to this sectionMultimodal 시스템 작동 방식#
Multimodal AI의 핵심 강점은 서로 다른 데이터 유형을 비교하고 결합할 수 있는 공유 수학적 공간에 매핑하는 능력에 있습니다. 이 과정은 일반적으로 인코딩, 정렬 및 융합이라는 세 가지 주요 단계를 포함합니다.
-
특징 추출: 특화된 신경망이 각 모달리티를 독립적으로 처리하여 주요 패턴을 식별합니다. 예를 들어, 합성곱 신경망(CNN)은 사진에서 시각적 특징을 추출할 수 있고, Transformer는 함께 제공되는 캡션을 처리할 수 있습니다.
-
Alignment and Embeddings: The extracted features are converted into high-dimensional numerical vectors. The model learns to align these vectors so that semantically similar concepts (e.g., an image of a cat and the text word "cat") are located close to each other in the vector space. This is often achieved through techniques like contrastive learning, a method famously utilized in models like OpenAI's CLIP.
-
데이터 융합: 시스템은 고급 융합 기법을 사용하여 정렬된 데이터를 병합합니다. 최신 아키텍처는 주의 메커니즘(attention mechanisms)을 사용하여 맥락에 따라 한 모달리티의 중요도를 동적으로 가중치를 부여함으로써, 이미지가 모호할 때는 텍스트에 집중하거나 그 반대의 경우를 수행할 수 있도록 합니다.
Link to this section실제 애플리케이션 사례#
Multimodal AI는 단일 모달리티 시스템으로는 불가능했던 기능을 구현하여 다양한 산업 전반에 걸쳐 혁신을 주도하고 있습니다.
- 시각적 질문 답변(VQA): 이 애플리케이션에서 사용자는 AI에 이미지를 제시하고 그에 관한 자연어 질문을 할 수 있습니다. 예를 들어, 시각 장애가 있는 사용자가 식료품 저장소 사진을 업로드하고 "파스타가 남아 있나요?"라고 물을 수 있습니다. 모델은 시각적 콘텐츠와 텍스트 쿼리를 처리하여 구체적인 답변을 제공합니다.
- 자율주행 차량: 자율주행 자동차는 카메라, LiDAR 포인트 클라우드 및 레이더의 데이터를 결합하여 안전하게 주행하는 Multimodal 입력에 크게 의존합니다. 이러한 중복성은 한 센서가 실패하더라도(예: 태양 눈부심으로 인한 카메라 불능) 자동차공학회(SAE)에서 정의한 안전 기준을 유지할 수 있도록 보장합니다.
- 의료 진단: 고급 의료 AI 시스템은 의료 영상 분석(MRI 또는 X-레이 등)을 구조화되지 않은 환자의 텍스트 기록 및 유전 데이터와 함께 분석합니다. 이러한 포괄적인 관점은 의사가 더 정확한 진단을 내리는 데 도움을 주며, 이는 Nature Digital Medicine에서 자주 논의되는 주제입니다.
- 생성형 AI: Stable Diffusion과 같이 텍스트 프롬프트로부터 이미지를 생성하는 도구는 언어적 설명과 시각적 질감 간의 관계를 이해하는 모델의 능력에 전적으로 의존합니다.
Link to this sectionUltralytics를 통한 오픈 어휘 감지(Open-Vocabulary Detection)#
표준 객체 탐지기는 미리 정의된 범주 목록에 의존하지만, YOLO-World와 같은 Multimodal 접근 방식은 사용자가 오픈 어휘 텍스트 프롬프트를 사용하여 객체를 탐지할 수 있도록 합니다. 이는 Ultralytics 생태계 내에서 언어 명령과 시각적 인식 사이의 격차를 해소합니다.
다음 예제는 ultralytics 라이브러리를 사용하여 오픈 어휘 탐지를 수행하는 방법을 보여주며, 여기서 모델은 사용자 지정 텍스트 입력을 기반으로 객체를 탐지합니다:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()Link to this section관련 용어 구분#
현대 머신러닝 환경을 이해하려면 "Multimodal AI"를 관련 개념과 구별하는 것이 도움이 됩니다:
- 멀티모달 학습(Multi-Modal Learning): 이는 혼합된 데이터 유형에 대해 알고리즘을 훈련하는 학문적 분야 및 방법론을 의미합니다. "Multimodal AI"는 일반적으로 실질적인 애플리케이션이나 그 결과로 생성된 시스템 자체를 의미합니다.
- 대규모 언어 모델(LLM): 전통적인 LLM은 유니모달이며 텍스트 데이터로만 독점적으로 훈련됩니다. 그러나 산업계는 PyTorch 및 TensorFlow와 같은 프레임워크가 지원하는 추세에 따라 이미지를 기본적으로 처리할 수 있는 "대규모 멀티모달 모델(LMM)"로 전환하고 있습니다.
- 특화된 비전 모델: 최첨단 Ultralytics YOLO26과 같은 모델은 시각적 작업에 매우 특화된 전문가입니다. 일반적인 멀티모달 모델은 장면을 광범위하게 설명할 수 있지만, 특화된 모델은 고속의 정확한 객체 탐지와 엣지 하드웨어에서의 실시간 처리에 탁월합니다.
Link to this section미래 전망#
Multimodal AI의 궤적은 더 뛰어난 추론 능력을 갖춘 시스템을 향하고 있습니다. 언어를 시각적 및 물리적 현실에 성공적으로 기반을 둠으로써 이러한 모델은 통계적 상관관계를 넘어 진정한 이해를 향해 나아가고 있습니다. Google DeepMind 및 스탠포드 파운데이션 모델 연구 센터(Stanford Center for Research on Foundation Models)와 같은 기관의 연구는 기계가 복잡한 환경을 인식하는 방식의 한계를 계속해서 넓히고 있습니다.
Ultralytics는 이러한 발전 사항을 Ultralytics Platform에 통합하여 사용자가 데이터를 관리하고, 모델을 훈련하며, YOLO26의 속도와 Multimodal 입력의 다양성을 결합하여 사용 가능한 모든 모달리티를 최대한 활용하는 솔루션을 배포할 수 있도록 지원합니다.






