YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Multi-Modal Model

멀티모달 모델이 텍스트, 이미지, 오디오를 어떻게 통합하는지 살펴보십시오. Ultralytics YOLO26과 같은 아키텍처에 대해 알아보고 Ultralytics 플랫폼에서 비전 AI를 배포해 보십시오.

멀티모달 모델은 여러 가지 데이터 유형 또는 "모달리티(modalities)"를 동시에 처리, 해석 및 통합할 수 있는 인공지능(AI) 시스템의 발전된 형태입니다. 전통적인 유니모달 시스템이 텍스트를 위한 자연어 처리(NLP)나 이미지를 위한 컴퓨터 비전(CV)과 같이 단일 영역에 특화된 반면, 멀티모달 모델은 시각적, 청각적 및 언어적 단서를 함께 통합하여 인간의 인식을 모방하는 것을 목표로 합니다. 이러한 융합을 통해 모델은 세상에 대한 포괄적인 이해를 발전시키며, 시각적 장면과 음성 설명 사이의 복잡한 상관관계를 도출할 수 있습니다. 이러한 기능은 범용 인공지능(AGI) 달성을 향한 기초 단계로 간주됩니다.

Link to this section핵심 메커니즘 및 아키텍처#

멀티모달 모델의 효능은 다양한 데이터 유형을 공유 의미 공간으로 매핑하는 능력에 달려 있습니다. 이 과정은 일반적으로 입력 데이터의 본질적인 의미를 포착하는 수치적 표현인 임베딩(embeddings)을 생성하는 것부터 시작됩니다. 자막이 포함된 비디오와 같이 쌍을 이룬 예제들로 구성된 방대한 데이터셋으로 학습함으로써, 모델은 "고양이" 이미지의 벡터 표현을 "고양이"라는 단어의 텍스트 임베딩과 정렬하는 법을 배웁니다.

다음은 이러한 통합을 가능하게 하는 몇 가지 핵심 아키텍처 개념입니다:

  • 트랜스포머 아키텍처(Transformer Architecture): 많은 멀티모달 시스템은 어텐션 메커니즘(attention mechanisms)을 사용하여 다양한 입력 부분의 중요도에 동적으로 가중치를 부여하는 트랜스포머를 활용합니다. 이를 통해 모델은 텍스트 프롬프트의 관련 단어에 해당하는 특정 이미지 영역에 집중할 수 있는데, 이는 저명한 연구 논문 "Attention Is All You Need"에 상세히 기술된 개념입니다.
  • 데이터 융합(Data Fusion): 이는 서로 다른 소스의 정보를 결합하는 전략을 의미합니다. 센서 융합(Sensor fusion)은 원시 데이터를 조기에 병합하거나 별도의 하위 모델의 결정을 나중에 결합하는 방식으로 발생할 수 있습니다. PyTorch와 같은 현대적인 프레임워크는 이러한 복잡한 파이프라인을 구축하는 데 필요한 유연성을 제공합니다.
  • 대조 학습(Contrastive Learning): OpenAI의 CLIP과 같은 모델에서 사용하는 기법으로, 벡터 공간에서 일치하는 텍스트-이미지 쌍 사이의 거리는 최소화하고 불일치하는 쌍 사이의 거리는 최대화하도록 시스템을 학습시킵니다.

Link to this section실제 애플리케이션 사례#

멀티모달 모델은 단일 모달리티 시스템으로는 달성하기 어려웠던 기능들을 가능하게 했습니다.

  • 시각적 질의응답(VQA): 이러한 시스템을 통해 사용자는 이미지에 대해 자연어 질문을 할 수 있습니다. 예를 들어, 시각 장애가 있는 사용자가 식료품 저장실 사진을 업로드하고 "맨 위 선반에 수프 캔이 있나요?"라고 물을 수 있습니다. 모델은 객체 탐지(object detection)을 사용하여 항목을 식별하고 NLP를 사용하여 질의를 이해함으로써 유용한 답변을 제공합니다.
  • 자율주행 차량(Autonomous Vehicles): 자율주행 자동차는 실시간 멀티모달 에이전트로 기능합니다. 이들은 카메라의 시각적 피드, LiDAR의 거리 정보, 레이더의 속도 데이터를 결합합니다. 이러한 중복성은 한 센서가 날씨로 인해 차단되더라도 다른 센서들이 도로 안전(road safety)을 유지할 수 있도록 보장합니다.
  • 오픈 어휘 탐지(Open-Vocabulary Detection): Ultralytics YOLO-World와 같은 모델을 사용하면 고정된 클래스 목록 대신 임의의 텍스트 프롬프트를 사용하여 객체를 탐지할 수 있습니다. 이는 언어적 명령과 시각적 인식 사이의 간극을 메워줍니다.

Link to this section예시: 오픈 어휘 탐지#

다음 예시는 ultralytics 라이브러리를 사용하여 오픈 어휘 탐지를 수행하는 방법을 보여줍니다. 여기서 모델은 텍스트 프롬프트를 해석하여 이미지 내의 객체를 식별합니다:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this section관련 용어와의 차이점#

AI 용어 사전에서 "멀티모달 모델"을 관련 개념과 구별하는 것은 유용합니다:

  • 멀티모달 학습(Multi-Modal Learning): 이는 이러한 시스템을 학습시키는 데 사용되는 과정머신러닝(ML) 기법을 의미합니다. 멀티모달 모델은 그 학습 과정의 결과물인 아티팩트 또는 소프트웨어 제품입니다.
  • 거대 언어 모델(LLMs): 전통적인 LLM은 텍스트만 처리합니다. 많은 모델이 시각-언어 모델(VLM)로 진화하고 있지만, 표준 LLM은 유니모달입니다.
  • 파운데이션 모델(Foundation Models): 이는 많은 다운스트림 작업에 적응할 수 있는 대규모 모델을 설명하는 더 넓은 범주입니다. 멀티모달 모델은 종종 파운데이션 모델이지만, 모든 파운데이션 모델이 여러 모달리티를 다루는 것은 아닙니다.

Link to this section멀티모달 AI의 미래#

해당 분야는 오디오, 비디오, 텍스트의 연속적인 스트림을 실시간으로 처리할 수 있는 시스템을 향해 빠르게 발전하고 있습니다. Google DeepMind와 같은 조직의 연구는 기계 인식의 한계를 지속적으로 확장하고 있습니다. Ultralytics는 YOLO26과 같은 고성능 비전 백본으로 이 생태계를 지원합니다. 2026년에 출시된 YOLO26은 인스턴스 세그멘테이션(instance segmentation)과 같은 작업에서 뛰어난 속도와 정확도를 제공하며, 더 큰 멀티모달 파이프라인에서 효율적인 시각적 구성 요소 역할을 합니다. 개발자는 통합 Ultralytics Platform을 사용하여 이러한 복잡한 워크플로우의 데이터, 학습 및 배포를 관리할 수 있습니다.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.