Yolo 비전 선전
선전
지금 참여하기
용어집

멀티모달 AI

텍스트, 이미지, 오디오와 같은 다양한 데이터를 처리하고 이해하는 시스템 분야인 멀티모달 AI를 만나보세요. 작동 방식과 주요 응용 분야를 알아보세요.

다중 모달 AI는 서로 다른 유형의 데이터, 즉 "모달리티"로부터 정보를 동시에 처리하고 해석하며 종합하도록 설계된 정교한 인공 지능(AI) 시스템의 한 종류를 의미합니다. 단일 입력 소스(예: 텍스트의 자연어 처리(NLP) 또는 이미지의 컴퓨터 비전(CV))에 특화된 기존 단일 모달 시스템과 달리, 다중 모달 AI는 다양한 데이터 스트림을 통합함으로써 인간의 지각 방식을 모방합니다. 텍스트용 자연어 처리(NLP)나 이미지용 컴퓨터 비전(CV) 과 같은 단일 모달 시스템과 달리, 다중 모달 AI는 다양한 데이터 스트림을 통합하여 인간의 지각 방식을 모방합니다. 여기에는 시각 데이터(이미지, 동영상)와 언어 데이터(텍스트, 음성 오디오), 감각 정보(LiDAR, 레이더, 열화상)의 결합이 포함될 수 있습니다. 이러한 복합 입력을 활용함으로써, 해당 모델들은 복잡한 현실 세계 시나리오에 대해 더 깊고 맥락을 인지하는 이해를 달성하여 인공 일반 지능(AGI)의 역량에 한 걸음 더 가까워집니다.

다중 모드 시스템의 핵심 메커니즘

다중 모달 AI의 힘은 서로 다른 데이터 유형을 공유된 수학적 공간으로 매핑하는 능력에 있다. 이 과정은 일반적으로 인코딩, 융합, 디코딩이라는 세 가지 핵심 단계를 포함한다.

  1. 특징 추출: 각 모달리티는 특수화된 신경망(NN) 으로 인코딩됩니다. 예를 들어, 컨볼루션 신경망(CNN)은 이미지를 처리하여 시각적 특징을 추출하는 반면, 트랜스포머는 동반된 텍스트를 처리합니다.
  2. 임베딩과 정렬: 추출된 특징들은 임베딩—고차원 수치 벡터로 변환됩니다. 모델은 이러한 벡터들을 정렬하여 의미적으로 유사한 개념들(예: 고양이 사진과 "고양이"라는 단어)이 벡터 공간에서 서로 가까이 위치하도록 합니다. 이는 대조적 학습과 같은 기법을 통해 달성되는 경우가 많으며, OpenAI의 CLIP과 같은 모델에서 유명하게 활용됩니다.
  3. 퓨전: 시스템은 정렬된 데이터를 퓨전 기법을 사용하여 병합합니다. 고급 어텐션 메커니즘을 통해 모델은 컨텍스트에 따라 한 모달리티의 중요도를 다른 모달리티보다 동적으로 가중할 수 있으며, 이 개념은 기초 논문 "Attention Is All You Need"에서 상세히 설명됩니다.

실제 애플리케이션

다중 모달 AI는 환경에 대한 종합적인 관점이 필요한 문제들을 해결함으로써 산업에 혁신을 일으키고 있습니다.

  • 시각적 질문응답(VQA): 이 애플리케이션은 사용자가 자연어로 이미지를 질의할 수 있게 합니다. 예를 들어 시각 장애인 사용자가 식료품 저장실 사진을 제시하며 "상단 선반에 수프 캔이 있나요?"라고 질문할 수 있습니다. 시스템은 객체 탐지 기술을 활용해 물건을 식별하고 자연어 처리(NLP)를 통해 구체적인 질문을 이해한 후 음성 응답을 제공합니다.
  • 자율주행 차량: 자율주행 차량은 안전하게 주행하기 위해 센서 융합 기술을 활용합니다. 카메라의 시각적 정보와 라이다(LiDAR)의 깊이 데이터, 레이더의 속도 데이터를 결합합니다. 이러한 다중 모드 접근 방식은 하나의 센서가 손상되더라도(예: 태양 반사로 카메라가 가려진 경우) 시스템이 여전히 detect 도로 안전을 유지할 수 있도록 보장합니다.
  • 의료 분야 인공지능: 현대적 진단 도구는 의료 영상 분석 (X선, MRI)과 임상 기록 및 환자 병력 같은 비정형 텍스트 데이터를 통합합니다. 이러한 다양한 방식을 함께 분석함으로써 의사들은 보다 정확한 위험 평가와 맞춤형 치료 계획을 수립할 수 있습니다.

Ultralytics 활용한 오픈 어휘 감지

다중 모드 AI의 실용적 사례로는 사전 훈련된 클래스 목록이 아닌 임의의 텍스트 프롬프트를 기반으로 물체를 탐지하는 개방형 어휘 객체 탐지가 있습니다. Ultralytics YOLO 모델은 이러한 기능을 구현하여 언어적 명령과 시각적 인식 간의 격차를 해소합니다.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the multimodal detection results
results[0].show()

주요 용어 차별화

관련 개념과 "다중 모달 AI"를 구분하는 것이 상황을 더 잘 이해하는 데 도움이 됩니다:

  • 다중 모달 학습: 이는 혼합 데이터 유형으로 알고리즘을 훈련시키는 학문 분야 및 과정을 의미합니다. 다중 모달 AI는 이러한 학습 과정의 실제 적용 또는 결과물입니다.
  • 대규모 언어 모델(LLM): 기존 LLM은 단일 모달(unimodal)로 텍스트만 처리합니다. 비전-언어 모델(VLM)로 진화하는 사례가 늘고 있지만, 표준 LLM은 추가 어댑터 없이는 시각 데이터를 본질적으로 처리하지 않습니다.
  • 특화 시각 모델: 최첨단 Ultralytics 같은 모델은 시각 작업에 특화된 전문가입니다. 일반적인 다중 모달 모델이 장면을 포괄적으로 설명하는 반면, 특화 모델은 고속 정밀 인스턴스 분할과 에지 하드웨어에서의 실시간 처리에 탁월합니다.

향후 방향

이 분야는 별도의 네트워크를 결합하는 방식이 아닌, 처음부터 본질적으로 다중 모달(multimodal)인 파운데이션 모델(Foundation Models )로 나아가고 있습니다. Google DeepMind )와 같은 기관의 연구는 AI가 세상을 인식하는 방식의 한계를 계속해서 넓혀가고 있습니다. Ultralytics( Ultralytics)의 YOLO26 출시로 이러한 파이프라인의 비전 구성 요소 효율성에 새로운 기준이 제시되었으며, 다중 모달 시스템의 시각적 '눈'이 그 어느 때보다 빠르고 정확해졌습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기