용어집

멀티모달 AI

멀티모달 AI를 탐구하고 텍스트와 비전을 통합하여 맥락을 인식하는 이해 방식을 알아보세요. Ultralytics 및 오픈 어휘 모델 사용법을 지금 바로 배워보세요.

다중 모달 AI는 다양한 유형의 데이터 또는 "모달리티"로부터 정보를 동시에 처리, 해석 및 합성하도록 설계된 고급 인공 지능(AI) 시스템 을 의미합니다. 단일 입력 소스(예: 텍스트 전용 자연어 처리(NLP)나 이미지 전용 컴퓨터 비전(CV) 과 달리 다중 모달 AI는 다양한 데이터 스트림을 통합하여 인간의 지각 방식을 모방합니다. 이러한 통합에는 시각 데이터(이미지, 동영상)와 언어 데이터(텍스트, 음성 오디오), 감각 정보(LiDAR, 레이더, 열화상)의 결합이 포함될 수 있습니다. 이러한 결합된 입력을 활용함으로써, 해당 모델들은 복잡한 현실 세계 시나리오에 대한 더 깊고 맥락을 인식하는 이해를 달성하며, 인공 일반 지능(AGI)의 광범위한 역량에 한 걸음 더 가까워집니다.

다중 모드 시스템의 작동 방식

다중 모달 AI의 핵심 강점은 서로 다른 데이터 유형을 공유 수학적 공간으로 매핑하여 비교 및 결합할 수 있는 능력에 있습니다. 이 과정은 일반적으로 인코딩, 정렬, 융합이라는 세 가지 주요 단계를 거칩니다.

특징 추출: 특화된 신경망은 각 모달리티를 독립적으로 처리하여 핵심 패턴을 식별합니다. 예를 들어, 컨볼루션 신경망(CNN) 은 사진에서 시각적 특징을 추출하는 반면, 트랜스포머는 동반된 캡션을 처리합니다.
정렬 및 임베딩: 추출된 특징들은 고차원 수치 벡터로 변환됩니다. 모델은 이러한 벡터들을 정렬하여 의미적으로 유사한 개념들(예: 고양이 이미지와 "고양이"라는 텍스트 단어)이 벡터 공간에서 서로 가까이 위치하도록 학습합니다. 이는 대조적 학습과 같은 기법을 통해 달성되는 경우가 많으며, OpenAI의 CLIP과 같은 모델에서 유명하게 활용된 방법입니다.
데이터 융합: 시스템은 정렬된 데이터를 고급 융합 기법을 사용하여 병합합니다. 현대적 아키텍처는 어텐션 메커니즘을 활용하여 문맥에 따라 한 모달리티의 중요도를 다른 모달리티 대비 동적으로 가중치 부여함으로써, 이미지가 모호할 때는 모델이 텍스트에 집중하거나 그 반대의 경우를 가능하게 합니다.

실제 애플리케이션

다중 모달 AI는 단일 모달 시스템으로는 불가능했던 역량을 실현하여 다양한 산업 전반에 걸쳐 혁신을 주도하고 있습니다.

시각적 질문 답변(VQA): 이 애플리케이션에서는 사용자가 AI에 이미지를 제시하고 그에 대해 자연어 질문을 할 수 있습니다. 예를 들어, 시각 장애가 있는 사용자가 식료품 저장실 사진을 업로드하고 "파스타가 남아 있나요?"라고 질문할 수 있습니다. 모델은 시각적 콘텐츠와 텍스트 질의를 처리하여 구체적인 답변을 제공합니다.
자율주행 차량: 자율주행 차량은 카메라, 라이다 포인트 클라우드, 레이더에서 수집된 데이터를 결합하여 안전하게 주행하기 위해 다중 모드 입력에 크게 의존합니다. 이러한 중복성은 하나의 센서(예: 태양 반사로 인해 카메라가 작동 불능 상태가 되는 경우)가 고장 나더라도 다른 센서들이 자동차 공학회(SAE)에서 정의한 안전 기준을 유지할 수 있도록 보장합니다.
의료 진단: 첨단 의료 AI 시스템은 의료 영상 분석 (예: MRI 또는 X-레이)과 함께 비정형 텍스트 형태의 환자 병력 및 유전 정보를 분석합니다. 이러한 포괄적인 관점은 의사들이 보다 정확한 진단을 내리는 데 도움을 주며, 이는 Nature Digital Medicine에서 자주 논의되는 주제입니다.
생성형 AI: 텍스트 프롬프트로부터 이미지를 생성하는 도구들, 예를 들어 Stable Diffusion은 전적으로 모델이 언어적 묘사와 시각적 질감 간의 관계를 이해하는 능력에 의존한다.

Ultralytics 활용한 오픈 어휘 감지

표준 객체 탐지기는 사전 정의된 범주 목록에 의존하는 반면, YOLO 같은 다중 모달 접근법은 사용자가 개방형 어휘 텍스트 프롬프트를 활용해 detect 수 있게 합니다. 이는 Ultralytics 내에서 언어적 명령과 시각적 인식 간의 격차를 해소합니다.

다음 예는 ultralytics 라이브러리를 사용하여 개방형 어휘 감지를 수행하여 모델이 사용자 지정 텍스트 입력을 기반으로 객체를 감지합니다:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

향후 전망

다중 모달 AI의 발전 경로는 더 높은 추론 능력을 지닌 시스템으로 향하고 있다. 언어를 시각적·물리적 현실에 성공적으로 접지함으로써, 이러한 모델들은 통계적 상관관계를 넘어 진정한 이해로 나아가고 있다. Google 스탠퍼드 기초 모델 연구 센터 같은 기관들의 연구는 기계가 복잡한 환경을 인지하는 방식의 경계를 계속해서 확장하고 있다.

Ultralytics 이러한 발전 사항들을 Ultralytics 통합하여, 사용자가 데이터를 관리하고 모델을 훈련시키며 다양한 모달리티를 모두 활용하는 솔루션을 배포할 수 있도록 지원합니다. 이는 YOLO26의 속도와 다중 모달 입력의 유연성을 결합한 것입니다.

멀티모달 AI

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

다중 모드 시스템의 작동 방식

실제 애플리케이션

Ultralytics 활용한 오픈 어휘 감지

관련 용어 구분하기

향후 전망

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

단안 깊이 추정이란 무엇인가? 개요

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 커뮤니티 가입