텍스트, 이미지, 오디오와 같은 다양한 데이터를 처리하고 이해하는 시스템 분야인 멀티모달 AI를 만나보세요. 작동 방식과 주요 응용 분야를 알아보세요.
다중 모달 AI는 서로 다른 유형의 데이터, 즉 "모달리티"로부터 정보를 동시에 처리하고 해석하며 종합하도록 설계된 정교한 인공 지능(AI) 시스템의 한 종류를 의미합니다. 단일 입력 소스(예: 텍스트의 자연어 처리(NLP) 또는 이미지의 컴퓨터 비전(CV))에 특화된 기존 단일 모달 시스템과 달리, 다중 모달 AI는 다양한 데이터 스트림을 통합함으로써 인간의 지각 방식을 모방합니다. 텍스트용 자연어 처리(NLP)나 이미지용 컴퓨터 비전(CV) 과 같은 단일 모달 시스템과 달리, 다중 모달 AI는 다양한 데이터 스트림을 통합하여 인간의 지각 방식을 모방합니다. 여기에는 시각 데이터(이미지, 동영상)와 언어 데이터(텍스트, 음성 오디오), 감각 정보(LiDAR, 레이더, 열화상)의 결합이 포함될 수 있습니다. 이러한 복합 입력을 활용함으로써, 해당 모델들은 복잡한 현실 세계 시나리오에 대해 더 깊고 맥락을 인지하는 이해를 달성하여 인공 일반 지능(AGI)의 역량에 한 걸음 더 가까워집니다.
다중 모달 AI의 힘은 서로 다른 데이터 유형을 공유된 수학적 공간으로 매핑하는 능력에 있다. 이 과정은 일반적으로 인코딩, 융합, 디코딩이라는 세 가지 핵심 단계를 포함한다.
다중 모달 AI는 환경에 대한 종합적인 관점이 필요한 문제들을 해결함으로써 산업에 혁신을 일으키고 있습니다.
다중 모드 AI의 실용적 사례로는 사전 훈련된 클래스 목록이 아닌 임의의 텍스트 프롬프트를 기반으로 물체를 탐지하는 개방형 어휘 객체 탐지가 있습니다. Ultralytics YOLO 모델은 이러한 기능을 구현하여 언어적 명령과 시각적 인식 간의 격차를 해소합니다.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the multimodal detection results
results[0].show()
관련 개념과 "다중 모달 AI"를 구분하는 것이 상황을 더 잘 이해하는 데 도움이 됩니다:
이 분야는 별도의 네트워크를 결합하는 방식이 아닌, 처음부터 본질적으로 다중 모달(multimodal)인 파운데이션 모델(Foundation Models )로 나아가고 있습니다. Google DeepMind )와 같은 기관의 연구는 AI가 세상을 인식하는 방식의 한계를 계속해서 넓혀가고 있습니다. Ultralytics( Ultralytics)의 YOLO26 출시로 이러한 파이프라인의 비전 구성 요소 효율성에 새로운 기준이 제시되었으며, 다중 모달 시스템의 시각적 '눈'이 그 어느 때보다 빠르고 정확해졌습니다.