멀티모달 AI를 탐구하고 텍스트와 비전을 통합하여 맥락을 인식하는 이해 방식을 알아보세요. Ultralytics 및 오픈 어휘 모델 사용법을 지금 바로 배워보세요.
다중 모달 AI는 다양한 유형의 데이터 또는 "모달리티"로부터 정보를 동시에 처리, 해석 및 합성하도록 설계된 고급 인공 지능(AI) 시스템 을 의미합니다. 단일 입력 소스(예: 텍스트 전용 자연어 처리(NLP)나 이미지 전용 컴퓨터 비전(CV) 과 달리 다중 모달 AI는 다양한 데이터 스트림을 통합하여 인간의 지각 방식을 모방합니다. 이러한 통합에는 시각 데이터(이미지, 동영상)와 언어 데이터(텍스트, 음성 오디오), 감각 정보(LiDAR, 레이더, 열화상)의 결합이 포함될 수 있습니다. 이러한 결합된 입력을 활용함으로써, 해당 모델들은 복잡한 현실 세계 시나리오에 대한 더 깊고 맥락을 인식하는 이해를 달성하며, 인공 일반 지능(AGI)의 광범위한 역량에 한 걸음 더 가까워집니다.
다중 모달 AI의 핵심 강점은 서로 다른 데이터 유형을 공유 수학적 공간으로 매핑하여 비교 및 결합할 수 있는 능력에 있습니다. 이 과정은 일반적으로 인코딩, 정렬, 융합이라는 세 가지 주요 단계를 거칩니다.
다중 모달 AI는 단일 모달 시스템으로는 불가능했던 역량을 실현하여 다양한 산업 전반에 걸쳐 혁신을 주도하고 있습니다.
표준 객체 탐지기는 사전 정의된 범주 목록에 의존하는 반면, YOLO 같은 다중 모달 접근법은 사용자가 개방형 어휘 텍스트 프롬프트를 활용해 detect 수 있게 합니다. 이는 Ultralytics 내에서 언어적 명령과 시각적 인식 간의 격차를 해소합니다.
다음 예는 ultralytics 라이브러리를 사용하여 개방형 어휘
감지를 수행하여 모델이 사용자 지정 텍스트 입력을 기반으로 객체를 감지합니다:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
현대 기계 학습의 지형을 탐색하기 위해서는 "다중 모달 AI"를 관련 개념들과 구분하는 것이 도움이 됩니다:
다중 모달 AI의 발전 경로는 더 높은 추론 능력을 지닌 시스템으로 향하고 있다. 언어를 시각적·물리적 현실에 성공적으로 접지함으로써, 이러한 모델들은 통계적 상관관계를 넘어 진정한 이해로 나아가고 있다. Google 스탠퍼드 기초 모델 연구 센터 같은 기관들의 연구는 기계가 복잡한 환경을 인지하는 방식의 경계를 계속해서 확장하고 있다.
Ultralytics 이러한 발전 사항들을 Ultralytics 통합하여, 사용자가 데이터를 관리하고 모델을 훈련시키며 다양한 모달리티를 모두 활용하는 솔루션을 배포할 수 있도록 지원합니다. 이는 YOLO26의 속도와 다중 모달 입력의 유연성을 결합한 것입니다.