다중 모드 AI 모델이 텍스트, 이미지 등을 통합하여 실제 애플리케이션을 위한 강력하고 다재다능한 시스템을 만드는 방법을 알아보세요.
멀티 모달 모델은 고급 인공 지능(AI) 시스템 여러 가지 다른 데이터 유형 또는 "모달리티"를 동시에 처리할 수 있습니다. 다음과 같이 단일 도메인에 특화된 기존의 유니모달 시스템과 달리, 다음과 같은 다양한 데이터 유형을 동시에 처리할 수 있습니다. 자연어 처리(NLP) 텍스트 또는 컴퓨터 비전(CV) 멀티 모달 모델은 텍스트, 이미지, 오디오, 비디오, 센서 데이터를 함께 분석할 수 있습니다. 이러한 융합을 통해 시각적 단서와 언어적 단서 간의 상관관계를 도출할 수 있으므로 보다 포괄적이고 인간과 유사한 방식으로 세상을 이해할 수 있습니다. 상관관계를 도출할 수 있기 때문입니다. 이러한 기능은 미래의 인공 일반 지능(AGI) 개발의 기반이 되며, 현재 로봇 공학에서 자동화된 콘텐츠 제작에 이르기까지 다양한 분야에서 혁신을 주도하고 있습니다.
멀티모달 모델의 효율성은 서로 다른 데이터 유형을 공유 의미 공간에 매핑하는 능력에 달려 있습니다. 공간에 매핑하는 능력에 달려 있습니다. 이 프로세스는 일반적으로 임베딩(데이터의 숫자 표현)을 생성하는 것으로 시작됩니다. 임베딩(데이터의 본질적인 의미를 포착하는 임베딩을 생성하는 것으로 시작됩니다. 캡션이 있는 이미지와 같이 쌍을 이루는 예제의 방대한 데이터 세트를 학습하여 모델은 "개" 사진의 임베딩을 "개"라는 단어의 텍스트 임베딩과 일치시키는 방법을 학습합니다. "dog."
주요 아키텍처 혁신을 통해 이러한 통합이 가능해졌습니다:
멀티 모달 모델은 이전에는 단일 모달 시스템으로는 불가능했던 새로운 기능을 실현했습니다.
다음 예는 ultralytics 라이브러리를 사용하여 개방형 어휘
감지를 수행하여 모델이 사용자 지정 텍스트 입력을 기반으로 객체를 감지합니다:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
AI 용어집에서 '멀티모달 모델'을 관련 개념과 구별하는 것이 중요합니다:
이 분야는 오디오, 비디오, 텍스트의 지속적인 스트림을 실시간으로 처리할 수 있는 모델로 실시간으로 처리할 수 있는 모델로 빠르게 발전하고 있습니다. Google 딥마인드와 같은 조직의 연구는 이러한 시스템이 인식할 수 있는 한계를 이러한 시스템이 인식할 수 있는 것의 경계를 계속 넓혀가고 있습니다. Ultralytics 주력 제품인 YOLO11 모델이 사물 감지의 속도와 정확도의 물체 감지의 속도와 정확성의 표준을 설정하고 있지만, 우리는 또한 혁신을 거듭하고 있습니다. YOLO26과 같은 아키텍처를 통해 혁신하고 있으며, 이는 엣지 및 클라우드 애플리케이션의 효율성을 더욱 향상시킬 것입니다. 앞으로 포괄적인 Ultralytics 플랫폼은 데이터 관리, 교육, 배포를 위한 통합 환경을 제공할 것입니다, 데이터 관리, 학습, 배포를 위한 통합 환경을 제공할 것입니다.

