Yolo 비전 선전
선전
지금 참여하기
용어집

다중 모달 모델

다중 모드 AI 모델이 텍스트, 이미지 등을 통합하여 실제 애플리케이션을 위한 강력하고 다재다능한 시스템을 만드는 방법을 알아보세요.

멀티 모달 모델은 고급 인공 지능(AI) 시스템 여러 가지 다른 데이터 유형 또는 "모달리티"를 동시에 처리할 수 있습니다. 다음과 같이 단일 도메인에 특화된 기존의 유니모달 시스템과 달리, 다음과 같은 다양한 데이터 유형을 동시에 처리할 수 있습니다. 자연어 처리(NLP) 텍스트 또는 컴퓨터 비전(CV) 멀티 모달 모델은 텍스트, 이미지, 오디오, 비디오, 센서 데이터를 함께 분석할 수 있습니다. 이러한 융합을 통해 시각적 단서와 언어적 단서 간의 상관관계를 도출할 수 있으므로 보다 포괄적이고 인간과 유사한 방식으로 세상을 이해할 수 있습니다. 상관관계를 도출할 수 있기 때문입니다. 이러한 기능은 미래의 인공 일반 지능(AGI) 개발의 기반이 되며, 현재 로봇 공학에서 자동화된 콘텐츠 제작에 이르기까지 다양한 분야에서 혁신을 주도하고 있습니다.

핵심 메커니즘

멀티모달 모델의 효율성은 서로 다른 데이터 유형을 공유 의미 공간에 매핑하는 능력에 달려 있습니다. 공간에 매핑하는 능력에 달려 있습니다. 이 프로세스는 일반적으로 임베딩(데이터의 숫자 표현)을 생성하는 것으로 시작됩니다. 임베딩(데이터의 본질적인 의미를 포착하는 임베딩을 생성하는 것으로 시작됩니다. 캡션이 있는 이미지와 같이 쌍을 이루는 예제의 방대한 데이터 세트를 학습하여 모델은 "개" 사진의 임베딩을 "개"라는 단어의 텍스트 임베딩과 일치시키는 방법을 학습합니다. "dog."

주요 아키텍처 혁신을 통해 이러한 통합이 가능해졌습니다:

  • 트랜스포머 아키텍처: 원래 논문 "주의 집중이 필요한 모든 것"에서 제안되었습니다, 트랜스포머는 주의 메커니즘을 활용하여 다양한 입력 부분의 중요도를 동적으로 평가합니다. 이를 통해 특정 텍스트 쿼리를 처리할 때 모델이 관련 시각적 영역에 집중할 수 있습니다. 에 집중할 수 있습니다.
  • 데이터 융합: 서로 다른 출처의 정보를 효과적으로 결합해야 합니다. 전략은 다음과 같이 다양합니다. 초기 융합(원시 데이터 결합)에서 후기 융합(모델 결정 결합)에 이르기까지 다양합니다. 다음과 같은 최신 프레임워크는 PyTorchTensorFlow 와 같은 최신 프레임워크는 이러한 복잡한 아키텍처를 구현하는 데 필요한 유연한 도구를 제공합니다.

실제 애플리케이션

멀티 모달 모델은 이전에는 단일 모달 시스템으로는 불가능했던 새로운 기능을 실현했습니다.

  • 시각적 질문 답변(VQA): 이러한 시스템은 이미지를 분석하고 이에 대한 자연어 질문에 답할 수 있습니다. 예를 들어, 시각 장애가 있는 사용자가 "횡단보도를 걷기에 안전한가요?"라고 질문하면 모델이 실시간 비디오 피드(시각적)와 질문(텍스트)을 처리하여 질문(텍스트)을 처리하여 오디오 응답을 제공합니다.
  • 텍스트-이미지 생성: 선도적인 생성 AIOpenAI의 DALL-E 3는 설명적인 텍스트 프롬프트를 받아 충실도 높은 고충실도 이미지를 생성합니다. 이를 위해서는 텍스트 개념이 텍스처, 조명, 구도와 같은 시각적 속성으로 변환되는 방식에 대한 깊은 이해가 필요합니다. 텍스처, 조명, 구도와 같은 시각적 속성으로 변환하는 방법에 대한 깊은 이해가 필요합니다.
  • 열린 어휘 개체 감지: 다음과 같은 모델 같은 모델은 사용자가 고정된 클래스 목록이 아닌 임의의 텍스트 detect 사용하여 를 감지할 수 있습니다. 이를 통해 언어적 명령과 시각적 인식 사이의 시각적 인식 사이의 격차를 해소합니다.

다음 예는 ultralytics 라이브러리를 사용하여 개방형 어휘 감지를 수행하여 모델이 사용자 지정 텍스트 입력을 기반으로 객체를 감지합니다:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

관련 용어와의 차이점

AI 용어집에서 '멀티모달 모델'을 관련 개념과 구별하는 것이 중요합니다:

  • 멀티 모달 학습: 이 은 이러한 시스템을 학습하는 데 사용되는 프로세스 및 머신 러닝 기술을 의미합니다. 멀티 모달 모델은 성공적인 멀티모달 학습의 결과입니다.
  • 대규모 언어 모델(LLM): 기존 LLM은 텍스트만 처리하지만, 많은 LLM이 비전 언어 모델(VLM)로 진화하고 있습니다. 하지만 표준 LLM은 단일 모달인 반면, 다중 모달 모델은 여러 입력 유형을 위해 명시적으로 설계되었습니다.
  • 파운데이션 모델: 이것은 많은 다운스트림 작업에 적용할 수 있는 대규모 모델을 설명하는 광범위한 카테고리입니다. 멀티모달 모델은 종종 유형의 기초 모델이지만 모든 기초 모델이 멀티모달인 것은 아닙니다.

멀티모달 AI의 미래

이 분야는 오디오, 비디오, 텍스트의 지속적인 스트림을 실시간으로 처리할 수 있는 모델로 실시간으로 처리할 수 있는 모델로 빠르게 발전하고 있습니다. Google 딥마인드와 같은 조직의 연구는 이러한 시스템이 인식할 수 있는 한계를 이러한 시스템이 인식할 수 있는 것의 경계를 계속 넓혀가고 있습니다. Ultralytics 주력 제품인 YOLO11 모델이 사물 감지의 속도와 정확도의 물체 감지의 속도와 정확성의 표준을 설정하고 있지만, 우리는 또한 혁신을 거듭하고 있습니다. YOLO26과 같은 아키텍처를 통해 혁신하고 있으며, 이는 엣지 및 클라우드 애플리케이션의 효율성을 더욱 향상시킬 것입니다. 앞으로 포괄적인 Ultralytics 플랫폼은 데이터 관리, 교육, 배포를 위한 통합 환경을 제공할 것입니다, 데이터 관리, 학습, 배포를 위한 통합 환경을 제공할 것입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기