용어집

멀티모달 모델

멀티 모달 AI 모델이 텍스트, 이미지 등을 통합하여 실제 애플리케이션을 위한 강력하고 다양한 시스템을 만드는 방법을 알아보세요.

다중 모달 모델은 여러 유형의 데이터, 즉 '모달리티'의 정보를 동시에 처리하고 이해할 수 있는 인공 지능 시스템입니다. 텍스트나 이미지만 처리하는 기존 모델과 달리 다중 모달 모델은 텍스트, 이미지, 오디오 및 기타 데이터 소스를 함께 해석할 수 있으므로 보다 포괄적이고 인간과 유사한 이해를 이끌어낼 수 있습니다. 다양한 데이터 스트림을 통합하는 이러한 능력은 여러 관점에서 세상을 이해해야 하는 복잡한 작업을 처리할 수 있는 보다 진보된 상황 인식형 AI 시스템을 향한 중요한 단계입니다. 이러한 접근 방식은 일상 생활에서 AI의 미래를 위한 기본입니다.

멀티 모달 모델의 작동 방식

멀티모달 모델의 핵심 혁신은 서로 다른 데이터 유형 간의 관계를 찾고 학습하도록 설계된 아키텍처에 있습니다. 이를 가능하게 하는 핵심 기술은 획기적인 논문인 "주의력만 있으면 됩니다. "에 자세히 설명된 Transformer 아키텍처입니다. 이 아키텍처는 주의 메커니즘을 사용하여 문장의 단어든 이미지의 픽셀이든 입력 데이터의 다양한 부분의 중요도를 평가합니다. 이 모델은 공통 공간에서 각 양식의 의미를 포착하는 공유 표현, 즉 임베딩을 생성하는 방법을 학습합니다.

이러한 정교한 모델은 PyTorchTensorFlow와 같은 강력한 딥러닝(DL) 프레임워크를 사용하여 구축되는 경우가 많습니다. 학습 과정에는 텍스트 캡션이 있는 이미지와 같이 쌍을 이루는 데이터가 포함된 방대한 데이터 세트를 모델에 공급하여 모달리티 간의 연관성을 학습할 수 있도록 하는 것이 포함됩니다.

실제 애플리케이션

멀티모달 모델은 이미 다양한 혁신적인 애플리케이션을 지원하고 있습니다. 다음은 두 가지 대표적인 예입니다:

  1. 시각적 질문 답변(VQA): 사용자가 모델에 이미지를 제공하고 "테이블 위에 어떤 종류의 꽃이 있나요?"와 같이 자연어로 질문할 수 있습니다. 모델은 시각적 정보와 텍스트 쿼리를 모두 처리하여 관련 답변을 제공합니다. 이 기술은 시각 장애인을 위한 교육 및 접근성 도구와 같은 분야에서 상당한 잠재력을 가지고 있습니다.
  2. 텍스트-이미지 생성: OpenAI의 DALL-E 3Midjourney와 같은 모델은 텍스트 프롬프트(예: "해질녘의 미래 도시 풍경, 하늘을 나는 자동차")를 입력하면 설명과 일치하는 고유한 이미지를 생성합니다. 이러한 형태의 생성 AI는 마케팅에서 게임 디자인에 이르기까지 크리에이티브 산업에 혁신을 일으키고 있습니다.

주요 개념 및 차이점

멀티모달 모델을 이해하려면 관련 개념에 익숙해져야 합니다:

  • 멀티모달 학습: 머신러닝(ML) 의 하위 분야로, 멀티모달 모델을 훈련하는 데 사용되는 알고리즘과 기법을 개발하는 데 중점을 둡니다. 이 분야는 학술 논문에서 자주 논의되는 데이터 정렬 및 융합 전략과 같은 과제를 다룹니다. 간단히 말해, 멀티 모달 학습은 과정이고 멀티 모달 모델은 결과입니다.
  • 파운데이션 모델: GPT-4와 같은 많은 최신 파운데이션 모델은 본질적으로 텍스트와 이미지를 모두 처리할 수 있는 멀티 모달입니다. 이러한 대형 모델은 특정 작업에 맞게 미세 조정할 수 있는 기반 역할을 합니다.
  • 대규모 언어 모델(LLM): 관련성이 있긴 하지만 LLM은 전통적으로 텍스트 처리에 중점을 둡니다. 다중 모달 모델은 언어뿐만 아니라 다양한 데이터 유형의 정보를 처리하고 통합하도록 명시적으로 설계된 보다 광범위한 모델입니다. 하지만 비전 언어 모델(VLM)의 등장으로 그 경계가 모호해지고 있습니다.
  • 특수 비전 모델: 멀티 모달 모델은 울트라틱스 YOLO와 같은 전문화된 컴퓨터 비전(CV) 모델과는 다릅니다. GPT-4와 같은 멀티 모달 모델은 이미지("매트 위에 고양이가 앉아 있다")를 설명할 수 있지만, YOLO 모델은 객체 감지 또는 인스턴스 분할에 탁월하여 경계 상자나 픽셀 마스크로 고양이의 위치를 정확하게 찾아냅니다. 이러한 모델은 상호 보완적으로 사용할 수 있으며, YOLO 모델은 객체의 위치를 식별하는 반면 멀티모달 모델은 장면을 해석하거나 질문에 대한 답변을 제공할 수 있습니다. 다양한 YOLO 모델 간의 비교를 확인해 보세요.

이러한 모델을 개발하고 배포하려면 데이터 세트와 모델 학습 워크플로우를 관리하는 데 도움이 되는 Ultralytics HUB와 같은 플랫폼이 필요한 경우가 많습니다. 다양한 데이터 유형을 연결할 수 있는 기능은 멀티모달 모델을 보다 포괄적인 AI를 향한 한 걸음으로 나아가게 하며, 잠재적으로 미래의 인공 일반 지능(AGI)에 기여할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨