용어집

멀티모달 모델

멀티 모달 AI 모델이 텍스트, 이미지 등을 통합하여 실제 애플리케이션을 위한 강력하고 다양한 시스템을 만드는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

다중 모달 모델은 모달리티라고 하는 여러 유형의 데이터 소스에서 정보를 처리하고 통합함으로써 인공지능(AI) 의 중요한 발전을 나타냅니다. 이미지나 텍스트에만 집중하는 기존 모델과 달리 다중 모달 시스템은 텍스트, 이미지, 오디오, 비디오, 센서 데이터와 같은 입력을 결합하여 복잡한 시나리오를 보다 총체적이고 인간처럼 이해할 수 있습니다. 이러한 통합을 통해 단일 모달리티 모델이 놓칠 수 있는 복잡한 관계와 컨텍스트를 포착하여 더욱 강력하고 다양한 AI 애플리케이션으로 이어질 수 있으며, 이에 대한 자세한 내용은 Ultralytics 블로그와 같은 리소스에서 살펴볼 수 있습니다.

정의

다중 모달 모델은 두 개 이상의 서로 다른 데이터 양식의 정보를 동시에 처리하고 이해하며 연관시키도록 설계되고 학습된 AI 시스템입니다. 일반적인 양식에는 시각(이미지, 동영상), 청각(음성, 소리), 텍스트(자연어 처리 - NLP) 및 기타 센서 데이터(예: LiDAR 또는 온도 판독값)가 포함됩니다. 핵심 아이디어는 정보 융합으로, 서로 다른 데이터 유형의 강점을 결합하여 더 깊이 이해하는 것입니다. 예를 들어, 동영상을 완전히 이해하려면 시각적 프레임, 음성 대화(오디오), 텍스트 캡션 또는 자막을 처리해야 합니다. 머신 러닝(ML) 학습 과정에서 이러한 양식 간의 상관관계와 의존성을 학습함으로써, 종종 딥 러닝(DL) 기술을 사용하여 이러한 모델은 각 양식을 개별적으로 분석할 때보다 더 풍부하고 미묘한 이해를 개발할 수 있습니다.

관련성 및 응용 분야

실제 정보는 본질적으로 다면적이기 때문에 다중 모달 모델의 중요성이 빠르게 증가하고 있습니다. 인간은 자연스럽게 여러 감각을 사용하여 세상을 인식하며, AI에 이와 유사한 기능을 부여하면 보다 정교하고 맥락을 인식하는 애플리케이션을 구현할 수 있습니다. 이러한 모델은 다양한 데이터 스트림을 통합하여 복잡한 작업에서 정확도를 향상시키는 데 중요한 역할을 합니다.

다음은 몇 가지 구체적인 적용 예시입니다:

주요 개념 및 차이점

멀티모달 모델을 이해하려면 관련 개념에 익숙해져야 합니다:

  • 멀티모달 학습: 다중 모드 모델 학습에 사용되는 알고리즘과 기법을 개발하는 데 중점을 둔 ML의 하위 분야입니다. 이 분야에서는 학술 논문에서 자주 논의되는 데이터 정렬 및 융합 전략과 같은 과제를 다룹니다.
  • 파운데이션 모델: GPT-4와 같은 많은 최신 파운데이션 모델은 본질적으로 텍스트와 이미지를 모두 처리할 수 있는 멀티 모달입니다. 이러한 대형 모델은 특정 작업에 맞게 미세 조정할 수 있는 기반 역할을 합니다.
  • 대규모 언어 모델(LLM): 관련성이 있긴 하지만 LLM은 전통적으로 텍스트 처리에 중점을 둡니다. 다중 모달 모델은 언어뿐 아니라 다양한 데이터 유형의 정보를 처리하고 통합하도록 명시적으로 설계된 보다 광범위한 모델입니다. 하지만 일부 고급 LLM은 멀티 모달 기능을 발전시켰습니다.
  • 특수 비전 모델: 멀티 모달 모델은 다음과 같은 전문화된 컴퓨터 비전(CV) 모델과 다릅니다. Ultralytics YOLO. GPT-4와 같은 멀티 모달 모델은 이미지("매트 위에 고양이가 앉아 있다")를 설명할 수 있지만, YOLO 모델은 객체 감지 또는 인스턴스 분할에 탁월하여 경계 상자나 픽셀 마스크로 고양이의 위치를 정확하게 찾아냅니다. 이러한 모델은 상호 보완적으로 사용할 수 있으며, YOLO 모델은 객체의 위치를 식별하는 반면 멀티모달 모델은 장면을 해석하거나 질문에 대한 답변을 제공할 수 있습니다. 다양한 YOLO 모델 간의 비교를 확인해 보세요.
  • 트랜스포머 아키텍처: "주의가 필요한 모든 것"에서 소개한 트랜스포머 아키텍처는 많은 성공적인 멀티모달 모델의 기본으로, 주의 메커니즘을 통해 다양한 데이터 시퀀스를 효과적으로 처리하고 통합할 수 있게 해줍니다.

이러한 모델을 개발하고 배포하려면 종종 다음과 같은 프레임워크가 필요합니다. PyTorchTensorFlow와 같은 프레임워크가 필요하며, Ultralytics HUB와 같은 플랫폼은 데이터 세트와 모델 학습 워크플로우를 관리하는 데 도움이 될 수 있지만, 현재 HUB는 비전 관련 작업에 더 중점을 두고 있습니다. 다양한 데이터 유형을 연결할 수 있는 멀티모달 모델은 보다 포괄적인 AI를 향한 한 걸음으로, 잠재적으로 미래의 인공 일반 지능(AGI)에 기여할 수 있습니다.

모두 보기