용어집

멀티 모달 학습

AI에서 멀티모달 학습의 힘을 알아보세요! 모델이 다양한 데이터 유형을 통합하여 보다 풍부한 실제 문제 해결을 지원하는 방법을 살펴보세요.

다중 모달 학습은 머신러닝(ML) 의 하위 분야로, AI 모델이 여러 유형의 데이터에서 정보를 처리하고 이해하도록 훈련된 모달리티를 말합니다. 인간이 시각, 청각, 언어를 결합하여 세상을 인식하는 것처럼, 멀티 모달 학습은 이미지, 텍스트, 오디오, 센서 판독값과 같은 소스의 데이터를 통합하여 AI가 보다 총체적이고 맥락적인 이해를 할 수 있게 해줍니다. 이러한 접근 방식은 단일 초점 시스템을 뛰어넘어 인간과 유사한 지능을 반영하는 더 풍부한 해석과 더 정교한 애플리케이션을 가능하게 합니다. 궁극적인 목표는 보고, 읽고, 듣고 종합적인 인사이트를 도출할 수 있는 모델을 구축하는 것입니다.

멀티 모달 학습의 작동 방식

다중 모달 학습 시스템은 표현, 정렬, 융합이라는 세 가지 핵심 과제를 해결하도록 설계되었습니다. 첫째, 모델은 각 양식에 대해 의미 있는 표현을 학습해야 하며, 픽셀이나 단어와 같은 다양한 데이터 유형을 임베딩이라는 숫자 벡터로 변환하는 경우가 많습니다. 둘째, "원반을 잡는 개"라는 텍스트를 그림의 해당 시각적 요소와 연결하는 등 여러 양식에 걸쳐 관련 개념을 연결하여 이러한 표현을 정렬해야 합니다. 마지막으로, 이렇게 정렬된 표현을 융합하여 통합된 예측을 하거나 새로운 콘텐츠를 생성합니다. 이러한 융합은 여러 단계에서 이루어질 수 있으며, 트랜스포머와 같은 아키텍처와 그 주의 메커니즘의 개발은 효과적인 융합 전략을 만드는 데 중추적인 역할을 해왔습니다.

실제 애플리케이션

멀티모달 학습은 많은 최첨단 AI 기능의 기반이 되는 엔진입니다. 다음은 몇 가지 대표적인 예입니다:

  1. 시각적 질문 답변(VQA): VQA에서는 AI 모델에 이미지와 그에 대한 자연어 질문(예: "빨간 셔츠를 입은 사람이 무엇을 하고 있나요?")이 주어집니다. 모델은 이미지의 시각적 정보와 텍스트의 의미적 의미를 동시에 처리하여 정확한 답변을 제공해야 합니다. 이 기술은 시각 장애인을 위한 보조 도구와 고급 콘텐츠 분석에 사용됩니다. 더 많은 예시를 보려면 인기 있는 VQA 데이터 세트를 살펴보세요.
  2. 텍스트-이미지 생성: OpenAI의 DALL-E 3Stable Diffusion과 같은 생성 모델은 멀티 모달 학습의 대표적인 예입니다. 이러한 모델은 텍스트 설명(프롬프트)을 받아 그에 해당하는 새로운 이미지를 생성합니다. 이를 위해서는 언어에 대한 깊은 이해와 추상적인 개념을 일관된 시각적 세부 사항으로 변환하는 능력이 필요하며, 이 작업에는 NLP와 생성 비전을 결합하는 작업이 필요합니다.

주요 차이점

멀티 모달 학습을 관련 용어와 구별하는 것이 도움이 됩니다:

  • 다중 모드 모델: 다중 모드 학습은 여러 데이터 유형을 사용하여 AI를 훈련하는 프로세스 또는 연구 분야입니다. 멀티모달 모델은 이러한 기술을 사용하여 설계 및 학습된 결과물인 AI 시스템 또는 아키텍처입니다.
  • 컴퓨터 비전(CV): CV는 시각적 데이터를 처리하고 이해하는 데만 집중합니다. Ultralytics YOLO11과 같은 전문 CV 모델은 객체 감지와 같은 작업에 탁월하지만, 멀티 모달 학습은 시각 데이터를 다른 모달과 통합하여 더 많은 작업을 수행할 수 있습니다.
  • 자연어 처리(NLP): NLP는 인간의 언어를 이해하고 생성하는 것을 다룹니다. 다중 모달 학습은 비전 언어 모델에서 볼 수 있듯이 언어 데이터를 이미지나 센서 판독값과 같은 다른 모달과 통합합니다.
  • 기초 모델: 방대한 양의 데이터로 사전 학습된 대규모 모델입니다. GPT-4와 같은 많은 최신 기초 모델은 본질적으로 멀티 모달이지만 개념은 서로 다릅니다. 멀티모달 학습은 이러한 강력한 모델을 구축하는 데 자주 사용되는 방법론으로, 스탠퍼드의 CRFM과 같은 기관에서 연구하고 있습니다.

과제 및 향후 방향

멀티모달 학습은 다양한 소스의 데이터를 효과적으로 정렬하고, 최적의 융합 전략을 개발하고, 누락되거나 노이즈가 있는 데이터를 처리하는 등 고유한 과제를 안고 있습니다. 멀티모달 학습에서 이러한 과제를 해결하는 것은 여전히 활발한 연구 분야입니다. 이 분야는 빠르게 진화하고 있으며, 인간처럼 세상을 인식하고 추론하는 AI 시스템을 향해 경계를 넓혀가고 있으며, 잠재적으로 인공 일반 지능(AGI)의 발전에 기여할 수 있습니다. 현재 Ultralytics HUB와 같은 플랫폼은 주로 컴퓨터 비전 작업에 초점을 맞춘 워크플로우를 지원하지만, 더 광범위한 AI 환경에서는 멀티 모달 기능의 통합을 강화하는 방향으로 나아가고 있습니다. PyTorchTensorFlow와 같은 프레임워크로 개발된 새로운 모델 기능에 대한 업데이트는 Ultralytics 블로그에서 계속 확인하세요.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨