YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

멀티모달 AI

텍스트, 이미지, 오디오와 같은 다양한 데이터를 처리하고 이해하는 시스템 분야인 멀티모달 AI를 만나보세요. 작동 방식과 주요 응용 분야를 알아보세요.

멀티모달 AI는 여러 유형의 데이터(modality라고 함)에서 정보를 처리, 이해 및 추론하도록 설계된 인공 지능(AI) 분야를 의미합니다. 일반적으로 단일 데이터 유형(예: 텍스트 또는 이미지)에만 집중하는 기존 AI 시스템과 달리 멀티모달 AI는 텍스트, 이미지, 오디오, 비디오, 심지어 센서 데이터와 같은 다양한 데이터 소스를 통합하고 해석합니다. 이 접근 방식을 통해 AI는 인간이 시각, 청각 및 언어를 함께 사용하여 주변 환경을 인식하는 방식과 매우 유사하게 세상에 대한 보다 포괄적이고 인간과 유사한 이해를 얻을 수 있습니다. 이 분야의 핵심 과제는 각 modality를 처리하는 것뿐만 아니라 효과적으로 결합하여 통합되고 맥락적으로 풍부한 해석을 생성하는 것입니다.

멀티모달 AI 작동 방식

멀티모달 AI 시스템 개발에는 몇 가지 핵심 단계가 있습니다. 먼저 모델은 각 데이터 유형에 대해 의미 있는 숫자 표현을 생성해야 하며, 이 과정은 종종 임베딩 생성을 포함합니다. 예를 들어 텍스트 입력은 언어 모델에 의해 처리되고 이미지는 컴퓨터 비전(CV) 모델에 의해 처리됩니다. 다음으로 중요한 단계는 이러한 다양한 표현을 결합하는 융합입니다. 이를 위한 기술은 단순한 연결에서부터 어텐션 메커니즘을 사용하는 보다 복잡한 방법에 이르기까지 다양하며, 이를 통해 모델은 주어진 작업에 대한 다양한 양식의 중요성을 평가할 수 있습니다.

영향력 있는 논문 "Attention Is All You Need"에서 소개된 Transformer 아키텍처는 현대적인 멀티모달 시스템의 성공에 근본적인 역할을 했습니다. 순차적 데이터를 처리하고 장거리 의존성을 포착하는 능력 덕분에 다양한 소스의 정보를 통합하는 데 매우 효과적입니다. PyTorchTensorFlow와 같은 주요 프레임워크는 이러한 복잡한 모델을 구축하고 훈련하는 데 필요한 도구를 제공합니다.

실제 애플리케이션

멀티모달 AI는 더욱 다재다능하고 직관적인 차세대 지능형 애플리케이션을 지원하고 있습니다.

  1. 시각적 질의 응답(VQA): VQA 시스템에서 사용자는 이미지를 제시하고 "거리에 있는 차는 무슨 색깔입니까?"와 같이 자연어로 질문할 수 있습니다. AI는 텍스트를 이해하고 시각 정보를 분석하여 관련 답변을 생성해야 합니다. 이 기술은 시각 장애인을 위한 접근성 도구를 만들고 대화형 학습 플랫폼을 개선하는 데 사용됩니다.

  2. 텍스트-이미지 생성: OpenAI의 DALL-E 3Stability AI의 Stable Diffusion과 같은 플랫폼은 멀티모달 AI의 대표적인 예입니다. 텍스트 설명(프롬프트)을 받아 그에 상응하는 이미지를 생성합니다. 이를 위해서는 모델이 언어 개념이 시각적 속성으로 어떻게 변환되는지에 대한 깊은 이해가 필요하며, 새로운 형태의 디지털 아트 및 콘텐츠 제작을 가능하게 합니다.

멀티모달 AI vs. 관련 개념

멀티모달 AI를 유사한 용어와 구별하는 것이 중요합니다.

  • 멀티모달 모델: 멀티모달 AI는 광범위한 연구 분야인 반면, 멀티모달 모델은 멀티모달 AI의 원리를 사용하여 생성된 특정 시스템 또는 아키텍처(예: 시각 기능을 갖춘 GPT-4)입니다.
  • 멀티모달 학습: 이는 멀티모달 모델을 학습하는 데 사용되는 알고리즘과 방법에 초점을 맞춘 머신 러닝(ML)의 하위 분야를 의미합니다. 이는 멀티모달 AI를 가능하게 하는 기술 분야입니다.
  • 대규모 언어 모델(LLM): 기존 LLM은 단일 모드(텍스트 전용)이지만, 많은 최신 기반 모델은 이제 텍스트를 다른 데이터 유형과 통합하는 다중 모드입니다. 이러한 고급 시스템을 종종 Vision Language Models (VLMs)라고 합니다.
  • 특수 비전 모델: 다중 모드 시스템은 이미지를 설명할 수 있지만("개가 프리스비를 잡고 있습니다.") Ultralytics YOLO와 같은 특수 모델은 정확한 객체 감지와 같은 고속 작업에 탁월하여 정확한 경계 상자로 개와 프리스비를 찾습니다. 이러한 모델은 상호 보완적입니다. YOLO는 "무엇"과 "어디"를 제공하고 다중 모드 AI는 "어떻게"와 "왜"를 추가할 수 있습니다. 특정 강점을 이해하기 위해 다양한 객체 감지 모델 비교를 탐색할 수 있습니다.

특수 모델과 멀티모달 모델 모두의 개발 및 배포는 ML 워크플로를 간소화하는 Ultralytics HUB와 같은 플랫폼을 사용하여 관리할 수 있습니다. 멀티모달 AI의 발전은 더욱 강력하고 적응력이 뛰어난 AI를 만드는 데 중요한 단계이며, Google DeepMind와 같은 기관에서 연구하는 AGI(범용 인공 지능)의 길을 열어줄 가능성이 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.