AI에서 멀티모달 학습의 힘을 알아보세요! 모델이 다양한 데이터 유형을 통합하여 보다 풍부한 실제 문제 해결을 지원하는 방법을 살펴보세요.
다중 모달 학습은 머신러닝(ML) 의 하위 분야로, AI 모델이 여러 유형의 데이터에서 정보를 처리하고 이해하도록 훈련된 모달리티를 말합니다. 인간이 시각, 청각, 언어를 결합하여 세상을 인식하는 것처럼, 멀티 모달 학습은 이미지, 텍스트, 오디오, 센서 판독값과 같은 소스의 데이터를 통합하여 AI가 보다 총체적이고 맥락적인 이해를 할 수 있게 해줍니다. 이러한 접근 방식은 단일 초점 시스템을 뛰어넘어 인간과 유사한 지능을 반영하는 더 풍부한 해석과 더 정교한 애플리케이션을 가능하게 합니다. 궁극적인 목표는 보고, 읽고, 듣고 종합적인 인사이트를 도출할 수 있는 모델을 구축하는 것입니다.
다중 모달 학습 시스템은 표현, 정렬, 융합이라는 세 가지 핵심 과제를 해결하도록 설계되었습니다. 첫째, 모델은 각 양식에 대해 의미 있는 표현을 학습해야 하며, 픽셀이나 단어와 같은 다양한 데이터 유형을 임베딩이라는 숫자 벡터로 변환하는 경우가 많습니다. 둘째, "원반을 잡는 개"라는 텍스트를 그림의 해당 시각적 요소와 연결하는 등 여러 양식에 걸쳐 관련 개념을 연결하여 이러한 표현을 정렬해야 합니다. 마지막으로, 이렇게 정렬된 표현을 융합하여 통합된 예측을 하거나 새로운 콘텐츠를 생성합니다. 이러한 융합은 여러 단계에서 이루어질 수 있으며, 트랜스포머와 같은 아키텍처와 그 주의 메커니즘의 개발은 효과적인 융합 전략을 만드는 데 중추적인 역할을 해왔습니다.
멀티모달 학습은 많은 최첨단 AI 기능의 기반이 되는 엔진입니다. 다음은 몇 가지 대표적인 예입니다:
멀티 모달 학습을 관련 용어와 구별하는 것이 도움이 됩니다:
멀티모달 학습은 다양한 소스의 데이터를 효과적으로 정렬하고, 최적의 융합 전략을 개발하고, 누락되거나 노이즈가 있는 데이터를 처리하는 등 고유한 과제를 안고 있습니다. 멀티모달 학습에서 이러한 과제를 해결하는 것은 여전히 활발한 연구 분야입니다. 이 분야는 빠르게 진화하고 있으며, 인간처럼 세상을 인식하고 추론하는 AI 시스템을 향해 경계를 넓혀가고 있으며, 잠재적으로 인공 일반 지능(AGI)의 발전에 기여할 수 있습니다. 현재 Ultralytics HUB와 같은 플랫폼은 주로 컴퓨터 비전 작업에 초점을 맞춘 워크플로우를 지원하지만, 더 광범위한 AI 환경에서는 멀티 모달 기능의 통합을 강화하는 방향으로 나아가고 있습니다. PyTorch 및 TensorFlow와 같은 프레임워크로 개발된 새로운 모델 기능에 대한 업데이트는 Ultralytics 블로그에서 계속 확인하세요.