Yolo 비전 선전
선전
지금 참여하기
용어집

멀티모달 학습

AI 분야에서 멀티모달 학습의 강력한 힘을 발견하세요! 모델이 다양한 데이터 유형을 통합하여 더욱 풍부하고 실제적인 문제 해결을 지원하는 방법을 살펴보세요.

멀티 모달 학습은 머신 러닝의 고급 하위 분야로 머신 러닝(ML)의 고급 하위 분야로, 알고리즘이 알고리즘이 모달리티로 알려진 여러 가지 유형의 데이터에서 정보를 처리, 이해 및 상호 연관시키도록 훈련됩니다. 기존의 AI 시스템은 언어 번역을 위한 텍스트나 이미지 인식을 위한 픽셀과 같은 단일 입력 유형에 집중하는 경우가 많지만 이미지 인식을 위한 픽셀과 같은 단일 입력 유형에 집중하는 반면, 멀티 모달학습은 시각 데이터, 음성 오디오, 텍스트 설명, 센서 판독값 등 다양한 감각 입력을 통합하여 인간의 인지를 모방합니다. 판독값을 통합합니다. 이러한 총체적인 접근 방식을 통해 인공 지능(AI) 개발 세상을 더 깊이 이해하고 맥락을 인식하여 더욱 강력하고 다양한 예측 모델을 개발할 수 있습니다.

멀티모달 통합의 메커니즘

멀티모달 학습의 핵심 과제는 서로 다른 데이터 유형을 공유 수학적 공간으로 변환하여 비교 및 결합할 수 있는 비교하고 결합할 수 있는 공유 수학적 공간으로 변환하는 것입니다. 이 프로세스에는 일반적으로 인코딩, 정렬, 융합의 세 가지 주요 단계가 포함됩니다.

  1. 인코딩: 전문화된 신경망은 각 모달리티를 독립적으로 처리합니다. 예를 들어 컨볼루션 신경망(CNN) 또는 비전 트랜스포머(ViT)는 이미지에서 특징을 추출하고 특징을 추출하는 반면 순환 신경망(RNN) 또는 트랜스포머는 텍스트를 처리합니다.
  2. 정렬: 모델은 이러한 다양한 특징을 공유된 고차원 벡터에 매핑하는 방법을 학습합니다. 임베딩이라고 합니다. 이 공유 공간에서 '개'라는 단어의 벡터 와 강아지 이미지에 대한 벡터가 서로 가깝게 배치됩니다. 다음과 같은 기법 대조 학습과 같은 기술은 같은 논문에서 널리 알려진 대조 학습과 같은 기술이 여기에 필수적입니다.
  3. 융합: 마지막으로 정보를 병합하여 작업을 수행합니다. 융합은 초기(원시 데이터 결합 데이터 결합), 후기(최종 예측 결합) 또는 중간 하이브리드 방법을 통해 이루어질 수 있습니다. 중요도를 평가하는 주의 메커니즘 동적으로 중요도를 평가합니다.

실제 애플리케이션

멀티모달 학습은 오늘날 가장 인상적인 AI 혁신의 원동력으로, 서로 다른 데이터 사일로 사이의 간극을 좁혀줍니다.

  • 시각적 질문 답변(VQA): In 시각적 질문 답변(VQA)에서는 시스템은 이미지를 분석하여 "신호등은 무슨 색인가요?"와 같은 자연어 질문에 답해야 합니다. 신호등은 어떤 색인가요?"와 같은 질문에 답해야 합니다. 이를 위해서는 모델이 텍스트의 의미를 이해하고 공간적으로 해당 시각적 요소를 시각적 요소를 공간적으로 찾아야 합니다.
  • 자율 주행 내비게이션: 자율 주행 자동차는 센서 융합에 크게 의존합니다. 센서 융합에 크게 의존합니다, 카메라 비디오 피드, 레이더의 데이터를 결합하여 안전하게 주행합니다. 이러한 다중 모드 입력은 하나의 센서에 장애가 발생할 경우(예 카메라가 눈부심으로 인해 시야가 가려지는 경우 등)에도 다른 센서가 안전을 유지할 수 있습니다.
  • 의료 진단: 의료 분야의 AI는 멀티 모달 학습을 활용합니다. 을 활용하여 MRI나 엑스레이와 같은 의료 이미지와 비정형 텍스트 환자 이력 및 유전자 데이터를 함께 분석합니다. 이러한 포괄적인 관점은 의사가 보다 정확한 진단을 내리는 데 도움이 되며, 이는 다음과 같은 학술지에서 자주 논의되는 주제입니다. 자연 디지털 의학 저널에서 자주 논의되는 주제입니다.

Ultralytics 통한 멀티 모달 객체 감지

표준 객체 감지기는 사전 정의된 클래스에 의존하지만, 다음과 같은 멀티 모달 접근 방식은 YOLO 같은 멀티모달 접근 방식을 사용하면 사용자가 개방형 어휘 텍스트 프롬프트 개방형 어휘 텍스트 프롬프트를 사용하여 객체를 감지할 수 있습니다. 이는 텍스트 개념과 시각적 특징을 연결할 수 있는 힘을 보여줍니다.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

주요 용어 차별화

최신 AI의 환경을 탐색하려면 '다중 모드 학습'을 관련 개념과 구별하는 것이 도움이 됩니다:

  • 다중 모드 모델: "멀티모달 학습"은 학습 방법론 및 분야를 의미합니다. "멀티 모달 모델"(예: GPT-4 또는 Gemini)은 해당 교육 과정의 결과물 또는 소프트웨어 제품을 교육 과정의 결과물 또는 소프트웨어 제품을 의미합니다.
  • 컴퓨터 비전(CV): CV는 일반적으로 시각적 데이터에만 초점을 맞춘 단일 모드입니다. 다음과 같은 모델은 Ultralytics YOLO11 과 같은 모델은 최첨단 CV 도구이지만, 이 모델은 출력이 오디오 또는 텍스트 데이터와 결합되면 멀티 모달 파이프라인의 일부가 됩니다.
  • 대규모 언어 모델(LLM): 기존의 LLM은 텍스트에 대해서만 학습된 단일 모드입니다. 하지만 업계는 이미지와 텍스트를 기본적으로 처리할 수 있는 '대형 멀티모달 모델(LMM)'로 전환하고 있습니다. 모델(LMM)로 전환하고 있으며, 이러한 추세는 다음과 같은 프레임워크에 의해 지원됩니다. PyTorchTensorFlow.

향후 전망

멀티모달 학습의 궤적은 다음과 같은 시스템을 지향합니다. 인공 일반 지능(AGI) 특성을 지닌 시스템으로 향하고 있습니다. 이러한 모델은 시각적, 물리적 현실에 언어를 성공적으로 접목함으로써 통계적 상관관계를 넘어 통계적 상관관계를 넘어 진정한 추론으로 나아가고 있습니다. 다음과 같은 기관의 연구 MIT CSAIL스탠포드 기초 모델 연구 센터와 같은 기관의 연구는 계속해서 기계가 복잡한 다중 감각 환경을 인식하고 상호 작용하는 방법의 경계를 계속해서 넓혀가고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기