AI 분야에서 멀티모달 학습의 강력한 힘을 발견하세요! 모델이 다양한 데이터 유형을 통합하여 더욱 풍부하고 실제적인 문제 해결을 지원하는 방법을 살펴보세요.
멀티 모달 학습은 머신 러닝의 고급 하위 분야로 머신 러닝(ML)의 고급 하위 분야로, 알고리즘이 알고리즘이 모달리티로 알려진 여러 가지 유형의 데이터에서 정보를 처리, 이해 및 상호 연관시키도록 훈련됩니다. 기존의 AI 시스템은 언어 번역을 위한 텍스트나 이미지 인식을 위한 픽셀과 같은 단일 입력 유형에 집중하는 경우가 많지만 이미지 인식을 위한 픽셀과 같은 단일 입력 유형에 집중하는 반면, 멀티 모달학습은 시각 데이터, 음성 오디오, 텍스트 설명, 센서 판독값 등 다양한 감각 입력을 통합하여 인간의 인지를 모방합니다. 판독값을 통합합니다. 이러한 총체적인 접근 방식을 통해 인공 지능(AI) 개발 세상을 더 깊이 이해하고 맥락을 인식하여 더욱 강력하고 다양한 예측 모델을 개발할 수 있습니다.
멀티모달 학습의 핵심 과제는 서로 다른 데이터 유형을 공유 수학적 공간으로 변환하여 비교 및 결합할 수 있는 비교하고 결합할 수 있는 공유 수학적 공간으로 변환하는 것입니다. 이 프로세스에는 일반적으로 인코딩, 정렬, 융합의 세 가지 주요 단계가 포함됩니다.
멀티모달 학습은 오늘날 가장 인상적인 AI 혁신의 원동력으로, 서로 다른 데이터 사일로 사이의 간극을 좁혀줍니다.
표준 객체 감지기는 사전 정의된 클래스에 의존하지만, 다음과 같은 멀티 모달 접근 방식은 YOLO 같은 멀티모달 접근 방식을 사용하면 사용자가 개방형 어휘 텍스트 프롬프트 개방형 어휘 텍스트 프롬프트를 사용하여 객체를 감지할 수 있습니다. 이는 텍스트 개념과 시각적 특징을 연결할 수 있는 힘을 보여줍니다.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
최신 AI의 환경을 탐색하려면 '다중 모드 학습'을 관련 개념과 구별하는 것이 도움이 됩니다:
멀티모달 학습의 궤적은 다음과 같은 시스템을 지향합니다. 인공 일반 지능(AGI) 특성을 지닌 시스템으로 향하고 있습니다. 이러한 모델은 시각적, 물리적 현실에 언어를 성공적으로 접목함으로써 통계적 상관관계를 넘어 통계적 상관관계를 넘어 진정한 추론으로 나아가고 있습니다. 다음과 같은 기관의 연구 MIT CSAIL 및 스탠포드 기초 모델 연구 센터와 같은 기관의 연구는 계속해서 기계가 복잡한 다중 감각 환경을 인식하고 상호 작용하는 방법의 경계를 계속해서 넓혀가고 있습니다.

