텍스트, 이미지, 오디오와 같은 다양한 데이터를 처리하고 이해하는 시스템 분야인 멀티모달 AI를 만나보세요. 작동 방식과 주요 응용 분야를 알아보세요.
멀티모달 AI란 인공 지능(AI)의 정교한 분야를 여러 유형의 데이터를 동시에 처리, 해석, 추론하는 인공지능의 한 분야입니다. 기존의 단일 모달 시스템과 달리 텍스트와 같은 단일 입력 소스에만 의존하는 기존의 단일 모드 시스템과 달리 대규모 언어 모델(LLM) 또는 이미지 전용 분류기와 달리, 멀티모달 시스템은 텍스트, 이미지, 오디오, 비디오, 센서 판독값과 같은 다양한 데이터 스트림을 통합합니다. 이 접근 방식은 시각, 소리, 언어를 자연스럽게 결합하여 환경에 대한 종합적인 환경을 이해하는 인간의 지각을 모방합니다. 이러한 다양한 양상을 종합함으로써 이러한 시스템은 더 높은 정확도와 상황 인식을 높여 다음과 같은 기능에 더 가까이 다가갈 수 있습니다. 인공 일반 지능(AGI).
멀티모달 시스템의 아키텍처는 일반적으로 인코딩, 융합, 디코딩의 세 가지 단계로 구성됩니다. 먼저, 다음과 같은 별도의 신경망을 인코딩합니다. 컨볼루션 신경망(CNN) 과 텍스트 데이터용 트랜스포머와 같은 별도의 신경망을 사용합니다, 각 입력 유형에서 특징을 추출합니다. 이러한 특징은 숫자 벡터로 변환되어 임베딩.
중요한 단계는 이러한 임베딩을 공유 표현 공간으로 결합하는 융합 단계입니다. 고급 융합 기술 주의 메커니즘을 활용하여 서로 다른 양식의 서로 다른 양식의 중요성을 평가합니다. 예를 들어, 비디오 분석 작업에서 모델은 다음과 같이 할 수 있습니다. 인물이 말할 때는 오디오 데이터에 우선순위를 두지만, 액션 시퀀스 중에는 시각 데이터로 초점을 전환할 수 있습니다. 다음과 같은 프레임워크 PyTorch 와 TensorFlow 과 같은 프레임워크는 이러한 복잡한 아키텍처를 구축하는 데 필요한 아키텍처를 구축하기 위한 계산 중추를 제공합니다.
멀티모달 AI는 데이터에 대한 전체적인 관점을 필요로 하는 문제를 해결함으로써 다양한 분야에서 혁신을 주도하고 있습니다.
전체 멀티모달 모델은 복잡하지만, 그 구성 요소는 종종 접근 가능한 특수 모델입니다. 예를 들어, 멀티모달 파이프라인의 비전 구성 요소는 종종 고속 물체 감지기를 활용합니다. 아래는 다음을 사용하는 예시입니다. Ultralytics YOLO11 을 사용하여 이미지에서 시각적 개념(클래스)을 추출한 이미지에서 시각적 개념(클래스)을 추출한 다음 추가 추론을 위해 언어 모델에 공급할 수 있습니다.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
멀티모달 AI를 유사한 용어와 구별하면 상황을 더 잘 이해하는 데 도움이 됩니다:
이 분야는 모든 양식을 원활하게 생성하고 이해할 수 있는 시스템으로 빠르게 진화하고 있습니다. 연구 기관인 Google 딥마인드와 OpenAI와 같은 연구 기관은 텍스트와 비주얼을 더 잘 정렬하기 위한 기초 모델 잠재적 공간.
Ultralytics 이 에코시스템의 비전 구성 요소를 지속적으로 발전시키고 있습니다. 곧 출시될 YOLO26은 더욱 뛰어난 효율성과 정확성을 제공하도록 설계되고 있으며 정확성을 제공하여 미래의 멀티모달 애플리케이션을 위한 강력한 시각적 백본 역할을 하도록 설계되고 있습니다. 이러한 기능을 활용하는 데 관심이 있는 이러한 기능을 활용하고자 하는 사용자는 LangChain과 같은 도구와의 통합 와 같은 도구와 통합하여 자신만의 복잡한 추론 시스템을 구축할 수 있습니다.