Yolo 비전 선전
선전
지금 참여하기
용어집

멀티모달 AI

텍스트, 이미지, 오디오와 같은 다양한 데이터를 처리하고 이해하는 시스템 분야인 멀티모달 AI를 만나보세요. 작동 방식과 주요 응용 분야를 알아보세요.

멀티모달 AI란 인공 지능(AI)의 정교한 분야를 여러 유형의 데이터를 동시에 처리, 해석, 추론하는 인공지능의 한 분야입니다. 기존의 단일 모달 시스템과 달리 텍스트와 같은 단일 입력 소스에만 의존하는 기존의 단일 모드 시스템과 달리 대규모 언어 모델(LLM) 또는 이미지 전용 분류기와 달리, 멀티모달 시스템은 텍스트, 이미지, 오디오, 비디오, 센서 판독값과 같은 다양한 데이터 스트림을 통합합니다. 이 접근 방식은 시각, 소리, 언어를 자연스럽게 결합하여 환경에 대한 종합적인 환경을 이해하는 인간의 지각을 모방합니다. 이러한 다양한 양상을 종합함으로써 이러한 시스템은 더 높은 정확도와 상황 인식을 높여 다음과 같은 기능에 더 가까이 다가갈 수 있습니다. 인공 일반 지능(AGI).

멀티모달 시스템의 역학

멀티모달 시스템의 아키텍처는 일반적으로 인코딩, 융합, 디코딩의 세 가지 단계로 구성됩니다. 먼저, 다음과 같은 별도의 신경망을 인코딩합니다. 컨볼루션 신경망(CNN) 과 텍스트 데이터용 트랜스포머와 같은 별도의 신경망을 사용합니다, 각 입력 유형에서 특징을 추출합니다. 이러한 특징은 숫자 벡터로 변환되어 임베딩.

중요한 단계는 이러한 임베딩을 공유 표현 공간으로 결합하는 융합 단계입니다. 고급 융합 기술 주의 메커니즘을 활용하여 서로 다른 양식의 서로 다른 양식의 중요성을 평가합니다. 예를 들어, 비디오 분석 작업에서 모델은 다음과 같이 할 수 있습니다. 인물이 말할 때는 오디오 데이터에 우선순위를 두지만, 액션 시퀀스 중에는 시각 데이터로 초점을 전환할 수 있습니다. 다음과 같은 프레임워크 PyTorchTensorFlow 과 같은 프레임워크는 이러한 복잡한 아키텍처를 구축하는 데 필요한 아키텍처를 구축하기 위한 계산 중추를 제공합니다.

실제 애플리케이션

멀티모달 AI는 데이터에 대한 전체적인 관점을 필요로 하는 문제를 해결함으로써 다양한 분야에서 혁신을 주도하고 있습니다.

  1. 시각적 질문 답변(VQA): 이 애플리케이션은 사용자가 자연어를 사용하여 이미지와 상호 작용할 수 있도록 자연어를 사용하여 이미지와 상호작용할 수 있습니다. 예를 들어 사용자가 냉장고 사진을 업로드하고 "어떤 식재료로 요리할 수 있나요?"라고 질문할 수 있습니다. 이 시스템은 다음을 사용합니다. 컴퓨터 비전(CV) 을 사용하여 사물을 식별하고 자연어 처리(NLP) 을 사용하여 쿼리를 이해하고 답변을 작성합니다. 이는 다음과 같은 경우에 매우 중요합니다. 시각 장애인을 위한 접근성 도구 개발 접근성 도구를 개발하는 데 필수적입니다.
  2. 자율주행 내비게이션: 자율 주행 자동차 및 로봇 공학은 센서 융합에 크게 의존합니다. 센서 융합은 카메라, LiDAR 및 레이더의 입력을 결합하여 장애물을 detect , 교통 표지판을 읽고, 보행자의 행동을 예측합니다. 이러한 통합은 동적인 환경에서 안전과 신뢰성을 보장하며, 이는 자동차 산업에서 AI의 핵심 초점인 동적 환경에서의 안전과 신뢰성을 보장합니다.
  3. 의료 진단: 최신 진단 도구는 의료 이미지 분석 (엑스레이, MRI)과 텍스트 임상 기록 및 게놈 데이터를 통합합니다. AI는 이러한 양식을 함께 분석함으로써 보다 정확한 진단과 맞춤형 치료 계획을 진단과 개인화된 치료 계획을 제공하여 의료 분야의 의료 분야의 AI.

멀티모달 파이프라인에서 비전 구현하기

전체 멀티모달 모델은 복잡하지만, 그 구성 요소는 종종 접근 가능한 특수 모델입니다. 예를 들어, 멀티모달 파이프라인의 비전 구성 요소는 종종 고속 물체 감지기를 활용합니다. 아래는 다음을 사용하는 예시입니다. Ultralytics YOLO11 을 사용하여 이미지에서 시각적 개념(클래스)을 추출한 이미지에서 시각적 개념(클래스)을 추출한 다음 추가 추론을 위해 언어 모델에 공급할 수 있습니다.

from ultralytics import YOLO

# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
    result.show()  # Visualize the detections
    print(result.boxes.cls)  # Print class indices

관련 개념 구분하기

멀티모달 AI를 유사한 용어와 구별하면 상황을 더 잘 이해하는 데 도움이 됩니다:

  • 멀티 모달 학습: 이 은 혼합 데이터 유형에서 학습하기 위한 알고리즘을 훈련하는 기술 프로세스 또는 분야입니다. 다음 사항에 중점을 둡니다. 모델 학습 중에 사용되는 손실 함수 및 최적화 전략 모델 학습.
  • 멀티 모달 모델: 다음은 다음과 같습니다. 학습 과정에서 발생하는 특정 아티팩트 또는 고유한 아키텍처(예: GPT-4o 또는 Gemini)를 말합니다.
  • 특수 비전 모델: 다음과 같은 모델 Ultralytics YOLO11 와 같은 모델은 전문화된 전문가입니다. 멀티모달 모델은 멀티모달 모델은 일반적인 장면("번화가")을 설명할 수 있지만, 전문화된 모델은 정밀한 객체 감지인스턴스 세분화에 탁월하여 정확한 좌표와 마스크를 제공합니다. 다음과 같은 경우에서 볼 수 있듯이, 전문화된 모델이 실시간 작업에 더 빠르고 효율적인 경우가 많습니다. YOLO11 RT-DETR 비교.

향후 방향

이 분야는 모든 양식을 원활하게 생성하고 이해할 수 있는 시스템으로 빠르게 진화하고 있습니다. 연구 기관인 Google 딥마인드와 OpenAI와 같은 연구 기관은 텍스트와 비주얼을 더 잘 정렬하기 위한 기초 모델 잠재적 공간.

Ultralytics 이 에코시스템의 비전 구성 요소를 지속적으로 발전시키고 있습니다. 곧 출시될 YOLO26은 더욱 뛰어난 효율성과 정확성을 제공하도록 설계되고 있으며 정확성을 제공하여 미래의 멀티모달 애플리케이션을 위한 강력한 시각적 백본 역할을 하도록 설계되고 있습니다. 이러한 기능을 활용하는 데 관심이 있는 이러한 기능을 활용하고자 하는 사용자는 LangChain과 같은 도구와의 통합 와 같은 도구와 통합하여 자신만의 복잡한 추론 시스템을 구축할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기