Explore o RAG multimodal para processar texto, imagens e vídeo. Saiba como Ultralytics aprimora os pipelines de recuperação de IA para respostas mais precisas e sensíveis ao contexto.
A Geração Aumentada por Recuperação Multimodal (Multimodal RAG) é uma estrutura avançada de inteligência artificial (IA) que amplia os sistemas RAG tradicionais para processar e raciocinar em diversos tipos de dados, como texto, imagens, vídeo e áudio. Enquanto a Geração Aumentada por Recuperação (RAG) melhora a precisão de um Large Language Model (LLM) ao recuperar documentos textuais relevantes, o Multimodal RAG permite que os modelos «vejam» e «ouçam» ao recuperar o contexto de uma base de conhecimento multimédia. Esta abordagem fundamenta a geração do modelo em evidências visuais ou auditivas concretas, reduzindo significativamente as alucinações nos LLMs e permitindo tarefas complexas como respostas a perguntas visuais em conjuntos de dados privados. Ao aproveitar a aprendizagem multimodal, esses sistemas podem sintetizar informações da consulta de um utilizador (por exemplo, texto) e ativos recuperados (por exemplo, um diagrama ou quadro de vigilância) para produzir respostas abrangentes e sensíveis ao contexto.
A arquitetura de um sistema RAG multimodal normalmente reflete o pipeline padrão «Recuperar e Gerar», mas adapta-o para dados não textuais. Esse processo depende fortemente de bancos de dados vetoriais e espaços semânticos partilhados.
O RAG multimodal está a transformar indústrias ao permitir que agentes de IA interajam com o mundo físico por meio de dados visuais.
Para compreender o nicho específico do RAG multimodal, é útil distingui-lo de conceitos relacionados:
Os programadores podem criar o componente de recuperação de um pipeline RAG multimodal utilizando Ultralytics YOLO. Ao detectar e classificar objetos dentro de imagens, o YOLO metadados estruturados que podem ser indexados para recuperação baseada em texto ou usados para recortar regiões relevantes da imagem para um VLM. A Ultralytics simplifica o treinamento desses modelos de visão especializados para reconhecer objetos personalizados cruciais para o seu domínio específico.
O exemplo a seguir demonstra o uso do YOLO26 para extrair o contexto visual (objetos detetados) de uma imagem, que pode então ser passado para um LLM como parte de um fluxo de trabalho RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person