Multimodal RAG
Explora RAG Multimodal para processar texto, imagens e vídeo. Aprende como o Ultralytics YOLO26 melhora os pipelines de recuperação de IA para respostas mais precisas e conscientes do contexto.
A Geração Aumentada por Recuperação Multimodal (Multimodal RAG) é uma estrutura avançada de inteligência artificial (IA) que expande os sistemas RAG tradicionais para processar e raciocinar sobre diversos tipos de dados, como texto, imagens, vídeo e áudio. Enquanto a Geração Aumentada por Recuperação (RAG) padrão melhora a precisão de um Large Language Model (LLM) ao recuperar documentos textuais relevantes, o RAG Multimodal permite que os modelos "vejam" e "ouçam" ao recuperar contexto de uma base de conhecimento de mídia mista. Essa abordagem fundamenta a geração do modelo em evidências visuais ou auditivas concretas, reduzindo significativamente as alucinações em LLMs e permitindo tarefas complexas como resposta a perguntas visuais sobre conjuntos de dados privados. Ao aproveitar o aprendizado multimodal, esses sistemas podem sintetizar informações da consulta do usuário (por exemplo, texto) e de recursos recuperados (por exemplo, um diagrama ou quadro de vigilância) para produzir respostas abrangentes e conscientes do contexto.
Link to this sectionComo o RAG Multimodal funciona#
A arquitetura de um sistema RAG Multimodal geralmente espelha o pipeline padrão "Recuperar-então-Gerar", mas o adapta para dados não textuais. Esse processo depende fortemente de bancos de dados vetoriais e espaços semânticos compartilhados.
-
Indexação: Dados de várias fontes — PDFs, vídeos, apresentações — são processados. Modelos de extração de recursos convertem essas diferentes modalidades em vetores numéricos de alta dimensão conhecidos como embeddings. Por exemplo, um modelo como o CLIP da OpenAI alinha embeddings de imagem e texto de modo que uma foto de um cachorro e a palavra "cachorro" fiquem matematicamente próximas.
-
Recuperação: Quando um usuário faz uma pergunta (por exemplo, "Mostre-me o defeito nesta placa de circuito"), o sistema realiza uma busca semântica no banco de dados vetorial para encontrar as imagens ou videoclipes mais relevantes que correspondam à intenção da consulta.
-
Geração: O contexto visual recuperado é inserido em um Vision-Language Model (VLM). O VLM processa tanto o prompt de texto do usuário quanto os recursos de imagem recuperados para gerar uma resposta final, efetivamente "conversando" com os dados.
Link to this sectionAplicações no Mundo Real#
O RAG Multimodal está transformando indústrias ao permitir que agentes de IA interajam com o mundo físico por meio de dados visuais.
- Manutenção Industrial e Manufatura: Em IA na manufatura, técnicos podem consultar um sistema com uma foto de uma peça de máquina quebrada. O sistema RAG Multimodal recupera registros de manutenção históricos similares, esquemas técnicos e tutoriais em vídeo para orientar o processo de reparo. Isso reduz o tempo de inatividade e democratiza o conhecimento especializado.
- Descoberta em Varejo e E-commerce: Aplicações que usam IA no varejo permitem que os clientes enviem uma imagem de uma roupa que gostam. O sistema recupera itens visualmente semelhantes do estoque atual e gera conselhos de estilo ou comparações de produtos, criando uma experiência de compra altamente personalizada.
Link to this sectionDiferenciando Termos Relacionados#
Para entender o nicho específico do RAG Multimodal, é útil distingui-lo de conceitos relacionados:
- RAG Multimodal vs. Modelo Multimodal: Um modelo multimodal (como GPT-4o ou Gemini) cria a resposta. O RAG Multimodal é a arquitetura que alimenta esse modelo com dados externos e privados (imagens, documentos) nos quais ele não foi treinado. O modelo é o motor; o RAG é a linha de combustível.
- RAG Multimodal vs. Fine-Tuning: O fine-tuning atualiza permanentemente os pesos do modelo para aprender uma nova tarefa ou estilo. O RAG fornece conhecimento temporário no momento da inferência. O RAG é preferível para dados dinâmicos (por exemplo, estoque diário) onde o retreinamento frequente é impraticável.
Link to this sectionImplementação com Ultralytics#
Desenvolvedores podem construir o componente de recuperação de um pipeline RAG Multimodal usando Ultralytics YOLO. Ao detectar e classificar objetos dentro de imagens, o YOLO fornece metadados estruturados que podem ser indexados para recuperação baseada em texto ou usados para recortar regiões de imagem relevantes para um VLM. A Ultralytics Platform simplifica o treinamento desses modelos de visão especializados para reconhecer objetos personalizados cruciais para o seu domínio específico.
O exemplo a seguir demonstra o uso do YOLO26 para extrair contexto visual (objetos detectados) de uma imagem, o que poderia então ser passado para um LLM como parte de um fluxo de trabalho RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, personLink to this sectionLeitura Adicional e Recursos#
- Documentação LangChain: Um guia abrangente para construir pipelines de recuperação, incluindo suporte multimodal.
- Guia Multimodal LlamaIndex: Documentação detalhada sobre indexação e recuperação de tipos de dados complexos para LLMs.
- Google Cloud Vertex AI Search: Recursos de busca vetorial de nível empresarial para a criação de aplicações RAG escaláveis.
- Soluções Ultralytics: Explore como a visão computacional se integra com sistemas de IA mais amplos em diversos setores.






