Glossário

RAG multimodal

Explore o RAG multimodal para processar texto, imagens e vídeo. Saiba como Ultralytics aprimora os pipelines de recuperação de IA para respostas mais precisas e sensíveis ao contexto.

A Geração Aumentada por Recuperação Multimodal (Multimodal RAG) é uma estrutura avançada de inteligência artificial (IA) que amplia os sistemas RAG tradicionais para processar e raciocinar em diversos tipos de dados, como texto, imagens, vídeo e áudio. Enquanto a Geração Aumentada por Recuperação (RAG) melhora a precisão de um Large Language Model (LLM) ao recuperar documentos textuais relevantes, o Multimodal RAG permite que os modelos «vejam» e «ouçam» ao recuperar o contexto de uma base de conhecimento multimédia. Esta abordagem fundamenta a geração do modelo em evidências visuais ou auditivas concretas, reduzindo significativamente as alucinações nos LLMs e permitindo tarefas complexas como respostas a perguntas visuais em conjuntos de dados privados. Ao aproveitar a aprendizagem multimodal, esses sistemas podem sintetizar informações da consulta de um utilizador (por exemplo, texto) e ativos recuperados (por exemplo, um diagrama ou quadro de vigilância) para produzir respostas abrangentes e sensíveis ao contexto.

Como funciona o RAG multimodal

A arquitetura de um sistema RAG multimodal normalmente reflete o pipeline padrão «Recuperar e Gerar», mas adapta-o para dados não textuais. Esse processo depende fortemente de bancos de dados vetoriais e espaços semânticos partilhados.

Indexação: Dados de várias fontes — PDFs, vídeos, apresentações de slides — são processados. Modelos de extração de características convertem essas diferentes modalidades em vetores numéricos de alta dimensão conhecidos como embeddings. Por exemplo, um modelo como o CLIP da OpenAI alinha embeddings de imagens e textos para que uma foto de um cão e a palavra "cão" fiquem matematicamente próximas.
Recuperação: Quando um utilizador faz uma pergunta (por exemplo, «Mostre-me o defeito nesta placa de circuito »), o sistema realiza uma pesquisa semântica na base de dados vetorial para encontrar as imagens ou videoclipes mais relevantes que correspondam à intenção da consulta.
Geração: O contexto visual recuperado é introduzido num Modelo de Visão-Linguagem (VLM). O VLM processa tanto o prompt de texto do utilizador como as características da imagem recuperada para gerar uma resposta final, efetivamente «conversando» com os dados.

Aplicações no Mundo Real

O RAG multimodal está a transformar indústrias ao permitir que agentes de IA interajam com o mundo físico por meio de dados visuais.

Manutenção industrial e fabricação: Na IA na fabricação, os técnicos podem consultar um sistema com uma foto de uma peça quebrada de uma máquina. O sistema RAG multimodal recupera registros históricos semelhantes de manutenção , esquemas técnicos e tutoriais em vídeo para orientar o processo de reparo. Isso reduz o tempo de inatividade e democratiza o conhecimento especializado.
Descoberta no retalho e comércio eletrónico: as aplicações que utilizam IA no retalho permitem que os clientes carreguem uma imagem de uma roupa de que gostam. O sistema recupera itens visualmente semelhantes do inventário atual e gera conselhos de estilo ou comparações de produtos, criando uma experiência de compra altamente personalizada.

Diferenciação de termos relacionados

Para compreender o nicho específico do RAG multimodal, é útil distingui-lo de conceitos relacionados:

RAG multimodal vs. Modelo multimodal: Um modelo multimodal (como GPT-4o ou Gemini) cria a resposta. RAG multimodal é a arquitetura que alimenta esse modelo com dados externos e privados (imagens, documentos) nos quais ele não foi treinado. O modelo é o motor; RAG é a linha de combustível.
RAG multimodal vs. ajuste fino: O ajuste fino atualiza permanentemente os pesos do modelo para aprender uma nova tarefa ou estilo. O RAG fornece conhecimento temporário no momento da inferência. O RAG é preferível para dados dinâmicos (por exemplo, inventário diário) onde o retreinamento frequente é impraticável.

Implementação com Ultralytics

Os programadores podem criar o componente de recuperação de um pipeline RAG multimodal utilizando Ultralytics YOLO. Ao detectar e classificar objetos dentro de imagens, o YOLO metadados estruturados que podem ser indexados para recuperação baseada em texto ou usados para recortar regiões relevantes da imagem para um VLM. A Ultralytics simplifica o treinamento desses modelos de visão especializados para reconhecer objetos personalizados cruciais para o seu domínio específico.

O exemplo a seguir demonstra o uso do YOLO26 para extrair o contexto visual (objetos detetados) de uma imagem, que pode então ser passado para um LLM como parte de um fluxo de trabalho RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Leituras e recursos adicionais

Documentação LangChain: Um guia completo para a criação de pipelines de recuperação, incluindo suporte multimodal.
Guia multimodal LlamaIndex: Documentação detalhada sobre indexação e recuperação de tipos de dados complexos para LLMs.
Google Vertex AI Search: Recursos de pesquisa vetorial de nível empresarial para a criação de aplicações RAG escaláveis.
Ultralytics : Explore como a visão computacional se integra a sistemas de IA mais amplos em vários setores.

RAG multimodal

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Como funciona o RAG multimodal

Aplicações no Mundo Real

Diferenciação de termos relacionados

Implementação com Ultralytics

Leituras e recursos adicionais

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

O que é a estimativa de profundidade monocular? Uma visão geral

Uma análise sobre o usoYOLO Ultralytics para deteção de ameaças por IA

Junte-se à comunidade Ultralytics