Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Multimodal RAG

Explora RAG Multimodal para processar texto, imagens e vídeo. Aprende como o Ultralytics YOLO26 melhora os pipelines de recuperação de IA para respostas mais precisas e conscientes do contexto.

A Geração Aumentada por Recuperação Multimodal (Multimodal RAG) é uma estrutura avançada de inteligência artificial (IA) que expande os sistemas RAG tradicionais para processar e raciocinar sobre diversos tipos de dados, como texto, imagens, vídeo e áudio. Enquanto a Geração Aumentada por Recuperação (RAG) padrão melhora a precisão de um Large Language Model (LLM) ao recuperar documentos textuais relevantes, o RAG Multimodal permite que os modelos "vejam" e "ouçam" ao recuperar contexto de uma base de conhecimento de mídia mista. Essa abordagem fundamenta a geração do modelo em evidências visuais ou auditivas concretas, reduzindo significativamente as alucinações em LLMs e permitindo tarefas complexas como resposta a perguntas visuais sobre conjuntos de dados privados. Ao aproveitar o aprendizado multimodal, esses sistemas podem sintetizar informações da consulta do usuário (por exemplo, texto) e de recursos recuperados (por exemplo, um diagrama ou quadro de vigilância) para produzir respostas abrangentes e conscientes do contexto.

Link to this sectionComo o RAG Multimodal funciona#

A arquitetura de um sistema RAG Multimodal geralmente espelha o pipeline padrão "Recuperar-então-Gerar", mas o adapta para dados não textuais. Esse processo depende fortemente de bancos de dados vetoriais e espaços semânticos compartilhados.

  1. Indexação: Dados de várias fontes — PDFs, vídeos, apresentações — são processados. Modelos de extração de recursos convertem essas diferentes modalidades em vetores numéricos de alta dimensão conhecidos como embeddings. Por exemplo, um modelo como o CLIP da OpenAI alinha embeddings de imagem e texto de modo que uma foto de um cachorro e a palavra "cachorro" fiquem matematicamente próximas.

  2. Recuperação: Quando um usuário faz uma pergunta (por exemplo, "Mostre-me o defeito nesta placa de circuito"), o sistema realiza uma busca semântica no banco de dados vetorial para encontrar as imagens ou videoclipes mais relevantes que correspondam à intenção da consulta.

  3. Geração: O contexto visual recuperado é inserido em um Vision-Language Model (VLM). O VLM processa tanto o prompt de texto do usuário quanto os recursos de imagem recuperados para gerar uma resposta final, efetivamente "conversando" com os dados.

Link to this sectionAplicações no Mundo Real#

O RAG Multimodal está transformando indústrias ao permitir que agentes de IA interajam com o mundo físico por meio de dados visuais.

  • Manutenção Industrial e Manufatura: Em IA na manufatura, técnicos podem consultar um sistema com uma foto de uma peça de máquina quebrada. O sistema RAG Multimodal recupera registros de manutenção históricos similares, esquemas técnicos e tutoriais em vídeo para orientar o processo de reparo. Isso reduz o tempo de inatividade e democratiza o conhecimento especializado.
  • Descoberta em Varejo e E-commerce: Aplicações que usam IA no varejo permitem que os clientes enviem uma imagem de uma roupa que gostam. O sistema recupera itens visualmente semelhantes do estoque atual e gera conselhos de estilo ou comparações de produtos, criando uma experiência de compra altamente personalizada.

Link to this sectionDiferenciando Termos Relacionados#

Para entender o nicho específico do RAG Multimodal, é útil distingui-lo de conceitos relacionados:

  • RAG Multimodal vs. Modelo Multimodal: Um modelo multimodal (como GPT-4o ou Gemini) cria a resposta. O RAG Multimodal é a arquitetura que alimenta esse modelo com dados externos e privados (imagens, documentos) nos quais ele não foi treinado. O modelo é o motor; o RAG é a linha de combustível.
  • RAG Multimodal vs. Fine-Tuning: O fine-tuning atualiza permanentemente os pesos do modelo para aprender uma nova tarefa ou estilo. O RAG fornece conhecimento temporário no momento da inferência. O RAG é preferível para dados dinâmicos (por exemplo, estoque diário) onde o retreinamento frequente é impraticável.

Link to this sectionImplementação com Ultralytics#

Desenvolvedores podem construir o componente de recuperação de um pipeline RAG Multimodal usando Ultralytics YOLO. Ao detectar e classificar objetos dentro de imagens, o YOLO fornece metadados estruturados que podem ser indexados para recuperação baseada em texto ou usados para recortar regiões de imagem relevantes para um VLM. A Ultralytics Platform simplifica o treinamento desses modelos de visão especializados para reconhecer objetos personalizados cruciais para o seu domínio específico.

O exemplo a seguir demonstra o uso do YOLO26 para extrair contexto visual (objetos detectados) de uma imagem, o que poderia então ser passado para um LLM como parte de um fluxo de trabalho RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Link to this sectionLeitura Adicional e Recursos#

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática