Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

RAG multimodal

Explore o RAG multimodal para processar texto, imagens e vídeo. Saiba como Ultralytics aprimora os pipelines de recuperação de IA para respostas mais precisas e sensíveis ao contexto.

A Geração Aumentada por Recuperação Multimodal (Multimodal RAG) é uma estrutura avançada de inteligência artificial (IA) que amplia os sistemas RAG tradicionais para processar e raciocinar em diversos tipos de dados, como texto, imagens, vídeo e áudio. Enquanto a Geração Aumentada por Recuperação (RAG) melhora a precisão de um Large Language Model (LLM) ao recuperar documentos textuais relevantes, o Multimodal RAG permite que os modelos «vejam» e «ouçam» ao recuperar o contexto de uma base de conhecimento multimédia. Esta abordagem fundamenta a geração do modelo em evidências visuais ou auditivas concretas, reduzindo significativamente as alucinações nos LLMs e permitindo tarefas complexas como respostas a perguntas visuais em conjuntos de dados privados. Ao aproveitar a aprendizagem multimodal, esses sistemas podem sintetizar informações da consulta de um utilizador (por exemplo, texto) e ativos recuperados (por exemplo, um diagrama ou quadro de vigilância) para produzir respostas abrangentes e sensíveis ao contexto.

Como funciona o RAG multimodal

A arquitetura de um sistema RAG multimodal normalmente reflete o pipeline padrão «Recuperar e Gerar», mas adapta-o para dados não textuais. Esse processo depende fortemente de bancos de dados vetoriais e espaços semânticos partilhados.

  1. Indexação: Dados de várias fontes — PDFs, vídeos, apresentações de slides — são processados. Modelos de extração de características convertem essas diferentes modalidades em vetores numéricos de alta dimensão conhecidos como embeddings. Por exemplo, um modelo como o CLIP da OpenAI alinha embeddings de imagens e textos para que uma foto de um cão e a palavra "cão" fiquem matematicamente próximas.
  2. Recuperação: Quando um utilizador faz uma pergunta (por exemplo, «Mostre-me o defeito nesta placa de circuito »), o sistema realiza uma pesquisa semântica na base de dados vetorial para encontrar as imagens ou videoclipes mais relevantes que correspondam à intenção da consulta.
  3. Geração: O contexto visual recuperado é introduzido num Modelo de Visão-Linguagem (VLM). O VLM processa tanto o prompt de texto do utilizador como as características da imagem recuperada para gerar uma resposta final, efetivamente «conversando» com os dados.

Aplicações no Mundo Real

O RAG multimodal está a transformar indústrias ao permitir que agentes de IA interajam com o mundo físico por meio de dados visuais.

  • Manutenção industrial e fabricação: Na IA na fabricação, os técnicos podem consultar um sistema com uma foto de uma peça quebrada de uma máquina. O sistema RAG multimodal recupera registros históricos semelhantes de manutenção , esquemas técnicos e tutoriais em vídeo para orientar o processo de reparo. Isso reduz o tempo de inatividade e democratiza o conhecimento especializado.
  • Descoberta no retalho e comércio eletrónico: as aplicações que utilizam IA no retalho permitem que os clientes carreguem uma imagem de uma roupa de que gostam. O sistema recupera itens visualmente semelhantes do inventário atual e gera conselhos de estilo ou comparações de produtos, criando uma experiência de compra altamente personalizada.

Diferenciação de termos relacionados

Para compreender o nicho específico do RAG multimodal, é útil distingui-lo de conceitos relacionados:

  • RAG multimodal vs. Modelo multimodal: Um modelo multimodal (como GPT-4o ou Gemini) cria a resposta. RAG multimodal é a arquitetura que alimenta esse modelo com dados externos e privados (imagens, documentos) nos quais ele não foi treinado. O modelo é o motor; RAG é a linha de combustível.
  • RAG multimodal vs. ajuste fino: O ajuste fino atualiza permanentemente os pesos do modelo para aprender uma nova tarefa ou estilo. O RAG fornece conhecimento temporário no momento da inferência. O RAG é preferível para dados dinâmicos (por exemplo, inventário diário) onde o retreinamento frequente é impraticável.

Implementação com Ultralytics

Os programadores podem criar o componente de recuperação de um pipeline RAG multimodal utilizando Ultralytics YOLO. Ao detectar e classificar objetos dentro de imagens, o YOLO metadados estruturados que podem ser indexados para recuperação baseada em texto ou usados para recortar regiões relevantes da imagem para um VLM. A Ultralytics simplifica o treinamento desses modelos de visão especializados para reconhecer objetos personalizados cruciais para o seu domínio específico.

O exemplo a seguir demonstra o uso do YOLO26 para extrair o contexto visual (objetos detetados) de uma imagem, que pode então ser passado para um LLM como parte de um fluxo de trabalho RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Leituras e recursos adicionais

  • Documentação LangChain: Um guia completo para a criação de pipelines de recuperação, incluindo suporte multimodal.
  • Guia multimodal LlamaIndex: Documentação detalhada sobre indexação e recuperação de tipos de dados complexos para LLMs.
  • Google Vertex AI Search: Recursos de pesquisa vetorial de nível empresarial para a criação de aplicações RAG escaláveis.
  • Ultralytics : Explore como a visão computacional se integra a sistemas de IA mais amplos em vários setores.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora