Retrieval Augmented Generation (RAG)
Explore como a Retrieval Augmented Generation (RAG) otimiza LLMs com dados em tempo real. Aprenda a construir pipelines multimodais usando o Ultralytics YOLO26 para RAG visual.
A Geração Aumentada por Recuperação (RAG) é uma técnica avançada no campo da inteligência artificial que otimiza a saída de um Large Language Model (LLM) ao consultar uma base de conhecimento autoritativa fora dos seus dados de treinamento. Modelos generativos tradicionais dependem apenas de informações estáticas aprendidas durante o seu treinamento inicial, o que pode levar a respostas obsoletas ou imprecisões confiantes conhecidas como alucinações. O RAG supera essa lacuna ao recuperar informações relevantes e atualizadas de fontes externas — como bancos de dados da empresa, notícias atuais ou manuais técnicos — e fornecê-las ao modelo como contexto antes que uma resposta seja gerada. Esse processo garante que as saídas da IA sejam não apenas linguisticamente coerentes, mas também factualmente precisas e fundamentadas em dados específicos.
Link to this sectionComo Funcionam os Sistemas RAG#
A arquitetura de um sistema RAG envolve tipicamente duas fases principais: recuperação e geração. Esse fluxo de trabalho permite que desenvolvedores mantenham um foundation model sem a necessidade dispendiosa de retreinamento frequente.
-
Recuperação: Quando um usuário envia uma consulta, o sistema realiza primeiro uma semantic search em um sistema de armazenamento especializado chamado vector database. Esse banco de dados contém dados que foram convertidos em representações numéricas conhecidas como embeddings, permitindo que o sistema encontre informações conceitualmente semelhantes em vez de apenas combinar palavras-chave.
-
Geração: Os documentos relevantes ou trechos de dados encontrados durante a recuperação são combinados com a pergunta original do usuário. Esse prompt enriquecido é então enviado ao modelo generativo. O modelo usa esse contexto fornecido para sintetizar uma resposta, garantindo que a resposta se baseie nos fatos recuperados. Para um mergulho mais profundo na mecânica, a IBM fornece um guia abrangente sobre fluxos de trabalho de RAG.
Link to this sectionRAG Visual: Integrando Visão Computacional#
Embora o RAG seja tradicionalmente baseado em texto, o surgimento do multi-modal learning introduziu o "RAG Visual". Nesse cenário, modelos de computer vision atuam como o mecanismo de recuperação. Eles analisam imagens ou fluxos de vídeo para extrair dados textuais estruturados — como nomes de objetos, contagens ou atividades — que são então inseridos em um LLM para responder perguntas sobre a cena visual.
Por exemplo, um desenvolvedor pode usar o YOLO26 para detectar objetos em uma imagem e passar essa lista de objetos para um modelo de texto para gerar um relatório descritivo.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."Link to this sectionAplicações no Mundo Real#
O RAG está transformando indústrias ao permitir que AI agents acessem dados proprietários ou em tempo real de forma segura.
- Bases de Conhecimento Corporativas: Empresas usam RAG para criar chatbots internos que respondem a perguntas de funcionários sobre políticas de RH ou documentação técnica. Ao conectar um LLM a um repositório de documentos ativo, o sistema evita fornecer informações de políticas obsoletas. Para mais informações sobre implementações corporativas, veja a visão geral do Google Cloud sobre RAG no Vertex AI.
- Suporte à Decisão Clínica: Em AI in healthcare, os sistemas RAG podem recuperar o histórico do paciente e artigos recentes de pesquisa médica para auxiliar médicos no diagnóstico, garantindo que o aconselhamento considere os estudos clínicos mais recentes.
- Assistentes de Varejo Inteligentes: Aplicações que usam AI in retail aproveitam o RAG para verificar bancos de dados de inventário ao vivo. Se um cliente pergunta a um chatbot, "Vocês têm estes tênis de corrida no tamanho 10?", o modelo recupera os níveis de estoque em tempo real antes de responder, evitando frustração com itens fora de estoque.
Link to this sectionRAG vs. Fine-Tuning#
É crucial distinguir o RAG do fine-tuning, pois eles resolvem problemas diferentes.
- RAG (Geração Aumentada por Recuperação): É melhor para acessar dados dinâmicos que mudam frequentemente (por exemplo, preços de ações, notícias) ou dados privados não presentes no conjunto de treinamento público. O foco é fornecer novas informações em tempo de execução.
- Fine-Tuning: É melhor para adaptar o comportamento, estilo ou terminologia do modelo. Envolve a atualização dos model weights em um conjunto de dados específico. Embora o fine-tuning ajude um modelo a aprender um padrão de linguagem específico (como jargão médico), ele não concede acesso a fatos em tempo real. Veja o guia da OpenAI sobre fine-tuning vs. RAG para obter estruturas de tomada de decisão.
Link to this sectionConceitos Relacionados#
- LangChain: Uma estrutura open-source popular projetada especificamente para simplificar a criação de aplicações RAG ao encadear recuperadores e LLMs.
- Knowledge Graph: Uma forma estruturada de representar dados que pode ser usada como fonte de recuperação, oferecendo relacionamentos contextualmente mais ricos do que a simples similaridade vetorial.
- Prompt Engineering: A arte de elaborar entradas para guiar o modelo. O RAG é essencialmente uma forma automatizada de prompt engineering onde o "prompt" é enriquecido programaticamente com dados recuperados.
- Ultralytics Platform: Embora o RAG lide com o lado da geração de texto, plataformas como esta são essenciais para gerenciar o data preprocessing e o treinamento dos modelos de visão que alimentam dados visuais em pipelines de RAG multimodal.






