Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Geração Aumentada por Recuperação (RAG)

Descubra como a Geração Aumentada por Recuperação (RAG) aprimora os modelos de IA, integrando dados externos confiáveis e em tempo real para obter respostas precisas e atualizadas.

A Geração Aumentada por Recuperação (RAG) é uma estrutura de IA avançada projetada para melhorar a qualidade, precisão e relevância das respostas geradas por Modelos de Linguagem Grandes (LLMs). Ela funciona conectando um modelo generativo a uma base de conhecimento externa e atualizada. Isso permite que o modelo "recupere" informações relevantes antes de gerar uma resposta, efetivamente fundamentando sua saída em fatos verificáveis e reduzindo a probabilidade de alucinações ou respostas desatualizadas. O RAG torna os LLMs mais confiáveis para tarefas intensivas em conhecimento, dando-lhes acesso a informações especializadas ou proprietárias nas quais não foram treinados.

Como Funciona a Geração Aumentada por Recuperação

O processo RAG pode ser dividido em dois estágios principais: recuperação e geração. Essa abordagem de dois estágios combina os pontos fortes dos sistemas de recuperação de informações e dos modelos generativos.

  1. Recuperação: Quando um usuário fornece um prompt ou faz uma pergunta, o sistema RAG primeiro usa o prompt para pesquisar uma fonte de conhecimento em busca de informações relevantes. Esta fonte é tipicamente um banco de dados vetorial contendo embeddings de documentos, artigos ou outros dados. O componente de recuperação identifica e extrai os trechos de texto ou dados mais relevantes com base na consulta do usuário. Uma etapa opcional, mas poderosa, é usar um reranker para refinar esses resultados recuperados, garantindo que apenas as informações contextualmente mais importantes sejam transmitidas.
  2. Geração Aumentada: A informação recuperada é então combinada com o prompt original do utilizador. Este novo prompt enriquecido é alimentado no modelo de IA generativa (o LLM). O modelo usa este contexto adicionado para formular uma resposta abrangente, precisa e relevante. Frameworks como o LangChain e o LlamaIndex são comumente usados para construir e gerir estes complexos pipelines RAG.

Aplicações e Exemplos

O RAG é particularmente útil em cenários que exigem precisão factual e acesso a dados dinâmicos ou especializados.

  • Sistemas Avançados de Resposta a Perguntas: Um chatbot de suporte ao cliente pode usar o RAG para acessar toda a base de conhecimento de uma empresa, incluindo manuais de produtos, guias de solução de problemas e documentos de política. Quando um cliente pergunta: "Qual é a política de garantia do meu produto?", o sistema recupera o documento de garantia mais recente e o usa para fornecer uma resposta precisa e atualizada, uma melhoria significativa em relação às respostas genéricas.
  • Criação de Conteúdo e Pesquisa: Um analista financeiro pode usar uma ferramenta alimentada por RAG para escrever um resumo de mercado. A ferramenta pode recuperar os últimos relatórios financeiros, notícias de mercado e dados de desempenho de ações de fontes confiáveis como a Bloomberg ou a Reuters. O LLM então sintetiza essas informações em um relatório coerente, completo com citações, acelerando muito o processo de pesquisa.

RAG vs. Conceitos Relacionados

É útil distinguir RAG de outros métodos usados para melhorar o desempenho de LLMs:

  • Ajuste Fino (Fine-tuning): O ajuste fino adapta um modelo pré-treinado, continuando o treinamento em um conjunto de dados menor e especializado, o que modifica os pesos internos do modelo. Diferentemente do RAG, ele não consulta dados externos durante a inferência. O ajuste fino é ideal para ensinar um novo estilo ou habilidade a um modelo, enquanto o RAG é melhor para incorporar conhecimento factual. Essas abordagens também podem ser complementares.
  • Engenharia de Prompt: Este é o processo manual de projetar cuidadosamente prompts para obter a saída desejada de um LLM. O RAG automatiza uma parte disso, adicionando ("aumentando") programaticamente o prompt com dados recuperados, em vez de depender de um humano para fornecer manualmente todo o contexto.
  • Enriquecimento de Prompt: Embora semelhante ao RAG, o enriquecimento de prompt é um termo mais amplo. Pode envolver a adição de contexto do histórico do usuário ou do fluxo de conversação. O RAG é um tipo específico de enriquecimento focado na recuperação de informações factuais de uma base de conhecimento externa para fundamentar a resposta do modelo.

RAG em Visão Computacional

Embora o RAG seja predominantemente usado em Processamento de Linguagem Natural (NLP), seu conceito central está sendo explorado para tarefas de visão computacional (CV). Por exemplo, um sistema pode recuperar informações visuais relevantes para orientar a geração ou análise de imagens. Isso pode envolver a descoberta de imagens semelhantes de um grande conjunto de dados para melhorar o desempenho de um modelo de detecção de objetos como o Ultralytics YOLO. O gerenciamento desses modelos e conjuntos de dados complexos é simplificado com plataformas como o Ultralytics HUB, que pode servir como base para futuras aplicações de modelos multimodais que usam RAG. Você pode explorar uma implementação relacionada em nosso blog sobre como aprimorar a IA com RAG e visão computacional.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência