Glossário

Geração Aumentada de Recuperação (RAG)

Descubra como o Retrieval Augmented Generation (RAG) melhora os modelos de IA integrando dados externos fiáveis e em tempo real para obter respostas precisas e actualizadas.

A Geração Aumentada por Recuperação (RAG) é uma estrutura avançada de IA concebida para melhorar a qualidade, a exatidão e a relevância das respostas geradas por Modelos de Linguagem de Grande Dimensão (LLM). Funciona ligando um modelo generativo a uma base de conhecimentos externa e actualizada. Isto permite que o modelo "recupere" informações relevantes antes de gerar uma resposta, baseando efetivamente o seu resultado em factos verificáveis e reduzindo a probabilidade de alucinações ou respostas desactualizadas. O RAG torna os LLMs mais fiáveis para tarefas de conhecimento intensivo, dando-lhes acesso a informação especializada ou proprietária para a qual não foram treinados.

Como funciona a Geração Aumentada por Recuperação

O processo RAG pode ser dividido em duas fases principais: recuperação e geração. Esta abordagem em duas fases combina os pontos fortes dos sistemas de recuperação de informação e dos modelos generativos.

  1. Recuperação: Quando um utilizador fornece um comando ou faz uma pergunta, o sistema RAG começa por utilizar o comando para procurar informações relevantes numa fonte de conhecimento. Esta fonte é normalmente uma base de dados vetorial que contém incrustações de documentos, artigos ou outros dados. O componente recuperador identifica e extrai os fragmentos de texto ou dados mais relevantes com base na consulta do utilizador. Um passo opcional, mas poderoso, é utilizar um reranker para refinar estes resultados recuperados, assegurando que apenas a informação contextualmente mais importante é transmitida.
  2. Geração aumentada: A informação recuperada é então combinada com o pedido original do utilizador. Este novo pedido enriquecido é introduzido no modelo generativo de IA (o LLM). O modelo utiliza este contexto adicional para formular uma resposta abrangente, exacta e relevante. Estruturas como a LangChain e a LlamaIndex são normalmente utilizadas para construir e gerir estas complexas condutas RAG.

Aplicações e exemplos

O RAG é particularmente útil em cenários que exigem exatidão factual e acesso a dados dinâmicos ou especializados.

  • Sistemas avançados de resposta a perguntas: Um chatbot de apoio ao cliente pode utilizar o RAG para aceder a toda a base de conhecimentos de uma empresa de manuais de produtos, guias de resolução de problemas e documentos de políticas. Quando um cliente pergunta: "Qual é a política de garantia do meu produto?", o sistema recupera o documento de garantia mais recente e utiliza-o para dar uma resposta precisa e actualizada, uma melhoria significativa em relação às respostas genéricas.
  • Criação de conteúdos e investigação: Um analista financeiro pode utilizar uma ferramenta alimentada por RAG para escrever um resumo do mercado. A ferramenta pode obter os últimos relatórios financeiros, notícias do mercado e dados sobre o desempenho das acções de fontes fiáveis como a Bloomberg ou a Reuters. O LLM sintetiza então esta informação num relatório coerente, completo com citações, acelerando enormemente o processo de investigação.

RAG vs. conceitos relacionados

É útil distinguir as RAG de outros métodos utilizados para melhorar o desempenho da aprendizagem ao longo da vida:

  • Afinação: O ajuste fino adapta um modelo pré-treinado, continuando o treino num conjunto de dados mais pequeno e especializado, que modifica os pesos internos do modelo. Ao contrário do RAG, não consulta dados externos durante a inferência. O ajuste fino é ideal para ensinar a um modelo um novo estilo ou competência, enquanto o RAG é melhor para incorporar conhecimentos factuais. Estas abordagens também podem ser complementares.
  • Engenharia de prompts: Este é o processo manual de conceber cuidadosamente os avisos para obter o resultado desejado de um LLM. O RAG automatiza uma parte deste processo, adicionando programaticamente ("aumentando") o prompt com dados recuperados, em vez de depender de um humano para fornecer manualmente todo o contexto.
  • Enriquecimento imediato: Embora semelhante ao RAG, o enriquecimento de mensagens é um termo mais abrangente. Pode envolver a adição de contexto do histórico do utilizador ou do fluxo de conversação. O RAG é um tipo específico de enriquecimento centrado na recuperação de informações factuais de uma base de conhecimentos externa para fundamentar a resposta do modelo.

RAG em visão computacional

Embora as RAG sejam predominantemente utilizadas no processamento de linguagem natural (PLN), o seu conceito central está a ser explorado para tarefas de visão computacional (CV). Por exemplo, um sistema poderia recuperar informações visuais relevantes para orientar a geração ou análise de imagens. Isto pode envolver a procura de imagens semelhantes a partir de um grande conjunto de dados para melhorar o desempenho de um modelo de deteção de objectos como o Ultralytics YOLO. A gestão destes modelos e conjuntos de dados complexos é simplificada com plataformas como o Ultralytics HUB, que pode servir de base para futuras aplicações de modelos multimodais que utilizem o RAG. Pode explorar uma implementação relacionada no nosso blogue sobre o reforço da IA com RAG e visão computacional.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência