Aprimorando aplicações de IA com RAG e visão computacional
Aprenda como a combinação de geração aumentada por recuperação (RAG) com visão computacional está ajudando sistemas de IA a interpretar documentos, visuais e conteúdo complexo do mundo real.

Usar ferramentas de IA como o ChatGPT ou o Gemini está se tornando rapidamente uma maneira comum de encontrar informações. Quer estejas a redigir uma mensagem, a resumir um documento ou a responder a uma pergunta, estas ferramentas oferecem frequentemente uma solução mais rápida e fácil.
Mas se já utilizaste modelos de linguagem grandes (LLMs) algumas vezes, provavelmente notaste as suas limitações. Quando confrontados com perguntas altamente específicas ou sensíveis ao tempo, podem responder com respostas incorretas, muitas vezes de forma confiante.
Isto acontece porque os LLMs independentes dependem apenas dos dados com os quais foram treinados. Eles não têm acesso às atualizações mais recentes ou a conhecimentos especializados além desse conjunto de dados. Como resultado, as suas respostas podem estar desatualizadas ou imprecisas.
Para ajudar a resolver isto, os investigadores desenvolveram um método chamado geração aumentada por recuperação (RAG). O RAG melhora os modelos de linguagem permitindo-lhes extrair informações frescas e relevantes de fontes confiáveis ao responder a consultas.
Neste artigo, vamos explorar como o RAG funciona e como ele melhora as ferramentas de IA ao recuperar informações relevantes e atualizadas. Também veremos como ele funciona juntamente com a visão computacional, um campo da inteligência artificial focado em interpretar dados visuais, para ajudar os sistemas a compreender não apenas texto, mas também imagens, layouts e documentos visualmente complexos.
Link to this sectionCompreender a geração aumentada por recuperação (RAG)#
Ao fazer uma pergunta a um chatbot de IA, geralmente esperamos mais do que apenas uma resposta que soe bem. Idealmente, uma boa resposta deve ser clara, precisa e genuinamente útil. Para proporcionar isso, o modelo de IA precisa de mais do que competências linguísticas; também precisa de acesso às informações certas, especialmente para tópicos específicos ou sensíveis ao tempo.
O RAG é uma técnica que ajuda a preencher esta lacuna. Ele combina a capacidade do modelo de linguagem de compreender e gerar texto com o poder de recuperar informações relevantes de fontes externas. Em vez de depender apenas dos seus dados de treino, o modelo extrai ativamente conteúdo de suporte de bases de conhecimento confiáveis ao formular a sua resposta.

Fig 1. Principais casos de uso do RAG. Imagem do autor.
Podes imaginar isto como fazer uma pergunta a alguém e pedir-lhe que consulte uma referência confiável antes de responder. A resposta continua a ser com as suas próprias palavras, mas é informada pelas informações mais relevantes e atualizadas.
Esta abordagem ajuda os LLMs a responder com respostas que são mais completas, precisas e adaptadas à consulta do utilizador, tornando-os muito mais confiáveis em aplicações do mundo real onde a precisão realmente importa.
Link to this sectionUm olhar sobre como o RAG funciona#
O RAG melhora a forma como um modelo de linguagem grande responde ao introduzir dois passos chave: recuperação e geração. Primeiro, recupera informações relevantes de uma base de conhecimento externa. Depois, utiliza essas informações para gerar uma resposta bem formada e consciente do contexto.
Vamos dar uma olhada num exemplo simples para ver como este processo funciona. Imagina que estás a usar um assistente de IA para gerir as tuas finanças pessoais e queres verificar se te mantiveste dentro da tua meta de gastos para o mês.
O processo começa quando fazes ao assistente uma pergunta como: "Mantive-me dentro do orçamento este mês?" Em vez de depender apenas do que aprendeu durante o treino, o sistema usa um recuperador para pesquisar nos teus registos financeiros mais recentes (coisas como extratos bancários ou resumos de transações). Ele concentra-se em compreender a intenção por trás da tua pergunta e reúne as informações mais relevantes.
Uma vez que essa informação é recuperada, o modelo de linguagem assume o controlo. Ele processa tanto a tua pergunta como os dados extraídos dos teus registos para gerar uma resposta clara e útil. Em vez de listar detalhes brutos, a resposta resume os teus gastos e dá-te uma percepção direta e significativa - como confirmar se atingiste a tua meta e apontar áreas de gastos importantes.
Esta abordagem ajuda o LLM a fornecer respostas que não são apenas precisas, mas também fundamentadas nas tuas informações reais e atualizadas, tornando a experiência muito mais útil do que um modelo que trabalha apenas com dados de treino estáticos.

Fig 2. Compreender como o RAG funciona.
Link to this sectionA necessidade de sistemas RAG multimodais#
Tipicamente, a informação nem sempre é partilhada em texto simples. Desde exames médicos e diagramas a diapositivos de apresentação e documentos digitalizados, os elementos visuais carregam frequentemente detalhes importantes. Os LLMs tradicionais, que são construídos principalmente para ler e compreender texto, podem ter dificuldades com este tipo de conteúdo.
No entanto, o RAG pode ser usado juntamente com a visão computacional para preencher essa lacuna. Quando os dois são reunidos, formam o que é conhecido como um sistema RAG multimodal - uma configuração que pode lidar tanto com texto como com elementos visuais, ajudando os chatbots de IA a fornecer respostas mais precisas e completas.
No núcleo desta abordagem estão os modelos de visão-linguagem (VLMs), que são projetados para processar e raciocinar sobre ambos os tipos de entrada. Nesta configuração, o RAG recupera as informações mais relevantes de grandes fontes de dados, enquanto o VLM, habilitado pela visão computacional, interpreta imagens, layouts e diagramas.
Isto é especialmente útil para documentos do mundo real, como formulários digitalizados, relatórios médicos ou diapositivos de apresentação, onde detalhes vitais podem ser encontrados tanto no texto como nos elementos visuais. Por exemplo, ao analisar um documento que inclui imagens ao lado de tabelas e parágrafos, um sistema multimodal pode extrair elementos visuais, gerar um resumo do que eles mostram e combinar isso com o texto envolvente para entregar uma resposta mais completa e útil.

Fig 3. O RAG multimodal usa imagens e texto para fornecer melhores respostas.
Link to this sectionAplicações do RAG para dados visuais#
Agora que discutimos o que é o RAG e como ele funciona com a visão computacional, vamos ver alguns exemplos do mundo real e projetos de pesquisa que mostram como essa abordagem está a ser utilizada.
Link to this sectionCompreender documentos visuais com o VisRAG#
Digamos que estás a tentar extrair insights de um relatório financeiro ou de um documento legal digitalizado. Estes tipos de ficheiros incluem frequentemente não apenas texto, mas também tabelas, gráficos e layouts que ajudam a explicar as informações. Um modelo de linguagem simples pode ignorar ou interpretar mal estes elementos visuais, levando a respostas incompletas ou imprecisas.
VisRAG foi criado por investigadores para enfrentar este desafio. É um pipeline RAG baseado em VLM que trata cada página como uma imagem em vez de processar apenas o texto. Isto permite ao sistema compreender tanto o conteúdo como a sua estrutura visual. Como resultado, pode encontrar as partes mais relevantes e dar respostas que são mais claras, mais precisas e baseadas no contexto completo do documento.

Fig 4. O VisRAG pode ler documentos como imagens para capturar conteúdo textual e o layout.
Link to this sectionResposta a perguntas visuais com RAG#
A resposta a perguntas visuais (VQA) é uma tarefa em que um sistema de IA responde a perguntas sobre imagens. Muitos sistemas VQA existentes concentram-se em responder a perguntas sobre um único documento sem precisar de pesquisar informações adicionais - isto é conhecido como um cenário fechado.
VDocRAG é uma estrutura RAG que adota uma abordagem mais realista. Integra o VQA com a capacidade de recuperar documentos relevantes primeiro. Isto é útil em situações do mundo real onde a pergunta de um utilizador pode aplicar-se a um de muitos documentos, e o sistema precisa de encontrar o correto antes de responder. Para fazer isto, o VDocRAG usa VLMs para analisar documentos como imagens, preservando tanto o seu texto como a estrutura visual.
Isto torna o VDocRAG especialmente impactante em aplicações como pesquisa empresarial, automação de documentos e suporte ao cliente. Pode ajudar as equipas a extrair rapidamente respostas de documentos complexos e formatados visualmente, como manuais ou ficheiros de políticas, onde compreender o layout é tão importante quanto ler as palavras.

Fig 5. A diferença entre o VDocRAG e as soluções baseadas em LLM.
Link to this sectionMelhorar a legendagem de imagens com RAG#
A legendagem de imagens envolve gerar uma descrição escrita do que está a acontecer numa imagem. É usada numa variedade de aplicações - desde tornar o conteúdo online mais acessível até impulsionar a pesquisa de imagens e apoiar a moderação de conteúdo e sistemas de recomendação.
No entanto, gerar legendas precisas nem sempre é fácil para os modelos de IA. É especialmente difícil quando a imagem mostra algo diferente do que o modelo foi treinado. Muitos sistemas de legendagem dependem fortemente dos dados de treino, por isso, quando confrontados com cenas desconhecidas, as suas legendas podem sair vagas ou imprecisas.
Para lidar com isto, os investigadores desenvolveram o Re-ViLM, um método que traz a geração aumentada por recuperação (RAG) para a legendagem de imagens. Em vez de gerar uma legenda do zero, o Re-ViLM recupera pares de imagem-texto semelhantes de uma base de dados e usa-os para orientar o resultado da legenda.
Esta abordagem baseada em recuperação ajuda o modelo a fundamentar as suas descrições em exemplos relevantes, melhorando tanto a precisão como a fluência. Os primeiros resultados mostram que o Re-ViLM gera legendas mais naturais e conscientes do contexto usando exemplos reais, ajudando a reduzir descrições vagas ou imprecisas.

Fig 6. O Re-ViLM melhora legendas de imagem recuperando exemplos visual-texto.
Link to this sectionPrós e contras de usar RAG para compreender dados visuais#
Aqui tens uma visão rápida dos benefícios de aplicar técnicas de geração aumentada por recuperação para recuperar e usar informações visuais:
- Capacidades de resumo aprimoradas: Os resumos podem incorporar insights de elementos visuais (como tendências de gráficos ou elementos infográficos), não apenas texto.
- Pesquisa e recuperação mais robustas: Os passos de recuperação podem identificar páginas visuais relevantes mesmo quando palavras-chave não estão presentes no texto, usando a compreensão baseada em imagem.
- Suporte para documentos digitalizados, manuscritos ou baseados em imagem: Pipelines RAG habilitados por VLMs podem processar conteúdo que seria ilegível para modelos apenas de texto.
Apesar destes benefícios, ainda há algumas limitações a ter em conta ao usar o RAG para trabalhar com dados visuais. Aqui estão algumas das principais:
- Requisitos computacionais elevados: Analisar tanto imagens como texto usa mais memória e poder de processamento, o que pode abrandar o desempenho ou aumentar os custos.
- Preocupações com privacidade de dados e segurança: Documentos visuais, especialmente em setores como saúde ou finanças, podem conter informações sensíveis que complicam os fluxos de trabalho de recuperação e processamento.
- Tempos de inferência mais longos: Como o processamento visual adiciona complexidade, gerar respostas pode demorar mais tempo em comparação com sistemas apenas de texto.
Link to this sectionPrincipais pontos#
A geração aumentada por recuperação está a melhorar a forma como os modelos de linguagem grandes respondem a perguntas, permitindo-lhes buscar informações relevantes e atualizadas de fontes externas. Quando combinados com a visão computacional, estes sistemas podem processar não apenas texto, mas também conteúdo visual, como gráficos, tabelas, imagens e documentos digitalizados, levando a respostas mais precisas e bem fundamentadas.
Esta abordagem torna os LLMs mais adequados para tarefas do mundo real que envolvem documentos complexos. Ao reunir a recuperação e a compreensão visual, estes modelos podem interpretar diversos formatos de forma mais eficaz e fornecer insights que são mais úteis em contextos práticos e do dia-a-dia.
Junta-te à nossa crescente comunidade! Explora o nosso repositório GitHub para mergulhar mais fundo na IA. Pronto para iniciar os teus próprios projetos de visão computacional? Confere as nossas opções de licenciamento. Descobre mais sobre IA na saúde e visão computacional no retalho nas nossas páginas de soluções!






