Melhorar as aplicações de IA com RAG e visão computacional

Abirami Vina

4 min ler

28 de maio de 2025

Saiba como a combinação da geração aumentada por recuperação (RAG) com a visão por computador está a ajudar os sistemas de IA a interpretar documentos, imagens e conteúdos complexos do mundo real.

A utilização de ferramentas de IA como o ChatGPT ou o Gemini está a tornar-se rapidamente uma forma comum de encontrar informações. Quer esteja a redigir uma mensagem, a resumir um documento ou a responder a uma pergunta, estas ferramentas oferecem frequentemente uma solução mais rápida e fácil. 

Mas se já utilizou modelos de linguagem de grande dimensão (LLMs) algumas vezes, provavelmente já reparou nas suas limitações. Quando solicitados com consultas altamente específicas ou sensíveis ao tempo, podem responder com respostas incorrectas, muitas vezes com confiança.

Isto acontece porque os LLMs autónomos dependem apenas dos dados em que foram treinados. Não têm acesso às últimas actualizações ou a conhecimentos especializados para além desse conjunto de dados. Como resultado, as suas respostas podem estar desactualizadas ou ser imprecisas.

Para ajudar a resolver este problema, os investigadores desenvolveram um método chamado geração aumentada de recuperação (RAG). O RAG melhora os modelos de linguagem, permitindo-lhes obter informações recentes e relevantes de fontes fiáveis quando respondem a consultas.

Neste artigo, vamos explorar o funcionamento do RAG e a forma como melhora as ferramentas de IA, recuperando informações relevantes e actualizadas. Veremos também como funciona em conjunto com a visão computacional, um domínio da inteligência artificial centrado na interpretação de dados visuais, para ajudar os sistemas a compreender não só texto, mas também imagens, esquemas e documentos visualmente complexos.

Compreender a geração aumentada por recuperação (RAG)

Quando fazemos uma pergunta a um chatbot de IA, geralmente esperamos mais do que apenas uma resposta que soe bem. Idealmente, uma boa resposta deve ser clara, exacta e genuinamente útil. Para o fazer, o modelo de IA precisa de mais do que competências linguísticas; precisa também de ter acesso à informação correta, especialmente para tópicos específicos ou sensíveis ao tempo.

O RAG é uma técnica que ajuda a colmatar esta lacuna. Reúne a capacidade do modelo de linguagem para compreender e gerar texto com o poder de recuperar informações relevantes de fontes externas. Em vez de se basear apenas nos seus dados de treino, o modelo extrai ativamente conteúdos de apoio de bases de conhecimento fiáveis enquanto forma a sua resposta.

Fig. 1. Principais casos de utilização das RAG. Imagem do autor.

Pode pensar-se nisto como fazer uma pergunta a alguém e pedir-lhe que consulte uma referência fiável antes de responder. A resposta continua a ser dada pelas próprias palavras da pessoa, mas com base nas informações mais relevantes e actualizadas.

Esta abordagem ajuda os LLMs a responder com respostas mais completas, precisas e adaptadas à consulta do utilizador, tornando-os muito mais fiáveis em aplicações do mundo real onde a precisão é verdadeiramente importante.

Um olhar sobre o funcionamento do RAG

O RAG melhora a forma como um modelo linguístico de grande dimensão responde, introduzindo duas etapas fundamentais: recuperação e geração. Primeiro, recupera informações relevantes de uma base de conhecimentos externa. Depois, utiliza essa informação para gerar uma resposta bem formada e contextualizada.

Vejamos um exemplo simples para perceber como funciona este processo. Imagine que está a utilizar um assistente de IA para gerir as suas finanças pessoais e quer verificar se não ultrapassou o seu objetivo de despesas para o mês.

O processo começa quando o utilizador faz ao assistente uma pergunta como "Cumpri o meu orçamento este mês?". Em vez de se basear apenas no que aprendeu durante a formação, o sistema utiliza um recuperador para pesquisar os seus registos financeiros mais recentes (por exemplo, extractos bancários ou resumos de transacções). O sistema concentra-se em compreender a intenção subjacente à sua pergunta e recolhe as informações mais relevantes.

Assim que essas informações são recuperadas, o modelo de linguagem assume o controlo. Processa a sua pergunta e os dados extraídos dos seus registos para gerar uma resposta clara e útil. Em vez de listar os detalhes em bruto, a resposta resume as suas despesas e dá-lhe uma visão direta e significativa - por exemplo, confirmando se atingiu o seu objetivo e apontando as principais áreas de despesa.

Esta abordagem ajuda o LLM a fornecer respostas que não só são exactas, mas também baseadas na sua informação real e actualizada, tornando a experiência muito mais útil do que um modelo que trabalha apenas com dados de treino estáticos.

Figura 2. Compreender o funcionamento do RAG.

A necessidade de sistemas RAG multimodais

Normalmente, a informação nem sempre é partilhada em texto simples. Desde exames médicos e diagramas a diapositivos de apresentação e documentos digitalizados, os elementos visuais contêm frequentemente pormenores importantes. Os LLM tradicionais, que foram concebidos principalmente para ler e compreender texto, podem ter dificuldades com este tipo de conteúdo.

No entanto, o RAG pode ser utilizado juntamente com a visão por computador para colmatar essa lacuna. Quando os dois são reunidos, formam o que é conhecido como um sistema RAG multimodal - uma configuração que pode lidar tanto com texto como com imagens, ajudando os chatbots de IA a fornecer respostas mais precisas e completas.

No centro desta abordagem estão os modelos de visão-linguagem (VLM), que são concebidos para processar e raciocinar sobre ambos os tipos de dados. Nesta configuração, o RAG recupera as informações mais relevantes de grandes fontes de dados, enquanto o VLM, possibilitado pela visão computacional, interpreta imagens, esquemas e diagramas.

Isto é especialmente útil para documentos do mundo real, como formulários digitalizados, relatórios médicos ou diapositivos de apresentações, onde os detalhes vitais podem ser encontrados tanto no texto como nos elementos visuais. Por exemplo, ao analisar um documento que inclui imagens juntamente com tabelas e parágrafos, um sistema multimodal pode extrair elementos visuais, gerar um resumo do que mostram e combiná-lo com o texto circundante para dar uma resposta mais completa e útil.

Fig. 3. O RAG multimodal utiliza imagens e texto para dar melhores respostas.

Aplicações de RAG para dados visuais 

Agora que já discutimos o que é o RAG e como funciona com a visão por computador, vamos analisar alguns exemplos do mundo real e projectos de investigação que mostram como esta abordagem está a ser utilizada.

Compreender documentos visuais com o VisRAG

Digamos que está a tentar extrair informações de um relatório financeiro ou de um documento jurídico digitalizado. Estes tipos de ficheiros incluem frequentemente não só texto, mas também tabelas, gráficos e esquemas que ajudam a explicar a informação. Um modelo de linguagem simples pode ignorar ou interpretar mal estes elementos visuais, conduzindo a respostas incompletas ou incorrectas.

O VisRAG foi criado por investigadores para responder a este desafio. Trata-se de um pipeline RAG baseado em VLM que trata cada página como uma imagem em vez de processar apenas o texto. Isto permite que o sistema compreenda tanto o conteúdo como a sua estrutura visual. Como resultado, pode encontrar as partes mais relevantes e dar respostas mais claras, mais exactas e baseadas no contexto completo do documento.

Fig. 4. O VisRAG pode ler documentos como imagens para capturar o conteúdo textual e o layout.

Resposta visual a perguntas com RAG

A resposta a perguntas visuais (VQA) é uma tarefa em que um sistema de IA responde a perguntas sobre imagens. Muitos dos sistemas de VQA existentes centram-se na resposta a perguntas sobre um único documento sem necessidade de procurar informações adicionais - isto é conhecido como um cenário fechado.

O VDocRAG é um quadro RAG que adopta uma abordagem mais realista. Integra a VQA com a capacidade de recuperar primeiro os documentos relevantes. Isto é útil em situações do mundo real em que a pergunta de um utilizador pode aplicar-se a um de muitos documentos e o sistema precisa de encontrar o documento certo antes de responder. Para tal, o VDocRAG utiliza VLMs para analisar documentos como imagens, preservando tanto o texto como a estrutura visual.

Isto faz com que o VDocRAG tenha um impacto especial em aplicações como a pesquisa empresarial, a automatização de documentos e o apoio ao cliente. Pode ajudar as equipas a extrair rapidamente respostas de documentos complexos e visualmente formatados, como manuais ou ficheiros de políticas, onde a compreensão do esquema é tão importante como a leitura das palavras.

Fig. 5. A diferença entre as soluções VDocRAG e LLM.

Melhorar a legendagem de imagens com o RAG

A legendagem de imagens envolve a criação de uma descrição escrita do que está a acontecer numa imagem. É utilizada numa variedade de aplicações - desde tornar o conteúdo em linha mais acessível até alimentar a pesquisa de imagens e apoiar a moderação de conteúdos e os sistemas de recomendação.

No entanto, gerar legendas exactas nem sempre é fácil para os modelos de IA. É especialmente difícil quando a imagem mostra algo diferente daquilo em que o modelo foi treinado. Muitos sistemas de legendagem dependem fortemente de dados de treino, pelo que, quando confrontados com cenas desconhecidas, as suas legendas podem ser vagas ou imprecisas.

Para resolver este problema, os investigadores desenvolveram o Re-ViLM, um método que introduz a geração aumentada por recuperação (RAG) na legendagem de imagens. Em vez de gerar uma legenda a partir do zero, o Re-ViLM recupera pares imagem-texto semelhantes de uma base de dados e utiliza-os para orientar a produção da legenda. 

Esta abordagem baseada na recuperação ajuda o modelo a fundamentar as suas descrições em exemplos relevantes, melhorando a exatidão e a fluência. Os primeiros resultados mostram que o Re-ViLM gera legendas mais naturais e contextualizadas através da utilização de exemplos reais, ajudando a reduzir as descrições vagas ou incorrectas.

Fig. 6. O Re-ViLM melhora as legendas das imagens através da recuperação de exemplos de texto visual.

Prós e contras da utilização de RAG para compreender dados visuais

Eis um breve resumo das vantagens da aplicação de técnicas de geração aumentada de recuperação para recuperar e utilizar informações visuais: 

  • Melhorado compactação capacidades: Os resumos podem incorporar informações de recursos visuais (como tendências de gráficos ou elementos infográficos), não apenas texto.
  • Pesquisa e recuperação mais robustas: As etapas de recuperação podem identificar páginas visuais relevantes mesmo quando as palavras-chave não estão presentes no texto, utilizando a compreensão baseada em imagens.
  • Suporte para documentos digitalizados, manuscritos ou baseados em imagens: Os pipelines RAG activados por VLMs podem processar conteúdos que seriam ilegíveis para modelos apenas de texto.

Apesar destas vantagens, existem ainda algumas limitações a ter em conta quando se utiliza o RAG para trabalhar com dados visuais. Eis algumas das principais:

  • Elevados requisitos de computação: A análise de imagens e texto utiliza mais memória e capacidade de processamento, o que pode diminuir o desempenho ou aumentar os custos.
  • Privacidade dos dados e segurança: Os documentos visuais, especialmente em sectores como os cuidados de saúde ou as finanças, podem conter informações sensíveis que complicam os fluxos de trabalho de recuperação e processamento.
  • Tempos de inferência mais longos: Uma vez que o processamento visual acrescenta complexidade, a geração de respostas pode demorar mais tempo em comparação com os sistemas só de texto.

Principais conclusões

A geração aumentada por recuperação está a melhorar a forma como os grandes modelos de linguagem respondem às perguntas, permitindo-lhes obter informações relevantes e actualizadas de fontes externas. Quando combinados com a visão computacional, estes sistemas podem processar não só texto, mas também conteúdo visual, como gráficos, tabelas, imagens e documentos digitalizados, conduzindo a respostas mais exactas e completas.

Esta abordagem torna os LLM mais adequados para tarefas do mundo real que envolvem documentos complexos. Ao reunir a recuperação e a compreensão visual, estes modelos podem interpretar diversos formatos de forma mais eficaz e fornecer informações mais úteis em contextos práticos e quotidianos.

Junte-se à nossa comunidade em crescimento! Explore o nosso repositório GitHub para mergulhar mais fundo na IA. Pronto para iniciar os seus próprios projectos de visão computacional? Veja as nossas opções de licenciamento. Descubra mais sobre a IA nos cuidados de saúde e a visão computacional no retalho nas nossas páginas de soluções!

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência