Saiba como combinar a geração aumentada por recuperação (RAG) com a visão computacional está ajudando os sistemas de IA a interpretar documentos, visuais e conteúdo complexo do mundo real.

Saiba como combinar a geração aumentada por recuperação (RAG) com a visão computacional está ajudando os sistemas de IA a interpretar documentos, visuais e conteúdo complexo do mundo real.

Usar ferramentas de IA como ChatGPT ou Gemini está se tornando rapidamente uma forma comum de encontrar informações. Seja para redigir uma mensagem, resumir um documento ou responder a uma pergunta, essas ferramentas geralmente oferecem uma solução mais rápida e fácil.
Mas se você já usou modelos de linguagem grandes (LLMs) algumas vezes, provavelmente notou suas limitações. Quando solicitado com consultas altamente específicas ou urgentes, eles podem responder com respostas incorretas, muitas vezes com confiança.
Isto acontece porque os LLMs autónomos dependem unicamente dos dados com que foram treinados. Não têm acesso às últimas atualizações ou conhecimentos especializados para além desse conjunto de dados. Como resultado, as suas respostas podem estar desatualizadas ou imprecisas.
Para ajudar a resolver isso, os pesquisadores desenvolveram um método chamado geração aumentada por recuperação (RAG). O RAG aprimora os modelos de linguagem, permitindo que eles extraiam informações novas e relevantes de fontes confiáveis ao responder a consultas.
Neste artigo, vamos explorar como o RAG funciona e como ele aprimora as ferramentas de IA, recuperando informações relevantes e atualizadas. Também vamos analisar como ele funciona em conjunto com a visão computacional, um campo da inteligência artificial focado na interpretação de dados visuais, para ajudar os sistemas a entender não apenas o texto, mas também imagens, layouts e documentos visualmente complexos.
Ao fazer uma pergunta a um chatbot de IA, geralmente esperamos mais do que apenas uma resposta que soe bem. Idealmente, uma boa resposta deve ser clara, precisa e genuinamente útil. Para entregar isso, o modelo de IA precisa de mais do que habilidades linguísticas; também precisa de acesso à informação correta, especialmente para tópicos específicos ou sensíveis ao tempo.
RAG é uma técnica que ajuda a preencher essa lacuna. Ele junta a capacidade do modelo de linguagem de entender e gerar texto com o poder de recuperar informações relevantes de fontes externas. Em vez de depender apenas de seus dados de treinamento, o modelo busca ativamente conteúdo de suporte de bases de conhecimento confiáveis ao formar sua resposta.

Pode pensar nisso como fazer uma pergunta a alguém e pedir-lhe que consulte uma referência confiável antes de responder. A resposta ainda é dada nas suas próprias palavras, mas é informada pelas informações mais relevantes e atualizadas.
Esta abordagem ajuda os LLMs a responder com respostas mais completas, precisas e adaptadas à consulta do utilizador, tornando-os muito mais confiáveis em aplicações do mundo real onde a precisão é realmente importante.
O RAG aprimora a forma como um modelo de linguagem grande responde, introduzindo duas etapas principais: recuperação e geração. Primeiro, ele recupera informações relevantes de uma base de conhecimento externa. Em seguida, usa essas informações para gerar uma resposta bem formada e contextualizada.
Vamos dar uma olhada em um exemplo simples para ver como esse processo funciona. Imagine que você está usando um assistente de IA para gerenciar suas finanças pessoais e deseja verificar se você permaneceu dentro de sua meta de gastos para o mês.
O processo começa quando você faz uma pergunta ao assistente como: "Eu segui meu orçamento este mês?" Em vez de confiar apenas no que aprendeu durante o treinamento, o sistema usa um recuperador para pesquisar seus registros financeiros mais recentes (coisas como extratos bancários ou resumos de transações). Ele se concentra em entender a intenção por trás de sua pergunta e reúne as informações mais relevantes.
Depois que essas informações são recuperadas, o modelo de linguagem assume o controle. Ele processa sua pergunta e os dados extraídos de seus registros para gerar uma resposta clara e útil. Em vez de listar detalhes brutos, a resposta resume seus gastos e oferece uma visão direta e significativa - como confirmar se você atingiu sua meta e apontar as principais áreas de gastos.
Esta abordagem ajuda o LLM a fornecer respostas que não são apenas precisas, mas também fundamentadas nas suas informações reais e atualizadas, tornando a experiência muito mais útil do que um modelo que funciona apenas com dados de treino estáticos.

Normalmente, as informações nem sempre são compartilhadas em texto simples. De exames e diagramas médicos a slides de apresentação e documentos digitalizados, os recursos visuais geralmente contêm detalhes importantes. Os LLMs tradicionais, que são construídos principalmente para ler e entender textos, podem ter dificuldades com esse tipo de conteúdo.
No entanto, o RAG pode ser usado em conjunto com a visão computacional para preencher essa lacuna. Quando os dois são reunidos, formam o que é conhecido como um sistema RAG multimodal - uma configuração que pode lidar com texto e recursos visuais, ajudando os chatbots de IA a fornecer respostas mais precisas e completas.
No centro desta abordagem estão os modelos de visão-linguagem (VLMs), que são projetados para processar e raciocinar sobre ambos os tipos de entrada. Nesta configuração, o RAG recupera as informações mais relevantes de grandes fontes de dados, enquanto o VLM, habilitado pela visão computacional, interpreta imagens, layouts e diagramas.
Isto é especialmente útil para documentos do mundo real, como formulários digitalizados, relatórios médicos ou slides de apresentação, onde detalhes vitais podem ser encontrados tanto no texto quanto nos elementos visuais. Por exemplo, ao analisar um documento que inclui imagens junto com tabelas e parágrafos, um sistema multimodal pode extrair elementos visuais, gerar um resumo do que eles mostram e combinar isso com o texto circundante para fornecer uma resposta mais completa e útil.

Agora que discutimos o que é RAG e como ele funciona com a visão computacional, vamos ver alguns exemplos do mundo real e projetos de pesquisa que mostram como essa abordagem está sendo usada.
Digamos que você esteja tentando extrair insights de um relatório financeiro ou de um documento legal digitalizado. Esses tipos de arquivos geralmente incluem não apenas texto, mas também tabelas, gráficos e layouts que ajudam a explicar as informações. Um modelo de linguagem direto pode ignorar ou interpretar erroneamente esses elementos visuais, levando a respostas incompletas ou imprecisas.
O VisRAG foi criado por investigadores para enfrentar este desafio. É um pipeline RAG baseado em VLM que trata cada página como uma imagem, em vez de processar apenas o texto. Isto permite que o sistema compreenda tanto o conteúdo como a sua estrutura visual. Como resultado, consegue encontrar as partes mais relevantes e dar respostas mais claras, precisas e baseadas no contexto completo do documento.

O questionamento visual (VQA) é uma tarefa em que um sistema de IA responde a perguntas sobre imagens. Muitos sistemas VQA existentes concentram-se em responder a perguntas sobre um único documento sem necessidade de procurar informações adicionais - isto é conhecido como um ambiente fechado.
VDocRAG é um framework RAG que adota uma abordagem mais realista. Ele integra o VQA com a capacidade de recuperar primeiro os documentos relevantes. Isso é útil em situações do mundo real, onde a pergunta de um usuário pode se aplicar a um de muitos documentos, e o sistema precisa encontrar o correto antes de responder. Para fazer isso, o VDocRAG usa VLMs para analisar documentos como imagens, preservando seu texto e estrutura visual.
Isto torna o VDocRAG especialmente impactante em aplicações como pesquisa empresarial, automação de documentos e apoio ao cliente. Ele pode ajudar as equipas a extrair rapidamente respostas de documentos complexos e formatados visualmente, como manuais ou arquivos de políticas, onde entender o layout é tão importante quanto ler as palavras.

Legenda de imagens envolve gerar uma descrição escrita do que está acontecendo em uma imagem. É usado em uma variedade de aplicações - desde tornar o conteúdo online mais acessível até alimentar a pesquisa de imagens e dar suporte a sistemas de moderação e recomendação de conteúdo.
No entanto, gerar legendas precisas nem sempre é fácil para os modelos de IA. É especialmente difícil quando a imagem mostra algo diferente do que o modelo foi treinado. Muitos sistemas de legendas dependem fortemente de dados de treinamento, portanto, quando confrontados com cenas desconhecidas, suas legendas podem ser vagas ou imprecisas.
Para resolver isto, os investigadores desenvolveram o Re-ViLM, um método que traz a geração aumentada por recuperação (RAG) para a legenda de imagens. Em vez de gerar uma legenda do zero, o Re-ViLM recupera pares imagem-texto semelhantes de uma base de dados e usa-os para orientar a saída da legenda.
Esta abordagem baseada em recuperação ajuda o modelo a fundamentar suas descrições em exemplos relevantes, melhorando tanto a precisão quanto a fluência. Os primeiros resultados mostram que o Re-ViLM gera legendas mais naturais e contextuais usando exemplos reais, ajudando a reduzir descrições vagas ou imprecisas.

Aqui está uma rápida visão geral dos benefícios de aplicar técnicas de geração aumentada por recuperação para recuperar e usar informações visuais:
Apesar desses benefícios, ainda existem algumas limitações a serem lembradas ao usar o RAG para trabalhar com dados visuais. Aqui estão alguns dos principais:
A geração aumentada por recuperação está aprimorando a forma como os modelos de linguagem grandes respondem a perguntas, permitindo que busquem informações relevantes e atualizadas de fontes externas. Quando combinados com a visão computacional, esses sistemas podem processar não apenas texto, mas também conteúdo visual, como gráficos, tabelas, imagens e documentos digitalizados, levando a respostas mais precisas e completas.
Esta abordagem torna os LLMs mais adequados para tarefas do mundo real que envolvem documentos complexos. Ao reunir a recuperação e a compreensão visual, estes modelos podem interpretar diversos formatos de forma mais eficaz e fornecer insights mais úteis em contextos práticos e quotidianos.
Junte-se à nossa crescente comunidade! Explore o nosso repositório no GitHub para se aprofundar em IA. Pronto para começar seus próprios projetos de visão computacional? Consulte nossas opções de licenciamento. Descubra mais sobre IA na área da saúde e visão computacional no varejo em nossas páginas de soluções!