Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

Aprimorando aplicações de IA com RAG e visão computacional

Aprenda como a combinação de geração aumentada por recuperação (RAG) com visão computacional está ajudando sistemas de IA a interpretar documentos, visuais e conteúdo complexo do mundo real.

ABAbirami Vina
4 min read
Aprimorando aplicações de IA com RAG e visão computacional

Usar ferramentas de IA como o ChatGPT ou o Gemini está se tornando rapidamente uma maneira comum de encontrar informações. Quer estejas a redigir uma mensagem, a resumir um documento ou a responder a uma pergunta, estas ferramentas oferecem frequentemente uma solução mais rápida e fácil.

Mas se já utilizaste modelos de linguagem grandes (LLMs) algumas vezes, provavelmente notaste as suas limitações. Quando confrontados com perguntas altamente específicas ou sensíveis ao tempo, podem responder com respostas incorretas, muitas vezes de forma confiante.

Isto acontece porque os LLMs independentes dependem apenas dos dados com os quais foram treinados. Eles não têm acesso às atualizações mais recentes ou a conhecimentos especializados além desse conjunto de dados. Como resultado, as suas respostas podem estar desatualizadas ou imprecisas.

Para ajudar a resolver isto, os investigadores desenvolveram um método chamado geração aumentada por recuperação (RAG). O RAG melhora os modelos de linguagem permitindo-lhes extrair informações frescas e relevantes de fontes confiáveis ao responder a consultas.

Neste artigo, vamos explorar como o RAG funciona e como ele melhora as ferramentas de IA ao recuperar informações relevantes e atualizadas. Também veremos como ele funciona juntamente com a visão computacional, um campo da inteligência artificial focado em interpretar dados visuais, para ajudar os sistemas a compreender não apenas texto, mas também imagens, layouts e documentos visualmente complexos.

Link to this sectionCompreender a geração aumentada por recuperação (RAG)#

Ao fazer uma pergunta a um chatbot de IA, geralmente esperamos mais do que apenas uma resposta que soe bem. Idealmente, uma boa resposta deve ser clara, precisa e genuinamente útil. Para proporcionar isso, o modelo de IA precisa de mais do que competências linguísticas; também precisa de acesso às informações certas, especialmente para tópicos específicos ou sensíveis ao tempo.

O RAG é uma técnica que ajuda a preencher esta lacuna. Ele combina a capacidade do modelo de linguagem de compreender e gerar texto com o poder de recuperar informações relevantes de fontes externas. Em vez de depender apenas dos seus dados de treino, o modelo extrai ativamente conteúdo de suporte de bases de conhecimento confiáveis ao formular a sua resposta.

Principais casos de uso de RAG

Fig 1. Principais casos de uso do RAG. Imagem do autor.

Podes imaginar isto como fazer uma pergunta a alguém e pedir-lhe que consulte uma referência confiável antes de responder. A resposta continua a ser com as suas próprias palavras, mas é informada pelas informações mais relevantes e atualizadas.

Esta abordagem ajuda os LLMs a responder com respostas que são mais completas, precisas e adaptadas à consulta do utilizador, tornando-os muito mais confiáveis em aplicações do mundo real onde a precisão realmente importa.

Link to this sectionUm olhar sobre como o RAG funciona#

O RAG melhora a forma como um modelo de linguagem grande responde ao introduzir dois passos chave: recuperação e geração. Primeiro, recupera informações relevantes de uma base de conhecimento externa. Depois, utiliza essas informações para gerar uma resposta bem formada e consciente do contexto.

Vamos dar uma olhada num exemplo simples para ver como este processo funciona. Imagina que estás a usar um assistente de IA para gerir as tuas finanças pessoais e queres verificar se te mantiveste dentro da tua meta de gastos para o mês.

O processo começa quando fazes ao assistente uma pergunta como: "Mantive-me dentro do orçamento este mês?" Em vez de depender apenas do que aprendeu durante o treino, o sistema usa um recuperador para pesquisar nos teus registos financeiros mais recentes (coisas como extratos bancários ou resumos de transações). Ele concentra-se em compreender a intenção por trás da tua pergunta e reúne as informações mais relevantes.

Uma vez que essa informação é recuperada, o modelo de linguagem assume o controlo. Ele processa tanto a tua pergunta como os dados extraídos dos teus registos para gerar uma resposta clara e útil. Em vez de listar detalhes brutos, a resposta resume os teus gastos e dá-te uma percepção direta e significativa - como confirmar se atingiste a tua meta e apontar áreas de gastos importantes.

Esta abordagem ajuda o LLM a fornecer respostas que não são apenas precisas, mas também fundamentadas nas tuas informações reais e atualizadas, tornando a experiência muito mais útil do que um modelo que trabalha apenas com dados de treino estáticos.

Entendendo como o RAG funciona

Fig 2. Compreender como o RAG funciona.

Link to this sectionA necessidade de sistemas RAG multimodais#

Tipicamente, a informação nem sempre é partilhada em texto simples. Desde exames médicos e diagramas a diapositivos de apresentação e documentos digitalizados, os elementos visuais carregam frequentemente detalhes importantes. Os LLMs tradicionais, que são construídos principalmente para ler e compreender texto, podem ter dificuldades com este tipo de conteúdo.

No entanto, o RAG pode ser usado juntamente com a visão computacional para preencher essa lacuna. Quando os dois são reunidos, formam o que é conhecido como um sistema RAG multimodal - uma configuração que pode lidar tanto com texto como com elementos visuais, ajudando os chatbots de IA a fornecer respostas mais precisas e completas.

No núcleo desta abordagem estão os modelos de visão-linguagem (VLMs), que são projetados para processar e raciocinar sobre ambos os tipos de entrada. Nesta configuração, o RAG recupera as informações mais relevantes de grandes fontes de dados, enquanto o VLM, habilitado pela visão computacional, interpreta imagens, layouts e diagramas.

Isto é especialmente útil para documentos do mundo real, como formulários digitalizados, relatórios médicos ou diapositivos de apresentação, onde detalhes vitais podem ser encontrados tanto no texto como nos elementos visuais. Por exemplo, ao analisar um documento que inclui imagens ao lado de tabelas e parágrafos, um sistema multimodal pode extrair elementos visuais, gerar um resumo do que eles mostram e combinar isso com o texto envolvente para entregar uma resposta mais completa e útil.

RAG multimodal usando imagens e texto para fornecer melhores respostas

Fig 3. O RAG multimodal usa imagens e texto para fornecer melhores respostas.

Link to this sectionAplicações do RAG para dados visuais#

Agora que discutimos o que é o RAG e como ele funciona com a visão computacional, vamos ver alguns exemplos do mundo real e projetos de pesquisa que mostram como essa abordagem está a ser utilizada.

Link to this sectionCompreender documentos visuais com o VisRAG#

Digamos que estás a tentar extrair insights de um relatório financeiro ou de um documento legal digitalizado. Estes tipos de ficheiros incluem frequentemente não apenas texto, mas também tabelas, gráficos e layouts que ajudam a explicar as informações. Um modelo de linguagem simples pode ignorar ou interpretar mal estes elementos visuais, levando a respostas incompletas ou imprecisas.

VisRAG foi criado por investigadores para enfrentar este desafio. É um pipeline RAG baseado em VLM que trata cada página como uma imagem em vez de processar apenas o texto. Isto permite ao sistema compreender tanto o conteúdo como a sua estrutura visual. Como resultado, pode encontrar as partes mais relevantes e dar respostas que são mais claras, mais precisas e baseadas no contexto completo do documento.

VisRAG lendo documentos como imagens para capturar conteúdo e layout

Fig 4. O VisRAG pode ler documentos como imagens para capturar conteúdo textual e o layout.

Link to this sectionResposta a perguntas visuais com RAG#

A resposta a perguntas visuais (VQA) é uma tarefa em que um sistema de IA responde a perguntas sobre imagens. Muitos sistemas VQA existentes concentram-se em responder a perguntas sobre um único documento sem precisar de pesquisar informações adicionais - isto é conhecido como um cenário fechado.

VDocRAG é uma estrutura RAG que adota uma abordagem mais realista. Integra o VQA com a capacidade de recuperar documentos relevantes primeiro. Isto é útil em situações do mundo real onde a pergunta de um utilizador pode aplicar-se a um de muitos documentos, e o sistema precisa de encontrar o correto antes de responder. Para fazer isto, o VDocRAG usa VLMs para analisar documentos como imagens, preservando tanto o seu texto como a estrutura visual.

Isto torna o VDocRAG especialmente impactante em aplicações como pesquisa empresarial, automação de documentos e suporte ao cliente. Pode ajudar as equipas a extrair rapidamente respostas de documentos complexos e formatados visualmente, como manuais ou ficheiros de políticas, onde compreender o layout é tão importante quanto ler as palavras.

A diferença entre VDocRAG e soluções baseadas em LLM

Fig 5. A diferença entre o VDocRAG e as soluções baseadas em LLM.

Link to this sectionMelhorar a legendagem de imagens com RAG#

A legendagem de imagens envolve gerar uma descrição escrita do que está a acontecer numa imagem. É usada numa variedade de aplicações - desde tornar o conteúdo online mais acessível até impulsionar a pesquisa de imagens e apoiar a moderação de conteúdo e sistemas de recomendação.

No entanto, gerar legendas precisas nem sempre é fácil para os modelos de IA. É especialmente difícil quando a imagem mostra algo diferente do que o modelo foi treinado. Muitos sistemas de legendagem dependem fortemente dos dados de treino, por isso, quando confrontados com cenas desconhecidas, as suas legendas podem sair vagas ou imprecisas.

Para lidar com isto, os investigadores desenvolveram o Re-ViLM, um método que traz a geração aumentada por recuperação (RAG) para a legendagem de imagens. Em vez de gerar uma legenda do zero, o Re-ViLM recupera pares de imagem-texto semelhantes de uma base de dados e usa-os para orientar o resultado da legenda.

Esta abordagem baseada em recuperação ajuda o modelo a fundamentar as suas descrições em exemplos relevantes, melhorando tanto a precisão como a fluência. Os primeiros resultados mostram que o Re-ViLM gera legendas mais naturais e conscientes do contexto usando exemplos reais, ajudando a reduzir descrições vagas ou imprecisas.

Re-ViLM melhorando legendas de imagens ao recuperar exemplos visual-texto

Fig 6. O Re-ViLM melhora legendas de imagem recuperando exemplos visual-texto.

Link to this sectionPrós e contras de usar RAG para compreender dados visuais#

Aqui tens uma visão rápida dos benefícios de aplicar técnicas de geração aumentada por recuperação para recuperar e usar informações visuais:

  • Capacidades de resumo aprimoradas: Os resumos podem incorporar insights de elementos visuais (como tendências de gráficos ou elementos infográficos), não apenas texto.
  • Pesquisa e recuperação mais robustas: Os passos de recuperação podem identificar páginas visuais relevantes mesmo quando palavras-chave não estão presentes no texto, usando a compreensão baseada em imagem.
  • Suporte para documentos digitalizados, manuscritos ou baseados em imagem: Pipelines RAG habilitados por VLMs podem processar conteúdo que seria ilegível para modelos apenas de texto.

Apesar destes benefícios, ainda há algumas limitações a ter em conta ao usar o RAG para trabalhar com dados visuais. Aqui estão algumas das principais:

  • Requisitos computacionais elevados: Analisar tanto imagens como texto usa mais memória e poder de processamento, o que pode abrandar o desempenho ou aumentar os custos.
  • Preocupações com privacidade de dados e segurança: Documentos visuais, especialmente em setores como saúde ou finanças, podem conter informações sensíveis que complicam os fluxos de trabalho de recuperação e processamento.
  • Tempos de inferência mais longos: Como o processamento visual adiciona complexidade, gerar respostas pode demorar mais tempo em comparação com sistemas apenas de texto.

Link to this sectionPrincipais pontos#

A geração aumentada por recuperação está a melhorar a forma como os modelos de linguagem grandes respondem a perguntas, permitindo-lhes buscar informações relevantes e atualizadas de fontes externas. Quando combinados com a visão computacional, estes sistemas podem processar não apenas texto, mas também conteúdo visual, como gráficos, tabelas, imagens e documentos digitalizados, levando a respostas mais precisas e bem fundamentadas.

Esta abordagem torna os LLMs mais adequados para tarefas do mundo real que envolvem documentos complexos. Ao reunir a recuperação e a compreensão visual, estes modelos podem interpretar diversos formatos de forma mais eficaz e fornecer insights que são mais úteis em contextos práticos e do dia-a-dia.

Junta-te à nossa crescente comunidade! Explora o nosso repositório GitHub para mergulhar mais fundo na IA. Pronto para iniciar os teus próprios projetos de visão computacional? Confere as nossas opções de licenciamento. Descobre mais sobre IA na saúde e visão computacional no retalho nas nossas páginas de soluções!

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática