RAG와 컴퓨터 비전으로 AI 애플리케이션 강화
검색 증강 생성(RAG)과 컴퓨터 비전을 결합하여 AI 시스템이 문서, 시각 자료 및 복잡한 실제 콘텐츠를 해석하는 데 어떤 도움을 주는지 알아보세요.

ChatGPT나 Gemini와 같은 AI 도구를 사용하는 것이 정보를 찾는 일반적인 방법이 되고 있습니다. 메시지를 작성하든, 문서를 요약하든, 질문에 답변하든 이러한 도구들은 종종 더 빠르고 쉬운 해결책을 제시합니다.
하지만 거대 언어 모델(LLMs)을 몇 번 사용해 보셨다면 그 한계를 느끼셨을 것입니다. 매우 구체적이거나 시간에 민감한 질문을 던지면 정확하지 않은 답변을 자신 있게 내놓는 경우가 있습니다.
이는 독립형 LLM이 학습된 데이터에만 의존하기 때문에 발생합니다. 해당 데이터셋을 넘어선 최신 업데이트나 전문 지식에는 접근할 수 없습니다. 결과적으로 답변이 오래되었거나 부정확할 수 있습니다.
이를 해결하기 위해 연구자들은 검색 증강 생성(RAG)이라는 방법을 개발했습니다. RAG는 언어 모델이 질문에 응답할 때 신뢰할 수 있는 소스에서 최신의 관련 정보를 가져올 수 있도록 하여 성능을 향상합니다.
이 글에서는 RAG가 어떻게 작동하며, 관련성 높고 최신의 정보를 검색하여 AI 도구를 어떻게 향상하는지 알아봅니다. 또한 시각적 데이터를 해석하는 데 중점을 둔 인공지능 분야인 컴퓨터 비전과 함께 작동하여 시스템이 텍스트뿐만 아니라 이미지, 레이아웃, 시각적으로 복잡한 문서를 이해하도록 돕는 방법도 살펴봅니다.
Link to this section검색 증강 생성(RAG) 이해하기#
AI 챗봇에게 질문할 때 우리는 일반적으로 그럴듯하게 들리는 응답 이상의 것을 기대합니다. 이상적으로 좋은 답변은 명확하고 정확하며 진정으로 도움이 되어야 합니다. 이를 제공하려면 AI 모델은 언어 능력뿐만 아니라, 특히 특정 주제나 시간에 민감한 주제에 대해서는 올바른 정보에 접근할 수 있어야 합니다.
RAG는 이러한 격차를 줄이는 데 도움이 되는 기술입니다. 언어 모델의 텍스트 이해 및 생성 능력과 외부 소스에서 관련 정보를 검색하는 기능을 결합합니다. 모델은 학습 데이터에만 의존하는 대신, 응답을 구성하는 동안 신뢰할 수 있는 지식 베이스에서 지원 콘텐츠를 적극적으로 불러옵니다.

그림 1. 주요 RAG 사용 사례. 이미지 저자 제공.
누군가에게 질문하고 그 사람이 답변하기 전에 신뢰할 수 있는 참고 자료를 확인하는 것과 같다고 생각하면 됩니다. 답변은 여전히 그 사람의 언어로 이루어지지만, 가장 관련성 높고 최신의 정보에 기반합니다.
이 접근 방식은 LLM이 더 완전하고 정확하며 사용자 질문에 맞춤화된 답변을 제공하도록 도와주며, 정확성이 매우 중요한 실제 애플리케이션에서 훨씬 더 신뢰할 수 있게 만듭니다.
Link to this sectionRAG의 작동 방식 살펴보기#
RAG는 검색과 생성이라는 두 가지 주요 단계를 도입하여 거대 언어 모델이 응답하는 방식을 향상합니다. 먼저 외부 지식 베이스에서 관련 정보를 검색합니다. 그런 다음 해당 정보를 사용하여 잘 구성되고 문맥을 인식하는 응답을 생성합니다.
이 과정이 어떻게 작동하는지 간단한 예를 살펴보겠습니다. 개인 재정을 관리하기 위해 AI 비서를 사용하고 있고, 이번 달 소비 목표를 지켰는지 확인하고 싶다고 가정해 보겠습니다.
과정은 "이번 달 예산을 잘 지켰니?"와 같은 질문을 비서에게 하는 것에서 시작합니다. 시스템은 학습 중 배운 것에만 의존하는 대신, 검색기를 사용하여 가장 최근의 금융 기록(은행 명세서나 거래 요약 등)을 검색합니다. 질문의 의도를 파악하고 가장 관련성 높은 정보를 수집하는 데 집중합니다.
정보가 검색되면 언어 모델이 작업을 이어받습니다. 귀하의 질문과 기록에서 가져온 데이터를 모두 처리하여 명확하고 유용한 답변을 생성합니다. 원시 데이터를 나열하는 대신, 지출을 요약하고 목표를 달성했는지 확인하며 주요 지출 영역을 지적하는 등 직접적이고 의미 있는 통찰력을 제공합니다.
이 접근 방식은 LLM이 정확할 뿐만 아니라 실제 최신 정보에 근거한 응답을 제공하도록 도와주며, 정적인 학습 데이터로만 작동하는 모델보다 훨씬 더 유용한 경험을 제공합니다.

그림 2. RAG 작동 방식 이해.
Link to this section멀티모달 RAG 시스템의 필요성#
일반적으로 정보가 항상 평문 텍스트로만 공유되지는 않습니다. 의료 스캔 및 다이어그램부터 프레젠테이션 슬라이드 및 스캔된 문서에 이르기까지 시각 자료에는 중요한 세부 정보가 포함되는 경우가 많습니다. 주로 텍스트를 읽고 이해하도록 만들어진 기존 LLM은 이러한 종류의 콘텐츠를 처리하는 데 어려움을 겪을 수 있습니다.
하지만 RAG는 컴퓨터 비전과 함께 사용하여 이러한 격차를 줄일 수 있습니다. 두 기술이 결합하면 멀티모달 RAG 시스템이 됩니다. 이는 텍스트와 시각 자료를 모두 처리할 수 있는 설정으로, AI 챗봇이 더 정확하고 완전한 답변을 제공하도록 돕습니다.
이 접근 방식의 핵심은 두 가지 유형의 입력을 모두 처리하고 추론하도록 설계된 비전 언어 모델(VLMs)입니다. 이 설정에서 RAG는 대규모 데이터 소스에서 가장 관련성 높은 정보를 검색하고, 컴퓨터 비전을 지원받은 VLM은 이미지, 레이아웃, 다이어그램을 해석합니다.
이는 텍스트와 시각 자료 모두에서 중요한 세부 정보를 찾을 수 있는 스캔된 양식, 의료 보고서, 프레젠테이션 슬라이드와 같은 실제 문서에 특히 유용합니다. 예를 들어, 표나 단락과 함께 이미지가 포함된 문서를 분석할 때 멀티모달 시스템은 시각적 요소를 추출하고 그 내용에 대한 요약을 생성한 다음, 주변 텍스트와 결합하여 더 완전하고 유용한 답변을 제공할 수 있습니다.

그림 3. 멀티모달 RAG는 더 나은 답변을 제공하기 위해 이미지와 텍스트를 사용합니다.
Link to this section시각적 데이터를 위한 RAG의 응용#
이제 RAG가 무엇이고 컴퓨터 비전과 어떻게 작동하는지 논의했으니, 이 접근 방식이 어떻게 사용되고 있는지 보여주는 실제 사례와 연구 프로젝트를 살펴보겠습니다.
Link to this sectionVisRAG를 통한 시각적 문서 이해#
재무 보고서나 스캔된 법률 문서에서 통찰력을 추출한다고 가정해 보겠습니다. 이러한 유형의 파일에는 텍스트뿐만 아니라 정보를 설명하는 데 도움이 되는 표, 차트, 레이아웃이 포함되어 있는 경우가 많습니다. 단순한 언어 모델은 이러한 시각적 요소를 간과하거나 잘못 해석하여 불완전하거나 부정확한 응답을 낼 수 있습니다.
VisRAG는 이 문제를 해결하기 위해 연구원들에 의해 만들어졌습니다. 이는 텍스트만 처리하는 대신 각 페이지를 이미지로 취급하는 VLM 기반 RAG 파이프라인입니다. 이를 통해 시스템은 콘텐츠와 시각적 구조를 모두 이해할 수 있습니다. 결과적으로 가장 관련성 높은 부분을 찾고 더 명확하고 정확하며 문서의 전체 맥락에 기반한 답변을 제공할 수 있습니다.

그림 4. VisRAG는 텍스트 콘텐츠와 레이아웃을 캡처하기 위해 문서를 이미지로 읽을 수 있습니다.
Link to this sectionRAG를 활용한 시각적 질의응답#
시각적 질의응답(VQA)은 AI 시스템이 이미지에 대한 질문에 답변하는 작업입니다. 많은 기존 VQA 시스템은 추가 정보를 검색할 필요 없이 단일 문서에 대한 질문에 답변하는 데 중점을 둡니다. 이를 폐쇄형 설정이라고 합니다.
VDocRAG는 더 현실적인 접근 방식을 취하는 RAG 프레임워크입니다. VQA와 관련 문서를 먼저 검색하는 기능을 통합합니다. 이는 사용자의 질문이 여러 문서 중 하나에 적용될 수 있고, 시스템이 답변하기 전에 올바른 문서를 찾아야 하는 실제 상황에서 유용합니다. 이를 위해 VDocRAG는 VLM을 사용하여 문서를 이미지로 분석하고 텍스트와 시각적 구조를 모두 보존합니다.
이로 인해 VDocRAG는 기업 검색, 문서 자동화, 고객 지원과 같은 애플리케이션에서 특히 영향력이 큽니다. 레이아웃 이해가 단어를 읽는 것만큼 중요한 매뉴얼이나 정책 파일과 같이 시각적으로 포맷된 복잡한 문서에서 팀이 신속하게 답변을 추출하도록 도울 수 있습니다.

그림 5. VDocRAG와 LLM 기반 솔루션의 차이.
Link to this sectionRAG를 활용한 이미지 캡션 개선#
이미지 캡션은 이미지에서 무슨 일이 일어나고 있는지에 대한 서면 설명을 생성하는 것입니다. 온라인 콘텐츠 접근성 향상부터 이미지 검색, 콘텐츠 조정 및 추천 시스템 지원에 이르기까지 다양한 애플리케이션에서 사용됩니다.
하지만 정확한 캡션을 생성하는 것은 AI 모델에게 항상 쉬운 일은 아닙니다. 특히 이미지가 모델이 학습한 것과 다른 것을 보여줄 때 더욱 어렵습니다. 많은 캡션 시스템이 학습 데이터에 크게 의존하기 때문에 익숙하지 않은 장면을 마주하면 캡션이 모호하거나 부정확하게 나올 수 있습니다.
이를 해결하기 위해 연구자들은 이미지 캡션 작업에 검색 증강 생성(RAG)을 도입한 Re-ViLM을 개발했습니다. Re-ViLM은 캡션을 처음부터 생성하는 대신 데이터베이스에서 유사한 이미지-텍스트 쌍을 검색하고 이를 사용하여 캡션 출력을 안내합니다.
이러한 검색 기반 접근 방식은 모델이 관련 예시를 바탕으로 설명을 근거화하도록 도와 정확성과 유창성을 모두 향상합니다. 초기 결과에 따르면 Re-ViLM은 실제 예시를 사용하여 더 자연스럽고 문맥을 인식하는 캡션을 생성하며 모호하거나 부정확한 설명을 줄이는 데 도움이 됩니다.

그림 6. Re-ViLM은 시각-텍스트 예시를 검색하여 이미지 캡션을 개선합니다.
Link to this section시각적 데이터를 이해하기 위해 RAG를 사용할 때의 장단점#
검색 증강 생성 기법을 적용하여 시각적 정보를 검색하고 사용하는 것의 이점은 다음과 같습니다.
- 향상된 요약 기능: 요약에는 텍스트뿐만 아니라 시각 자료(차트 추세나 인포그래픽 요소 등)에서 얻은 통찰력이 포함될 수 있습니다.
- 더 강력한 검색 및 조회: 검색 단계에서는 이미지 기반 이해를 사용하여 텍스트에 키워드가 없는 경우에도 관련 시각적 페이지를 식별할 수 있습니다.
- 스캔, 수기 또는 이미지 기반 문서 지원: VLM으로 활성화된 RAG 파이프라인은 텍스트 전용 모델이 읽을 수 없는 콘텐츠를 처리할 수 있습니다.
이러한 이점에도 불구하고 시각적 데이터로 작업하기 위해 RAG를 사용할 때 유의해야 할 몇 가지 제한 사항이 있습니다. 주요 사항은 다음과 같습니다.
- 높은 컴퓨팅 요구 사항: 이미지와 텍스트를 모두 분석하면 더 많은 메모리와 처리 능력이 사용되어 성능이 느려지거나 비용이 증가할 수 있습니다.
- 데이터 개인정보 보호 및 보안 문제: 특히 의료나 금융 분야의 시각적 문서에는 민감한 정보가 포함되어 있어 검색 및 처리 워크플로우가 복잡해질 수 있습니다.
- 더 긴 추론 시간: 시각적 처리가 복잡성을 추가하기 때문에 텍스트 전용 시스템에 비해 응답을 생성하는 데 시간이 더 걸릴 수 있습니다.
Link to this section핵심 요약#
검색 증강 생성은 거대 언어 모델이 외부 소스에서 관련성 높은 최신 정보를 가져올 수 있도록 하여 질문에 답변하는 방식을 개선하고 있습니다. 컴퓨터 비전과 결합하면 이러한 시스템은 텍스트뿐만 아니라 차트, 표, 이미지, 스캔된 문서와 같은 시각적 콘텐츠도 처리할 수 있어 더 정확하고 포괄적인 응답을 제공합니다.
이 접근 방식은 LLM을 복잡한 문서가 관련된 실제 업무에 더 적합하게 만듭니다. 검색과 시각적 이해를 결합함으로써 이 모델들은 다양한 형식을 더 효과적으로 해석하고 실용적인 일상 맥락에서 더 유용한 통찰력을 제공할 수 있습니다.
성장하는 커뮤니티에 참여하세요! GitHub 리포지토리를 탐색하여 AI에 대해 더 깊이 알아보세요. 나만의 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 확인해 보세요. 당사 솔루션 페이지에서 의료 분야의 AI와 리테일 분야의 컴퓨터 비전에 대해 더 알아보세요!






