RAG 및 컴퓨터 비전으로 AI 애플리케이션 강화하기

아비라미 비나

4분 읽기

2025년 5월 28일

검색 증강 생성(RAG)과 컴퓨터 비전을 결합하여 AI 시스템이 문서, 시각 자료, 복잡한 실제 콘텐츠를 해석하는 데 어떻게 도움이 되는지 알아보세요.

ChatGPT나 Gemini와 같은 AI 도구를 사용하는 것이 정보를 찾는 일반적인 방법으로 빠르게 자리 잡고 있습니다. 메시지 초안을 작성하거나, 문서를 요약하거나, 질문에 답할 때 이러한 도구는 종종 더 빠르고 쉬운 솔루션을 제공합니다. 

하지만 대규모 언어 모델(LLM)을 몇 번 사용해 본 적이 있다면 그 한계를 눈치챘을 것입니다. 매우 구체적이거나 시간에 민감한 쿼리를 묻는 메시지가 표시되면 종종 자신 있게 오답으로 응답할 수 있습니다.

이는 독립형 LLM이 학습한 데이터에만 의존하기 때문에 발생합니다. 이들은 해당 데이터 세트 이외의 최신 업데이트나 전문 지식에 액세스할 수 없습니다. 따라서 답변이 오래되었거나 부정확할 수 있습니다.

이를 해결하기 위해 연구원들은 검색 증강 생성(RAG)이라는 방법을 개발했습니다. RAG는 언어 모델이 쿼리에 응답할 때 신뢰할 수 있는 출처에서 관련성 높은 최신 정보를 가져올 수 있도록 하여 언어 모델을 향상시킵니다.

이 글에서는 RAG의 작동 방식과 관련성 있는 최신 정보를 검색하여 AI 도구를 향상시키는 방법에 대해 살펴봅니다. 또한 시각적 데이터 해석에 중점을 둔 인공지능 분야인 컴퓨터 비전과 함께 작동하여 시스템이 텍스트뿐만 아니라 이미지, 레이아웃, 시각적으로 복잡한 문서도 이해할 수 있도록 지원하는 방법도 살펴봅니다.

검색 증강 생성(RAG) 이해하기

인공지능 챗봇에게 질문을 할 때 우리는 일반적으로 단순히 좋은 답변 이상의 것을 기대합니다. 이상적으로 좋은 답변은 명확하고 정확하며 진정으로 도움이 되는 것이어야 합니다. 이를 위해서는 AI 모델에 언어 능력뿐만 아니라 특히 특정 주제나 시간에 민감한 주제에 대한 올바른 정보에 대한 액세스 권한도 필요합니다.

RAG는 이러한 격차를 해소하는 데 도움이 되는 기술입니다. 언어 모델의 텍스트 이해 및 생성 능력과 외부 소스에서 관련 정보를 검색하는 능력을 결합한 기술입니다. 이 모델은 학습 데이터에만 의존하는 대신 신뢰할 수 있는 지식 기반에서 지원 콘텐츠를 적극적으로 가져와 응답을 구성합니다.

__wf_reserved_inherit
그림 1. 주요 RAG 사용 사례. 작성자 이미지.

누군가에게 질문을 하고 답변하기 전에 신뢰할 수 있는 참고 자료를 참조하도록 하는 것과 같다고 생각하면 됩니다. 답변은 여전히 자신의 말로 이루어지지만 가장 관련성이 높은 최신 정보를 바탕으로 합니다.

이러한 접근 방식을 통해 LLM은 보다 완전하고 정확하며 사용자의 쿼리에 맞춘 답변을 제공할 수 있으므로 정확성이 매우 중요한 실제 애플리케이션에서 훨씬 더 신뢰할 수 있습니다.

RAG의 작동 방식 살펴보기

RAG는 검색과 생성이라는 두 가지 핵심 단계를 도입하여 대규모 언어 모델이 응답하는 방식을 개선합니다. 먼저 외부 지식 기반에서 관련 정보를 검색합니다. 그런 다음 해당 정보를 사용하여 잘 구성된 문맥 인식 응답을 생성합니다.

이 프로세스가 어떻게 작동하는지 간단한 예시를 통해 살펴봅시다. AI 어시스턴트를 사용하여 개인 재무를 관리하면서 한 달 동안의 지출 목표를 지켰는지 확인하고 싶다고 가정해 보겠습니다.

이 과정은 어시스턴트에게 "이번 달 예산을 잘 지켰나요?"와 같은 질문을 하면 시작됩니다. 교육 중에 학습한 내용에만 의존하는 대신, 시스템은 리트리버를 사용하여 가장 최근의 재무 기록(은행 명세서나 거래 요약과 같은 것)을 검색합니다. 질문의 의도를 이해하는 데 중점을 두고 가장 관련성이 높은 정보를 수집합니다.

해당 정보가 검색되면 언어 모델이 작업을 이어받습니다. 언어 모델은 사용자의 질문과 기록에서 가져온 데이터를 모두 처리하여 명확하고 유용한 답변을 생성합니다. 답변은 원시 세부 정보를 나열하는 대신 지출을 요약하고 목표를 달성했는지 확인하고 주요 지출 영역을 지적하는 등 직접적이고 의미 있는 인사이트를 제공합니다.

이 접근 방식은 LLM이 정확할 뿐만 아니라 실제 최신 정보에 기반한 응답을 제공하도록 도와주므로 정적 학습 데이터로만 작동하는 모델보다 훨씬 더 유용한 경험을 제공합니다.

__wf_reserved_inherit
그림 2. RAG 작동 방식 이해하기.

멀티모달 RAG 시스템의 필요성

일반적으로 정보가 항상 일반 텍스트로만 공유되는 것은 아닙니다. 의료 스캔과 도표부터 프레젠테이션 슬라이드와 스캔 문서에 이르기까지 시각 자료에는 중요한 세부 정보가 포함되어 있는 경우가 많습니다. 주로 텍스트를 읽고 이해하도록 구축된 기존의 LLM은 이러한 종류의 콘텐츠를 처리하는 데 어려움을 겪을 수 있습니다.

그러나 RAG는 컴퓨터 비전과 함께 사용하여 이러한 격차를 해소할 수 있습니다. 이 두 가지를 함께 사용하면 멀티모달 RAG 시스템이라고 불리는데, 텍스트와 비주얼을 모두 처리할 수 있어 AI 챗봇이 보다 정확하고 완전한 답변을 제공할 수 있도록 도와줍니다.

이 접근 방식의 핵심은 두 가지 유형의 입력을 처리하고 추론하도록 설계된 비전 언어 모델(VLM)입니다. 이 설정에서 RAG는 대규모 데이터 소스에서 가장 관련성이 높은 정보를 검색하고, 컴퓨터 비전으로 활성화된 VLM은 이미지, 레이아웃 및 다이어그램을 해석합니다.

이는 스캔한 양식, 의료 보고서, 프레젠테이션 슬라이드와 같이 텍스트와 시각적 요소 모두에서 중요한 세부 정보를 찾을 수 있는 실제 문서에 특히 유용합니다. 예를 들어 표와 단락과 함께 이미지가 포함된 문서를 분석할 때 멀티모달 시스템은 시각적 요소를 추출하고, 시각적 요소에 대한 요약을 생성한 다음 이를 주변 텍스트와 결합하여 보다 완전하고 유용한 답변을 제공할 수 있습니다.

__wf_reserved_inherit
그림 3. 멀티모달 RAG는 이미지와 텍스트를 사용하여 더 나은 답변을 제공합니다.

시각적 데이터를 위한 RAG의 응용 

이제 RAG가 무엇이며 컴퓨터 비전과 어떻게 작동하는지 살펴봤으니, 이 접근 방식이 어떻게 사용되고 있는지 보여주는 실제 사례와 연구 프로젝트를 살펴보겠습니다.

VisRAG로 시각적 문서 이해하기

재무 보고서나 스캔한 법률 문서에서 인사이트를 추출하려고 한다고 가정해 봅시다. 이러한 유형의 파일에는 텍스트뿐만 아니라 정보를 설명하는 데 도움이 되는 표, 차트, 레이아웃도 포함되는 경우가 많습니다. 단순한 언어 모델은 이러한 시각적 요소를 간과하거나 잘못 해석하여 불완전하거나 부정확한 응답으로 이어질 수 있습니다.

VisRAG는 이러한 문제를 해결하기 위해 연구원들이 만든 것입니다. 이는 텍스트만 처리하는 것이 아니라 각 페이지를 이미지로 처리하는 VLM 기반 RAG 파이프라인입니다. 이를 통해 시스템은 콘텐츠와 시각적 구조를 모두 이해할 수 있습니다. 그 결과 가장 관련성이 높은 부분을 찾아내어 문서의 전체 맥락에 기반하여 보다 명확하고 정확한 답변을 제공할 수 있습니다.

__wf_reserved_inherit
그림 4. VisRAG는 문서를 이미지로 읽어 텍스트 콘텐츠와 레이아웃을 캡처할 수 있습니다.

RAG를 사용한 시각적 질문 답변

시각적 질문 답변(VQA)은 AI 시스템이 이미지에 대한 질문에 답변하는 작업입니다. 기존의 많은 VQA 시스템은 추가 정보를 검색할 필요 없이 단일 문서에 대한 질문에 답변하는 데 중점을 두는데, 이를 폐쇄적 설정이라고 합니다.

VDocRAG는 보다 현실적인 접근 방식을 취하는 RAG 프레임워크입니다. VQA와 관련 문서를 먼저 검색하는 기능을 통합합니다. 이는 사용자의 질문이 여러 문서 중 하나에 적용될 수 있고 시스템이 답변하기 전에 적합한 문서를 찾아야 하는 실제 상황에서 유용합니다. 이를 위해 VDocRAG는 VLM을 사용하여 문서를 이미지로 분석하여 텍스트와 시각적 구조를 모두 보존합니다.

따라서 VDocRAG는 엔터프라이즈 검색, 문서 자동화, 고객 지원과 같은 애플리케이션에서 특히 영향력이 큽니다. 매뉴얼이나 정책 파일처럼 복잡한 시각적 형식의 문서에서 단어를 읽는 것만큼이나 레이아웃을 이해하는 것이 중요한 경우 팀이 신속하게 답변을 추출할 수 있도록 도와줍니다.

__wf_reserved_inherit
그림 5. VDocRAG와 LLM 기반 솔루션의 차이점.

RAG로 이미지 캡션 개선하기

이미지 캡션은 이미지에서 일어나는 일에 대한 서면 설명을 생성하는 작업입니다. 온라인 콘텐츠의 접근성을 높이는 것부터 이미지 검색 강화, 콘텐츠 검토 및 추천 시스템 지원 등 다양한 애플리케이션에서 사용됩니다.

하지만 AI 모델에서 정확한 캡션을 생성하는 것이 항상 쉬운 일은 아닙니다. 특히 이미지가 모델이 학습한 것과 다른 것을 보여줄 때는 더욱 어렵습니다. 많은 캡션 시스템은 학습 데이터에 크게 의존하기 때문에 익숙하지 않은 장면에 직면하면 캡션이 모호하거나 부정확하게 나올 수 있습니다.

이 문제를 해결하기 위해 연구원들은 이미지 캡션에 검색 증강 생성(RAG)을 도입하는 방법인 Re-ViLM을 개발했습니다. Re-ViLM은 캡션을 처음부터 생성하는 대신 데이터베이스에서 유사한 이미지-텍스트 쌍을 검색하여 캡션 출력을 안내하는 데 사용합니다. 

이 검색 기반 접근 방식은 모델이 관련 예시를 바탕으로 설명을 작성하여 정확성과 유창성을 모두 개선하는 데 도움이 됩니다. 초기 결과에 따르면 Re-ViLM은 실제 예시를 사용하여 보다 자연스럽고 문맥을 인식하는 캡션을 생성하여 모호하거나 부정확한 설명을 줄이는 데 도움을 줍니다.

__wf_reserved_inherit
그림 6. Re-ViLM은 시각적 텍스트 예제를 검색하여 이미지 캡션을 개선합니다.

시각적 데이터를 이해하기 위해 RAG를 사용할 때의 장단점

다음은 검색 증강 생성 기술을 적용하여 시각적 정보를 검색하고 사용할 때 얻을 수 있는 이점에 대해 간략히 살펴봅니다: 

  • 향상된 요약 기능이 향상되었습니다: 요약에는 텍스트뿐만 아니라 차트 트렌드나 인포그래픽 요소와 같은 시각적 자료에서 얻은 인사이트를 포함할 수 있습니다.
    ↪cf_200D↩
  • 더욱 강력한 검색 및 검색: 검색 단계에서는 이미지 기반 이해를 사용하여 텍스트에 키워드가 없는 경우에도 관련 시각적 페이지를 식별할 수 있습니다.
    ↪f_200D↩
  • 스캔, 필기 또는 이미지 기반 문서를 지원합니다: VLM으로 활성화된 RAG 파이프라인은 텍스트 전용 모델에서는 읽을 수 없는 콘텐츠도 처리할 수 있습니다.

이러한 장점에도 불구하고 RAG를 사용하여 시각적 데이터로 작업할 때 염두에 두어야 할 몇 가지 제한 사항이 있습니다. 다음은 몇 가지 주요 제한 사항입니다:

  • 높은 컴퓨팅 요구 사항: 이미지와 텍스트를 모두 분석하면 더 많은 메모리와 처리 능력이 사용되므로 성능이 느려지거나 비용이 증가할 수 있습니다.
    ↪f_200D↩
  • 데이터 프라이버시 및 보안 문제: 특히 의료나 금융과 같은 분야의 시각적 문서에는 검색 및 처리 워크플로우를 복잡하게 만드는 민감한 정보가 포함되어 있을 수 있습니다.
    ↪f_200D↩
  • 추론 시간이 길어집니다: 시각적 처리는 복잡성을 더하기 때문에 텍스트 전용 시스템에 비해 응답을 생성하는 데 더 많은 시간이 소요될 수 있습니다.

주요 요점

검색 증강 생성은 대규모 언어 모델이 외부 소스에서 관련성 있는 최신 정보를 가져올 수 있도록 함으로써 질문에 대한 답변 방식을 개선하고 있습니다. 이러한 시스템은 컴퓨터 비전과 함께 사용하면 텍스트뿐만 아니라 차트, 표, 이미지, 스캔 문서와 같은 시각적 콘텐츠도 처리할 수 있어 보다 정확하고 균형 잡힌 답변을 제공할 수 있습니다.

이러한 접근 방식은 복잡한 문서가 포함된 실제 업무에 LLM을 더 적합하게 만듭니다. 이러한 모델은 검색과 시각적 이해를 결합함으로써 다양한 형식을 보다 효과적으로 해석하고 실제적인 일상적인 맥락에서 더 유용한 인사이트를 제공할 수 있습니다.

성장하는 커뮤니티에 참여하세요! GitHub 리포지토리를 살펴보고 AI에 대해 더 자세히 알아보세요. 나만의 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 확인해 보세요. 솔루션 페이지에서 의료 분야의 AI와 리테일 분야의 컴퓨터 비전에 대해 자세히 알아보세요!

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기

무료로 시작하기
링크가 클립보드에 복사됨