AI의 RAG 및 컴퓨터 비전 애플리케이션

ChatGPT Gemini와 같은 AI 도구를 사용하는 것이 정보를 찾는 일반적인 방법으로 빠르게 자리 잡고 있습니다. 메시지 초안을 작성하거나, 문서를 요약하거나, 질문에 답할 때 이러한 도구는 종종 더 빠르고 쉬운 솔루션을 제공합니다.

하지만 대규모 언어 모델(LLM)을 몇 번 사용해 보셨다면 그 한계를 느끼셨을 것입니다. 매우 구체적이거나 시간에 민감한 질문을 받으면 종종 확신에 차 있지만 부정확한 답변을 내놓을 수 있습니다.

이는 독립 실행형 LLM이 학습된 데이터에만 의존하기 때문에 발생합니다. 최신 업데이트나 해당 데이터 세트 이외의 전문 지식에 접근할 수 없습니다. 따라서 답변이 구식이거나 부정확할 수 있습니다.

이를 해결하기 위해 연구자들은 검색 증강 생성(RAG)이라는 방법을 개발했습니다. RAG는 쿼리에 응답할 때 신뢰할 수 있는 소스에서 최신의 관련 정보를 가져올 수 있도록 하여 언어 모델을 향상시킵니다.

이번 글에서는 RAG가 어떻게 작동하고 관련 최신 정보를 검색하여 AI 도구를 어떻게 향상시키는지 살펴보겠습니다. 또한 텍스트뿐만 아니라 이미지, 레이아웃 및 시각적으로 복잡한 문서를 이해하도록 시스템을 지원하기 위해 시각적 데이터 해석에 중점을 둔 인공 지능 분야인 컴퓨터 비전과 함께 어떻게 작동하는지 살펴보겠습니다.

검색 증강 생성(RAG) 이해

AI 챗봇에 질문할 때 우리는 일반적으로 듣기 좋은 응답 그 이상을 기대합니다. 이상적으로는 좋은 답변은 명확하고 정확하며 진정으로 도움이 되어야 합니다. 이를 제공하려면 AI 모델은 언어 능력 이상이 필요합니다. 특히 특정 주제나 시간에 민감한 주제의 경우 올바른 정보에 대한 액세스 권한도 필요합니다.

RAG는 이러한 격차를 해소하는 데 도움이 되는 기술입니다. 언어 모델의 텍스트 이해 및 생성 능력과 외부 소스에서 관련 정보를 검색하는 기능을 결합합니다. 단순히 학습 데이터에만 의존하는 대신, 응답을 생성할 때 신뢰할 수 있는 지식 기반에서 관련 콘텐츠를 적극적으로 가져옵니다.

‍

마치 누군가에게 질문을 하고 그들이 응답하기 전에 신뢰할 수 있는 참고 자료를 참조하는 것과 같습니다. 그들의 답변은 여전히 그들 자신의 말로 표현되지만, 가장 관련성 있고 최신 정보에 의해 뒷받침됩니다.

이러한 접근 방식은 LLM이 사용자 쿼리에 더욱 완전하고 정확하며 맞춤화된 답변을 제공하는 데 도움이 되어 정확성이 중요한 실제 애플리케이션에서 훨씬 더 안정적으로 사용할 수 있습니다.

RAG 작동 방식 살펴보기

RAG는 검색 및 생성이라는 두 가지 주요 단계를 도입하여 대규모 언어 모델의 응답 방식을 향상시킵니다. 먼저 외부 지식 베이스에서 관련 정보를 검색합니다. 그런 다음 해당 정보를 사용하여 잘 구성된 상황 인식 응답을 생성합니다.

이 프로세스가 어떻게 작동하는지 간단한 예를 살펴보겠습니다. 개인 재정을 관리하기 위해 AI 비서를 사용하고 있고 해당 월의 지출 목표를 달성했는지 확인하려는 경우를 상상해 보세요.

이 프로세스는 "이번 달 예산을 잘 지켰나요?"와 같이 어시스턴트에게 질문을 하면 시작됩니다. 시스템은 훈련 중에 학습한 내용에만 의존하는 대신 검색기를 사용하여 가장 최근의 재무 기록(은행 명세서 또는 거래 요약과 같은 항목)을 검색합니다. 질문의 의도를 이해하고 가장 관련성이 높은 정보를 수집하는 데 중점을 둡니다.

일단 해당 정보가 검색되면 언어 모델이 인계받습니다. 질문과 기록에서 가져온 데이터를 모두 처리하여 명확하고 유용한 답변을 생성합니다. 원시 세부 정보를 나열하는 대신 응답은 지출을 요약하고 목표 달성 여부를 확인하고 주요 지출 영역을 지적하는 것과 같이 직접적이고 의미 있는 통찰력을 제공합니다.

이러한 접근 방식은 LLM이 정확할 뿐만 아니라 실제 최신 정보를 기반으로 응답을 제공하는 데 도움이 되므로 정적 훈련 데이터만 사용하는 모델보다 훨씬 더 유용한 경험을 제공합니다.

‍

멀티모달 RAG 시스템의 필요성

일반적으로 정보는 항상 일반 텍스트로 공유되지는 않습니다. 의료 스캔 및 다이어그램에서 프레젠테이션 슬라이드 및 스캔한 문서에 이르기까지 시각 자료는 종종 중요한 세부 정보를 전달합니다. 주로 텍스트를 읽고 이해하도록 구축된 기존 LLM은 이러한 종류의 콘텐츠에 어려움을 겪을 수 있습니다.

그러나 RAG는 컴퓨터 비전과 함께 사용하여 이러한 격차를 해소할 수 있습니다. 이 둘을 결합하면 텍스트와 시각적 자료를 모두 처리할 수 있는 멀티모달 RAG 시스템이 구성되어 AI 챗봇이 더 정확하고 완전한 답변을 제공하는 데 도움이 됩니다.

이 접근 방식의 핵심은 두 가지 유형의 입력을 모두 처리하고 추론하도록 설계된 비전-언어 모델(VLM)입니다. 이 설정에서 RAG는 대규모 데이터 소스에서 가장 관련성이 높은 정보를 검색하고, 컴퓨터 비전으로 활성화된 VLM은 이미지, 레이아웃 및 다이어그램을 해석합니다.

이는 스캔한 양식, 의료 보고서 또는 프레젠테이션 슬라이드와 같이 중요한 세부 정보가 텍스트와 시각 자료 모두에서 발견될 수 있는 실제 문서에 특히 유용합니다. 예를 들어, 테이블과 단락과 함께 이미지가 포함된 문서를 분석할 때 다중 모드 시스템은 시각적 요소를 추출하고, 표시된 내용에 대한 요약을 생성하고, 주변 텍스트와 결합하여 보다 완전하고 유용한 응답을 제공할 수 있습니다.

Fig 3. 멀티모달 RAG는 이미지와 텍스트를 사용하여 더 나은 답변을 제공합니다.

‍

시각 데이터를 위한 RAG의 활용

이제 RAG가 무엇이고 컴퓨터 비전과 어떻게 작동하는지 논의했으니, 이 접근 방식이 어떻게 사용되고 있는지 보여주는 실제 사례와 연구 프로젝트를 살펴보겠습니다.

VisRAG를 이용한 시각적 문서 이해

재무 보고서나 스캔한 법률 문서에서 정보를 추출하려 한다고 가정해 보겠습니다. 이러한 유형의 파일에는 텍스트뿐만 아니라 정보를 설명하는 데 도움이 되는 표, 차트 및 레이아웃도 포함되는 경우가 많습니다. 일반적인 언어 모델은 이러한 시각적 요소를 간과하거나 잘못 해석하여 불완전하거나 부정확한 응답을 초래할 수 있습니다.

VisRAG는 연구자들이 이 문제를 해결하기 위해 만들었습니다. 각 페이지를 텍스트만 처리하는 대신 이미지로 취급하는 VLM 기반 RAG 파이프라인입니다. 이를 통해 시스템은 콘텐츠와 시각적 구조를 모두 이해할 수 있습니다. 결과적으로 가장 관련성이 높은 부분을 찾고 문서의 전체 컨텍스트를 기반으로 더 명확하고 정확한 답변을 제공할 수 있습니다.

그림 4. VisRAG는 텍스트 콘텐츠와 레이아웃을 캡처하기 위해 문서를 이미지로 읽을 수 있습니다.

‍

RAG를 사용한 시각적 질의 응답

시각적 질의 응답(VQA)은 AI 시스템이 이미지에 대한 질문에 답변하는 작업입니다. 기존의 많은 VQA 시스템은 추가 정보를 검색할 필요 없이 단일 문서에 대한 질문에 답변하는 데 중점을 둡니다. 이를 폐쇄형 설정이라고 합니다.

VDocRAG는 보다 현실적인 접근 방식을 취하는 RAG 프레임워크입니다. 관련 문서를 먼저 검색하는 기능을 VQA와 통합합니다. 이는 사용자의 질문이 여러 문서 중 하나에 적용될 수 있고 시스템이 답변하기 전에 올바른 문서를 찾아야 하는 실제 상황에서 유용합니다. 이를 위해 VDocRAG는 VLM을 사용하여 문서를 이미지로 분석하여 텍스트와 시각적 구조를 모두 보존합니다.

따라서 VDocRAG는 엔터프라이즈 검색, 문서 자동화 및 고객 지원과 같은 애플리케이션에서 특히 영향력이 큽니다. 팀은 레이아웃 이해가 단어 읽기만큼 중요한 매뉴얼이나 정책 파일과 같이 복잡하고 시각적으로 형식이 지정된 문서에서 신속하게 답변을 추출할 수 있습니다.

‍

RAG를 사용한 이미지 캡셔닝 개선

이미지 캡셔닝은 이미지에서 일어나는 일에 대한 설명을 생성하는 것을 포함합니다. 온라인 콘텐츠를 보다 접근성 있게 만드는 것부터 이미지 검색을 강화하고 콘텐츠 조정 및 추천 시스템을 지원하는 것까지 다양한 애플리케이션에 사용됩니다.

그러나 AI 모델이 정확한 캡션을 생성하는 것이 항상 쉬운 것은 아닙니다. 특히 이미지가 모델이 훈련된 것과 다른 것을 보여줄 때 어렵습니다. 많은 캡션 시스템은 훈련 데이터에 크게 의존하므로 익숙하지 않은 장면에 직면하면 캡션이 모호하거나 부정확해질 수 있습니다.

이를 해결하기 위해 연구자들은 검색 증강 생성(RAG)을 이미지 캡셔닝에 도입하는 방법인 Re-ViLM을 개발했습니다. Re-ViLM은 처음부터 캡션을 생성하는 대신 데이터베이스에서 유사한 이미지-텍스트 쌍을 검색하고 이를 사용하여 캡션 출력을 안내합니다.

이 검색 기반 접근 방식은 모델이 관련 예시에서 설명을 찾도록 도와 정확성과 유창성을 향상시킵니다. 초기 결과에 따르면 Re-ViLM은 실제 예시를 사용하여 보다 자연스럽고 상황에 맞는 캡션을 생성하여 모호하거나 부정확한 설명을 줄이는 데 도움이 됩니다.

그림 6. Re-ViLM은 시각적-텍스트 예제를 검색하여 이미지 캡션을 개선합니다.

‍

시각적 데이터를 이해하기 위해 RAG를 사용하는 것의 장단점

다음은 검색 증강 생성 기술을 적용하여 시각 정보를 검색하고 사용하는 이점에 대한 간략한 설명입니다.

향상된 요약 기능: 요약은 텍스트뿐만 아니라 시각 자료(예: 차트 추세 또는 인포그래픽 요소)의 통찰력을 통합할 수 있습니다.
‍
더욱 강력한 검색 및 검색: 검색 단계는 이미지 기반 이해를 사용하여 텍스트에 키워드가 없는 경우에도 관련 시각적 페이지를 식별할 수 있습니다.
‍
스캔, 손으로 쓴 문서 또는 이미지 기반 문서 지원: VLM으로 활성화된 RAG 파이프라인은 텍스트 전용 모델에서는 읽을 수 없는 콘텐츠를 처리할 수 있습니다.

이러한 이점에도 불구하고 RAG를 사용하여 시각적 데이터로 작업할 때 염두에 두어야 할 몇 가지 제한 사항이 있습니다. 주요 사항은 다음과 같습니다.

높은 컴퓨팅 요구 사항: 이미지와 텍스트를 모두 분석하려면 더 많은 메모리와 처리 능력이 필요하므로 성능이 저하되거나 비용이 증가할 수 있습니다.
‍
데이터 개인 정보 보호 및 보안 문제: 특히 의료 또는 금융과 같은 분야의 시각적 문서에는 검색 및 처리 워크플로를 복잡하게 만드는 민감한 정보가 포함될 수 있습니다.
‍
더 긴 추론 시간: 시각적 처리가 복잡성을 더하므로 응답 생성에 텍스트 전용 시스템에 비해 시간이 더 오래 걸릴 수 있습니다.

주요 내용

검색 증강 생성(Retrieval-augmented generation)은 대규모 언어 모델이 외부 소스에서 관련 최신 정보를 가져올 수 있도록 하여 질문에 대한 답변 방식을 개선하고 있습니다. 컴퓨터 비전과 결합하면 이러한 시스템은 텍스트뿐만 아니라 차트, 표, 이미지, 스캔한 문서와 같은 시각적 콘텐츠도 처리할 수 있어 더욱 정확하고 균형 잡힌 응답을 제공합니다.

이러한 접근 방식은 LLM이 복잡한 문서와 관련된 실제 작업에 더 적합하도록 만듭니다. 검색과 시각적 이해를 결합함으로써 이러한 모델은 다양한 형식을 보다 효과적으로 해석하고 실용적이고 일상적인 상황에서 더 유용한 통찰력을 제공할 수 있습니다.

성장하는 커뮤니티에 참여하세요! GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 자신만의 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 확인해 보세요. 솔루션 페이지에서 헬스케어 분야의 AI와 리테일 분야의 컴퓨터 비전에 대해 자세히 알아보세요!

RAG 및 컴퓨터 비전을 통한 AI 애플리케이션 개선

검색 증강 생성(RAG) 이해

RAG 작동 방식 살펴보기

멀티모달 RAG 시스템의 필요성

시각 데이터를 위한 RAG의 활용

VisRAG를 이용한 시각적 문서 이해

RAG를 사용한 시각적 질의 응답

RAG를 사용한 이미지 캡셔닝 개선

시각적 데이터를 이해하기 위해 RAG를 사용하는 것의 장단점

주요 내용

이 카테고리에서 더 읽어보기

컴퓨터 비전은 동작 추적을 더욱 안정적으로 만듭니다

상위 8개 오픈소스 객체 추적 도구 및 알고리즘

인간이 개입하는 주석 작업이 핵심인 이유 이해하기

함께 미래의 AI를 만들어 갑시다!