용어집

리랭커

리랭커로 검색 정확도를 향상하세요! 고급 모델이 최적의 관련성과 사용자 만족도를 위해 초기 결과를 개선하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

리랭커는 머신 러닝(ML) 시스템, 특히 정보 검색(IR), 검색 엔진, 추천 시스템과 같은 분야에서 사용되는 구성 요소입니다. 리랭커의 주요 기능은 초기 후보 항목 목록의 연관성 순서를 개선하는 것입니다. 빠른 초기 검색 방법으로 생성된 순위 목록을 가지고 보다 정교하고 계산 집약적인 모델을 사용하여 상위 항목의 순서를 다시 지정하는 2단계 정제 프로세스라고 생각하면 됩니다. 이를 통해 최종 순위의 정확도와 전반적인 사용자 만족도가 향상됩니다.

리랭커의 작동 방식

리랭커를 사용하는 근본적인 이유는 속도와 정확성의 균형을 맞추기 위해서입니다. 키워드 기반 검색이나 임베딩에 대한 근사 근사 이웃(ANN) 검색과 같은 초기 검색 시스템은 웹 문서, 제품 카탈로그, 이미지 데이터베이스 등 잠재적으로 방대한 데이터 세트를 빠르게 스캔하여 관련성이 있을 수 있는 항목을 식별해야 합니다. 이러한 1단계 시스템은 속도와 높은 회상률을 우선시하기 때문에 관련성이 낮은 일부 항목을 포함하더라도 잠재적으로 관련성이 있는 모든 항목을 검색하는 것을 목표로 합니다. 이러한 시스템은 궁극적으로 필요한 것보다 더 많은 후보 세트를 반환하는 경우가 많습니다.

그런 다음 재랭커는 이러한 상위 후보의 더 작은 하위 집합(예: 초기 검색의 상위 100개 결과)을 가져와 더 강력하고 계산이 까다로운 모델을 적용합니다. 이 모델은 사용자의 쿼리와 각 후보 항목 간의 관계에 대한 심층적인 분석을 수행할 수 있습니다. 일반적인 기술로는 트랜스포머와 같은 복잡한 딥 러닝(DL) 모델, 특히 크로스 인코더로 알려진 변형을 사용하는 것이 포함됩니다. 크로스 인코더는 쿼리와 후보 항목을 함께 평가하여 문맥적 관련성에 대한 풍부한 이해를 가능하게 하며, 종종 쿼리와 항목 임베딩을 개별적으로 평가하는 초기 검색 단계보다 우수합니다. 재랭커는 각 후보 항목에 대해 새롭고 정제된 관련성 점수를 출력하여 시스템이 가장 관련성이 높은 항목을 먼저 제시함으로써 최종 결과의 정확도를 향상시킵니다.

재랭킹 대 초기 검색

초기 검색 또는 랭킹 단계부터 재랭커를 구분하는 것이 중요합니다:

  • 초기 검색(첫 번째 단계):
    • 목표: 대규모 말뭉치에서 잠재적으로 연관성이 있는 광범위한 후보를 빠르게 찾습니다. 속도와 리콜을 우선시합니다.
    • 방법: 역 인덱스(Apache Lucene, Elasticsearch), 임베딩에 대한 ANN 검색 또는 더 간단한 스코어링 함수와 같은 기술을 사용하는 경우가 많습니다.
    • 복잡성: 항목당 계산 비용이 저렴하며 수십억 개의 항목으로 확장할 수 있습니다.
  • 순위 재조정(2단계):
    • 목표: 첫 번째 단계에서 제공한 상위 후보 세트를 정확하게 재순서화합니다. 정확성과 관련성을 우선시합니다.
    • 메서드: BERT 기반 크로스 인코더, 트랜스포머 또는 기타 정교한 기능 상호 작용과 같은 보다 복잡한 모델을 사용합니다. 이러한 기법에는 최적의 성능을 위해 하이퍼파라미터 튜닝이 수반되는 경우가 많습니다.
    • 복잡성: 항목당 계산상 더 비싸지만 제한된 수의 후보자(예: 상위 50~200명)에게만 적용됩니다.

애플리케이션 및 예시

리랭커는 많은 최신 AI 애플리케이션에서 필수적인 요소입니다:

  • 웹 검색 엔진: 다음과 같은 회사 GoogleMicrosoft Bing과 같은 회사에서는 다단계 순위 시스템을 사용하여 재랭커가 단순한 키워드 매칭을 넘어 미묘한 요소를 고려하여 사용자에게 표시되는 상위 검색 결과를 개선하는 데 중요한 역할을 합니다. 이는 정보 검색 연구의 핵심적인 부분입니다.
  • 전자상거래 플랫폼: Amazon과 같은 사이트에서는 리랭커를 사용하여 제품 추천 및 검색 결과를 세분화하여 복잡한 사용자 행동 패턴과 제품 기능을 기반으로 사용자가 구매할 가능성이 높은 제품을 표시합니다. 이는 Amazon Science와 같은 곳의 연구에 자세히 설명되어 있습니다.
  • 검색 증강 생성(RAG): 대규모 언어 모델(LLM)을 사용하는 시스템에서 RAG는 먼저 관련 문서를 검색하여 컨텍스트를 제공합니다. 그런 다음 재랭커는 검색된 문서를 정제하여 가장 관련성이 높은 컨텍스트가 LLM에 전달되도록 하여 보다 정확하고 정보에 입각한 응답을 생성할 수 있습니다. Cohere Rerank API와 같은 서비스는 이러한 목적을 위해 특별히 설계되었습니다.
  • 컴퓨터 비전 후처리: 전통적으로 '리랭커'라고 불리지는 않지만, 다음과 같은 객체 감지 모델에 사용되는 비최대 억제(NMS) 같은 기술은 Ultralytics YOLO 와 같은 기술도 비슷한 철학을 공유합니다. NMS는 초기 후보를 다듬는 것처럼 신뢰도 점수와 중복(IoU)을 기반으로 초기 예측 경계 상자 집합을 다듬어 가장 가능성이 높은 탐지는 유지하고 중복된 탐지는 억제합니다. 모델 훈련 팁을 찾고 이러한 모델에 대한 성능 벤치마크를 살펴볼 수 있습니다. 이러한 모델을 훈련할 때는 데이터 세트와 실험을 관리하기 위해 Ultralytics HUB와 같은 플랫폼을 활용하는 경우가 많습니다.
모두 보기