용어집

벡터 검색

벡터 검색이 NLP, 시각적 검색, 추천 시스템 등을 위한 데이터 검색에서 의미론적 유사성을 지원하여 AI를 혁신하는 방법을 알아보세요!

벡터 검색은 임베딩이라고 하는 숫자 벡터로 데이터를 표현하여 대규모 데이터 세트에서 유사한 항목을 찾는 방법입니다. 정확한 키워드를 일치시키는 대신 의미론적 또는 문맥적으로 유사한 항목을 식별합니다. 이 접근 방식은 최신 인공 지능(AI) 시스템의 기본으로, 이미지, 텍스트, 오디오와 같은 복잡한 데이터 유형에 대해 보다 직관적이고 정확한 정보 검색을 가능하게 해줍니다. 문자 그대로의 쿼리를 넘어 근본적인 의미나 의도를 이해함으로써 정교한 검색 및 추천 엔진을 구축하는 데 강력한 도구가 됩니다.

벡터 검색은 어떻게 작동하나요?

벡터 검색 프로세스에는 원시 데이터를 의미에 따라 검색 가능한 형식으로 변환하는 몇 가지 주요 단계가 포함됩니다. 이는 딥 러닝 모델과 효율적인 알고리즘을 통해 이루어집니다.

  1. 임베딩 생성하기: 먼저 트랜스포머나 CNN(컨볼루션 신경망)과 같은 머신 러닝 모델이 데이터 항목(예: 문장, 이미지, 사용자 프로필)을 임베딩이라는 고차원 숫자 벡터로 변환합니다. 각 벡터는 항목의 의미론적 본질을 포착합니다.
  2. 인덱싱: 이렇게 생성된 벡터는 전문 벡터 데이터베이스에 저장되고 색인됩니다. Pinecone이나 Milvus와 같은 이러한 데이터베이스는 방대한 양의 벡터 데이터를 효율적으로 관리하고 쿼리하는 데 최적화되어 있습니다.
  3. 쿼리: 사용자가 쿼리(예: 텍스트 구문이나 이미지)를 제출하면 동일한 모델을 사용하여 벡터로 변환합니다.
  4. 유사도 계산: 그런 다음 시스템은 알고리즘을 사용하여 데이터베이스에서 쿼리 벡터와 "가장 가까운" 벡터를 찾습니다. 이는 코사인 유사도 또는 유클리드 거리와 같은 거리 메트릭을 사용하여 수행되는 경우가 많습니다. 대규모 데이터 세트를 처리하기 위해 시스템은 일반적으로 정확하지는 않더라도 관련성이 높은 일치 항목을 찾아내는 빠르고 확장 가능한 검색을 위해 ScaNN 또는 Faiss와 같은 근사 근사 이웃(ANN) 알고리즘을 사용합니다.

실제 애플리케이션

벡터 검색은 많은 고급 AI 기능의 기반이 되는 기술입니다. 이를 통해 시스템은 단순한 매칭을 넘어 다양한 산업 분야에서 컨텍스트 인식 결과를 제공할 수 있습니다.

  • 시맨틱 이미지 검색: 사용자는 수동 태그나 파일 이름 대신 설명적인 자연어 구문을 사용해 이미지를 검색할 수 있습니다. 예를 들어 사용자가 '해질녘 산길을 달리는 자동차'를 검색하면 시스템은 '자동차', '산', '일몰'의 개념을 맥락에서 이해하여 시각적으로 유사한 이미지를 검색합니다. Ultralytics의 유사도 검색 가이드에서 이 기능이 어떻게 작동하는지 살펴볼 수 있습니다.
  • 추천 시스템: 이커머스 및 스트리밍 플랫폼은 벡터 검색을 사용하여 제품이나 콘텐츠를 추천합니다. 예를 들어 공상 과학 영화를 시청하는 경우 벡터 임베딩을 비교하여 장르, 톤, 줄거리가 비슷한 다른 영화를 찾아서 추천할 수 있습니다. 이는 사용자 경험과 참여를 향상시키기 위한 리테일 분야 AI의 핵심 기능입니다.

벡터 검색과 관련 개념 비교

AI 생태계에서 벡터 검색의 구체적인 역할을 이해하려면 벡터 검색을 다른 관련 용어와 구별하는 것이 도움이 됩니다.

  • 키워드 검색: 기존의 키워드 검색은 정확한 단어나 구를 매칭하는 데 의존합니다. 동의어, 문맥, 언어적 뉘앙스를 고려하지 못합니다. 반면, 벡터 검색은 의미 관계를 이해하므로 키워드가 정확히 일치하지 않더라도 관련성 있는 결과를 찾을 수 있습니다.
  • 시맨틱 검색: 시맨틱 검색은 쿼리의 의도와 문맥적 의미를 이해하는 광범위한 개념입니다. 벡터 검색은 시맨틱 검색을 구현하는 데 사용되는 핵심 방법입니다. 시맨틱 검색이 '무엇'(의미 이해)을 찾는 것이라면, 벡터 검색은 '어떻게'(벡터 근접성에 기반한 검색 메커니즘) 찾는 것입니다.
  • 임베딩: 임베딩은 데이터의 벡터 표현입니다. 벡터 검색은 임베딩 컬렉션을 쿼리하여 가장 유사한 임베딩을 찾는 프로세스입니다. 임베딩은 데이터이고 벡터 검색은 해당 데이터에 대해 수행되는 작업입니다.
  • 벡터 데이터베이스: 벡터 데이터베이스는 임베딩을 저장하고, 색인을 생성하고, 효율적으로 쿼리하기 위한 전문 인프라입니다. Ultralytics HUB와 같은 플랫폼은 벡터 검색 시스템에서 사용할 수 있도록 이러한 임베딩을 생성하는 데이터 세트와 모델을 관리하는 데 도움을 줍니다.

벡터 검색은 임베딩과 정교한 검색 알고리즘의 힘을 활용하여 사람의 의도와 디지털 데이터 사이의 간극을 메워주므로 자연어 처리(NLP) 부터 고급 컴퓨터 비전 작업에 이르기까지 다양한 지능형 애플리케이션의 필수 요소로 자리 잡았습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨