용어집

임베딩

임베딩이 무엇이며, 데이터의 의미론적 관계를 캡처하여 NLP, 추천 및 컴퓨터 비전을 위한 AI를 강화하는 방법에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

머신러닝(ML)인공지능(AI) 영역에서 임베딩은 단어, 문장, 이미지 또는 기타 항목과 같은 복잡한 데이터를 다차원 공간에서 조밀한 숫자 벡터로 표현하는 기본 기법입니다. 이러한 변환은 데이터로부터 학습되어 알고리즘이 입력의 의미론적 의미, 문맥 또는 본질적인 특성을 포착할 수 있게 해줍니다. 가장 큰 장점은 학습 데이터를 기반으로 유사하다고 판단되는 항목이 이 '임베딩 공간'의 가까운 지점에 매핑되어 기계가 원핫 인코딩과 같은 기존의 스파스 표현보다 훨씬 더 효과적으로 복잡한 관계와 패턴을 이해할 수 있다는 것입니다.

임베딩이란 무엇인가요?

임베딩은 단어와 같은 불연속 변수 또는 이미지나 사용자 프로필과 같은 복잡한 객체를 비교적 저차원의 벡터로 표현한 학습된 것입니다. 각 차원이 단일 항목에 대응하고 고유한 관계 정보가 부족한 매우 높은 차원의 희박한 벡터를 생성하는 원핫 인코딩과 같은 방법과 달리, 임베딩은 각 차원이 항목의 특성을 나타내는 데 기여하는 고밀도 벡터(일반적으로 수십에서 수천 개의 차원을 가짐)입니다. 결정적으로, 임베딩 공간에서 이러한 벡터의 위치는 의미 관계를 포착합니다. 예를 들어, 단어 임베딩에서 '왕'과 '여왕' 또는 '걷다'와 '달리다'처럼 비슷한 의미를 가지거나 비슷한 맥락에서 사용되는 단어는 수학적으로 가까운 벡터(예: 코사인 유사성 사용)를 갖게 됩니다. 이러한 근접성은 데이터에서 학습된 의미적 유사성을 반영합니다.

임베딩 작동 방식

임베딩은 일반적으로 자가 지도 학습과 같은 기법을 통해 대규모 데이터 세트에서 학습된 신경망(NN) 모델을 사용해 생성됩니다. 예를 들어, 단어 임베딩의 일반적인 기술인 Word2Vec은 대규모 텍스트 코퍼스 내에서 주변 단어(문맥)를 기반으로 단어를 예측하도록 모델을 훈련시키는 것입니다. 이 훈련 과정에서 네트워크는 각 단어의 임베딩 벡터를 포함한 내부 파라미터를 조정하여 역전파 등의 방법을 통해 예측 오류를 최소화합니다. 결과 벡터는 구문 및 의미 정보를 암시적으로 인코딩합니다. 임베딩 공간의 차원 수는 계산 비용과 과적합 위험 대비 세부 사항을 포착하는 모델의 능력에 영향을 미치는 중요한 초매개변수입니다. 이러한 고차원 데이터 공간을 시각화하려면 t-SNE 또는 PCA와 같은 차원 축소 기법이 필요한 경우가 많으며, TensorFlow Projector와 같은 도구를 사용하여 탐색할 수 있습니다.

임베딩의 응용

임베딩은 다양한 영역에 걸쳐 많은 최신 AI 시스템에서 중요한 구성 요소입니다:

  • 자연어 처리(NLP): 임베딩은 단어, 문장 또는 전체 문서를 나타냅니다. BERTTransformer 아키텍처와 같은 모델은 기계 번역, 감성 분석, 질문 답변, 효과적인 의미 검색과 같은 작업을 위해 언어 뉘앙스를 이해하기 위해 임베딩에 크게 의존합니다. 예시: 고객 지원 챗봇은 사용자의 쿼리가 정확한 키워드를 사용하지 않더라도 문장 임베딩을 사용하여 지식창고에서 가장 관련성이 높은 답변을 찾습니다.
  • 추천 시스템: 임베딩은 사용자와 항목(예: 영화, 제품 또는 기사)을 나타낼 수 있습니다. 시스템은 임베딩 공간에서 사용자와 사용자가 좋아하는 항목이 가깝도록 임베딩을 학습하여 사용자가 이전에 상호 작용했거나 유사한 사용자가 좋아하는 항목과 유사한 새로운 항목을 추천할 수 있습니다(협업 필터링). 넷플릭스나 아마존과 같은 회사에서 이를 광범위하게 활용하고 있습니다.
  • 컴퓨터 비전(CV): 이미지 또는 이미지 패치를 시각적 특징을 캡처하는 임베딩으로 변환할 수 있습니다. 이는 이미지 검색(시각적으로 유사한 이미지 찾기), 이미지 분류와 같은 작업의 기본이며 다음과 같은 모델에서 수행하는 물체 감지이미지 분할과 같은 보다 복잡한 작업의 기반이 됩니다. Ultralytics YOLO. 예시: 예: 한 전자상거래 플랫폼은 이미지 임베딩을 사용하여 사용자가 의류 품목의 사진을 업로드하고 카탈로그에서 유사한 제품을 찾을 수 있도록 합니다. 이러한 모델의 훈련과 배포는 Ultralytics HUB와 같은 플랫폼을 통해 용이하게 이루어집니다.
  • 그래프 분석: 임베딩은 그래프에서 노드와 에지를 표현하여 링크 예측이나 커뮤니티 감지와 같은 작업을 위해 네트워크 구조와 노드 관계를 캡처할 수 있으며, 종종 그래프 신경망(GNN)을 사용합니다.

임베딩과 관련 개념

임베딩과 관련 용어를 구분하는 것이 도움이 됩니다:

  • 임베딩과 특징 추출 비교: 임베딩은 딥러닝을 통해 구현되는 정교하고 자동화된 형태의 특징 추출입니다. 기존의 피처 엔지니어링은 피처(예: 이미지의 색상 히스토그램)를 수동으로 정의해야 하는 반면, 임베딩은 학습 중에 데이터에서 직접 관련 피처를 학습합니다.
  • 임베딩과 벡터 검색/벡터 데이터베이스 비교: 임베딩은 데이터 항목의 벡터 표현입니다. 벡터 검색은 임베딩 컬렉션을 쿼리하여 쿼리 벡터와 가장 유사한(가장 가까운) 임베딩을 찾는 과정으로, 효율성을 위해 ANN(근사 최인접 이웃) 알고리즘을 사용하는 경우가 많습니다. 벡터 데이터베이스(예: Pinecone 또는 Milvus)는 대량의 임베딩을 저장, 색인화 및 빠른 벡터 검색을 수행하는 데 최적화된 특수 데이터베이스입니다.

임베딩은 머신러닝 모델에 데이터를 표현하는 강력한 방법을 제공하여 텍스트부터 이미지까지 다양한 데이터 유형에서 의미적 유사성과 복잡한 패턴을 이해할 수 있게 해줍니다. 임베딩은 수많은 AI 애플리케이션의 발전을 이끄는 초석 기술이며 다음과 같은 최신 ML 프레임워크의 기능에 필수적인 요소입니다. PyTorchTensorFlow.

모두 보기