임베딩이 무엇이며 NLP, 추천 및 컴퓨터 비전을 위해 데이터의 의미 관계를 캡처하여 AI에 어떻게 전력을 공급하는지 알아보세요.
임베딩은 이산 변수의 조밀하고 저차원적이며 연속적인 벡터 표현으로, 이산 변수의 현대의 기본 데이터 형식입니다. 인공 지능(AI). 원핫 인코딩과 같은 스파스 표현과는 달리, 방대하고 비효율적인 벡터를 생성할 수 있습니다, 임베딩은 단어, 이미지 또는 오디오와 같은 고차원의 입력을 매핑하여 데이터의 의미 관계와 기본 의미를 캡처합니다. 단어, 이미지 또는 오디오와 같은 고차원 입력을 컴팩트한 숫자 공간에 매핑하여 데이터의 의미 관계와 근본적인 의미를 포착합니다. 이 학습된 벡터 공간에서는 비슷한 특성이나 맥락을 공유하는 유사한 특성이나 컨텍스트를 공유하는 항목이 서로 가까운 곳에 위치하여 머신 러닝(ML) 모델 이 복잡한 패턴을 직관적으로 이해하고 처리할 수 있습니다.
임베딩의 핵심 개념은 원시 데이터를 컴퓨터가 처리할 수 있는 수학적 형태로 변환하는 것입니다. 효율적으로 변환하는 것입니다. 이 프로세스에는 일반적으로 신경망(NN) 학습 을 학습하여 입력을 실수 벡터에 매핑합니다. 이 과정에서 모델 훈련 단계에서 네트워크는 이러한 벡터를 이러한 벡터 사이의 거리가 나타내는 항목의 유사성에 해당하도록 조정합니다.
예를 들어 자연어 처리(NLP)에서 "king"과 "queen"이라는 단어의 임베딩은 의미적 관계를 반영하여 "apple"보다는 보다 수학적으로 더 가깝게 임베딩되어 의미 관계를 반영합니다. 이러한 변환은 차원 축소의 한 형태로, 노이즈는 버리면서 필수 정보는 보존하여 분류나 클러스터링과 같은 다운스트림 작업을 훨씬 효과적으로 수행할 수 있게 해줍니다. 클러스터링과 같은 다운스트림 작업을 훨씬 더 효과적으로 수행할 수 있습니다.
임베딩은 일반적으로 교육 과정의 부산물로 생성됩니다. 딥러닝(DL) 모델을 학습할 때 생성됩니다. 다음과 같은 프레임워크 PyTorch 및 TensorFlow 은 이러한 표현을 학습하도록 특별히 이러한 표현을 학습하도록 설계된 레이어를 제공합니다.
표준을 사용하여 이미지에 대한 임베딩을 생성할 수 있습니다. 컴퓨터 비전(CV) 워크플로우를 사용하여 이미지에 대한 임베딩을 생성할 수 있습니다. 다음 Python 스니펫은 사전 학습된 이미지를 사용하여 이미지에서 임베딩을 추출하는 방법을 보여줍니다. Ultralytics YOLO11 분류 모델을 사용하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load a YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Generate embeddings for an image from a URL
# The embed() method specifically returns the feature vector
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")
# Output the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")
임베딩은 시스템이 비정형 데이터를 처리하는 방식을 혁신적으로 변화시켜 이전에는 불가능했던 기능을 불가능했습니다.
임베딩과 관련 용어의 차이점을 이해하는 것은 AI 환경을 탐색하는 데 매우 중요합니다.
임베딩은 추상적인 개념을 수학적 벡터로 변환하여 인간의 직관과 기계 로직 사이의 간극을 메워 정교한 패턴 인식 기능 정교한 패턴 인식 기능을 구현할 수 있습니다.

