埋め込みとは何か、また、NLP、レコメンデーション、およびコンピュータビジョンのためにデータ内のセマンティックな関係をキャプチャすることにより、それらがAIをどのように強化するかを学びます。
エンベッディングは、離散変数の高密度、低次元、連続ベクトル表現であり、現代の基本的なデータフォーマットとして機能する。 現代の 人工知能 (AI).膨大で非効率的なベクトルになる可能性のあるワンホットエンコーディングのような疎な表現とは異なります、 エンベッディングは、単語、画像、音声のような高次元の入力をコンパクトな数値空間にマッピングすることで、データの意味的関係や根底にある意味を捉えます。 エンベッディングは、単語、画像、音声のような高次元の入力をコンパクトな数値空間にマッピングすることで、データの意味的関係や根底にある意味を捉える。この学習されたベクトル空間では この学習されたベクトル空間では、同じような特徴や文脈を共有するアイテムは、互いに近接して配置され、以下のことが可能になります。 機械学習(ML)モデル が複雑なパターンを直感的に理解し処理できるようになる。
エンベッディングの核となる概念は、生データをコンピュータが効率的に処理できる数学的形式に変換することである。 に変換することである。このプロセスには通常 ニューラルネットワーク(NN)学習する を学習する。その間に モデルの学習を調整する。 これらのベクトル間の距離が、それらが表す項目の類似度に対応するように、ネットワークはこれらのベクトルを調整する。
例えば 自然言語処理(NLP)例えば、自然言語処理(NLP)では、"king "と "queen "という単語の埋め込みは、"apple "よりも数学的に近い。 リンゴ "よりも数学的に近くなる。この変換は 次元削減この変換は次元削減の一種であり、ノイズを取り除きながら本質的な情報を保持し、分類やクラスタリングのような下流のタスクを著しく効果的にする。 クラスタリングのような下流のタスクを著しく効果的にする。
エンベッディングは通常、トレーニングの副産物として生成される。 ディープラーニングモデルの 生成される。次のようなフレームワークがあります。 PyTorchや TensorFlowは、これらの表現を学習するために これらの表現を学習するように設計されている。
標準の コンピュータビジョンワークフローを使用します。 以下のPython スニペットは、事前に訓練された埋め込みを使用して画像から埋め込みを抽出する方法を示しています。 Ultralytics YOLO11分類モデルを使用する方法を示します。
from ultralytics import YOLO
# Load a YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Generate embeddings for an image from a URL
# The embed() method specifically returns the feature vector
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")
# Output the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")
エンベッディングは、システムが非構造化データを処理する方法に革命をもたらし、以前は不可能だった機能を可能にした。 不可能だった
エンベッディングと関連用語の区別を理解することは、AIを使いこなす上で極めて重要である。
抽象的な概念を数学的なベクトルに変換することで、エンベッディングは人間の直感と機械の論理のギャップを埋める。 機械論理とのギャップを埋める。 パターン認識今日 今日の最先端AIアプリケーションに見られる高度なパターン認識能力を可能にする。


