Yolo 深圳
深セン
今すぐ参加
用語集

埋め込み

埋め込みとは何か、また、NLP、レコメンデーション、およびコンピュータビジョンのためにデータ内のセマンティックな関係をキャプチャすることにより、それらがAIをどのように強化するかを学びます。

エンベッディングは、離散変数の高密度、低次元、連続ベクトル表現であり、現代の基本的なデータフォーマットとして機能する。 現代の 人工知能 (AI).膨大で非効率的なベクトルになる可能性のあるワンホットエンコーディングのような疎な表現とは異なります、 エンベッディングは、単語、画像、音声のような高次元の入力をコンパクトな数値空間にマッピングすることで、データの意味的関係や根底にある意味を捉えます。 エンベッディングは、単語、画像、音声のような高次元の入力をコンパクトな数値空間にマッピングすることで、データの意味的関係や根底にある意味を捉える。この学習されたベクトル空間では この学習されたベクトル空間では、同じような特徴や文脈を共有するアイテムは、互いに近接して配置され、以下のことが可能になります。 機械学習(ML)モデル が複雑なパターンを直感的に理解し処理できるようになる。

エンベッディングの仕組み

エンベッディングの核となる概念は、生データをコンピュータが効率的に処理できる数学的形式に変換することである。 に変換することである。このプロセスには通常 ニューラルネットワーク(NN)学習する を学習する。その間に モデルの学習を調整する。 これらのベクトル間の距離が、それらが表す項目の類似度に対応するように、ネットワークはこれらのベクトルを調整する。

例えば 自然言語処理(NLP)例えば、自然言語処理(NLP)では、"king "と "queen "という単語の埋め込みは、"apple "よりも数学的に近い。 リンゴ "よりも数学的に近くなる。この変換は 次元削減この変換は次元削減の一種であり、ノイズを取り除きながら本質的な情報を保持し、分類やクラスタリングのような下流のタスクを著しく効果的にする。 クラスタリングのような下流のタスクを著しく効果的にする。

創造と訓練

エンベッディングは通常、トレーニングの副産物として生成される。 ディープラーニングモデルの 生成される。次のようなフレームワークがあります。 PyTorchTensorFlowは、これらの表現を学習するために これらの表現を学習するように設計されている。

  1. 初期化:埋め込みベクトルはランダムな値で初期化されることが多い。
  2. 学習:モデルが特定の目的(例えば、シークエンスの次の単語を予測する、画像内のオブジェクトを識別する、など)に向けて最適化されるにつれて、学習が進みます。 を最適化する。 モデルの重みモデル 埋め込み層に関連するモデルの重みが更新される。
  3. 結果最終的に学習された重みは、各入力トークンまたはオブジェクトが特定の密なベクトルに対応する、埋め込みルックアップテーブルとして機能する。 オブジェクトが特定の密なベクトルに対応する。

標準の コンピュータビジョンワークフローを使用します。 以下のPython スニペットは、事前に訓練された埋め込みを使用して画像から埋め込みを抽出する方法を示しています。 Ultralytics YOLO11分類モデルを使用する方法を示します。

from ultralytics import YOLO

# Load a YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Generate embeddings for an image from a URL
# The embed() method specifically returns the feature vector
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")

実際のアプリケーション

エンベッディングは、システムが非構造化データを処理する方法に革命をもたらし、以前は不可能だった機能を可能にした。 不可能だった

  • セマンティック検索エンジン:従来の検索エンジンはキーワードのマッチングに頼っていた。 ことが多い。 セマンティック検索は 埋め込み検索は、クエリの意図と文書や画像の内容をマッチングさせる。クエリ埋め込みと文書埋め込み間の クエリの埋め込みとドキュメントの埋め込み間のベクトル距離を比較することで、システムは概念的に関連する結果を検索する。 を検索する。
  • パーソナライズされた推薦システム:NetflixやAmazonのようなプラットフォームは、ユーザーの嗜好やアイテムの特徴をモデル化するために埋め込みデータを使用している。 をモデル化する。あるユーザーがSF映画を見た場合 推薦システムは 似たような埋め込みベクトルを持つ他の映画を提案する。このアプローチは アルゴリズムは ベクトルデータベース数百万アイテムまで効率的にスケールします。
  • ゼロショット学習:次のような高度なモデル クリップ のような先進的なモデルは、テキストと画像の結合埋め込みを学習する。これにより、システムは学習中に一度も見たことのない画像をclassify することができる。 として知られる手法である。 ゼロショット学習.

埋め込み vs. 関連概念

エンベッディングと関連用語の区別を理解することは、AIを使いこなす上で極めて重要である。

  • エンベッディングと特徴抽出:どちらもデータを数値的な特徴に変換する、 特徴抽出特徴抽出は 特徴抽出は(エッジ検出のような)手作業によるものと、自動化されたものがある。エンベッディングは、自動化され、学習された特徴抽出の特定のタイプである。 エンベッディングは、学習された自動特徴抽出の一種で、密なベクトルを生成します。
  • エンベッディングとベクトル検索:エンベッディングとは、データ構造(ベクトルそのもの)のことです。 ベクトル探索とは エンベッディングのコレクションを検索し、類似のアイテムを見つけるプロセスです。次のような技術があります。 松ぼっくりまたは Milvusなどは、埋め込みを保存し、この検索を効率的に実行するように設計されている。 を効率的に実行します。
  • 埋め込み vs. トークン化:テキスト処理において、 トークン化とは と呼ばれる小さな単位にテキストを分割するステップ。 トークン.これらのトークンは、対応する埋め込みベクトルを検索する離散識別子(整数)である。したがって トークン化は,埋め込みベクトルの検索に先行して行われます.

抽象的な概念を数学的なベクトルに変換することで、エンベッディングは人間の直感と機械の論理のギャップを埋める。 機械論理とのギャップを埋める。 パターン認識今日 今日の最先端AIアプリケーションに見られる高度なパターン認識能力を可能にする。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加