Yolo 深圳
深セン
今すぐ参加
用語集

トークン

AIモデルの構成要素であるトークンが、NLP、コンピュータビジョン、および感情分析や物体検出などのタスクをどのように強化するかを学びます。

人工知能の世界では 人工知能の世界では、トークンは は、機械学習モデルが処理する情報の基本的な原子単位である。ニューラル・ネットワークが ニューラルネットワークが文章やコード ニューラル・ネットワークが文章、コード・スニペット、あるいは画像を分析する前に、生データはデータの前処理という重要なステップを経て、これらの個別の管理可能な断片に分割されなければならない。 データ前処理の重要なステップである。人間は 人間は言語を言葉の流れとして、画像を連続的なシーンとして認識するが、アルゴリズムはこれらの入力を標準化された要素に分解し、計算を実行する必要がある。 効率的に計算を行うためには、これらの入力を標準化された要素に分解する必要がある。

トークン vs. トークン化

最新のディープラーニング・システムを理解するためには を理解するためには、データの単位とそれを作成するプロセスを区別することが不可欠である。この区別は この区別は、しばしば "何を "と "どのように "を比較することで明確になる。

  • トークン:これは出力、つまりモデルに入力された実際のデータの塊である。テキスト処理では、トークン は単語全体、単語の一部(サブワード)、または1文字を表す。コンピュータビジョンでは コンピュータ・ビジョンでは ピクセルの特定のパッチを表します。
  • トークン化これは 生データをトークンに分割するアルゴリズムプロセス。例えば 例えば、spaCyや NLTKのようライブラリにある特殊なツールは、1つの のルールを処理する。

AIアーキテクチャにおけるトークンの役割

いったんデータがトークン化されると、できあがったトークンはテキスト文字列や画像パッチとして直接使われることはない。代わりに 埋め込みとして知られる数値ベクトルにマッピングされます。これらの この高次元ベクトルは、トークン間の意味と関係を捕らえ、以下のようなフレームワークを可能にする。 PyTorchのようなフレームワークが数学的な演算を実行できるようになります。

自然言語処理におけるテキスト・トークン

自然言語処理 自然言語処理(NLP)では トークンは のような大規模言語モデル(LLM)の入力となる。 入力となる。最新のモデル は通常、以下のようなサブワード トークン化アルゴリズムを使用する。 バイトペアエンコーディング(BPE)。この方法は この方法は、一般的な単語は単一のトークンとして残し、希少な単語は意味のある音節に分割することで、効率と語彙サイズのバランスをとる。 音節に分割する。

コンピュータ・ビジョンにおける視覚的トークン

トークンの概念は、Vision Transformer(ViT)のようなアーキテクチャによって画像解析に革命をもたらした。 ヴィジョン・トランスフォーマー(ViT)。ViTは これらのモデルは、コンボリューションによってピクセルを処理する代わりに、画像を固定サイズのパッチ(例えば16x16ピクセル)のグリッドに分割する。 ピクセル)に分割する。各パッチは平坦化され、「視覚トークン」として扱われる。 トランスフォーマーの強力なメカニズム 画像内のグローバルなコンテキストを理解するために を理解することができる。

実際のアプリケーション

トークンは、今日のAIで最も先進的な機能のいくつかの構成要素である。

  1. オープンボキャブラリーオブジェクト検出:YOLO-Worldのようなモデル YOLOようなモデルは マルチモーダル・アプローチを利用する。 トークンが相互作用する。ユーザーはカスタムクラス(例えば「青いバックパック」)をテキストプロンプトとして定義することができる。モデル モデルはこれらのプロンプトをトークン化し、画像内の視覚的トークンと照合することで 再学習の必要なく 再学習を必要としません。
  2. ジェネレーティブAIとチャットボット:チャットボットと対話するとき チャットボットと対話するとき、システムは テキストを生成して トークンを予測します。このトークンごとの予測により、首尾一貫した文脈に関連した応答が可能になります。 カスタマーサポートからコード補完までのアプリケーションを推進します。

例検出のためのテキスト・トークンの使用

次の例は ultralytics パッケージが裏でトークンを活用以下のように テキストクラスのリストを提供することで、モデルはこれらの入力をトークン化し、画像内の特定のオブジェクトを動的に識別します。 を動的に識別します。

from ultralytics import YOLO

# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")

# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])

# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

トークンを理解することは、次のようなことを理解する上で極めて重要である。 を理解する上で極めて重要である 構造化されていない人間のデータと計算機による理解との間のギャップを、基礎モデルがどのように埋めるかを把握するためには、トークンを理解することが極めて重要である。 画像分類であれ、複雑な言語タスクであれ タスクを問わず。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加