AIモデルの構成要素であるトークンが、NLP、コンピュータビジョン、および感情分析や物体検出などのタスクをどのように強化するかを学びます。
人工知能の世界では 人工知能の世界では、トークンは は、機械学習モデルが処理する情報の基本的な原子単位である。ニューラル・ネットワークが ニューラルネットワークが文章やコード ニューラル・ネットワークが文章、コード・スニペット、あるいは画像を分析する前に、生データはデータの前処理という重要なステップを経て、これらの個別の管理可能な断片に分割されなければならない。 データ前処理の重要なステップである。人間は 人間は言語を言葉の流れとして、画像を連続的なシーンとして認識するが、アルゴリズムはこれらの入力を標準化された要素に分解し、計算を実行する必要がある。 効率的に計算を行うためには、これらの入力を標準化された要素に分解する必要がある。
最新のディープラーニング・システムを理解するためには を理解するためには、データの単位とそれを作成するプロセスを区別することが不可欠である。この区別は この区別は、しばしば "何を "と "どのように "を比較することで明確になる。
いったんデータがトークン化されると、できあがったトークンはテキスト文字列や画像パッチとして直接使われることはない。代わりに 埋め込みとして知られる数値ベクトルにマッピングされます。これらの この高次元ベクトルは、トークン間の意味と関係を捕らえ、以下のようなフレームワークを可能にする。 PyTorchのようなフレームワークが数学的な演算を実行できるようになります。
自然言語処理 自然言語処理(NLP)では トークンは のような大規模言語モデル(LLM)の入力となる。 の入力となる。最新のモデル は通常、以下のようなサブワード トークン化アルゴリズムを使用する。 バイトペアエンコーディング(BPE)。この方法は この方法は、一般的な単語は単一のトークンとして残し、希少な単語は意味のある音節に分割することで、効率と語彙サイズのバランスをとる。 音節に分割する。
トークンの概念は、Vision Transformer(ViT)のようなアーキテクチャによって画像解析に革命をもたらした。 ヴィジョン・トランスフォーマー(ViT)。ViTは これらのモデルは、コンボリューションによってピクセルを処理する代わりに、画像を固定サイズのパッチ(例えば16x16ピクセル)のグリッドに分割する。 ピクセル)に分割する。各パッチは平坦化され、「視覚トークン」として扱われる。 トランスフォーマーの強力なメカニズム 画像内のグローバルなコンテキストを理解するために を理解することができる。
トークンは、今日のAIで最も先進的な機能のいくつかの構成要素である。
次の例は ultralytics パッケージが裏でトークンを活用以下のように
テキストクラスのリストを提供することで、モデルはこれらの入力をトークン化し、画像内の特定のオブジェクトを動的に識別します。
を動的に識別します。
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
トークンを理解することは、次のようなことを理解する上で極めて重要である。 を理解する上で極めて重要である。 構造化されていない人間のデータと計算機による理解との間のギャップを、基礎モデルがどのように埋めるかを把握するためには、トークンを理解することが極めて重要である。 画像分類であれ、複雑な言語タスクであれ タスクを問わず。


