トークンがAIにおける情報の基本単位として機能する方法を学びましょう。NLP、コンピュータービジョン、そしてYOLO26を用いたオープンボキャブラリーdetectにおけるその役割を探ってください。
現代の 人工知能の洗練されたアーキテクチャにおいて、トークンは、モデルが処理する情報の基本的かつ原子的な単位を表します。アルゴリズムが文を解釈したり、ソフトウェアスクリプトを分析したり、画像内のオブジェクトを認識したりする前に、生の入力データはこれらの離散的で標準化された要素に分解される必要があります。このセグメンテーションは、 データ前処理における極めて重要なステップであり、非構造化入力を ニューラルネットワークが効率的に計算できる数値形式に変換します。人間が言語を思考の連続的な流れとして、あるいは画像をシームレスな視覚シーンとして認識する一方で、計算モデルは パターン認識や意味解析のような操作を実行するために、これらの粒状の構成要素を必要とします。
機械学習の仕組みを理解するためには、データ単位とそれを作成するプロセスを区別することが不可欠です。この区別により、データパイプラインの設計やUltralytics Platformでの訓練資料の準備における混乱を防ぐことができます。
トークンの性質は、処理されるデータのモダリティ、特にテキストドメインとビジュアルドメインの間で大きく異なります。
自然言語処理 (NLP)の分野では、トークンは大規模言語モデル (LLM)の入力です。初期のアプローチは厳密に単語全体にマッピングされていましたが、現代のアーキテクチャはバイトペアエンコーディング (BPE)のようなサブワードアルゴリズムを利用しています。この方法は、珍しい単語を意味のある音節に分解することでモデルが処理できるようにし、語彙サイズと意味的カバレッジのバランスを取ります。例えば、「unhappiness」という単語は、「un」、「happi」、「ness」にトークン化される可能性があります。
トークン化の概念は、Vision Transformer (ViT)の登場により、コンピュータビジョンへと拡大しました。スライディングウィンドウでピクセルを処理する従来の畳み込みネットワークとは異なり、Transformerは画像を固定サイズのパッチ(例:16x16ピクセル)のグリッドに分割します。各パッチは平坦化され、個別の視覚トークンとして扱われます。このアプローチにより、モデルは自己注意メカニズムを使用して、画像の離れた部分間の関係を理解できるようになります。これは、Google Researchが元々Transformerをテキストに適用した方法と同様です。
トークンは、無数のアプリケーションにおいて、人間のデータと機械知能の間の架け橋として機能する。
以下のコードスニペットは、 ultralytics パッケージはテキストトークンを使用してガイドします。
オブジェクト検出。最先端の
YOLO26 高速かつ固定クラスの推論に推奨されますが、YOLO-Worldアーキテクチャは、実行時にテキストトークンとしてクラスを定義できるという独自の機能を提供します。
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
トークンを理解することは、生成AIと高度な分析の分野を進む上で不可欠です。チャットボットが流暢に会話できるようにする場合でも、ビジョンシステムが微妙なオブジェクトクラスを区別するのを助ける場合でも、トークンはPyTorchやTensorFlowのようなフレームワークで使用される機械知能の不可欠な通貨であり続けます。

未来の機械学習で、新たな一歩を踏み出しましょう。