トークンがAIにおける情報の基本単位として機能する仕組みを学びましょう。自然言語処理(NLP)、コンピュータビジョン、YOLO26を用いたオープンボキャブラリ検出におけるその役割を探求します。
現代の人工知能の洗練されたアーキテクチャにおいて、トークンはモデルが処理する情報の基本的かつ最小単位を表す。アルゴリズムが文を解釈したり、ソフトウェアスクリプトを分析したり、画像内の物体を認識したりする前に、生の入力データはこうした離散的で標準化された要素に分解されなければならない。 この分割はデータ前処理における 極めて重要なステップであり、 構造化されていない入力を ニューラルネットワークが効率的に計算可能な数値形式に変換する。 人間が言語を思考の連続した流れとして、 あるいは画像を途切れのない視覚的シーンとして認識する一方で、 計算モデルはパターン認識や意味解析といった操作を実行するために こうした細粒度の構成要素を必要とする。
機械学習の仕組みを理解するには、 データ単位とそれを生成するプロセスを区別することが不可欠です。 この区別により、Ultralytics データパイプラインを設計し、トレーニング資料を準備する際に 混乱を避けることができます。
トークンの性質は、処理されるデータのモダリティ、特に テキスト領域と視覚領域の間で大きく異なる。
自然言語処理(NLP)の分野では、 トークンは大規模言語モデル(LLM)の入力となります。 初期のアプローチでは単語全体を厳密にマッピングしていたが、現代のアーキテクチャではバイトペア符号化(BPE)のようなサブワードアルゴリズムを利用する。この手法により、モデルは稀な単語を意味のある音節に分割して処理でき、語彙サイズと意味的カバレッジのバランスを取れる。例えば「unhappiness」という単語は「un」「happi」「ness」にトークン化される可能性がある。
トークン化の概念は、 ビジョン・トランスフォーマー(ViT)の登場により コンピュータビジョン分野へ拡大した。従来の畳み込みネットワークが スライディングウィンドウでピクセルを処理するのとは異なり、 トランスフォーマーは画像を固定サイズのパッチ(例:16x16ピクセル)のグリッドに分割する。 各パッチは平坦化され、独立した視覚トークンとして扱われる。この手法により、モデルは自己注意機構を用いて画像内の離れた部分間の関係性を理解できるようになる。Google 当初トランスフォーマーをテキスト処理に適用した手法と類似している。
トークンは、無数のアプリケーションにおいて、人間のデータと機械知能の間の架け橋として機能する。
以下のコードスニペットは、 ultralytics パッケージはテキストトークンを用いて誘導する
オブジェクト検出一方、最先端の
YOLO26 高速で固定クラスの推論に推奨されるYOLOアーキテクYOLO、
実行時にクラスをテキストトークンとして定義できる独自の機能を備えています。
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
トークンを理解することは、生成AIと高度な分析の領域をナビゲートする上で基本となる。 チャットボットが流暢に会話できるようにするにしても、 ビジョンシステムが微妙な物体クラスを区別できるようにするにしても、 トークンは機械知能の不可欠な通貨であり、 PyTorchのようなフレームワークで使用されている。 PyTorch や TensorFlowといったフレームワークが使用する機械知能の不可欠な通貨であり続ける。