AIモデルの構成要素であるトークンが、NLPやコンピュータ・ビジョン、感情分析や物体検出などのタスクにどのような力を発揮するのかを学ぶ。
人工知能(AI)や機械学習(ML)の領域、特に自然言語処理(NLP)や最近ではコンピュータ・ビジョンの領域では、「トークン」はモデルが処理するデータの最小単位を表します。トークンは、AIモデルが情報を理解し分析するための基本的な構成要素であり、それがテキストであれ、画像であれ、その他の形式のデータであれ、それを理解するために使用される。トークンは、生の入力をアルゴリズムが解釈して学習できる形式に変換するために不可欠であり、多くの複雑なAIタスクの基礎を形成する。
トークンは、次のようなプロセスの離散的な出力である。 トークン化.NLPでは、例えばUltralytics YOLO 高速で正確です」のような文章は、個々の単語にトークン化することができる: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]
.特定のトークン化戦略によっては、トークンはサブワード単位(例えば、「ウルトラ」や「リティクス」)、あるいは個々の文字になることもある。このような分解によって、連続したテキストや複雑なデータが管理しやすい断片に変換されます。
トークンが重要な理由は、現代の多くのAIシステムで使われているトランスフォーマーのような強力なアーキテクチャを含め、ほとんどのディープラーニング・モデルは、生の非構造化データを直接処理することができないからだ。それらは構造化された、しばしば数値形式の入力を必要とする。トークン化はこの橋渡しをする。データがトークン化されると、各トークンは通常、語彙のIDのような数値表現にマッピングされるか、より一般的には、エンベッディングと呼ばれる密なベクトル表現にマッピングされる。これらのエンベッディングはトークン間の意味的関係を捉え、モデルは学習中にこれを学習する。
データをトークンに分解するには、さまざまな方法がある:
トークンを関連用語と区別することは重要である:
トークンは、さまざまなAI領域で基本的な役割を果たす。具体例を2つ紹介しよう:
機械翻訳: Google 翻訳のようなサービスでは、まず、ある言語の入力文がトークン化される。これらのトークンは、シーケンスツーシーケンスモデル(多くの場合、トランスフォーマー)によって処理され、ターゲット言語の翻訳文を表すトークンが生成されます。トークン化の選択は、翻訳の正確さと流暢さに大きく影響します。GPT-4や BERTのようなLLMは、翻訳、テキスト生成、センチメント分析などのタスクにおいて、トークン処理に大きく依存しています。プロンプト・チューニングや プロンプト・チェイニングなどの技術では、入力トークン列を操作してモデルの動作を導きます。
トランスフォーマーによるコンピュータ・ビジョントークンは伝統的にNLPに関連しているが、現在ではVision Transformers(ViT)のような高度なコンピュータビジョンモデルの中心となっている。ViTでは、画像は固定サイズで重なりのないパッチ(例えば16x16ピクセル)に分割される。各パッチは「視覚トークン」として扱われる。これらのトークンは線形に埋め込まれ、Transformerアーキテクチャに供給される。Transformerアーキテクチャは、画像の異なる部分間の関係を分析するために注意メカニズムを使用する。このアプローチは画像分類、物体検出、画像セグメンテーションなどのタスクに使用される。セグメント何でもモデル(SAM)のようなモデルは、このトークンベースのアプローチを利用する。畳み込みモデルでも Ultralytics YOLOv8や新しい Ultralytics YOLO11では、検出のために使用されるグリッド・セル・システムは、空間トークン化の暗黙の形式と見なすことができる。
トークンを理解することは、AIモデルがどのように情報を解釈し処理するかを把握するための基本である。AIが進化するにつれて、トークンの概念とその作成方法は、多様なデータタイプを扱い、医療画像解析から 自律走行車に至るまで、より洗練されたモデルを構築するための中心であり続けるだろう。Ultralytics HUBのようなプラットフォームは、データセットを管理し、暗黙的または明示的にトークン化されたデータを含むモデルを訓練するためのツールを提供します。