用語集

トークン

AIモデルの構成要素であるトークンが、NLPやコンピュータ・ビジョン、感情分析や物体検出などのタスクにどのような力を発揮するのかを学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能(AI)や機械学習(ML)の領域、特に自然言語処理(NLP)や最近ではコンピュータ・ビジョンの領域では、「トークン」はモデルが処理するデータの最小単位を表します。トークンは、AIモデルが情報を理解し分析するための基本的な構成要素であり、それがテキストであれ、画像であれ、その他の形式のデータであれ、それを理解するために使用される。トークンは、生の入力をアルゴリズムが解釈して学習できる形式に変換するために不可欠であり、多くの複雑なAIタスクの基礎を形成する。

トークンを理解する

トークンは、次のようなプロセスの離散的な出力である。 トークン化.NLPでは、例えばUltralytics YOLO 高速で正確です」のような文章は、個々の単語にトークン化することができる: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"].特定のトークン化戦略によっては、トークンはサブワード単位(例えば、「ウルトラ」や「リティクス」)、あるいは個々の文字になることもある。このような分解によって、連続したテキストや複雑なデータが管理しやすい断片に変換されます。

トークンが重要な理由は、現代の多くのAIシステムで使われているトランスフォーマーのような強力なアーキテクチャを含め、ほとんどのディープラーニング・モデルは、生の非構造化データを直接処理することができないからだ。それらは構造化された、しばしば数値形式の入力を必要とする。トークン化はこの橋渡しをする。データがトークン化されると、各トークンは通常、語彙のIDのような数値表現にマッピングされるか、より一般的には、エンベッディングと呼ばれる密なベクトル表現にマッピングされる。これらのエンベッディングはトークン間の意味的関係を捉え、モデルは学習中にこれを学習する。

トークン化の方法

データをトークンに分解するには、さまざまな方法がある:

  • 単語ベースのトークン化:スペースと句読点に基づいてテキストを分割する。シンプルだが、ボキャブラリーが多く、未知の単語に苦労する。
  • 文字ベースのトークン化:個々の文字をトークンとして使用。あらゆる単語を扱うが、非常に長いシーケンスになる。
  • サブワードのトークン化:単語法と文字法のバランス。Byte Pair Encoding (BPE)WordPieceのような技術は、単語を共通のサブユニットに分割し、大規模な語彙や希少語を効率的に処理する。これらは大規模言語モデル(LLM)で広く使用されている。

トークンと関連概念

トークンを関連用語と区別することは重要である:

  • トークンとトークン化:トークンとは出力単位(例:Ultralytics'や'image patch')であり、トークン化とは生データからこれらの単位を作成するプロセスである。
  • トークンとエンベッディングトークンは入力の離散的な単位である。エンベッディングは通常、トークンを表す密な数値ベクトルで、モデルが理解できる方法でその意味を捉えます。トークンは、モデルに入力される前に、しばしば単語埋め込みや視覚的埋め込みに変換されます。

トークンの用途

トークンは、さまざまなAI領域で基本的な役割を果たす。具体例を2つ紹介しよう:

  1. 機械翻訳: Google 翻訳のようなサービスでは、まず、ある言語の入力文がトークン化される。これらのトークンは、シーケンスツーシーケンスモデル(多くの場合、トランスフォーマー)によって処理され、ターゲット言語の翻訳文を表すトークンが生成されます。トークン化の選択は、翻訳の正確さと流暢さに大きく影響します。GPT-4や BERTのようなLLMは、翻訳、テキスト生成センチメント分析などのタスクにおいて、トークン処理に大きく依存しています。プロンプト・チューニングや プロンプト・チェイニングなどの技術では、入力トークン列を操作してモデルの動作を導きます。

  2. トランスフォーマーによるコンピュータ・ビジョントークンは伝統的にNLPに関連しているが、現在ではVision Transformers(ViT)のような高度なコンピュータビジョンモデルの中心となっている。ViTでは、画像は固定サイズで重なりのないパッチ(例えば16x16ピクセル)に分割される。各パッチは「視覚トークン」として扱われる。これらのトークンは線形に埋め込まれ、Transformerアーキテクチャに供給される。Transformerアーキテクチャは、画像の異なる部分間の関係を分析するために注意メカニズムを使用する。このアプローチは画像分類物体検出画像セグメンテーションなどのタスクに使用される。セグメント何でもモデル(SAM)のようなモデルは、このトークンベースのアプローチを利用する。畳み込みモデルでも Ultralytics YOLOv8や新しい Ultralytics YOLO11では、検出のために使用されるグリッド・セル・システムは、空間トークン化の暗黙の形式と見なすことができる。

トークンを理解することは、AIモデルがどのように情報を解釈し処理するかを把握するための基本である。AIが進化するにつれて、トークンの概念とその作成方法は、多様なデータタイプを扱い、医療画像解析から 自律走行車に至るまで、より洗練されたモデルを構築するための中心であり続けるだろう。Ultralytics HUBのようなプラットフォームは、データセットを管理し、暗黙的または明示的にトークン化されたデータを含むモデルを訓練するためのツールを提供します。

すべて読む