YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

トークン

AIモデルの構成要素であるトークンが、NLP、コンピュータビジョン、および感情分析や物体検出などのタスクをどのように強化するかを学びます。

人工知能では、トークンはモデルが処理するデータの基本的な離散単位です。AIモデルがテキストまたは画像を分析する前に、生データはこれらの管理可能な部分に分割する必要があります。言語モデルの場合、トークンは単語、単語の一部(サブワード)、または単一の文字である可能性があります。コンピュータビジョン(CV)モデルの場合、トークンは画像の小さく固定サイズのパッチである可能性があります。このデータの分解プロセスは、データ前処理パイプラインの重要な最初のステップであり、複雑な非構造化データをニューラルネットワークが理解できる構造化された形式に変換します。

トークン vs. トークン化

「トークン」と「トークン化」を区別することが不可欠です。

  • トークン: 分解処理の結果として得られる個々の単位。「learn」という単語や16x16ピクセルの画像パッチのように、モデルに入力される実際のデータです。
  • トークン化: この分解を実行する方法またはプロセス。テキストまたは画像をトークンのシーケンスに変換するアクションです。

つまり、トークン化はアクションであり、トークンはそのアクションの結果です。

トークンの種類と重要性

トークンは、AIモデルがデータを認識し解釈する方法の構成要素です。データがトークン化されると、各トークンは通常、埋め込みと呼ばれる数値ベクトル表現にマッピングされます。これらの埋め込みは、意味的意味とコンテキストを捉え、PyTorchTensorFlowなどのフレームワークで構築されたモデルが複雑なパターンを学習できるようにします。

  • 単語およびサブワードトークン: 自然言語処理(NLP)では、単語全体をトークンとして使用すると、語彙が膨大になり、未知の単語に関する問題が発生する可能性があります。Byte Pair Encoding(BPE)WordPieceのようなアルゴリズムを使用したサブワードトークン化は、一般的な解決策です。これにより、まれな単語がより小さく、意味のある部分に分解されます。たとえば、「tokenization」という単語は、「token」と「##ization」の2つのトークンになる可能性があります。BERTGPT-4のようなモデルで使用されているこのアプローチは、モデルが複雑な語彙と文法構造を処理するのに役立ちます。Hugging Face Tokenizersのようなライブラリで最新の実装を調べることができます。

  • ビジュアルトークン: トークンの概念は、テキストを超えてコンピュータビジョンの領域にまで広がっています。Vision Transformer (ViT)のようなモデルでは、画像はパッチのグリッド(例えば、16x16ピクセル)に分割されます。各パッチは平坦化され、「ビジュアルトークン」として扱われます。これにより、自己注意(self-attention)を使用してシーケンス処理に優れた強力なTransformerアーキテクチャが、画像分類物体検出などのタスクを実行できるようになります。このトークンベースのアプローチは、CLIPのような画像とテキストの両方を理解するマルチモーダルモデルの基盤にもなっています。

実際のアプリケーション

トークンの使用は、単純なアプリケーションから複雑な最先端モデルまで、数え切れないほどのAIシステムにとって不可欠です。

  1. 機械翻訳Google翻訳のようなサービスは、トークンに大きく依存しています。文を入力すると、まずテキストトークン列に分解されます。高度なsequence-to-sequenceモデルは、これらのトークンを処理し、それらの集合的な意味を理解し、目的言語で新しいトークン列を生成します。これらの出力トークンは、一貫性のある翻訳文に再構成されます。このプロセスにより、数十の言語にわたるリアルタイム翻訳が可能になります。

  2. 自動運転車自動運転車の分野では、モデルは複雑な視覚シーンをリアルタイムで解釈する必要があります。Ultralytics YOLO11のようなモデルは、カメラフィードを処理して、物体追跡インスタンスセグメンテーションなどのタスクを実行します。YOLOのような従来のCNNベースのモデルは、Transformerと同じように明示的に「トークン」を使用しませんが、検出用に設計されたVision Transformerのバリアントは使用します。これらは、視覚入力をトークン(パッチ)に分割して、歩行者、他の車両、交通信号を高い精度で識別および特定します。この環境のトークン化された理解は、安全なナビゲーションに不可欠です。データ収集からモデルのデプロイまでのワークフロー全体を管理するには、Ultralytics HUBのようなプラットフォームを使用すると効率化できます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました