YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

トークン化

NLPとMLにおけるトークン化のパワーをご覧ください。テキストをトークンに分割することで、感情分析やテキスト生成のようなAIタスクがどのように強化されるかを学びます。

トークン化とは、生のテキストや画像などのデータストリームを、トークンと呼ばれるより小さな個別の単位に分解する基本的なプロセスです。これは、ほぼすべての人工知能(AI)システムにおけるデータ前処理パイプラインの重要な最初のステップです。構造化されていないデータを標準化された形式に変換することで、トークン化により、機械学習モデルは効果的にパターンを解釈、分析、学習できます。このステップがなければ、ほとんどのモデルは、最新のAIアプリケーションを支える膨大で多様なデータを処理できません。

関連性と現実世界の応用

トークン化が重要なのは、ほとんどの深層学習アーキテクチャが、生のテキストやピクセルではなく、数値入力を必要とするためです。データを個別のトークンに変換することで、これらのトークンを埋め込みなどの数値表現にマッピングできます。これらの数値ベクトルは、意味的意味と関係性を捉え、PyTorchTensorFlowなどのフレームワークで構築されたモデルがデータから学習できるようにします。この基本的なステップは、多数のAIアプリケーションを支えています。

  1. 自然言語処理(NLP): トークン化は、ほぼすべてのNLPタスクの中心です。

    • 機械翻訳:Google翻訳などのサービスは、ソース言語の入力文をトークン化し、複雑なモデル(多くの場合、Transformerアーキテクチャに基づく)を使用してこれらのトークンを処理し、ターゲット言語でトークンを生成します。最後に、翻訳された文に組み立てられます。
    • センチメント分析: 顧客レビューが肯定的か否定的かを判断するために、まずテキストをトークン化します。次に、モデルはこれらのトークンを分析して、全体的なセンチメントを分類します。センチメント分析の詳細はこちらプロンプトチューニングのような手法も、トークンシーケンスの操作に依存しています。開発者向けには、spaCyNLTKのようなライブラリが、強力なトークン化ツールを提供します。
  2. コンピュータビジョン(CV): 伝統的にNLPに関連付けられていますが、この概念はコンピュータビジョンにも拡張されます。

    • Vision Transformers(ViT): Vision Transformers(ViT)のようなモデルでは、画像は固定サイズのパッチに分割されます。オリジナルのViTの研究論文で説明されているように、これらのパッチは「ビジュアルトークン」として扱われ、シーケンスに平坦化されます。これらのシーケンスは、Transformerネットワークに供給され、自己注意(self-attention)のようなメカニズムを使用して、異なる画像部分間の関係を理解します。これにより、画像分類物体検出のようなタスクが可能になります。
    • マルチモーダルモデル: CLIPYOLO-Worldのようなモデルは、テキストトークンとビジュアルトークンの両方を処理して、ゼロショット物体検出のようなタスクを実行することにより、ビジョンと言語を橋渡しします。同様に、画像セグメンテーションの高度なモデルであるSegment Anything Model(SAM)も、トークンのような概念を利用しています。

一般的なトークン化手法

データをトークン化するためのさまざまな戦略が存在し、それぞれに独自のトレードオフがあります。方法の選択は、モデルのパフォーマンスに大きな影響を与える可能性があります。

  • 単語ベースのトークン化: この方法は、スペースと句読点に基づいてテキストを分割します。シンプルで直感的ですが、大規模な語彙や「語彙外」の単語(トレーニング中に見られなかった単語)には対応できません。
  • 文字ベースのトークン化: この方法では、テキストを個々の文字に分割します。語彙外の問題は解決されますが、非常に長いシーケンスになる可能性があり、高レベルの意味的意味が失われ、モデルが単語間の関係を学習することが難しくなります。
  • サブワードトークン化: これは、最新のNLPモデルの標準となっているハイブリッドアプローチです。単語をより小さく、意味のあるサブユニットに分割します。一般的な単語は単一のトークンとして残り、まれな単語は複数のサブワードトークンに分割されます。この方法は、複雑な単語を効率的に処理し、語彙外の問題を回避します。一般的なアルゴリズムには、Byte Pair Encoding(BPE)WordPieceなどがあり、BERTGPTなどのモデルで使用されています。

トークン化 vs. トークン

「トークン化」と「トークン」を区別することが重要です。

  • トークン化: データをより小さな単位に分解するプロセスを指します。言語モデルの仕組みにとって不可欠な前処理ステップです。
  • トークン: トークン化プロセスの結果を指します。モデルが処理する個々のユニット(単語、サブワード、文字、または画像パッチ)です。

トークン化を理解することは、AIモデルが多様なデータ型をどのように解釈し、学習するかを把握する上で不可欠です。データセットの管理とモデルのトレーニングには、Ultralytics HUBのようなプラットフォームがよく利用され、データの前処理モデルのトレーニングワークフローを効率化するのに役立ちます。AIの進化に伴い、トークン化の手法は適応し続け、テキスト生成から自動運転車医療画像解析などの分野における複雑な視覚理解まで、幅広いタスクに対応する、より高度なモデルの構築において重要な役割を果たしています。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました