AIモデルの構成要素であるトークンが、NLPやコンピュータ・ビジョン、感情分析や物体検出などのタスクにどのような力を発揮するのかを学ぶ。
人工知能では、トークンはモデルが処理するデータの基本的な個別単位である。AIモデルがテキストや画像を分析する前に、生データを管理可能な断片に分解する必要がある。言語モデルの場合、トークンは単語、単語の一部(サブワード)、または1文字となる。コンピュータビジョン(CV)モデルの場合、トークンは画像の小さな固定サイズのパッチになります。データを分解するこのプロセスは、複雑な非構造化データをニューラルネットワークが理解できる構造化フォーマットに変換するため、データ前処理パイプラインの重要な最初のステップである。
トークン」と「トークン化」を区別することが重要である。
要するに、トークン化はアクションであり、トークンはそのアクションの結果なのだ。
トークンは、AIモデルがデータを認識し解釈するための構成要素である。データがトークン化されると、各トークンは通常、エンベッディングと呼ばれる数値ベクトル表現にマッピングされる。これらのエンベッディングは意味的な意味と文脈を捉え、PyTorchや TensorFlowのようなフレームワークで構築されたモデルが複雑なパターンを学習することを可能にする。
単語とサブワード・トークン:自然言語処理(NLP)では、単語全体をトークンとして使用すると、語彙が膨大になり、未知の単語の問題が発生する可能性がある。Byte Pair Encoding (BPE)やWordPieceのようなアルゴリズムを使ったサブワード・トークナイゼーションは、一般的なソリューションです。希少な単語を意味のある小さなパーツに分解する。例えば、"tokenization "という単語は2つのトークンになる:「token "と "##ization "である。BERTや GPT-4のようなモデルで使用されているこのアプローチは、モデルが複雑な語彙や文法構造を処理するのに役立ちます。Hugging Face Tokenizersのようなライブラリで最新の実装を調べることができます。
視覚的トークン:トークンの概念は、テキストだけでなく、コンピュータ・ビジョンにも広がっている。ヴィジョン・トランスフォーマー(ViT)のようなモデルでは、画像はパッチのグリッド(例えば16x16ピクセル)に分割される。各パッチは平坦化され、"視覚トークン "として扱われる。これにより、自己注意を用いたシーケンス処理に優れた強力なトランスフォーマーアーキテクチャが、画像分類や 物体検出などのタスクを実行できるようになる。このトークンベースのアプローチは、CLIPのような画像とテキストの両方を理解するマルチモーダルモデルの基礎にもなる。
トークンの使用は、単純なアプリケーションから複雑な最先端モデルまで、数え切れないほどのAIシステムの基本となっている。
機械翻訳:Google翻訳のようなサービスは、トークンに大きく依存している。文章を入力すると、その文章はまず一連のテキスト・トークンに分解される。洗練されたsequence-to-sequenceモデルがこれらのトークンを処理し、それらの集合的な意味を理解し、ターゲット言語のトークンの新しいシーケンスを生成します。これらの出力トークンは、首尾一貫した翻訳文に組み戻されます。このプロセスにより、数十言語にわたるリアルタイム翻訳が可能になる。
自律走行車 自律走行車の分野では、モデルは複雑な視覚シーンをリアルタイムで解釈しなければならない。Ultralytics YOLO11のようなモデルは、カメラのフィードを処理して、オブジェクトの追跡や インスタンスのセグメンテーションなどのタスクを実行する。YOLOのような古典的なCNNベースのモデルは、トランスフォーマーと同じように「トークン」を明示的に使用しませんが、検出用に設計されたビジョン・トランスフォーマーの亜種は使用します。視覚入力をトークン(パッチ)に分解し、歩行者、他の車両、交通信号を高い精度で識別し、位置を特定する。このトークン化された環境の理解は、安全なナビゲーションに不可欠です。データ収集からモデル展開までのワークフロー全体の管理は、Ultralytics HUBのようなプラットフォームを使って合理化することができます。