用語集

トークン

AIモデルの構成要素であるトークンが、NLPやコンピュータ・ビジョン、感情分析や物体検出などのタスクにどのような力を発揮するのかを学ぶ。

人工知能では、トークンはモデルが処理するデータの基本的な個別単位である。AIモデルがテキストや画像を分析する前に、生データを管理可能な断片に分解する必要がある。言語モデルの場合、トークンは単語、単語の一部(サブワード)、または1文字となる。コンピュータビジョン(CV)モデルの場合、トークンは画像の小さな固定サイズのパッチになります。データを分解するこのプロセスは、複雑な非構造化データをニューラルネットワークが理解できる構造化フォーマットに変換するため、データ前処理パイプラインの重要な最初のステップである。

トークンとトークン化

トークン」と「トークン化」を区別することが重要である。

  • トークン:分解プロセスから得られる個々の単位。learn "という単語や16x16ピクセルの画像パッチのような、モデルに入力される実際のデータの一部である。
  • トークン化:この分解を行う方法またはプロセス。テキストや画像のシーケンスをトークンのシーケンスに変換すること。

要するに、トークン化はアクションであり、トークンはそのアクションの結果なのだ。

トークンの種類とその重要性

トークンは、AIモデルがデータを認識し解釈するための構成要素である。データがトークン化されると、各トークンは通常、エンベッディングと呼ばれる数値ベクトル表現にマッピングされる。これらのエンベッディングは意味的な意味と文脈を捉え、PyTorchや TensorFlowのようなフレームワークで構築されたモデルが複雑なパターンを学習することを可能にする。

  • 単語とサブワード・トークン自然言語処理(NLP)では、単語全体をトークンとして使用すると、語彙が膨大になり、未知の単語の問題が発生する可能性がある。Byte Pair Encoding (BPE)WordPieceのようなアルゴリズムを使ったサブワード・トークナイゼーションは、一般的なソリューションです。希少な単語を意味のある小さなパーツに分解する。例えば、"tokenization "という単語は2つのトークンになる:「token "と "##ization "である。BERTや GPT-4のようなモデルで使用されているこのアプローチは、モデルが複雑な語彙や文法構造を処理するのに役立ちます。Hugging Face Tokenizersのようなライブラリで最新の実装を調べることができます。

  • 視覚的トークン:トークンの概念は、テキストだけでなく、コンピュータ・ビジョンにも広がっている。ヴィジョン・トランスフォーマー(ViT)のようなモデルでは、画像はパッチのグリッド(例えば16x16ピクセル)に分割される。各パッチは平坦化され、"視覚トークン "として扱われる。これにより、自己注意を用いたシーケンス処理に優れた強力なトランスフォーマーアーキテクチャが画像分類や 物体検出などのタスクを実行できるようになる。このトークンベースのアプローチは、CLIPのような画像とテキストの両方を理解するマルチモーダルモデルの基礎にもなる。

実世界での応用

トークンの使用は、単純なアプリケーションから複雑な最先端モデルまで、数え切れないほどのAIシステムの基本となっている。

  1. 機械翻訳Google翻訳のようなサービスは、トークンに大きく依存している。文章を入力すると、その文章はまず一連のテキスト・トークンに分解される。洗練されたsequence-to-sequenceモデルがこれらのトークンを処理し、それらの集合的な意味を理解し、ターゲット言語のトークンの新しいシーケンスを生成します。これらの出力トークンは、首尾一貫した翻訳文に組み戻されます。このプロセスにより、数十言語にわたるリアルタイム翻訳が可能になる。

  2. 自律走行車 自律走行車の分野では、モデルは複雑な視覚シーンをリアルタイムで解釈しなければならない。Ultralytics YOLO11のようなモデルは、カメラのフィードを処理して、オブジェクトの追跡や インスタンスのセグメンテーションなどのタスクを実行する。YOLOのような古典的なCNNベースのモデルは、トランスフォーマーと同じように「トークン」を明示的に使用しませんが、検出用に設計されたビジョン・トランスフォーマーの亜種は使用します。視覚入力をトークン(パッチ)に分解し、歩行者、他の車両、交通信号を高い精度で識別し、位置を特定する。このトークン化された環境の理解は、安全なナビゲーションに不可欠です。データ収集からモデル展開までのワークフロー全体の管理は、Ultralytics HUBのようなプラットフォームを使って合理化することができます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク