Glossaire

Jeton

Découvrez comment les tokens, les éléments constitutifs des modèles d'intelligence artificielle, alimentent le NLP, la vision par ordinateur et des tâches telles que l'analyse des sentiments et la détection d'objets.

En intelligence artificielle, un jeton est l'unité fondamentale et discrète de données qu'un modèle traite. Avant qu'un modèle d'intelligence artificielle puisse analyser un texte ou une image, les données brutes doivent être décomposées en éléments gérables. Pour un modèle linguistique, un jeton peut être un mot, une partie d'un mot (un sous-mot) ou un seul caractère. Pour un modèle de vision par ordinateur, un jeton peut être une petite zone de taille fixe d'une image. Ce processus de décomposition des données est une première étape essentielle du pipeline de prétraitement des données, car il convertit des données complexes et non structurées en un format structuré que les réseaux neuronaux peuvent comprendre.

Token ou tokenisation

Il est essentiel de faire la distinction entre un "jeton" et la"tokenisation".

  • Token: L'unité individuelle qui résulte du processus de décomposition. Il s'agit de l'élément de données réel - comme le mot "apprendre" ou une image de 16x16 pixels - qui est introduit dans le modèle.
  • Tokenisation: La méthode ou le processus permettant d'effectuer cette décomposition. C'est l'action de convertir une séquence de texte ou une image en une séquence de jetons.

En bref, la tokenisation est l'action, et un jeton est le résultat de cette action.

Types de jetons et leur importance

Les jetons sont les éléments constitutifs de la perception et de l'interprétation des données par les modèles d'intelligence artificielle. Une fois les données tokenisées, chaque token est généralement mis en correspondance avec une représentation vectorielle numérique appelée embedding. Ces embeddings capturent la signification sémantique et le contexte, permettant aux modèles construits avec des frameworks tels que PyTorch ou TensorFlow d'apprendre des modèles complexes.

  • Tokens de mots et de sous-mots: Dans le traitement du langage naturel (NLP), l'utilisation de mots entiers comme tokens peut conduire à des vocabulaires énormes et à des problèmes avec des mots inconnus. La tokénisation des sous-mots, à l'aide d'algorithmes tels que Byte Pair Encoding (BPE) ou WordPiece, est une solution courante. Elle décompose les mots rares en parties plus petites et significatives. Par exemple, le mot "tokenization" peut devenir deux jetons : "token" et "##ization". Cette approche, utilisée par des modèles tels que BERT et GPT-4, aide le modèle à gérer un vocabulaire et des structures grammaticales complexes. Vous pouvez explorer les implémentations modernes dans des bibliothèques telles que Hugging Face Tokenizers.

  • Jetons visuels: Le concept de jetons s'étend au-delà du texte, dans le domaine de la vision par ordinateur. Dans des modèles tels que le Vision Transformer (ViT), une image est divisée en une grille de parcelles (par exemple, 16x16 pixels). Chaque parcelle est aplatie et traitée comme un "jeton visuel". Cela permet aux puissantes architectures Transformer, qui excellent dans le traitement des séquences en utilisant l'auto-attention, d'effectuer des tâches telles que la classification d'images et la détection d'objets. Cette approche basée sur les jetons est également fondamentale pour les modèles multimodaux qui comprennent à la fois les images et le texte, tels que CLIP.

Applications dans le monde réel

L'utilisation de jetons est fondamentale pour d'innombrables systèmes d'IA, qu'il s'agisse d'applications simples ou de modèles complexes à la pointe de la technologie.

  1. Traduction automatique: Les services tels que Google Translate s'appuient fortement sur les jetons. Lorsque vous saisissez une phrase, elle est d'abord décomposée en une séquence de jetons de texte. Un modèle sophistiqué de séquence à séquence traite ces jetons, comprend leur signification collective et génère une nouvelle séquence de jetons dans la langue cible. Ces jetons de sortie sont ensuite réassemblés en une phrase traduite cohérente. Ce processus permet une traduction en temps réel dans des dizaines de langues.

  2. Véhicules autonomes: Dans le domaine des véhicules autonomes, les modèles doivent interpréter des scènes visuelles complexes en temps réel. Un modèle comme Ultralytics YOLO11 traite les flux des caméras pour effectuer des tâches telles que le suivi d'objets et la segmentation d'instances. Alors que les modèles classiques basés sur le CNN comme YOLO n'utilisent pas explicitement les "jetons" de la même manière que les transformateurs, les variantes de transformateurs de vision conçues pour la détection le font. Ils décomposent l'entrée visuelle en jetons (patchs) afin d'identifier et de localiser les piétons, les autres véhicules et les feux de signalisation avec une grande précision. Cette compréhension de l'environnement par jetons est cruciale pour la sécurité de la navigation. La gestion de l'ensemble du flux de travail, de la collecte des données au déploiement du modèle, peut être rationalisée à l'aide de plateformes comme Ultralytics HUB.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers