Découvrez comment les tokens, les éléments constitutifs des modèles d'IA, alimentent le NLP, la vision par ordinateur et des tâches telles que l'analyse des sentiments et la détection d'objets.
En intelligence artificielle, un token est l'unité de données fondamentale et discrète qu'un modèle traite. Avant qu'un modèle d'IA puisse analyser un texte ou une image, les données brutes doivent être décomposées en ces éléments gérables. Pour un modèle de langage, un token peut être un mot, une partie de mot (un sous-mot) ou un simple caractère. Pour un modèle de vision par ordinateur (CV), un token peut être un petit patch d'image de taille fixe. Ce processus de décomposition des données est une première étape essentielle dans le pipeline de prétraitement des données, car il convertit des données complexes et non structurées en un format structuré que les réseaux neuronaux peuvent comprendre.
Il est essentiel de distinguer un "token" de la "tokenisation".
En bref, la tokenisation est l'action, et un token est le résultat de cette action.
Les tokens sont les éléments constitutifs de la façon dont les modèles d'IA perçoivent et interprètent les données. Une fois les données tokenisées, chaque token est généralement mappé à une représentation vectorielle numérique appelée embedding. Ces embeddings capturent le sens sémantique et le contexte, permettant aux modèles construits avec des frameworks comme PyTorch ou TensorFlow d'apprendre des modèles complexes.
Tokens de mots et de sous-mots: En traitement du langage naturel (NLP), l'utilisation de mots entiers comme tokens peut entraîner d'énormes vocabulaires et des problèmes avec les mots inconnus. La tokenisation de sous-mots, à l'aide d'algorithmes tels que Byte Pair Encoding (BPE) ou WordPiece, est une solution courante. Elle décompose les mots rares en parties plus petites et significatives. Par exemple, le mot « tokenisation » pourrait devenir deux tokens : « token » et « ##isation ». Cette approche, utilisée par des modèles comme BERT et GPT-4, aide le modèle à gérer un vocabulaire et des structures grammaticales complexes. Vous pouvez explorer les implémentations modernes dans des bibliothèques comme Hugging Face Tokenizers.
Jetons visuels : Le concept de jetons s'étend au-delà du texte à la vision par ordinateur. Dans les modèles comme le Vision Transformer (ViT), une image est divisée en une grille de patchs (par exemple, 16 x 16 pixels). Chaque patch est aplati et traité comme un « jeton visuel ». Cela permet aux puissantes architectures de transformateurs, qui excellent dans le traitement des séquences à l'aide de l'auto-attention, d'effectuer des tâches telles que la classification d'images et la détection d'objets. Cette approche basée sur les jetons est également fondamentale pour les modèles multimodaux qui comprennent à la fois les images et le texte, tels que CLIP.
L'utilisation de jetons est fondamentale pour d'innombrables systèmes d'IA, des applications simples aux modèles complexes et de pointe.
Traduction automatique : Les services comme Google Traduction reposent fortement sur les jetons. Lorsque vous entrez une phrase, elle est d'abord décomposée en une séquence de jetons de texte. Un modèle séquence à séquence sophistiqué traite ces jetons, comprend leur signification collective et génère une nouvelle séquence de jetons dans la langue cible. Ces jetons de sortie sont ensuite réassemblés en une phrase traduite cohérente. Ce processus permet une traduction en temps réel dans des dizaines de langues.
Véhicules autonomes : Dans le domaine des véhicules autonomes, les modèles doivent interpréter des scènes visuelles complexes en temps réel. Un modèle comme Ultralytics YOLO11 traite les flux de caméras pour effectuer des tâches telles que le suivi d'objets et la segmentation d'instance. Bien que les modèles classiques basés sur CNN comme YOLO n'utilisent pas explicitement de "jetons" de la même manière que les Transformers, les variantes de vision transformer conçues pour la détection le font. Ils décomposent l'entrée visuelle en jetons (patches) pour identifier et localiser les piétons, les autres véhicules et les panneaux de signalisation avec une grande précision. Cette compréhension tokenisée de l'environnement est cruciale pour une navigation sûre. La gestion de l'ensemble du flux de travail, de la collecte de données au déploiement du modèle, peut être rationalisée à l'aide de plateformes comme Ultralytics HUB.