Token
Apprends comment les tokens servent d'unités fondamentales d'information en IA. Explore leur rôle dans le NLP, la vision par ordinateur et la détection à vocabulaire ouvert avec YOLO26.
Dans l'architecture sophistiquée de l'intelligence artificielle moderne, un jeton représente l'unité atomique fondamentale d'information qu'un modèle traite. Avant qu'un algorithme puisse interpréter une phrase, analyser un script logiciel ou reconnaître des objets dans une image, les données brutes doivent être décomposées en ces éléments discrets et standardisés. Cette segmentation est une étape pivot du prétraitement des données, transformant des entrées non structurées en un format numérique que les réseaux neuronaux peuvent calculer efficacement. Alors que les humains perçoivent le langage comme un flux continu de pensées ou les images comme des scènes visuelles fluides, les modèles computationnels ont besoin de ces blocs de construction granulaires pour effectuer des opérations telles que la reconnaissance de formes et l'analyse sémantique.
Link to this sectionJeton vs Tokenisation#
Pour saisir les mécanismes de l'apprentissage automatique, il est essentiel de distinguer l'unité de données du processus utilisé pour la créer. Cette différenciation évite toute confusion lors de la conception de pipelines de données et de la préparation de matériel d'entraînement sur la Ultralytics Platform.
- Tokenisation : Il s'agit du processus algorithmique (le verbe) consistant à diviser les données brutes en morceaux. Pour le texte, cela peut impliquer l'utilisation de bibliothèques comme le Natural Language Toolkit (NLTK) pour déterminer où une unité se termine et où une autre commence.
- Jeton : Il s'agit du résultat produit (le nom). C'est le morceau de données réel — comme un mot, un sous-mot ou un patch d'image — qui est finalement mappé vers un vecteur numérique appelé embedding.
Link to this sectionLes jetons dans différents domaines de l'IA#
La nature d'un jeton varie considérablement selon la modalité des données traitées, en particulier entre les domaines textuels et visuels.
Link to this sectionJetons textuels dans le TAL#
Dans le domaine du Traitement du Langage Naturel (NLP), les jetons sont les entrées pour les Grands Modèles de Langage (LLM). Les premières approches correspondaient strictement à des mots entiers, mais les architectures modernes utilisent des algorithmes de sous-mots comme le Byte Pair Encoding (BPE). Cette méthode permet aux modèles de gérer les mots rares en les décomposant en syllabes significatives, équilibrant la taille du vocabulaire et la couverture sémantique. Par exemple, le mot « malheur » pourrait être tokenisé en « mal » et « heur ».
Link to this sectionJetons visuels dans la vision par ordinateur#
Le concept de tokenisation s'est étendu à la vision par ordinateur avec l'avènement du Vision Transformer (ViT). Contrairement aux réseaux convolutifs traditionnels qui traitent les pixels dans des fenêtres glissantes, les Transformers divisent une image en une grille de patchs de taille fixe (par ex. 16x16 pixels). Chaque patch est aplati et traité comme un jeton visuel distinct. Cette approche permet au modèle d'utiliser des mécanismes d'auto-attention pour comprendre la relation entre des parties distantes d'une image, de manière similaire à la façon dont Google Research a initialement appliqué les transformers au texte.
Link to this sectionApplications concrètes#
Les jetons agissent comme le pont entre les données humaines et l'intelligence machine dans d'innombrables applications.
-
Détection d'objets à vocabulaire ouvert : Des modèles avancés comme YOLO-World utilisent une approche multimodale où les jetons textuels interagissent avec les caractéristiques visuelles. Tu peux saisir des invites textuelles personnalisées (par ex. « casque bleu »), que le modèle tokenise et fait correspondre aux objets dans l'image. Cela permet l'apprentissage zéro tir (zero-shot learning), permettant la détection d'objets sur lesquels le modèle n'a pas été explicitement entraîné.
-
IA générative : Dans les systèmes de génération de texte comme les chatbots, l'IA fonctionne en prédisant la probabilité du prochain jeton dans une séquence. En sélectionnant de manière itérative le jeton suivant le plus probable, le système construit des phrases et des paragraphes cohérents, alimentant des outils allant du support client automatisé aux assistants virtuels.
Link to this sectionExemple en Python : Utilisation de jetons textuels pour la détection#
L'extrait de code suivant démontre comment le package ultralytics utilise des jetons textuels pour guider la détection d'objets. Bien que le YOLO26 de pointe soit recommandé pour une inférence haute vitesse sur des classes fixes, l'architecture YOLO-World permet uniquement aux utilisateurs de définir des classes sous forme de jetons textuels au moment de l'exécution.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()Comprendre les jetons est fondamental pour naviguer dans le paysage de l'IA générative et de l'analyse avancée. Qu'il s'agisse de permettre à un chatbot de converser avec fluidité ou d'aider un système de vision à distinguer des classes d'objets subtiles, les jetons restent la monnaie essentielle de l'intelligence machine utilisée par des frameworks comme PyTorch et TensorFlow.






