Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Token

Découvrez comment les tokens constituent les unités fondamentales d'information dans l'IA. Explorez leur rôle dans le traitement du langage naturel, la vision par ordinateur et la détection à vocabulaire ouvert avec YOLO26.

Dans l'architecture sophistiquée de l'intelligence artificielle moderne , un jeton représente l'unité atomique fondamentale d'information traitée par un modèle. Avant qu'un algorithme puisse interpréter une phrase, analyser un script logiciel ou reconnaître des objets dans une image, les données brutes d'entrée doivent être décomposées en ces éléments discrets et standardisés. Cette segmentation est une étape cruciale du prétraitement des données, qui transforme des entrées non structurées en un format numérique que les réseaux neuronaux peuvent calculer efficacement. Alors que les humains perçoivent le langage comme un flux continu de pensées ou les images comme des scènes visuelles homogènes, les modèles computationnels ont besoin de ces éléments constitutifs granulaires pour effectuer des opérations telles que la reconnaissance de formes et l'analyse sémantique.

Token vs. Tokenisation

Pour comprendre les mécanismes de l'apprentissage automatique, il est essentiel de faire la distinction entre l'unité de données et le processus utilisé pour la créer. Cette différenciation évite toute confusion lors de la conception de pipelines de données et de la préparation de matériel de formation sur Ultralytics .

  • Tokenisation: Il s'agit du processus algorithmique (le verbe) qui consiste à diviser les données brutes en morceaux. Pour le texte, cela peut impliquer l'utilisation de bibliothèques telles que le Natural Language Toolkit (NLTK) afin de déterminer où une unité se termine et où une autre commence.
  • Jeton : Il s'agit du résultat obtenu (le nom). Il s'agit du morceau de données réel, tel qu'un mot, un sous-mot ou un fragment d'image, qui est finalement mappé à un vecteur numérique appelé « embedding ».

Jetons dans différents domaines de l'IA

La nature d'un jeton varie considérablement en fonction de la modalité des données traitées, en particulier entre les domaines textuel et visuel.

Les jetons de texte dans le NLP

Dans le domaine du traitement du langage naturel (NLP), les tokens sont les entrées des grands modèles linguistiques (LLM). Les premières approches correspondaient strictement à des mots entiers, mais les architectures modernes utilisent des algorithmes de sous-mots tels que le codage par paires d'octets (BPE). Cette méthode permet aux modèles de traiter les mots rares en les décomposant en syllabes significatives, ce qui permet d'équilibrer la taille du vocabulaire et la couverture sémantique. Par exemple, le mot « unhappiness » (malheur) peut être tokenisé en « un », « happi » et « ness ».

Jetons visuels dans le domaine de la vision par ordinateur

Le concept de tokenisation s'est étendu à la vision par ordinateur avec l'avènement du Vision Transformer (ViT). Contrairement aux réseaux convolutifs traditionnels qui traitent les pixels dans des fenêtres glissantes, les Transformers divisent une image en une grille de patchs de taille fixe (par exemple, 16x16 pixels). Chaque patch est aplati et traité comme un jeton visuel distinct. Cette approche permet au modèle d'utiliser des mécanismes d'auto-attention pour comprendre la relation entre des parties éloignées d'une image, de manière similaire à la façon dont Google a initialement appliqué les transformateurs au texte.

Applications concrètes

Les jetons font office de passerelle entre les données humaines et l'intelligence artificielle dans d'innombrables applications.

  1. Détection d'objets à vocabulaire ouvert : les modèles avancés tels que YOLO utilisent une approche multimodale dans laquelle les jetons de texte interagissent avec les caractéristiques visuelles. L'utilisateur peut saisir des invites de texte personnalisées (par exemple, « casque bleu »), que le modèle tokenise et compare aux objets présents dans l'image. Cela permet un apprentissage sans tir, permettant la détection d' objets pour lesquels le modèle n'a pas été explicitement entraîné.
  2. IA générative : dans les systèmes de génération de texte tels que les chatbots, l'IA fonctionne en prédisant la probabilité du prochain token dans une séquence. En sélectionnant de manière itérative le token suivant le plus probable , le système construit des phrases et des paragraphes cohérents, alimentant des outils allant du service client automatisé aux assistants virtuels.

Python : utilisation de jetons de texte pour la détection

L'extrait de code suivant montre comment le ultralytics Le package utilise des jetons de texte pour guider détection d'objets. Alors que la technologie de pointe YOLO26 est recommandée pour l'inférence à grande vitesse et à classe fixe, l'architecture YOLO permet de manière unique aux utilisateurs de définir des classes sous forme de jetons de texte lors de l'exécution.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

Comprendre les jetons est essentiel pour naviguer dans le paysage de l' IA générative et de l'analyse avancée. Qu'il s'agisse de permettre à un chatbot de converser couramment ou d'aider un système de vision à distinguer des classes d'objets subtiles, les jetons restent la monnaie essentielle de l'intelligence artificielle utilisée par des cadres tels que PyTorch et TensorFlow.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant