Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la division du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.
La tokenisation est le processus algorithmique qui consiste à décomposer un flux de données brutes (telles que du texte, des images ou des fichiers audio) en unités plus petites et plus faciles à gérer, appelées tokens. Cette transformation joue un rôle essentiel dans le pipeline de prétraitement des données, en convertissant les entrées non structurées en un format numérique que les systèmes d'intelligence artificielle (IA) peuvent interpréter. Les ordinateurs ne peuvent pas comprendre intrinsèquement le langage humain ou les scènes visuelles ; ils ont besoin de représentations numériques pour effectuer des calculs. En segmentant les données en jetons, les ingénieurs permettent aux réseaux neuronaux de mapper ces unités à des intégrations, des représentations vectorielles qui capturent la signification sémantique . Sans cette étape fondamentale, les modèles d'apprentissage automatique seraient incapables d' identifier des modèles, d'apprendre le contexte ou de traiter les vastes ensembles de données nécessaires à la formation moderne.
Bien que ces termes soient souvent utilisés ensemble dans les discussions sur l'apprentissage profond, il est utile de distinguer la méthode du résultat pour comprendre le flux de travail.
La stratégie de tokenisation varie considérablement en fonction de la modalité des données, influençant la façon dont un modèle de base perçoit le monde.
Dans le traitement du langage naturel (NLP), l'objectif est de segment tout en préservant le sens. Les premières méthodes reposaient sur des techniques simples telles que la séparation des mots par des espaces ou la suppression des mots vides. Cependant, les grands modèles linguistiques (LLM) modernes utilisent des algorithmes de sous-mots plus sophistiqués, tels que le le codage par paires d'octets (BPE) ou WordPiece. Ces algorithmes fusionnent de manière itérative les paires de caractères les plus fréquentes, ce qui permet au modèle de traiter les mots rares en les décomposant en sous-composants familiers (par exemple, « smartphones » devient « smart » + « phones »). Cette approche permet d'équilibrer la taille du vocabulaire et la capacité à représenter un langage complexe.
Traditionnellement, les modèles de vision par ordinateur (CV) tels que les CNN traitaient les pixels à l'aide de fenêtres glissantes. L'introduction du Vision Transformer (ViT) a changé ce paradigme en appliquant la tokenisation aux images. L'image est découpée en morceaux de taille fixe (par exemple, 16x16 pixels), qui sont ensuite aplatis et projetés linéairement. Ces « jetons visuels » permettent au modèle d'utiliser des mécanismes d'auto-attention pour apprendre les relations globales à travers l'image, de manière similaire à la façon dont un Transformer traite une phrase.
La tokenisation est le moteur silencieux derrière de nombreuses applications d'IA utilisées aujourd'hui dans les environnements de production.
L'exemple suivant montre comment l'option ultralytics Le package utilise implicitement la tokenisation de texte
dans le workflow YOLO. En définissant des classes personnalisées, le modèle tokenise ces chaînes pour rechercher des objets spécifiques
de manière dynamique.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
Le choix de la stratégie de tokenisation a un impact direct sur la précision et l'efficacité computationnelle. Une tokenisation inefficace peut entraîner des erreurs « hors vocabulaire » dans le traitement du langage naturel (NLP) ou la perte de détails fins dans l'analyse d'images. Des frameworks tels que PyTorch et TensorFlow fournissent des outils flexibles pour optimiser cette étape. À mesure que les architectures évoluent, comme le système de pointe YOLO26, un traitement efficace des données garantit que les modèles peuvent exécuter des inférences en temps réel sur divers matériels, des puissants GPU cloud aux appareils périphériques. Les équipes qui gèrent ces flux de données complexes s'appuient souvent sur Ultralytics pour rationaliser l'annotation des ensembles de données, la formation des modèles et leur déploiement.