Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Tokenisation

Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la division du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.

La tokenisation est le processus algorithmique qui consiste à décomposer un flux de données brutes (telles que du texte, des images ou des fichiers audio) en unités plus petites et plus faciles à gérer, appelées tokens. Cette transformation joue un rôle essentiel dans le pipeline de prétraitement des données, en convertissant les entrées non structurées en un format numérique que les systèmes d'intelligence artificielle (IA) peuvent interpréter. Les ordinateurs ne peuvent pas comprendre intrinsèquement le langage humain ou les scènes visuelles ; ils ont besoin de représentations numériques pour effectuer des calculs. En segmentant les données en jetons, les ingénieurs permettent aux réseaux neuronaux de mapper ces unités à des intégrations, des représentations vectorielles qui capturent la signification sémantique . Sans cette étape fondamentale, les modèles d'apprentissage automatique seraient incapables d' identifier des modèles, d'apprendre le contexte ou de traiter les vastes ensembles de données nécessaires à la formation moderne.

Tokenisation vs. Token

Bien que ces termes soient souvent utilisés ensemble dans les discussions sur l'apprentissage profond, il est utile de distinguer la méthode du résultat pour comprendre le flux de travail.

  • Tokenization is the process (the verb). It refers to the specific set of rules or algorithms used to split the data. For text, this might involve using libraries like NLTK or spaCy to determine where one unit ends and another begins.
  • Le jeton est le résultat (le nom). Il s'agit de l'unité individuelle générée par le processus, telle qu'un mot, un sous-mot, un caractère ou un patch de pixels.

Méthodes dans différents domaines

La stratégie de tokenisation varie considérablement en fonction de la modalité des données, influençant la façon dont un modèle de base perçoit le monde.

La tokenisation des textes dans le cadre du NLP

Dans le traitement du langage naturel (NLP), l'objectif est de segment tout en préservant le sens. Les premières méthodes reposaient sur des techniques simples telles que la séparation des mots par des espaces ou la suppression des mots vides. Cependant, les grands modèles linguistiques (LLM) modernes utilisent des algorithmes de sous-mots plus sophistiqués, tels que le le codage par paires d'octets (BPE) ou WordPiece. Ces algorithmes fusionnent de manière itérative les paires de caractères les plus fréquentes, ce qui permet au modèle de traiter les mots rares en les décomposant en sous-composants familiers (par exemple, « smartphones » devient « smart » + « phones »). Cette approche permet d'équilibrer la taille du vocabulaire et la capacité à représenter un langage complexe.

Tokenisation visuelle dans le domaine de la vision par ordinateur

Traditionnellement, les modèles de vision par ordinateur (CV) tels que les CNN traitaient les pixels à l'aide de fenêtres glissantes. L'introduction du Vision Transformer (ViT) a changé ce paradigme en appliquant la tokenisation aux images. L'image est découpée en morceaux de taille fixe (par exemple, 16x16 pixels), qui sont ensuite aplatis et projetés linéairement. Ces « jetons visuels » permettent au modèle d'utiliser des mécanismes d'auto-attention pour apprendre les relations globales à travers l'image, de manière similaire à la façon dont un Transformer traite une phrase.

Applications concrètes

La tokenisation est le moteur silencieux derrière de nombreuses applications d'IA utilisées aujourd'hui dans les environnements de production.

  1. Détection d'objets à vocabulaire ouvert : les architectures avancées telles que YOLO utilisent une approche multimodale. Lorsqu'un utilisateur saisit une commande telle que « personne portant un chapeau rouge », le système tokenise ce texte et le mappe au même espace de caractéristiques que les données visuelles. Cela permet un apprentissage sans apprentissage préalable, ce qui permet au modèle de detect pour lesquels il n'a pas été explicitement entraîné en faisant correspondre les tokens de texte aux caractéristiques visuelles.
  2. Art et design génératifs : dans la génération de texte en image, les invites de l'utilisateur sont tokenisées pour guider le processus de diffusion. Le modèle utilise ces tokens pour conditionner la génération, garantissant ainsi que l' image résultante s'aligne sur les concepts sémantiques (par exemple, « coucher de soleil », « plage ») extraits pendant la phase de tokenisation.

Python : détection basée sur les jetons

L'exemple suivant montre comment l'option ultralytics Le package utilise implicitement la tokenisation de texte dans le workflow YOLO. En définissant des classes personnalisées, le modèle tokenise ces chaînes pour rechercher des objets spécifiques de manière dynamique.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Impact sur les performances du modèle

Le choix de la stratégie de tokenisation a un impact direct sur la précision et l'efficacité computationnelle. Une tokenisation inefficace peut entraîner des erreurs « hors vocabulaire » dans le traitement du langage naturel (NLP) ou la perte de détails fins dans l'analyse d'images. Des frameworks tels que PyTorch et TensorFlow fournissent des outils flexibles pour optimiser cette étape. À mesure que les architectures évoluent, comme le système de pointe YOLO26, un traitement efficace des données garantit que les modèles peuvent exécuter des inférences en temps réel sur divers matériels, des puissants GPU cloud aux appareils périphériques. Les équipes qui gèrent ces flux de données complexes s'appuient souvent sur Ultralytics pour rationaliser l'annotation des ensembles de données, la formation des modèles et leur déploiement.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant