Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Tokenisation

Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la division du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.

La tokenisation est le processus fondamental de décomposition d'un flux de données, tel que du texte brut ou une image, en unités discrètes plus petites appelées tokens. Il s'agit d'une première étape essentielle dans le pipeline de prétraitement des données pour presque tous les systèmes d'Intelligence Artificielle (IA). En convertissant les données non structurées en un format standardisé, la tokenisation permet aux modèles d'apprentissage automatique d'interpréter, d'analyser et d'apprendre efficacement les modèles. Sans cette étape, la plupart des modèles seraient incapables de traiter les données vastes et variées qui alimentent les applications d'IA modernes.

Pertinence et applications concrètes

La tokenisation est cruciale car la plupart des architectures d'apprentissage profond nécessitent une entrée numérique plutôt que du texte brut ou des pixels. En convertissant les données en tokens discrets, nous pouvons ensuite mapper ces tokens à des représentations numériques, telles que des embeddings. Ces vecteurs numériques capturent le sens sémantique et les relations, permettant aux modèles construits avec des frameworks comme PyTorch ou TensorFlow d'apprendre à partir des données. Cette étape fondamentale sous-tend de nombreuses applications d'IA :

  1. Traitement du Langage Naturel (TAL): La tokenisation est au cœur de presque toutes les tâches de TAL.

    • Traduction automatique : Les services comme Google Traduction tokenisent la phrase d'entrée dans la langue source, traitent ces tokens à l'aide de modèles complexes (souvent basés sur l'architecture Transformer), puis génèrent des tokens dans la langue cible, qui sont finalement assemblés dans la phrase traduite.
    • Analyse des sentiments : Pour déterminer si un avis client est positif ou négatif, le texte est d'abord tokenisé. Le modèle analyse ensuite ces jetons pour classer le sentiment général. En savoir plus sur l'analyse des sentiments. Des techniques comme le prompt tuning reposent également sur la manipulation de séquences de jetons. Pour les développeurs, les bibliothèques comme spaCy et NLTK offrent de puissants outils de tokenisation.
  2. Vision par ordinateur (CV) : Bien que traditionnellement associé à la NLP, le concept s'étend à la vision par ordinateur.

    • Transformateurs de vision (ViT) : Dans les modèles comme les Transformateurs de vision (ViT), les images sont divisées en patchs de taille fixe. Comme expliqué dans l'article de recherche ViT original, ces patchs sont traités comme des « jetons visuels » et aplatis en séquences. Ces séquences sont ensuite introduites dans un réseau de Transformateurs, qui utilise des mécanismes comme l'auto-attention pour comprendre les relations entre les différentes parties de l'image. Cela permet des tâches comme la classification d'images et la détection d'objets.
    • Modèles multimodaux : Les modèles tels que CLIP et YOLO-World relient la vision et le langage en traitant à la fois des jetons de texte et des jetons visuels pour effectuer des tâches telles que la détection d'objets zero-shot. De même, les modèles avancés de segmentation d'image comme le Segment Anything Model (SAM) utilisent également des concepts de type jeton.

Méthodes de tokenisation courantes

Il existe différentes stratégies pour la tokenisation des données, chacune ayant ses propres compromis. Le choix de la méthode peut avoir un impact significatif sur les performances du modèle.

  • Tokenisation basée sur les mots : Cette méthode divise le texte en fonction des espaces et de la ponctuation. Bien que simple et intuitive, elle est confrontée à des difficultés avec les grands vocabulaires et les mots « hors vocabulaire » (mots non vus pendant l'entraînement).
  • Tokenisation basée sur les caractères : Cette méthode divise le texte en caractères individuels. Elle résout le problème des mots hors vocabulaire, mais peut entraîner des séquences très longues qui perdent le sens sémantique de haut niveau, ce qui rend plus difficile pour les modèles d'apprendre les relations entre les mots.
  • Tokenisation en sous-mots : Il s'agit d'une approche hybride qui est devenue la norme pour les modèles NLP modernes. Elle décompose les mots en sous-unités plus petites et significatives. Les mots courants restent des jetons uniques, tandis que les mots rares sont divisés en plusieurs jetons de sous-mots. Cette méthode gère efficacement les mots complexes et évite le problème des mots hors vocabulaire. Les algorithmes populaires incluent Byte Pair Encoding (BPE) et WordPiece, qui sont utilisés dans des modèles comme BERT et GPT.

Tokenisation vs. Tokens

Il est important de faire la distinction entre « Tokenisation » et un « Token ».

  • Tokenisation : Fait référence au processus de décomposition des données en unités plus petites. Il s'agit d'une étape de prétraitement fondamentale pour le fonctionnement des modèles de langage.
  • Token : Désigne le résultat du processus de tokenisation : l'unité individuelle (mot, sous-mot, caractère ou portion d'image) que le modèle traite.

Comprendre la tokenisation est fondamental pour saisir comment les modèles d'IA interprètent et apprennent à partir de divers types de données. La gestion des ensembles de données et la formation des modèles impliquent souvent des plateformes comme Ultralytics HUB, qui aident à rationaliser les flux de travail de prétraitement des données et d'entraînement des modèles. À mesure que l'IA évolue, les méthodes de tokenisation continuent de s'adapter, jouant un rôle clé dans la construction de modèles plus sophistiqués pour des tâches allant de la génération de texte à la compréhension visuelle complexe dans des domaines tels que les véhicules autonomes et l'analyse d'images médicales.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers