Glossaire

Tokenisation

Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la décomposition d'un texte en tokens améliore les tâches d'intelligence artificielle telles que l'analyse des sentiments et la génération de texte.

La tokenisation est le processus fondamental de décomposition d'un flux de données, tel qu'un texte brut ou une image, en unités plus petites et discrètes appelées tokens. Il s'agit d'une première étape cruciale dans le pipeline de prétraitement des données pour presque tous les systèmes d'intelligence artificielle (IA). En convertissant les données non structurées dans un format standardisé, la tokenisation permet aux modèles d'apprentissage automatique d' interpréter, d'analyser et d'apprendre des modèles de manière efficace. Sans cette étape, la plupart des modèles seraient incapables de traiter les données vastes et variées qui alimentent les applications modernes d'IA.

Pertinence et applications dans le monde réel

La tokenisation est cruciale car la plupart des architectures d'apprentissage profond nécessitent des entrées numériques plutôt que du texte brut ou des pixels. En convertissant les données en tokens discrets, nous pouvons ensuite mettre en correspondance ces tokens avec des représentations numériques, telles que les embeddings. Ces vecteurs numériques capturent le sens sémantique et les relations, permettant aux modèles construits avec des frameworks comme PyTorch ou TensorFlow d'apprendre à partir des données. Cette étape fondamentale est à la base de nombreuses applications d'IA :

  1. Traitement du langage naturel (NLP): La tokenisation est au cœur de presque toutes les tâches de traitement du langage naturel.

    • Traduction automatique : Des services tels que Google Translate identifient la phrase d'entrée dans la langue source, traitent ces jetons à l'aide de modèles complexes (souvent basés sur l'architecture Transformer ), puis génèrent des jetons dans la langue cible, qui sont finalement assemblés pour former la phrase traduite.
    • Analyse des sentiments : Pour déterminer si un avis de client est positif ou négatif, le texte est d'abord codé. Le modèle analyse ensuite ces jetons pour classer le sentiment général. En savoir plus sur l'analyse des sentiments. Les techniques telles que l'ajustement de l'invite reposent également sur la manipulation des séquences de jetons. Pour les développeurs, des bibliothèques telles que spaCy et NLTK offrent de puissants outils de tokenisation.
  2. Vision par ordinateur (VA): Bien que traditionnellement associé au NLP, le concept s'étend à la vision par ordinateur.

    • Transformateurs de vision (ViT) : Dans les modèles tels que Vision Transformers (ViT), les images sont divisées en parcelles de taille fixe. Comme l'explique l'article de recherche original du ViT, ces parcelles sont traitées comme des "jetons visuels" et aplaties en séquences. Ces séquences sont ensuite introduites dans un réseau Transformer, qui utilise des mécanismes tels que l'auto-attention pour comprendre les relations entre les différentes parties de l'image. Cela permet d'effectuer des tâches telles que la classification d'images et la détection d'objets.
    • Modèles multimodaux : Des modèles tels que CLIP et YOLO-World font le lien entre la vision et le langage en traitant à la fois les jetons textuels et les jetons visuels pour effectuer des tâches telles que la détection d'objets en plan zéro. De même, les modèles avancés de segmentation d'images, tels que le modèle Segment Anything (SAM), utilisent également des concepts similaires à ceux des jetons.

Méthodes de tokenisation courantes

Il existe différentes stratégies de symbolisation des données, chacune ayant ses propres avantages. Le choix de la méthode peut avoir un impact significatif sur les performances du modèle.

  • Tokénisation basée sur les mots : Cette méthode divise le texte en fonction des espaces et de la ponctuation. Bien qu'elle soit simple et intuitive, elle se heurte à des difficultés avec les grands vocabulaires et les mots "hors vocabulaire" (mots non vus pendant la formation).
  • La tokenisation basée sur les caractères : Cette méthode décompose le texte en caractères individuels. Elle résout le problème de l'absence de vocabulaire, mais peut donner lieu à de très longues séquences qui perdent leur signification sémantique de haut niveau, ce qui rend plus difficile l'apprentissage des relations entre les mots par les modèles.
  • Tokénisation des sous-mots : Il s'agit d'une approche hybride qui est devenue la norme pour les modèles NLP modernes. Elle divise les mots en sous-unités plus petites et significatives. Les mots courants restent des tokens uniques, tandis que les mots rares sont divisés en plusieurs tokens de sous-mots. Cette méthode permet de traiter efficacement les mots complexes et d'éviter le problème de l'absence de vocabulaire. Les algorithmes les plus répandus sont Byte Pair Encoding (BPE) et WordPiece, qui sont utilisés dans des modèles tels que BERT et GPT.

Tokenisation vs. jetons

Il est important de faire la distinction entre la "tokenisation" et le"jeton".

  • Tokenisation : Il s'agit du processus de décomposition des données en unités plus petites. Il s'agit d'une étape de prétraitement fondamentale pour le fonctionnement des modèles linguistiques.
  • Token : Désigne le résultat du processus de tokénisation - l'unité individuelle (mot, sous-mot, caractère ou bloc d'image) que le modèle traite.

Comprendre la tokenisation est fondamental pour saisir comment les modèles d'IA interprètent et apprennent à partir de divers types de données. La gestion des ensembles de données et des modèles de formation implique souvent des plateformes comme Ultralytics HUB, qui aident à rationaliser le prétraitement des données et les flux de travail de formation des modèles. À mesure que l'IA évolue, les méthodes de tokenisation continuent de s'adapter, jouant un rôle clé dans la construction de modèles plus sophistiqués pour des tâches allant de la génération de texte à la compréhension visuelle complexe dans des domaines tels que les véhicules autonomes et l'analyse d'images médicales.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers