Glossaire

Tokenisation

Découvre la puissance de la tokenisation dans le NLP et le ML ! Apprends comment la décomposition du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La tokenisation est une étape de prétraitement fondamentale dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML), particulièrement vitale dans le traitement du langage naturel (NLP). Elle consiste à décomposer des séquences de texte ou d'autres données en unités plus petites et gérables appelées tokens. Ces jetons servent d'éléments de base que les algorithmes utilisent pour comprendre et traiter les informations, en transformant les données brutes telles que les phrases ou les paragraphes en un format adapté à l'analyse par les modèles d'apprentissage automatique. Ce processus est essentiel car les ordinateurs ne comprennent pas les textes de la même manière que les humains ; ils ont besoin de données structurées en éléments distincts.

Comment fonctionne la tokenisation

L'idée centrale de la tokenisation est la segmentation. Pour les données textuelles, il s'agit généralement de diviser les phrases en mots, en sous-mots ou même en caractères individuels en fonction de règles prédéfinies ou de modèles appris. Par exemple, la phraseUltralytics YOLO11 est puissant" peut être divisée en mots individuels : ["Ultralytics", "YOLO11", "is", "powerful"]. La méthode spécifique choisie dépend fortement de la tâche et de l'architecture du modèle utilisé.

Les techniques courantes consistent à diviser le texte en fonction des espaces blancs et de la ponctuation. Cependant, des méthodes plus avancées sont souvent nécessaires, notamment pour traiter des vocabulaires importants ou des mots qui n'ont pas été vus pendant la formation. Des techniques telles que Byte Pair Encoding (BPE) ou WordPiece divisent les mots en unités de sous-mots plus petites. Elles sont fréquemment utilisées dans les grands modèles linguistiques (LLM) tels que BERT et GPT-4 pour gérer efficacement la taille du vocabulaire et les mots inconnus. Le choix de la stratégie de symbolisation peut avoir un impact significatif sur les performances du modèle et l'efficacité des calculs.

Pertinence et applications dans le monde réel

La tokenisation est cruciale car la plupart des modèles ML, en particulier les architectures d'apprentissage profond, nécessitent des entrées numériques plutôt que du texte brut. En convertissant le texte en tokens discrets, nous pouvons ensuite mapper ces tokens à des représentations numériques, telles que les embeddings. Ces vecteurs numériques capturent le sens sémantique et les relations, ce qui permet aux modèles construits avec des frameworks comme PyTorch ou TensorFlow d'apprendre des modèles à partir des données. Cette étape fondamentale est à la base de nombreuses applications de l'IA :

  1. Traitement du langage naturel (NLP) : La tokenisation est au cœur de presque toutes les tâches de traitement du langage naturel.

    • Traduction automatique : Les services comme Google Translate donnent des jetons à la phrase d'entrée dans la langue source, traitent ces jetons à l'aide de modèles complexes (souvent basés sur l'architecture Transformer ), puis génèrent des jetons dans la langue cible, qui sont finalement assemblés dans la phrase traduite.
    • Analyse des sentiments : Pour déterminer si un avis de client est positif ou négatif, le texte est d'abord symbolisé. Le modèle analyse ensuite ces jetons (et leurs représentations numériques) pour classer le sentiment général. En savoir plus sur l'analyse des sentiments. Les techniques telles que le réglage de l'invite s 'appuient également sur la manipulation des séquences de jetons.
  2. Vision par ordinateur (VA) : Bien que traditionnellement associé à la PNL, le concept s'étend à la vision par ordinateur (VA).

    • Transformateurs de vision (ViT) : Dans les modèles tels que Vision Transformers (ViT), les images sont divisées en parcelles de taille fixe. Ces parcelles sont traitées comme des "jetons visuels" et aplaties en séquences. Ces séquences sont ensuite introduites dans un réseau Transformer, qui utilise des mécanismes tels que l'auto-attention pour comprendre les relations entre les différentes parties de l'image, de la même manière que les jetons de texte sont traités dans le NLP. Cela permet d'effectuer des tâches telles que la classification d'images et la détection d'objets. Des modèles tels que le Segment Anything Model (SAM) utilisent également des concepts similaires à des jetons pour la segmentation d'images.
    • Modèles multimodaux : Les modèles tels que CLIP et YOLO font le lien entre la vision et le langage en traitant à la fois les jetons textuels et les jetons visuels (ou les caractéristiques de l'image) pour effectuer des tâches telles que la détection d'objets sans prise de vue basée sur des descriptions textuelles.

Tokenisation vs. jetons

Il est important de faire la distinction entre la "tokenisation" et un"jeton".

  • Tokenisation : Se réfère au processus de décomposition des données en unités plus petites. Il s'agit d'une étape de prétraitement.
  • Token : Désigne le résultat du processus de tokenisation - l'unité individuelle (mot, sous-mot, caractère ou patch d'image) que le modèle traite.

Comprendre la tokenisation est fondamental pour saisir comment les modèles d'IA interprètent et apprennent à partir de divers types de données. La gestion des ensembles de données et des modèles d'entraînement implique souvent des plateformes comme Ultralytics HUB, qui aident à rationaliser les flux de travail de prétraitement des données et d'entraînement des modèles, impliquant souvent des données tokenisées de manière implicite ou explicite. À mesure que l'IA évolue, les méthodes de tokenisation continuent de s'adapter, jouant un rôle clé dans la construction de modèles plus sophistiqués pour des tâches allant de la génération de texte à la compréhension visuelle complexe dans des domaines tels que les véhicules autonomes et l'analyse d'images médicales.

Tout lire