Apprends comment les tokens, les éléments constitutifs des modèles d'IA, alimentent le NLP, la vision par ordinateur et des tâches telles que l'analyse des sentiments et la détection d'objets.
Dans le domaine de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), en particulier dans le traitement du langage naturel (NLP) et de plus en plus dans la vision par ordinateur, un "jeton" représente la plus petite unité de données qu'un modèle traite. Considère les jetons comme les éléments fondamentaux que les modèles d'IA utilisent pour comprendre et analyser les informations, qu'il s'agisse de texte, d'images ou d'autres formes de données. Ils sont essentiels pour convertir les données brutes en un format que les algorithmes peuvent interpréter et dont ils peuvent tirer des enseignements, formant ainsi la base de nombreuses tâches complexes de l'IA.
Les jetons sont les résultats discrets d'un processus appelé symbolisation. En NLP, par exemple, une phrase commeUltralytics YOLO est rapide et précis" peut être transformée en mots individuels : ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]
. Selon la stratégie de tokénisation utilisée, les jetons peuvent également être des unités de sous-mots (par exemple, "Ultra", "lytics") ou même des caractères individuels. Cette décomposition transforme un texte continu ou des données complexes en morceaux faciles à gérer.
La raison pour laquelle les jetons sont cruciaux est que la plupart des modèles d'apprentissage profond, y compris les architectures puissantes comme les Transformers utilisés dans de nombreux systèmes d'IA modernes, ne peuvent pas traiter directement les données brutes et non structurées. Ils ont besoin d'entrées dans un format structuré, souvent numérique. La tokenisation permet de jeter ce pont. Une fois les données tokenisées, chaque token est généralement associé à une représentation numérique, telle qu'un identifiant dans un vocabulaire ou, plus couramment, à des représentations vectorielles denses appelées embeddings. Ces embeddings capturent les relations sémantiques entre les jetons, que les modèles apprennent au cours de la formation.
Il existe différentes méthodes pour décomposer les données en jetons :
Il est important de distinguer les jetons des termes apparentés :
Les jetons sont fondamentaux dans divers domaines de l'intelligence artificielle. Voici deux exemples concrets :
Traduction automatique : Dans les services tels que Google Translate, une phrase d'entrée dans une langue est d'abord transformée en jetons. Ces jetons sont traités par un modèle de séquence à séquence (souvent un transformateur), qui génère ensuite des jetons représentant la phrase traduite dans la langue cible. Le choix de la tokenisation a un impact significatif sur la précision et la fluidité de la traduction. Les LLM tels que GPT-4 et BERT s'appuient fortement sur le traitement des jetons pour des tâches telles que la traduction, la génération de texte et l'analyse des sentiments. Les techniques telles que le réglage et l'enchaînement des invites impliquent la manipulation des séquences de jetons d'entrée pour guider le comportement du modèle.
Vision par ordinateur avec les transformateurs : Bien qu'ils soient traditionnellement associés au NLP, les tokens sont désormais au cœur des modèles avancés de vision par ordinateur tels que les transformateurs de vision (ViT). Dans un ViT, une image est divisée en parcelles de taille fixe qui ne se chevauchent pas (par exemple, 16x16 pixels). Chaque parcelle est traitée comme un "jeton visuel". Ces jetons sont intégrés de façon linéaire et introduits dans une architecture de transformation, qui utilise des mécanismes d'attention pour analyser les relations entre les différentes parties de l'image. Cette approche est utilisée pour des tâches telles que la classification d'images, la détection d'objets et la segmentation d'images. Des modèles comme le Segment Anything Model (SAM) utilisent cette approche basée sur les jetons. Même dans les modèles à convolution comme Ultralytics YOLOv8 ou le plus récent Ultralytics YOLO11le système de cellules de la grille utilisé pour la détection peut être considéré comme une forme implicite de symbolisation spatiale.
Comprendre les tokens est fondamental pour saisir comment les modèles d'IA interprètent et traitent les informations. À mesure que l'IA évolue, le concept de tokens et les méthodes pour les créer resteront au cœur de la gestion de divers types de données et de la construction de modèles plus sophistiqués pour des applications allant de l'analyse d'images médicales aux véhicules autonomes. Des plateformes comme Ultralytics HUB fournissent des outils pour gérer des ensembles de données et former des modèles, impliquant souvent des données implicitement ou explicitement tokenisées.