Découvrez comment les tokens, les éléments constitutifs des modèles d'IA, alimentent le NLP, la vision par ordinateur et des tâches telles que l'analyse des sentiments et la détection d'objets.
Dans le paysage de l'intelligence l'intelligence artificielle, un jeton sert d'unité l'unité fondamentale et atomique d'information qu'un modèle d'apprentissage automatique traite. Avant qu'un réseau neuronal ne puisse analyser une phrase, un extrait de ou même une image, les données brutes doivent être segmentées en ces éléments discrets et gérables par le biais d'une étape critique du prétraitement des données. étape critique du prétraitement des données. Alors que les humains perçoivent le langage comme un flux de mots ou les images comme une scène continue, les algorithmes exigent que ces données soient décomposées en éléments normalisés pour effectuer des calculs. en éléments standardisés afin d'effectuer des calculs de manière efficace.
Pour comprendre le fonctionnement des systèmes modernes d'apprentissage profond, il est essentiel de faire la distinction entre l'unité de données et le processus qui la crée. modernes, il est essentiel de faire la distinction entre l'unité de données et le processus qui la crée. Cette distinction est souvent clarifiée en comparant le "quoi" et le "comment".
Une fois les données tokenisées, les tokens résultants ne sont pas utilisés directement comme des chaînes de texte ou des patchs d'image. Au lieu de cela, ils sont Ils sont plutôt mis en correspondance avec des vecteurs numériques connus sous le nom de " embeddings". Ces vecteurs à haute dimension capturent la signification sémantique et les relations entre les tokens, ce qui permet à des cadres comme le PyTorch d'effectuer des opérations mathématiques sur eux.
Dans le domaine du Traitement du langage naturel (NLP), les tokens sont les entrées des grands modèles de langage (LLM) tels que la série série GPT. Les modèles modernes modernes utilisent généralement des algorithmes de tokénisation de sous-mots, tels que Le codage par paires d'octets (BPE). Cette méthode permet d'équilibrer l'efficacité et la taille du vocabulaire en conservant les mots courants sous forme de jetons uniques tout en divisant les mots rares en syllabes significatives. syllabes significatives.
Le concept de jetons a révolutionné l'analyse d'images grâce à des architectures telles que le Vision Transformer (ViT). Au lieu de traitement des pixels par convolution, ces modèles divisent une image en une grille de parcelles de taille fixe (par exemple, 16x16 pixels). pixels). Chaque parcelle est aplatie et traitée comme un "jeton visuel", ce qui permet d'utiliser les puissants mécanismes du Transformateur de vision, tels que l'analyseur d'images. Transformer, comme l'auto-attention, pour comprendre le contexte global au sein d'une image. l 'auto-attention pour comprendre le contexte global d'une d'une image.
Les jetons sont les éléments constitutifs de certaines des capacités les plus avancées de l'IA aujourd'hui.
L'exemple suivant montre comment l'option ultralytics Le paquet d'informations sur les tokens est utilisé dans les coulisses. En
en fournissant une liste de classes de texte, le modèle utilise des jetons pour identifier dynamiquement des objets spécifiques dans une image.
de manière dynamique.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
La compréhension des jetons est essentielle pour comprendre comment les modèles de base comblent le fossé entre la théorie et la pratique. les modèles de fondation comblent le fossé entre les données humaines non structurées et la compréhension informatique. entre les données humaines non structurées et la compréhension informatique. classification d'images ou des tâches linguistiques complexes.