Glossaire

Tokenisation

Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la division du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.

La tokenisation est le processus fondamental de conversion d'un flux de données brutes - telles que du texte, du code ou des images - en unités discrètes plus petites, appelées tokens, unités discrètes plus petites, appelées jetons. Cette transformation agit comme un pont critique dans le du pipeline de prétraitement des données, en traduisant non structurées en un format numérique que les systèmes d'intelligence que les systèmes d'intelligence artificielle (IA) peuvent interpréter. En décomposant des données complexes en éléments gérables, la tokenisation permet aux modèles d'apprentissage automatique aux modèles d'apprentissage automatique d'identifier des modèles, d'apprendre des relations sémantiques et d'effectuer des recherches sur les données, d'apprendre les relations sémantiques et d'effectuer des tâches d'inférence sophistiquées. Sans cette étape initiale, les réseaux neuronaux qui alimentent la technologie moderne modernes seraient incapables de traiter les vastes ensembles de données nécessaires à la formation.

Tokenisation vs. Token

Bien que ces termes soient souvent utilisés de manière très proche, il est important de distinguer la méthode du résultat.

La tokenisation est l'action ou l'algorithme appliqué aux données. Elle implique des règles spécifiques pour diviser les chaînes de caractères ou segmenter les images. Des outils comme spaCy ou NLTK facilitent ce processus pour le texte.
Le jeton est l'unité de sortie générée par le processus. Pour plus de détails sur la nature de ces unités, consultez la page du glossaire consacrée au token.

Comment la tokenisation fonctionne-t-elle dans l'IA ?

L'application de la tokenisation varie considérablement en fonction du type de données traitées, bien que l'objectif final soit de générer des embeddings-vectoriels. l'objectif ultime de générer des embeddings (représentations vectoriellesdes données )reste le même . des données - reste le même.

La tokenisation des textes dans le cadre du NLP

Dans le domaine du Traitement du langage naturel (NLP), le processus consiste à diviser les phrases en mots, sous-mots ou caractères. Les premières méthodes se contentaient de découper le texte en les espaces blancs, mais les grands modèles de langage (LLM) modernes utilisent algorithmes avancés tels que le codage par paire d'octets (BPE) pour pour traiter efficacement les mots rares. Cela permet à des modèles tels que GPT-4 de traiter un vocabulaire complexe sans avoir besoin d'un dictionnaire infini. dictionnaire infini.

Tokenisation visuelle dans le domaine de la vision par ordinateur

Traditionnellement, la vision par ordinateur (VA) fonctionne sur des réseaux de pixels. réseaux de pixels. Cependant, l'essor du transformateur de vision (ViT ) a introduit le concept de division d'une image en parcelles de taille fixe (par exemple, 16x16 pixels). Ces parcelles sont aplaties et traitées comme des comme des jetons visuels, ce qui permet au modèle d'utiliser l'auto-attention pour évaluer l'importance de l'image. l 'auto-attention pour évaluer l'importance des différentes régions de l'image, de la même manière qu'une phrase est traitée.

Applications concrètes

La tokenisation n'est pas seulement un concept théorique ; elle alimente de nombreuses applications d'intelligence artificielle utilisées quotidiennement.

Détection multimodale : Des modèles avancés comme YOLO comblent le fossé entre le texte et la vision. En en donnant un sens à l'entrée de l'utilisateur (par exemple, "voiture rouge") et en la comparant à des caractéristiques visuelles, ces modèles effectuent une détection d'objets à vocabulaire ouvert sans qu'il soit nécessaire sans qu'il soit nécessaire de les réentraîner explicitement sur de nouvelles classes.
Traduction linguistique : Les services tels que Google Translate s'appuient sur la décomposition du texte d'entrée en jetons, qui sont ensuite traduits par un logiciel de traduction. par le biais d'un modèle de séquence à séquence, et réassembler les jetons de sortie dans la langue cible.
Art génératif : Modèles capables de génération de texte à partir d'images, tels que Stable Diffusion, génèrent des textes qui guident le processus de débruitage. pour guider le processus de débruitage, créant ainsi des images qui s'alignent sur la signification sémantique des mots d'entrée.

Exemple : La tokenisation dans YOLO

L'exemple suivant montre comment ultralytics utilise la tokenisation implicite dans le Modèle YOLO flux de travail. Les .set_classes() permet de donner un sens à la liste de textes afin d'orienter de manière dynamique l'objectif de détection du modèle.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Importance pour la performance du modèle

Le choix de la stratégie de symbolisation a un impact direct sur la précision et l'efficacité des calculs. la précision et l'efficacité des calculs. Une tokénisation inefficace peut entraîner des erreurs de vocabulaire dans le NLP ou la perte de détails fins dans la segmentation d'images. segmentation d'images. Des cadres tels que PyTorch et TensorFlow fournissent des outils outils flexibles pour optimiser cette étape. Au fur et à mesure que les architectures évoluent, comme les dernières YOLO11-un traitement efficace des données garantit que les modèles peuvent fonctionner l'inférence en temps réel sur divers matériels, des des puissants GPU en nuage aux appareils en périphérie.

Tokenisation

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Tokenisation vs. Token

Comment la tokenisation fonctionne-t-elle dans l'IA ?

La tokenisation des textes dans le cadre du NLP

Tokenisation visuelle dans le domaine de la vision par ordinateur

Applications concrètes

Exemple : La tokenisation dans YOLO

Importance pour la performance du modèle

En savoir plus dans cette catégorie

Tendances futures en matière de détection d'objets : 7 éléments clés à surveiller

Améliorer la réidentification des véhicules avec les modèlesYOLO 'Ultralytics

Améliorer la prédiction des collisions avec les modèles Ultralytics YOLO

Rejoindre la communauté Ultralytics