Découvrez la puissance de la tokenisation dans le NLP et le ML ! Apprenez comment la division du texte en tokens améliore les tâches d'IA telles que l'analyse des sentiments et la génération de texte.
La tokenisation est le processus fondamental de conversion d'un flux de données brutes - telles que du texte, du code ou des images - en unités discrètes plus petites, appelées tokens, unités discrètes plus petites, appelées jetons. Cette transformation agit comme un pont critique dans le du pipeline de prétraitement des données, en traduisant non structurées en un format numérique que les systèmes d'intelligence que les systèmes d'intelligence artificielle (IA) peuvent interpréter. En décomposant des données complexes en éléments gérables, la tokenisation permet aux modèles d'apprentissage automatique aux modèles d'apprentissage automatique d'identifier des modèles, d'apprendre des relations sémantiques et d'effectuer des recherches sur les données, d'apprendre les relations sémantiques et d'effectuer des tâches d'inférence sophistiquées. Sans cette étape initiale, les réseaux neuronaux qui alimentent la technologie moderne modernes seraient incapables de traiter les vastes ensembles de données nécessaires à la formation.
Bien que ces termes soient souvent utilisés de manière très proche, il est important de distinguer la méthode du résultat.
L'application de la tokenisation varie considérablement en fonction du type de données traitées, bien que l'objectif final soit de générer des embeddings-vectoriels. l'objectif ultime de générer des embeddings (représentations vectoriellesdes données )reste le même . des données - reste le même.
Dans le domaine du Traitement du langage naturel (NLP), le processus consiste à diviser les phrases en mots, sous-mots ou caractères. Les premières méthodes se contentaient de découper le texte en les espaces blancs, mais les grands modèles de langage (LLM) modernes utilisent algorithmes avancés tels que le codage par paire d'octets (BPE) pour pour traiter efficacement les mots rares. Cela permet à des modèles tels que GPT-4 de traiter un vocabulaire complexe sans avoir besoin d'un dictionnaire infini. dictionnaire infini.
Traditionnellement, la vision par ordinateur (VA) fonctionne sur des réseaux de pixels. réseaux de pixels. Cependant, l'essor du transformateur de vision (ViT ) a introduit le concept de division d'une image en parcelles de taille fixe (par exemple, 16x16 pixels). Ces parcelles sont aplaties et traitées comme des comme des jetons visuels, ce qui permet au modèle d'utiliser l'auto-attention pour évaluer l'importance de l'image. l 'auto-attention pour évaluer l'importance des différentes régions de l'image, de la même manière qu'une phrase est traitée.
La tokenisation n'est pas seulement un concept théorique ; elle alimente de nombreuses applications d'intelligence artificielle utilisées quotidiennement.
L'exemple suivant montre comment ultralytics utilise la tokenisation implicite dans le
Modèle YOLO flux de travail. Les
.set_classes() permet de donner un sens à la liste de textes afin d'orienter de manière dynamique l'objectif de détection du modèle.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
Le choix de la stratégie de symbolisation a un impact direct sur la précision et l'efficacité des calculs. la précision et l'efficacité des calculs. Une tokénisation inefficace peut entraîner des erreurs de vocabulaire dans le NLP ou la perte de détails fins dans la segmentation d'images. segmentation d'images. Des cadres tels que PyTorch et TensorFlow fournissent des outils outils flexibles pour optimiser cette étape. Au fur et à mesure que les architectures évoluent, comme les dernières YOLO11-un traitement efficace des données garantit que les modèles peuvent fonctionner l'inférence en temps réel sur divers matériels, des des puissants GPU en nuage aux appareils en périphérie.