Tokenization
Erkunde, wie Tokenisierung rohen Text und Bilder in KI-fertige Daten umwandelt. Lerne NLP- und Computer-Vision-Methoden kennen, die von Modellen wie Ultralytics YOLO26 verwendet werden.
Tokenisierung ist der algorithmische Prozess, bei dem ein Strom von Rohdaten – wie Text, Bilder oder Audio – in kleinere, handhabbare Einheiten, sogenannte Tokens, zerlegt wird. Diese Transformation fungiert als entscheidende Brücke in der Datenvorverarbeitungs-Pipeline, indem sie unstrukturierte Eingaben in ein numerisches Format umwandelt, das künstliche Intelligenz (KI)-Systeme interpretieren können. Computer können menschliche Sprache oder visuelle Szenen nicht von Natur aus verstehen; sie benötigen numerische Repräsentationen, um Berechnungen durchzuführen. Durch die Segmentierung von Daten in Tokens ermöglichen Ingenieure es neuronalen Netzen, diese Einheiten auf Embeddings abzubilden – Vektordarstellungen, die die semantische Bedeutung erfassen. Ohne diesen grundlegenden Schritt wären Machine Learning-Modelle nicht in der Lage, Muster zu erkennen, Kontext zu lernen oder die riesigen Datasets zu verarbeiten, die für modernes Training erforderlich sind.
Link to this sectionTokenisierung vs. Token#
Obwohl die Begriffe in Diskussionen über Deep Learning oft zusammen genannt werden, ist es hilfreich, die Methode vom Ergebnis zu unterscheiden, um den Arbeitsablauf zu verstehen.
- Tokenisierung ist der Prozess (das Verb). Sie bezieht sich auf die spezifische Menge an Regeln oder Algorithmen, die verwendet werden, um die Daten zu teilen. Bei Text kann dies den Einsatz von Bibliotheken wie NLTK oder spaCy beinhalten, um zu bestimmen, wo eine Einheit endet und eine andere beginnt.
- Token ist das Ergebnis (das Substantiv). Es ist die einzelne Einheit, die durch den Prozess erzeugt wird, wie etwa ein einzelnes Wort, ein Teilwort, ein Zeichen oder ein Patch von Pixeln.
Link to this sectionMethoden über verschiedene Domänen hinweg#
Die Strategie für die Tokenisierung variiert erheblich je nach Modalität der Daten und beeinflusst, wie ein Foundation Model die Welt wahrnimmt.
Link to this sectionText-Tokenisierung in NLP#
In der Natural Language Processing (NLP) besteht das Ziel darin, Text zu segmentieren und dabei die Bedeutung zu erhalten. Frühe Methoden stützten sich auf einfache Techniken wie das Trennen von Wörtern durch Leerzeichen oder das Entfernen von Stop Words. Moderne Large Language Models (LLMs) nutzen jedoch ausgefeiltere Subword-Algorithmen wie Byte Pair Encoding (BPE) oder WordPiece. Diese Algorithmen führen iterativ die häufigsten Zeichenpaare zusammen, wodurch das Modell seltene Wörter handhaben kann, indem es sie in bekannte Teilkomponenten zerlegt (z. B. wird „smartphones“ zu „smart“ + „phones“). Dieser Ansatz gleicht die Vokabulargröße mit der Fähigkeit aus, komplexe Sprache darzustellen.
Link to this sectionVisuelle Tokenisierung in Computer Vision#
Traditionell verarbeiteten Computer Vision (CV)-Modelle wie CNNs Pixel mithilfe von gleitenden Fenstern. Die Einführung des Vision Transformer (ViT) veränderte dieses Paradigma durch die Anwendung von Tokenisierung auf Bilder. Das Bild wird in Patches fester Größe (z. B. 16x16 Pixel) zerlegt, die dann flachgedrückt und linear projiziert werden. Diese „visuellen Tokens“ ermöglichen es dem Modell, Self-Attention-Mechanismen zu nutzen, um globale Beziehungen über das Bild hinweg zu lernen, ähnlich wie ein Transformer einen Satz verarbeitet.
Link to this sectionPraxisanwendungen#
Tokenisierung ist der stille Motor hinter vielen KI-Anwendungen, die heute in Produktionsumgebungen eingesetzt werden.
-
Open-Vocabulary Object Detection: Fortschrittliche Architekturen wie YOLO-World verwenden einen Ansatz für Multi-modal Models. Wenn du eine Aufforderung wie „Person mit rotem Hut“ eingibst, tokenisiert das System diesen Text und bildet ihn auf denselben Merkmalsraum ab wie die visuellen Daten. Dies ermöglicht Zero-Shot Learning, wodurch das Modell Objekte erkennen kann, auf die es nicht explizit trainiert wurde, indem es Text-Tokens mit visuellen Merkmalen abgleicht.
-
Generative Kunst und Design: Bei der Text-to-Image-Generierung werden Benutzereingaben tokenisiert, um den Diffusionsprozess zu steuern. Das Modell nutzt diese Tokens, um die Generierung zu konditionieren und sicherzustellen, dass das resultierende Bild mit den semantischen Konzepten (z. B. „Sonnenuntergang“, „Strand“) übereinstimmt, die während der Tokenisierungsphase extrahiert wurden.
Link to this sectionPython-Beispiel: Token-basierte Detektion#
Das folgende Beispiel zeigt, wie das ultralytics-Paket Text-Tokenisierung implizit innerhalb des YOLO-World-Workflows verwendet. Durch die Definition benutzerdefinierter Klassen tokenisiert das Modell diese Strings, um dynamisch nach spezifischen Objekten zu suchen.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()Link to this sectionAuswirkungen auf die Modellleistung#
Die Wahl der Tokenisierungsstrategie wirkt sich direkt auf die Genauigkeit und Recheneffizienz aus. Eine ineffiziente Tokenisierung kann zu „Out-of-Vocabulary“-Fehlern im NLP oder zum Verlust fein abgestufter Details bei der Bildanalyse führen. Frameworks wie PyTorch und TensorFlow bieten flexible Werkzeuge, um diesen Schritt zu optimieren. Während sich Architekturen weiterentwickeln – wie der hochmoderne YOLO26 – sorgt eine effiziente Datenverarbeitung dafür, dass Modelle Echtzeit-Inferenz auf diverser Hardware ausführen können, von leistungsstarken Cloud-GPUs bis hin zu Edge-Geräten. Teams, die diese komplexen Daten-Workflows verwalten, verlassen sich oft auf die Ultralytics Platform, um die Datensatz-Annotation, das Modelltraining und die Bereitstellung zu optimieren.






