Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Tokenisierung

Entdecken Sie die Leistungsfähigkeit der Tokenisierung in NLP und ML! Erfahren Sie, wie das Aufteilen von Text in Tokens KI-Aufgaben wie Stimmungsanalyse und Textgenerierung verbessert.

Tokenisierung ist der algorithmische Prozess der Aufteilung eines Rohdatenstroms – wie Text, Bilder oder Audio – in kleinere, verwaltbare Einheiten, die als Token bezeichnet werden. Diese Umwandlung fungiert als wichtige Brücke in der Datenvorverarbeitungs-Pipeline und wandelt unstrukturierte Eingaben in ein numerisches Format um, das Künstliche-Intelligenz-Systeme (KI) interpretieren können. Computer können menschliche Sprache oder visuelle Szenen nicht von Natur aus verstehen; sie benötigen numerische Darstellungen, um Berechnungen durchzuführen. Durch die Segmentierung von Daten in Tokens ermöglichen Ingenieure neuronalen Netzen, diese Einheiten auf Einbettungenabzubilden – Vektordarstellungen, die semantische Bedeutungen erfassen. Ohne diesen grundlegenden Schritt wären Maschinelle-Lernmodelle nicht in der Lage, Muster zu identifizieren, Kontexte zu lernen oder die riesigen Datensätze zu verarbeiten, die für modernes Training erforderlich sind.

Tokenisierung vs. Token

Obwohl die Begriffe in Diskussionen über Deep Learning oft zusammen verwendet werden , ist es hilfreich, zwischen der Methode und dem Ergebnis zu unterscheiden, um den Arbeitsablauf zu verstehen.

  • Tokenization is the process (the verb). It refers to the specific set of rules or algorithms used to split the data. For text, this might involve using libraries like NLTK or spaCy to determine where one unit ends and another begins.
  • Token ist die Ausgabe (das Substantiv). Es handelt sich um die einzelne Einheit, die durch den Prozess erzeugt wird, wie z. B. ein einzelnes Wort, ein Teilwort, ein Zeichen oder eine Gruppe von Pixeln.

Methoden in verschiedenen Bereichen

Die Strategie für die Tokenisierung variiert erheblich je nach Modalität der Daten und beeinflusst, wie ein Grundlagenmodell die Welt wahrnimmt.

Tokenisierung von Text in NLP

In der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) besteht das Ziel darin, segment und dabei die Bedeutung zu bewahren. Frühe Methoden basierten auf einfachen Techniken wie der Trennung von Wörtern durch Leerzeichen oder dem Entfernen von Stoppwörtern. Moderne große Sprachmodelle (Large Language Models, LLMs) verwenden jedoch ausgefeiltere Subwort-Algorithmen wie Byte Pair Encoding (BPE) oder WordPiece. Diese Algorithmen führen die häufigsten Zeichenpaare iterativ zusammen, sodass das Modell seltene Wörter verarbeiten kann, indem es sie in bekannte Unterkomponenten zerlegt (z. B. wird „Smartphones” zu „smart” + „phones”). Dieser Ansatz schafft ein Gleichgewicht zwischen der Größe des Wortschatzes und der Fähigkeit, komplexe Sprache darzustellen.

Visuelle Tokenisierung in der Computer Vision

Traditionell verarbeiteten Computer-Vision-Modelle (CV) wie CNNs Pixel mithilfe von gleitenden Fenstern. Die Einführung des Vision Transformer (ViT) veränderte dieses Paradigma durch die Anwendung von Tokenisierung auf Bilder. Das Bild wird in Patches fester Größe (z. B. 16x16 Pixel) zerlegt, die dann abgeflacht und linear projiziert werden. Diese „visuellen Token” ermöglichen es dem Modell, Selbstaufmerksamkeitsmechanismen zu nutzen, um globale Beziehungen innerhalb des Bildes zu lernen, ähnlich wie ein Transformer einen Satz verarbeitet.

Anwendungsfälle in der Praxis

Die Tokenisierung ist der stille Motor hinter vielen KI-Anwendungen, die heute in Produktionsumgebungen eingesetzt werden.

  1. Objekterkennung mit offenem Vokabular: Fortschrittliche Architekturen wie YOLO verwenden einen multimodalen Modellansatz. Wenn ein Benutzer eine Eingabe wie „Person mit rotem Hut” macht, tokenisiert das System diesen Text und ordnet ihn dem gleichen Merkmalsraum wie die visuellen Daten zu. Dies ermöglicht Zero-Shot-Lernen, wodurch das Modell detect , für detect es nicht explizit trainiert wurde, indem es Text-Token mit visuellen Merkmalen abgleicht.
  2. Generative Kunst und Design: Bei der Text-zu-Bild-Generierung werden Benutzerbefehle in Token zerlegt, um den Diffusionsprozess zu steuern. Das Modell verwendet diese Token, um die Generierung zu konditionieren und sicherzustellen, dass das resultierende Bild mit den semantischen Konzepten (z. B. „Sonnenuntergang“, „Strand“) übereinstimmt, die während der Tokenisierungsphase extrahiert wurden.

Python : Tokenbasierte Erkennung

Das folgende Beispiel zeigt, wie die ultralytics Das Paket nutzt implizit die Tokenisierung von Text innerhalb des YOLO. Durch die Definition benutzerdefinierter Klassen tokenisiert das Modell diese Zeichenfolgen, um dynamisch nach bestimmten Objekten zu suchen.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Auswirkungen auf die Modellleistung

Die Wahl der Tokenisierungsstrategie wirkt sich direkt auf die Genauigkeit und Recheneffizienz aus. Eine ineffiziente Tokenisierung kann zu „Out-of-Vocabulary”-Fehlern in der NLP oder zum Verlust feiner Details in der Bildanalyse führen . Frameworks wie PyTorch und TensorFlow bieten flexible Tools zur Optimierung dieses Schritts. Mit der Weiterentwicklung von Architekturen – wie dem hochmodernen YOLO26– sorgt eine effiziente Datenverarbeitung dafür, dass Modelle Echtzeit-Inferenzen auf unterschiedlicher Hardware ausführen können, von leistungsstarken Cloud-GPUs bis hin zu Edge-Geräten. Teams, die diese komplexen Daten-Workflows verwalten, verlassen sich häufig auf die Ultralytics , um die Annotation von Datensätzen, das Modelltraining und die Bereitstellung zu optimieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten