Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Tokenisierung

Entdecken Sie die Leistungsfähigkeit der Tokenisierung in NLP und ML! Erfahren Sie, wie das Aufteilen von Text in Tokens KI-Aufgaben wie Stimmungsanalyse und Textgenerierung verbessert.

Tokenisierung ist der grundlegende Prozess der Konvertierung eines Stroms von Rohdaten - wie Text, Code oder Bilder - in kleinere diskrete Einheiten, so genannte Token, diskrete Einheiten, die als Token bezeichnet werden. Diese Umwandlung bildet eine wichtige Brücke in der Datenvorverarbeitungspipeline und übersetzt unstrukturierte menschliche Informationen in ein numerisches Format, das Künstliche Intelligenz (KI) Systeme können interpretieren können. Durch die Zerlegung komplexer Daten in überschaubare Teile ermöglicht die Tokenisierung maschinellen Lernmodellen, Muster zu erkennen, Muster zu erkennen, semantische Beziehungen zu erlernen und anspruchsvolle Inferenzaufgaben durchzuführen. Ohne diesen ersten Schritt würden die neuronalen Netze, die moderne Technologien antreiben, nicht nicht in der Lage, die riesigen Datensätze zu verarbeiten, die für das Training erforderlich sind.

Tokenisierung vs. Token

Obwohl die Begriffe oft in enger Verbindung verwendet werden, ist es wichtig, zwischen der Methode und dem Ergebnis zu unterscheiden.

  • Die Tokenisierung ist die Aktion oder der Algorithmus, der auf die Daten angewendet wird. Sie beinhaltet spezifische Regeln für die Aufteilung von Zeichenketten oder die Segmentierung von Bildern. Werkzeuge wie spaCy oder NLTK erleichtern diesen Prozess für Text.
  • Token ist die durch den Prozess erzeugte Ausgabeeinheit. Weitere Einzelheiten über die Art dieser Einheiten finden Sie auf der Glossarseite für Token.

Wie Tokenisierung in AI funktioniert

Die Anwendung der Tokenisierung ist je nach Art der zu verarbeitenden Daten sehr unterschiedlich, obwohl das ultimative Ziel der Erzeugung von Einbettungen - Vektor Repräsentationen von Daten - das gleiche bleibt.

Tokenisierung von Text in NLP

Unter Verarbeitung natürlicher Sprache (NLP), geht es um die Aufteilung von Sätzen in Wörter, Unterwörter oder Zeichen. Frühe Methoden teilten den Text einfach nach Leerzeichen, aber moderne Große Sprachmodelle (LLMs) verwenden fortschrittliche Algorithmen wie Byte Pair Encoding (BPE), um seltene Wörter effizient zu behandeln. Dies ermöglicht Modellen wie GPT-4, komplexes Vokabular zu verarbeiten, ohne dass sie ein unendliches Wörterbuch.

Visuelle Tokenisierung in der Computer Vision

Traditionell arbeitete die Computer Vision (CV) mit Pixel-Arrays. Mit dem Aufkommen des Vision Transformer (ViT) wurde das Konzept Konzept der Aufteilung eines Bildes in Bereiche fester Größe (z. B. 16 x 16 Pixel). Diese Flecken werden abgeflacht und als als visuelle Token behandelt, so dass das Modell die Wichtigkeit verschiedener Bildregionen mit Hilfe der Selbstaufmerksamkeit Bildregionen zu gewichten, ähnlich wie bei der Verarbeitung eines Satzes.

Anwendungsfälle in der Praxis

Die Tokenisierung ist nicht nur ein theoretisches Konzept, sondern bildet die Grundlage für viele der täglich genutzten KI-Anwendungen.

  1. Multimodale Erkennung: Fortschrittliche Modelle wie YOLO schließen die Lücke zwischen Text und Bild. Durch Tokenisierung von Benutzereingaben (z. B. "rotes Auto") und deren Abgleich mit visuellen Merkmalen, führen diese Modelle Objekterkennung mit offenem Vokabular, ohne dass sie ohne dass sie explizit auf neue Klassen umtrainiert werden müssen.
  2. Übersetzung von Sprachen: Dienste wie Google Translate zerlegen den eingegebenen Text in Token und übersetzen sie über ein Sequenz-zu-Sequenz-Modell, und und setzen die ausgegebenen Token in der Zielsprache wieder zusammen.
  3. Generative Kunst: Modelle, die in der Lage sind Text-zu-Bild-Generierung fähig sind, wie z.B. Stable Diffusion, Tokenisieren Textaufforderungen, um den um den Entrauschungsprozess zu steuern und Bilder zu erzeugen, die mit der semantischen Bedeutung der eingegebenen Token übereinstimmen.

Beispiel: Tokenisierung in der YOLO

Das folgende Beispiel zeigt, wie ultralytics verwendet die implizite Tokenisierung innerhalb der YOLO Arbeitsablauf. Die Website .set_classes() Methode tokenisiert die Textliste, um den Erkennungsfokus des Modells dynamisch zu steuern.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Bedeutung für die Modellleistung

Die Wahl der Tokenisierungsstrategie wirkt sich direkt auf Genauigkeit und Recheneffizienz aus. Ineffiziente Tokenisierung kann zu "Out-of-vocabulary"-Fehlern im NLP oder zum Verlust feinkörniger Details bei der Bildsegmentierung führen. Frameworks wie PyTorch und TensorFlow bieten flexible Werkzeuge, um diesen Schritt zu optimieren. Da sich die Architekturen weiterentwickeln - wie zum Beispiel die neuesten YOLO11-stellt eine effiziente Datenverarbeitung sicher, dass die Modelle Echtzeit-Inferenz auf unterschiedlicher Hardware, von leistungsstarken Cloud-GPUs bis hin zu Edge-Geräten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten