Erfahren Sie, wie Token, die Bausteine von KI-Modellen, NLP, Computer Vision und Aufgaben wie Sentimentanalyse und Objekterkennung ermöglichen.
In der künstlichen Intelligenz ist ein Token die grundlegende, diskrete Dateneinheit, die ein Modell verarbeitet. Bevor ein KI-Modell Text oder ein Bild analysieren kann, müssen die Rohdaten in diese handhabbaren Teile zerlegt werden. Für ein Sprachmodell kann ein Token ein Wort, ein Teil eines Wortes (ein Teilwort) oder ein einzelnes Zeichen sein. Für ein Computer Vision (CV)-Modell kann ein Token ein kleiner, fest definierter Ausschnitt eines Bildes sein. Dieser Prozess der Datenaufteilung ist ein wichtiger erster Schritt in der Datenvorverarbeitungs-Pipeline, da er komplexe, unstrukturierte Daten in ein strukturiertes Format umwandelt, das neuronale Netze verstehen können.
Es ist wichtig, zwischen einem 'Token' und 'Tokenisierung' zu unterscheiden.
Kurz gesagt, Tokenisierung ist die Handlung, und ein Token ist das Ergebnis dieser Handlung.
Token sind die Bausteine dafür, wie KI-Modelle Daten wahrnehmen und interpretieren. Sobald Daten tokenisiert sind, wird jedes Token typischerweise einer numerischen Vektordarstellung, einem sogenannten Embedding, zugeordnet. Diese Embeddings erfassen die semantische Bedeutung und den Kontext und ermöglichen es Modellen, die mit Frameworks wie PyTorch oder TensorFlow erstellt wurden, komplexe Muster zu lernen.
Wort- und Teilwort-Token: In der natürlichen Sprachverarbeitung (NLP) kann die Verwendung ganzer Wörter als Token zu riesigen Vokabularen und Problemen mit unbekannten Wörtern führen. Die Teilwort-Tokenisierung mit Algorithmen wie Byte Pair Encoding (BPE) oder WordPiece ist eine gängige Lösung. Sie zerlegt seltene Wörter in kleinere, sinnvolle Teile. Zum Beispiel könnte das Wort "Tokenisierung" zu zwei Token werden: "Token" und "##isierung". Dieser Ansatz, der von Modellen wie BERT und GPT-4 verwendet wird, hilft dem Modell, komplexe Vokabeln und grammatikalische Strukturen zu verarbeiten. Sie können moderne Implementierungen in Bibliotheken wie Hugging Face Tokenizers erkunden.
Visuelle Token: Das Konzept der Token geht über Text hinaus in die Computer Vision. In Modellen wie dem Vision Transformer (ViT) wird ein Bild in ein Raster aus Patches unterteilt (z. B. 16x16 Pixel). Jeder Patch wird abgeflacht und als "visueller Token" behandelt. Dies ermöglicht es leistungsstarken Transformer-Architekturen, die sich durch die Verarbeitung von Sequenzen mithilfe von Self-Attention auszeichnen, Aufgaben wie Bildklassifizierung und Objekterkennung auszuführen. Dieser Token-basierte Ansatz ist auch grundlegend für Multi-Modal-Modelle, die sowohl Bilder als auch Text verstehen, wie z. B. CLIP.
Die Verwendung von Token ist grundlegend für unzählige KI-Systeme, von einfachen Anwendungen bis hin zu komplexen, hochmodernen Modellen.
Maschinelle Übersetzung: Dienste wie Google Translate sind stark auf Token angewiesen. Wenn Sie einen Satz eingeben, wird dieser zuerst in eine Sequenz von Text-Token zerlegt. Ein hochentwickeltes Sequence-to-Sequence-Modell verarbeitet diese Token, versteht ihre kollektive Bedeutung und generiert eine neue Sequenz von Token in der Zielsprache. Diese Ausgabe-Token werden dann wieder zu einem zusammenhängenden übersetzten Satz zusammengesetzt. Dieser Prozess ermöglicht eine Echtzeitübersetzung in Dutzende von Sprachen.
Autonome Fahrzeuge: Im Bereich der autonomen Fahrzeuge müssen Modelle komplexe visuelle Szenen in Echtzeit interpretieren. Ein Modell wie Ultralytics YOLO11 verarbeitet Kamera-Feeds, um Aufgaben wie Objektverfolgung und Instanzsegmentierung durchzuführen. Während klassische CNN-basierte Modelle wie YOLO keine "Token" im gleichen Sinne wie Transformer explizit verwenden, tun dies Vision-Transformer-Varianten, die für die Erkennung entwickelt wurden. Sie zerlegen die visuelle Eingabe in Token (Patches), um Fußgänger, andere Fahrzeuge und Verkehrssignale mit hoher Genauigkeit zu identifizieren und zu lokalisieren. Dieses tokenisierte Verständnis der Umgebung ist entscheidend für eine sichere Navigation. Die Verwaltung des gesamten Workflows, von der Datenerfassung bis zur Modellbereitstellung, kann mit Plattformen wie Ultralytics HUB optimiert werden.