Erfahren Sie, wie Token, die Bausteine von KI-Modellen, NLP, Computer Vision und Aufgaben wie Sentimentanalyse und Objekterkennung unterstützen.
In der künstlichen Intelligenz ist ein Token die grundlegende, diskrete Einheit von Daten, die ein Modell verarbeitet. Bevor ein KI-Modell einen Text oder ein Bild analysieren kann, müssen die Rohdaten in diese überschaubaren Teile zerlegt werden. Für ein Sprachmodell kann ein Token ein Wort, ein Teil eines Wortes (ein Unterwort) oder ein einzelnes Zeichen sein. Für ein Computer-Vision-Modell (CV) kann ein Token ein kleiner Bildausschnitt fester Größe sein. Dieser Prozess der Aufschlüsselung von Daten ist ein wichtiger erster Schritt in der Datenvorverarbeitungspipeline, da er komplexe, unstrukturierte Daten in ein strukturiertes Format umwandelt, das neuronale Netze verstehen können.
Es ist wichtig, zwischen einem "Token" und einer"Tokenisierung" zu unterscheiden.
Kurz gesagt, die Tokenisierung ist die Aktion, und ein Token ist das Ergebnis dieser Aktion.
Token sind die Bausteine dafür, wie KI-Modelle Daten wahrnehmen und interpretieren. Nach der Tokenisierung der Daten wird jedes Token in der Regel auf eine numerische Vektordarstellung, das sogenannte Embedding, abgebildet. Diese Einbettungen erfassen die semantische Bedeutung und den Kontext, so dass Modelle, die mit Frameworks wie PyTorch oder TensorFlow erstellt wurden, komplexe Muster lernen können.
Wort- und Teilwort-Token: Bei der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) kann die Verwendung ganzer Wörter als Token zu einem riesigen Wortschatz und zu Problemen mit unbekannten Wörtern führen. Die Tokenisierung von Teilwörtern mit Algorithmen wie Byte Pair Encoding (BPE) oder WordPiece ist eine gängige Lösung. Dabei werden seltene Wörter in kleinere, sinnvolle Teile zerlegt. Zum Beispiel könnte das Wort "Tokenisierung" zu zwei Token werden: "token" und "##ization". Dieser Ansatz, der von Modellen wie BERT und GPT-4 verwendet wird, hilft dem Modell, mit komplexem Wortschatz und grammatikalischen Strukturen umzugehen. Sie können moderne Implementierungen in Bibliotheken wie Hugging Face Tokenizers erkunden.
Visuelle Token: Das Konzept der Tokens geht über den Text hinaus und erstreckt sich auch auf die Computer Vision. Bei Modellen wie dem Vision Transformer (ViT) wird ein Bild in ein Raster von Feldern (z. B. 16 x 16 Pixel) unterteilt. Jedes Feld wird abgeflacht und als "visuelles Token" behandelt. Auf diese Weise können leistungsstarke Transformer-Architekturen, die sich bei der Verarbeitung von Sequenzen durch Selbstbeobachtung auszeichnen, Aufgaben wie Bildklassifizierung und Objekterkennung durchführen. Dieser Token-basierte Ansatz ist auch die Grundlage für multimodale Modelle, die sowohl Bilder als auch Text verstehen, wie z. B. CLIP.
Die Verwendung von Token ist für unzählige KI-Systeme von grundlegender Bedeutung, von einfachen Anwendungen bis hin zu komplexen, hochmodernen Modellen.
Maschinelle Übersetzung: Dienste wie Google Translate stützen sich stark auf Token. Wenn Sie einen Satz eingeben, wird er zunächst in eine Folge von Text-Token zerlegt. Ein ausgeklügeltes Sequenz-zu-Sequenz-Modell verarbeitet diese Token, versteht ihre kollektive Bedeutung und erzeugt eine neue Sequenz von Token in der Zielsprache. Diese ausgegebenen Token werden dann wieder zu einem kohärenten übersetzten Satz zusammengesetzt. Dieser Prozess ermöglicht Echtzeitübersetzungen in Dutzenden von Sprachen.
Autonome Fahrzeuge: Im Bereich der autonomen Fahrzeuge müssen die Modelle komplexe visuelle Szenen in Echtzeit interpretieren. Ein Modell wie Ultralytics YOLO11 verarbeitet Kamerafeeds, um Aufgaben wie Objektverfolgung und Instanzsegmentierung durchzuführen. Während klassische CNN-basierte Modelle wie YOLO nicht explizit "Token" in der gleichen Weise wie Transformers verwenden, tun dies die für die Erkennung entwickelten Vision-Transformer-Varianten. Sie zerlegen den visuellen Input in Token (Patches), um Fußgänger, andere Fahrzeuge und Verkehrssignale mit hoher Genauigkeit zu identifizieren und zu lokalisieren. Dieses tokenisierte Verständnis der Umgebung ist entscheidend für eine sichere Navigation. Die Verwaltung des gesamten Arbeitsablaufs, von der Datenerfassung bis zur Modellbereitstellung, kann mit Plattformen wie Ultralytics HUB rationalisiert werden.