Erfahren Sie, wie Token, die Bausteine von KI-Modellen, NLP, Computer Vision und Aufgaben wie Sentimentanalyse und Objekterkennung ermöglichen.
In der Landschaft der künstlichen Intelligenz dient ein Token als grundlegende, atomare Informationseinheit, die ein maschinelles Lernmodell verarbeitet. Bevor ein neuronales Netzwerk einen Satz, einen Code Codeschnipsel oder sogar ein Bild analysieren kann, müssen die Rohdaten in einem entscheidenden Schritt der Datenvorverarbeitung in diese diskreten, handhabbaren Teile zerlegt werden. Schritt der Datenvorverarbeitung. Während Menschen Sprache als einen Strom von Wörtern oder Bilder als eine kontinuierliche Szene wahrnehmen, müssen Algorithmen diese Eingaben in standardisierte Elemente zerlegt werden, um Berechnungen effizient durchführen zu können.
Um zu verstehen, wie moderne Deep-Learning-Systeme zu verstehen, ist es wichtig, zwischen der Dateneinheit und dem Prozess, der sie erzeugt, zu unterscheiden. Diese Unterscheidung wird wird oft durch den Vergleich des "Was" mit dem "Wie" verdeutlicht.
Nach der Tokenisierung der Daten werden die resultierenden Token nicht direkt als Textstrings oder Bildfelder verwendet. Stattdessen werden sie numerischen Vektoren zugeordnet, die als Einbettungen bekannt sind. Diese hochdimensionalen Vektoren erfassen die semantische Bedeutung und die Beziehungen zwischen den Token, so dass Frameworks wie PyTorch mathematische Operationen mit ihnen durchführen können.
Unter Verarbeitung natürlicher Sprache (NLP), sind Token die Eingaben für Große Sprachmodelle (LLMs) wie die GPT-Reihe. Moderne Modelle verwenden typischerweise Algorithmen zur Tokenisierung von Teilwörtern, wie z.B. Byte-Paar-Kodierung (BPE). Diese Methode schafft ein Gleichgewicht Effizienz und Wortschatzgröße aus, indem häufige Wörter als einzelne Token beibehalten und seltene Wörter in sinnvolle Silben.
Das Konzept der Token hat die Bildanalyse durch Architekturen wie den Vision Transformer (ViT). Anstatt Pixel durch Faltung zu verarbeiten, unterteilen diese Modelle ein Bild in ein Raster von Feldern fester Größe (z.B. 16x16 Pixel). Jedes Feld wird abgeflacht und als "visuelles Token" behandelt, was den Einsatz von leistungsstarken Transformer-Mechanismen wie Self-Attention, um den globalen Kontext innerhalb eines einem Bild zu verstehen.
Token sind die Bausteine für einige der fortschrittlichsten KI-Funktionen, die es heute gibt.
Das folgende Beispiel zeigt, wie die ultralytics Paket nutzt Token hinter den Kulissen. Durch
einer Liste von Textklassen identifiziert das Modell diese Eingaben mit Token, um bestimmte Objekte in einem Bild
dynamisch zu identifizieren.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Das Verständnis von Token ist entscheidend, um zu verstehen, wie Modelle die Lücke zwischen unstrukturierten zwischen unstrukturierten menschlichen Daten und computergestütztem Verständnis. Bildklassifikation oder komplexe Sprach Aufgaben.