Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Token

Erfahren Sie, wie Token, die Bausteine von KI-Modellen, NLP, Computer Vision und Aufgaben wie Sentimentanalyse und Objekterkennung ermöglichen.

In der Landschaft der künstlichen Intelligenz dient ein Token als grundlegende, atomare Informationseinheit, die ein maschinelles Lernmodell verarbeitet. Bevor ein neuronales Netzwerk einen Satz, einen Code Codeschnipsel oder sogar ein Bild analysieren kann, müssen die Rohdaten in einem entscheidenden Schritt der Datenvorverarbeitung in diese diskreten, handhabbaren Teile zerlegt werden. Schritt der Datenvorverarbeitung. Während Menschen Sprache als einen Strom von Wörtern oder Bilder als eine kontinuierliche Szene wahrnehmen, müssen Algorithmen diese Eingaben in standardisierte Elemente zerlegt werden, um Berechnungen effizient durchführen zu können.

Token vs. Tokenisierung

Um zu verstehen, wie moderne Deep-Learning-Systeme zu verstehen, ist es wichtig, zwischen der Dateneinheit und dem Prozess, der sie erzeugt, zu unterscheiden. Diese Unterscheidung wird wird oft durch den Vergleich des "Was" mit dem "Wie" verdeutlicht.

  • Token: Dies ist die Ausgabe - das eigentliche Datenpaket, das in das Modell eingegeben wird. In der Textverarbeitung kann ein Token ein ganzes Wort, einen Teil eines Wortes (Teilwort) oder ein einzelnes Zeichen darstellen. Bei Computer Vision repräsentiert es oft einen bestimmten Bereich von Pixeln.
  • Tokenisierung: Dies ist der algorithmischer Prozess der Aufteilung der Rohdaten in Token. Spezialisierte Tools in Bibliotheken wie z.B. spaCy oder NLTK die Regeln dafür, wo ein Token Token endet und das nächste beginnt.

Die Rolle von Token in KI-Architekturen

Nach der Tokenisierung der Daten werden die resultierenden Token nicht direkt als Textstrings oder Bildfelder verwendet. Stattdessen werden sie numerischen Vektoren zugeordnet, die als Einbettungen bekannt sind. Diese hochdimensionalen Vektoren erfassen die semantische Bedeutung und die Beziehungen zwischen den Token, so dass Frameworks wie PyTorch mathematische Operationen mit ihnen durchführen können.

Text-Token im NLP

Unter Verarbeitung natürlicher Sprache (NLP), sind Token die Eingaben für Große Sprachmodelle (LLMs) wie die GPT-Reihe. Moderne Modelle verwenden typischerweise Algorithmen zur Tokenisierung von Teilwörtern, wie z.B. Byte-Paar-Kodierung (BPE). Diese Methode schafft ein Gleichgewicht Effizienz und Wortschatzgröße aus, indem häufige Wörter als einzelne Token beibehalten und seltene Wörter in sinnvolle Silben.

Visuelle Token in der Computer Vision

Das Konzept der Token hat die Bildanalyse durch Architekturen wie den Vision Transformer (ViT). Anstatt Pixel durch Faltung zu verarbeiten, unterteilen diese Modelle ein Bild in ein Raster von Feldern fester Größe (z.B. 16x16 Pixel). Jedes Feld wird abgeflacht und als "visuelles Token" behandelt, was den Einsatz von leistungsstarken Transformer-Mechanismen wie Self-Attention, um den globalen Kontext innerhalb eines einem Bild zu verstehen.

Anwendungsfälle in der Praxis

Token sind die Bausteine für einige der fortschrittlichsten KI-Funktionen, die es heute gibt.

  1. Objekt-Erkennung mit offenem Vokabular: Modelle wie YOLO verwenden einen multimodalen Ansatz, bei dem Text und Bild Token interagieren. Benutzer können benutzerdefinierte Klassen (z. B. "blauer Rucksack") als Textaufforderungen definieren. Das Modell Tokenisiert diese Aufforderungen und gleicht sie mit visuellen Token im Bild ab, um eine Zero-Shot-Learning-Erkennung durchzuführen, ohne dass ein Umlernen.
  2. Generative KI und Chatbots: Bei der Interaktion mit einem Chatbot, verwendet das System Textgenerierung zur Vorhersage des wahrscheinlichsten nächsten Token in einer Sequenz vorherzusagen. Diese Vorhersage von Token zu Token ermöglicht die Erstellung kohärenter und kontextbezogener Antworten, die Anwendungen vom Kundensupport bis zur Codevervollständigung vorantreiben.

Beispiel: Verwendung von Text-Tokens für die Erkennung

Das folgende Beispiel zeigt, wie die ultralytics Paket nutzt Token hinter den Kulissen. Durch einer Liste von Textklassen identifiziert das Modell diese Eingaben mit Token, um bestimmte Objekte in einem Bild dynamisch zu identifizieren.

from ultralytics import YOLO

# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")

# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])

# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Das Verständnis von Token ist entscheidend, um zu verstehen, wie Modelle die Lücke zwischen unstrukturierten zwischen unstrukturierten menschlichen Daten und computergestütztem Verständnis. Bildklassifikation oder komplexe Sprach Aufgaben.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten