Glossar

Token

Lerne, wie Tokens, die Bausteine von KI-Modellen, NLP, Computer Vision und Aufgaben wie Sentimentanalyse und Objekterkennung unterstützen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML), insbesondere bei der Verarbeitung natürlicher Sprache (NLP) und zunehmend auch bei der Computer Vision, stellt ein "Token" die kleinste Einheit von Daten dar, die ein Modell verarbeitet. Token sind die grundlegenden Bausteine, die KI-Modelle verwenden, um Informationen zu verstehen und zu analysieren, egal ob es sich um Text, Bilder oder andere Daten handelt. Sie sind unverzichtbar, wenn es darum geht, rohe Eingaben in ein Format umzuwandeln, das Algorithmen interpretieren und daraus lernen können, und bilden die Grundlage für viele komplexe KI-Aufgaben.

Token verstehen

Tokens sind die diskreten Ausgaben eines Prozesses namens Tokenisierung. Im NLP kann zum Beispiel ein Satz wieUltralytics YOLO ist schnell und genau" in einzelne Wörter tokenisiert werden: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]. Je nach der spezifischen Tokenisierungsstrategie können Token auch Teilworteinheiten (z. B. "Ultra", "lytics") oder sogar einzelne Zeichen sein. Durch diese Aufschlüsselung werden Fließtext oder komplexe Daten in überschaubare Teile zerlegt.

Der Grund, warum Tokens so wichtig sind, ist, dass die meisten Deep-Learning-Modelle, einschließlich leistungsfähiger Architekturen wie Transformers, die in vielen modernen KI-Systemen verwendet werden, unstrukturierte Rohdaten nicht direkt verarbeiten können. Sie benötigen Eingaben in einem strukturierten, oft numerischen, Format. Die Tokenisierung bildet diese Brücke. Nach der Tokenisierung der Daten wird jedes Token in der Regel auf eine numerische Repräsentation abgebildet, z. B. eine ID in einem Vokabular oder, was noch häufiger vorkommt, eine dichte Vektordarstellung, die sogenannte Einbettung. Diese Einbettungen erfassen die semantischen Beziehungen zwischen den Token, die die Modelle beim Training lernen.

Tokenisierungsmethoden

Es gibt verschiedene Methoden, um Daten in Token zu zerlegen:

  • Wortbasierte Tokenisierung: Teilt den Text anhand von Leerzeichen und Interpunktion auf. Einfach, aber schwierig bei großem Wortschatz und unbekannten Wörtern.
  • Zeichenbasierte Tokenisierung: Verwendet einzelne Zeichen als Token. Kann jedes Wort verarbeiten, führt aber zu sehr langen Sequenzen.
  • Subword Tokenization: Ein Gleichgewicht zwischen Wort- und Zeichenmethoden. Techniken wie Byte Pair Encoding (BPE) oder WordPiece zerlegen Wörter in gemeinsame Untereinheiten und können so effizient mit großen Wortbeständen und seltenen Wörtern umgehen. Diese Verfahren werden häufig in Large Language Models (LLMs) verwendet.

Tokens vs. Verwandte Konzepte

Es ist wichtig, Token von verwandten Begriffen zu unterscheiden:

  • Token vs. Tokenisierung: Ein Token ist die Ausgabeeinheit (z. B.Ultralytics", "Bildpatch"), während die Tokenisierung der Prozess ist, bei dem diese Einheiten aus den Rohdaten erstellt werden.
  • Token vs. Einbetten: Ein Token ist eine diskrete Einheit der Eingabe. Ein Embedding ist in der Regel ein dichter numerischer Vektor, der das Token repräsentiert und seine Bedeutung so erfasst, dass das Modell sie verstehen kann. Token werden oft in Worteinbettungen oder visuelle Einbettungen umgewandelt, bevor sie in das Modell eingespeist werden.

Anwendungen von Token

Token sind in verschiedenen KI-Bereichen von grundlegender Bedeutung. Hier sind zwei konkrete Beispiele:

  1. Maschinelle Übersetzung: Bei Diensten wie Google Translate wird ein Eingabesatz in einer Sprache zunächst mit Token versehen. Diese Token werden von einem Sequenz-zu-Sequenz-Modell (oft ein Transformer) verarbeitet, das dann Token für den übersetzten Satz in der Zielsprache erzeugt. Die Wahl der Tokenisierung hat einen großen Einfluss auf die Genauigkeit und den Fluss der Übersetzung. LLMs wie GPT-4 und BERT verlassen sich bei Aufgaben wie Übersetzung, Texterstellung und Stimmungsanalyse stark auf die Token-Verarbeitung. Techniken wie Prompt-Tuning und Prompt-Chaining beinhalten die Manipulation von Eingabe-Token-Sequenzen, um das Modellverhalten zu steuern.

  2. Computer Vision mit Transformers: Während Tokens traditionell mit NLP in Verbindung gebracht werden, sind sie jetzt auch für fortschrittliche Computer Vision Modelle wie Vision Transformers (ViTs) von zentraler Bedeutung. Bei einem ViT wird ein Bild in nicht überlappende Bereiche fester Größe unterteilt (z. B. 16 x 16 Pixel). Jedes Feld wird als ein "visuelles Token" behandelt. Diese Token werden linear eingebettet und in eine Transformer-Architektur eingespeist, die mit Hilfe von Aufmerksamkeitsmechanismen die Beziehungen zwischen verschiedenen Teilen des Bildes analysiert. Dieser Ansatz wird für Aufgaben wie Bildklassifizierung, Objekterkennung und Bildsegmentierung verwendet. Modelle wie das Segment Anything Model (SAM) nutzen diesen tokenbasierten Ansatz. Auch in Faltungsmodellen wie Ultralytics YOLOv8 oder dem neueren Ultralytics YOLO11kann das für die Erkennung verwendete Rasterzellensystem als eine implizite Form der räumlichen Tokenisierung angesehen werden.

Um zu verstehen, wie KI-Modelle Informationen interpretieren und verarbeiten, ist das Verständnis von Token grundlegend. Im Zuge der Weiterentwicklung der KI werden das Konzept der Token und die Methoden zu ihrer Erstellung auch weiterhin von zentraler Bedeutung sein, wenn es darum geht, verschiedene Datentypen zu verarbeiten und anspruchsvollere Modelle für Anwendungen von der medizinischen Bildanalyse bis hin zu autonomen Fahrzeugen zu entwickeln. Plattformen wie Ultralytics HUB bieten Werkzeuge zur Verwaltung von Datensätzen und zum Trainieren von Modellen, die oft implizit oder explizit mit Token versehen sind.

Alles lesen