Glossar

Tokenisierung

Entdecken Sie die Leistungsfähigkeit der Tokenisierung in NLP und ML! Erfahren Sie, wie die Zerlegung von Text in Token KI-Aufgaben wie Sentimentanalyse und Texterstellung verbessert.

Die Tokenisierung ist der grundlegende Prozess der Zerlegung eines Datenstroms, z. B. eines Rohtextes oder eines Bildes, in kleinere, diskrete Einheiten, die Token genannt werden. Dies ist ein wichtiger erster Schritt in der Datenvorverarbeitungspipeline für fast alle Systeme der künstlichen Intelligenz (KI). Durch die Konvertierung unstrukturierter Daten in ein standardisiertes Format ermöglicht die Tokenisierung den maschinellen Lernmodellen, Muster effektiv zu interpretieren, zu analysieren und zu lernen. Ohne diesen Schritt wären die meisten Modelle nicht in der Lage, die umfangreichen und vielfältigen Daten zu verarbeiten, die die Grundlage für moderne KI-Anwendungen bilden.

Relevanz und Anwendungen in der realen Welt

Die Tokenisierung ist von entscheidender Bedeutung, da die meisten Deep-Learning-Architekturen eher numerische Eingaben als Rohtext oder Pixel benötigen. Durch die Konvertierung von Daten in diskrete Token können wir diese Token dann auf numerische Darstellungen, wie z. B. Einbettungen, abbilden. Diese numerischen Vektoren erfassen semantische Bedeutungen und Beziehungen, so dass Modelle, die mit Frameworks wie PyTorch oder TensorFlow erstellt wurden, aus den Daten lernen können. Dieser grundlegende Schritt ist die Basis zahlreicher KI-Anwendungen:

Verarbeitung natürlicher Sprache (NLP): Tokenisierung ist für fast alle NLP-Aufgaben von zentraler Bedeutung.
- Maschinelle Übersetzung: Dienste wie Google Translate zerlegen den Eingabesatz in der Ausgangssprache in Token, verarbeiten diese Token mit Hilfe komplexer Modelle (die häufig auf der Transformer-Architektur basieren) und erzeugen dann Token in der Zielsprache, die schließlich zum übersetzten Satz zusammengesetzt werden.
- Stimmungsanalyse: Um festzustellen, ob eine Kundenrezension positiv oder negativ ist, wird der Text zunächst mit Token versehen. Das Modell analysiert dann diese Token, um die allgemeine Stimmung zu klassifizieren. Erfahren Sie mehr über Stimmungsanalyse. Techniken wie das Prompt-Tuning basieren ebenfalls auf der Manipulation von Token-Sequenzen. Für Entwickler bieten Bibliotheken wie spaCy und NLTK leistungsstarke Tokenisierungs-Tools.
Computer Vision (CV): Obwohl das Konzept traditionell mit NLP in Verbindung gebracht wird, erstreckt es sich auch auf die Computer Vision.
- Bildumwandler (ViT): Bei Modellen wie Vision Transformers (ViT) werden Bilder in Bereiche fester Größe unterteilt. Wie in der ursprünglichen ViT-Forschungsarbeit erläutert, werden diese Flecken als "visuelle Token" behandelt und in Sequenzen abgeflacht. Diese Sequenzen werden dann in ein Transformer-Netzwerk eingespeist, das Mechanismen wie die Selbstaufmerksamkeit nutzt, um Beziehungen zwischen verschiedenen Bildteilen zu verstehen. Dies ermöglicht Aufgaben wie Bildklassifizierung und Objekterkennung.
- Multimodale Modelle: Modelle wie CLIP und YOLO-World schlagen eine Brücke zwischen Sehen und Sprache, indem sie sowohl Text- als auch visuelle Token verarbeiten, um Aufgaben wie die Erkennung von Objekten mit Nullschüssen zu erfüllen. Auch fortschrittliche Bildsegmentierungsmodelle wie das Segment Anything Model (SAM) verwenden tokenähnliche Konzepte.

Gängige Tokenisierungsmethoden

Es gibt verschiedene Strategien für die Tokenisierung von Daten, die jeweils ihre eigenen Kompromisse mit sich bringen. Die Wahl der Methode kann die Modellleistung erheblich beeinflussen.

Wort-basierte Tokenisierung: Bei dieser Methode wird der Text anhand von Leerzeichen und Interpunktion zerlegt. Sie ist zwar einfach und intuitiv, hat aber Probleme mit großen Vokabeln und Wörtern außerhalb des Vokabulars (Wörter, die während des Trainings nicht gesehen wurden).
Zeichenbasierte Tokenisierung: Bei dieser Methode wird der Text in einzelne Zeichen zerlegt. Sie löst das Problem des fehlenden Wortschatzes, kann aber zu sehr langen Sequenzen führen, bei denen die semantische Bedeutung auf hoher Ebene verloren geht, was es den Modellen erschwert, Beziehungen zwischen den Wörtern zu lernen.
Tokenisierung von Teilwörtern: Dies ist ein hybrider Ansatz, der zum Standard für moderne NLP-Modelle geworden ist. Er zerlegt Wörter in kleinere, sinnvolle Untereinheiten. Häufige Wörter bleiben als einzelne Token erhalten, während seltene Wörter in mehrere Teilwort-Token aufgeteilt werden. Mit dieser Methode lassen sich komplexe Wörter effizient verarbeiten und das Problem des fehlenden Wortschatzes wird vermieden. Beliebte Algorithmen sind Byte Pair Encoding (BPE) und WordPiece, die in Modellen wie BERT und GPT verwendet werden.

Tokenisierung vs. Tokens

Es ist wichtig, zwischen "Tokenisierung" und einem"Token" zu unterscheiden.

Tokenisierung: Bezieht sich auf den Prozess der Zerlegung von Daten in kleinere Einheiten. Dies ist ein Vorverarbeitungsschritt, der für die Funktionsweise von Sprachmodellen grundlegend ist.
Token: Bezieht sich auf das Ergebnis des Tokenisierungsprozesses - die einzelne Einheit (Wort, Teilwort, Zeichen oder Bildfeld), die das Modell verarbeitet.

Das Verständnis der Tokenisierung ist von grundlegender Bedeutung, um zu verstehen, wie KI-Modelle verschiedene Datentypen interpretieren und daraus lernen. Für die Verwaltung von Datensätzen und das Training von Modellen werden häufig Plattformen wie Ultralytics HUB eingesetzt, die die Vorverarbeitung von Daten und die Arbeitsabläufe für das Training von Modellen optimieren. Im Zuge der Weiterentwicklung der KI passen sich die Tokenisierungsmethoden weiter an und spielen eine Schlüsselrolle beim Aufbau anspruchsvollerer Modelle für Aufgaben, die von der Texterstellung bis zum komplexen visuellen Verständnis in Bereichen wie autonomen Fahrzeugen und medizinischer Bildanalyse reichen.

Tokenisierung

Trainieren Sie Ultralytics YOLO-Modelle zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Relevanz und Anwendungen in der realen Welt

Gängige Tokenisierungsmethoden

Tokenisierung vs. Tokens

Lesen Sie mehr in dieser Kategorie

Erkennung von Knickfrakturen des Handgelenks mit Hilfe von Computer Vision

Wie man mit Computer Vision erkennt, ob eine Drachenfrucht reif ist

Zellsegmentierung: Was sie ist und wie Vision AI sie verbessert

Werden Sie Mitglied der Ultralytics-Gemeinschaft