Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Sofortige Komprimierung

Erfahren Sie, wie die Prompt-Komprimierung die Effizienz von KI optimiert. Erfahren Sie noch heute, wie Sie mit Ultralytics den Token-Verbrauch von LLMs reduzieren, Kosten senken und die Inferenzgeschwindigkeit steigern können.

Die Prompt-Komprimierung ist eine fortschrittliche Optimierungstechnik, die darauf abzielt, die Länge und Komplexität von Eingabetext zu reduzieren, der großen Sprachmodellen (LLMs) und multimodalen Modellen bereitgestellt wird. Durch das algorithmische Entfernen von redundanten Wörtern, irrelevantem Kontext und Stoppwörtern unter Beibehaltung der semantischen Kernbedeutung ermöglicht die Prompt-Kompression KI-Systemen eine effizientere Verarbeitung von Informationen. Diese Methode wird zunehmend wichtiger für die Minimierung von Rechenkosten, die Verringerung der Inferenzlatenz und die Verhinderung, dass Modelle ihr maximales Kontextfenster überschreiten.

So funktioniert die sofortige Komprimierung

Auf architektonischer Ebene nutzt die Prompt-Komprimierung häufig kleinere, spezialisierte Modelle oder informationstheoretische Algorithmen, um die Bedeutung jedes Tokens in einem bestimmten Prompt zu bewerten. Techniken wie Token-Zusammenführung und entropiebasiertes Pruning identifizieren und entfernen Tokens, die wenig zur Gesamtbedeutung beitragen. Dadurch wird sichergestellt, dass die endgültige Eingabe nur die am dichtesten gepackten Informationen enthält.

Aktuelle Forschungsergebnisse renommierter Organisationen zeigen, dass stark komprimierte Prompts die Leistungsfähigkeit bei komplexen Denkaufgaben aufrechterhalten und gleichzeitig den Token-Verbrauch deutlich senken können. Für Entwickler, die KI in skalierbare Anwendungen integrieren, ist die Einhaltung der Richtlinien zur Prompt-Optimierung von OpenAI und der Einsatz von Komprimierungs-Frameworks eine gängige Best Practice für eine effiziente Bereitstellung.

Anwendungsfälle in der Praxis

Die On-the-Fly-Komprimierung bietet unmittelbaren Nutzen in Szenarien, in denen umfangreiche Text- oder Bilddaten schnell verarbeitet werden müssen:

  • Retrieval-Augmented Generation (RAG): In Suchanwendungen für Unternehmen rufen RAG-Pipelines häufig Dutzende umfangreicher Dokumente ab, um eine einzelne Benutzeranfrage zu beantworten. Algorithmen zur Prompt-Komprimierung verkleinern diese abgerufenen Dokumente und verdichten sie zu prägnanten, sachlichen Zusammenfassungen, bevor sie an das Generierungsmodell weitergeleitet werden. Dies verhindert einen Token-Überlauf und beschleunigt die Echtzeit-Inferenz.
  • Autonome KI-Agenten: Agenten und Chatbots müssen sich langfristig an die Interaktionen mit den Nutzern erinnern. Anstatt den gesamten Konversationsverlauf bei jeder neuen Anfrage zu übermitteln, fassen Komprimierungstechniken ältere Dialogrunden zusammen und stellen so sicher, dass der Agent den Kontext beibehält, ohne dass dabei exponentielle Rechenkosten entstehen.

Prompt-Komprimierung im Vergleich zu verwandten Techniken

Um robuste Machine-Learning-Operations-Pipelines (MLOps) aufzubauen, ist es wichtig, die Prompt-Komprimierung von verwandten Konzepten zu unterscheiden:

  • Im Gegensatz zum Prompt-Caching: Beim Caching werden die internen Rechenzustände zuvor verarbeiteter Texte gespeichert, um eine erneute Berechnung zu vermeiden. Die Komprimierung hingegen verändert und verkürzt den Eingabetext aktiv, bevor die eigentliche Verarbeitung stattfindet.
  • Im Vergleich zu Prompt Engineering: Prompt Engineering ist die von Menschen geleistete Kunst, effektive Anweisungen zu entwerfen. Komprimierung ist eine automatisierte, algorithmische Reduzierung dieser Anweisungen.
  • Im Gegensatz zur Prompt-Anreicherung: Bei der Anreicherung wird ein Prompt durch Hinzufügen von externem Kontext erweitert, während er bei der Komprimierung verkürzt wird. Oft werden beide Verfahren zusammen eingesetzt: Ein System kann einen Prompt mit Datenbankergebnissen anreichern und anschließend die endgültige Payload vor der Inferenz komprimieren.

Anwendung in der Bildverarbeitung

In der Bildverarbeitung (Computer Vision, CV) kommen Prinzipien der Prompt-Komprimierung zum Einsatz, wenn Modelle mit offenem Vokabular verwendet werden, die Textabfragen zur Erkennung von Objekten akzeptieren. Durch prägnante Klassenbeschreibungen wird eine schnellere Textkodierung gewährleistet und der Speicherbedarf reduziert.

In Produktionsumgebungen mit festen Klassen, in denen Geschwindigkeit oberste Priorität hat, wechseln Entwickler in der Regel von textgesteuerten Modellen zu hochoptimierten Modellen mit fester Architektur wie Ultralytics . Mit der Ultralytics können Sie Datensätze effizient verwalten und diese Modelle auf dem neuesten Stand der Technik trainieren.

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens