Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

CV-Projekte mit den Open-Source-Tools von Hugging Face unterstützen

Abirami Vina

5 Min. Lesezeit

11. Februar 2025

Begleiten Sie uns, wenn wir einen Keynote-Vortrag von YOLO Vision 2024 Revue passieren lassen, der sich darauf konzentriert, wie die Open-Source-Tools von Hugging Face die KI-Entwicklung vorantreiben.

Die Wahl der richtigen Algorithmen ist nur ein Teil der Entwicklung wirkungsvoller Computer-Vision-Lösungen. KI-Ingenieure arbeiten oft mit großen Datensätzen, optimieren Modelle für bestimmte Aufgaben und optimieren KI-Systeme für die Leistung in der realen Welt. Da KI-Anwendungen immer schneller eingesetzt werden, wächst auch der Bedarf an Tools, die diese Prozesse vereinfachen.

Auf der YOLO Vision 2024 (YV24), der jährlichen Hybridveranstaltung von Ultralytics, kamen KI-Experten und Technikbegeisterte zusammen, um die neuesten Innovationen im Bereich Computer Vision zu erkunden. Die Veranstaltung regte Diskussionen über verschiedene Themen an, wie z. B. Möglichkeiten zur Beschleunigung der Entwicklung von KI-Anwendungen.

Ein wichtiges Highlight der Veranstaltung war eine Keynote über Hugging Face, eine Open-Source-KI-Plattform, die das Trainieren, Optimieren und Bereitstellen von Modellen vereinfacht. Pavel Lakubovskii, ein Machine Learning Engineer bei Hugging Face, erläuterte, wie die Tools die Arbeitsabläufe für Computer-Vision-Aufgaben verbessern, z. B. das Erkennen von Objekten in Bildern, das Kategorisieren von Bildern in verschiedene Gruppen und das Treffen von Vorhersagen ohne vorheriges Training anhand spezifischer Beispiele (Zero-Shot Learning).

Hugging Face Hub hostet und bietet Zugriff auf verschiedene KI- und Computer Vision-Modelle wie Ultralytics YOLO11. In diesem Artikel fassen wir die wichtigsten Erkenntnisse aus Pavels Vortrag zusammen und zeigen, wie Entwickler die Open-Source-Tools von Hugging Face nutzen können, um KI-Modelle schnell zu erstellen und bereitzustellen.

Abb. 1. Pavel auf der Bühne bei der YV24.

Hugging Face Hub unterstützt eine schnellere KI-Entwicklung

Pavel begann seinen Vortrag mit der Vorstellung von Hugging Face als einer Open-Source-KI-Plattform, die vortrainierte Modelle für eine Vielzahl von Anwendungen anbietet. Diese Modelle sind für verschiedene Bereiche der KI konzipiert, darunter Natural Language Processing (NLP), Computer Vision und multimodale KI, wodurch Systeme verschiedene Datentypen wie Text, Bilder und Audio verarbeiten können.

Pavel erwähnte, dass Hugging Face Hub inzwischen über 1 Million Modelle hostet und Entwickler problemlos Modelle finden können, die für ihre spezifischen Projekte geeignet sind. Hugging Face zielt darauf ab, die KI-Entwicklung zu vereinfachen, indem es Tools für Modelltraining, Feinabstimmung und Bereitstellung anbietet. Wenn Entwickler mit verschiedenen Modellen experimentieren können, vereinfacht dies die Integration von KI in reale Anwendungen.

Obwohl Hugging Face anfänglich für NLP bekannt war, hat es sich inzwischen auf Computer Vision und multimodale KI ausgeweitet, wodurch Entwickler ein breiteres Spektrum an KI-Aufgaben bewältigen können. Es hat auch eine starke Community, in der Entwickler zusammenarbeiten, Erkenntnisse austauschen und Unterstützung über Foren, Discord und GitHub erhalten können.

Erkundung von Hugging Face-Modellen für Computer-Vision-Anwendungen

Pavel ging näher ins Detail und erklärte, wie die Tools von Hugging Face den Aufbau von Computer-Vision-Anwendungen erleichtern. Entwickler können sie für Aufgaben wie Bildklassifizierung, Objekterkennung und Vision-Language-Anwendungen verwenden.

Er wies auch darauf hin, dass viele dieser Computer-Vision-Aufgaben mit vortrainierten Modellen auf dem Hugging Face Hub erledigt werden können, wodurch Zeit gespart wird, da kein Training von Grund auf erforderlich ist. Tatsächlich bietet Hugging Face über 13.000 vortrainierte Modelle für Bildklassifizierungsaufgaben an, darunter solche für Lebensmittelklassifizierung, Haustierklassifizierung und Emotionserkennung.

Er betonte die Zugänglichkeit dieser Modelle und sagte: „Sie müssen wahrscheinlich nicht einmal ein Modell für Ihr Projekt trainieren – Sie finden vielleicht eines im Hub, das bereits von jemandem aus der Community trainiert wurde.“ 

Hugging Face-Modelle für die Objekterkennung 

Ein weiteres Beispiel: Pavel erläuterte, wie Hugging Face bei der Objekterkennung helfen kann, einer Schlüsselfunktion in der Computer Vision, die verwendet wird, um Objekte innerhalb von Bildern zu identifizieren und zu lokalisieren. Selbst mit begrenzten gelabelten Daten können vortrainierte Modelle, die auf dem Hugging Face Hub verfügbar sind, die Objekterkennung effizienter gestalten. 

Er gab auch einen kurzen Überblick über mehrere Modelle, die für diese Aufgabe entwickelt wurden und die Sie auf Hugging Face finden können:

  • Echtzeit-Objekterkennungsmodelle: Für dynamische Umgebungen, in denen Geschwindigkeit entscheidend ist, bieten Modelle wie Detection Transformer (DETR) Echtzeit-Objekterkennungsfunktionen. DETR wird auf dem COCO-Datensatz trainiert und ist so konzipiert, dass es Multiscale-Features effizient verarbeitet, wodurch es sich für zeitkritische Anwendungen eignet.
  • Vision-Language-Modelle: Diese Modelle kombinieren Bild- und Textverarbeitung und ermöglichen es KI-Systemen, Bilder mit Beschreibungen abzugleichen oder Objekte außerhalb ihrer Trainingsdaten zu erkennen. Beispiele hierfür sind CLIP und SigLIP, die die Bildsuche durch die Verknüpfung von Text mit visuellen Elementen verbessern und es KI-Lösungen ermöglichen, neue Objekte durch das Verständnis ihres Kontexts zu identifizieren.
  • Zero-Shot-Objekterkennungsmodelle: Sie können Objekte identifizieren, die sie noch nie zuvor gesehen haben, indem sie die Beziehung zwischen Bildern und Text verstehen. Beispiele hierfür sind OwlVit, GroundingDINO und OmDet, die Zero-Shot-Learning verwenden, um neue Objekte zu erkennen, ohne dass beschriftete Trainingsdaten erforderlich sind.

Wie man die Hugging Face-Modelle verwendet

Pavel verlagerte den Fokus dann auf die praktische Arbeit mit den Hugging Face-Modellen und erläuterte drei Möglichkeiten, wie Entwickler diese nutzen können: Modelle erkunden, sie schnell testen und sie weiter anpassen.

Er demonstrierte, wie Entwickler Modelle direkt auf dem Hugging Face Hub durchsuchen können, ohne Code zu schreiben, was es einfach macht, Modelle sofort über eine interaktive Schnittstelle zu testen. „Sie können es ausprobieren, ohne auch nur eine Zeile Code zu schreiben oder das Modell auf Ihren Computer herunterzuladen“, fügte Pavel hinzu. Da einige Modelle groß sind, hilft das Ausführen auf dem Hub, Speicher- und Verarbeitungseinschränkungen zu vermeiden.

Abb. 2. So verwenden Sie Hugging Face Modelle.

Auch die Hugging Face Inference API ermöglicht es Entwicklern, KI-Modelle mit einfachen API-Aufrufen auszuführen. Sie eignet sich hervorragend für schnelle Tests, Proof-of-Concept-Projekte und Rapid Prototyping, ohne dass eine komplexe Einrichtung erforderlich ist.

Für fortgeschrittenere Anwendungsfälle können Entwickler das Hugging Face Transformers Framework verwenden, ein Open-Source-Tool, das vortrainierte Modelle für Text-, Bild- und Audioaufgaben bereitstellt und sowohl PyTorch als auch TensorFlow unterstützt. Pavel erklärte, dass Entwickler mit nur zwei Codezeilen ein Modell aus dem Hugging Face Hub abrufen und es mit einem Vorverarbeitungstool, wie z. B. einem Bildprozessor, verknüpfen können, um Bilddaten für Vision AI-Anwendungen zu analysieren.

KI-Workflows mit Hugging Face optimieren

Als Nächstes erklärte Pavel, wie Hugging Face KI-Workflows optimieren kann. Ein wichtiges Thema, das er behandelte, war die Optimierung des Aufmerksamkeitsmechanismus in Transformatoren, einem Kernmerkmal von Deep-Learning-Modellen, das ihnen hilft, sich auf die relevantesten Teile der Eingabedaten zu konzentrieren. Dies verbessert die Genauigkeit von Aufgaben, die Sprachverarbeitung und Computer Vision beinhalten. Es kann jedoch ressourcenintensiv sein.

Die Optimierung des Aufmerksamkeitsmechanismus kann den Speicherbedarf erheblich reduzieren und gleichzeitig die Geschwindigkeit verbessern. Pavel wies darauf hin: „Beispielsweise könnte ein Wechsel zu einer effizienteren Aufmerksamkeitsimplementierung eine bis zu 1,8-fach schnellere Leistung ermöglichen.“

Hugging Face bietet integrierte Unterstützung für effizientere Aufmerksamkeitsimplementierungen innerhalb des Transformers-Frameworks. Entwickler können diese Optimierungen aktivieren, indem sie einfach eine alternative Aufmerksamkeitsimplementierung beim Laden eines Modells angeben.

Optimum und Torch Compile

Er sprach auch über Quantisierung, eine Technik, die KI-Modelle verkleinert, indem sie die Präzision der von ihnen verwendeten Zahlen reduziert, ohne die Leistung zu stark zu beeinträchtigen. Dies hilft Modellen, weniger Speicher zu verbrauchen und schneller zu laufen, wodurch sie besser für Geräte mit begrenzter Rechenleistung geeignet sind, wie z. B. Smartphones und eingebettete Systeme.

Um die Effizienz weiter zu steigern, führte Pavel die Hugging Face Optimum-Bibliothek ein, eine Reihe von Tools, die zur Optimierung und Bereitstellung von Modellen entwickelt wurden. Mit nur wenigen Codezeilen können Entwickler Quantisierungstechniken anwenden und Modelle in effiziente Formate wie ONNX (Open Neural Network Exchange) konvertieren, sodass sie reibungslos auf verschiedenen Hardwaretypen ausgeführt werden können, einschließlich Cloud-Servern und Edge-Geräten.

Abb. 3. Pavel sprach über die Optimum-Bibliothek und ihre Funktionen.

Schließlich erwähnte Pavel die Vorteile von Torch Compile, einer Funktion in PyTorch, die die Art und Weise optimiert, wie KI-Modelle Daten verarbeiten, wodurch sie schneller und effizienter laufen. Hugging Face integriert Torch Compile in seine Transformers- und Optimum-Bibliotheken, sodass Entwickler diese Leistungsverbesserungen mit minimalen Codeänderungen nutzen können. 

Durch die Optimierung der Berechnungsstruktur des Modells kann Torch Compile die Inferenzzeiten beschleunigen und die Bildraten von 29 auf 150 Bilder pro Sekunde erhöhen, ohne Kompromisse bei Genauigkeit oder Qualität einzugehen.

Bereitstellung von Modellen mit Hugging Face-Tools

Pavel ging kurz darauf ein, wie Entwickler Vision AI-Modelle mit Hugging Face-Tools erweitern und bereitstellen können, nachdem sie das richtige Modell ausgewählt und den besten Ansatz für die Entwicklung gewählt haben.

Beispielsweise können Entwickler interaktive KI-Anwendungen mit Gradio und Streamlit bereitstellen. Gradio ermöglicht es Entwicklern, webbasierte Schnittstellen für Modelle des maschinellen Lernens zu erstellen, während Streamlit beim Erstellen interaktiver Datenanwendungen mit einfachen Python-Skripten hilft. 

Pavel wies auch darauf hin: “Sie müssen nicht alles von Grund auf neu schreiben” und bezog sich dabei auf die Anleitungen, Trainings-Notebooks und Beispielskripte, die Hugging Face bereitstellt. Diese Ressourcen helfen Entwicklern, schnell loszulegen, ohne alles von Grund auf neu aufbauen zu müssen.

Abb. 4. Pavel diskutiert die Fähigkeiten von Hugging Face auf der YV24.

Vorteile des Hugging Face Hub 

Zum Abschluss seiner Keynote fasste Pavel die Vorteile der Nutzung von Hugging Face Hub zusammen. Er betonte, wie es das Modellmanagement und die Zusammenarbeit vereinfacht. Er wies auch auf die Verfügbarkeit von Anleitungen, Notebooks und Tutorials hin, die sowohl Anfängern als auch Experten helfen können, KI-Modelle zu verstehen und zu implementieren.

"Es gibt bereits viele coole Spaces auf dem Hub. Sie können ähnliche finden, den freigegebenen Code klonen, ein paar Zeilen ändern, das Modell durch Ihr eigenes ersetzen und es zurückschieben", erklärte er und ermutigte Entwickler, die Flexibilität der Plattform zu nutzen.

Wesentliche Erkenntnisse 

Während seines Vortrags auf der YV24 teilte Pavel mit, wie Hugging Face Tools zur Unterstützung des Trainings, der Optimierung und des Deployments von KI-Modellen bereitstellt. So können beispielsweise Innovationen wie Transformers, Optimum und Torch Compile Entwicklern helfen, die Modell-Performance zu verbessern.

Da KI-Modelle immer effizienter werden, erleichtern Fortschritte bei der Quantisierung und Edge-Bereitstellung die Ausführung auf Geräten mit begrenzten Ressourcen. Diese Verbesserungen, kombiniert mit Tools wie Hugging Face und fortschrittlichen Computer-Vision-Modellen wie Ultralytics YOLO11, sind der Schlüssel zum Aufbau skalierbarer, hochleistungsfähiger Vision-AI-Anwendungen.

Treten Sie unserer wachsenden Community bei! Erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren, und sehen Sie sich unsere YOLO-Lizenzen an, um Ihre Vision-AI-Projekte zu starten. Interessieren Sie sich für Innovationen wie Computer Vision im Gesundheitswesen oder Computer Vision in der Landwirtschaft? Besuchen Sie unsere Lösungsseiten, um mehr zu erfahren!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert