CV-Projekte mit den Open-Source-Tools von Hugging Face vorantreiben

Abirami Vina

5 Minuten lesen

11. Februar 2025

Erleben Sie mit uns eine Keynote von der YOLO Vision 2024, die sich mit der Frage beschäftigt, wie die Open-Source-Tools von Hugging Face die KI-Entwicklung vorantreiben.

Die Auswahl der richtigen Algorithmen ist nur ein Teil der Entwicklung wirkungsvoller Computer-Vision-Lösungen. KI-Ingenieure arbeiten oft mit großen Datensätzen, stimmen Modelle für bestimmte Aufgaben ab und optimieren KI-Systeme für die Leistung in der Praxis. Da sich KI-Anwendungen immer schneller durchsetzen, wächst auch der Bedarf an Tools, die diese Prozesse vereinfachen.

Auf der YOLO Vision 2024 (YV24), der jährlichen Hybrid-Veranstaltung von Ultralytics, kamen KI-Experten und Technikbegeisterte zusammen, um die neuesten Innovationen im Bereich der Computer Vision zu erkunden. Die Veranstaltung regte Diskussionen zu verschiedenen Themen an, wie z. B. zu Möglichkeiten, die Entwicklung von KI-Anwendungen zu beschleunigen.

Ein wichtiger Höhepunkt der Veranstaltung war eine Keynote über Hugging Face, eine Open-Source-KI-Plattform, die das Training, die Optimierung und den Einsatz von Modellen vereinfacht. Pavel Lakubovskii, ein Ingenieur für maschinelles Lernen bei Hugging Face, erläuterte, wie seine Tools die Arbeitsabläufe für Computer-Vision-Aufgaben wie die Erkennung von Objekten in Bildern, die Kategorisierung von Bildern in verschiedene Gruppen und die Erstellung von Vorhersagen ohne vorheriges Training an spezifischen Beispielen (Zero-Shot-Learning) verbessern.

Hugging Face Hub hostet und bietet Zugang zu verschiedenen KI- und Computer-Vision-Modellen wie Ultralytics YOLO11. In diesem Artikel fassen wir die wichtigsten Erkenntnisse aus Pavels Vortrag zusammen und zeigen, wie Entwickler die Open-Source-Tools von Hugging Face nutzen können, um KI-Modelle schnell zu erstellen und einzusetzen.

__wf_reserved_inherit
Bild 1. Pavel auf der Bühne bei YV24.

Hugging Face Hub unterstützt schnellere KI-Entwicklung

Pavel begann seinen Vortrag mit der Vorstellung von Hugging Face, einer Open-Source-KI-Plattform, die bereits trainierte Modelle für eine Vielzahl von Anwendungen bietet. Diese Modelle wurden für verschiedene Bereiche der KI entwickelt, darunter die Verarbeitung natürlicher Sprache (NLP), Computer Vision und multimodale KI, so dass Systeme verschiedene Arten von Daten wie Text, Bilder und Audio verarbeiten können.

Pavel erwähnte, dass Hugging Face Hub inzwischen mehr als 1 Million Modelle beherbergt und Entwickler leicht Modelle finden können, die für ihre spezifischen Projekte geeignet sind. Hugging Face zielt darauf ab, die KI-Entwicklung zu vereinfachen, indem es Tools für das Training, die Feinabstimmung und den Einsatz von Modellen anbietet. Wenn Entwickler mit verschiedenen Modellen experimentieren können, vereinfacht dies den Prozess der Integration von KI in reale Anwendungen.

Ursprünglich war Hugging Face für NLP bekannt, hat sich aber inzwischen auf Computer Vision und multimodale KI ausgeweitet und ermöglicht es Entwicklern, ein breiteres Spektrum an KI-Aufgaben zu bewältigen. Es gibt auch eine starke Community, in der Entwickler zusammenarbeiten, Erkenntnisse austauschen und über Foren, Discord und GitHub Unterstützung erhalten können.

Erforschung von Hugging Face Modellen für Computer Vision Anwendungen

Pavel erläuterte ausführlich, wie die Tools von Hugging Face die Entwicklung von Bildverarbeitungsanwendungen erleichtern. Entwickler können sie für Aufgaben wie Bildklassifizierung, Objekterkennung und Bildverarbeitungssprachanwendungen verwenden.

Er wies auch darauf hin, dass viele dieser Computer-Vision-Aufgaben mit vortrainierten Modellen gelöst werden können, die auf dem Hugging Face Hub zur Verfügung stehen, was Zeit spart, da das Training von Grund auf entfällt. Tatsächlich bietet Hugging Face über 13.000 vortrainierte Modelle für Bildklassifizierungsaufgaben, darunter solche für die Klassifizierung von Lebensmitteln, Haustieren und Emotionen.

Er betonte die Zugänglichkeit dieser Modelle und sagte: "Sie müssen wahrscheinlich nicht einmal ein Modell für Ihr Projekt trainieren - vielleicht finden Sie eines im Hub, das bereits von jemandem aus der Gemeinschaft trainiert wurde." 

Umarmende Gesichtsmodelle für die Objekterkennung 

Als weiteres Beispiel erläuterte Pavel, wie Hugging Face bei der Objekterkennung helfen kann, einer Schlüsselfunktion in der Computer Vision, die zur Identifizierung und Lokalisierung von Objekten in Bildern verwendet wird. Selbst bei begrenzten beschrifteten Daten können die auf dem Hugging Face Hub verfügbaren vortrainierten Modelle die Objekterkennung effizienter machen. 

Er gab auch einen kurzen Überblick über verschiedene Modelle, die für diese Aufgabe gebaut wurden und die Sie auf Hugging Face finden können:

  • Modelle zur Objekterkennung in Echtzeit: Für dynamische Umgebungen, in denen es auf Geschwindigkeit ankommt, bieten Modelle wie Detection Transformer (DETR) Möglichkeiten zur Objekterkennung in Echtzeit. DETR wird auf dem COCO-Datensatz trainiert und ist darauf ausgelegt, multiskalige Merkmale effizient zu verarbeiten, wodurch es sich für zeitkritische Anwendungen eignet.
  • Vision-Sprachmodelle: Diese Modelle kombinieren Bild- und Textverarbeitung und ermöglichen es KI-Systemen, Bilder mit Beschreibungen abzugleichen oder Objekte über ihre Trainingsdaten hinaus zu erkennen. Beispiele sind CLIP und SigLIP, die die Bildsuche durch die Verknüpfung von Text und Bildmaterial verbessern und KI-Lösungen in die Lage versetzen, neue Objekte zu erkennen, indem sie ihren Kontext verstehen.
  • Modelle für die Erkennung von Objekten in Nullkommanichts: Sie können Objekte erkennen, die sie zuvor nicht gesehen haben, indem sie die Beziehung zwischen Bildern und Text verstehen. Beispiele hierfür sind OwlVit, GroundingDINO und OmDet, die Zero-Shot-Lernen verwenden, um neue Objekte zu erkennen, ohne dass sie beschriftete Trainingsdaten benötigen.

So verwenden Sie die Hugging Face-Modelle

Pavel verlagerte dann den Schwerpunkt auf die praktische Arbeit mit den Hugging-Face-Modellen und erläuterte drei Möglichkeiten, wie Entwickler diese nutzen können: Erkunden von Modellen, schnelles Testen und weiteres Anpassen der Modelle.

Er demonstrierte, wie Entwickler Modelle direkt auf dem Hugging Face Hub durchsuchen können, ohne Code zu schreiben, was es einfach macht, Modelle sofort über eine interaktive Schnittstelle zu testen. "Sie können es ausprobieren, ohne auch nur eine Zeile Code zu schreiben oder das Modell auf Ihren Computer herunterzuladen", fügte Pavel hinzu. Da einige Modelle sehr groß sind, können sie auf dem Hub ausgeführt werden, um Speicher- und Verarbeitungsbeschränkungen zu vermeiden.

__wf_reserved_inherit
Abb. 2. So verwenden Sie Hugging Face-Modelle.

Außerdem können Entwickler mit der Hugging Face Inference API KI-Modelle mit einfachen API-Aufrufen ausführen. Sie eignet sich hervorragend für schnelle Tests, Proof-of-Concept-Projekte und Rapid Prototyping, ohne dass eine komplexe Einrichtung erforderlich ist.

Für fortgeschrittenere Anwendungsfälle können Entwickler das Hugging Face Transformers-Framework nutzen, ein Open-Source-Tool, das bereits trainierte Modelle für Text-, Bild- und Audioaufgaben bereitstellt und sowohl PyTorch als auch TensorFlow unterstützt. Pavel erklärte, dass Entwickler mit nur zwei Zeilen Code ein Modell aus dem Hugging Face Hub abrufen und es mit einem Vorverarbeitungstool, wie einem Bildprozessor, verknüpfen können, um Bilddaten für Vision AI-Anwendungen zu analysieren.

Optimierung von KI-Workflows mit Hugging Face

Anschließend erläuterte Pavel, wie Hugging Face KI-Workflows rationalisieren kann. Ein wichtiges Thema war die Optimierung des Aufmerksamkeitsmechanismus in Transformers, einer zentralen Funktion von Deep-Learning-Modellen, die dabei hilft, sich auf die wichtigsten Teile der Eingabedaten zu konzentrieren. Dies verbessert die Genauigkeit von Aufgaben in den Bereichen Sprachverarbeitung und Computer Vision. Allerdings kann dies ressourcenintensiv sein.

Durch die Optimierung des Aufmerksamkeitsmechanismus kann die Speichernutzung erheblich reduziert und gleichzeitig die Geschwindigkeit erhöht werden. Pavel wies darauf hin: "Wenn man zum Beispiel zu einer effizienteren Aufmerksamkeitsimplementierung wechselt, kann man eine bis zu 1,8-fach höhere Leistung erzielen."

Hugging Face bietet integrierte Unterstützung für effizientere Aufmerksamkeitsimplementierungen innerhalb des Transformers-Frameworks. Entwickler können diese Optimierungen aktivieren, indem sie beim Laden eines Modells einfach eine alternative Aufmerksamkeitsimplementierung angeben.

Optimum und Torch Compile

Er sprach auch über die Quantisierung, eine Technik, die KI-Modelle kleiner macht, indem sie die Genauigkeit der verwendeten Zahlen reduziert, ohne die Leistung zu sehr zu beeinträchtigen. Dadurch benötigen die Modelle weniger Speicherplatz und laufen schneller, was sie für Geräte mit begrenzter Rechenleistung, wie Smartphones und eingebettete Systeme, besser geeignet macht.

Um die Effizienz weiter zu verbessern, stellte Pavel die Hugging Face Optimum-Bibliothek vor, eine Reihe von Tools zur Optimierung und Bereitstellung von Modellen. Mit nur wenigen Codezeilen können Entwickler Quantisierungstechniken anwenden und Modelle in effiziente Formate wie ONNX (Open Neural Network Exchange) konvertieren, sodass sie problemlos auf verschiedenen Hardwaretypen, einschließlich Cloud-Servern und Edge-Geräten, ausgeführt werden können.

__wf_reserved_inherit
Abbildung 3. Pavel sprach über die Optimum-Bibliothek und ihre Funktionen.

Schließlich erwähnte Pavel die Vorteile von Torch Compile, einer Funktion in PyTorch, die die Verarbeitung von Daten durch KI-Modelle optimiert, so dass diese schneller und effizienter laufen. Hugging Face integriert Torch Compile in seine Transformers- und Optimum-Bibliotheken, so dass Entwickler mit minimalen Code-Änderungen von diesen Leistungsverbesserungen profitieren können. 

Durch die Optimierung der Berechnungsstruktur des Modells kann Torch Compile die Inferenzzeiten beschleunigen und die Bildwiederholrate von 29 auf 150 Bilder pro Sekunde erhöhen, ohne die Genauigkeit oder Qualität zu beeinträchtigen.

Einsatz von Modellen mit Hugging Face Tools

Anschließend ging Pavel kurz darauf ein, wie Entwickler Vision AI-Modelle mit Hilfe von Hugging Face-Tools erweitern und einsetzen können, nachdem sie das richtige Modell ausgewählt und den besten Ansatz für die Entwicklung gewählt haben.

So können Entwickler beispielsweise interaktive KI-Anwendungen mit Gradio und Streamlit bereitstellen. Gradio ermöglicht es Entwicklern, webbasierte Schnittstellen für Machine-Learning-Modelle zu erstellen, während Streamlit dabei hilft, interaktive Datenanwendungen mit einfachen Python-Skripten zu erstellen. 

Pavel wies auch darauf hin, dass "man nicht alles von Grund auf neu schreiben muss", und verwies auf die Leitfäden, Schulungsnotizen und Beispielskripte, die Hugging Face bereitstellt. Diese Ressourcen helfen den Entwicklern, schnell loszulegen, ohne alles von Grund auf neu erstellen zu müssen.

__wf_reserved_inherit
Abb. 4. Pavel bei der Diskussion über die Möglichkeiten von Hugging Face bei YV24.

Vorteile von Hugging Face Hub 

Zum Abschluss seiner Keynote fasste Pavel die Vorteile der Nutzung von Hugging Face Hub zusammen. Er betonte, wie es die Modellverwaltung und Zusammenarbeit vereinfacht. Er wies auch auf die Verfügbarkeit von Leitfäden, Notizbüchern und Tutorials hin, die sowohl Anfängern als auch Experten helfen können, KI-Modelle zu verstehen und zu implementieren.

"Es gibt bereits eine Menge cooler Räume auf dem Hub. Sie können ähnliche finden, den gemeinsamen Code klonen, ein paar Zeilen ändern, das Modell durch Ihr eigenes ersetzen und es zurückschieben", erklärte er und ermutigte die Entwickler, die Flexibilität der Plattform zu nutzen.

Die wichtigsten Erkenntnisse 

Während seines Vortrags bei YV24 erzählte Pavel, wie Hugging Face Tools anbietet, die das Training, die Optimierung und den Einsatz von KI-Modellen unterstützen. Zum Beispiel können Innovationen wie Transformers, Optimum und Torch Compile Entwicklern helfen, die Modellleistung zu verbessern.

Da KI-Modelle immer effizienter werden, erleichtern Fortschritte bei der Quantisierung und dem Edge Deployment die Ausführung auf Geräten mit begrenzten Ressourcen. Diese Verbesserungen in Kombination mit Tools wie Hugging Face und fortschrittlichen Computer-Vision-Modellen wie Ultralytics YOLO11 sind der Schlüssel zum Aufbau skalierbarer, leistungsstarker Vision-KI-Anwendungen.

Werden Sie Teil unserer wachsenden Gemeinschaft! Erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren, und nutzen Sie unsere yolo-Lizenzen, um Ihre Vision-KI-Projekte zu starten. Interessieren Sie sich für Innovationen wie Computer Vision im Gesundheitswesen oder Computer Vision in der Landwirtschaft? Besuchen Sie unsere Lösungsseiten, um mehr zu erfahren!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert