Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Veranstaltungen

CV-Projekte mit den Open-Source-Tools von Hugging Face vorantreiben

Sieh dir mit uns noch einmal einen Keynote-Vortrag von der YOLO Vision 2024 an, der sich darauf konzentriert, wie die Open-Source-Tools von Hugging Face die KI-Entwicklung voranbringen.

ABAbirami Vina
5 min read
CV-Projekte mit Open-Source-Tools von Hugging Face vorantreiben

Die Wahl der richtigen Algorithmen ist nur ein Teil der Entwicklung wirkungsvoller Computer-Vision-Lösungen. KI-Entwickler arbeiten oft mit großen Datensätzen, feinabstimmen Modelle für spezifische Aufgaben und optimieren KI-Systeme für die Leistung in der realen Welt. Da KI-Anwendungen immer schneller eingeführt werden, wächst auch der Bedarf an Tools, die diese Prozesse vereinfachen.

Auf dem YOLO Vision 2024 (YV24), dem jährlichen Hybrid-Event von Ultralytics, trafen sich KI-Experten und Technologiebegeisterte, um die neuesten Innovationen im Bereich Computer Vision zu erkunden. Die Veranstaltung regte Diskussionen über verschiedene Themen an, wie zum Beispiel Wege zur Beschleunigung der Entwicklung von KI-Anwendungen.

Ein Höhepunkt der Veranstaltung war eine Keynote über Hugging Face, eine Open-Source-KI-Plattform, die das Training, die Optimierung und die Bereitstellung von Modellen rationalisiert. Pavel Iakubovskii, ein Machine Learning Engineer bei Hugging Face, erläuterte, wie dessen Tools die Arbeitsabläufe für Computer-Vision-Aufgaben verbessern, wie zum Beispiel das Erkennen von Objekten in Bildern, das Kategorisieren von Bildern in verschiedene Gruppen und das Treffen von Vorhersagen ohne vorheriges Training an spezifischen Beispielen (Zero-Shot Learning).

Der Hugging Face Hub hostet und bietet Zugriff auf verschiedene KI- und Computer-Vision-Modelle wie Ultralytics YOLO11. In diesem Artikel fassen wir die wichtigsten Erkenntnisse aus Pavels Vortrag zusammen und zeigen, wie Entwickler die Open-Source-Tools von Hugging Face nutzen können, um KI-Modelle schnell zu erstellen und bereitzustellen.

Pavel auf der Bühne bei YV24

Abb. 1. Pavel auf der Bühne bei der YV24.

Link to this sectionDer Hugging Face Hub unterstützt eine schnellere KI-Entwicklung#

Pavel begann seinen Vortrag mit der Vorstellung von Hugging Face als Open-Source-KI-Plattform, die vortrainierte Modelle für eine Vielzahl von Anwendungen anbietet. Diese Modelle sind für verschiedene Zweige der KI konzipiert, einschließlich Natural Language Processing (NLP), Computer Vision und multimodaler KI, und ermöglichen es Systemen, verschiedene Arten von Daten wie Text, Bilder und Audio zu verarbeiten.

Pavel erwähnte, dass der Hugging Face Hub inzwischen über 1 Million Modelle hostet und Entwickler leicht Modelle finden können, die für ihre spezifischen Projekte geeignet sind. Hugging Face zielt darauf ab, die KI-Entwicklung durch das Angebot von Tools für das Modelltraining, die Feinabstimmung und die Bereitstellung zu vereinfachen. Wenn Entwickler mit verschiedenen Modellen experimentieren können, vereinfacht dies den Prozess der Integration von KI in reale Anwendungen.

Obwohl Hugging Face ursprünglich für NLP bekannt war, hat es sich seitdem auf Computer Vision und multimodale KI ausgeweitet, was es Entwicklern ermöglicht, ein breiteres Spektrum an KI-Aufgaben zu bewältigen. Es verfügt auch über eine starke Community, in der Entwickler zusammenarbeiten, Erkenntnisse austauschen und Unterstützung über Foren, Discord und GitHub erhalten können.

Link to this sectionErkundung von Hugging Face-Modellen für Computer-Vision-Anwendungen#

Pavel ging ins Detail und erklärte, wie die Tools von Hugging Face es einfacher machen, Computer-Vision-Anwendungen zu erstellen. Entwickler können sie für Aufgaben wie Bildklassifizierung, Objekterkennung und Vision-Language-Anwendungen verwenden.

Er wies auch darauf hin, dass viele dieser Computer-Vision-Aufgaben mit vortrainierten Modellen auf dem Hugging Face Hub bewältigt werden können, was Zeit spart, da nicht von Grund auf neu trainiert werden muss. Tatsächlich bietet Hugging Face über 13.000 vortrainierte Modelle für Bildklassifizierungsaufgaben an, einschließlich solcher für die Klassifizierung von Lebensmitteln, Haustieren und die Emotionserkennung.

Er betonte die Zugänglichkeit dieser Modelle und sagte: "Du musst wahrscheinlich nicht einmal ein Modell für dein Projekt trainieren – vielleicht findest du auf dem Hub eines, das bereits von jemandem aus der Community trainiert wurde."

Link to this sectionHugging Face-Modelle für die Objekterkennung#

Als weiteres Beispiel erläuterte Pavel, wie Hugging Face bei der Objekterkennung helfen kann, einer Schlüsselfunktion in der Computer Vision, die dazu dient, Objekte innerhalb von Bildern zu identifizieren und zu lokalisieren. Selbst bei begrenzten beschrifteten Daten können vortrainierte Modelle, die auf dem Hugging Face Hub verfügbar sind, die Objektkennung effizienter machen.

Er gab auch einen kurzen Überblick über verschiedene Modelle, die für diese Aufgabe gebaut wurden und die du auf Hugging Face finden kannst:

  • Echtzeit-Objekterkennungsmodelle: Für dynamische Umgebungen, in denen Geschwindigkeit entscheidend ist, bieten Modelle wie Detection Transformer (DETR) Echtzeit-Objekterkennungsfunktionen. DETR ist auf dem COCO-Datensatz trainiert und darauf ausgelegt, multiskalige Merkmale effizient zu verarbeiten, was es für zeitkritische Anwendungen geeignet macht.
  • Vision-Language-Modelle: Diese Modelle kombinieren Bild- und Textverarbeitung, wodurch es KI-Systemen ermöglicht wird, Bilder mit Beschreibungen abzugleichen oder Objekte jenseits ihrer Trainingsdaten zu erkennen. Beispiele sind CLIP und SigLIP, die die Bildsuche durch die Verknüpfung von Text mit Visualisierungen verbessern und es KI-Lösungen ermöglichen, neue Objekte durch das Verständnis ihres Kontextes zu identifizieren.
  • Zero-Shot-Objekterkennungsmodelle: Sie können Objekte identifizieren, die sie zuvor noch nicht gesehen haben, indem sie die Beziehung zwischen Bildern und Text verstehen. Beispiele hierfür sind OwlVit, GroundingDINO und OmDet, die Zero-Shot Learning nutzen, um neue Objekte ohne den Bedarf an beschrifteten Trainingsdaten zu erkennen.

Link to this sectionSo verwendest du die Hugging Face-Modelle#

Pavel verlagerte dann den Fokus auf die praktische Anwendung der Hugging Face-Modelle und erklärte drei Wege, wie Entwickler sie nutzen können: Erkundung von Modellen, schnelles Testen und deren weitere Anpassung.

Er demonstrierte, wie Entwickler Modelle direkt auf dem Hugging Face Hub durchsuchen können, ohne Code schreiben zu müssen, was es einfach macht, Modelle sofort über eine interaktive Oberfläche zu testen. "Du kannst es ausprobieren, ohne auch nur eine Zeile Code zu schreiben oder das Modell auf deinen Computer herunterzuladen", fügte Pavel hinzu. Da manche Modelle groß sind, hilft das Ausführen auf dem Hub, Speicher- und Verarbeitungsbeschränkungen zu vermeiden.

So verwendest du Hugging Face Modelle

Abb. 2. So verwendest du Hugging Face-Modelle.

Außerdem ermöglicht die Hugging Face Inference API Entwicklern das Ausführen von KI-Modellen mit einfachen API-Aufrufen. Sie ist ideal für schnelle Tests, Proof-of-Concept-Projekte und Rapid Prototyping ohne die Notwendigkeit einer komplexen Einrichtung.

Für fortgeschrittene Anwendungsfälle können Entwickler das Hugging Face Transformers-Framework verwenden, ein Open-Source-Tool, das vortrainierte Modelle für Text-, Bild- und Audioaufgaben bereitstellt und sowohl PyTorch als auch TensorFlow unterstützt. Pavel erklärte, dass Entwickler mit nur zwei Zeilen Code ein Modell vom Hugging Face Hub abrufen und es mit einem Vorverarbeitungstool, wie einem Bildprozessor, verknüpfen können, um Bilddaten für Vision-KI-Anwendungen zu analysieren.

Link to this sectionOptimierung von KI-Arbeitsabläufen mit Hugging Face#

Als Nächstes erklärte Pavel, wie Hugging Face KI-Arbeitsabläufe optimieren kann. Ein wichtiges Thema, das er behandelte, war die Optimierung des Aufmerksamkeitsmechanismus in Transformers, einem Kernmerkmal von Deep-Learning-Modellen, das dem System hilft, sich auf die relevantesten Teile der Eingabedaten zu konzentrieren. Dies verbessert die Genauigkeit von Aufgaben, die Sprachverarbeitung und Computer Vision beinhalten. Es kann jedoch ressourcenintensiv sein.

Die Optimierung des Aufmerksamkeitsmechanismus kann den Speicherverbrauch erheblich reduzieren und gleichzeitig die Geschwindigkeit verbessern. Pavel wies darauf hin: "Zum Beispiel könntest du durch den Wechsel zu einer effizienteren Aufmerksamkeitsimplementierung eine bis zu 1,8-mal schnellere Leistung sehen."

Hugging Face bietet integrierte Unterstützung für effizientere Aufmerksamkeitsimplementierungen innerhalb des Transformers-Frameworks. Entwickler können diese Optimierungen aktivieren, indem sie einfach eine alternative Aufmerksamkeitsimplementierung beim Laden eines Modells angeben.

Link to this sectionOptimum und Torch Compile#

Er sprach auch über Quantisierung, eine Technik, die KI-Modelle kleiner macht, indem die Präzision der verwendeten Zahlen reduziert wird, ohne die Leistung zu stark zu beeinträchtigen. Dies hilft Modellen, weniger Speicher zu verbrauchen und schneller zu laufen, was sie besser für Geräte mit begrenzter Rechenleistung wie Smartphones und eingebettete Systeme geeignet macht.

Um die Effizienz weiter zu verbessern, stellte Pavel die Hugging Face Optimum-Bibliothek vor, eine Reihe von Tools, die für die Optimierung und Bereitstellung von Modellen entwickelt wurden. Mit nur wenigen Zeilen Code können Entwickler Quantisierungstechniken anwenden und Modelle in effiziente Formate wie ONNX (Open Neural Network Exchange) konvertieren, was es ihnen ermöglicht, reibungslos auf verschiedenen Arten von Hardware zu laufen, einschließlich Cloud-Servern und Edge-Geräten.

Pavel spricht über die Optimum Bibliothek und ihre Funktionen

Abb. 3. Pavel sprach über die Optimum-Bibliothek und ihre Funktionen.

Abschließend erwähnte Pavel die Vorteile von Torch Compile, einer Funktion in PyTorch, die optimiert, wie KI-Modelle Daten verarbeiten, wodurch sie schneller und effizienter laufen. Hugging Face integriert Torch Compile in seine Transformers- und Optimum-Bibliotheken, sodass Entwickler von diesen Leistungsverbesserungen mit minimalen Codeänderungen profitieren können.

Durch die Optimierung der Berechnungsstruktur des Modells kann Torch Compile die Inferenzzeiten beschleunigen und die Bildraten von 29 auf 150 Bilder pro Sekunde erhöhen, ohne die Genauigkeit oder Qualität zu beeinträchtigen.

Link to this sectionBereitstellung von Modellen mit Hugging Face-Tools#

Weiterhin ging Pavel kurz darauf ein, wie Entwickler Vision-KI-Modelle erweitern und bereitstellen können, indem sie die Tools von Hugging Face nutzen, nachdem sie das richtige Modell und den besten Ansatz für die Entwicklung ausgewählt haben.

Beispielsweise können Entwickler interaktive KI-Anwendungen mit Gradio und Streamlit bereitstellen. Gradio ermöglicht es Entwicklern, webbasierte Schnittstellen für Machine-Learning-Modelle zu erstellen, während Streamlit dabei hilft, interaktive Datenanwendungen mit einfachen Python-Skripten zu erstellen.

Pavel wies auch darauf hin: „Du musst nicht alles von Grund auf neu schreiben“, und bezog sich dabei auf die Anleitungen, Trainings-Notebooks und Beispielskripte, die Hugging Face bereitstellt. Diese Ressourcen helfen Entwicklern, schnell loszulegen, ohne alles von Null auf aufbauen zu müssen.

Pavel diskutiert die Möglichkeiten von Hugging Face bei YV24

Abb. 4. Pavel diskutiert die Möglichkeiten von Hugging Face auf der YV24.

Link to this sectionVorteile des Hugging Face Hub#

Zum Abschluss seiner Keynote fasste Pavel die Vorteile der Nutzung des Hugging Face Hub zusammen. Er betonte, wie es die Modellverwaltung und Zusammenarbeit vereinfacht. Er machte auch auf die Verfügbarkeit von Anleitungen, Notebooks und Tutorials aufmerksam, die sowohl Anfängern als auch Experten helfen können, KI-Modelle zu verstehen und zu implementieren.

"Es gibt bereits viele coole Spaces auf dem Hub. Du kannst ähnliche finden, den geteilten Code klonen, ein paar Zeilen ändern, das Modell durch dein eigenes ersetzen und es wieder hochladen", erklärte er und ermutigte Entwickler, die Flexibilität der Plattform zu nutzen.

Link to this sectionWichtige Erkenntnisse#

Während seines Vortrags auf der YV24 teilte Pavel mit, wie Hugging Face Tools bereitstellt, die das Training, die Optimierung und die Bereitstellung von KI-Modellen unterstützen. Beispielsweise können Innovationen wie Transformers, Optimum und Torch Compile Entwicklern helfen, die Modellleistung zu steigern.

Da KI-Modelle effizienter werden, machen Fortschritte bei der Quantisierung und der Edge-Bereitstellung es einfacher, sie auf ressourcenbeschränkten Geräten auszuführen. Diese Verbesserungen, kombiniert mit Tools wie Hugging Face und fortschrittlichen Computer-Vision-Modellen wie Ultralytics YOLO11, sind der Schlüssel zum Aufbau skalierbarer, hochleistungsfähiger Vision-KI-Anwendungen.

Tritt unserer wachsenden Community bei! Durchsuche unser GitHub-Repository, um mehr über KI zu erfahren, und schau dir unsere YOLO-Lizenzen an, um deine Vision-KI-Projekte zu starten. Interessierst du dich für Innovationen wie Computer Vision im Gesundheitswesen oder Computer Vision in der Landwirtschaft? Besuche unsere Lösungsseiten, um mehr zu entdecken!

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens