Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Open-Source-Computer Vision mit den Transformatoren von HuggingFace

Nuvola Ladi

5 Min. Lesezeit

14. Februar 2024

Tauchen Sie mit HuggingFace in Open-Source-Computer Vision ein! Erfahren Sie mehr über Transfer Learning, Transformer und erkunden Sie über 8.000 Modelle. Begleiten Sie Merve Noyan für Einblicke und praktische Demos, die Entwickler in die Lage versetzen, Innovationen in der KI-Erforschung voranzutreiben.

Während wir weitere Highlights der YOLO VISION 2023 (YV23) Veranstaltung vorstellen, treffen wir Merve Noyan, Developer Advocacy Engineer bei HuggingFace, der führenden NLP-Plattform mit vortrainierten Modellen für die effiziente Entwicklung von Sprachanwendungen. In ihrem Vortrag gab Merve einige unglaubliche Einblicke in die Welt der Open-Source-Computer Vision. 

Begleiten Sie uns auf einer Reise durch das faszinierende Universum des Transfer Learning, der Transformer und des Open-Source-Ökosystems für Computer Vision.

Transfer Learning enthüllt: Eine kurze Zusammenfassung

Merve begann mit einer kurzen Einführung in das Transferlernen, dem Zauberstab, der es uns ermöglicht, Wissen von einem neuronalen Netzwerk auf ein anderes zu übertragen. Stellen Sie sich vor, Sie trainieren ein Modell mit den universellen Merkmalen in den frühen Schichten, wie Kanten und Ecken, und optimieren es dann für bestimmte Aufgaben. Das ist die Essenz des Transferlernens, die Reduzierung von Datenabhängigkeiten und die Steigerung der Genauigkeit.

Merve hob klassische Convolutional Backbones wie ResNet und Inception hervor und bereitete so die Bühne für die bevorstehende Transformationsreise.

Betreten Sie die Transformers: Ein entschleiertes Rätsel

Was macht Transformers so besonders? Merve verglich es mit einem Rätsel und zeigte, wie sie sich von traditionellen, auf Faltung basierenden Modellen unterscheiden. Das Geheimnis liegt in ihrer Fähigkeit, selbstüberwachtes Lernen durchzuführen und Merkmale zu erfassen, ohne dass beschriftete Daten erforderlich sind. Vision Transformer, Data Efficient Transformer, CLIP und SWIM CLIP gehörten zu den hochkarätigen Transformer-basierten Modellen, die sie vorstellte. 

Ultralytics bietet Unterstützung für ein Transformer-Modell, das für die Objekterkennung entwickelt wurde. Dieses Modell verfügt über einen effektiven Hybrid-Encoder, eine IOU-basierte Abfrageauswahl und eine anpassbare Inferenzgeschwindigkeit. Bemerkenswert ist, dass es dem bekannten Muster anderer Ultralytics YOLOv8-Modelle folgt und Optionen für Vorhersage, Training, Validierung und Export bietet.

Ihr One-Stop-Shop

Merve tauchte dann in die Schatzkammer der Angebote von HuggingFace ein, mit über 8.000 Modellen für klassische Computer-Vision-Aufgaben und 10.000 Modellen für multimodale Anwendungen. Der HuggingFace Hub bietet sage und schreibe über 3.000 Datensätze und ist damit ein Spielplatz für Entwickler und Enthusiasten gleichermaßen. Merve betonte die nahtlose Erfahrung dank der konsistenten API von HuggingFace, die sofort einsatzbereite Modelle für verschiedene Anwendungsfälle bietet.

Praktische Magie mit HuggingFace

Der Vortrag ging in praktische Demonstrationen über, die zeigten, wie mühelos man mit Modellen arbeiten kann. Von der Instanziierung von Modellen und Prozessoren bis hin zum Fine-Tuning mit der Trainer API machte Merve deutlich, dass die HuggingFace Transformers Library der beste Freund eines Entwicklers ist. Sie stellte sogar die Pipeline API vor, ein persönlicher Favorit, die den Workflow für die Benutzer vereinfacht.

Abb. 1. Merve Noyan präsentiert auf der YV23 auf dem Google for Startups Campus in Madrid.

Ein Einblick in Anwendungen

Merve schloss den Vortrag mit einem Einblick in einige fantastische Anwendungen ab, darunter das Plot-Modell für visuelle Fragenbeantwortung, Blip für Bildunterschriften und das leistungsstarke Segment Anything-Modell für die Bildsegmentierung. Die Pipeline-API des HuggingFace-Ökosystems stand im Rampenlicht und machte die Verwendung von Modellen zum Kinderspiel, ohne tief in die technischen Details einzutauchen.

Das Sahnehäubchen war Merves Präsentation zur Erstellung optischer Täuschungen mit Elysian Diffusion, eine fesselnde Erfahrung, die der Welt der KI eine unterhaltsame Wendung verleiht.

Kurz gesagt!

Zusammenfassend lässt sich sagen, dass Merves Vortrag uns inspiriert hat und uns dazu anregt, die endlosen Möglichkeiten von Open-Source-Computer Vision zu erkunden. HuggingFace hat KI wirklich zugänglich, unterhaltsam und aufregend gemacht und Entwickler in die Lage versetzt, ihrer Kreativität freien Lauf zu lassen. Auf die Zukunft der Open-Source-Community und die unglaublichen Innovationen, die sie bereithält! 

Sehen Sie sich den ganzen Vortrag hier an! 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert