Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Erleben Sie noch einmal die wichtigsten Momente der YOLO Vision 2025 Shenzhen, bei der Ultralytics Innovatoren, Partner und die KI-Community für einen Tag der Inspiration zusammenbrachte.
Am 26. Oktober gab die YOLO Vision 2025 (YV25) ihr China-Debüt im Gebäude B10 im OCT Creative Culture Park in Shenzhen. Die hybride Vision AI-Veranstaltung von Ultralytics brachte mehr als 200 Teilnehmer persönlich zusammen, viele weitere nahmen online über YouTube und Bilibili teil.
Der Livestream von YV25 Shenzhen hat bereits mehr als 3.500 Aufrufe auf YouTube und gewinnt weiter an Aufmerksamkeit, da die Highlights der Veranstaltung in der Community geteilt werden. Es war ein Tag voller Ideen, Gespräche und praktischer Erkundungen, wohin sich Vision AI als nächstes entwickelt.
Der Tag begann mit einer herzlichen Begrüßung durch unsere Gastgeberin Huang Xueying, die alle einlud, sich zu vernetzen, zu lernen und an den Diskussionen während der Veranstaltung teilzunehmen. Sie erklärte, dass dies die zweite YOLO Vision in diesem Jahr sei, nach der Londoner Ausgabe im September, und erzählte, wie aufregend es sei, die Vision AI-Community hier in Shenzhen wieder zusammenzubringen.
In diesem Artikel lassen wir die Höhepunkte des Tages noch einmal Revue passieren, darunter die Modellaktualisierungen, die Vorträge, die Live-Demos und die Momente in der Gemeinschaft, die alle zusammengeführt haben. Fangen wir an!
Die bisherige Reise der Ultralytics YOLO-Modelle
Die erste Keynote des Tages wurde von Ultralytics-Gründer und CEO Glenn Jocher gehalten, der berichtete, wie sich die YOLO-Modelle von Ultralytics von einem Forschungsdurchbruch zu einigen der weltweit am häufigsten verwendeten Vision AI-Modelle entwickelt haben. Glenn Jocher erklärte, dass sich seine frühe Arbeit darauf konzentrierte, YOLO einfacher zu machen.
Er portierte die Modelle auf PyTorch, verbesserte die Dokumentation und stellte alles offen zur Verfügung, damit Entwickler auf der ganzen Welt darauf aufbauen konnten. Er erinnert sich: "Ich habe mich 2018 kopfüber in das Projekt gestürzt. Ich beschloss, dass hier meine Zukunft liegt." Was als persönliche Anstrengung begann, wurde schnell zu einer globalen Open-Source-Bewegung.
Abb. 1. Glenn Jocher spricht auf der Bühne der YOLO Vision 2025 Shenzhen.
Heute werden mit den YOLO-Modellen von Ultralytics täglich Milliarden von Schlussfolgerungen gezogen, und Glenn betonte, dass diese Größenordnung nur dank der Menschen möglich war, die beim Aufbau des Systems geholfen haben. Forscher, Ingenieure, Studenten, Hobbyisten und Open-Source-Mitwirkende aus aller Welt haben YOLO zu dem gemacht, was es heute ist.
Wie Glenn es ausdrückt: "Es gibt fast tausend von ihnen [Mitwirkende] da draußen und wir sind sehr dankbar dafür. Ohne diese Leute wären wir heute nicht da, wo wir sind".
Aktualisierungen zu Ultralytics YOLO26
Der erste Blick auf Ultralytics YOLO26 wurde Anfang des Jahres auf der Veranstaltung YOLO Vision 2025 in London geteilt, wo es als der nächste große Schritt in der Ultralytics YOLO-Modellfamilie vorgestellt wurde. Auf der YV25 in Shenzhen gab Glenn ein Update über die Fortschritte seit dieser Ankündigung und gewährte der KI-Community einen genaueren Einblick in die Entwicklung des Modells.
YOLO26 soll kleiner, schneller und präziser sein und gleichzeitig für den realen Einsatz geeignet. Glenn erklärte, dass das Team das letzte Jahr damit verbracht hat, die Architektur zu verfeinern, die Leistung auf verschiedenen Geräten zu testen und Erkenntnisse aus der Forschung und dem Feedback der Community zu berücksichtigen. Ziel ist es, die Leistung auf dem neuesten Stand der Technik zu halten, ohne den Einsatz der Modelle zu erschweren.
Was Sie von Ultralytics YOLO26 erwarten können
Eine der wichtigsten Neuerungen, die Glenn hervorhob, ist die Tatsache, dass YOLO26 mit einer speziellen Kampagne zur Abstimmung von Hyperparametern gekoppelt ist, so dass man nicht mehr komplett von Grund auf trainiert, sondern eine Feinabstimmung an größeren Datensätzen vornimmt. Er erläuterte, dass dieser Ansatz viel besser auf reale Anwendungsfälle abgestimmt ist.
Hier sind einige weitere wichtige Verbesserungen, die auf der Veranstaltung vorgestellt wurden:
Vereinfachte Architektur: Die Schicht Distribution Focal Loss (DFL) wurde entfernt. Dies macht die Modelle einfacher und schneller, während das gleiche Maß an Genauigkeit beibehalten wird.
Unterstützung von End-to-End-Inferenzen: YOLO26 ist nativ end-to-end, d.h. es kann ohne eine separate NMS-Schicht laufen. Das macht den Export in Formate wie ONNX und TensorRT und den Einsatz auf Edge-Hardware viel einfacher.
Bessere Leistung bei kleinen Objekten: Aktualisierte Verluststrategien helfen dem Modell, winzige Objekte zuverlässiger zu erkennen, was seit langem eine Herausforderung in der Computer Vision ist.
Ein neuer hybrider Optimierer: YOLO26 enthält einen neuen Optimierer, der durch die jüngste Forschung zum Training großer Sprachmodelle inspiriert wurde, die Modellgenauigkeit verbessert und nun direkt in das Ultralytics-Python-Paket integriert ist.
Ultralytics YOLO26 ist der nächste Schritt in der praktischen Vision AI
Zusammen führen diese Aktualisierungen zu Modellen, die bis zu 43 % schneller auf der CPU und gleichzeitig genauer als Ultralytics YOLO11 sind, wodurch YOLO26 besonders für eingebettete Geräte, Robotik und Edge-Systeme geeignet ist.
YOLO26 wird alle Aufgaben und Modellgrößen unterstützen, die derzeit in YOLO11 verfügbar sind, was zu 25 Modellvarianten in der gesamten Familie führt. Dazu gehören Modelle für Erkennung, Segmentierung, Posenschätzung, orientierte Bounding Boxes und Klassifizierung, die von Nano bis extra groß reichen.
Das Team arbeitet außerdem an fünf promptable-Varianten. Dabei handelt es sich um Modelle, die auf eine Texteingabe reagieren und direkt Bounding Boxes zurückgeben können, ohne dass ein Training erforderlich ist.
Dies ist ein erster Schritt in Richtung flexiblerer, anweisungsbasierter Bildverarbeitungs-Workflows, die sich leichter an verschiedene Anwendungsfälle anpassen lassen. Die YOLO26-Modelle befinden sich noch in der aktiven Entwicklung, aber die ersten Leistungsergebnisse sind überzeugend, und das Team arbeitet an ihrer baldigen Veröffentlichung.
Ein Blick auf die Utralytics-Plattform
Nach dem YOLO26-Update begrüßte Glenn Prateek Bhatnagar, unseren Leiter der Produktentwicklung, der eine Live-Demo der Ultralytics-Plattform gab. Diese Plattform wird entwickelt, um wichtige Teile des Computer-Vision-Workflows zusammenzubringen, einschließlich der Untersuchung von Datensätzen, der Kommentierung von Bildern, des Trainings von Modellen und des Vergleichs von Ergebnissen.
Abbildung 2. Prateek Bhatnagar stellt die Ultralytics-Plattform vor.
Prateek wies darauf hin, dass die Plattform den Open-Source-Wurzeln von Ultralytics treu bleibt, indem sie zwei Community-Bereiche einführt, eine Datensatz-Community und eine Projekt-Community, in denen Entwickler ihre Arbeit gegenseitig beitragen, wiederverwenden und verbessern können. Während der Demo zeigte er KI-unterstützte Annotationen, einfaches Cloud-Training und die Möglichkeit, Modelle direkt von der Community aus zu optimieren, ohne dass lokale GPU-Ressourcen benötigt werden.
Die Plattform befindet sich derzeit in der Entwicklung. Prateek ermutigte die Zuhörer, auf Ankündigungen zu achten, und wies darauf hin, dass das Team in China wächst, um den Start zu unterstützen.
Stimmen hinter YOLO: Die Autorenrunde
Mit der sich entwickelnden Dynamik ging die Veranstaltung in eine Podiumsdiskussion über, an der mehrere Forscher teilnahmen, die hinter verschiedenen YOLO-Modellen stehen. An der Podiumsdiskussion nahmen neben Glenn Jocher auch Jing Qiu, unser Senior Machine Learning Engineer, Chen Hui, ein Machine Learning Engineer bei Meta und einer der Autoren von YOLOv10, sowie Bo Zhang, ein Algorithm Strategist bei Meituan und einer der Autoren von YOLOv6, teil.
Abb. 3. Eine Diskussionsrunde über die Entwicklung von YOLO-Modellen mit Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu und Glenn Jocher.
Die Diskussion konzentrierte sich darauf, wie sich YOLO durch den Einsatz in der Praxis weiterentwickelt. Die Redner gingen darauf ein, dass der Fortschritt oft durch praktische Herausforderungen wie die effiziente Ausführung auf Edge-Geräten, die Verbesserung der Erkennung kleiner Objekte und die Vereinfachung des Modellexports vorangetrieben wird.
Die Diskussionsteilnehmer betonten, dass es nicht nur auf die Genauigkeit ankommt, sondern auch auf die Ausgewogenheit von Geschwindigkeit, Benutzerfreundlichkeit und Zuverlässigkeit in Produktionsumgebungen. Ein weiteres gemeinsames Ergebnis war der Wert von Iteration und Community-Feedback.
Hier sind einige weitere interessante Erkenntnisse aus dem Gespräch:
Die Erkennung mit offenem Vokabular gewinnt im YOLO-Ökosystem an Bedeutung: Neuere Modelle zeigen, wie der Abgleich von Bildsprache und Prompt-basierte Workflows Objekte jenseits fester Kategorien erkennen können.
Leichte Aufmerksamkeit ist auf dem Vormarsch: Die Diskussionsteilnehmer erörterten, wie die Verwendung effizienter Aufmerksamkeitsmechanismen anstelle der vollen Aufmerksamkeit überall die Genauigkeit erhöhen und gleichzeitig die Schlussfolgerungen leicht genug für Edge-Geräte halten kann.
Frühzeitige und häufige Iteration mit der Gemeinschaft: Die Diskussionsteilnehmer bekräftigten eine "Build-Test-Improve"-Mentalität, bei der die frühzeitige Freigabe von Modellen und das Lernen von den Nutzern zu besseren Ergebnissen führen als lange private Entwicklungszyklen.
Vordenker definieren die Zukunft von KI und Vision
Werfen wir nun einen genaueren Blick auf einige der Keynote-Vorträge auf der YV25 Shenzhen, in denen führende KI-Experten darüber berichteten, wie sich die KI weiterentwickelt - vom digitalen Menschen und der Robotik bis hin zu multimodalen Schlussfolgerungen und effizienter Edge-Bereitstellung.
KI lehren, die menschliche Erfahrung zu verstehen
In einer aufschlussreichen Sitzung erzählte Dr. Peng Zhang vom Alibaba Qwen Lab, wie sein Team große Videomodelle entwickelt, die ausdrucksstarke digitale Menschen mit natürlicheren Bewegungen und mehr Kontrolle erzeugen können. Er führte durch Wan S2V und Wan Animate, die Audio- oder Bewegungsreferenzen verwenden, um realistische Sprache, Gesten und Animationen zu erzeugen und so die Grenzen der rein textbasierten Erzeugung zu überwinden.
Abb. 4. Peng Zhang erklärt, wie große Videomodelle den digitalen Menschen antreiben können.
Dr. Zhang sprach auch über die Fortschritte, die auf dem Weg zu interaktiven Echtzeit-Avataren gemacht werden, wie z. B. das Klonen von Aussehen und Bewegung zum Nulltarif und leichtgewichtige Modelle, die ein Gesicht direkt von einer Live-Kameraaufnahme animieren können, so dass lebensechte digitale Menschen auf alltäglichen Geräten besser funktionieren.
Von der Wahrnehmung zum Handeln: Das Zeitalter der verkörperten Intelligenz
Eines der Hauptthemen bei YV25 Shenzhen war der Übergang von Bildverarbeitungsmodellen, die die Welt einfach nur sehen, zu Systemen, die in ihr handeln können. Mit anderen Worten: Die Wahrnehmung ist nicht mehr das Ende der Pipeline, sie wird zum Anfang der Aktion.
So beschrieb Hu Chunxu von D-Robotics in seiner Keynote, wie ihre Entwicklungskits und SoC-Lösungen (System on a Chip) Sensorik, Echtzeit-Bewegungssteuerung und Entscheidungsfindung in einem einheitlichen Hardware- und Software-Stack integrieren. Indem sie Wahrnehmung und Handlung als kontinuierliche Rückkopplungsschleife und nicht als getrennte Phasen behandeln, unterstützt ihr Ansatz Roboter, die sich in realen Umgebungen zuverlässiger bewegen, anpassen und interagieren können.
Abb. 5. Demo von D-Robotics auf der YOLO Vision 2025 in Shenzhen, China.
Alex Zhang von Baidu Paddle griff diese Idee in seinem Vortrag auf und erläuterte, wie YOLO und PaddleOCR zusammenarbeiten, um Objekte zu erkennen und dann den Text und die Struktur um sie herum zu interpretieren. Dies ermöglicht es den Systemen, Bilder und Dokumente in brauchbare, strukturierte Informationen für Aufgaben wie Logistik, Inspektionen und automatische Verarbeitung umzuwandeln.
Intelligenz am Rande: Effiziente KI für jedes Gerät
Ein weiteres interessantes Thema auf der YV25 Shenzhen war, wie Vision AI auf Edge-Geräten immer effizienter und leistungsfähiger wird.
Paul Jung von DEEPX sprach über die Bereitstellung von YOLO-Modellen direkt auf eingebetteter Hardware, wodurch die Abhängigkeit von der Cloud verringert wird. Durch die Fokussierung auf geringen Stromverbrauch, optimierte Inferenz und hardwarebasierte Modellabstimmung ermöglicht DEEPX Echtzeit-Wahrnehmung für Drohnen, mobile Roboter und industrielle Systeme in dynamischen Umgebungen.
In ähnlicher Weise berichtete Liu Lingfei von Moore Threads, wie die Moore Threads E300 Plattform die Zentraleinheit (CPU), die Grafikeinheit (GPU) und die neuronale Verarbeitungseinheit (NPU) integriert, um Hochgeschwindigkeits-Vision-Inferenz auf kompakten Geräten zu ermöglichen.
Die Plattform kann mehrere YOLO-Streams mit hohen Bildraten ausführen, und ihre Toolchain vereinfacht Schritte wie Quantisierung, statische Kompilierung und Leistungsoptimierung. Moore Threads hat außerdem eine breite Palette von Computer-Vision-Modellen und Einsatzbeispielen freigegeben, um die Hürde für Entwickler zu senken.
Die Verschmelzung von Bild und Sprache für intelligentere KI-Systeme
Bis vor kurzem erforderte der Aufbau eines einzigen Modells, das sowohl Bilder verstehen als auch Sprache interpretieren kann, große Transformer-Architekturen, die teuer in der Ausführung waren. Auf der YV25 in Shenzhen gab Yue Ziyin von Yuanshi Intelligence einen Überblick über RWKV, eine Architektur, die die Fähigkeiten von Transformern zum Denken in langen Kontexten mit der Effizienz von rekurrenten Modellen verbindet.
Er erläuterte, wie Vision-RWKV dieses Design auf die Computer Vision anwendet, indem es Bilder auf eine Weise verarbeitet, die linear mit der Auflösung skaliert. Dies macht es geeignet für hochauflösende Eingaben und für Randgeräte, bei denen die Rechenleistung begrenzt ist.
Yue zeigte auch, wie RWKV in Vision-Language-Systemen eingesetzt wird, bei denen Bildmerkmale mit Textverständnis gepaart werden, um über die Objekterkennung hinaus Szenen, Dokumente und realen Kontext zu interpretieren.
Abb. 6. Yue Ziyin spricht über die Anwendungen von RWKV.
Stände und Live-Demos, die Vision AI zum Leben erweckten
Während die Vorträge auf der Bühne einen Ausblick auf die Zukunft der KI gaben, zeigten die Stände auf der Etage, wie sie bereits heute eingesetzt wird. Die Teilnehmer konnten Modelle live laufen sehen, Hardware-Optionen vergleichen und direkt mit den Teams sprechen, die diese Systeme entwickeln.
Hier ein kleiner Einblick in die ausgestellten technischen Geräte:
Entwickler- und Prototyping-Plattformen: Seeed, M5Stack und Infermove präsentierten kompakte Entwicklungsboards und Starterkits, die das Experimentieren mit YOLO-basierten Anwendungen und den schnellen Übergang von Ideen zu funktionierenden Demos erleichtern.
Leistungsstarke Edge-Hardware: Hailo, DEEPX, Intel und Moore Threads demonstrierten Chips und Module, die für schnelle, effiziente Schlussfolgerungen entwickelt wurden.
Bildverarbeitungs- und Sprachworkflows: Baidu Paddle und RWKV hoben Software-Stacks hervor, die Objekte erkennen und auch lesen, interpretieren und Schlussfolgerungen über das ziehen können, was in einem Bild oder Dokument erscheint.
Open-Source und Community-Tools: Ultralytics und Datawhale engagierten Entwickler mit Live-Modelldemos, Schulungstipps und praktischer Anleitung und unterstrichen damit, wie gemeinsames Wissen Innovationen beschleunigt.
Abb. 6. Ein Blick auf den Stand von M5Stack bei YV25 Shenzhen.
Vernetzung mit der Vision AI-Community
Neben all der aufregenden Technik war einer der besten Aspekte der YV25 Shenzhen, die Computer Vision Community und das Ultralytics Team wieder persönlich zusammenzubringen. Den ganzen Tag über versammelten sich die Leute um die Demos, tauschten in den Kaffeepausen Ideen aus und unterhielten sich noch lange nach Ende der Vorträge.
Forscher, Ingenieure, Studenten und Konstrukteure tauschten sich aus, stellten Fragen und tauschten Erfahrungen aus der Praxis aus, vom Einsatz bis zur Modellschulung. Und dank Cinco Jotas von Grupo Osborne brachten wir sogar einen Hauch spanischer Kultur in die Veranstaltung mit frisch aufgeschnittenem Jamón, was einen warmen Moment der Verbundenheit schuf. Ein wunderschöner Veranstaltungsort, ein begeistertes Publikum und ein gemeinsames Gefühl der Dynamik machten diesen Tag zu etwas ganz Besonderem.
Wesentliche Erkenntnisse
Von inspirierenden Keynotes bis hin zu praktischen Demos - die YOLO Vision 2025 Shenzhen hat den Innovationsgeist eingefangen, der die Ultralytics Community ausmacht. Den ganzen Tag über tauschten Redner und Teilnehmer Ideen aus, erkundeten neue Technologien und verbanden sich über eine gemeinsame Vision für die Zukunft der KI. Gemeinsam verließen sie die Veranstaltung angeregt und bereit für das, was mit Ultralytics YOLO als Nächstes ansteht.