Ultralytics' wichtigste Highlights von der YOLO Vision 2025 Shenzhen!
Erlebe die wichtigsten Momente der YOLO Vision 2025 Shenzhen erneut, wo Ultralytics Innovatoren, Partner und die KI-Community für einen Tag der Inspiration zusammenbrachte.

Am 26. Oktober feierte die YOLO Vision 2025 (YV25) ihr China-Debüt im Gebäude B10 im OCT Creative Culture Park in Shenzhen. Die hybride Vision-AI-Veranstaltung von Ultralytics brachte mehr als 200 Teilnehmer persönlich zusammen, während viele weitere online via YouTube und Bilibili zuschauten.
Der Livestream der YV25 Shenzhen hat auf YouTube bereits über 3.500 Aufrufe erzielt und gewinnt weiter an Aufmerksamkeit, während die Highlights der Veranstaltung in der Community geteilt werden. Es war ein Tag voller Ideen, Gespräche und praktischer Erkundungen, wohin sich Vision AI als Nächstes entwickelt.
Der Tag begann mit einer herzlichen Begrüßung durch unsere Moderatorin Huang Xueying, die alle dazu einlud, Kontakte zu knüpfen, zu lernen und an den Diskussionen während der gesamten Veranstaltung teilzunehmen. Sie erklärte, dass dies die zweite YOLO Vision in diesem Jahr sei, nach der London-Ausgabe im September, und erzählte, wie aufregend es sei, die Vision-AI-Community hier in Shenzhen wieder zusammenzubringen.
In diesem Artikel blicken wir auf die Highlights des Tages zurück, einschließlich der Modell-Updates, der Expertenrunden, der Live-Demos und der Gemeinschaftsmomente, die alle zusammengebracht haben. Fangen wir an!
Link to this sectionDie bisherige Reise der Ultralytics YOLO-Modelle#
Die erste Keynote des Tages wurde von Ultralytics-Gründer und CEO Glenn Jocher gehalten, der erzählte, wie sich Ultralytics YOLO-Modelle von einem Forschungsdurchbruch zu einigen der weltweit am häufigsten genutzten Vision-AI-Modellen entwickelt haben. Glenn erklärte, dass sein frühes Werk darauf abzielte, die Nutzung von YOLO zu vereinfachen.
Er portierte die Modelle zu PyTorch, verbesserte die Dokumentation und teilte alles offen, damit Entwickler überall darauf aufbauen konnten. Wie er sich erinnerte: „Ich bin 2018 kopfüber eingestiegen. Ich habe beschlossen, dass hier meine Zukunft liegt.“ Was als persönliche Bemühung begann, wurde schnell zu einer globalen Open-Source-Bewegung.

Abb. 1. Glenn Jocher spricht auf der Bühne der YOLO Vision 2025 Shenzhen.
Heute treiben Ultralytics YOLO-Modelle täglich Milliarden von Inferenzen an, und Glenn betonte, dass dieses Ausmaß nur durch die Menschen möglich war, die beim Aufbau geholfen haben. Forscher, Ingenieure, Studenten, Bastler und Open-Source-Mitwirkende aus der ganzen Welt haben YOLO zu dem gemacht, was es heute ist.
Wie Glenn es ausdrückte: „Es gibt fast tausend davon [Mitwirkende] da draußen und wir sind unglaublich dankbar dafür. Ohne diese Menschen wären wir heute nicht da, wo wir sind.“
Link to this sectionUpdates zu Ultralytics YOLO26#
Ein erster Blick auf Ultralytics YOLO26 wurde Anfang des Jahres auf der Veranstaltung YOLO Vision 2025 London gewährt, wo es als der nächste große Schritt in der Ultralytics YOLO-Modellfamilie vorgestellt wurde. Auf der YV25 Shenzhen gab Glenn ein Update zum Fortschritt seit dieser Ankündigung und gab der AI-Community einen genaueren Einblick in die Entwicklung des Modells.
YOLO26 wurde entwickelt, um kleiner, schneller und genauer zu sein und dabei für den praktischen Einsatz in der realen Welt geeignet zu bleiben. Glenn erklärte, dass das Team das letzte Jahr damit verbracht hat, die Architektur zu verfeinern, die Leistung über verschiedene Geräte hinweg zu benchmarken und Erkenntnisse aus Forschung und Community-Feedback einzubeziehen. Das Ziel ist es, modernste Leistung zu liefern, ohne die Bereitstellung der Modelle zu erschweren.
Link to this sectionWas du von Ultralytics YOLO26 erwarten kannst#
Eines der Kern-Updates, das Glenn hervorhob, ist, dass YOLO26 mit einer dedizierten Kampagne zur Hyperparameter-Optimierung einhergeht, bei der der Wechsel vom Training von Grund auf hin zum Fine-Tuning auf größeren Datensätzen erfolgt. Er erläuterte, dass dieser Ansatz wesentlich besser auf tatsächliche Anwendungsfälle in der realen Welt abgestimmt ist.
Hier sind einige der anderen wichtigsten Verbesserungen, die auf der Veranstaltung geteilt wurden:
- Vereinfachte Architektur: Die Distribution Focal Loss (DFL)-Schicht wurde entfernt. Dies macht die Modelle einfacher und schneller ausführbar, während das gleiche Genauigkeitsniveau beibehalten wird.
- Unterstützung für End-to-End-Inferenz: YOLO26 ist nativ End-to-End, was bedeutet, dass es ohne eine separate NMS-Schicht laufen kann. Dies erleichtert das Exportieren in Formate wie ONNX und TensorRT sowie das Deployment auf Edge-Hardware erheblich.
- Bessere Leistung bei kleinen Objekten: Aktualisierte Loss-Strategien helfen dem Modell, winzige Objekte zuverlässiger zu erkennen, was eine langjährige Herausforderung im Bereich Computer Vision darstellte.
- Ein neuer hybrider Optimizer: YOLO26 enthält einen neuen Optimizer, der von aktueller Forschung zum Training großer Sprachmodelle inspiriert ist, die Modellgenauigkeit verbessert und nun direkt im Ultralytics Python-Paket integriert ist.
Link to this sectionUltralytics YOLO26 ist der nächste Schritt in der praktischen Vision AI#
Zusammen führen diese Updates zu Modellen, die auf der CPU bis zu 43 % schneller sind und gleichzeitig genauer als Ultralytics YOLO11, was YOLO26 besonders wirkungsvoll für eingebettete Geräte, Robotik und Edge-Systeme macht.
YOLO26 wird alle gleichen Aufgaben und Modellgrößen unterstützen, die derzeit in YOLO11 verfügbar sind, was zu 25 Modellvarianten innerhalb der Familie führt. Dies umfasst Modelle für Erkennung, Segmentierung, Pose-Estimation, orientierte Bounding-Boxes und Klassifizierung, die von nano bis hin zu extra large reichen.
Das Team arbeitet auch an fünf promptbaren Varianten. Dies sind Modelle, die einen Text-Prompt entgegennehmen und direkt Bounding-Boxes zurückgeben können, ohne dass ein Training erforderlich ist.
Dies ist ein früher Schritt in Richtung flexiblerer, anweisungsbasierter Vision-Workflows, die einfacher an verschiedene Anwendungsfälle anzupassen sind. Die YOLO26-Modelle befinden sich noch in der aktiven Entwicklung, aber die ersten Leistungsergebnisse sind stark, und das Team arbeitet daran, sie bald zu veröffentlichen.
Link to this sectionEin Blick auf die Ultralytics Platform#
Nach dem YOLO26-Update hieß Glenn Prateek Bhatnagar, unseren Head of Product Engineering, willkommen, um eine Live-Demo der Ultralytics Platform zu geben. Diese Plattform wird entwickelt, um wichtige Teile des Computer-Vision-Workflows zusammenzuführen, einschließlich der Erforschung von Datensätzen, der Annotierung von Bildern, dem Training von Modellen und dem Vergleich von Ergebnissen.

Abb. 2. Prateek Bhatnagar präsentiert die Ultralytics Platform.
Prateek betonte, dass die Plattform ihren Open-Source-Wurzeln von Ultralytics treu bleibt und zwei Community-Spaces einführt, eine Datensatz-Community und eine Projekt-Community, in denen Entwickler Beiträge leisten, wiederverwenden und die Arbeit der anderen verbessern können. Während der Demo präsentierte er KI-gestützte Annotierung, einfaches Cloud-Training und die Möglichkeit, Modelle direkt aus der Community heraus zu fine-tunen, ohne lokale GPU-Ressourcen zu benötigen.
Die Plattform befindet sich derzeit in der Entwicklung. Prateek ermutigte das Publikum, auf Ankündigungen zu achten, und merkte an, dass das Team in China wächst, um die Einführung zu unterstützen.
Link to this sectionStimmen hinter YOLO: Das Autoren-Panel#
Mit zunehmender Dynamik ging die Veranstaltung in eine Podiumsdiskussion über, an der mehrere Forscher hinter verschiedenen YOLO-Modellen teilnahmen. Zum Panel gehörten Glenn Jocher sowie Jing Qiu, unsere Senior Machine Learning Engineer; Chen Hui, ein Machine Learning Engineer bei Meta und einer der Autoren von YOLOv10; sowie Bo Zhang, ein Algorithmen-Stratege bei Meituan und einer der Autoren von YOLOv6.

Abb. 3. Ein Panel zur Entwicklung von YOLO-Modellen mit Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu und Glenn Jocher.
Die Diskussion konzentrierte sich darauf, wie sich YOLO durch die Nutzung in der realen Welt weiterentwickelt. Die Redner sprachen darüber, wie Fortschritt oft durch praktische Deployment-Herausforderungen vorangetrieben wird, wie etwa das effiziente Ausführen auf Edge-Geräten, die Verbesserung der Erkennung kleiner Objekte und die Vereinfachung des Modell-Exports.
Anstatt nur der Genauigkeit nachzujagen, wies das Panel auf die Bedeutung des Ausgleichs zwischen Geschwindigkeit, Benutzerfreundlichkeit und Zuverlässigkeit in Produktionsumgebungen hin. Eine weitere gemeinsame Erkenntnis war der Wert von Iteration und Community-Feedback.
Hier sind einige weitere interessante Einblicke aus dem Gespräch:
- Open-Vocabulary-Erkennung gewinnt im YOLO-Ökosystem an Bedeutung: Neuere Modelle zeigen, wie Vision-Language-Alignment und promptbasierte Workflows Objekte jenseits fester Kategorien erkennen können.
- Leichtgewichtige Aufmerksamkeit ist auf dem Vormarsch: Das Panel diskutierte, wie die Verwendung effizienter Attention-Mechanismen statt vollständiger Aufmerksamkeit überall die Genauigkeit steigern kann, während die Inferenz leicht genug für Edge-Geräte bleibt.
- Iteriere früh und oft mit der Community: Die Panelisten bekräftigten eine Build-Test-Improve-Mentalität, bei der das frühere Veröffentlichen von Modellen und das Lernen von Benutzern zu stärkeren Ergebnissen führt als lange, private Entwicklungszyklen.
Link to this sectionVordenker, die die Zukunft von KI und Vision definieren#
Als Nächstes werfen wir einen genaueren Blick auf einige der Keynote-Vorträge auf der YV25 Shenzhen, bei denen führende Köpfe der KI-Community darüber sprachen, wie sich Vision AI entwickelt, von digitalen Menschen und Robotik bis hin zu multimodalem Schlussfolgern und effizientem Edge-Deployment.
Link to this sectionKI beibringen, die menschliche Erfahrung zu verstehen#
In einer aufschlussreichen Sitzung erzählte Dr. Peng Zhang vom Alibaba Qwen Lab, wie sein Team große Videomodelle entwickelt, die ausdrucksstarke digitale Menschen mit natürlicheren Bewegungen und Kontrollmöglichkeiten generieren können. Er führte durch Wan S2V und Wan Animate, die Audio- oder Bewegungsreferenzen verwenden, um realistische Sprache, Gestik und Animation zu erzeugen, und adressierte damit die Einschränkungen rein textgesteuerter Generierung.

Abb. 4. Peng Zhang erklärt, wie große Videomodelle digitale Menschen antreiben können.
Dr. Zhang sprach auch über Fortschritte bei interaktiven Avataren in Echtzeit, einschließlich Zero-Shot-Klonen von Aussehen und Bewegung sowie leichtgewichtigen Modellen, die ein Gesicht direkt von einem Live-Kamera-Feed animieren können, wodurch lebensnahe digitale Menschen näher daran rücken, reibungslos auf alltäglichen Geräten zu laufen.
Link to this sectionVon der Wahrnehmung zum Handeln: Das Zeitalter der verkörperten Intelligenz#
Eines der Hauptthemen auf der YV25 Shenzhen war der Wandel von Vision-Modellen, die die Welt lediglich sehen, hin zu Systemen, die darin agieren können. Mit anderen Worten, Wahrnehmung ist nicht mehr das Ende der Pipeline; sie wird zum Anfang des Handelns.
Zum Beispiel beschrieb Hu Chunxu von D-Robotics in seiner Keynote, wie ihre Development-Kits und SoC-Lösungen (System on a Chip) Sensorik, Echtzeit-Bewegungssteuerung und Entscheidungsfindung auf einem einheitlichen Hardware- und Software-Stack integrieren. Indem sie Wahrnehmung und Handeln als kontinuierlichen Feedback-Loop behandeln, anstatt als getrennte Phasen, unterstützt ihr Ansatz Roboter, die sich bewegen, anpassen und zuverlässiger in realen Umgebungen interagieren können.

Abb. 5. Die Demo von D-Robotics auf der YOLO Vision 2025 in Shenzhen, China.
Alex Zhang von Baidu Paddle griff diese Idee in seinem Vortrag auf und erklärte, wie YOLO und PaddleOCR zusammenarbeiten, um Objekte zu erkennen und dann den Text und die Struktur um sie herum zu interpretieren. Dies ermöglicht es Systemen, Bilder und Dokumente in nutzbare, strukturierte Informationen für Aufgaben wie Logistik, Inspektionen und automatisierte Verarbeitung umzuwandeln.
Link to this sectionIntelligenz am Edge: Effiziente KI für jedes Gerät#
Ein weiteres interessantes Thema auf der YV25 Shenzhen war, wie Vision AI effizienter und leistungsfähiger auf Edge-Geräten wird.
Paul Jung von DEEPX sprach über das Deployment von YOLO-Modellen direkt auf eingebetteter Hardware, wodurch die Abhängigkeit von der Cloud reduziert wird. Durch die Konzentration auf geringen Stromverbrauch, optimierte Inferenz und hardwarebewusste Modelloptimierung ermöglicht DEEPX Echtzeit-Wahrnehmung für Drohnen, mobile Roboter und industrielle Systeme, die in dynamischen Umgebungen operieren.
Ähnlich berichtete Liu Lingfei von Moore Threads, wie die Moore Threads E300-Plattform CPU, GPU und NPU-Computing integriert, um Hochgeschwindigkeits-Vision-Inferenz auf kompakten Geräten zu liefern.
Die Plattform kann mehrere YOLO-Streams mit hohen Bildraten ausführen, und ihr Toolchain vereinfacht Schritte wie Quantisierung, statische Kompilierung und Performance-Tuning. Moore Threads hat außerdem eine breite Palette an Computer-Vision-Modellen und Deployment-Beispielen als Open Source veröffentlicht, um die Hürden für Entwickler zu senken.
Link to this sectionVision und Sprache für intelligentere KI-Systeme verschmelzen#
Bis vor Kurzem erforderte der Aufbau eines einzigen Modells, das sowohl Bilder verstehen als auch Sprache interpretieren kann, große Transformer-Architekturen, deren Betrieb teuer war. Auf der YV25 Shenzhen gab Yue Ziyin von Yuanshi Intelligence einen Überblick über RWKV, eine Architektur, die die Long-Context-Reasoning-Fähigkeiten von Transformern mit der Effizienz rekurrenter Modelle kombiniert.
Er erklärte, wie Vision-RWKV dieses Design auf Computer Vision anwendet, indem Bilder auf eine Weise verarbeitet werden, die linear mit der Auflösung skaliert. Dies macht es geeignet für hochauflösende Eingaben und für Edge-Geräte, bei denen die Rechenkapazität begrenzt ist.
Yue zeigte auch, wie RWKV in Vision-Language-Systemen verwendet wird, bei denen Bildmerkmale mit Textverständnis gepaart werden, um über die Objekterkennung hinauszugehen und Szenen, Dokumente und den Kontext der realen Welt zu interpretieren.

Abb. 6. Yue Ziyin spricht über die Anwendungen von RWKV.
Link to this sectionStände und Live-Demos, die Vision AI zum Leben erweckten#
Während die Vorträge auf der Bühne einen Ausblick darauf gaben, wohin sich Vision AI bewegt, zeigten die Stände auf der Ausstellungsfläche, wie sie bereits heute eingesetzt wird. Die Teilnehmer konnten Modelle live in Aktion sehen, Hardware-Optionen vergleichen und direkt mit den Teams sprechen, die diese Systeme entwickeln.
Hier ein Einblick in die gezeigte Technologie:
- Entwickler- und Prototyping-Plattformen: Seeed, M5Stack und Infermove zeigten kompakte Entwicklungsboards und Starter-Kits, die es einfach machen, mit YOLO-basierten Anwendungen zu experimentieren und schnell von Ideen zu funktionierenden Demos zu gelangen.
- High-Performance Edge-Hardware: Hailo, DEEPX, Intel und Moore Threads demonstrierten Chips und Module, die für eine schnelle und effiziente Inferenz gebaut wurden.
- Vision- und Sprach-Workflows: Baidu Paddle und RWKV hoben Software-Stacks hervor, die nicht nur Objekte erkennen, sondern auch lesen, interpretieren und Schlussfolgerungen darüber ziehen können, was auf einem Bild oder Dokument zu sehen ist.
- Open-Source und Community-Tools: Ultralytics und Datawhale begeisterten Entwickler mit Live-Modell-Demos, Trainingstipps und praktischer Anleitung, was verdeutlicht, wie geteiltes Wissen Innovation beschleunigt.

Abb. 7. Ein Blick auf den Stand von M5Stack auf der YV25 Shenzhen.
Link to this sectionVernetzung mit der Vision-AI-Community#
Neben all der spannenden Technik war einer der besten Teile der YV25 Shenzhen, die Computer-Vision-Community und das Ultralytics-Team wieder persönlich zusammenzubringen. Den ganzen Tag über versammelten sich die Leute um Demos, tauschten Ideen in Kaffeepausen aus und führten die Gespräche weit über das Ende der Vorträge hinaus fort.
Forscher, Ingenieure, Studenten und Entwickler verglichen Notizen, stellten Fragen und tauschten Erfahrungen aus der Praxis vom Deployment bis zum Modelltraining aus. Und dank Cinco Jotas von der Grupo Osborne brachten wir mit frisch geschnittenem Jamón sogar einen Hauch spanischer Kultur in die Veranstaltung, was für einen herzlichen Moment der Verbundenheit sorgte. Ein schöner Veranstaltungsort, ein begeistertes Publikum und ein gemeinsames Gefühl der Dynamik machten den Tag wirklich besonders.
Link to this sectionWichtige Erkenntnisse#
Von inspirierenden Keynotes bis hin zu praktischen Demos hat die YOLO Vision 2025 Shenzhen den Innovationsgeist eingefangen, der die Ultralytics-Community auszeichnet. Den ganzen Tag über tauschten Redner und Teilnehmer Ideen aus, erkundeten neue Technologien und vernetzten sich über eine gemeinsame Vision für die Zukunft der KI. Gemeinsam gingen sie voller Energie und bereit für das nächste Kapitel mit Ultralytics YOLO.
Erfinde neu, was mit KI und Computer Vision möglich ist. Werde Teil unserer Community und schau dir unser GitHub-Repository an, um mehr zu erfahren. Lerne mehr über Anwendungen wie Computer Vision in der Landwirtschaft und KI im Einzelhandel. Entdecke unsere Lizenzoptionen und lege noch heute mit Computer Vision los!






