Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Generative KI verändert die Zukunft der Computer Vision

Abirami Vina

5 Min. Lesezeit

24. März 2025

Entdecken Sie interessante Erkenntnisse aus einer Podiumsdiskussion auf der YOLO Vision 2024. Erfahren Sie, wie generative KI den Weg für Echtzeit-Vision-KI-Modelle vorgibt.

Generative KI ist ein Zweig der künstlichen Intelligenz (KI), der neue Inhalte wie Bilder, Text oder Audio erzeugt, indem er Muster aus vorhandenen Daten lernt. Dank der jüngsten Fortschritte kann sie nun verwendet werden, um hochrealistische Inhalte zu produzieren, die oft die menschliche Kreativität nachahmen.

Die Auswirkungen der generativen KI gehen jedoch über die bloße Erstellung von Inhalten hinaus. Mit der Weiterentwicklung von Echtzeit-Computer-Vision-Modellen wie den YOLO Ultralytics definiert die generative KI auch die Verarbeitung und Erweiterung visueller Daten neu und ebnet den Weg für innovative Anwendungen in der realen Welt. 

Dieser neue technologische Wandel war ein interessantes Gesprächsthema auf der YOLO Vision 2024 (YV24), einer jährlichen Hybrid-Veranstaltung, die von Ultralytics ausgerichtet wird. Auf der YV24 kamen KI-Enthusiasten und Branchenführer zusammen, um die neuesten Durchbrüche in der Computer Vision zu diskutieren. Im Mittelpunkt der Veranstaltung standen Innovation, Effizienz und die Zukunft von Echtzeit-KI-Lösungen.

Einer der wichtigsten Höhepunkte der Veranstaltung war eine Podiumsdiskussion über YOLO im Zeitalter der generativen KI. An der Diskussion nahmen Glenn Jocher, Gründer und CEO von Ultralytics, Jing Qiu, Senior Machine Learning Engineer bei Ultralytics, und Ao Wang von der Tsinghua University teil. Sie untersuchten, wie generative KI die Computer Vision beeinflusst und welche Herausforderungen bei der Erstellung praktischer KI-Modelle bestehen.

In diesem Artikel werden wir die wichtigsten Erkenntnisse aus ihrer Diskussion erneut aufgreifen und genauer untersuchen, wie generative KI Vision AI transformiert.

Entwicklung der Ultralytics YOLO

Neben Glenn Jocher haben viele erfahrene Ingenieure eine wichtige Rolle bei der Entwicklung derYOLO Ultralytics gespielt. Einer von ihnen, Jing Qiu, erzählte von seinem unerwarteten Start mit YOLO. Er erklärte, dass seine Leidenschaft für KI während seiner Studienzeit begann. Er verbrachte viel Zeit damit, dieses Gebiet zu erforschen und zu lernen. Jing Qiu erinnerte sich, wie er mit Glenn Jocher auf GitHub in Kontakt kam und sich an verschiedenen KI-Projekten beteiligte.

Ergänzend zu dem, was Jing Qiu sagte, beschrieb Glenn Jocher GitHub als "eine unglaubliche Möglichkeit zum Teilen – wo Menschen, die man noch nie getroffen hat, zusammenkommen, um sich gegenseitig zu helfen und zum Werk des anderen beizutragen. Es ist eine großartige Community und eine wirklich tolle Möglichkeit, um in die KI einzusteigen."

__wf_reserved_inherit
Abb. 1. Glenn Jocher und Jing Qiu sprechen auf der Bühne bei YV24.

Jing Qius Interesse an KI und seine Arbeit an Ultralytics YOLOv5 trugen zur Verfeinerung des Modells bei. Später spielte er eine Schlüsselrolle bei der Entwicklung von Ultralytics YOLOv8bei, das weitere Verbesserungen brachte. Er beschrieb dies als eine unglaubliche Reise. Heute arbeitet Jing Qiu weiter an der Verbesserung und Weiterentwicklung von Modellen wie Ultralytics YOLO11

YOLOv10: Optimiert für reale Leistung

Ao Wang, der aus China an der Podiumsdiskussion teilnahm, stellte sich als Doktorand vor. Ursprünglich studierte er Software Engineering, aber seine Leidenschaft für KI führte ihn dazu, sich Computer Vision und Deep Learning zuzuwenden.

Das berühmte YOLO begegnete ihm erstmals beim Experimentieren mit verschiedenen KI-Techniken und -Modellen. Er war beeindruckt von dessen Geschwindigkeit und Genauigkeit, was ihn dazu inspirierte, sich intensiver mit Bildverarbeitungsaufgaben wie der Objekterkennung zu beschäftigen. Kürzlich trug Ao Wang zu YOLOv10 bei, einer neueren Version des YOLO . Seine Forschung konzentrierte sich auf die Optimierung des Modells, um es schneller und genauer zu machen.

Der Hauptunterschied zwischen generativer KI und Vision AI

Dann begann das Panel, über generative KI zu diskutieren, und Jing Qiu wies darauf hin, dass generative KI und Vision AI sehr unterschiedliche Zwecke haben. Generative KI erzeugt oder generiert Dinge wie Texte, Bilder und Videos, während Vision AI analysiert, was bereits existiert, hauptsächlich Bilder.

Glenn Jocher wies darauf hin, dass auch die Größe ein großer Unterschied ist. Generative KI-Modelle sind riesig und enthalten oft Milliarden von Parametern - interne Einstellungen, die dem Modell helfen, aus Daten zu lernen. Computer-Vision-Modelle sind viel kleiner. Er sagte: "Das kleinste YOLO , das wir haben, ist etwa tausendmal kleiner als das kleinste LLM [Large Language Model]. Also 3 Millionen Parameter im Vergleich zu drei Milliarden".

__wf_reserved_inherit
Abb. 3. Die Podiumsdiskussion über generative KI und Vision AI auf der YV24.

Jing Qiu fügte hinzu, dass generative KI und Computer-Vision-Trainings- und Bereitstellungsprozesse ebenfalls sehr unterschiedlich sind. Generative KI benötigt riesige, leistungsstarke Server, um zu funktionieren. Modelle wie YOLO hingegen sind auf Effizienz ausgelegt und können auf Standardhardware trainiert und eingesetzt werden. Das macht dieYOLO Ultralytics praktischer für den Einsatz in der Praxis.

Auch wenn sie unterschiedlich sind, beginnen sich diese beiden Bereiche zu verflechten. Glenn Jocher erläuterte, dass generative KI neue Fortschritte in der Vision AI bringt und Modelle intelligenter und effizienter macht. 

Die Auswirkungen von generativer KI auf Computer Vision

Generative KI hat sich schnell weiterentwickelt, und diese Durchbrüche beeinflussen viele andere Bereiche der künstlichen Intelligenz, einschließlich Computer Vision. Lassen Sie uns als Nächstes einige faszinierende Einblicke aus der Podiumsdiskussion zu diesem Thema durchgehen.

Hardware-Fortschritte ermöglichen KI-Innovationen

Gleich zu Beginn der Diskussion erklärte Glenn Jocher, dass es maschinelle Lernideen schon lange gibt, aber die Computer nicht leistungsfähig genug waren, um sie zum Laufen zu bringen. KI-Ideen brauchten eine stärkere Hardware, um sie zu verwirklichen.

Der Aufstieg von GPUs (Graphics Processing Units) in den letzten 20 Jahren mit parallelen Verarbeitungsmöglichkeiten hat alles verändert. Sie haben das Training von KI-Modellen viel schneller und effizienter gemacht, was es dem Deep Learning ermöglichte, sich in rasantem Tempo zu entwickeln.

Heutzutage verbrauchen KI-Chips wie TPUs (Tensor Processing Units) und optimierte GPUs weniger Strom und können gleichzeitig größere und komplexere Modelle verarbeiten. Dies hat KI zugänglicher und nützlicher für reale Anwendungen gemacht.

Mit jeder neuen Hardware-Verbesserung werden sowohl generative KI- als auch Computer-Vision-Anwendungen leistungsfähiger. Diese Fortschritte machen Echtzeit-KI schneller, effizienter und bereit für den Einsatz in mehr Branchen.

Wie generative KI Objekterkennungsmodelle prägt

Auf die Frage, wie generative KI die Computer Vision beeinflusst, sagte Jing Qiu, dass Transformer – Modelle, die der KI helfen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren – die Art und Weise verändert haben, wie KI Bilder versteht und verarbeitet. Der erste große Schritt war DETR (Detection Transformer), das diesen neuen Ansatz für die Objekterkennung nutzte. Es verbesserte die Genauigkeit, hatte aber Leistungsprobleme, die es in einigen Fällen verlangsamten.

Um dieses Problem zu lösen, haben Forscher Hybridmodelle wie RT-DETR entwickelt. Diese Modelle kombinieren Convolutional Neural Networks (CNNs, d. h. Deep-Learning-Modelle, die automatisch lernen und Merkmale aus Bildern extrahieren) und Transformatoren, um Geschwindigkeit und Genauigkeit auszugleichen. Dieser Ansatz nutzt die Vorteile von Transformatoren und macht die Objekterkennung schneller.

Interessant, YOLOv10 transformatorbasierte Aufmerksamkeitsebenen (Teile des Modells, die wie ein Scheinwerfer die wichtigsten Bereiche in einem Bild hervorheben, während weniger relevante Details ignoriert werden), um seine Leistung zu steigern. 

Ao Wang erwähnte auch, wie generative KI die Art und Weise verändert, wie Modelle trainiert werden. Techniken wie Masked Image Modeling helfen der KI, effizienter aus Bildern zu lernen, wodurch der Bedarf an großen, manuell beschrifteten Datensätzen reduziert wird. Dies macht das Computer-Vision-Training schneller und ressourcenschonender.

Die Zukunft von generativer KI und Vision AI 

Ein weiterer wichtiger Punkt, der von der Expertenrunde diskutiert wurde, war, wie generative KI und Vision AI zusammenarbeiten könnten, um leistungsfähigere Modelle zu entwickeln. Glenn Jocher erklärte, dass die Kombination dieser beiden Ansätze, obwohl sie unterschiedliche Stärken haben, neue Möglichkeiten eröffnen könnte. 

So zerlegen beispielsweise KI-Modelle wie YOLO ein Bild oft in ein Raster, um Objekte zu identifizieren. Diese gitterbasierte Methode könnte Sprachmodellen dabei helfen, Details besser zu erkennen und zu beschreiben - eine Herausforderung, mit der viele Sprachmodelle heute konfrontiert sind. Im Wesentlichen könnte die Zusammenführung dieser Techniken zu Systemen führen, die genau detect und klar erklären können, was sie sehen.

__wf_reserved_inherit
Abb. 4. Die Zukunft der generativen und Vision-KI. Bild vom Autor.

Wesentliche Erkenntnisse

Generative KI und Computer Vision entwickeln sich gemeinsam weiter. Während Generative KI Bilder und Videos erzeugt, verbessert sie auch die Bild- und Videoanalyse, indem sie neue innovative Ideen einbringt, die Vision-KI-Modelle genauer und effizienter machen könnten. 

In diesem aufschlussreichen YV24-Panelgespräch tauschten Glenn Jocher, Jing Qiu und Ao Wang ihre Gedanken darüber aus, wie diese Technologien die Zukunft gestalten. Mit besserer KI-Hardware werden sich generative KI und Vision AI weiterentwickeln, was zu noch größeren Innovationen führen wird. Diese beiden Bereiche arbeiten zusammen, um intelligentere, schnellere und nützlichere KI für den Alltag zu schaffen.

Treten Sie unserer Community bei und erkunden Sie unser GitHub-Repository, um mehr über Vision AI zu erfahren. Sehen Sie sich unsere Lizenzoptionen an, um Ihre Computer Vision-Projekte zu starten. Interessieren Sie sich für Innovationen wie KI in der Fertigung oder Computer Vision im Bereich des autonomen Fahrens? Besuchen Sie unsere Lösungsseiten, um mehr zu erfahren. 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten