Veranstaltungen

Generative KI verändert den zukünftigen Weg der Computer Vision

Entdecke interessante Erkenntnisse aus einem Panel-Talk auf der YOLO Vision 2024. Erforsche, wie generative KI den Weg für zukünftige Echtzeit-Vision-AI-Modelle ebnet.

ABAbirami Vina5 min readMarch 24, 2025

Panel-Diskussion über generative KI und Vision AI auf der YOLO Vision 2024

Generative AI ist ein Zweig der künstlichen Intelligenz (KI), der neue Inhalte wie Bilder, Texte oder Audio erstellt, indem er Muster aus vorhandenen Daten lernt. Dank neuester Fortschritte kann sie nun genutzt werden, um hochrealistische Inhalte zu erzeugen, die oft menschliche Kreativität nachahmen.

Der Einfluss von Generative AI geht jedoch über die reine Erstellung von Inhalten hinaus. Während sich Echtzeit-Computer-Vision-Modelle wie Ultralytics YOLO Modelle weiterentwickeln, definiert Generative AI auch neu, wie visuelle Daten verarbeitet und erweitert werden, und ebnet so den Weg für innovative Anwendungen in realen Szenarien.

Dieser neue technologische Wandel war ein interessantes Gesprächsthema auf der YOLO Vision 2024 (YV24), einer jährlichen hybriden Veranstaltung von Ultralytics. Auf der YV24 kamen KI-Enthusiasten und Branchenführer zusammen, um die neuesten Durchbrüche im Bereich Computer Vision zu diskutieren. Die Veranstaltung konzentrierte sich auf Innovation, Effizienz und die Zukunft von KI-Lösungen in Echtzeit.

Eines der wichtigsten Highlights der Veranstaltung war eine Podiumsdiskussion zu YOLO im Zeitalter der Generative AI. An der Diskussion nahmen Glenn Jocher, Gründer & CEO von Ultralytics, Jing Qiu, Senior Machine Learning Engineer bei Ultralytics, und Ao Wang von der Tsinghua Universität teil. Sie untersuchten, wie Generative AI die Computer Vision beeinflusst und welche Herausforderungen bei der Entwicklung praktischer KI-Modelle bestehen.

In diesem Artikel lassen wir die wichtigsten Erkenntnisse aus ihrer Diskussion Revue passieren und werfen einen genaueren Blick darauf, wie Generative AI Vision AI transformiert.

Link to this sectionEntwicklung der Ultralytics YOLO Modelle#

Neben Glenn Jocher haben viele qualifizierte Ingenieure eine entscheidende Rolle bei der Entwicklung der Ultralytics YOLO Modelle gespielt. Einer von ihnen, Jing Qiu, berichtete von seinem unerwarteten Start mit YOLO. Er erklärte, dass seine Leidenschaft für KI während seiner Studienzeit begann. Er verbrachte viel Zeit damit, das Fachgebiet zu erforschen und kennenzulernen. Jing Qiu erinnerte sich daran, wie er auf GitHub Kontakt zu Glenn Jocher aufnahm und sich an verschiedenen KI-Projekten beteiligte.

In Ergänzung zu Jing Qius Ausführungen bezeichnete Glenn Jocher GitHub als „eine unglaubliche Art des Teilens – bei der Menschen, die man noch nie getroffen hat, zusammenkommen, um sich gegenseitig zu helfen und an der Arbeit der anderen mitzuwirken. Es ist eine großartige Community und wirklich ein toller Weg, um mit KI zu starten.“

Glenn Jocher und Jing Qiu auf der Bühne bei der YV24

Abb. 1. Glenn Jocher und Jing Qiu sprechen auf der Bühne der YV24.

Jing Qius Interesse an KI und seine Arbeit an Ultralytics YOLOv5 halfen dabei, das Modell zu verfeinern. Später spielte er eine Schlüsselrolle bei der Entwicklung von Ultralytics YOLOv8, das weitere Verbesserungen einführte. Er beschrieb es als eine unglaubliche Reise. Heute arbeitet Jing Qiu weiter an der Verbesserung von Modellen wie Ultralytics YOLO11.

Link to this sectionYOLOv10: Optimiert für reale Leistung#

Ao Wang, der per Videoschalte aus China an der Podiumsdiskussion teilnahm, stellte sich als Doktorand vor. Ursprünglich studierte er Softwaretechnik, doch seine Leidenschaft für KI führte ihn zur Computer Vision und zum Deep Learning.

Seine erste Begegnung mit dem berühmten YOLO Modell hatte er beim Experimentieren mit verschiedenen KI-Techniken und Modellen. Er war beeindruckt von seiner Geschwindigkeit und Genauigkeit, was ihn dazu inspirierte, tiefer in Computer-Vision-Aufgaben wie die Objekterkennung einzutauchen. Kürzlich trug Ao Wang zu YOLOv10 bei, einer aktuellen Version des YOLO Modells. Seine Forschung konzentrierte sich darauf, das Modell schneller und präziser zu machen.

Link to this sectionDer wesentliche Unterschied zwischen Generative AI und Vision AI#

Anschließend begann das Podium mit der Diskussion über Generative AI, wobei Jing Qiu darauf hinwies, dass Generative AI und Vision AI sehr unterschiedliche Zwecke verfolgen. Generative AI erschafft oder generiert Dinge wie Text, Bilder und Videos, während Vision AI analysiert, was bereits existiert, primär Bilder.

Glenn Jocher betonte, dass auch die Größe ein großer Unterschied ist. Generative AI Modelle sind riesig und enthalten oft Milliarden von Parametern – interne Einstellungen, die dem Modell helfen, aus Daten zu lernen. Computer-Vision-Modelle sind viel kleiner. Er sagte: „Das kleinste YOLO Modell, das wir haben, ist etwa tausendmal kleiner als das kleinste LLM [Large Language Model]. Also 3 Millionen Parameter im Vergleich zu drei Milliarden.“

Die Podiumsdiskussion zu generativer KI und Vision AI auf der YV24

Abb. 2. Die Podiumsdiskussion zu Generative AI und Vision AI auf der YV24.

Jing Qiu fügte hinzu, dass sich auch die Trainings- und Bereitstellungsprozesse von Generative AI und Computer Vision sehr unterscheiden. Generative AI benötigt riesige, leistungsstarke Server für den Betrieb. Modelle wie YOLO hingegen sind auf Effizienz ausgelegt und können auf Standardhardware trainiert und bereitgestellt werden. Das macht Ultralytics YOLO Modelle praxistauglicher für den realen Einsatz.

Obwohl sie unterschiedlich sind, beginnen diese beiden Bereiche miteinander zu verschmelzen. Glenn Jocher erläuterte, dass Generative AI neue Fortschritte in die Vision AI einbringt und Modelle intelligenter und effizienter macht.

Link to this sectionDer Einfluss von Generative AI auf Computer Vision#

Generative AI hat sich schnell weiterentwickelt, und diese Durchbrüche beeinflussen viele andere Bereiche der künstlichen Intelligenz, einschließlich Computer Vision. Gehen wir als Nächstes einige faszinierende Erkenntnisse des Podiums dazu durch.

Link to this sectionHardware-Fortschritte ermöglichen KI-Innovationen#

Zu Beginn der Podiumsdiskussion erklärte Glenn Jocher, dass Ansätze des maschinellen Lernens schon lange existieren, die Computer jedoch nicht leistungsstark genug waren, um sie umzusetzen. KI-Ideen benötigten stärkere Hardware, um Realität zu werden.

Der Aufstieg der GPUs (Graphics Processing Units) in den letzten 20 Jahren mit ihren Möglichkeiten zur parallelen Verarbeitung hat alles verändert. Sie machten das Training von KI-Modellen viel schneller und effizienter, was dem Deep Learning eine rasante Entwicklung ermöglichte.

Heutzutage verbrauchen KI-Chips wie TPUs (Tensor Processing Units) und optimierte GPUs weniger Strom bei der Verarbeitung größerer und komplexerer Modelle. Dies hat KI zugänglicher und nützlicher für reale Anwendungen gemacht.

Mit jedem neuen Hardware-Fortschritt werden sowohl Generative AI als auch Computer-Vision-Anwendungen leistungsfähiger. Diese Fortschritte machen Echtzeit-KI schneller, effizienter und bereit für den Einsatz in immer mehr Branchen.

Link to this sectionWie Generative AI die Objekterkennungsmodelle prägt#

Auf die Frage, wie Generative AI die Computer Vision beeinflusst, sagte Jing Qiu, dass Transformer – Modelle, die KI dabei helfen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren – die Art und Weise verändert haben, wie KI Bilder versteht und verarbeitet. Der erste große Schritt war DETR (Detection Transformer), das diesen neuen Ansatz für die Objekterkennung nutzte. Es verbesserte die Genauigkeit, hatte aber Performance-Probleme, die es in einigen Fällen langsamer machten.

Um dies zu lösen, entwickelten Forscher hybride Modelle wie RT-DETR. Diese Modelle kombinieren Convolutional Neural Networks (CNNs, das sind Deep-Learning-Modelle, die automatisch Merkmale aus Bildern lernen und extrahieren) und Transformer, um ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu finden. Dieser Ansatz nutzt die Vorteile von Transformern und beschleunigt gleichzeitig die Objekterkennung.

Interessanterweise verwendet YOLOv10 Transformer-basierte Attention-Layer (Teile des Modells, die wie ein Scheinwerfer fungieren, um die wichtigsten Bereiche in einem Bild hervorzuheben und weniger relevante Details zu ignorieren), um seine Leistung zu steigern.

Ao Wang erwähnte auch, wie Generative AI die Art und Weise verändert, wie Modelle trainiert werden. Techniken wie Masked Image Modeling helfen der KI, effizienter aus Bildern zu lernen, was den Bedarf an großen, manuell beschrifteten Datensätzen reduziert. Dies macht das Computer-Vision-Training schneller und weniger ressourcenintensiv.

Link to this sectionDie Zukunft von Generative AI und Vision AI#

Eine weitere zentrale Idee, die das Podium diskutierte, war, wie Generative AI und Vision AI zusammenkommen könnten, um leistungsfähigere Modelle zu entwickeln. Glenn Jocher erklärte, dass diese beiden Ansätze zwar unterschiedliche Stärken haben, ihre Kombination jedoch neue Möglichkeiten eröffnen könnte.

Vision AI Modelle wie YOLO unterteilen beispielsweise oft ein Bild in ein Raster, um Objekte zu identifizieren. Diese rasterbasierte Methode könnte Sprachmodellen helfen, ihre Fähigkeit zur punktgenauen Identifizierung und Beschreibung von Details zu verbessern – eine Herausforderung, vor der viele Sprachmodelle heute stehen. Im Grunde könnte die Zusammenführung dieser Techniken zu Systemen führen, die präzise erkennen und klar erklären können, was sie sehen.

Die Zukunft von generativer KI und Vision AI

Abb. 3. Die Zukunft von Generative AI und Vision AI. Bild vom Autor.

Link to this sectionWichtige Erkenntnisse#

Generative AI und Computer Vision entwickeln sich gemeinsam weiter. Während Generative AI Bilder und Videos erstellt, verbessert sie auch die Bild- und Videoanalyse, indem sie neue innovative Ideen einbringt, die Vision AI Modelle genauer und effizienter machen könnten.

In dieser aufschlussreichen YV24-Podiumsdiskussion teilten Glenn Jocher, Jing Qiu und Ao Wang ihre Gedanken darüber, wie diese Technologien die Zukunft gestalten. Mit besserer KI-Hardware werden Generative AI und Vision AI sich weiterentwickeln und zu noch größeren Innovationen führen. Diese beiden Felder arbeiten zusammen, um eine intelligentere, schnellere und nützlichere KI für den Alltag zu schaffen.

Werde Teil unserer Community und erkunde unser GitHub-Repository, um mehr über Vision AI zu erfahren. Sieh dir unsere Lizenzoptionen an, um deine Computer-Vision-Projekte zu starten. Interessiert an Innovationen wie KI in der Fertigung oder Computer Vision beim autonomen Fahren? Besuche unsere Lösungsseiten, um mehr zu entdecken.