Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Generative KI verändert die Zukunft der Computer Vision

Abirami Vina

5 Min. Lesezeit

24. März 2025

Entdecken Sie interessante Einblicke aus einem Podiumsgespräch auf der YOLO Vision 2024. Erfahren Sie, wie generative KI den Weg für Echtzeit-Vision-KI-Modelle ebnet.

Generative KI ist ein Zweig der künstlichen Intelligenz (KI), der neue Inhalte wie Bilder, Text oder Audio erzeugt, indem er Muster aus vorhandenen Daten lernt. Dank der jüngsten Fortschritte kann sie nun verwendet werden, um hochrealistische Inhalte zu produzieren, die oft die menschliche Kreativität nachahmen.

Die Auswirkungen von generativer KI gehen jedoch über die bloße Erstellung von Inhalten hinaus. Da sich Echtzeit-Computer-Vision-Modelle wie Ultralytics YOLO-Modelle ständig weiterentwickeln, definiert generative KI auch die Art und Weise neu, wie visuelle Daten verarbeitet und erweitert werden, und ebnet so den Weg für innovative Anwendungen in realen Szenarien. 

Dieser neue technologische Wandel war ein interessantes Gesprächsthema auf der YOLO Vision 2024 (YV24), einer jährlichen Hybridveranstaltung, die von Ultralytics veranstaltet wird. Auf der YV24 trafen sich KI-Enthusiasten und Branchenführer, um die neuesten Durchbrüche im Bereich Computer Vision zu diskutieren. Der Schwerpunkt der Veranstaltung lag auf Innovation, Effizienz und der Zukunft von KI-Echtzeitlösungen.

Einer der wichtigsten Höhepunkte der Veranstaltung war eine Podiumsdiskussion zum Thema YOLO im Zeitalter der generativen KI. An der Podiumsdiskussion nahmen Glenn Jocher, Gründer und CEO von Ultralytics, Jing Qiu, Senior Machine Learning Engineer bei Ultralytics, und Ao Wang von der Tsinghua University teil. Sie untersuchten, wie generative KI das maschinelle Sehen beeinflusst und welche Herausforderungen beim Aufbau praktischer KI-Modelle bestehen.

In diesem Artikel werden wir die wichtigsten Erkenntnisse aus ihrer Diskussion erneut aufgreifen und genauer untersuchen, wie generative KI Vision AI transformiert.

Entwicklung der Ultralytics YOLO Modelle

Neben Glenn Jocher haben viele qualifizierte Ingenieure eine wichtige Rolle bei der Entwicklung der Ultralytics YOLO-Modelle gespielt. Einer von ihnen, Jing Qiu, erzählte von seinem unerwarteten Start mit YOLO. Er erklärte, dass seine Leidenschaft für KI während seines Studiums begann. Er verbrachte viel Zeit damit, das Gebiet zu erforschen und zu lernen. Jing Qiu erinnerte sich, wie er mit Glenn Jocher auf GitHub in Kontakt kam und sich an verschiedenen KI-Projekten beteiligte.

Ergänzend zu dem, was Jing Qiu sagte, beschrieb Glenn Jocher GitHub als "eine unglaubliche Möglichkeit zum Teilen – wo Menschen, die man noch nie getroffen hat, zusammenkommen, um sich gegenseitig zu helfen und zum Werk des anderen beizutragen. Es ist eine großartige Community und eine wirklich tolle Möglichkeit, um in die KI einzusteigen."

__wf_reserved_inherit
Abb. 1. Glenn Jocher und Jing Qiu sprechen auf der Bühne bei YV24.

Jing Qius Interesse an KI und seine Arbeit an Ultralytics YOLOv5 trugen zur Verfeinerung des Modells bei. Später spielte er eine Schlüsselrolle bei der Entwicklung von Ultralytics YOLOv8, das weitere Verbesserungen einführte. Er beschrieb es als eine unglaubliche Reise. Heute verbessert und arbeitet Jing Qiu weiterhin an Modellen wie Ultralytics YOLO11

YOLOv10: Optimiert für reale Leistung

Ao Wang, der aus China an der Podiumsdiskussion teilnahm, stellte sich als Doktorand vor. Ursprünglich studierte er Software Engineering, aber seine Leidenschaft für KI führte ihn dazu, sich Computer Vision und Deep Learning zuzuwenden.

Seine erste Begegnung mit dem berühmten YOLO-Modell hatte er beim Experimentieren mit verschiedenen KI-Techniken und -Modellen. Er war beeindruckt von seiner Geschwindigkeit und Genauigkeit, was ihn dazu inspirierte, tiefer in Computer-Vision-Aufgaben wie Objekterkennung einzutauchen. Kürzlich trug Ao Wang zu YOLOv10 bei, einer aktuellen Version des YOLO-Modells. Seine Forschung konzentrierte sich auf die Optimierung des Modells, um es schneller und genauer zu machen.

Der Hauptunterschied zwischen generativer KI und Vision AI

Dann begann das Panel, über generative KI zu diskutieren, und Jing Qiu wies darauf hin, dass generative KI und Vision AI sehr unterschiedliche Zwecke haben. Generative KI erzeugt oder generiert Dinge wie Texte, Bilder und Videos, während Vision AI analysiert, was bereits existiert, hauptsächlich Bilder.

Glenn Jocher hob hervor, dass auch die Größe ein großer Unterschied ist. Generative KI-Modelle sind massiv und enthalten oft Milliarden von Parametern – interne Einstellungen, die dem Modell helfen, aus Daten zu lernen. Computer-Vision-Modelle sind viel kleiner. Er sagte: „Das kleinste YOLO-Modell, das wir haben, ist etwa tausendmal kleiner als das kleinste LLM [Large Language Model]. Also 3 Millionen Parameter im Vergleich zu drei Milliarden.“

__wf_reserved_inherit
Abb. 3. Die Podiumsdiskussion über generative KI und Vision AI auf der YV24.

Jing Qiu fügte hinzu, dass generative KI- und Computer Vision Training und Bereitstellungsprozesse ebenfalls sehr unterschiedlich sind. Generative KI benötigt riesige, leistungsstarke Server, um zu laufen. Modelle wie YOLO hingegen sind auf Effizienz ausgelegt und können auf Standardhardware trainiert und bereitgestellt werden. Das macht Ultralytics YOLO-Modelle praktischer für den realen Einsatz.

Auch wenn sie unterschiedlich sind, beginnen sich diese beiden Bereiche zu verflechten. Glenn Jocher erläuterte, dass generative KI neue Fortschritte in der Vision AI bringt und Modelle intelligenter und effizienter macht. 

Die Auswirkungen von generativer KI auf Computer Vision

Generative KI hat sich schnell weiterentwickelt, und diese Durchbrüche beeinflussen viele andere Bereiche der künstlichen Intelligenz, einschließlich Computer Vision. Lassen Sie uns als Nächstes einige faszinierende Einblicke aus der Podiumsdiskussion zu diesem Thema durchgehen.

Hardware-Fortschritte ermöglichen KI-Innovationen

Gleich zu Beginn der Diskussion erklärte Glenn Jocher, dass es maschinelle Lernideen schon lange gibt, aber die Computer nicht leistungsfähig genug waren, um sie zum Laufen zu bringen. KI-Ideen brauchten eine stärkere Hardware, um sie zu verwirklichen.

Der Aufstieg von GPUs (Graphics Processing Units) in den letzten 20 Jahren mit parallelen Verarbeitungsmöglichkeiten hat alles verändert. Sie haben das Training von KI-Modellen viel schneller und effizienter gemacht, was es dem Deep Learning ermöglichte, sich in rasantem Tempo zu entwickeln.

Heutzutage verbrauchen KI-Chips wie TPUs (Tensor Processing Units) und optimierte GPUs weniger Strom und können gleichzeitig größere und komplexere Modelle verarbeiten. Dies hat KI zugänglicher und nützlicher in realen Anwendungen gemacht.

Mit jeder neuen Hardware-Verbesserung werden sowohl generative KI- als auch Computer-Vision-Anwendungen leistungsfähiger. Diese Fortschritte machen Echtzeit-KI schneller, effizienter und bereit für den Einsatz in mehr Branchen.

Wie generative KI Objekterkennungsmodelle prägt

Auf die Frage, wie generative KI die Computer Vision beeinflusst, sagte Jing Qiu, dass Transformer – Modelle, die der KI helfen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren – die Art und Weise verändert haben, wie KI Bilder versteht und verarbeitet. Der erste große Schritt war DETR (Detection Transformer), das diesen neuen Ansatz für die Objekterkennung nutzte. Es verbesserte die Genauigkeit, hatte aber Leistungsprobleme, die es in einigen Fällen verlangsamten.

Um dies zu lösen, entwickelten Forscher Hybridmodelle wie RT-DETR. Diese Modelle kombinieren Convolutional Neural Networks (CNNs, das sind Deep-Learning-Modelle, die automatisch Merkmale aus Bildern lernen und extrahieren) und Transformer und gleichen so Geschwindigkeit und Genauigkeit aus. Dieser Ansatz nutzt die Vorteile von Transformer und beschleunigt gleichzeitig die Objekterkennung.

Interessanterweise verwendet YOLOv10 Transformer-basierte Attention-Layer (Teile des Modells, die wie ein Scheinwerfer wirken, um die wichtigsten Bereiche in einem Bild hervorzuheben und weniger relevante Details zu ignorieren), um seine Leistung zu steigern. 

Ao Wang erwähnte auch, wie generative KI die Art und Weise verändert, wie Modelle trainiert werden. Techniken wie Masked Image Modeling helfen der KI, effizienter aus Bildern zu lernen, wodurch der Bedarf an großen, manuell beschrifteten Datensätzen reduziert wird. Dies macht das Computer-Vision-Training schneller und ressourcenschonender.

Die Zukunft von generativer KI und Vision AI 

Ein weiterer wichtiger Punkt, der von der Expertenrunde diskutiert wurde, war, wie generative KI und Vision AI zusammenarbeiten könnten, um leistungsfähigere Modelle zu entwickeln. Glenn Jocher erklärte, dass die Kombination dieser beiden Ansätze, obwohl sie unterschiedliche Stärken haben, neue Möglichkeiten eröffnen könnte. 

Beispielsweise teilen Vision-KI-Modelle wie YOLO ein Bild oft in ein Raster ein, um Objekte zu identifizieren. Diese rasterbasierte Methode könnte Sprachmodellen helfen, ihre Fähigkeit zu verbessern, sowohl Details zu lokalisieren als auch zu beschreiben - eine Herausforderung, vor der viele Sprachmodelle heute stehen. Im Wesentlichen könnte die Zusammenführung dieser Techniken zu Systemen führen, die genau erkennen und klar erklären können, was sie sehen.

__wf_reserved_inherit
Abb. 4. Die Zukunft der generativen und Vision-KI. Bild vom Autor.

Wesentliche Erkenntnisse

Generative KI und Computer Vision entwickeln sich gemeinsam weiter. Während Generative KI Bilder und Videos erzeugt, verbessert sie auch die Bild- und Videoanalyse, indem sie neue innovative Ideen einbringt, die Vision-KI-Modelle genauer und effizienter machen könnten. 

In diesem aufschlussreichen YV24-Panelgespräch tauschten Glenn Jocher, Jing Qiu und Ao Wang ihre Gedanken darüber aus, wie diese Technologien die Zukunft gestalten. Mit besserer KI-Hardware werden sich generative KI und Vision AI weiterentwickeln, was zu noch größeren Innovationen führen wird. Diese beiden Bereiche arbeiten zusammen, um intelligentere, schnellere und nützlichere KI für den Alltag zu schaffen.

Treten Sie unserer Community bei und erkunden Sie unser GitHub-Repository, um mehr über Vision AI zu erfahren. Sehen Sie sich unsere Lizenzoptionen an, um Ihre Computer Vision-Projekte zu starten. Interessieren Sie sich für Innovationen wie KI in der Fertigung oder Computer Vision im Bereich des autonomen Fahrens? Besuchen Sie unsere Lösungsseiten, um mehr zu erfahren. 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert