Entdecken Sie interessante Erkenntnisse aus einer Podiumsdiskussion auf der YOLO Vision 2024. Erfahren Sie, wie generative KI den Weg für Echtzeit-Vision-KI-Modelle vorgibt.

Entdecken Sie interessante Erkenntnisse aus einer Podiumsdiskussion auf der YOLO Vision 2024. Erfahren Sie, wie generative KI den Weg für Echtzeit-Vision-KI-Modelle vorgibt.
Generative KI ist ein Teilbereich der künstlichen Intelligenz (KI), der neue Inhalte wie Bilder, Texte oder Audiodateien durch das Lernen von Mustern aus vorhandenen Daten erstellt. Dank der jüngsten Fortschritte kann sie nun zur Erstellung äußerst realistischer Inhalte verwendet werden, die oft die menschliche Kreativität imitieren.
Die Auswirkungen der generativen KI gehen jedoch über die bloße Erstellung von Inhalten hinaus. Mit der Weiterentwicklung von Echtzeit-Computer-Vision-Modellen wie den YOLO-Modellen von Ultralytics definiert die generative KI auch die Verarbeitung und Erweiterung visueller Daten neu und ebnet den Weg für innovative Anwendungen in der realen Welt.
Dieser neue technologische Wandel war ein interessantes Gesprächsthema auf der YOLO Vision 2024 (YV24), einer jährlichen Hybrid-Veranstaltung, die von Ultralytics ausgerichtet wird. Auf der YV24 kamen KI-Enthusiasten und Branchenführer zusammen, um die neuesten Durchbrüche in der Computer Vision zu diskutieren. Im Mittelpunkt der Veranstaltung standen Innovation, Effizienz und die Zukunft von Echtzeit-KI-Lösungen.
Einer der wichtigsten Höhepunkte der Veranstaltung war eine Podiumsdiskussion über YOLO im Zeitalter der generativen KI. An der Diskussion nahmen Glenn Jocher, Gründer und CEO von Ultralytics, Jing Qiu, Senior Machine Learning Engineer bei Ultralytics, und Ao Wang von der Tsinghua University teil. Sie untersuchten, wie generative KI die Computer Vision beeinflusst und welche Herausforderungen bei der Entwicklung praktischer KI-Modelle bestehen.
In diesem Artikel greifen wir die wichtigsten Erkenntnisse aus ihrer Diskussion wieder auf und werfen einen genaueren Blick darauf, wie generative KI die Vision AI verändert.
Neben Glenn Jocher haben viele erfahrene Ingenieure eine wichtige Rolle bei der Entwicklung der YOLO-Modelle von Ultralytics gespielt. Einer von ihnen, Jing Qiu, erzählte von seinem unerwarteten Start mit YOLO. Er erklärte, dass seine Leidenschaft für KI während seiner Studienzeit begann. Er verbrachte viel Zeit damit, dieses Gebiet zu erforschen und zu lernen. Jing Qiu erinnerte sich, wie er mit Glenn Jocher auf GitHub in Kontakt kam und sich an verschiedenen KI-Projekten beteiligte.
Glenn Jocher ergänzte die Worte von Jing Qiu und beschrieb GitHub als "eine unglaubliche Möglichkeit des Austauschs - wo Menschen, die man noch nie getroffen hat, zusammenkommen, um sich gegenseitig zu helfen und zur Arbeit der anderen beizutragen. Es ist eine großartige Gemeinschaft und ein wirklich guter Weg, um in die KI einzusteigen."
Jing Qius Interesse an KI und seine Arbeit an Ultralytics YOLOv5 trugen zur Verfeinerung des Modells bei. Später spielte er eine Schlüsselrolle bei der Entwicklung von Ultralytics YOLOv8, das weitere Verbesserungen mit sich brachte. Er beschreibt dies als eine unglaubliche Reise. Heute arbeitet Jing Qiu weiter an der Verbesserung und Weiterentwicklung von Modellen wie Ultralytics YOLO11.
Ao Wang, der von China aus an der Podiumsdiskussion teilnahm, stellte sich als Doktorand vor. Ursprünglich studierte er Software-Engineering, aber seine Leidenschaft für KI brachte ihn dazu, sich auf Computer Vision und Deep Learning zu konzentrieren.
Das berühmte YOLO-Modell begegnete ihm erstmals beim Experimentieren mit verschiedenen KI-Techniken und -Modellen. Er war beeindruckt von dessen Geschwindigkeit und Genauigkeit, was ihn dazu inspirierte, sich intensiver mit Bildverarbeitungsaufgaben wie der Objekterkennung zu beschäftigen. Kürzlich trug Ao Wang zu YOLOv10 bei, einer neueren Version des YOLO-Modells. Seine Forschung konzentrierte sich auf die Optimierung des Modells, um es schneller und genauer zu machen.
Jing Qiu wies darauf hin, dass generative KI und visionäre KI sehr unterschiedliche Ziele haben. Generative KI schafft oder generiert Dinge wie Text, Bilder und Videos, während Vision AI bereits Vorhandenes, hauptsächlich Bilder, analysiert.
Glenn Jocher wies darauf hin, dass auch die Größe ein großer Unterschied ist. Generative KI-Modelle sind riesig und enthalten oft Milliarden von Parametern - interne Einstellungen, die dem Modell helfen, aus Daten zu lernen. Computer-Vision-Modelle sind viel kleiner. Er sagte: "Das kleinste YOLO-Modell, das wir haben, ist etwa tausendmal kleiner als das kleinste LLM [Large Language Model]. Also 3 Millionen Parameter im Vergleich zu drei Milliarden".
Jing Qiu fügte hinzu, dass generative KI und Computer-Vision-Trainings- und Bereitstellungsprozesse ebenfalls sehr unterschiedlich sind. Generative KI benötigt riesige, leistungsstarke Server, um zu funktionieren. Modelle wie YOLO hingegen sind auf Effizienz ausgelegt und können auf Standardhardware trainiert und eingesetzt werden. Das macht die YOLO-Modelle von Ultralytics praktischer für den Einsatz in der Praxis.
Obwohl sie unterschiedlich sind, beginnen sich diese beiden Bereiche zu verflechten. Glenn Jocher erläuterte, dass die generative KI neue Fortschritte für die Bildverarbeitung bringt und die Modelle intelligenter und effizienter macht.
Die generative KI hat sich schnell weiterentwickelt, und diese Durchbrüche beeinflussen viele andere Bereiche der künstlichen Intelligenz, einschließlich der Computer Vision. Lassen Sie uns als Nächstes einige faszinierende Erkenntnisse aus dem Panel zu diesem Thema durchgehen.
Zu Beginn des Panels erklärte Glenn Jocher, dass es Ideen zum maschinellen Lernen schon lange gibt, aber die Computer nicht leistungsfähig genug waren, um sie umzusetzen. KI-Ideen brauchten stärkere Hardware, um sie zu verwirklichen.
Der Aufstieg der GPUs (Graphics Processing Units) in den letzten 20 Jahren mit ihren parallelen Verarbeitungsfunktionen hat alles verändert. Sie machten das Training von KI-Modellen viel schneller und effizienter, wodurch sich Deep Learning in rasantem Tempo entwickeln konnte.
Heutzutage verbrauchen KI-Chips wie TPUs (Tensor Processing Units) und optimierte GPUs weniger Strom und können gleichzeitig größere und komplexere Modelle verarbeiten. Dies hat KI zugänglicher und nützlicher für reale Anwendungen gemacht.
Mit jeder neuen Hardwareverbesserung werden sowohl generative KI- als auch Computer-Vision-Anwendungen immer leistungsfähiger. Diese Fortschritte machen Echtzeit-KI schneller, effizienter und für den Einsatz in mehr Branchen bereit.
Auf die Frage, wie die generative KI die Computer Vision beeinflusst, sagte Jing Qiu, dass Transformatoren - Modelle, die der KI helfen, sich auf die wichtigsten Teile eines Bildes zu konzentrieren - die Art und Weise verändert haben, wie die KI Bilder versteht und verarbeitet. Der erste große Schritt war DETR (Detection Transformer), das diesen neuen Ansatz für die Objekterkennung nutzte. Es verbesserte die Genauigkeit, hatte aber Leistungsprobleme, die es in einigen Fällen langsamer machten.
Um dieses Problem zu lösen, haben Forscher Hybridmodelle wie RT-DETR entwickelt. Diese Modelle kombinieren Convolutional Neural Networks (CNNs, d. h. Deep-Learning-Modelle, die automatisch lernen und Merkmale aus Bildern extrahieren) und Transformatoren, um Geschwindigkeit und Genauigkeit auszugleichen. Dieser Ansatz nutzt die Vorteile von Transformatoren und macht die Objekterkennung schneller.
Interessanterweise verwendet YOLOv10 transformatorbasierte Aufmerksamkeitsebenen (Teile des Modells, die wie ein Scheinwerfer die wichtigsten Bereiche in einem Bild hervorheben, während weniger relevante Details ignoriert werden), um seine Leistung zu steigern.
Ao Wang erwähnte auch, wie generative KI die Art und Weise, wie Modelle trainiert werden, verändert. Techniken wie die maskierte Bildmodellierung helfen der KI, effizienter aus Bildern zu lernen, so dass weniger große, manuell beschriftete Datensätze benötigt werden. Dadurch wird das Training von Computer Vision schneller und weniger ressourcenintensiv.
Eine weitere wichtige Idee, die auf dem Podium diskutiert wurde, war die Frage, wie generative KI und Vision AI zusammenkommen könnten, um leistungsfähigere Modelle zu entwickeln. Glenn Jocher erklärte, dass diese beiden Ansätze zwar unterschiedliche Stärken haben, ihre Kombination aber neue Möglichkeiten eröffnen könnte.
So zerlegen beispielsweise KI-Modelle wie YOLO ein Bild oft in ein Raster, um Objekte zu identifizieren. Diese gitterbasierte Methode könnte Sprachmodellen dabei helfen, Details besser zu erkennen und zu beschreiben - eine Herausforderung, mit der viele Sprachmodelle heute konfrontiert sind. Im Wesentlichen könnte die Zusammenführung dieser Techniken zu Systemen führen, die genau erkennen und klar erklären können, was sie sehen.
Generative KI und Computer Vision entwickeln sich gemeinsam weiter. Während die generative KI Bilder und Videos erstellt, verbessert sie auch die Bild- und Videoanalyse, indem sie neue innovative Ideen einbringt, die KI-Modelle genauer und effizienter machen könnten.
In diesem aufschlussreichen YV24-Panelgespräch teilten Glenn Jocher, Jing Qiu und Ao Wang ihre Gedanken darüber, wie diese Technologien die Zukunft gestalten. Mit besserer KI-Hardware werden sich generative KI und Vision AI weiter entwickeln und zu noch größeren Innovationen führen. Diese beiden Bereiche arbeiten zusammen, um intelligentere, schnellere und nützlichere KI für das tägliche Leben zu schaffen.
Werden Sie Mitglied unserer Community und erkunden Sie unser GitHub-Repository, um mehr über Vision AI zu erfahren. Informieren Sie sich über unsere Lizenzierungsoptionen, um Ihre Bildverarbeitungsprojekte in Gang zu bringen. Interessieren Sie sich für Innovationen wie KI in der Fertigung oder Computer Vision beim selbstfahrenden Auto? Besuchen Sie unsere Lösungsseiten, um mehr zu erfahren.