Echtzeit-Rückschlüsse in Vision AI-Lösungen zeigen Wirkung

Abirami Vina

4 Minuten lesen

20. Februar 2025

Entdecken Sie, warum Echtzeit-Rückschlüsse in der Computer Vision für eine Reihe von Anwendungen wichtig sind, und erkunden Sie ihre Rolle bei der Ermöglichung sofortiger Entscheidungen.

Wir alle haben schon einmal mit den Frustrationen zu tun gehabt, die eine langsame Internetverbindung verursachen kann. Aber stellen Sie sich diese Verzögerung in einer Situation vor, in der es um viel geht, wie z. B. bei einem selbstfahrenden Auto, das auf ein Hindernis reagiert, oder bei einem Arzt, der einen wichtigen Scan auswertet. Ein paar zusätzliche Sekunden können schwerwiegende Folgen haben. 

Hier kann die Echtzeit-KI-Inferenzierung den Unterschied ausmachen. Dank schneller Verarbeitung und Vorhersagen in Echtzeit können Bildverarbeitungslösungen visuelle Daten sofort verarbeiten und auf sie reagieren. Diese sekundenschnellen Entscheidungen können die Sicherheit, Effizienz und den Alltagskomfort erhöhen. 

Stellen Sie sich zum Beispiel einen Chirurgen vor, der einen heiklen Eingriff mit einem Roboterassistenten durchführt. Jede Bewegung wird über eine Hochgeschwindigkeitsverbindung gesteuert, und das Bildverarbeitungssystem des Roboters verarbeitet das Operationsfeld in Echtzeit und gibt dem Chirurgen sofortiges visuelles Feedback. Schon die kleinste Verzögerung in dieser Feedbackschleife könnte zu schwerwiegenden Fehlern führen und den Patienten gefährden. Dies ist ein perfektes Beispiel dafür, warum Echtzeit-Rückschlüsse so wichtig sind; es gibt keinen Platz für Verzögerungen. 

KI-Inferenzen in realen Anwendungen hängen von drei Schlüsselkonzepten ab: Inferenz-Engines (die Software oder Hardware, die KI-Modelle effizient ausführt), Inferenz-Latenz (die Verzögerung zwischen Eingabe und Ausgabe) und Echtzeit-Inferenzierung (die Fähigkeit des KI-Systems, mit minimaler Verzögerung zu verarbeiten und zu reagieren).

In diesem Artikel werden wir uns mit diesen Kernkonzepten befassen und untersuchen, wie Computer-Vision-Modelle wie Ultralytics YOLO11 Anwendungen ermöglichen, die auf sofortige Vorhersagen angewiesen sind.

Was ist eine KI-Schlussfolgerung?

Eine Inferenz ist der Prozess der Analyse neuer Daten mithilfe eines trainierten KI-Modells, um eine Vorhersage zu treffen oder eine Aufgabe zu lösen. Im Gegensatz zum Training, bei dem ein Modell durch die Verarbeitung großer Mengen markierter Daten trainiert wird, liegt der Schwerpunkt beim Inferencing auf der schnellen und präzisen Erstellung von Ergebnissen unter Verwendung eines bereits trainierten Modells.

__wf_reserved_inherit
Abbildung 1. Verstehen, was Schlussfolgerungen sind.

Im Bereich des Wildtierschutzes beispielsweise nutzen KI-Kamerafallen Computer-Vision-Modelle, um Tiere in Echtzeit zu identifizieren und zu klassifizieren. Wenn eine Kamera eine Bewegung erkennt, erkennt das KI-Modell sofort, ob es sich um ein Reh, ein Raubtier oder sogar einen Wilderer handelt. So können Forscher Tierpopulationen verfolgen und gefährdete Arten ohne menschliches Eingreifen schützen. Diese schnelle Identifizierung ermöglicht eine Überwachung in Echtzeit und schnellere Reaktionen auf potenzielle Bedrohungen.

Verstehen von Inferenzmaschinen

Ein trainiertes Modell für maschinelles Lernen ist nicht immer in seiner Rohform einsatzbereit. Eine Inferenz-Engine ist ein spezialisiertes Software- oder Hardware-Tool, das für die effiziente Ausführung von Modellen für maschinelles Lernen und deren Optimierung für den Einsatz in der Praxis entwickelt wurde. Sie verwendet Optimierungstechniken wie Modellkomprimierung, Quantisierung und Graphenumwandlung, um die Leistung zu verbessern und den Ressourcenverbrauch zu reduzieren, sodass das Modell in verschiedenen Umgebungen eingesetzt werden kann. 

Im Kern konzentriert sich eine Inferenz-Engine auf die Reduzierung des Rechenaufwands, die Minimierung der Latenzzeit und die Verbesserung der Effizienz, um schnelle und genaue Vorhersagen zu ermöglichen. Nach der Optimierung führt die Engine das Modell auf neuen Daten aus und kann so effizient Echtzeit-Schlussfolgerungen generieren. Diese Optimierung stellt sicher, dass KI-Modelle sowohl auf hochleistungsfähigen Cloud-Servern als auch auf ressourcenbeschränkten Endgeräten wie Smartphones, IoT-Geräten und eingebetteten Systemen reibungslos ausgeführt werden können.

Probleme aufgrund von Latenzzeiten bei der Inferenz

Die Inferenzlatenz ist die zeitliche Verzögerung zwischen dem Zeitpunkt, an dem ein KI-System Eingabedaten erhält (z. B. ein Bild von einer Kamera) und dem Zeitpunkt, an dem es eine Ausgabe erzeugt (z. B. die Erkennung von Objekten im Bild). Selbst eine kleine Verzögerung kann die Leistung und Nutzbarkeit von Echtzeit-KI-Anwendungen erheblich beeinträchtigen.

Die Latenzzeit für Schlussfolgerungen tritt in drei wichtigen Phasen auf:

  • Vorverarbeitungszeit: Die Zeit, die benötigt wird, um die Eingabedaten vorzubereiten, bevor sie in das Modell eingespeist werden. Dazu gehören die Größenanpassung von Bildern an die Eingangsabmessungen des Modells, die Normalisierung von Pixelwerten für eine bessere Genauigkeit und die Umwandlung von Formaten (z. B. RGB in Graustufen oder Video in Bildsequenzen).
  • Berechnungszeit: Die tatsächliche Zeit, die das Modell für die Durchführung von Schlussfolgerungen benötigt. Dazu gehören Vorgänge wie schichtweise Berechnungen in tiefen Netzen, Matrixmultiplikationen, Faltungen und die Datenübertragung zwischen Speicher und Verarbeitungseinheiten.
  • Nachbearbeitungszeit: Die Zeit, die erforderlich ist, um die Rohdaten des Modells in sinnvolle Ergebnisse umzuwandeln. Dazu kann das Zeichnen von Bounding Boxes bei der Objekterkennung, das Filtern falsch positiver Ergebnisse bei der Bilderkennung oder die Anwendung von Schwellenwerten bei der Erkennung von Anomalien gehören.

Die Inferenzlatenz ist bei Echtzeitanwendungen von entscheidender Bedeutung. Bei der automatischen Fehlererkennung an einem Fließband kann die Computer Vision beispielsweise eingesetzt werden, um die Produkte zu prüfen, während sie über das Fließband laufen. 

Das System muss Fehler schnell erkennen und kennzeichnen, bevor die Produkte in die nächste Phase gehen. Wenn das Modell zu lange braucht, um die Bilder zu verarbeiten, werden fehlerhafte Teile möglicherweise nicht rechtzeitig erkannt, was zu Materialverschwendung, kostspieligen Nacharbeiten oder fehlerhaften Produkten beim Kunden führt. Durch die Verringerung der Latenzzeit können Hersteller die Qualitätskontrolle verbessern, die Effizienz steigern und Verluste reduzieren.

Verringerung der Latenzzeit bei der Schlussfolgerung

Bei vielen Bildverarbeitungsanwendungen ist es wichtig, die Latenzzeit für die Schlussfolgerungen möglichst gering zu halten. Um dies zu erreichen, können verschiedene Techniken eingesetzt werden. Im Folgenden werden einige der gängigsten Techniken zur Verringerung der Inferenzlatenz erörtert.

Modellbeschneidung

Das Modell Pruning vereinfacht ein neuronales Netz, indem unnötige Verbindungen (Gewichte) entfernt werden, wodurch es kleiner und schneller wird. Durch diesen Prozess wird die Rechenlast des Modells verringert und die Geschwindigkeit erhöht, ohne die Genauigkeit zu sehr zu beeinträchtigen. 

Indem nur die wichtigsten Verbindungen beibehalten werden, sorgt Pruning für effiziente Schlussfolgerungen und eine bessere Leistung, insbesondere auf Geräten mit begrenzter Verarbeitungsleistung. Es wird häufig in Echtzeitanwendungen wie mobiler KI, Robotik und Edge Computing eingesetzt, um die Effizienz zu steigern und gleichzeitig die Zuverlässigkeit zu gewährleisten.

__wf_reserved_inherit
Abbildung 2. Eliminierung weniger effektiver Verbindungen durch Modellbereinigung.

Modell-Quantisierung

Die Modellquantisierung ist eine Technik, mit der KI-Modelle durch Vereinfachung der für die Berechnungen verwendeten Zahlen schneller laufen und weniger Speicherplatz benötigen. Normalerweise arbeiten diese Modelle mit 32-Bit-Gleitkommazahlen, die sehr genau sind, aber viel Rechenleistung erfordern. Durch Quantisierung werden diese Zahlen auf 8-Bit-Ganzzahlen reduziert, die einfacher zu verarbeiten sind und weniger Speicherplatz benötigen. 

__wf_reserved_inherit
Abbildung 3. Modellquantisierung zur Umwandlung von Fließkommawerten in Ganzzahldarstellungen.

Verwendung effizienter Modelle

Das Design eines KI-Modells hat einen großen Einfluss darauf, wie schnell es Vorhersagen machen kann. Modelle wie YOLO11, die auf eine effiziente Inferenz ausgelegt sind, eignen sich ideal für Anwendungen, bei denen die Verarbeitungsgeschwindigkeit entscheidend ist.

Beim Aufbau einer KI-Lösung ist es wichtig, das richtige Modell auf der Grundlage der verfügbaren Ressourcen und Leistungsanforderungen auszuwählen. Wenn Sie mit einem zu schweren Modell beginnen, werden Sie eher mit Problemen wie langsamen Verarbeitungszeiten, höherem Stromverbrauch und Schwierigkeiten bei der Bereitstellung auf Geräten mit begrenzten Ressourcen konfrontiert. Ein leichtgewichtiges Modell gewährleistet eine reibungslose Leistung, insbesondere bei Echtzeit- und Edge-Anwendungen.

Geschwindigkeit vs. Genauigkeit: Optimierung von Echtzeit-Inferenzen

Es gibt zwar verschiedene Techniken zur Verringerung der Latenzzeit, aber ein wesentlicher Bestandteil von Echtzeit-Inferenzen ist das Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Es reicht nicht aus, Modelle schneller zu machen - die Geschwindigkeit der Schlussfolgerungen muss optimiert werden, ohne die Genauigkeit zu beeinträchtigen. Ein System, das schnelle, aber falsche Vorhersagen macht, ist ineffektiv. Aus diesem Grund sind gründliche Tests unerlässlich, um sicherzustellen, dass die Modelle in realen Situationen gut funktionieren. Ein System, das beim Testen schnell erscheint, aber unter realen Bedingungen versagt, ist nicht wirklich optimiert.

Vision AI-Anwendungen, die Echtzeit-Inferenzen nutzen

Als Nächstes wollen wir uns einige reale Anwendungen ansehen, bei denen Echtzeit-Inferencing die Industrie verändert, indem es sofortige Reaktionen auf visuelle Eingaben ermöglicht.

Selbstbedienungs-Kassensysteme in Einzelhandelsgeschäften

Computer-Vision-Modelle wie YOLO11 können dazu beitragen, Self-Checkout-Systeme zu verbessern, indem sie die Artikelerkennung schneller und genauer machen. Die Unterstützung von YOLO11 für verschiedene Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung ermöglicht die Identifizierung von Produkten, selbst wenn Barcodes fehlen oder beschädigt sind. Vision AI kann den Bedarf an manuellen Eingaben reduzieren und den Kassiervorgang beschleunigen.

Neben der Produktidentifikation kann die Computer Vision auch in Self-Checkout-Systeme integriert werden, um Preise zu überprüfen, Betrug zu verhindern und den Kundenkomfort zu erhöhen. KI-gestützte Kameras können automatisch zwischen ähnlichen Produkten unterscheiden und verdächtiges Verhalten an der Kasse erkennen. Dazu gehört die Erkennung von "Nicht-Scans", bei denen ein Kunde oder Kassierer versehentlich einen Artikel übersieht, und von vorsätzlichen Betrugsversuchen wie dem "Produktwechsel", bei dem ein billiger Barcode über einen teureren Artikel gelegt wird.

__wf_reserved_inherit
Abb. 4. KI kann Self-Checkout-Schalter verbessern.

Ein großartiges Beispiel dafür ist Kroger, ein großer US-Einzelhändler, der Computer Vision und KI in seine Self-Checkout-Systeme integriert hat. Mithilfe der Videoanalyse in Echtzeit konnte Kroger über 75 % der Fehler an den Kassen automatisch korrigieren und so sowohl das Kundenerlebnis als auch die Abläufe in den Geschäften verbessern.

Qualitätsprüfung mit Computer Vision

Die manuelle Prüfung von Produkten zur Qualitätskontrolle kann langsam und nicht immer genau sein. Deshalb stellen immer mehr Hersteller auf visuelle Inspektionsabläufe um, bei denen die Computervision eingesetzt wird, um Fehler früher im Produktionsprozess zu erkennen.

Hochauflösende Kameras und Vision AI können winzige Fehler erkennen, die Menschen möglicherweise übersehen, und Modelle wie YOLO11 können bei Qualitätsprüfungen, Sortierung und Zählung in Echtzeit helfen, um sicherzustellen, dass nur perfekte Produkte an die Kunden geliefert werden. Die Automatisierung dieses Prozesses spart Zeit, senkt die Kosten und reduziert den Abfall, wodurch die Produktion reibungsloser und effizienter wird.

__wf_reserved_inherit
Abb. 5. Ein Beispiel für die Verwendung von YOLO11 zum Zählen von Produkten an einem Fließband.

Die wichtigsten Erkenntnisse

Echtzeit-Inferencing hilft KI-Modellen, sofortige Entscheidungen zu treffen, was in vielen Branchen entscheidend ist. Ob es sich um ein selbstfahrendes Auto handelt, das einen Unfall vermeidet, einen Arzt, der medizinische Scans schnell analysiert, oder eine Fabrik, die Produktfehler erkennt - schnelle und präzise KI-Reaktionen machen einen großen Unterschied.

Indem wir die Geschwindigkeit und Effizienz von KI-Modellen verbessern, können wir intelligentere, zuverlässigere Systeme schaffen, die in realen Situationen nahtlos funktionieren. Im Zuge des technologischen Fortschritts werden KI-Echtzeitlösungen die Zukunft weiter prägen und alltägliche Prozesse schneller, sicherer und effizienter machen.

Wenn Sie mehr erfahren möchten, besuchen Sie unser GitHub-Repository und beteiligen Sie sich an unserer Community. Entdecken Sie Innovationen in Bereichen wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Informieren Sie sich über unsere Lizenzierungsoptionen und erwecken Sie Ihre Vision-KI-Projekte zum Leben.

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert