Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Entwicklung intelligenter Produkte mit Ultralytics und Vision-KI

Erfahren Sie, wie die Entwicklung intelligenter Produkte mit YOLO26 und Vision-KI Echtzeit-Erkennung, intelligente Automatisierung und skalierbare, reaktionsschnelle Produkterlebnisse ermöglicht.

Skalieren Sie Ihre Computer-Vision-Projekte mit Ultralytics

Kontakt aufnehmen

Täglich werden Tausende von Stunden Videomaterial von Kameras aufgezeichnet, die in Geräten, Maschinen und öffentlicher Infrastruktur eingebaut sind. Der Großteil dieses Materials wird gespeichert, überflogen oder nur dann überprüft, wenn etwas schiefgeht. 

Oftmals sind visuelle Daten verfügbar, aber es fehlt die Möglichkeit, diese in Echtzeit zu interpretieren. Da Produkte zunehmend vernetzt und datengesteuert sind, wird diese Einschränkung immer deutlicher. 

Benutzer erwarten von Systemen mehr als nur die Aufzeichnung von Ereignissen oder die Ausführung festgelegter Anweisungen. Sie erwarten beispielsweise, dass intelligente Produkte erkennen, was gerade geschieht, und sofort reagieren, ohne auf manuelle Überprüfungen zu warten oder sich auf starre Regelsätze zu verlassen.

Die jüngsten Fortschritte im Bereich der künstlichen Intelligenz tragen dazu bei, diese Lücke zu schließen. Insbesondere dank Computer Vision können Maschinen Bilder und Videos interpretieren, sodass Systeme Szenen analysieren und in Echtzeit reagieren können.

Um diese Funktion jedoch in ein Produkt zu integrieren, sind Modelle erforderlich, die sowohl schnell als auch zuverlässig sind. Modernste Computer-Vision-Modelle wie Ultralytics wurden speziell für diesen Zweck entwickelt und bieten die für den Echtzeit-Einsatz erforderliche Geschwindigkeit und Genauigkeit.

YOLO26 unterstützt zentrale Bildverarbeitungsaufgaben wie Objekterkennung, Instanzsegmentierung und Objektverfolgung, sodass Produkte visuelle Daten interpretieren und intelligent darauf reagieren können.

Abb. 1: Objekterkennung in einem Bild mit YOLO26 (Quelle)

In diesem Artikel untersuchen wir, wie Computer Vision und Ultralytics eingesetzt werden können, um intelligentere Produkte zu entwickeln und intelligente Automatisierung in realen Anwendungen zu unterstützen. Los geht's!

Die Lücken in der traditionellen Produktentwicklung

Bevor wir uns damit befassen, wie Computer Vision zur Entwicklung intelligenterer Produkte beiträgt, wollen wir uns zunächst einmal genauer ansehen, vor welchen Herausforderungen Teams stehen, wenn sie sich auf herkömmliche, regelbasierte Systeme und ältere Algorithmen verlassen. 

Hier sind einige der wichtigsten Herausforderungen der traditionellen Produktentwicklung:

  • Starre regelbasierte Systeme: Fest programmierte Logik kann in kontrollierten Umgebungen funktionieren, aber reale Situationen sind selten vorhersehbar. Kleine Veränderungen bei der Beleuchtung, dem Kamerawinkel oder dem Aussehen von Objekten können vordefinierte Regeln schnell außer Kraft setzen und die Genauigkeit beeinträchtigen.
  • Schlechte Anpassungsfähigkeit an reale Variabilität: Herkömmliche Systeme lassen sich nicht gut an neue oder unerwartete Szenarien anpassen. Aktualisierungen erfordern oft manuelle Anpassungen und wiederholte Optimierungen, was Produktverbesserungen verlangsamt und den Wartungsaufwand erhöht.
  • Skalierbarkeitsbeschränkungen: Mit zunehmendem Volumen an Bild- und Videodaten haben ältere Bildverarbeitungs-Pipelines Schwierigkeiten, Schritt zu halten. Die Verarbeitung wird langsamer, was es schwierig macht, die Echtzeitleistung über Videostreams hinweg aufrechtzuerhalten.
  • Hohe Latenz in Echtzeit-Szenarien: Viele herkömmliche Ansätze können kontinuierliche Bildströme nicht schnell genug verarbeiten. Verzögerte Ausgaben schwächen die Automatisierung und verringern die allgemeine Reaktionsfähigkeit.
  • Hohe Rechenanforderungen: Um eine akzeptable Genauigkeit zu erreichen , sind oft erhebliche Hardware-Ressourcen erforderlich, darunter spezielle Grafikprozessoren (GPUs), was die Infrastrukturkosten erhöht.

Die Rolle der Bildverarbeitung bei der Entwicklung intelligenterer Produkte

Als Nächstes wollen wir uns ansehen, wie Computer Vision ein intelligenteres Produktverhalten unterstützen kann.

Die meisten vernetzten Produkte sammeln heute bereits im Rahmen ihrer normalen Betriebsprozesse visuelle Daten. Kameras sind in verschiedene Geräte eingebaut, in physischen Räumen installiert und über Internet-of-Things-Systeme (IoT) miteinander verbunden. 

Infolgedessen werden im Hintergrund ständig Bilder und Videos aufgenommen. Die Herausforderung besteht nicht darin, diese Daten zu sammeln. 

Die Schwierigkeit besteht darin, die gesammelten Daten in Echtzeit auszuwerten. Ohne visuelle Intelligenz werden die Aufnahmen lediglich gespeichert und später ausgewertet, oft nachdem ein Problem bereits aufgetreten ist.

Computer Vision ändert das. Durch den Einsatz von neuronalen Netzen, die darauf trainiert sind, Muster zu erkennen, können Systeme Bilder und Videos in Echtzeit analysieren. Anstatt sich auf feste Regeln oder manuelle Überprüfungen zu verlassen, können Produkte interpretieren, was in einer Szene geschieht, und auf Ereignisse reagieren, sobald sie eintreten.

Um diese visuelle Fähigkeit in Produkte zu integrieren, können Teams auf effiziente Computer-Vision-Modelle wie Ultralytics zurückgreifen. YOLO26 unterstützt wichtige Bildverarbeitungsaufgaben und kann Produkten dabei helfen, visuelle Informationen schnell genug zu interpretieren, um Entscheidungen in Echtzeit zu ermöglichen.

Die Bausteine visuell gesteuerter Produkte

Hier ist eine kurze Übersicht darüber, wie Computer-Vision-Aufgaben zu intelligenteren Produkten beitragen können:

  • Objekterkennung: Diese Aufgabe kann relevante Objekte innerhalb jedes Bildes mithilfe eines Begrenzungsrahmens identifizieren und lokalisieren und ihnen einen Konfidenzwert zuweisen, wodurch ein klares Verständnis davon vermittelt wird, was in einem Bild vorhanden ist.
  • Objektverfolgung: Damit können bestimmte Objekte über mehrere Bilder hinweg verfolgt werden, sodass ein Bildverarbeitungssystem Bewegungen und Veränderungen im Zeitverlauf nachvollziehen kann.
  • Bildklassifizierung: Bei dieser Aufgabe wird einem gesamten Bild anhand seines Hauptinhalts eine Bezeichnung zugewiesen. Dabei werden Szenen kategorisiert oder bestimmte Bedingungen innerhalb des Bildausschnitts identifiziert.
  • Instanzsegmentierung: Sie kann Objekte auf Pixelebene präzise umreißen, sodass Produkte Formen, Grenzen und räumliche Beziehungen besser interpretieren können.
  • Posen-Schätzung: Diese Aufgabe erkennt Schlüsselpunkte am menschlichen Körper oder anderen beweglichen Objekten. Sie erfasst Haltung, Bewegung und physische Interaktionen in Echtzeit.
  • Orientierte Begrenzungsrahmenerkennung (OBB): Sie kann detect mithilfe gedrehter Begrenzungsrahmen anstelle von standardmäßigen horizontalen Begrenzungsrahmen detect . Sie verbessert die Lokalisierungsgenauigkeit, wenn Objekte in Winkeln oder in dicht gepackten Umgebungen erscheinen.

Wenn diese Funktionen auf kontinuierliche visuelle Daten angewendet werden, können Produkte schneller reagieren, zuverlässiger automatisieren und Erfahrungen bieten, die sich eher bewusst als reaktiv anfühlen. Anstatt darauf zu warten, dass Ereignisse später überprüft werden, können Systeme sofort verstehen und handeln.

Wie Echtzeit-Bildverarbeitungsmodelle intelligentes Produktverhalten ermöglichen

Wenn Sie mehr über visiongesteuerte Produkte erfahren, fragen Sie sich vielleicht, wie ein System von der einfachen Videoaufzeichnung zu einer tatsächlichen Reaktion in Echtzeit übergeht.

Es beginnt damit, dass erkannt wird, was sich vor der Kamera befindet. Während das Video einläuft, analysiert ein Bildverarbeitungsmodell jedes Einzelbild und identifiziert die wichtigen Elemente, wie bestimmte Objekte oder Personen. Anstatt auf jede Bewegung zu reagieren, konzentriert sich das System nur auf relevante Signale.

Ein weiterer wichtiger Aspekt ist die Geschwindigkeit. Echtzeitsysteme müssen jedes Bild schnell und konsistent verarbeiten, um sicherzustellen, dass die Erkennung und Entscheidungsfindung ohne merkliche Verzögerung erfolgen.

Beispielsweise wurde die Ultralytics YOLO You Only Look Once)-Modellfamilie entwickelt, um visuelle Daten in Echtzeit zu verarbeiten. Modelle wie Ultralytics bauen auf früheren Versionen wie Ultralytics YOLOv5, Ultralytics YOLOv8und Ultralytics YOLO11, die architektonische Verfeinerungen, Leistungsoptimierungen und Effizienzsteigerungen beinhalten. Das Ergebnis ist eine verbesserte Geschwindigkeit und Genauigkeit, selbst unter anspruchsvollen realen Bedingungen.

Wenn diese Modelle in ein Produkt integriert sind, laufen sie kontinuierlich im Hintergrund und analysieren jedes Bild, sobald es eintrifft. Das System überprüft vordefinierte Bedingungen und kann, sobald diese erfüllt sind, sofort einen Alarm auslösen, einen Workflow aktualisieren oder eine Aktion initiieren.

Dadurch werden bildverarbeitungsgesteuerte Systeme reaktionsschneller, skalierbarer und praktischer für die Integration in Umgebungen, die von Robotik und autonomen Fahrzeugen bis hin zu Smart-Home- und Sicherheitssystemen reichen. Für Führungskräfte in der Wirtschaft bedeutet dies schnellere Reaktionen, weniger manuelle Überprüfungen und eine Automatisierung, die sich zuverlässig anfühlt und nicht reaktiv ist.

Einsatz von YOLO26 zur Unterstützung der visuellen Echtzeit-Intelligenz in Produkten

Ultralytics YOLO , einschließlich YOLO26, sind als vortrainierte Modelle sofort einsatzbereit. Das bedeutet, dass sie bereits auf großen, weit verbreiteten Datensätzen wie dem COCO trainiert wurden.

Dank dieses Vortrainings kann YOLO26 gängige Objekte aus der realen Welt sofort erkennen. Dies bietet Produktteams einen praktischen Ausgangspunkt, sodass sie visuelle Funktionen entwickeln können, ohne ein Modell von Grund auf neu trainieren zu müssen.

Für spezifischere Produktanforderungen können diese vortrainierten Modelle mithilfe domänenspezifischer Daten mit hochwertigen Annotationen weiter optimiert werden. 

Nehmen wir zum Beispiel ein Restaurant, das mit Deckenkameras ausgestattet ist. Ein speziell trainiertes Vision-KI-Modell wie YOLO26 kann detect viele Personen sich in dem Raum befinden. Es kann identifizieren, welche Tische besetzt und welche Stühle leer sind. 

Abb. 2: YOLO26 ermöglicht die Echtzeit-Erkennung von Personen, freien Flächen und besetzten Kassen in Einzelhandelsgeschäften. (Quelle)

In einem solchen Szenario fungiert YOLO26 als visuelle Engine, die kontinuierlich im Hintergrund läuft. Teams können solche Modelle auch auf Edge-Geräten einsetzen, je nach Leistungsanforderungen und Energieeffizienzzielen. 

Praktische Anwendungen von YOLO in intelligenten Produkten

Nachdem wir nun besser verstehen, wie Echtzeit-Bildverarbeitungsmodelle funktionieren, wollen wir uns ansehen, wie Ultralytics YOLO in intelligenten Produkten für verschiedene Anwendungsfälle eingesetzt werden können, um diese Produkte intelligenter, reaktionsschneller und fähiger zu machen, auf das zu reagieren, was sie sehen.

Gesundheitsprodukt-Intelligenz mit YOLO

Bei der chirurgischen Ausbildung im Gesundheitswesen werden oft stundenlange Aufzeichnungen von Eingriffen manuell überprüft, um den Umgang mit Instrumenten und den Arbeitsablauf zu bewerten. Dieser Prozess kann zeitaufwändig sein und hängt stark von der menschlichen Beobachtung ab.

Mit einem in das System integrierten YOLO Bildverarbeitungsmodell können Videoaufnahmen während der Durchführung von Eingriffen automatisch analysiert werden. Das Modell kann detect Instrumente in Echtzeit detect und feststellen, wo und wann sie verwendet werden. 

Dies ermöglicht eine strukturierte Protokollierung, verbesserte Analysen und hochwertige Leistungsdaten ohne ständige manuelle Überprüfung. Tatsächlich hat eine Untersuchung mit dem YOLO11 , dem Vorgänger des aktuellen Modells YOLO26, gezeigt, dass die Echtzeit-Erkennung laparoskopischer Instrumente sogar auf eingebetteten Systemen effektiv funktionieren kann. 

Abb. 3: Echtzeit-Erkennung laparoskopischer Instrumente mit YOLO Quelle)

Das Modell behielt eine hohe Genauigkeit bei und war gleichzeitig schnell genug für Live-Operationen. Dies zeigt, wie Deep Learning zuverlässiges visuelles Feedback in Echtzeit während Eingriffen unterstützen kann.

Schaffung intelligenter, YOLO Einkaufserlebnisse

Wir alle standen schon einmal vor einem überfüllten Supermarktregal und haben versucht, das richtige Produkt zu finden. Viele Artikel sehen gleich aus, die Etiketten sind klein und die Produkte sind oft an der falschen Stelle platziert.

Für Einzelhändler erschwert dies die Echtzeit-Sichtbarkeit der Regale. Vision-KI- und YOLO können Ladensysteme dabei unterstützen, anhand von Kameraaufnahmen und Live-Videostreams zu erkennen, was sich tatsächlich im Regal befindet. Dadurch wird die Abhängigkeit von Barcode-Scans und manuellen Kontrollen verringert, wodurch die Regalüberwachung genauer und reaktionsschneller wird.

Abb. 4: Erkennung und Segmentierung von Produkten in Supermarktregalen mit YOLO26

Dank dieser Genauigkeit müssen sich Einzelhändler nicht mehr ausschließlich auf regelmäßige manuelle Kontrollen verlassen. Die Regale können kontinuierlich per Live-Video überwacht werden. 

Geringe Lagerbestände können sofort gemeldet, falsch platzierte Produkte schneller gefunden und Kassiervorgänge reibungsloser abgewickelt werden. Dies ermöglicht Einzelhändlern eine bessere operative Kontrolle und schafft gleichzeitig ein nahtloseres Einkaufserlebnis für Kunden.

Vision-KI und autonome Navigation

Autonome Systeme können sehr effizient sein, sind jedoch häufig auf feste Routen oder voreingestellte Koordinaten angewiesen. In stabilen Umgebungen funktioniert dies zwar, doch in der Realität bleiben die Bedingungen selten unverändert. 

Vision-KI-Lösungen, die auf Deep-Learning-Modellen basieren, ermöglichen es Maschinen, ihre Umgebung zu verstehen und sich in Echtzeit anzupassen. Durch die Kombination von Computer Vision mit adaptiven Algorithmen können Systeme auf Veränderungen reagieren, sobald diese auftreten, anstatt sich auf starre, vorprogrammierte Anweisungen zu verlassen.

Wie funktioniert das nun in der Praxis? Nehmen wir das Beispiel eines Roboters, der in einem Lagerhaus eingesetzt wird. Kameras erfassen kontinuierlich seine Umgebung, und ein Bildverarbeitungsmodell führt eine Echtzeit-Objekterkennung durch, um Hindernisse, Regale und Wege zu identifizieren. 

Diese Erkennungen unterstützen die Lokalisierung und helfen dem Roboter, seine genaue Position innerhalb der Anlage zu bestimmen. Auf der Grundlage dieser visuellen Eingaben passen Optimierungsalgorithmen seine Route sofort an, sodass er auch bei sich ändernden Bedingungen effizient navigieren und eine reibungslose Automatisierung aufrechterhalten kann.

Infrastrukturüberwachung und intelligentere Fehlererkennung

Stromleitungen und Netzausrüstung müssen regelmäßig überprüft werden, um sicher und zuverlässig zu bleiben. Meistens werden diese Versorgungsinspektionen immer noch manuell durchgeführt, was zeitaufwendig und in großen oder abgelegenen Gebieten schwer zu bewältigen ist.

Vision AI bietet eine einfachere Möglichkeit, die Infrastruktur im Auge zu behalten, ohne sich ausschließlich auf geplante Besichtigungen vor Ort verlassen zu müssen. Modelle wie YOLO26 können detect an Stromleitungsisolatoren, darunter Risse, Korrosion oder sichtbare Schäden, direkt anhand von Bildern detect , die unter realen Außenbedingungen aufgenommen wurden. 

Durch die Echtzeitanalyse visueller Daten können solche Systeme potenzielle Probleme erkennen, die andernfalls möglicherweise unbemerkt bleiben würden. Die frühzeitige Erkennung dieser Probleme verringert das Risiko von Geräteausfällen, minimiert unerwartete Ausfälle und unterstützt proaktivere Wartungsmaßnahmen.

Messung des ROI von bildverarbeitungsbasierten intelligenten Produkten

Für Führungskräfte geht es bei Vision AI nicht nur um technische Leistung. Es geht um messbare geschäftliche Auswirkungen. 

Bei sorgfältiger Implementierung können visionsgesteuerte Systeme die Effizienz verbessern, Kosten senken und die Genauigkeit erhöhen. Diese Vorteile tragen auch zu einer besseren Benutzererfahrung und einer insgesamt höheren Gesamtleistung bei.

Hier sind einige Bereiche, in denen diese Auswirkungen deutlich werden:

  • Reduzierter manueller Aufwand: Bildverarbeitungssysteme automatisieren sich wiederholende Inspektions-, Überwachungs- und Verifizierungsaufgaben, verringern die Abhängigkeit von manuellen Prozessen und entlasten Teams, sodass diese sich auf strategischere Aufgaben konzentrieren können.
  • Schnellere Entscheidungszyklen: Durch visuelle Echtzeitanalysen können Systeme detect sofort detect oder Maßnahmen auslösen, wodurch Reaktionszeiten verkürzt werden und der reibungslose Betrieb gewährleistet bleibt.
  • Weniger Betriebsfehler: Automatisierte Erkennung sorgt für Konsistenz. Durch die Reduzierung menschlicher Fehler bei Routineaufgaben profitieren Unternehmen oft von weniger Fehlern und zuverlässigeren Ergebnissen.
  • Verbesserte Nutzerinteraktion: Produkte, die sehen und intelligent reagieren können, wirken interaktiver und relevanter. Dies führt zu stärkerem Vertrauen seitens der Nutzer, besseren Erfahrungen und einer höheren langfristigen Akzeptanz.

Wesentliche Erkenntnisse

Vision AI ermöglicht es Produkten, visuelle Informationen in Echtzeit zu interpretieren, und unterstützt so eine intelligentere Automatisierung und reaktionsschnellere Erlebnisse. Mit Funktionen wie Erkennung, Verfolgung und Segmentierung gehen Systeme über grundlegende Regeln hinaus und treffen kontextbezogene Entscheidungen. Effiziente Modelle wie Ultralytics machen es praktikabel, skalierbare, wettbewerbsfähige, bildverarbeitungsgesteuerte Produkte zu entwickeln.

Werden Sie Teil unserer aktiven Community und entdecken Sie Innovationen wie KI in der Fertigung und Bildverarbeitungs-KI im Einzelhandel. Besuchen Sie unser GitHub-Repository und starten Sie noch heute mit Computer Vision, indem Sie sich unsere Lizenzoptionen ansehen.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten