Grüner Scheck
Link in die Zwischenablage kopiert

Verschiedene Datentypen für Vision AI-Anwendungen erforschen

Entdecke, wie visuelle Datentypen wie Wärmebilder, LiDAR- und Infrarotbilder verschiedene Computer Vision-Anwendungen in verschiedenen Branchen ermöglichen.

Früher waren Technologien wie Drohnen begrenzt und nur für Forscher und Spezialisten zugänglich, aber heute wird die hochmoderne Hardware einem breiteren Publikum zugänglich gemacht. Dieser Wandel verändert die Art und Weise, wie wir visuelle Daten sammeln. Dank der leichter zugänglichen Technologie können wir jetzt Bilder und Videos aus einer Vielzahl von Quellen aufnehmen, nicht nur mit herkömmlichen Kameras.

Parallel dazu entwickelt sich die Bildanalyse, die durch Computer Vision, einen Zweig der künstlichen Intelligenz (KI), ermöglicht wird, rasant weiter und erlaubt es Maschinen, visuelle Daten effektiver zu interpretieren und zu verarbeiten. Dieser Fortschritt hat neue Möglichkeiten für die Automatisierung, Objekterkennung und Echtzeitanalyse eröffnet. Maschinen können jetzt Muster erkennen, Bewegungen verfolgen und komplexe visuelle Daten verarbeiten.

Zu den wichtigsten Arten von visuellen Daten gehören RGB-Bilder (Rot, Grün, Blau), die häufig für die Objekterkennung verwendet werden, Wärmebilder, die helfen, Wärmesignaturen bei schlechten Lichtverhältnissen zu erkennen, und Tiefendaten, die es Maschinen ermöglichen, 3D-Umgebungen zu verstehen. Jeder dieser Datentypen spielt eine wichtige Rolle für die verschiedenen Anwendungen von Vision AI, von der Überwachung bis zur medizinischen Bildgebung.

In diesem Artikel gehen wir auf die wichtigsten Arten von visuellen Daten ein, die in der Vision AI verwendet werden, und untersuchen, wie sie zur Verbesserung der Genauigkeit, Effizienz und Leistung in verschiedenen Branchen beitragen. Legen wir los!

Die häufigste Art von KI-Bild- und Videodatensätzen

Wenn du ein Smartphone benutzt, um ein Foto zu machen oder CCTV-Aufnahmen anzusehen, arbeitest du normalerweise mit RGB-Bildern. RGB steht für Rot, Grün und Blau, und das sind die drei Farbkanäle, die die visuellen Informationen in digitalen Bildern darstellen. 

RGB-Bilder und Videos sind eng verwandte Arten von visuellen Daten, die in der Computer Vision verwendet werden und beide mit Standardkameras aufgenommen werden. Der Hauptunterschied besteht darin, dass Bilder einen einzelnen Moment festhalten, während Videos eine Folge von Einzelbildern sind, die zeigen, wie sich Dinge im Laufe der Zeit verändern.

RGB-Bilder werden im Allgemeinen für Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Posenschätzung verwendet, unterstützt durch Modelle wie Ultralytics YOLO11. Bei diesen Anwendungen geht es darum, Muster, Formen oder bestimmte Merkmale in einem Einzelbild zu erkennen. 

Videos hingegen sind unverzichtbar, wenn Bewegung oder Zeit eine Rolle spielen, z. B. bei der Gestenerkennung, der Überwachung oder der Verfolgung von Aktionen. Da Videos als eine Reihe von Bildern betrachtet werden können, verarbeiten Computer-Vision-Modelle wie YOLO11 sie Bild für Bild, um Bewegung und Verhalten im Zeitverlauf zu verstehen.

Mit YOLO11 können zum Beispiel RGB-Bilder oder Videos analysiert werden, um Unkraut zu erkennen und Pflanzen auf landwirtschaftlichen Feldern zu zählen. Das verbessert die Überwachung der Ernte und hilft dabei, Veränderungen über Wachstumsperioden hinweg zu verfolgen, um die Landwirtschaft effizienter zu gestalten.

Abb. 1. YOLO11 kann Pflanzen erkennen und zählen, um die Ernte besser zu überwachen.

Tiefendaten in der KI: LiDAR und 3D-Wahrnehmung

Tiefendaten fügen den visuellen Informationen eine dritte Dimension hinzu, indem sie angeben, wie weit Objekte von der Kamera oder dem Sensor entfernt sind. Im Gegensatz zu RGB-Bildern, die nur Farbe und Textur erfassen, bieten Tiefendaten einen räumlichen Kontext. Sie zeigen die Entfernung zwischen den Objekten und der Kamera an und ermöglichen es, den 3D-Aufbau einer Szene zu interpretieren.

Diese Art von Daten wird mit Technologien wie LiDAR, Stereo Vision (zwei Kameras, die die menschliche Tiefenwahrnehmung nachahmen) und Time-of-Flight-Kameras (die die Zeit messen, die das Licht braucht, um zu einem Objekt und zurück zu gelangen) erfasst. 

Unter diesen ist LiDAR (Light Detection and Ranging) oft die zuverlässigste Methode zur Tiefenmessung. Dabei werden schnelle Laserimpulse ausgesendet und gemessen, wie lange es dauert, bis sie zurückkommen. Das Ergebnis ist eine hochpräzise 3D-Karte, eine sogenannte Punktwolke, die Form, Position und Entfernung von Objekten in Echtzeit zeigt.

Die wachsende Rolle von LiDAR in Vision AI Systemen

Die LiDAR-Technologie kann in zwei Haupttypen unterteilt werden, die jeweils für bestimmte Anwendungen und Umgebungen entwickelt wurden. Hier ist ein genauerer Blick auf beide Arten:

  • Luftgestütztes LiDAR: Luftgestützte LiDAR-Scanner werden auf Drohnen oder Flugzeugen montiert, um hochauflösende Daten für großflächige topografische Kartierungen zu erfassen und werden in der Regel für die Kartierung großer Gebiete eingesetzt. Sie sind ideal für die Vermessung von Gelände, Wäldern und Landschaften.

  • Terrestrisches LiDAR: Diese Art von LiDAR-Daten wird von Sensoren erfasst, die auf Fahrzeugen oder stationären Plattformen für Anwendungen wie Infrastrukturüberwachung, Bauwesen und Innenraumkartierung angebracht sind. Sie liefert hochdetaillierte Daten für kleinere, örtlich begrenzte Gebiete und ist daher für Aufgaben wie die Stadtplanung und die Vermessung bestimmter Strukturen nützlich.

Eine wichtige Anwendung von LiDAR-Daten sind autonome Fahrzeuge, wo sie eine Schlüsselrolle bei Aufgaben wie der Fahrspurerkennung, der Kollisionsvermeidung und der Identifizierung von Objekten in der Nähe spielen. LiDAR erstellt detaillierte 3D-Karten der Umgebung in Echtzeit, die es dem Fahrzeug ermöglichen, Objekte zu erkennen, ihre Entfernung zu berechnen und sicher zu navigieren.

Abb. 2. Die LiDAR-Technologie ermöglicht es autonomen Fahrzeugen, die Tiefe abzubilden und Objekte zu erkennen.

Nutzung von Wärme- und Infrarotdaten in KI-Anwendungen

RGB-Bilder erfassen, was wir im sichtbaren Lichtspektrum sehen. Andere Bildgebungstechnologien wie Wärme- und Infrarotbilder gehen jedoch darüber hinaus. Die Infrarot-Bildgebung erfasst Infrarotlicht, das von Objekten ausgestrahlt oder reflektiert wird, und ist daher bei schlechten Lichtverhältnissen nützlich.

Die Wärmebildtechnik hingegen erkennt die von Objekten abgestrahlte Wärme und zeigt Temperaturunterschiede an, so dass sie auch bei völliger Dunkelheit oder durch Rauch, Nebel und andere Hindernisse hindurch funktioniert. Diese Art von Daten ist besonders nützlich für die Überwachung und Erkennung von Problemen, vor allem in Branchen, in denen Temperaturschwankungen potenzielle Probleme anzeigen können.

Ein interessantes Beispiel ist der Einsatz von Wärmebildern zur Überwachung elektrischer Komponenten auf Anzeichen von Überhitzung. Durch die Erkennung von Temperaturunterschieden können Wärmebildkameras Probleme erkennen, bevor sie zu Geräteausfällen, Bränden oder teuren Schäden führen. 

Abb. 3. Ein Beispiel für den Einsatz der Wärmebildtechnik bei der Überwachung elektrischer Komponenten.

Ebenso können Infrarotbilder dabei helfen, Lecks in Rohrleitungen oder Isolierungen aufzuspüren, indem sie Temperaturunterschiede erkennen, die auf austretende Gase oder Flüssigkeiten hinweisen, was für die Vermeidung von Gefahrensituationen und die Verbesserung der Energieeffizienz entscheidend ist.

Multispektrale und hyperspektrale Bildgebung in der KI

Während Infrarot- und Wärmebilder bestimmte Aspekte des elektromagnetischen Spektrums erfassen, sammelt die multispektrale Bildgebung Licht aus einigen ausgewählten Wellenlängenbereichen, die jeweils für einen bestimmten Zweck ausgewählt werden, z. B. zur Erkennung gesunder Vegetation oder zur Identifizierung von Oberflächenmaterialien. 

Die hyperspektrale Bildgebung geht noch einen Schritt weiter, indem sie das Licht in Hunderten von sehr schmalen und kontinuierlichen Wellenlängenbereichen erfasst. So erhält man eine detaillierte Lichtsignatur für jedes Pixel des Bildes, die ein viel tieferes Verständnis des beobachteten Materials ermöglicht.

Abb. 4. Vergleich zwischen multispektraler und hyperspektraler Bildgebung.

Sowohl bei der multispektralen als auch bei der hyperspektralen Bildgebung werden spezielle Sensoren und Filter verwendet, um Licht in verschiedenen Wellenlängen zu erfassen. Die Daten werden dann in einer 3D-Struktur, dem sogenannten Spektralwürfel, organisiert, wobei jede Schicht eine andere Wellenlänge darstellt. 

KI-Modelle können diese Daten analysieren, um Merkmale zu erkennen, die normale Kameras oder das menschliche Auge nicht sehen können. Bei der Phänotypisierung von Pflanzen kann die hyperspektrale Bildgebung zum Beispiel eingesetzt werden, um die Gesundheit und das Wachstum von Pflanzen zu überwachen, indem subtile Veränderungen in ihren Blättern oder Stängeln, wie Nährstoffmangel oder Stress, erkannt werden. Dies hilft Forschern, die Pflanzengesundheit zu beurteilen und landwirtschaftliche Praktiken zu optimieren, ohne dass invasive Methoden erforderlich sind.

Analyse von Radar- und Sonarbildern mithilfe von KI

Radar und Sonar sind Technologien, die Objekte erkennen und kartieren, indem sie Signale aussenden und deren Reflexionen analysieren, ähnlich wie LiDAR. Im Gegensatz zur RGB-Bildgebung, die auf Lichtwellen basiert, um visuelle Informationen zu erfassen, verwendet Radar elektromagnetische Wellen, in der Regel Radiowellen, während Sonar Schallwellen verwendet. Sowohl Radar- als auch Sonarsysteme senden Impulse aus und messen die Zeit, die das Signal braucht, um von einem Objekt zurückgeworfen zu werden, was Informationen über dessen Entfernung, Größe und Geschwindigkeit liefert.

Das Radarbild ist besonders nützlich, wenn die Sicht schlecht ist, z. B. bei Nebel, Regen oder in der Nacht. Da es nicht auf Licht angewiesen ist, kann es Flugzeuge, Fahrzeuge oder Gelände in völliger Dunkelheit erkennen. Das macht Radar zu einer zuverlässigen Wahl in der Luftfahrt, der Wetterüberwachung und der autonomen Navigation.

Im Vergleich dazu wird Sonar häufig in Unterwasserumgebungen eingesetzt, die das Licht nicht erreichen kann. Es nutzt Schallwellen, die sich durch das Wasser bewegen und an untergetauchten Objekten abprallen. So können U-Boote aufgespürt, der Meeresboden kartiert und Unterwasser-Rettungseinsätze durchgeführt werden. Die Fortschritte in der Computer Vision ermöglichen jetzt eine weitere Verbesserung der Unterwassererkennung, indem Sonardaten mit intelligenten Analysen kombiniert werden, um die Erkennung und Entscheidungsfindung zu verbessern.

Abb. 5. Wie ein SONAR-System Ultraschallimpulse nutzt, um die Meerestiefe zu messen.

Synthetische und simulierte visuelle Daten für das Training von KI-Modellen

Bisher haben wir uns mit den verschiedenen Arten von Daten beschäftigt, die in der realen Welt erhoben werden können. Synthetische und simulierte visuelle Daten sind jedoch beide Arten von künstlichen Inhalten. Synthetische Daten werden mithilfe von 3D-Modellen oder generativer KI von Grund auf neu erstellt, um realistisch aussehende Bilder oder Videos zu erzeugen. 

Abb. 6. Ein Blick auf synthetisch erzeugte Bilder.

Simulierte Daten sind ähnlich, aber es geht darum, virtuelle Umgebungen zu schaffen, die nachbilden, wie sich die physische Welt verhält, einschließlich Lichtreflexion, Schattenbildung und Objektbewegung. Während alle simulierten visuellen Daten synthetisch sind, sind nicht alle synthetischen Daten simuliert. Der Hauptunterschied besteht darin, dass simulierte Daten ein realistisches Verhalten nachbilden, nicht nur das Aussehen.

Diese Datentypen sind nützlich für das Training von Computer-Vision-Modellen, insbesondere wenn reale Daten schwer zu sammeln sind oder wenn bestimmte, seltene Situationen simuliert werden müssen. Entwickler können ganze Szenen erstellen, Objekttypen, Positionen und Beleuchtung auswählen und automatisch Beschriftungen wie Bounding Boxes für das Training hinzufügen. Auf diese Weise lassen sich schnell große, vielfältige Datensätze erstellen, ohne dass echte Fotos oder manuelle Beschriftungen erforderlich sind, die kostspielig und zeitaufwändig sein können.

Im Gesundheitswesen können synthetische Daten zum Beispiel verwendet werden, um Modelle zur Segmentierung von Brustkrebszellen zu trainieren, wo das Sammeln und Beschriften großer Datensätze mit echten Bildern schwierig ist. Synthetische und simulierte Daten bieten Flexibilität und Kontrolle und füllen Lücken, wo reales Bildmaterial begrenzt ist.

Die Wahl der richtigen Art von visuellen Daten für deine KI-Anwendung

Nachdem wir uns nun angeschaut haben, wie die verschiedenen Arten von visuellen Daten funktionieren und was sie leisten können, wollen wir uns genauer ansehen, welche Datentypen sich für bestimmte Aufgaben am besten eignen:

  • RGB-Bilder: Es eignet sich perfekt für allgemeine Bildverarbeitungsaufgaben wie Bildklassifizierung und Objekterkennung. Es erfasst Farbe und Textur, ist aber bei schwierigen Bedingungen wie schwachem Licht oder schlechter Sicht eingeschränkt.

  • LiDAR-Bildgebung: Diese Art der Bildgebung ermöglicht eine hochpräzise 3D-Kartierung mit Laserimpulsen. Sie eignet sich hervorragend für Anwendungen, die genaue Entfernungsmessungen erfordern, z. B. in der Robotik, bei autonomen Fahrzeugen und bei der Inspektion von Infrastruktur.
  • Wärmebildtechnik: Da sie Temperaturunterschiede erkennen kann, ist sie bei schlechten Sichtverhältnissen nützlich, z. B. bei der Überwachung in der Nacht, bei der Brandbekämpfung oder beim Aufspüren von Wärmelecks in Maschinen und Gebäuden.
  • Multispektrale und hyperspektrale Bildgebung: Sie sind nützlich für Aufgaben, die eine detaillierte Materialanalyse erfordern, wie z.B. die Überwachung der Landwirtschaft, die pharmazeutische Qualitätskontrolle oder die Fernerkundung. Diese Methoden ermöglichen tiefere Einblicke, indem sie Daten über ein breites Spektrum von Wellenlängen jenseits des sichtbaren Lichts erfassen.

  • Radar- und Sonaraufnahmen: Sie werden bevorzugt in schlecht einsehbaren Umgebungen eingesetzt. Radar nutzt Radiowellen und ist hilfreich in der Luftfahrt und bei der Navigation, während Sonar Schallwellen für die Unterwasserortung nutzt.

  • Synthetische und simulierte visuelle Daten: Sie sind ideal für das Training von KI-Modellen, wenn reale Daten begrenzt, nicht verfügbar oder schwer zu beschriften sind. Diese künstlichen Bilder helfen dabei, verschiedene Datensätze für komplexe Szenarien wie seltene Ereignisse oder sicherheitskritische Bedingungen zu erstellen.

Manchmal kann ein einzelner Datentyp in realen Situationen nicht genügend Genauigkeit oder Kontext liefern. An dieser Stelle kommt der multimodalen Sensorfusion eine Schlüsselrolle zu. Durch die Kombination von RGB mit anderen Datentypen wie Wärmebild-, Tiefen- oder LiDAR-Daten können Systeme einzelne Einschränkungen überwinden und die Zuverlässigkeit und Anpassungsfähigkeit verbessern. 

In der Lagerautomatisierung zum Beispiel macht die Verwendung von RGB für die Objekterkennung, von Tiefe für die Abstandsmessung und von Wärme für die Erkennung von überhitzten Geräten den Betrieb effizienter und sicherer. Die besten Ergebnisse erhältst du, wenn du die Datentypen entsprechend den spezifischen Anforderungen deiner Anwendung auswählst oder kombinierst.

Die wichtigsten Erkenntnisse

Bei der Entwicklung von KI-Modellen ist die Wahl der richtigen Art von visuellen Daten entscheidend. Aufgaben wie Objekterkennung, Segmentierung und Bewegungsverfolgung hängen nicht nur von Algorithmen ab, sondern auch von der Qualität der Eingabedaten. Saubere, vielfältige und genaue Datensätze helfen, Rauschen zu reduzieren und die Leistung zu verbessern.

Durch die Kombination von Datentypen wie RGB-, Tiefen-, Wärmebild- und LiDAR-Daten erhalten KI-Systeme ein umfassenderes Bild von der Umgebung und werden dadurch unter verschiedenen Bedingungen zuverlässiger. Wenn sich die Technologie weiter verbessert, wird sie wahrscheinlich den Weg dafür ebnen, dass Vision AI schneller und anpassungsfähiger wird und in allen Branchen mehr Wirkung zeigt.

Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über Computer Vision zu erfahren. Entdecke verschiedene Anwendungen für KI im Gesundheitswesen und Computer Vision im Einzelhandel auf unseren Lösungsseiten. Schau dir unsere Lizenzierungsoptionen an, um mit Vision AI loszulegen.

LinkedIn-LogoTwitter-LogoFacebook-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens