Erkundung verschiedener Datentypen für Vision AI-Anwendungen

Abirami Vina

4 Minuten lesen

Mai 9, 2025

Entdecken Sie, wie visuelle Datentypen wie Wärmebilder, LiDAR- und Infrarotbilder verschiedene Computer-Vision-Anwendungen in verschiedenen Branchen ermöglichen.

Technologien wie Drohnen waren früher begrenzt und nur für Forscher und Spezialisten zugänglich, aber heute wird modernste Hardware einem breiteren Publikum zugänglich gemacht. Dieser Wandel verändert die Art und Weise, wie wir visuelle Daten sammeln. Dank der leichter zugänglichen Technologie können wir jetzt Bilder und Videos aus einer Vielzahl von Quellen aufnehmen, die über herkömmliche Kameras hinausgehen.

Parallel dazu entwickelt sich die Bildanalyse, die durch Computer Vision, einen Zweig der künstlichen Intelligenz (KI), ermöglicht wird, rasch weiter, so dass Maschinen visuelle Daten effizienter interpretieren und verarbeiten können. Dieser Fortschritt hat neue Möglichkeiten für die Automatisierung, Objekterkennung und Echtzeitanalyse eröffnet. Maschinen sind nun in der Lage, Muster zu erkennen, Bewegungen zu verfolgen und komplexe visuelle Eingaben zu interpretieren.

Zu den wichtigsten Arten von visuellen Daten gehören RGB-Bilder (Rot, Grün, Blau), die häufig für die Objekterkennung verwendet werden, Wärmebilder, mit denen sich Wärmesignaturen bei schlechten Lichtverhältnissen erkennen lassen, und Tiefendaten, die es Maschinen ermöglichen, 3D-Umgebungen zu verstehen. Jeder dieser Datentypen spielt eine wichtige Rolle bei verschiedenen Anwendungen von Vision AI, die von der Überwachung bis zur medizinischen Bildgebung reichen.

In diesem Artikel gehen wir auf die wichtigsten Arten von visuellen Daten ein, die in Vision AI verwendet werden, und untersuchen, wie sie zur Verbesserung der Genauigkeit, Effizienz und Leistung in verschiedenen Branchen beitragen. Legen wir los!

Die gängigste Art von KI-Bild- und Videodatensätzen

Wenn Sie ein Smartphone verwenden, um ein Foto zu machen oder CCTV-Aufnahmen anzusehen, arbeiten Sie normalerweise mit RGB-Bildern. RGB steht für Rot, Grün und Blau, und das sind die drei Farbkanäle, die visuelle Informationen in digitalen Bildern darstellen. 

RGB-Bilder und Videos sind eng verwandte Arten von visuellen Daten, die in der Computer Vision verwendet werden und beide mit Standardkameras aufgenommen werden. Der Hauptunterschied besteht darin, dass Bilder einen einzelnen Moment festhalten, während Videos eine Abfolge von Einzelbildern sind, die zeigen, wie sich Dinge im Laufe der Zeit verändern.

RGB-Bilder werden im Allgemeinen für Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Posenschätzung verwendet, die von Modellen wie Ultralytics YOLO11 unterstützt werden. Diese Anwendungen beruhen auf der Erkennung von Mustern, Formen oder spezifischen Merkmalen in einem Einzelbild. 

Videos hingegen sind unverzichtbar, wenn Bewegung oder Zeit eine Rolle spielen, z. B. bei der Gestenerkennung, der Überwachung oder der Verfolgung von Aktionen. Da Videos als eine Reihe von Bildern betrachtet werden können, verarbeiten Computer-Vision-Modelle wie YOLO11 sie Bild für Bild, um Bewegung und Verhalten im Zeitverlauf zu verstehen.

So kann YOLO11 zum Beispiel RGB-Bilder oder Videos analysieren, um Unkraut zu erkennen und Pflanzen auf landwirtschaftlichen Feldern zu zählen. Dies verbessert die Überwachung von Pflanzen und hilft, Veränderungen über Wachstumsperioden hinweg zu verfolgen, um eine effizientere Betriebsführung zu ermöglichen.

__wf_reserved_inherit
Abb. 1. YOLO11 kann Pflanzen erkennen und zählen, um die Ernte besser zu überwachen.

Tiefendaten in Vision AI: LiDAR und 3D-Wahrnehmung

Tiefendaten fügen den visuellen Informationen eine dritte Dimension hinzu, indem sie angeben, wie weit Objekte von der Kamera oder dem Sensor entfernt sind. Im Gegensatz zu RGB-Bildern, die nur Farbe und Textur erfassen, bieten Tiefendaten einen räumlichen Kontext. Sie zeigen die Entfernung zwischen Objekten und der Kamera an und ermöglichen so die Interpretation des 3D-Layouts einer Szene.

Diese Art von Daten wird mit Technologien wie LiDAR, Stereovision (zwei Kameras zur Nachahmung der menschlichen Tiefenwahrnehmung) und Time-of-Flight-Kameras (Messung der Zeit, die das Licht für den Weg zu einem Objekt und zurück benötigt) erfasst. 

Unter diesen ist LiDAR (Light Detection and Ranging) oft die zuverlässigste Methode zur Tiefenmessung. Dabei werden schnelle Laserimpulse ausgesendet und gemessen, wie lange es dauert, bis sie zurückkommen. Das Ergebnis ist eine hochpräzise 3D-Karte, eine so genannte Punktwolke, die die Form, Position und Entfernung von Objekten in Echtzeit hervorhebt.

Die wachsende Rolle von LiDAR in Vision AI Systemen

Die LiDAR-Technologie lässt sich in zwei Haupttypen unterteilen, die jeweils für bestimmte Anwendungen und Umgebungen konzipiert sind. Hier ist ein genauerer Blick auf beide Arten:

  • Luftgestütztes LiDAR: Luftgestützte LiDAR-Scanner werden in der Regel für die Kartierung großer Gebiete eingesetzt. Sie sind auf Drohnen oder Flugzeugen montiert und erfassen hochauflösende Daten für großflächige topografische Kartierungen. Sie sind ideal für die Vermessung von Gelände, Wäldern und Landschaften.

  • Terrestrisches LiDAR: Diese Art von LiDAR-Daten wird von Sensoren erfasst, die auf Fahrzeugen oder stationären Plattformen für Anwendungen wie Infrastrukturüberwachung, Bauwesen und Innenraumkartierung angebracht sind. Sie liefert hochdetaillierte Daten für kleinere, örtlich begrenzte Bereiche und ist daher für Aufgaben wie die Stadtplanung und die Vermessung bestimmter Strukturen nützlich.

Eine wichtige Anwendung von LiDAR-Daten ist der Einsatz in autonomen Fahrzeugen, wo sie eine Schlüsselrolle bei Aufgaben wie der Fahrspurerkennung, der Kollisionsvermeidung und der Identifizierung von Objekten in der Nähe spielen. LiDAR erzeugt detaillierte 3D-Karten der Umgebung in Echtzeit, die es dem Fahrzeug ermöglichen, Objekte zu erkennen, ihre Entfernung zu berechnen und sicher zu navigieren.

__wf_reserved_inherit
Abbildung 2. Die LiDAR-Technologie ermöglicht es autonomen Fahrzeugen, die Tiefe abzubilden und Objekte zu erkennen.

Nutzung von Wärme- und Infrarotdaten in AI-Anwendungen

RGB-Bilder erfassen das, was wir im sichtbaren Lichtspektrum sehen; andere Bildgebungstechnologien, wie Wärme- und Infrarotbilder, gehen jedoch darüber hinaus. Die Infrarot-Bildgebung erfasst Infrarotlicht, das von Objekten emittiert oder reflektiert wird, und ist daher bei schlechten Lichtverhältnissen nützlich.

Die Wärmebildtechnik hingegen erkennt die von Objekten abgestrahlte Wärme und zeigt Temperaturunterschiede an, so dass sie auch bei völliger Dunkelheit oder durch Rauch, Nebel und andere Hindernisse hindurch funktionieren kann. Diese Art von Daten ist besonders nützlich für die Überwachung und Erkennung von Problemen, vor allem in Branchen, in denen Temperaturänderungen potenzielle Probleme signalisieren können.

Ein interessantes Beispiel ist der Einsatz der Wärmebildtechnik zur Überwachung elektrischer Komponenten auf Anzeichen von Überhitzung. Durch die Erkennung von Temperaturunterschieden können Wärmebildkameras Probleme erkennen, bevor sie zu Geräteausfällen, Bränden oder kostspieligen Schäden führen. 

__wf_reserved_inherit
Abb. 3. Ein Beispiel für den Einsatz der Wärmebildtechnik bei der Überwachung elektrischer Komponenten.

Ebenso können Infrarotbilder helfen, Lecks in Rohrleitungen oder Isolierungen zu erkennen, indem sie Temperaturunterschiede identifizieren, die auf austretende Gase oder Flüssigkeiten hinweisen, was für die Vermeidung von Gefahrensituationen und die Verbesserung der Energieeffizienz entscheidend ist.

Multispektrale und hyperspektrale Bildgebung in der KI

Während Infrarot- und Wärmebilder bestimmte Aspekte des elektromagnetischen Spektrums erfassen, sammelt die multispektrale Bildgebung Licht aus einigen ausgewählten Wellenlängenbereichen, die jeweils für einen bestimmten Zweck ausgewählt werden, z. B. zur Erkennung gesunder Vegetation oder zur Identifizierung von Oberflächenmaterialien. 

Die hyperspektrale Bildgebung geht noch einen Schritt weiter, indem sie Licht in Hunderten von sehr schmalen und kontinuierlichen Wellenlängenbereichen einfängt. Dies liefert eine detaillierte Lichtsignatur für jedes Pixel des Bildes und ermöglicht ein viel tieferes Verständnis des beobachteten Materials.

__wf_reserved_inherit
Abb. 4. Vergleich zwischen multispektraler und hyperspektraler Bildgebung.

Sowohl bei der multispektralen als auch bei der hyperspektralen Bildgebung werden spezielle Sensoren und Filter verwendet, um Licht in verschiedenen Wellenlängen zu erfassen. Die Daten werden dann in einer 3D-Struktur, einem so genannten Spektralwürfel, organisiert, wobei jede Schicht eine andere Wellenlänge darstellt. 

KI-Modelle können diese Daten analysieren, um Merkmale zu erkennen, die normale Kameras oder das menschliche Auge nicht sehen können. Bei der Phänotypisierung von Pflanzen kann die hyperspektrale Bildgebung beispielsweise dazu verwendet werden, die Gesundheit und das Wachstum von Pflanzen zu überwachen, indem subtile Veränderungen in ihren Blättern oder Stängeln, wie etwa Nährstoffmangel oder Stress, erkannt werden. Dies hilft Forschern, die Pflanzengesundheit zu beurteilen und landwirtschaftliche Verfahren zu optimieren, ohne dass invasive Methoden erforderlich sind.

Analyse von Radar- und Sonarbildern mithilfe von AI

Radar- und Sonar-Bildgebung sind Technologien, die Objekte erkennen und kartieren, indem sie Signale aussenden und deren Reflektionen analysieren, ähnlich wie LiDAR. Im Gegensatz zur RGB-Bildgebung, die auf Lichtwellen zur Erfassung visueller Informationen beruht, verwendet Radar elektromagnetische Wellen, in der Regel Radiowellen, während Sonar Schallwellen verwendet. Sowohl Radar- als auch Sonarsysteme senden Impulse aus und messen die Zeit, die das Signal braucht, um von einem Objekt zurückzukommen, was Informationen über dessen Entfernung, Größe und Geschwindigkeit liefert.

Die Radarbildgebung ist besonders nützlich, wenn die Sicht schlecht ist, z. B. bei Nebel, Regen oder in der Nacht. Da es nicht auf Licht angewiesen ist, kann es Flugzeuge, Fahrzeuge oder Gelände in völliger Dunkelheit erkennen. Das macht Radar zu einer zuverlässigen Lösung für die Luftfahrt, die Wetterüberwachung und die autonome Navigation.

Im Vergleich dazu wird die Sonar-Bildgebung häufig in Unterwasserumgebungen eingesetzt, die das Licht nicht erreichen kann. Dabei werden Schallwellen verwendet, die sich durch das Wasser bewegen und an untergetauchten Objekten abprallen. Dies ermöglicht die Erkennung von U-Booten, die Kartierung des Meeresbodens und die Durchführung von Unterwasser-Rettungseinsätzen. Die Fortschritte im Bereich der Computervision ermöglichen nun eine weitere Verbesserung der Unterwassererkennung, indem Sonardaten mit intelligenten Analysen kombiniert werden, um die Erkennung und Entscheidungsfindung zu verbessern.

__wf_reserved_inherit
Abb. 5. Wie ein SONAR-System Ultraschallimpulse zur Messung der Meerestiefe verwendet.

Synthetische und simulierte visuelle Daten für das Training von KI-Modellen

Bislang haben wir uns mit den verschiedenen Arten von Daten beschäftigt, die in der realen Welt erhoben werden können. Synthetische und simulierte visuelle Daten sind jedoch beides Arten von künstlichen Inhalten. Synthetische Daten werden mithilfe von 3D-Modellierung oder generativer KI von Grund auf neu erzeugt, um realistisch aussehende Bilder oder Videos zu produzieren. 

__wf_reserved_inherit
Abb. 6. Ein Blick auf synthetisch erzeugte Bilder.

Simulierte Daten sind ähnlich, beinhalten aber die Schaffung virtueller Umgebungen, die das Verhalten der physischen Welt nachbilden, einschließlich Lichtreflexion, Schattenbildung und Objektbewegung. Während alle simulierten visuellen Daten synthetisch sind, sind nicht alle synthetischen Daten simuliert. Der Hauptunterschied besteht darin, dass simulierte Daten ein realistisches Verhalten nachbilden, nicht nur das Aussehen.

Diese Datentypen sind nützlich für das Training von Computer-Vision-Modellen, insbesondere wenn reale Daten schwer zu sammeln sind oder wenn bestimmte, seltene Situationen simuliert werden müssen. Entwickler können ganze Szenen erstellen, Objekttypen, Positionen und Beleuchtung auswählen und automatisch Beschriftungen wie Begrenzungsrahmen für das Training hinzufügen. Auf diese Weise lassen sich schnell große, vielfältige Datensätze erstellen, ohne dass echte Fotos oder manuelle Beschriftungen erforderlich sind, was kostspielig und zeitaufwändig sein kann.

Im Gesundheitswesen können beispielsweise synthetische Daten verwendet werden, um Modelle für die Segmentierung von Brustkrebszellen zu trainieren, wo das Sammeln und Beschriften großer Datensätze mit echten Bildern schwierig ist. Synthetische und simulierte Daten bieten Flexibilität und Kontrolle und füllen Lücken, wo reale Bilder nur begrenzt zur Verfügung stehen.

Auswahl der richtigen Art von visuellen Daten für Ihre KI-Anwendung

Nachdem wir uns nun angesehen haben, wie die verschiedenen Arten von visuellen Daten funktionieren und was sie leisten können, wollen wir uns nun genauer ansehen, welche Datentypen sich für bestimmte Aufgaben am besten eignen:

  • RGB-Bilder: Es eignet sich perfekt für allgemeine Computer-Vision-Aufgaben wie Bildklassifizierung und Objekterkennung. Es erfasst Farbe und Textur, ist aber bei schwierigen Bedingungen wie schwachem Licht oder schlechter Sicht eingeschränkt.

  • LiDAR-Bildgebung: Diese Art der Bildgebung bietet eine hochpräzise 3D-Kartierung mit Laserimpulsen. Sie eignet sich hervorragend für Anwendungen, die genaue Entfernungsmessungen erfordern, wie z. B. Robotik, autonome Fahrzeuge und Infrastrukturinspektionen.
  • Wärmebildtechnik: Da sie Temperaturunterschiede erkennen kann, ist sie bei schlechten Sichtverhältnissen nützlich, z. B. bei der Überwachung in der Nacht, bei der Brandbekämpfung oder beim Aufspüren von Wärmelecks in Maschinen und Gebäuden.
  • Multispektrale und hyperspektrale Bildgebung: Sie ist nützlich für Aufgaben, die eine detaillierte Materialanalyse erfordern, wie z. B. die Überwachung der Landwirtschaft, die pharmazeutische Qualitätskontrolle oder die Fernerkundung. Diese Methoden bieten tiefere Einblicke, indem sie Daten über eine breite Palette von Wellenlängen jenseits des sichtbaren Lichts erfassen.

  • Radar- und Sonarbildgebung: Sie werden bevorzugt in Umgebungen mit geringer Sichtbarkeit eingesetzt. Radar nutzt Radiowellen und ist hilfreich in der Luftfahrt und Navigation, während Sonar Schallwellen für die Unterwassererkennung nutzt.

  • Synthetische und simulierte visuelle Daten: Sie eignen sich ideal für das Training von KI-Modellen, wenn reale Daten begrenzt, nicht verfügbar oder schwer zu beschriften sind. Diese künstlichen visuellen Daten helfen beim Aufbau verschiedener Datensätze für komplexe Szenarien wie seltene Ereignisse oder sicherheitskritische Bedingungen.

Manchmal kann ein einzelner Datentyp in realen Situationen nicht genügend Genauigkeit oder Kontext liefern. An dieser Stelle kommt der multimodalen Sensorfusion eine Schlüsselrolle zu. Durch die Kombination von RGB mit anderen Datentypen wie Wärme-, Tiefen- oder LiDAR-Daten können Systeme individuelle Einschränkungen überwinden und die Zuverlässigkeit und Anpassungsfähigkeit verbessern. 

In der Lagerautomatisierung beispielsweise macht die Verwendung von RGB für die Objekterkennung, von Tiefe für die Abstandsmessung und von Wärme für die Erkennung von überhitzten Geräten die Abläufe effizienter und sicherer. Letztendlich werden die besten Ergebnisse durch die Auswahl oder Kombination von Datentypen auf der Grundlage der spezifischen Anforderungen Ihrer Anwendung erzielt.

Die wichtigsten Erkenntnisse

Bei der Entwicklung von KI-Modellen ist die Auswahl der richtigen Art von visuellen Daten entscheidend. Aufgaben wie Objekterkennung, Segmentierung und Bewegungsverfolgung hängen nicht nur von Algorithmen ab, sondern auch von der Qualität der Eingabedaten. Saubere, vielfältige und genaue Datensätze helfen, Rauschen zu reduzieren und die Leistung zu verbessern.

Durch die Kombination von Datentypen wie RGB-, Tiefen-, Wärmebild- und LiDAR-Daten erhalten KI-Systeme einen vollständigeren Überblick über die Umgebung, was sie unter verschiedenen Bedingungen zuverlässiger macht. Die fortschreitende Verbesserung der Technologie wird wahrscheinlich den Weg dafür ebnen, dass Vision AI schneller, anpassungsfähiger und branchenübergreifend wirkungsvoller wird.

Werden Sie Mitglied unserer Community und erkunden Sie unser GitHub-Repository, um mehr über Computer Vision zu erfahren. Entdecken Sie verschiedene Anwendungen im Zusammenhang mit KI im Gesundheitswesen und Computer Vision im Einzelhandel auf unseren Lösungsseiten. Informieren Sie sich über unsere Lizenzierungsoptionen, um mit Vision AI zu beginnen.

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert