Erkundung verschiedener Datentypen für Vision AI-Anwendungen
Entdecke, wie visuelle Datentypen wie Wärmebildgebung, LiDAR und Infrarotbilder vielfältige Computer-Vision-Anwendungen in verschiedenen Branchen ermöglichen.

Technologien wie Drohnen waren früher begrenzt und nur Forschern und Spezialisten zugänglich, doch heute wird modernste Hardware einem breiteren Publikum zugänglich. Dieser Wandel verändert die Art und Weise, wie wir visuelle Daten erfassen. Dank zugänglicherer Technologie können wir jetzt Bilder und Videos aus einer Vielzahl von Quellen aufnehmen, die über herkömmliche Kameras hinausgehen.
Parallel dazu entwickelt sich die Bildanalyse, ermöglicht durch Computer Vision, einen Zweig der künstlichen Intelligenz (KI), rasant weiter und ermöglicht es Maschinen, visuelle Daten effektiver zu interpretieren und zu verarbeiten. Dieser Fortschritt hat neue Möglichkeiten für Automatisierung, Objekterkennung und Echtzeitanalyse eröffnet. Maschinen können nun Muster erkennen, Bewegungen verfolgen und komplexe visuelle Eingaben interpretieren.
Zu den wichtigsten Arten von visuellen Daten gehören RGB-Bilder (Rot, Grün, Blau), die häufig für die Objekterkennung verwendet werden, Wärmebildgebung, die hilft, Wärmesignaturen bei schlechten Lichtverhältnissen zu erkennen, und Tiefendaten, die es Maschinen ermöglichen, 3D-Umgebungen zu verstehen. Jeder dieser Datentypen spielt eine entscheidende Rolle bei der Unterstützung verschiedener Vision-KI-Anwendungen, von der Überwachung bis zur medizinischen Bildgebung.
In diesem Artikel untersuchen wir die wichtigsten Arten von visuellen Daten, die in der Vision-KI verwendet werden, und wie sie jeweils dazu beitragen, Genauigkeit, Effizienz und Leistung in verschiedenen Branchen zu verbessern. Lass uns anfangen!
Link to this sectionDer häufigste Typ von KI-Bild- und Videodatensätzen#
Normalerweise arbeitest du mit RGB-Bildern, wenn du ein Smartphone zum Fotografieren verwendest oder CCTV-Aufnahmen ansiehst. RGB steht für Rot, Grün und Blau; das sind die drei Farbkanäle, die visuelle Informationen in digitalen Bildern darstellen.
RGB-Bilder und -Videos sind eng miteinander verbundene Arten visueller Daten, die in der Computer Vision verwendet werden und beide mit Standardkameras aufgenommen werden. Der Hauptunterschied besteht darin, dass Bilder einen einzelnen Moment festhalten, während Videos eine Abfolge von Einzelbildern sind, die zeigen, wie sich Dinge im Laufe der Zeit verändern.
RGB-Bilder werden im Allgemeinen für Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung und Posenschätzung verwendet, unterstützt durch Modelle wie Ultralytics YOLO11. Diese Anwendungen beruhen auf der Identifizierung von Mustern, Formen oder spezifischen Merkmalen in einem einzelnen Bild.
Videos hingegen sind unerlässlich, wenn Bewegung oder Zeit ein Faktor sind, wie etwa bei der Gestenerkennung, Überwachung oder Bewegungsverfolgung. Da Videos als eine Reihe von Bildern betrachtet werden können, verarbeiten Computer-Vision-Modelle wie YOLO11 diese Bild für Bild, um Bewegungen und Verhalten im Zeitverlauf zu verstehen.
Zum Beispiel kann YOLO11 verwendet werden, um RGB-Bilder oder Videos zu analysieren, um Unkraut zu erkennen und Pflanzen auf landwirtschaftlichen Feldern zu zählen. Dies verbessert die Pflanzenüberwachung und hilft dabei, Veränderungen über Wachstumszyklen hinweg zu verfolgen, was ein effizienteres Farmmanagement ermöglicht.

Abb. 1. YOLO11 kann Pflanzen für eine intelligentere Pflanzenüberwachung erkennen und zählen.
Link to this sectionTiefendaten in der Vision-KI: LiDAR und 3D-Wahrnehmung#
Tiefendaten fügen visuellen Informationen eine dritte Dimension hinzu, indem sie angeben, wie weit Objekte von der Kamera oder dem Sensor entfernt sind. Im Gegensatz zu RGB-Bildern, die nur Farbe und Textur erfassen, liefern Tiefendaten einen räumlichen Kontext. Sie zeigen den Abstand zwischen Objekten und der Kamera und machen es möglich, das 3D-Layout einer Szene zu interpretieren.
Diese Art von Daten wird mithilfe von Technologien wie LiDAR, Stereovision (Verwendung von zwei Kameras zur Nachahmung der menschlichen Tiefenwahrnehmung) und Time-of-Flight-Kameras (Messung der Zeit, die Licht benötigt, um zu einem Objekt und zurück zu gelangen) erfasst.
Unter diesen ist LiDAR (Light Detection and Ranging) oft am zuverlässigsten für die Tiefenmessung. Es funktioniert durch das Aussenden schneller Laserimpulse und die Messung, wie lange sie zum Zurückprallen benötigen. Das Ergebnis ist eine hochpräzise 3D-Karte, ein sogenanntes Punktwolkenmodell, das Form, Position und Entfernung von Objekten in Echtzeit hervorhebt.
Link to this sectionDie wachsende Rolle von LiDAR in Vision-KI-Systemen#
Die LiDAR-Technologie kann in zwei Haupttypen unterteilt werden, die jeweils für spezifische Anwendungen und Umgebungen konzipiert sind. Hier ist ein genauerer Blick auf beide Typen:
- Luftgestütztes LiDAR: Wird typischerweise für die Kartierung großer Gebiete verwendet. Luftgestützte LiDAR-Scanner sind an Drohnen oder Flugzeugen montiert, um hochauflösende Daten für groß angelegte topografische Kartierungen zu erfassen. Es ist ideal für die Vermessung von Gelände, Wäldern und Landschaften.
- Terrestrisches LiDAR: Diese Art von LiDAR-Daten wird von Sensoren gesammelt, die an Fahrzeugen oder stationären Plattformen montiert sind, für Anwendungen wie Infrastrukturüberwachung, Bauwesen und Innenraumkartierung. Es liefert hochdetaillierte Daten für kleinere, lokalisierte Bereiche und ist daher nützlich für Aufgaben wie Stadtplanung und die Vermessung spezifischer Strukturen.
Eine wirkungsvolle Anwendung von LiDAR-Daten findet sich in autonomen Fahrzeugen, wo sie eine Schlüsselrolle bei Aufgaben wie Spurerkennung, Kollisionsvermeidung und der Identifizierung von Objekten in der Nähe spielen. LiDAR generiert detaillierte 3D-Echtzeitkarten der Umgebung, wodurch das Fahrzeug Objekte sehen, ihre Entfernung berechnen und sicher navigieren kann.

Abb. 2. LiDAR-Technologie ermöglicht autonomen Fahrzeugen das Erfassen von Tiefe und die Erkennung von Objekten.
Link to this sectionVerwendung von Wärmebild- und Infrarotdaten in KI-Anwendungen#
RGB-Bilder erfassen das, was wir im sichtbaren Lichtspektrum sehen; andere Bildgebungstechnologien wie Wärmebild- und Infrarotkameras gehen jedoch darüber hinaus. Infrarotbildgebung erfasst Infrarotlicht, das von Objekten ausgestrahlt oder reflektiert wird, was sie bei schlechten Lichtverhältnissen nützlich macht.
Die Wärmebildgebung hingegen erkennt die von Objekten abgegebene Wärme und zeigt Temperaturunterschiede an, wodurch sie selbst bei völliger Dunkelheit oder durch Rauch, Nebel und andere Hindernisse hindurch funktioniert. Diese Art von Daten ist besonders nützlich für die Überwachung und Erkennung von Problemen, insbesondere in Branchen, in denen Temperaturänderungen auf potenzielle Probleme hinweisen können.
Ein interessantes Beispiel ist die Verwendung von Wärmebildgebung zur Überwachung von elektrischen Komponenten auf Anzeichen von Überhitzung. Durch die Erkennung von Temperaturunterschieden können Wärmebildkameras Probleme identifizieren, bevor sie zu Geräteausfällen, Bränden oder kostspieligen Schäden führen.

Abb. 3. Ein Beispiel für die Verwendung von Wärmebildgebung zur Überwachung elektrischer Komponenten.
In ähnlicher Weise können Infrarotbilder dabei helfen, Lecks in Rohrleitungen oder Isolierungen zu erkennen, indem sie Temperaturunterschiede identifizieren, die auf entweichende Gase oder Flüssigkeiten hinweisen. Dies ist entscheidend, um gefährliche Situationen zu vermeiden und die Energieeffizienz zu verbessern.
Link to this sectionMultispektrale und hyperspektrale Bildgebung in der KI#
Während Infrarot- und Wärmebildgebung spezifische Aspekte des elektromagnetischen Spektrums erfassen, sammelt die multispektrale Bildgebung Licht aus einigen ausgewählten Wellenlängenbereichen, die jeweils für einen bestimmten Zweck gewählt wurden, wie etwa das Erkennen gesunder Vegetation oder die Identifizierung von Oberflächenmaterialien.
Die hyperspektrale Bildgebung geht noch einen Schritt weiter, indem sie Licht über Hunderte sehr schmaler und kontinuierlicher Wellenlängenbereiche erfasst. Dies liefert eine detaillierte Lichtsignatur für jeden Pixel im Bild und bietet ein viel tieferes Verständnis des beobachteten Materials.

Abb. 4. Vergleich von multispektraler und hyperspektraler Bildgebung.
Sowohl die multispektrale als auch die hyperspektrale Bildgebung verwenden spezielle Sensoren und Filter, um Licht bei unterschiedlichen Wellenlängen zu erfassen. Die Daten werden dann in einer 3D-Struktur organisiert, die als Spektralwürfel bezeichnet wird, wobei jede Schicht eine andere Wellenlänge darstellt.
KI-Modelle können diese Daten analysieren, um Merkmale zu erkennen, die normale Kameras oder das menschliche Auge nicht sehen können. In der Phänotypisierung von Pflanzen kann die hyperspektrale Bildgebung beispielsweise verwendet werden, um die Gesundheit und das Wachstum von Pflanzen zu überwachen, indem subtile Veränderungen in ihren Blättern oder Stängeln erkannt werden, wie etwa Nährstoffmangel oder Stress. Dies hilft Forschern, die Pflanzengesundheit zu beurteilen und landwirtschaftliche Praktiken zu optimieren, ohne invasive Methoden anwenden zu müssen.
Link to this sectionAnalyse von Radar- und Sonarbildgebung mittels KI#
Radar- und Sonarbildgebung sind Technologien, die Objekte erkennen und kartieren, indem sie Signale aussenden und deren Reflexionen analysieren, ähnlich wie bei LiDAR. Im Gegensatz zur RGB-Bildgebung, die auf Lichtwellen angewiesen ist, um visuelle Informationen zu erfassen, verwendet Radar elektromagnetische Wellen, typischerweise Radiowellen, während Sonar Schallwellen nutzt. Sowohl Radar- als auch Sonarsysteme senden Impulse aus und messen die Zeit, die das Signal benötigt, um von einem Objekt zurückzuprallen, was Informationen über dessen Entfernung, Größe und Geschwindigkeit liefert.
Radarbildgebung ist besonders nützlich bei schlechter Sicht, etwa bei Nebel, Regen oder in der Nacht. Da sie nicht auf Licht angewiesen ist, kann sie Flugzeuge, Fahrzeuge oder Gelände bei völliger Dunkelheit erkennen. Dies macht Radar zu einer zuverlässigen Wahl in der Luftfahrt, bei der Wetterüberwachung und der autonomen Navigation.
Im Vergleich dazu wird Sonarbildgebung häufig in Unterwasserumgebungen verwendet, in denen kein Licht hinkommt. Sie nutzt Schallwellen, die sich durch Wasser bewegen und von untergetauchten Objekten reflektiert werden, was die Erkennung von U-Booten, die Kartierung von Meeresböden und die Durchführung von Unterwasser-Rettungseinsätzen ermöglicht. Fortschritte in der Computer Vision ermöglichen nun eine weitere Verbesserung der Unterwassererkennung durch die Kombination von Sonardaten mit intelligenter Analyse für eine verbesserte Erkennung und Entscheidungsfindung.

Abb. 5. Wie ein SONAR-System Ultraschallimpulse zur Messung der Meerestiefe verwendet.
Link to this sectionSynthetische und simulierte visuelle Daten für das KI-Modelltraining#
Bisher haben wir über Datentypen gesprochen, die aus der realen Welt gesammelt werden können. Synthetische und simulierte visuelle Daten sind jedoch beide Arten von künstlichen Inhalten. Synthetische Daten werden von Grund auf neu generiert, unter Verwendung von 3D-Modellierung oder generativer KI, um realistisch aussehende Bilder oder Videos zu erstellen.

Abb. 6. Ein Blick auf synthetisch generierte Bilder.
Simulierte Daten sind ähnlich, beinhalten aber die Erstellung virtueller Umgebungen, die das Verhalten der physischen Welt nachahmen, einschließlich Lichtreflexion, Schattenbildung und Objektbewegung. Während alle simulierten visuellen Daten synthetisch sind, sind nicht alle synthetischen Daten simuliert. Der Hauptunterschied besteht darin, dass simulierte Daten ein realistisches Verhalten nachbilden, nicht nur das Erscheinungsbild.
Diese Datentypen sind nützlich für das Training von Computer-Vision-Modellen, insbesondere wenn Daten aus der realen Welt schwer zu sammeln sind oder wenn spezifische, seltene Situationen simuliert werden müssen. Entwickler können ganze Szenen erstellen, Objekttypen, Positionen und Beleuchtung wählen und automatisch Beschriftungen wie Begrenzungsrahmen für das Training hinzufügen. Dies hilft, schnell große, vielfältige Datensätze aufzubauen, ohne echte Fotos oder manuelle Kennzeichnungen zu benötigen, was kostspielig und zeitaufwendig sein kann.
Im Gesundheitswesen können synthetische Daten beispielsweise verwendet werden, um Modelle für die Segmentierung von Brustkrebszellen zu trainieren, wo das Sammeln und Kennzeichnen großer Datensätze echter Bilder schwierig ist. Synthetische und simulierte Daten bieten Flexibilität und Kontrolle und füllen Lücken, wo reale visuelle Daten begrenzt sind.
Link to this sectionAuswahl des richtigen Typs visueller Daten für deine KI-Anwendung#
Nachdem wir uns angesehen haben, wie verschiedene Arten visueller Daten funktionieren und was sie leisten können, schauen wir uns genauer an, welche Datentypen für bestimmte Aufgaben am besten geeignet sind:
- RGB-Bilder: Sie sind perfekt für allgemeine Computer-Vision-Aufgaben wie Bildklassifizierung und Objekterkennung. Sie erfassen Farbe und Textur, sind jedoch unter schwierigen Bedingungen wie schlechtem Licht oder schlechter Sicht begrenzt.
- LiDAR-Bildgebung: Diese Art der Bildgebung bietet eine hochpräzise 3D-Kartierung mithilfe von Laserimpulsen. Sie ist hervorragend für Anwendungen geeignet, die genaue Abstandsmessungen erfordern, wie Robotik, autonome Fahrzeuge und Infrastrukturinspektion.
- Wärmebildgebung: Da sie Temperaturunterschiede erkennen kann, ist sie bei Bedingungen mit schlechter Sicht nützlich, wie etwa bei der nächtlichen Überwachung, bei der Brandbekämpfung oder beim Erkennen von Wärmelecks in Maschinen und Gebäuden.
- Multispektrale und hyperspektrale Bildgebung: Sie sind nützlich für Aufgaben, die eine detaillierte Materialanalyse erfordern, wie etwa landwirtschaftliche Überwachung, Qualitätskontrolle in der Pharmazie oder Fernerkundung. Diese Methoden bieten tiefere Einblicke durch die Erfassung von Daten über einen weiten Wellenlängenbereich, der über sichtbares Licht hinausgeht.
- Radar- und Sonarbildgebung: Sie werden in Umgebungen mit schlechter Sicht bevorzugt. Radar verwendet Radiowellen und ist hilfreich in der Luftfahrt und Navigation, während Sonar Schallwellen nutzt, um die Unterwassererkennung zu ermöglichen.
- Synthetische und simulierte visuelle Daten: Sie sind ideal für das Training von KI-Modellen, wenn Daten aus der realen Welt begrenzt, nicht verfügbar oder schwer zu kennzeichnen sind. Diese künstlichen visuellen Darstellungen helfen beim Aufbau vielfältiger Datensätze für komplexe Szenarien wie seltene Ereignisse oder sicherheitskritische Bedingungen.
Manchmal liefert ein einzelner Datentyp in realen Situationen nicht genügend Genauigkeit oder Kontext. Hier wird multimodale Sensorfusion entscheidend. Durch die Kombination von RGB mit anderen Datentypen wie Wärme, Tiefe oder LiDAR können Systeme individuelle Einschränkungen überwinden und Zuverlässigkeit sowie Anpassungsfähigkeit verbessern.
Beispielsweise macht der Einsatz von RGB für die Objekterkennung, Tiefe für die Abstandsmessung und Wärme für die Erkennung von überhitzten Geräten bei der Lagerautomatisierung den Betrieb effizienter und sicherer. Letztendlich führen die besten Ergebnisse dazu, Datentypen basierend auf den spezifischen Anforderungen deiner Anwendung auszuwählen oder zu kombinieren.
Link to this sectionWichtige Erkenntnisse#
Beim Aufbau von Vision-KI-Modellen ist die Wahl der richtigen Art visueller Daten entscheidend. Aufgaben wie Objekterkennung, Segmentierung und Bewegungsverfolgung hängen nicht nur von Algorithmen ab, sondern auch von der Qualität der Eingabedaten. Saubere, vielfältige und genaue Datensätze helfen, Rauschen zu reduzieren und die Leistung zu steigern.
Durch die Kombination von Datentypen wie RGB, Tiefe, Wärme und LiDAR erhalten KI-Systeme ein vollständigeres Bild der Umgebung, was sie unter verschiedenen Bedingungen zuverlässiger macht. Während sich die Technologie weiter verbessert, wird sie wahrscheinlich den Weg dafür ebnen, dass Vision-KI schneller, anpassungsfähiger und branchenübergreifend wirkungsvoller wird.
Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über Computer Vision zu erfahren. Entdecke verschiedene Anwendungen im Zusammenhang mit KI im Gesundheitswesen und Computer Vision im Einzelhandel auf unseren Lösungsseiten. Sieh dir unsere Lizenzoptionen an, um mit Vision-KI zu beginnen.






