Verbesserte Kollisionsvorhersage mit Ultralytics YOLO

Auch wenn man im Straßenverkehr vorsichtig ist, können Unfälle passieren. Ein Auto wechselt die Spur, ein Fußgänger geht bei Rot über die Straße, oder ein Radfahrer beschleunigt ohne Vorwarnung. Diese alltäglichen Momente sind Beispiele dafür, dass Kollisionsvorhersagesysteme einen echten Unterschied machen und zur Sicherheit aller beitragen können.

Wir haben uns bereits mit der Vorhersage der Flugbahn eines Balls befasst und gesehen, wie die Vorhersage der Flugbahn eines sich schnell bewegenden Balls den Sportanalytikern hilft, Bewegungen zu verstehen und die nächsten Ereignisse vorherzusehen. Die Kollisionsvorhersage funktioniert auf ähnliche Weise.

Diese Vorhersagesysteme blicken im Wesentlichen in die Zukunft. Indem sie beobachten, wie sich Fahrzeuge und Fußgänger bewegen, können sie Risiken frühzeitig erkennen und ihren Weg oder ihr Verhalten anpassen, bevor die Dinge eine gefährliche Wendung nehmen (auch bekannt als Bewegungsplanung oder Pfadplanung).

Die wichtigsten Informatiktechnologien, die den Kollisionsvorhersagesystemen zugrunde liegen, sind die künstliche Intelligenz und ihre Teilbereiche, wie z. B. Computer Vision und Prognosemethoden, die dabei helfen, vorherzusagen, wie sich Dinge bewegen werden. Zum Beispiel können Computer-Vision-Modelle wie Ultralytics YOLO11 und das in Kürze erscheinende Ultralytics YOLO26 können dazu verwendet werden, Objekte wie Fahrzeuge und Fußgänger in Echtzeit detect und track , und Prognosemodelle nutzen diese Erkenntnisse, um ihre nächsten Bewegungen abzuschätzen.

Abb. 1. Ein Beispiel für den Einsatz von YOLO11 bei der detect Objekten auf der Straße(Quelle).

‍

Das Ergebnis ist ein KI-System, das versteht, was um es herum geschieht, und intelligentere Entscheidungen in dynamischen Umgebungen unterstützt. In diesem Artikel werden wir untersuchen, wie die Kollisionsvorhersage funktioniert, welche Methoden dahinter stecken und welche Rolle die Computervision und dieYOLO Ultralytics in diesem Prozess spielen können. Fangen wir an!

Was ist eine Kollisionsvorhersage?

Die Kollisionsvorhersage ist die Fähigkeit eines KI-Systems, die Bewegung von Objekten zu verstehen und vorauszusehen, wann sie sich sehr nahe kommen oder sich berühren könnten. Verschiedene Systeme können diese Informationen auf vielfältige Weise nutzen, z. B. zur Unterstützung von Sicherheitsfunktionen, zur Bewegungsoptimierung oder zur Koordinierung von Aktionen in gemeinsam genutzten Räumen.

Wo immer sich Objekte durch einen gemeinsam genutzten Raum bewegen, ob es sich um Autos auf einer Autobahn, Gabelstapler in einem Lagergang oder Fußgänger beim Überqueren einer Straße handelt, hilft die Kollisionsvorhersage den Systemen zu verstehen, wie sich diese Interaktionen entwickeln könnten. In sicherheitsrelevanten Anwendungen kann diese Vorausschau zur Risikominderung genutzt werden, während sie in anderen Bereichen Aufgaben wie Routenplanung, Zeitplanung oder koordinierte Bewegungen unterstützen kann.

In vielen neueren Fahrzeugen, die mit fortschrittlichen Fahrerassistenzsystemen (ADAS) ausgestattet sind, überwachen beispielsweise Kameras und Sensoren die Straße und schätzen ein, wie schnell sich das Fahrzeug Objekten in der Nähe nähert. Wenn das System erkennt, dass eine Situation unsicher werden könnte, warnt es den Fahrer, und in einigen Fällen kann eine automatische Bremsung helfen, den Aufprall zu verringern.

Erforschung der vier Phasen der Kollisionsvorhersage

Bei der Kollisionsvorhersage handelt es sich um einen koordinierten Prozess, bei dem verschiedene KI-Komponenten zusammenarbeiten, um Objekte zu identifizieren, ihre Bewegung zu verfolgen und abzuschätzen, was als Nächstes passieren könnte. Diese Systeme durchlaufen in der Regel vier miteinander verbundene Phasen: Objekterkennung, Objektverfolgung, Flugbahnvorhersage und schließlich Kollisionsvorhersage, wobei jede Phase auf der Genauigkeit der vorhergehenden aufbaut.

Schauen wir uns nun genauer an, wie die einzelnen Phasen funktionieren.

Ein Blick auf die Objekterkennung

Die Objekterkennung ist eine zentrale Aufgabe der Computer Vision, bei der Vision AI-Modelle Objekte in einem Bild oder Videobild identifizieren und lokalisieren. Durch die Analyse von Pixeldaten kann ein Objekterkennungsmodell drei Hauptausgaben erzeugen: Begrenzungsrahmen, Objektklassen und Vertrauenswerte. Bounding Boxes zeigen, wo sich ein Objekt befindet, Objektklassen geben an, um was es sich handelt, z. B. um ein Auto, einen Fußgänger oder einen Radfahrer, und Vertrauenswerte geben an, wie sicher das Modell bei der Vorhersage ist.

KI-Modelle wie YOLO11 und YOLO26 bauen auf dieser Grundlage auf und unterstützen mehrere verwandte Aufgaben, darunter Objekterkennung, Objektverfolgung und orientierte Bounding-Box-Erkennung (OBB). Die Objekterkennung kann einem Vorhersagesystem mitteilen, was sich in jedem Bild befindet, die Verfolgung folgt diesen Objekten, während sie sich bewegen, und orientierte Bounding Boxes liefern genauere Formen für Objekte, die in verschiedenen Winkeln erscheinen.

In diesem Stadium konzentriert sich ein System zur Kollisionsvorhersage ausschließlich auf das Verständnis der visuellen Daten. Es bildet die Basisinformation, von der alle weiteren Schritte abhängen, berücksichtigt aber noch nicht, wie sich die Objekte bewegen oder interagieren werden.

Ein Überblick über die Objektverfolgung

Sobald Objekte erkannt sind, müssen sie in einem nächsten Schritt über mehrere Bilder hinweg track , damit das System versteht, wie sie sich im Laufe der Zeit bewegen. Während die Erkennung bei jedem Bild neue Bounding Boxes liefert, sorgt die Objektverfolgung für Kontinuität, indem sie diese Erkennungen im Laufe der Zeit miteinander verknüpft.

Die vom Ultralytics Python unterstützten Verfolgungsalgorithmen wie ByteTrack oder BoT-SORT arbeiten mit Modellen wie YOLO11 , indem sie die Erkennungsdaten aus jedem Bild verwenden, um die Objekte bei ihrer Bewegung zu verfolgen. Diese Algorithmen weisen jedem Objekt eine eindeutige ID zu und verwenden sie, um diese Identität beizubehalten, auch wenn sich das Objekt schnell bewegt oder teilweise verdeckt wird. So entsteht ein gleichmäßiger Verfolgungsverlauf, der erfasst, wie sich das Objekt bewegt.

Abb. 2. Ein Blick auf die Vergabe von eindeutigen IDs für verschiedene Entdeckungen mit YOLO (Quelle)

‍

Hier ein kurzer Einblick in die Funktionsweise dieser beiden Tracking-Methoden:

ByteTrack: Es verwendet sowohl Erkennungen mit hohem als auch mit niedrigem Vertrauen, um konsistente Objekt-IDs beizubehalten, wobei Bewegungsvorhersagen von einem Kalman-Filter dem Tracker helfen, stabil zu bleiben, wenn sich Objekte schnell bewegen oder kurzzeitig schwer zu detect sind.
BoT-SORT: Dieser Algorithmus erweitert SORT durch die Kombination von Kalman-Filter-Bewegungsvorhersagen mit Erscheinungsbild-Hinweisen, wodurch der Tracker Objekte in überfüllten Szenen oder bei teilweiser Verdeckung zuverlässiger verfolgen kann.

Um zu messen, wie gut diese Verfolgungsmethoden funktionieren, bewerten Forscher sie anhand etablierter Multi-Objekt-Verfolgungsdatensätze (MOT) und Benchmarks. Zu den häufig verwendeten Metriken gehören die Verfolgungsgenauigkeit für mehrere Objekte (MOTA), die die Gesamtqualität der Verfolgung widerspiegelt, der Identifikations-F1-Score (IDF1), der misst, wie konsistent die Objektidentitäten beibehalten werden, und die Verfolgungsgenauigkeit höherer Ordnung (HOTA), die einen ausgewogenen Überblick über die Erkennungsleistung und die Assoziationsgenauigkeit bietet.

Verständnis der Flugbahnprognose

Nach der Verfolgung eines Objekts über mehrere Bilder hinweg besteht der nächste Schritt darin, vorherzusagen, wohin es sich als nächstes bewegen wird. Dies wird als Vorhersage der Flugbahn bezeichnet. Während die Erkennung Objekte findet und die Verfolgung verfolgt, wie sie sich bewegen, blickt die Vorhersage in die Zukunft und schätzt ihre zukünftigen Positionen.

Die Informationen aus der Erkennung und Verfolgung, wie z. B. die Bounding Box eines Objekts, die Position über mehrere Frames und die zugewiesene ID, können zur Berechnung von Bewegungsmerkmalen wie Geschwindigkeit, Richtung und Bewegungsmuster verwendet werden. Diese abgeleiteten Erkenntnisse geben dem Prognosemodell die Daten, die es benötigt, um abzuschätzen, wo sich das Objekt wahrscheinlich in den nächsten Sekunden befinden wird.

In Fällen, in denen Verfolgungsdaten Lücken oder abrupte Sprünge enthalten, helfen Interpolationstechniken bei der Rekonstruktion glatterer, konsistenterer Trajektorien. Dadurch wird sichergestellt, dass das Prognosemodell qualitativ hochwertige Bewegungsdaten und keine verrauschten oder unvollständigen Positionsdaten erhält.

Abb. 3. Eine Visualisierung der Vorhersage der Flugbahn eines Autos(Quelle)

‍

Um diese Vorhersagen zu treffen, stützen sich viele Systeme auf Deep-Learning-Modelle, die darauf ausgelegt sind zu verstehen, wie sich die Bewegung eines Objekts im Laufe der Zeit verändert. Durch die Analyse von Sequenzen vergangener Positionen und den daraus abgeleiteten Bewegungsmerkmalen lernen diese Modelle allgemeine Bewegungsmuster und nutzen dieses Wissen, um zukünftige Pfade vorherzusagen.

Im Folgenden werden einige häufig verwendete Deep-Learning- und Machine-Learning-Ansätze für die Flugbahnprognose vorgestellt:

Rekurrente neuronale Netze (RNNs): RNNs sind Deep-Learning-Modelle, die für die Arbeit mit Sequenzen, z. B. einer Reihe von Videobildern, konzipiert sind. Sie können frühere Positionen speichern und diese Informationen nutzen, um zu verstehen, wie sich ein Objekt bewegt hat. Dies hilft dem System, einfache Bewegungsmuster zu erkennen, wie z. B. eine Beschleunigung, eine Verlangsamung oder eine Bewegung in einer geraden Linie.

Netzwerke mit langem Kurzzeitgedächtnis (LSTMs): LSTMs sind eine fortschrittlichere Art von RNN, die sich Informationen über längere Zeiträume merken können. Dadurch können sie komplexere Bewegungen erfassen, z. B. ein Fahrzeug, das sich auf das Abbiegen vorbereitet, oder einen Fußgänger, der die Richtung ändert. Da sie längere Trends track können, liefern sie in belebten Umgebungen oft zuverlässigere Vorhersagen.

Transformatoren: Transformers verarbeiten vollständige Bewegungsabläufe und nutzen die Aufmerksamkeit, um sich auf die wichtigsten Details dieser Sequenzen zu konzentrieren. Das macht sie besonders effektiv in Szenen, in denen mehrere Objekte interagieren, wie etwa zusammenfahrende Autos oder kreuzende Fußgänger.

Diese Modelle können sowohl kurzfristige als auch längerfristige Pfade vorhersagen. Kurzfristige Vorhersagen, die in der Regel weniger als zwei Sekunden betragen, sind in der Regel am genauesten, während Vorhersagen über längere Zeiträume, z. B. zwei bis sechs Sekunden, mehr Voraussicht bieten, aber mit größerer Unsicherheit verbunden sind.

Bringen Sie alles zusammen: Algorithmen zur Kollisionserkennung

In der letzten Phase, der Kollisionsvorhersage, verwendet das System alles, was es bisher gelernt hat: was das jeweilige Objekt ist (Erkennung), wie es sich bewegt hat (Verfolgung) und wohin es sich wahrscheinlich als nächstes bewegen wird (Vorhersage). In diesem Schritt wird geprüft, ob sich die vorhergesagten Pfade auf eine Weise kreuzen, die zu einer Kollision führen könnte.

Abb. 4. Wie ein Kollisionsvorhersagesystem funktioniert(Quelle)

‍

Bei autonomen Fahrzeugen vergleicht ein Kollisionsprüfsystem die zukünftigen Flugbahnen von Objekten in der Nähe wie Autos, Fußgängern und Radfahrern. Wenn sich zwei vorhergesagte Bahnen überschneiden oder gefährlich nahe kommen, wird die Situation als potenzielle Fahrzeugkollision gekennzeichnet. Um zu verstehen, wie dringend das Kollisionsrisiko ist, berechnet das System auch einen Wert, der als Zeit bis zur Kollision bekannt ist.

Die Zeit bis zur Kollision (Time-to-Collision, TTC) ist eine wichtige Messung in sich schnell bewegenden Umgebungen. Sie schätzt ab, wie viel Zeit verbleibt, bevor zwei Objekte kollidieren würden, wenn sie ihre aktuelle Geschwindigkeit und Richtung beibehalten. Wenn die TTC unter einen bestimmten Schwellenwert fällt, kann das System reagieren, indem es Warnungen ausgibt, die Bremsen betätigt oder seinen geplanten Weg anpasst.

Praktische Anwendungen der Kollisionsvorhersage

Die Kollisionsvorhersage wird in vielen Branchen immer wichtiger, z. B. im Verkehrsmanagement, in der intelligenten Stadtinfrastruktur, in der industriellen Automatisierung und in der mobilen Robotik. Mit der Weiterentwicklung moderner Bildverarbeitungs- und Prognosemodelle werden diese Systeme immer besser in der Lage sein, Bewegungen vorauszusehen.

Nachdem wir nun besser verstanden haben, wie Kollisionsvorhersage und Flugbahnvorhersage funktionieren, wollen wir uns einige interessante Forschungsstudien ansehen, die zeigen, wie diese Methoden in verschiedenen realen Umgebungen eingesetzt werden können.

YOLO Kollisionsvorhersage für autonome Einsatzfahrzeuge

Die Navigation in überfüllten, unvorhersehbaren Umgebungen ist eine der schwierigsten Herausforderungen für autonome Systeme, vor allem, wenn sich Fußgänger in einer Weise bewegen, die keinen klaren Mustern folgt. Einsatzfahrzeuge sind mit diesem Problem noch häufiger konfrontiert, da sie sich schnell und mit hoher Geschwindigkeit durch dichte öffentliche Räume bewegen müssen, ohne sich auf strukturierte Straßen, Fahrbahnmarkierungen oder vorhersehbares Fußgängerverhalten verlassen zu können.

In solchen Szenarien ist es für die Vermeidung von Unfällen von entscheidender Bedeutung zu wissen, wo sich Menschen befinden und wie sie sich in den nächsten Sekunden bewegen könnten. In einer kürzlich durchgeführten Forschungsstudie wurde diese Herausforderung beispielsweise durch den Aufbau einer vollständigen Kollisionsvorhersage-Pipeline für ein autonomes Notfallfahrzeug (Emergency Autonomous Vehicle, EAV) in einer Umgebung mit vielen Fußgängern untersucht.

So funktioniert die YOLO Kollisionsvorhersage-Pipeline

Hier ein Überblick über die Funktionsweise dieser Methodik:

Fußgängererkennung mit YOLO: Ein YOLO Detektor identifiziert Fußgänger in jedem Kamerabild und gibt Bounding Boxes für jede sichtbare Person aus.
‍
Bewegungsverfolgung mit ByteTrack: Der ByteTrack-Algorithmus verknüpft diese Erkennungen über Bilder hinweg, gibt jedem Fußgänger eine konsistente ID und erstellt eine Bewegungshistorie, die zeigt, wie er sich im Laufe der Zeit bewegt.
‍
Schätzung der Position in der realen Welt: Inverse Perspective Mapping (IPM) wandelt 2D-Pixelkoordinaten in ungefähre Positionen auf der Bodenebene um und hilft dem System zu verstehen, wo sich Fußgänger im realen Raum relativ zum Fahrzeug befinden.
‍
Erzeugung einer Vogelperspektive mit einem cGAN: Ein bedingtes GAN, ein KI-Modell, das ein Bildformat in ein anderes übersetzt, erzeugt eine Darstellung der Szene aus der Vogelperspektive. Dieses Top-Down-Layout erleichtert die Interpretation der Fußgängerpositionen und ihrer Umgebung.
‍
Vorhersage der Flugbahn mit einem LSTM-Modell: Anhand der vergangenen Positionen und Bewegungsmuster jedes Fußgängers sagt ein LSTM-Modell voraus, wohin er sich wahrscheinlich in den nächsten Sekunden bewegen wird.
‍
Effiziente Kollisionserkennung mithilfe von Kollisionskegeln: Die vorhergesagten Flugbahnen werden mit Hilfe der Kollisionskegel-Methode verglichen, die feststellt, ob sich die Pfade des Fahrzeugs und eines Fußgängers auf dem Weg zur Überschneidung befinden.
‍
Kollisionsvermeidung durch Signalisierung: Wenn das System eine Kollision vorhersagt, aktiviert es zum optimalen Zeitpunkt ein akustisches Signal (z. B. eine Hupe oder Glocke). Der Zeitpunkt ist so gewählt, dass er das Verhalten der Fußgänger beeinflusst und ihnen die Möglichkeit gibt, ihre Geschwindigkeit zu erhöhen oder zu verlangsamen und sich in Sicherheit zu bringen.

Gewährleistung der Fußgängersicherheit in Städten durch Edge Vision und YOLO

Ein weiterer Ansatz zur Kollisionsvermeidung geht über die Fahrzeuge hinaus und konzentriert sich auf die Infrastruktur selbst. Anstatt sich auf Sensoren im Auto zu verlassen, werden bei dieser Methode intelligente Kameras an Fußgängerüberwegen und Kreuzungen installiert, um die Bewegungen von Fußgängern und Fahrzeugen in Echtzeit zu überwachen. Diese Orte sind oft unvorhersehbar: Menschen können plötzlich auf die Straße treten, Radfahrer können sich durch den Verkehr schlängeln, und Autofahrer werden nicht immer langsamer, so dass eine frühzeitige Erkennung von Risiken entscheidend ist.

Eine interessante Studie untersuchte diese Idee mit einem System namens NAVIBox, einem Edge-Vision-Gerät zur Vorhersage von Fahrzeug-Fußgänger-Risiken direkt an einer Kreuzung. Das System nutzt die Ultralytics YOLOv8 Modell, um Fußgänger und Fahrzeuge detect , und einen leichtgewichtigen Centroid-Tracker, um sie über Frames hinweg zu verfolgen. Auf diese Weise entstehen kurze, zuverlässige Bewegungsabläufe, die dann durch eine perspektivische Transformation verfeinert werden, die die schräge CCTV-Ansicht in ein klareres Layout der Straße aus der Vogelperspektive umwandelt.

Anhand dieser verfeinerten Trajektorien kann NAVIBox abschätzen, wie sich die Verkehrsteilnehmer in den nächsten Sekunden bewegen werden, und prüfen, ob sich ihre Wege möglicherweise kreuzen (auch als Kreuzungstest bezeichnet). Wenn das System eine riskante Interaktion feststellt, sendet es sofort Warnungen über Displays für Fahrer und Lautsprecher für Fußgänger - ohne auf einen entfernten Server oder eine Netzwerkverbindung angewiesen zu sein. Tests an realen städtischen Standorten haben gezeigt, dass NAVIBox schnell genug ist, um in Echtzeit zu reagieren und potenzielle Kollisionsszenarien genau zu erkennen, was es zu einem praktischen Sicherheitsinstrument für belebte städtische Kreuzungen macht.

Abbildung 5. Vorhersage des Risikos eines Zusammenstoßes zwischen Fahrzeugen und Fußgängern.(Quelle)

‍

Vor- und Nachteile der Kollisionserkennung und -vorhersage

Hier einige Vorteile des Einsatzes von KI-gestützten prädiktiven Kollisionssystemen:

Verbessert das Situationsbewusstsein: KI-Systeme bilden kontinuierlich ab, wie sich Objekte in einer Umgebung bewegen, und liefern so ein umfassenderes Verständnis von Menschenströmen, Verkehrsverhalten oder Maschinenwegen.
‍
Datengestützte Erkenntnisse für die langfristige Planung: Durch die Aufzeichnung von Erkennungen, Beinahe-Unfällen und Bewegungsmustern liefern KI-Systeme Analysen, die Stadtplaner, Sicherheitsteams und Flottenbetreiber nutzen können, um Kreuzungen neu zu gestalten, die Beschilderung zu verbessern oder Betriebsrichtlinien zu verfeinern.

Kostengünstige Risikoprävention: Indem sie Risiken erkennen, bevor sie eskalieren, können diese Systeme kostspielige Unfälle, Versicherungsansprüche oder Reparaturen an Geräten vermeiden.

Trotz ihrer Vorteile stoßen kollisionsfreie Systeme auch auf gewisse Einschränkungen. Hier sind einige Herausforderungen zu berücksichtigen:

Einschränkungen bei der Platzierung von Sensoren und Kameras: Schlecht positionierte oder abgewinkelte Kameras können die Objektgröße oder -entfernung verzerren, wodurch die Tiefenschätzung und die Vorhersage der Flugbahn weniger zuverlässig werden.
‍
Okklusion: Objekte können teilweise oder vollständig hinter anderen verdeckt werden. Dies erschwert die Objektverfolgung, da das Modell die visuelle Kontinuität verliert.
‍
Umgebungsbedingungen: Schlechte Beleuchtung, grelles Sonnenlicht, Regen, Nebel oder schlechte Kameraqualität können die Fähigkeit des Modells beeinträchtigen, die Szene klar zu erkennen, was die Genauigkeit beeinträchtigt.

Wesentliche Erkenntnisse

Bei der Kollisionsvorhersage kommen zwei leistungsstarke Fähigkeiten zusammen: Computer Vision, die es den Systemen ermöglicht, zu verstehen, was in der Umgebung gerade passiert, und Flugbahnvorhersage, die ihnen hilft, vorauszusehen, was wahrscheinlich als Nächstes passieren wird.

Durch die Kombination dieser Stärken können Maschinen bewegliche Objekte in Echtzeit detect und vorhersagen, wie diese Objekte in den nächsten Sekunden miteinander interagieren könnten. Mit der Weiterentwicklung von Computer Vision und Vorhersagetechniken wird die Kollisionsvorhersage wahrscheinlich zum Schlüssel für den Aufbau sicherer, zuverlässiger und skalierbarer autonomer Systeme.

Besuchen Sie unsere Community und unser GitHub-Repository, um mehr über KI zu erfahren. Entdecken Sie Anwendungen wie KI im Gesundheitswesen und Computer Vision in der Fertigung auf unseren Lösungsseiten. Entdecken Sie unsere Lizenzierungsoptionen und beginnen Sie noch heute mit der Entwicklung!

Verbesserte Kollisionsvorhersage mit Ultralytics YOLO

Was ist eine Kollisionsvorhersage?