Verbesserung der Kollisionsvorhersage mit Ultralytics YOLO-Modellen
Erfahre, wie Erkenntnisse aus Ultralytics YOLO-Modellen Kollisionsvorhersagesystemen helfen, in dynamischen Umgebungen sicherere und schnellere Entscheidungen zu treffen.

Trotz Vorsicht im Straßenverkehr können Unfälle passieren. Ein Auto wechselt die Spur, ein Fußgänger überquert die Straße bei Rot oder ein Radfahrer beschleunigt ohne Vorwarnung. Solche alltäglichen Momente zeigen, wann Kollisionsvorhersagesysteme einen echten Unterschied machen und dazu beitragen können, alle zu schützen.
Zuvor haben wir uns die Ball-Trajektorienvorhersage angesehen und erkannt, wie die Vorhersage der Flugbahn eines schnell bewegten Balls der Sportanalytik hilft, Bewegungen zu verstehen und zukünftige Ereignisse zu antizipieren. Die Kollisionsvorhersage funktioniert auf ähnliche Weise.
Diese Vorhersagesysteme blicken im Grunde in die Zukunft. Indem sie beobachten, wie sich Fahrzeuge und Fußgänger bewegen, können sie Risiken frühzeitig erkennen und ihren Pfad oder ihr Verhalten anpassen, bevor (was auch als Bewegungsplanung oder Pfadplanung bekannt ist) die Situation gefährlich wird.
Die zentralen Informatiktechnologien hinter Kollisionsvorhersagesystemen sind Künstliche Intelligenz und ihre Teilbereiche wie Computer Vision sowie Prognosemethoden, die helfen vorherzusagen, wie sich Dinge bewegen werden. Computer-Vision-Modelle wie Ultralytics YOLO11 und das kommende Ultralytics YOLO26 können beispielsweise eingesetzt werden, um Objekte wie Fahrzeuge und Fußgänger in Echtzeit zu erkennen und zu verfolgen, während Prognosemodelle diese Erkenntnisse nutzen, um deren nächste Bewegungen abzuschätzen.

Abb. 1. Ein Beispiel für YOLO11 bei der Objekterkennung auf der Straße (Quelle).
Das Ergebnis ist ein KI-System, das versteht, was in seiner Umgebung geschieht, und eine intelligentere Entscheidungsfindung in dynamischen Umgebungen unterstützt. In diesem Artikel untersuchen wir, wie Kollisionsvorhersage funktioniert, welche Methoden dahinterstecken und welche Rolle Computer Vision und Ultralytics YOLO-Modelle dabei spielen können. Fangen wir an!
Link to this sectionWas ist eine Kollisionsvorhersage?#
Kollisionsvorhersage ist die Fähigkeit eines KI-Systems, zu verstehen, wie sich Objekte bewegen, und vorherzusehen, wann sie sich sehr nahe kommen oder in Kontakt treten könnten. Verschiedene Systeme nutzen diese Informationen auf vielfältige Weise, etwa zur Unterstützung von Sicherheitsfunktionen, zur Bewegungsoptimierung oder zur Koordinierung von Aktionen in gemeinsam genutzten Räumen.
Wo immer sich Objekte in einem gemeinsamen Raum bewegen – ob Autos auf einer Autobahn, Gabelstapler in einem Lagergang oder Fußgänger beim Überqueren einer Straße – hilft die Kollisionsvorhersage Systemen zu verstehen, wie sich diese Interaktionen entwickeln könnten. In sicherheitsrelevanten Anwendungen kann diese Voraussicht genutzt werden, um Risiken zu reduzieren, während sie in anderen Umgebungen Aufgaben wie Routenplanung, Timing oder koordinierte Bewegungen unterstützen kann.
Beispielsweise überwachen in vielen neueren Fahrzeugen, die mit Fahrerassistenzsystemen (ADAS) ausgestattet sind, Kameras und Sensoren die vor ihnen liegende Straße und schätzen ab, wie schnell sich das Auto nahen Objekten nähert. Wenn das System erkennt, dass eine Situation unsicher werden könnte, warnt es den Fahrer, und in einigen Fällen kann eine automatische Bremsung helfen, den Aufprall zu reduzieren.
Link to this sectionDie vier Stufen der Kollisionsvorhersage erforschen#
Die Kollisionsvorhersage umfasst einen koordinierten Prozess, bei dem verschiedene KI-Komponenten zusammenarbeiten, um Objekte zu identifizieren, deren Bewegung zu verfolgen und abzuschätzen, was als Nächstes geschehen könnte. Diese Systeme arbeiten typischerweise in vier miteinander verbundenen Stufen: Objekterkennung, Objektverfolgung, Trajektorienvorhersage und schließlich Kollisionsvorhersage, wobei jede Stufe auf der Genauigkeit der vorherigen aufbaut.
Als Nächstes schauen wir uns genauer an, wie die einzelnen Stufen funktionieren.
Link to this sectionEin Blick auf die Objekterkennung#
Objekterkennung ist eine grundlegende Computer-Vision-Aufgabe, bei der Vision-KI-Modelle Objekte in einem Bild oder Videobild identifizieren und lokalisieren. Durch die Analyse von Pixeldaten kann ein Objekterkennungsmodell drei Hauptergebnisse liefern: Bounding Boxes, Objektklassen und Konfidenzwerte. Bounding Boxes zeigen, wo sich ein Objekt befindet, Objektklassen geben an, was es ist – wie etwa ein Auto, ein Fußgänger oder ein Radfahrer –, und Konfidenzwerte spiegeln wider, wie sicher sich das Modell bei der Vorhersage ist.
Vision-KI-Modelle wie YOLO11 und YOLO26 bauen auf diesem Fundament auf und unterstützen verschiedene verwandte Aufgaben, darunter Objekterkennung, Objektverfolgung und Orientierte-Bounding-Box-Detektion (OBB). Die Objekterkennung kann einem Vorhersagesystem sagen, was in jedem Frame zu sehen ist, die Verfolgung folgt diesen Objekten bei ihrer Bewegung, und orientierte Bounding Boxes bieten genauere Formen für Objekte, die aus verschiedenen Winkeln erscheinen.
Auf dieser Stufe konzentriert sich ein Kollisionsvorhersagesystem rein darauf zu verstehen, was in den visuellen Daten vorhanden ist. Dies bildet die Basisinformation, von der alle nachfolgenden Schritte abhängen, aber es berücksichtigt noch nicht, wie sich die Objekte bewegen oder interagieren werden.
Link to this sectionEin Überblick über die Objektverfolgung#
Sobald Objekte erkannt wurden, besteht der nächste Schritt darin, sie über Bilder hinweg zu verfolgen, damit das System verstehen kann, wie sie sich im Laufe der Zeit bewegen. Während die Erkennung in jedem Frame neue Bounding Boxes liefert, sorgt die Objektverfolgung für Kontinuität, indem sie diese Erkennungen über die Zeit verknüpft.
Verfolgungsalgorithmen, die vom Ultralytics Python package unterstützt werden, wie ByteTrack oder BoT-SORT, arbeiten mit Modellen wie YOLO11 zusammen, indem sie Erkennungsdaten aus jedem Frame nutzen, um Objekten bei ihrer Bewegung zu folgen. Diese Algorithmen weisen jedem Objekt eine eindeutige ID zu und verwenden diese, um die Identität auch dann beizubehalten, wenn sich das Objekt schnell bewegt oder teilweise verdeckt wird. Dadurch entsteht eine flüssige Verfolgungshistorie, die festhält, wie sich das Objekt bewegt.

Abb. 2. Ein Blick auf die Zuweisung eindeutiger IDs für verschiedene Erkennungen mit YOLO (Quelle)
Hier ist ein kurzer Einblick, wie diese beiden Verfolgungsmethoden funktionieren:
- ByteTrack: Er verwendet sowohl Erkennungen mit hoher als auch mit niedriger Konfidenz, um konsistente Objekt-IDs beizubehalten. Dabei helfen Bewegungsvorhersagen eines Kalman-Filters dem Tracker, stabil zu bleiben, wenn sich Objekte schnell bewegen oder kurzzeitig schwer zu erkennen sind.
- BoT-SORT: Dieser Algorithmus erweitert SORT durch die Kombination von Kalman-Filter-Bewegungsvorhersagen mit Erscheinungsmerkmalen, wodurch der Tracker Objekte auch in überfüllten Szenen oder bei teilweiser Verdeckung zuverlässiger verfolgen kann.
Um die Leistung dieser Verfolgungsmethoden zu messen, evaluieren Forscher sie anhand etablierter Multi-Object-Tracking (MOT)-Datensätze und Benchmarks. Zu den häufig verwendeten Metriken gehören die Multiple Object Tracking Accuracy (MOTA), die die allgemeine Verfolgungsqualität widerspiegelt; der Identification F1 Score (IDF1), der misst, wie konsistent Objektidentitäten beibehalten werden; sowie die Higher Order Tracking Accuracy (HOTA), die eine ausgewogene Sicht auf sowohl Erkennungsleistung als auch Assoziationsgenauigkeit bietet.
Link to this sectionTrajektorienvorhersage verstehen#
Nachdem ein Objekt über mehrere Bilder hinweg verfolgt wurde, ist der nächste Schritt vorherzusagen, wohin es als Nächstes gehen wird. Dies nennt man Trajektorienvorhersage. Während die Erkennung Objekte findet und die Verfolgung deren Bewegung nachvollzieht, schaut die Vorhersage voraus und schätzt zukünftige Positionen ab.
Die Informationen aus Erkennung und Verfolgung, wie etwa die Bounding Box eines Objekts, die Position über Bilder hinweg und die zugewiesene ID, können zur Berechnung von Bewegungsmerkmalen wie Geschwindigkeit, Richtung und Bewegungsmustern verwendet werden. Diese abgeleiteten Erkenntnisse geben dem Prognosemodell die Daten, die es benötigt, um abzuschätzen, wo sich das Objekt in den nächsten Sekunden wahrscheinlich befinden wird.
In Fällen, in denen Verfolgungsdaten Lücken oder abrupte Sprünge aufweisen, helfen Interpolationstechniken, glattere und konsistentere Trajektorien zu rekonstruieren. Dies stellt sicher, dass das Prognosemodell qualitativ hochwertige Bewegungseingaben erhält anstatt verrauschter oder unvollständiger Positionsdaten.

Abb. 3. Eine Visualisierung der Vorhersage der Flugbahn eines Autos (Quelle)
Um diese Vorhersagen zu treffen, setzen viele Systeme auf Deep-Learning-Modelle, die darauf ausgelegt sind, zu verstehen, wie sich die Bewegung eines Objekts im Laufe der Zeit verändert. Durch die Analyse von Sequenzen vergangener Positionen und daraus abgeleiteter Bewegungsmerkmale erlernen diese Modelle allgemeine Bewegungsmuster und nutzen dieses Wissen, um zukünftige Pfade vorherzusagen.
Hier sind einige häufig verwendete Deep-Learning- und Machine-Learning-Ansätze für die Trajektorienvorhersage:
-
Rekurrente Neuronale Netze (RNNs): RNNs sind Deep-Learning-Modelle, die für die Arbeit mit Sequenzen ausgelegt sind, wie etwa eine Reihe von Videobildern. Sie können ein Gedächtnis für vorherige Positionen behalten und diese Informationen nutzen, um zu verstehen, wie sich ein Objekt bewegt hat. Dies hilft dem System, einfache Bewegungsmuster wie Beschleunigen, Verlangsamen oder geradeaus Fahren zu erkennen.
-
Long Short-Term Memory Networks (LSTMs): LSTMs sind eine fortgeschrittenere Art von RNNs, die Informationen über längere Zeiträume speichern können. Dies ermöglicht es ihnen, komplexere Bewegungen zu erfassen, wie etwa ein Fahrzeug, das zum Abbiegen ansetzt, oder ein Fußgänger, der die Richtung ändert. Da sie längere Trends verfolgen können, liefern sie in geschäftigen Umgebungen oft zuverlässigere Vorhersagen.
-
Transformers: Transformer verarbeiten vollständige Bewegungssequenzen und nutzen Attention, um sich auf die wichtigsten Details dieser Sequenzen zu konzentrieren. Dies macht sie besonders effektiv in Szenen, in denen mehrere Objekte interagieren, etwa bei einfädelnden Autos oder kreuzenden Fußgängern.
Diese Modelle können sowohl kurzfristige als auch längerfristige Pfade vorhersagen. Kurzfristige Prognosen, die normalerweise unter zwei Sekunden liegen, sind tendenziell am genauesten, während Vorhersagen über längere Zeitfenster, wie etwa zwei bis sechs Sekunden, mehr Voraussicht bieten, aber mit größerer Unsicherheit verbunden sind.
Link to this sectionAlles zusammenbringen: Kollisionserkennungsalgorithmen#
In der letzten Stufe, der Kollisionsvorhersage, nutzt das System alles, was es bisher gelernt hat: was jedes Objekt ist (Erkennung), wie es sich bewegt hat (Verfolgung) und wohin es sich wahrscheinlich als Nächstes bewegen wird (Prognose). Dieser Schritt prüft, ob sich irgendwelche der vorhergesagten Pfade so kreuzen könnten, dass dies zu einer Kollision führt.

Abb. 4. Wie ein Kollisionsvorhersagesystem funktioniert (Quelle)
Im Fall autonomer Fahrzeuge vergleicht ein Kollisionsprüfungssystem die zukünftigen Trajektorien naher Objekte wie Autos, Fußgänger und Radfahrer. Wenn sich zwei vorhergesagte Pfade überschneiden oder gefährlich nahe kommen, markiert das System die Situation als potenzielle Fahrzeugkollision. Um zu verstehen, wie dringend das Kollisionsrisiko sein könnte, berechnet das System zudem einen Wert, der als Time-to-Collision (TTC) bekannt ist.
Time-to-Collision (TTC) ist eine Schlüsselmessgröße in sich schnell bewegenden Umgebungen. Sie schätzt ab, wie viel Zeit verbleibt, bis zwei Objekte zusammenstoßen würden, wenn sie ihre aktuelle Geschwindigkeit und Richtung beibehalten. Wenn die TTC unter einen bestimmten Schwellenwert fällt, kann das System reagieren, indem es Warnungen ausgibt, bremst oder seinen geplanten Pfad anpasst.
Link to this sectionReale Anwendungen der Kollisionsvorhersage#
Kollisionsvorhersage wird in vielen Branchen immer wichtiger, darunter Verkehrsmanagement, Smart-City-Infrastruktur, industrielle Automatisierung und mobile Robotik. Da moderne Computer-Vision- und Prognosemodelle weiter voranschreiten, werden diese Systeme immer fähiger, Bewegungen zu antizipieren.
Nachdem wir nun ein besseres Verständnis davon haben, wie Kollisionsvorhersage und Trajektorienprognose funktionieren, schauen wir uns einige interessante Forschungsstudien an, die zeigen, wie diese Methoden in verschiedenen realen Umgebungen eingesetzt werden können.
Link to this sectionYOLO-gestützte Kollisionsvorhersage für autonome Rettungsfahrzeuge#
Die Navigation in überfüllten, unvorhersehbaren Umgebungen ist eine der größten Herausforderungen für autonome Systeme, besonders wenn sich Fußgänger auf eine Weise bewegen, die keinen klaren Mustern folgt. Rettungsfahrzeuge stehen noch häufiger vor diesem Problem, da sie sich schnell und mit hoher Geschwindigkeit durch dichte öffentliche Bereiche bewegen müssen, ohne sich auf strukturierte Straßen, Fahrbahnmarkierungen oder vorhersehbares Fußgängerverhalten verlassen zu können.
In solchen Szenarien ist es für die Unfallvermeidung unerlässlich zu verstehen, wo sich Personen befinden und wie sie sich in den nächsten Sekunden bewegen könnten. Eine aktuelle Forschungsstudie untersuchte diese Herausforderung beispielsweise durch den Bau einer vollständigen Kollisionsvorhersage-Pipeline für ein autonomes Rettungsfahrzeug (EAV), das in fußgängerreichen Umgebungen operiert.
Link to this sectionWie die YOLO-gestützte Kollisionsvorhersage-Pipeline funktioniert#
Hier ist ein kurzer Einblick, wie diese Methodik funktioniert:
- Fußgängererkennung mit YOLO: Ein YOLO-basierter Detektor identifiziert Fußgänger in jedem Kamerabild und gibt Bounding Boxes für jede sichtbare Person aus.
- Bewegungsverfolgung mit ByteTrack: Der ByteTrack-Algorithmus verknüpft diese Erkennungen über Bilder hinweg, gibt jedem Fußgänger eine konsistente ID und erstellt eine Bewegungshistorie, die zeigt, wie sie sich im Laufe der Zeit bewegen.
- Positionsbestimmung in der realen Welt: Inverse Perspective Mapping (IPM) wandelt 2D-Pixelkoordinaten in ungefähre Bodenpositionen um und hilft dem System zu verstehen, wo sich Fußgänger im realen Raum relativ zum Fahrzeug befinden.
- Erzeugung einer Vogelperspektive mittels cGAN: Ein konditionales GAN, ein KI-Modell, das ein Bildformat in ein anderes übersetzt, erstellt eine Vogelperspektivendarstellung der Szene. Dieser Top-Down-Aufbau erleichtert die Interpretation von Fußgängerpositionen und deren Umgebung.
- Trajektorienvorhersage mit einem LSTM-Modell: Unter Verwendung der vergangenen Positionen und Bewegungsmuster jedes Fußgängers sagt ein LSTM-Modell vorher, wohin sie sich in den nächsten Sekunden wahrscheinlich bewegen werden.
- Effiziente Kollisionserkennung mittels Kollisionskegeln: Die vorhergesagten Trajektorien werden mithilfe der Kollisionskegel-Methode verglichen, die bestimmt, ob die Pfade des Fahrzeugs und eines Fußgängers kollidieren könnten.
- Kollisionsvermeidung durch Signalgebung: Wenn das System eine Kollision vorhersagt, aktiviert es im optimalen Moment ein akustisches Signal (wie eine Hupe oder Glocke). Das Timing wird so gewählt, dass das Verhalten der Fußgänger beeinflusst wird und sie die Chance haben, zu beschleunigen oder zu verlangsamen und sich in Sicherheit zu bringen.
Link to this sectionFußgängersicherheit in Städten mittels Edge Vision und YOLO gewährleisten#
Ähnlich blickt ein weiterer Ansatz zur Kollisionsverhinderung über Fahrzeuge hinaus und konzentriert sich auf die Infrastruktur selbst. Statt sich auf Sensoren in einem Auto zu verlassen, nutzt diese Methode intelligente Kameras an Zebrastreifen und Kreuzungen, um in Echtzeit zu überwachen, wie sich Fußgänger und Fahrzeuge bewegen. Diese Orte sind oft unvorhersehbar; Menschen können plötzlich auf die Straße treten, Radfahrer durch den Verkehr schlängeln und Fahrer nicht immer abbremsen – daher ist die frühzeitige Erkennung von Risiken entscheidend.
Eine interessante Studie untersuchte diese Idee durch ein System namens NAVIBox, ein Edge-Vision-Gerät, das darauf ausgelegt ist, Fahrzeug-Fußgänger-Risiken direkt an der Kreuzung vorherzusagen. Das System verwendet das Ultralytics YOLOv8-Modell zur Erkennung von Fußgängern und Fahrzeugen sowie einen leichtgewichtigen Centroid-Tracker, um sie über Bilder hinweg zu verfolgen. Dies erzeugt kurze, zuverlässige Bewegungshistorien, die anschließend mittels einer perspektivischen Transformation verfeinert werden, welche die schräge CCTV-Ansicht in eine klarere Vogelperspektive der Straße umwandelt.
Mit diesen verfeinerten Trajektorien kann NAVIBox abschätzen, wie sich Verkehrsteilnehmer in den nächsten Sekunden wahrscheinlich bewegen werden, und prüfen, ob sich ihre Pfade überschneiden könnten (auch als Schnittpunkttest bezeichnet). Wenn das System eine riskante Interaktion erkennt, sendet es sofort Warnungen über Anzeigen für Fahrer und Lautsprecher für Fußgänger – ohne auf einen Remote-Server oder eine Netzwerkverbindung angewiesen zu sein. Tests an realen städtischen Standorten zeigten, dass NAVIBox schnell genug für eine echte Echtzeitreaktion läuft und potenzielle Kollisionsszenarien präzise identifizieren kann, was es zu einem praktischen Sicherheitswerkzeug für belebte Stadtkreuzungen macht.

Abb. 5. Vorhersage des Kollisionsrisikos zwischen Fahrzeugen und Fußgängern (Quelle)
Link to this sectionVor- und Nachteile der Kollisionserkennung und -vorhersage#
Hier sind einige Vorteile des Einsatzes KI-gestützter prädiktiver Kollisionssysteme:
-
Verbessert das Situationsbewusstsein: KI-Systeme bilden kontinuierlich ab, wie sich Objekte in einer Umgebung bewegen, und bieten ein reichhaltigeres Verständnis von großskaligem Menschenstrom, Verkehrsverhalten oder Maschinenpfaden.
-
Datengesteuerte Erkenntnisse für die langfristige Planung: Durch die Protokollierung von Erkennungen, Beinahe-Unfällen und Bewegungsmustern liefern KI-Systeme Analysen, die Stadtplaner, Sicherheitsteams und Flottenbetreiber nutzen können, um Kreuzungen neu zu gestalten, Beschilderungen zu verbessern oder operative Richtlinien zu verfeinern.
-
Kosteneffiziente Risikoprävention: Durch die Erkennung von Risiken, bevor sie eskalieren, können diese Systeme dazu beitragen, kostspielige Unfälle, Versicherungsansprüche oder Gerätereparaturen zu vermeiden.
Trotz ihrer Vorteile stehen kollisionsfreie Systeme auch vor gewissen Einschränkungen. Hier sind einige Herausforderungen, die es zu berücksichtigen gilt:
- Einschränkungen bei der Sensor- und Kameraplatzierung: Schlecht positionierte oder ausgerichtete Kameras können Objektgröße oder -abstand verzerren, was die Tiefenschätzung und Trajektorienvorhersage weniger zuverlässig macht.
- Verdeckung: Objekte können hinter anderen teilweise oder vollständig verborgen sein. Dies erschwert die Objektverfolgung, da das Modell die visuelle Kontinuität verliert.
- Umgebungsbedingungen: Schwache Beleuchtung, grelles Sonnenlicht, Regen, Nebel oder schlechte Kameraqualität können die Fähigkeit des Modells, die Szene klar zu sehen, verringern und die Genauigkeit beeinträchtigen.
Link to this sectionWichtige Erkenntnisse#
Die Kollisionsvorhersage vereint zwei leistungsstarke Fähigkeiten: Computer Vision, die es Systemen ermöglicht zu verstehen, was aktuell in der Umgebung geschieht, und Trajektorienprognose, die dabei hilft zu antizipieren, was als Nächstes wahrscheinlich passieren wird.
Durch die Kombination dieser Stärken können Maschinen bewegte Objekte in Echtzeit erkennen und vorhersagen, wie diese Objekte in den kommenden Sekunden interagieren könnten. Während sich Computer-Vision- und Prognoseverfahren weiterentwickeln, wird die Kollisionsvorhersage wahrscheinlich zum Schlüssel für den Bau sichererer, zuverlässigerer und skalierbarer autonomer Systeme.
Schau dir unsere Community und unser GitHub-Repository an, um mehr über KI zu erfahren. Entdecke Anwendungen wie KI im Gesundheitswesen und Computer Vision in der Fertigung auf unseren Lösungsseiten. Entdecke unsere Lizenzoptionen und beginne noch heute mit dem Bauen!






