Abschlussarbeit von Johannes Frank
Im Master Studiengang Geoinformatik und VermessungThema: Analyse von Einflussfaktoren auf die Unfallschwere von Unfalldaten mittels KI und XAI
Betreuer: Prof. Dr. Klaus Böhm, Cédric Roussel, M.Sc.
Bearbeitungs-Zeitraum: 13.05.2024 - 13.11.2024
Zu den Unterkapiteln:Zusammenfassung
Mit der wachsenden Vielfalt an Verkehrsteilnehmern und -mitteln in Deutschland wird es zunehmend wichtiger die Ursachen und Einflussfaktoren schwerer Unfälle besser verstehen zu können. Ziel dieser Arbeit ist die Entwicklung eines KI-gestützten Analyseansatzes, der die Unfallursachen und deren Einfluss auf die Unfallschwere im städtischen Gebieten der Stadt Mainz identifiziert und verständlich visualisiert. Dabei sollen Machine-Learning-Modelle so gestaltet werden, dass sie sowohl Vorhersagen zur Unfallschwere treffen als auch durch Erklärbarkeitsmethoden die zugrundeliegenden Muster für Stadtplaner, Sicherheitspersonal und andere Interessierte nachvollziehbar machen. Eine besondere Herausforderung besteht darin, die komplexen Zusammenhänge durch Visualisierungen und interaktive Karten benutzerfreundlich darzustellen.
Ausgangslage
Einflussfaktoren auf die Unfallschwere beschreiben die situativen Angaben zu einem Unfall, die die Wahrscheinlichkeit dafür erhöht oder gesenkt haben, dass ein schwerer Unfall auftritt. Diese Einflussfaktoren können jedoch nicht sofort aus Unfallstatistiken abgeleitet werden. Die statistischen Ämter der Länder und des Bundes veröffentlichen jährlich den sogenannten Unfallatlas. In diesem werden alle von der Polizei aufgenommenen Unfälle mit Personenschaden aufgeführt. Neben der Unfallschwere der einzelnen Unfälle werden zusätzliche Angaben, sowie eine räumliche Verortung zum Unfall hinterlegt. Aus den 1,4 Millionen Einträgen lassen sich allerdings keine direkten Zusammenhänge zwischen einzelnen Attributen (Beschreibungen des Unfalls) und der Unfallschwere ablesen.
Die Attribute eines Unfalles beeinflussen sich gegenseitig und können auch bei leichten Abweichungen die Schwere eines Unfalles stark beeinflussen. Es gilt Zusammenhänge und Muster in den Daten zu finden, um herauszufinden, welche Attribute die Unfallschwere beeinflussen und welche Attribute in Wechselwirkung zueinander stehen. Mit diesem Wissen können nicht nur allgemeine Aussagen zu den einflussreichsten Unfallangaben getätigt werden, sondern auch einzelne Unfälle und deren individuelle Einflüsse betrachtet werden.
Die Einflussfaktoren können Unfallforschern, Stadt- und Straßenplanern dabei helfen, die komplexen Abläufe eines Unfalles nachzuvollziehen, durch Maßnahmen die Risiken von schweren Unfällen zu reduzieren und Sicherheitspersonal Empfehlungen zu räumlichen und thematischen Unfallmustern zu geben.
Die Arbeit beschäftigt sich mit der Frage, wie datenbasierte Systeme Muster in Unfalldaten finden, diese mit Erklärbarkeitsansätzen menschenlesbar abgeleitet werden und niedrigschwellig visualisiert werden können.
Zielsetzung
Um in riesigen Datenmengen Muster zu erkennen, werden seit einigen Jahren Ansätze des Maschinellen Lernens (ML) verwendet, wobei Modelle mit beliebigen Daten trainiert werden. Hierbei findet das Modell selbstständig Zusammenhänge zwischen den Eingabedaten und der Zielvariablen. Die Modelle sind anschließend in der Lage anhand der Trainingsgrundlage Regeln in den Daten zu finden und somit Vorhersagen für ungesehene Daten zu treffen. Hierfür werden die zuvor aufgestellten Regeln auf den neuen Datensatz angewandt. Dabei werden die Wahrscheinlichkeiten der jeweiligen Zielvariable angegeben.
In der Arbeit wurde ein ML-Modell mit den gesamten deutschen Unfalldaten trainiert. Anschließend soll das Modell die Unfallschwere für einen Teil der in Mainz vorgefallenen Unfälle vorhersagen. Dabei wird zwischen drei Klassen unterschieden: „Unfall mit Leichtverletzten“, „Unfall mit Schwerverletzten“ und „Unfall mit Getöteten. Um die komplexe Entscheidung des Modells für Menschen nachvollziehbar zu machen, sollen Shapley Additive Explanations als eine Methode der Erklärbarkeit berechnet werden. Diese Werte beschreiben die Einflussfaktoren auf eine Vorhersage des Modells. Dadurch kann aufgeschlüsselt werden, welche Attribute eines Unfalls die Wahrscheinlichkeit einer jeweiligen Unfallschwere gesenkt bzw. erhöht haben.
Diese Einflussfaktoren sollen mit einfachen Visualisierungen und unter Hinzuziehung von Karten dabei helfen thematische und räumliche Zusammenhänge festzustellen. Dadurch sollen auch Personenkreise ohne Kenntnisse von ML und deren Funktionsweise die Ergebnisse niedrigschwellig vermittelt bekommen können.
Darüber hinaus sollen auch die Unfälle analysiert werden, die das Modell der falschen Unfallschwere zugeordnet hat. Dadurch können die Entscheidungen eines Modells offengelegt werden. Diese Transparenz fördert das Vertrauen in das Modell und gibt Einblicke in die Entscheidungsfindung anhand von datengestützten Lösungsansätzen.
Ergebnisse der Arbeit
Es wurde ein Prozessablauf entwickelt, mit dem die Einflussfaktoren auf die Unfallschwere berechnet und ausgegeben werden können. Es wurde zunächst ein XGBoost-Klassifikator trainiert, welcher die Schwere eines Unfalls anhand der 13 relevanten Unfallangaben aus dem Unfallatlas abbilden konnte. Dieses Modell hat im Vergleich zu einem Neuronalen Netz die besseren Ergebnisse abliefern können. Es wurden die typischen Fehlermaße eines Modells bestimmt. Hierbei konnte das Modell folgende gewichtete Mittel nachweisen:
- Precision: 81%
- Recall: 65%
- F1-Score: 71%
Um die Vorhersagen des Modells weiter zu verbessern, wurden die Unfalldaten mit weiteren Informationen angereichert. Zusätzliche Angaben zu einem Unfall machen die Analyse zwar komplexer, können einen Unfall dafür aber noch besser beschreiben. Es wurde bewiesen, dass die Straßenklasse als zusätzliche Angabe die Vorhersagegenauigkeit eines ML-Modells verbessern kann.
Als Erklärungstechnik des ML-Modells wurden SHAP-Werte berechnet. Diese beschreiben die einzelnen Einflüsse der Attribute eines Unfalls auf die Vorhersagewahrscheinlichkeit einer Unfallschwereklasse durch das Modell. Um diese Einflüsse nutzerorientiert darzustellen, wurde ein interaktives Dashboard entwickelt, mit dem die ML-Vorhersagen transparent nachverfolgt werden können. Hierbei können sowohl einzelne Unfälle analysiert als auch Einflussfaktoren in den einzelnen Mainzer Stadtteilen unabhängig von der Unfallschwere angezeigt werden. Es ist zu beachten, dass die durch SHAP bestimmten Einflussfaktoren keine Aussage über tatsächliche Kausalitäten geben. Das bedeutet in Bezug auf die Unfallklassifizierung, dass ein Einflussfaktor nicht die tatsächliche Wichtigkeit eines Attributes für die Unfallschwere in der echten Welt beschreibt, sondern vielmehr die Wichtigkeit des Attributes für das Modell. Ein gut trainiertes Modell muss nicht eine gute Repräsentation der Realität sein. Es kann unvollständig sein oder irrtümliche Korrelationen enthalten. Menschliche Fehler wie Fehlinterpretationen können dazu führen, dass Muster in den Einflussfaktoren gefunden werden, die nicht mit der Wirklichkeit übereinstimmen müssen. Schlussfolgerungen sollen nicht die Grenzen des Modells übersteigen.