Αποκτώντας επίγνωση από δεδομένα σιδηροδρομικής ασφάλειας με την επεξεργασία φυσικής γλώσσας

From Rail Safety data to insights: leveraging Natural Language Processing (NLP) (Αγγλική)

  1. MSc thesis
  2. Βασιλοπούλου, Πολύμνια
  3. Συστήματα Κινητού και Διάχυτου Υπολογισμού (ΣΔΥ)
  4. 23 Σεπτεμβρίου 2018 [2018-09-23]
  5. Αγγλικά
  6. 76
  7. Psannis, Konstantinos
  8. Nikopolitidis, Petros
  9. Big data | text mining | data mining | machine learning | railways | european | accident investigation reports | leading precursors | contributors | safety
  10. 1
  11. 84
  12. Figure 1: Significant accidents and resulting casualties (EU-28; 2010-2016) 2 Figure 6: Words distribution – all topics 46 Figure 7: Words Distribution – Topic 3 (distant) 47 Figure 8: Words Distribution – Topic 3 (wide and overlapping) 47 Figure 9: Vectorised document (i=415) 49Table 1: Learning inputs and related observations 16 Table 2: Occurrence class in ERAIL 43 Table 3: Occurrence type taxonomy in ERAIL 43 Table 4: LDA parameters 44 Table 5: Unique words in the 10 topics in the accident reports 45
    • Η απότελεσματικότητα των συστημάτων διαχείρισης ασφάλειας είναι αλληλένδητη με τη συστηματική ανάλυση των δεδομένων ασφαλείας και της σχετικής πληροφορίας. Διαφορετικές μεθοδολογιές έχουν αναπτυχθεί τα τελευταία χρόνια για τον σκοπό αυτό με απώτερο σκοπό την πρόληψη ατυχημάτων: Ανάλυση κινδύνου, διερεύνηση ατυχημάτων, πρόγραμμα καταγραφής αποσοβηθέντων ατυχημάτων και άλλων επικίνδυνων περιστατικών, πλεον ισχυρά συστήματα διαχείρισης κινδύνου, επιθεωρήσεις ασφάλειας εκπαίδευση κλπ. Όλες αυτές οι τεχνικές επικεντρώνονται κυρίως σε ποσοτικά δεδομένα στην προσπάθεια να ανακαλύψουν και να κατανοήσουν τις πολύπλοκες σχέσεις μεταξύ των διαφορετικών στοιχείων και γεγονότων που απαρτίζουν ένα σύστημα το οποίο οδηγεί σε ατύχημα. Οι παραδοσιακές αναλύσεις προέρχονται από σύνολο των συμβουλευτικών ειδικών εµπειρογνωµόνων και όπως είναι αναμενόμενο, η ανάλυση δεν μπορεί να βασιστεί σε μια συνολική αντίληψη του συντριπτικού όγκου των δεδομένων, όπως είναι τεράστιος ο όγκος των αδόμητων δεδομένων σε ελέυθερο κείμενο, πως για παράδειγμα σε διερευνήσεις ατυχημάτων, σε καταγραφή περιστατικών ακόμα και σε ενημερωτικά, επιθεωρήσεις και ευρήματα ελεγκτικών επιτροπών. Αυτά τα δεδομένα ελέυθερου κειμένουν μπορούν να αναλυθούν με τη χρήση τεχνικών για τη συγκέντρωση/άντληση δεδομένων από κέιμενα και επεξεργασία φυσικής γλώσσας (NLP), όπως έχει αποδειχθεί χρήσιμη σε έρευνες στο παρελθόν. Το παράδειγμα της μελέτης προτείνει τη χρήση των τεχνικών με σύνολο δεδομένων τις τελικές εκθέσεις έρευνας ατυχημάτων που κατατίθενται από τις αρμόδιες Αρχές ασφάλειας κάθε Κράτους μελους της ευρωπαικής ένωσης στον Ευρωπαϊκό Οργανισμό για τους Σιδηροδρόμους (ERA) μετά από κάθε σοβαρό ατύχημα εντός συνόρων τους στην πλατφόρμα για την καταγραφή των ευρωπαικών ατυχημάτων (ERAIL), βάσει νομικής υποχρέωσης σύμφωνα με την Οδηγία 2004/49/EC του Ευρωπαικού Κοινοβουλίου και του Συμβουλίου της 29ης Απριλίου 2004.[A] Αυτή η έρευνα αρχικά τονίζει την σημαντικότητα της Ασφάλειας στους σιδηρομδρόμους και το ρόλο των προπορευόμενων δεικτών σε ατυχήματα. Έπειτα, περιγράφει την πιθανή προσέγγιση πληροφοριακού συστήματος για την συλλογή, αποθήκευση επεξεργασία, ανάλυση και απεικόνιση μεγάλου όγκου δεδομένων καθώς και νέες μεθόδους που αξιοποιούν αλγορίθμους μηχανικής νοημοσύνης και υπολογιστικής ευφυίας για την άντληση πληροφορίας εφαρμόζονας τους σε δεδομένα κειμένουν. Είναι μία πρώιμη προσπάθεια να κατανοήσει κανέις την εξάρτηση μεταξύ συμβάντων στις εκθέσεις έρευνας ατυχημάτων ενόψει παγίωσης ενός μοντέλου πρόβλεψης ατυχημάτων που θα μπορούσε να λειτουργήσει προοληπτικά, δίνοντας το μηχανισμό για τη λήψη αποφάσεων σε πραγματικό χρόνο για την αποφυγή ενός ατυχήματος. Τέλος, αξιολογούνται οι δυνατότητες αλλά και τις δυσκολίες της μεθόδου καθώς και (εκτενέστερων) παραλλαγών της.
    • Effective safety management in railways is dependent on systematic data analysis of safety data and information. Different methodologies exist for this purpose with the ultimate goal to prevent accidents: risk analysis, accident investigation, near-miss program, more robust risk management systems, safety inspection, training, and so forth. Those techniques are mostly focused on quantitative data, trying to identify the complex relationships among the different components and series of events that lead to an accident. Originally, those methods’ players in the analysis are only human actors, so analysis cannot be based on a preception of the vast amount of data as a wholesale. An enormous amount of it lies in unstructured form such as free text format, e.g. the accident investigation reports, the occurrence reporting and even safety briefing, inspection and audit findings. These free text data can be analysed using text mining and natural language processing (NLP) techniques, as past research has proven useful. The paradigm in this study proposes the techniques deployment on the dataset of Investigation reports that are submitted to EU Agency for Railways from National Safety Authorities of the EU Member States following serious accidents within their borders to the European Railway Accident Information Links (ERAIL) on legal obligation having regard to DIRECTIVE 2004/49/EC OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 29 April 2004 (European Parliament, 2004). This paper firstly highlights the importance of Railway Safety and the role of safety leading indicators in accidents. Then, it summarises a possible approach of information technology to implement collection, storage, processing, analyzing and visualizing large amounts of data as well as new methods coming from machine learning and computational intelligence to recognize patterns and retrieve useful information by applying text mining techniques. It is a primary attempt to understand the dependability of events in accident investigation with further view to establish a predictive model which could allow a real time decision making mechanism. Last, opportunities and difficulties are evaluated within the research but also in similar or even more extensive studies.
  13. Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές