- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 21 Σεπτεμβρίου 2024
- Ελληνικά
- 173
- Γεώργιος Φερετζάκης
- Βασίλειος Βερύκιος | Δημήτριος Καλλές
- Machine Learning | Emergency Room Department | MIMIC IV Database
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα
- 2
- 69
-
-
Ο συνδυασμός αλγορίθμων μηχανικής μάθησης και ιατρικών δεδομένων τα οποία συλλέγονται στα πλαίσια της επίσκεψης των ασθενών στα επείγοντα τμήματα των νοσοκομείων (ΤΕΠ) είναι ένα πολλά υποσχόμενο πεδίο έρευνας που αναμένεται να αναβαθμίσει την ποιότητα της παρεχόμενης ιατρικής φροντίδας περιορίζοντας τον χρόνο αναμονής και εξυπηρέτησης. Η παρούσα εργασία επιδιώκει να διερευνήσει την δυνατότητα πρόβλεψης της έκβασης της επίσκεψης των ασθενών στα ΤΕΠ χρησιμοποιώντας διάφορους αλγόριθμους μηχανικής μάθησης και εκπαιδεύοντας τους με δεδομένα που συλλέγονται κατά την παραμονή των ασθενών στα επείγοντα. Τα δεδομένα που χρησιμοποιήθηκαν ανακτήθηκαν από την βάση δεδομένων MIMIC IV ED, στην οποία υπάρχει ελεύθερη πρόσβαση, και κατόπιν υπέστησαν επεξεργασία και μορφοποίηση χρησιμοποιώντας διάφορες τεχνικές διαχείρισης ελλειπουσών τιμών, κανονικοποίησης και ασυμμετρίας κλάσεων της μεταβλητής εξόδου. Η άντληση των δεδομένων έγινε με την βοήθεια της SQL, ενώ η επεξεργασία τους πραγματοποιήθηκε με γλώσσα R. Τελικά, δημιουργήθηκαν 12 σύνολα εκπαίδευσης και τα αντίστοιχα σύνολα ελέγχου και καθένα από αυτά δόθηκε σε όλους τους αλγόριθμους. Οι αλγόριθμοι που μελετήθηκαν ήταν η Λογιστική Παλινδρόμηση (LR), το Τυχαίο Δάσος (RF), το Δέντρο απόφασης (DT), οι Μηχανές Διανυσματικής Υποστήριξης (SVM), ο Naive Bayes (NB) και οι k-Κοντινότεροι Γείτονες (KNN). Τα αποτελέσματα έδειξαν ότι οι αλγόριθμοι RF και SVM υπερτερούν σε απόδοση, με τιμές AUC ίσο με 75,53%, Accuracy ίσο με 76,23% και F1 ίσο με 70,37% για τον αλγόριθμο RF και AUC ίσο με 74,88%, Accuracy ίσο με 74,42% και F1 ίσο με 69,66% για τον αλγόριθμο SVM. Παράλληλα εντοπίστηκαν οι σημαντικότεροι παράγοντες πρόβλεψης (predictors) του κάθε μοντέλου και εκείνοι που ήταν κοινοί σχεδόν σε όλα τα μοντέλα ήταν η ηλικία, η σοβαρότητα της κατάστασης του ασθενή, το μέσον μεταφοράς του προς τα επείγοντα και ο χρόνος παραμονής του στο ΤΕΠ. Ακόμη αξιολογήθηκε η χρήση της τεχνικής cross validation κατά τον σχηματισμό των διαφόρων μοντέλων και όπως φάνηκε δεν οδηγεί πάντοτε σε μεγαλύτερες αποδόσεις αλλά αυτό εξαρτάται από το είδος του αλγόριθμου που χρησιμοποιείται.
-
The combination of machine learning algorithms and medical data collected when patients visit hospital emergency departments (ED) is a promising field of research, which is expected to upgrade the quality of medical care provided by reducing waiting and service time. This master thesis seeks to investigate the possibility of predicting the outcome of the patient's visit to the ED by using various machine learning algorithms and training them with data collected during the patient's stay in the emergency department. A variety of medical data are available on the freely accessible MIMIC IV ED database, so these data was retrieved and then processed and formatted using various techniques for handling missing values, normalization and class imbalance of the output variable. The data was extracted using SQL, and their processing was performed in R language. Finally, 12 training sets and their corresponding control sets were created, and each was provided to all the algorithms. The algorithms studied included Logistic Regression (LR), Random Forest (RF), Decision Tree (DT), Support Vector Machines (SVM), Naive Bayes (NB), and k-Nearest Neighbors (KNN). The results showed that the RF and SVM algorithms outperform, with AUC values equal to 75.53%, Accuracy 76.23%, and F1 70.37% for the RF algorithm and AUC equal to 74.88% , Accuracy 74.42% and F1 69.66% for the SVM algorithm. At the same time, the most important predictors for each model were identified, with age, severity of the patient's condition (acuity), means of transport to the emergency room, and length of stay in the ED being common to almost all models. The use of cross-validation technique during the development of the various models was also evaluated. It was observed that cross-validation does not always lead to higher performance, as its effectiveness depends on the type of algorithm used.
-
- Hellenic Open University
- Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές