Machine Learning-Driven Prediction of Multiple Sclerosis Onset in White European Women: From Deep Learning Models to Clinically Interpretable Risk Calculators. A UK Biobank Study

  1. MSc thesis
  2. ΑΝΔΡΕΑΣ ΠΑΡΑΔΕΙΣΟΠΟΥΛΟΣ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 07 Μαρτίου 2026
  5. Αγγλικά
  6. 71
  7. Χαρίδημος Κονδυλάκης
  8. ΧΑΡΙΔΗΜΟΣ ΚΟΝΔΥΛΑΚΗΣ | ΓΕΩΡΓΙΟΣ ΔΗΜΗΤΡΑΚΟΠΟΥΛΟΣ | ΘΕΜΙΣΤΟΚΛΗΣ ΕΞΑΡΧΟΣ
  9. Multiple Sclerosis, Machine Learning, HLA, UK Biobank, DR-15 Haplotype
  10. Bioinformatics and Neuroinformatics / ΒΝΠΔΕ
  11. 68
  12. Περιλαμβάνει: Πίνακες, Διαγράμματα
    • Multiple Sclerosis (MS) arises from complex interactions between immunogenetic susceptibility, environmental exposures, and sex-specific biological factors. This study develops and interprets machine-learning models for MS risk stratification in White European women using UK Biobank data. A rigorously filtered cohort of 237,103 participants was constructed, integrating high-confidence HLA imputation with established lifestyle and reproductive risk factors.

      Multiple algorithms were evaluated under extreme class imbalance, including Logistic Regression, Balanced Random Forest, gradient boosting methods, and a custom two-stage deep neural network optimized for sensitivity and balanced performance. Model interpretability was addressed through SHAP-based attribution analysis and complemented by multivariable logistic regression to derive stable adjusted odds ratios. These estimates were translated into a baseline-relative risk calculator suitable for clinical and research use without implying absolute risk.

      Genetic burden at the HLA-DR15 locus emerged as the dominant risk determinant, while smoking, childhood body size, reproductive history, and oral contraceptive use independently modulated susceptibility. Optimization strategy was shown to influence not only predictive performance but also internal model reasoning. This framework bridges predictive accuracy with clinical interpretability, supporting transparent MS risk stratification.

    • Η Πολλαπλή Σκλήρυνση (ΠΣ) προκύπτει από σύνθετες αλληλεπιδράσεις γενετικής προδιάθεσης, περιβαλλοντικών εκθέσεων και βιολογικών μηχανισμών που αφορούν τα βιολογικά φύλα. Η παρούσα εργασία αναπτύσσει και ερμηνεύει μοντέλα μηχανικής μάθησης για την εκτίμηση κινδύνου ΠΣ σε γυναίκες λευκής ευρωπαϊκής καταγωγής, αξιοποιώντας δεδομένα της UK Biobank. Δημιουργήθηκε ένα φιλτραρισμένο δείγμα 237.103 συμμετεχουσών, με ενσωμάτωση υψηλής αξιοπιστίας HLA δεδομένων καθώς  και παραγόντων τρόπου ζωής και αναπαραγωγικού ιστορικού.

      Αξιολογήθηκαν πολλαπλοί αλγόριθμοι υπό συνθήκες έντονης ανισορροπίας κλάσεων, συμπεριλαμβανομένων γραμμικών, δενδρικών και βαθιών νευρωνικών μοντέλων δύο σταδίων. Η ερμηνευσιμότητα διασφαλίστηκε μέσω SHAP και πολυπαραγοντικής λογιστικής παλινδρόμησης, οδηγώντας στη δημιουργία υπολογιστικού εργαλείου σχετικής εκτίμησης κινδύνου.

      Το απλοτυπικό φορτίο HLA-DR15 αναδείχθηκε ως ο ισχυρότερος γενετικός παράγοντας, ενώ περιβαλλοντικοί και αναπαραγωγικοί παράγοντες τροποποίησαν ανεξάρτητα τον κίνδυνο. Το προτεινόμενο πλαίσιο συνδυάζει προγνωστική ισχύ με κλινική ερμηνευσιμότητα.

  13. Hellenic Open University
  14. Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές