Πρόβλεψη της Σκλήρυνσης Κατά Πλάκας από δείγματα αίματος με τη χρήση Μηχανικής Μάθησης

Prediction of Multiple Sclerosis from Blood Samples using Machine Learning Classifiers (Αγγλική)

  1. MSc thesis
  2. ΕΛΕΝΗ ΣΚΟΥΝΤΟΥΡΟΓΛΟΥ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 07 Μαρτίου 2026
  5. Ελληνικά
  6. 61
  7. ΓΕΩΡΓΙΟΣ ΔΗΜΗΤΡΑΚΟΠΟΥΛΟΣ
  8. ΓΕΩΡΓΙΟΣ ΔΗΜΗΤΡΑΚΟΠΟΥΛΟΣ | ΒΡΑΧΑΤΗΣ ΑΡΙΣΤΕΙΔΗΣ | ΘΕΜΙΣΤΟΚΛΗΣ ΕΞΑΡΧΟΣ
  9. Σκλήρυνση Κατά Πλάκας, Ανάλυση Διαφορικής Έκφρασης, Ανάλυση Εμπλουτισμού, Αλγόριθμοι Μηχανικής Μάθησης
  10. Σχολή Θετικών Επιστημών & Τεχνολογίας Βιοπληροφορική και Νευροπληροφορική
  11. 1
  12. 90
    • Η Σκλήρυνση κατά Πλάκας (ΣΚΠ) αποτελεί μία από τις κυριότερες αιτίες νευρολογικής αναπηρίας σε νεαρούς ενήλικες, ενώ εκτιμάται ότι επηρεάζει περίπου 1,9 εκατομμύρια άτομα παγκοσμίως. Παρά τη σημαντική πρόοδο στην κατανόηση των μηχανισμών που την διέπουν, η απουσία οριστικής θεραπείας καθιστά κρίσιμη, την έγκαιρη και αξιόπιστη διάγνωσή της. Στο πλαίσιο αυτό, ενδιαφέρον παρουσιάζει η ανάπτυξη διαγνωστικών προσεγγίσεων που βασίζονται σε γρήγορες και μη επεμβατικές μεθόδους, όπως η ανάλυση γονιδιακής έκφρασης από δείγματα αίματος. Στην παρούσα μελέτη αναλύθηκαν δείγματα μονοπύρηνων κυττάρων περιφερικού αίματος, και συγκεκριμένα CD14⁺ μονοκύτταρα, καθώς και CD4⁺ και CD8⁺ Τ λεμφοκύτταρα, τόσο ως ενιαίος κυτταρικός πληθυσμός όσο και ανά κυτταρικό τύπο. Στόχος της μελέτης ήταν η διερεύνηση της γονιδιακής έκφρασης ασθενών και υγειών ατόμων και η αξιοποίησή της για την ανάπτυξη μοντέλων πρόβλεψης της ΣΚΠ.

      Αρχικά, πραγματοποιήθηκε ανάλυση διαφορικής γονιδιακής έκφρασης σε όλες τις περιπτώσεις κυττάρων. Σε κάθε περίπτωση για τις επόμενες αναλύσεις, επιλέχθηκαν γονίδια με αυξημένη βιολογική σημασία βάσει των κριτηρίων |log₂FC| > 1 και Padj < 0,05. Στη συνέχεια, ακολούθησε ανάλυση εμπλουτισμού, η οποία ανέδειξε σημαντική συσχέτιση των διαφορικά εκφρασμένων γονιδίων με διεργασίες που έχουν συσχετιστεί με την νόσο, όπως διεργασίες του ανοσοποιητικού συστήματος, της φλεγμονής, της μεταγωγής σήματος κυτοκινών και του οξειδωτικού στρες.

      Τέλος τα διαφορικά εκφρασμένα γονίδια χρησιμοποιήθηκαν ως είσοδος σε μοντέλα μηχανικής μάθησης, συμπεριλαμβανομένων των Random Forest, K-Nearest Neighbors (KNN) και Support Vector Machines (SVM) με γραμμικό και RBF kernel. Η εκπαίδευση και αξιολόγηση των μοντέλων πραγματοποιήθηκε με 5-fold cross-validation και 10 επαναλήψεις, σε συνδυασμό με downsampling για την αντιμετώπιση της ανισορροπίας των κλάσεων που χαρακτηρίζει το σύνολο δεδομένων που χρησιμοποιήθηκε. Η επιλογή των βέλτιστων υπερπαραμέτρων βασίστηκε στη μέση τιμή της ROC-AUC. Η σύγκριση της επίδοσης των αλγορίθμων σε όλους τους κυτταρικούς τύπους ανέδειξε τον ΚΝΝ, ως τον αλγόριθμο με την χαμηλότερη επίδοση, ενώ τη συνολικά καλύτερη διαγνωστική επίδοση επέδειξαν τα μοντέλα SVM.

    • Multiple Sclerosis (MS) is one of the leading causes of neurological disability among young adults and is estimated to affect approximately 1.9 million individuals worldwide. Despite significant advancements in understanding the underlying disease mechanisms, the lack of a definitive cure makes early and reliable diagnosis critically important. In this context, the development of diagnostic approaches based on rapid and non-invasive methods, such as gene expression analysis from blood samples, is of particular interest.

      In the present study, peripheral blood mononuclear cell samples were analyzed, including CD14⁺ monocytes and CD4⁺ and CD8⁺ T lymphocytes, both as a combined population and by individual cell type. The aim of the study was to investigate gene expression patterns in MS patients and healthy controls and to utilize them for the development of predictive models for MS.

      Initially, differential gene expression analysis was performed across all cell populations. For subsequent analyses, genes with increased biological relevance were selected based on the criteria |log₂FC| > 1 and adjusted p-value (Padj) < 0.05. This was followed by enrichment analysis, which revealed a significant association of the differentially expressed genes with processes previously linked to MS, including immune system activity, inflammatory responses, cytokine signaling pathways, and oxidative stress.

      Finally, the differentially expressed genes were used as input features for machine learning models, including Random Forest, K-Nearest Neighbors (KNN), and Support Vector Machines (SVM) with both linear and radial basis function (RBF) kernels. Model training and evaluation were performed using 5-fold cross-validation with 10 repetitions, combined with downsampling to address class imbalance in the dataset. Optimal hyperparameters were selected based on the mean ROC-AUC. Comparative analysis of model performance across all cell types indicated that KNN exhibited the lowest predictive performance, while SVM models demonstrated the overall best diagnostic accuracy.

  13. Hellenic Open University
  14. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.