- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 21 September 2025
- Αγγλικά
- 166
- ΑΜΑΝΑΤΙΔΗΣ ΔΗΜΗΤΡΙΟΣ
- ΔΗΜΗΤΡΙΟΣ ΑΜΑΝΑΤΙΔΗΣ | ΕΥΑΓΓΕΛΟΣ ΣΑΚΚΟΠΟΥΛΟΣ
- machine learning | deep learning | CNN | RNN | TCGA | Health | Gene Expression Data | Data Science | Classification | PCA | SMOTE | SVM | Artificial Neural Networks
- ΠΛΣΔΕ
- 1
- 1
- 54
- Comparison of Machine Learning and Deep Learning Methods for the Classification of Healthy vs Diseased Individuals and Organ-Specific Diseases Using Gene Expression Data
-
-
This MSc thesis investigates the comparative performance of machine learning and deep learning algorithms in classifying healthy versus diseased samples, based on gene expression datasets derived from The Cancer Genome Atlas (TCGA). A reproducible and technically rigorous data pipeline was implemented, encompassing exploratory data analysis (EDA), outlier detection, dimensionality reduction via Principal Component Analysis (PCA), normalization, and class balancing through Synthetic Minority Oversampling Technique (SMOTE).
Traditional machine learning algorithms, including Support Vector Machines (SVM), Random Forests, and Logistic Regression, were trained and benchmarked alongside deep learning architectures such as Multilayer Perceptrons (MLP) and one-dimensional Convolutional Neural Networks (1D CNN). Model evaluation focused on predictive accuracy, generalization ability, and detection of overfitting. Additionally, feature interpretability was pursued through PCA loading analysis, aiming to highlight genes with significant contribution to classification performance.
The experimental results demonstrated robust accuracy across all models, with the CNN achieving perfect performance (100%) on the test set. These findings underscore the remarkable potential of deep learning techniques in gene expression-based classification tasks and their applicability in modern bioinformatics research.
-
Η παρούσα διπλωματική εργασία πραγματεύεται τη σύγκριση μεθόδων μηχανικής μάθησης και βαθιάς μάθη- σης για την ταξινόμηση υγιών και ασθενών δειγμάτων βάσει δεδομένων γονιδιακής έκφρασης, αντλημένων από το έργο The Cancer Genome Atlas (TCGA). Εφαρμόστηκε ένας αναπαραγώγιμος και τεχνικά αυστη- ρός υπολογιστικός άξονας, ο οποίος περιλάμβανε τεχνική εξερεύνηση δεδομένων (EDA), ανίχνευση ακραίων τιμών (outliers), μείωση διαστατικότητας μέσω Ανάλυσης Κύριων Συνιστωσών (PCA), κανονικοποίηση και εξισορρόπηση κλάσεων μέσω της μεθόδου SMOTE. Ακολούθως, εκπαιδεύτηκαν και αξιολογήθηκαν αλγόριθ- μοι κλασικής μηχανικής μάθησης, όπως Support Vector Machines (SVM), Random Forests και Logistic Regression, καθώς και αρχιτεκτονικές βαθιάς μάθησης, όπως Πολυεπίπεδα Νευρωνικά Δίκτυα (MLP) και Συνελικτικά Δίκτυα μίας διάστασης (1D CNN).
Η αξιολόγηση βασίστηκε σε μετρικές απόδοσης, στη γενικευσιμότητα των μοντέλων και στην ύπαρξη πιθανού υπερεκπαίδευσης (overfitting). Επιπρόσθετα, διερευνήθηκε η σημασιολογική συμβολή των γονιδίων μέσω του φορτίου (loading) των συνιστωσών της PCA, προσφέροντας ενδείξεις βιολογικής ερμηνείας. Τα αποτελέσματα κατέδειξαν υψηλή απόδοση για όλους τους αλγορίθμους, με το μοντέλο CNN να επιτυγχάνει ακρίβεια 100% στα δεδομένα ελέγχου, ενισχύοντας την υπόθεση ότι οι τεχνικές βαθιάς μάθησης προσφέρουν σημαντικά πλεονεκτήματα στην ανάλυση και ταξινόμηση γονιδιακών προφίλ.
-
- Hellenic Open University
- Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές
Comparison of Machine Learning and Deep Learning Methods for the Classification of Healthy vs Diseased Individuals and Organ-Specific Diseases Using Gene Expression Data
Σύγκριση Μεθόδων Μηχανικής Μάθησης και Βαθιάς Μάθησης για Ταξινόμηση Υγιών και Ασθενών καθώς και Ασθενειών Οργάνων από Δεδομένα Γονιδιακής Έκφρασης (greek)
Main Files
Comparison of Machine Learning and Deep Learning Methods for the Classification of Healthy vs Diseased Individuals and Organ-Specific Diseases Using Gene Expression Data
Description: msc_thesis_plsde_ivigkos_std142902.pdf (pdf) Book Reader
Size: 12.5 MB

