Ανάλυση δεδομένων γονιδιακής έκφρασης NGS στον καρκίνο και ανάπτυξη μοντέλων διάγνωσης

Analysis of NGS Gene Expression Data in Cancer and the Development of Diagnostic Models (english)

  1. MSc thesis
  2. ΑΝΘΟΥΛΑ ΣΤΟΥΠΑ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 19 July 2025
  5. Ελληνικά
  6. 59
  7. Θεμιστοκλής Έξαρχος
  8. Θεμιστοκλής Έξαρχος | Αριστείδης Βραχάτης | Μάριος Κροκίδης
  9. Καρκίνος κεφαλής και τραχήλου (HNSCC) | Μηχανική μάθηση | Ανάλυση Εμπλουτισμού
  10. ΒΝΠΔΕ
  11. 1
  12. 55
  13. Εικόνες, Σχήματα, Πίνακες
    • Ο καρκίνος κεφαλής και τραχήλου (Head and Neck Squamous Cell Carcinoma – HNSCC) αποτελεί μία από τις πλέον επιθετικές και σύνθετες μορφές κακοήθειας, με υψηλά ποσοστά θνησιμότητας και υποτροπής. Η ανάγκη για αξιόπιστους μοριακούς δείκτες πρόγνωσης και θεραπευτικούς στόχους είναι επιτακτική. Η παρούσα εργασία αξιοποιεί τεχνικές μηχανικής μάθησης για την ανάλυση δεδομένων γονιδιακής έκφρασης με στόχο τον εντοπισμό γονιδίων που διαφοροποιούν αποτελεσματικά υγιή από καρκινικά δείγματα.
      Αρχικά, εφαρμόστηκε προεπεξεργασία και μετασχηματισμός των δεδομένων, ενώ για την επιλογή σημαντικών χαρακτηριστικών χρησιμοποιήθηκε ο αλγόριθμος Boruta, ο οποίος ανέδειξε 64 γονίδια υψηλής σημασίας. Δεδομένης της έντονης ανισορροπίας μεταξύ των δύο κατηγοριών (υγιή και καρκινικά), εφαρμόστηκε η τεχνική SMOTE (Synthetic Minority Over-sampling Technique), η οποία βελτίωσε σημαντικά την εκπαίδευση των ταξινομητικών μοντέλων. Στη συνέχεια, εκπαιδεύτηκε μοντέλο Random Forest με πενταπλή διασταυρούμενη επικύρωση (5-fold cross-validation), επιτυγχάνοντας πολύ υψηλή διαγνωστική ακρίβεια (accuracy = 97.2%) και μέση AUC = 0.99, ενδεικτική εξαιρετικής ταξινομητικής ισχύος. Ανάμεσα στα κορυφαία γονίδια που αναδείχθηκαν ήταν τα CAB39L, HSD17B6, NRG2, MMP11, UBL3, ATP6V0A4, BMP1, HOXC9, GRIN2D και άλλα.
      Αναλύσεις εμπλουτισμού (Enrichr) και αλληλεπίδρασης πρωτεϊνών (STRING database) αποκάλυψαν σημαντικές λειτουργικές συσχετίσεις με βιολογικές διεργασίες όπως η ρύθμιση του κυτταρικού κύκλου, η εξωκυτταρική αναδόμηση, η μετάσταση, και η σηματοδότηση μέσω κυτοκινών. Συγκεκριμένα, γονίδια όπως τα MMP9, MYBL2, HOXC6, LOXL2 και IL11 έχουν τεκμηριωμένα εμπλακεί σε μηχανισμούς επιθετικότητας, αγγειογένεσης και ανοσολογικής διαφυγής στον HNSCC. Ορισμένα από αυτά, όπως τα MYBL2 και LOXL2, προτείνονται ως βιοδείκτες πρόγνωσης ή και πιθανοί θεραπευτικοί στόχοι σε κλινικές μελέτες.
      Συνοψίζοντας, η εργασία αυτή δείχνει πως η χρήση μεθόδων μηχανικής μάθησης μπορεί να βοηθήσει αποτελεσματικά στην αναγνώριση σημαντικών γονιδίων που σχετίζονται με τον καρκίνο κεφαλής και τραχήλου (HNSCC). Αυτό υποστηρίζει τη χρήση υπολογιστικών εργαλείων για την καλύτερη κατανόηση της νόσου, την ανάπτυξη πιο στοχευμένων θεραπειών και την εφαρμογή της εξατομικευμένης ιατρικής στην πράξη.

    • Head and Neck Squamous Cell Carcinoma (HNSCC) is one of the most aggressive and complex types of malignancy, characterized by high mortality and recurrence rates. There is a pressing need for reliable molecular biomarkers for prognosis and potential therapeutic targets. This study leverages machine learning techniques to analyze gene expression data with the aim of identifying genes that effectively distinguish healthy from cancerous tissue samples.
      Initially, data preprocessing and transformation were performed, followed by the application of the Boruta algorithm for feature selection, which identified 64 highly important genes. Given the pronounced imbalance between the two classes (healthy and cancerous), the SMOTE (Synthetic Minority Over-sampling Technique) method was applied, significantly improving the training of the classification models. A Random Forest model was then trained using 5-fold cross-validation, achieving very high diagnostic accuracy (accuracy = 97.2%) and an average AUC of 0.99, indicating excellent classification performance. Among the top-ranked genes were CAB39L, HSD17B6, NRG2, MMP11, UBL3, ATP6V0A4, BMP1, HOXC9, and GRIN2D.
      Functional enrichment analysis and protein–protein interaction mapping revealed significant biological associations related to processes such as cell cycle regulation, extracellular matrix remodeling, metastasis, and cytokine signaling. Specific genes, such as MMP9, MYBL2, HOXC6, LOXL2, and IL11, have been previously implicated in pathways involved in tumor aggressiveness, angiogenesis, and immune evasion in HNSCC. Some of these, notably MYBL2 and LOXL2, are proposed as potential prognostic biomarkers or therapeutic targets in clinical studies.In conclusion, this study demonstrates the utility of machine learning methods in identifying molecular signatures associated with head and neck cancer. The findings highlight the role of computational models in enhancing our understanding of HNSCC and support their integration into personalized medicine and the development of targeted therapies.

  14. Hellenic Open University
  15. Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές