Εφαρμογές της μηχανικής μάθησης στην πρόβλεψη υποτροπής καρκίνου του θυρεοειδούς

Applications of Machine Learning in Predicting Thyroid Cancer Recurrence (english)

  1. MSc thesis
  2. ΗΡΩ ΣΙΟΝΤΗ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 19 July 2025
  5. Ελληνικά
  6. 81
  7. Βραχάτης Αριστείδης
  8. Βραχάτης Αριστείδης | Δημητρακόπουλος Γεώργιος | Βλάμος Παναγιώτης
  9. Μηχανική μάθηση | Καρκίνος θυρεοειδούς | Υποτροπή | Κίνδυνος υποτροπής
  10. ΒΝΠΔΕ
  11. 75
  12. Περιλαμβάνει: Εικόνες, Σχ΄ήματα, Πίνακες
    • Εισαγωγή: Ο καρκίνος του θυρεοειδούς αποτελεί τη συχνότερη μορφή ενδοκρινικής νεοπλασίας, με υψηλά ποσοστά επιβίωσης. Ωστόσο, ενέχει κίνδυνο υποτροπής έως και 50%, γεγονός που καθιστά κρίσιμη την έγκαιρη πρόβλεψή της. Ο προσδιορισμός των παραγόντων που σχετίζονται με την υποτροπή μπορεί να ενισχύσει τη λήψη κλινικών αποφάσεων και την εξατομίκευση της παρακολούθησης.

      Σκοπός: Σκοπός της παρούσας μελέτης είναι η πρόβλεψη της υποτροπής στον DTC μέσω σύγκρισης αλγορίθμων μηχανικής μάθησης και η ανάδειξη των πιο σημαντικών κλινικών χαρακτηριστικών που συνδέονται με αυτή.

      Μέθοδοι: Χρησιμοποιήθηκε σύνολο δεδομένων 383 ασθενών με διαφοροποιημένο καρκίνο θυρεοειδούς. Αρχικά, πραγματοποιήθηκε ανάλυση της κατανομής των χαρακτηριστικών, στατιστικοί έλεγχοι (Fisher’s Exact, Wilcoxon, χ²) για τον εντοπισμό σημαντικών χαρακτηριστικών και εξερευνητική ανάλυση δεδομένων (EDA). Στη συνέχεια εφαρμόστηκαν και συγκρίθηκαν επτά αλγόριθμοι ταξινόμησης (Logistic Regression, k-Nearest Neighbors (KNN), Decision Tree, Random Forest, Support Vector Machine (SVM), Naive Bayes, Artificial Neural Network (ANN)). Η αξιολόγηση πραγματοποιήθηκε με 10-fold cross-validation, επαναλαμβανόμενη 3 φορές. Οι μετρικές απόδοσης περιλάμβαναν F1-score, Accuracy, Precision, Recall και AUC. Για την επιλογή χαρακτηριστικών χρησιμοποιήθηκαν μέθοδοι όπως RFE, Variable Importance και SHAP values.

      Αποτελέσματα: Ο αλγόριθμος Random Forest εμφάνισε την υψηλότερη συνολική ορθότητα (0.9741) και F1-score (0.9508), ενώ το ANN επίσης παρουσίασε υψηλή προβλεπτική απόδοση. Τα πιο σημαντικά χαρακτηριστικά που συσχετίστηκαν στατιστικά με την υποτροπή ήταν ο κίνδυνος υποτροπής κατά ΑΤΑ, η ανταπόκριση στην αρχική θεραπεία, τα στάδια Τ, Ν και Μ του TNM, η ηλικία, και ο παθολογοανατομικός τύπος όγκου. Αντίθετα, χαρακτηριστικά όπως η θυρεοειδική λειτουργία (TSH, T3, T4) δεν έδειξαν σημαντική συσχέτιση (p-value = 0.2724 >0.05).

      Συμπεράσματα: Η παρούσα ανάλυση δείχνει ότι η εφαρμογή μεθόδων μηχανικής μάθησης μπορεί να ενισχύσει σημαντικά την πρόβλεψη της υποτροπής στον DTC. Ο εντοπισμός σημαντικών χαρακτηριστικών μπορεί να προσφέρει κλινικά χρήσιμες ενδείξεις για στοχευμένη παρακολούθηση και εξατομικευμένες παρεμβάσεις.

    • Introduction: Thyroid cancer is the most common form of endocrine malignancy, with high survival rates. However, it carries a recurrence risk of up to 50%, making timely prediction critical. Identifying factors associated with recurrence can enhance clinical decision-making and the personalization of patient follow-up.

      Aim: This study aims to predict recurrence in differentiated thyroid cancer (DTC) by comparing various machine learning algorithms and identifying the most significant clinical factors associated with recurrence.

      Methods: A dataset of 383 patients with differentiated thyroid cancer was used. Initially, an analysis of variable distribution was performed, along with statistical tests (Fisher’s Exact, Wilcoxon, Chi-squared) to identify significant features, and exploratory data analysis (EDA) was conducted. Subsequently, seven classification algorithms were applied and compared (Logistic Regression, k-Nearest Neighbors (KNN), Decision Tree, Random Forest, Support Vector Machine (SVM), Naive Bayes, Artificial Neural Network (ANN)). Model evaluation was performed using 10-fold cross-validation repeated three times. Performance metrics included F1-score, Accuracy, Precision, Recall, and AUC. Feature selection was conducted using methods such as Recursive Feature Elimination (RFE), Variable Importance, and SHAP values.

      Results: The Random Forest algorithm demonstrated the highest overall accuracy (0.9741) and F1-score (0.9508), while the ANN model also achieved high predictive performance. The most significant features statistically associated with recurrence were the ATA risk category, response to initial treatment, TNM staging (T, N, M), age, and tumor histology. In contrast, characteristics such as thyroid function (TSH, T3, T4) showed no significant association with recurrence (p-value = 0.2724 >0.05).

      Conclusions: This analysis demonstrates that the application of machine learning methods can substantially improve recurrence prediction in DTC. Identifying key predictive features can provide clinically useful insights for targeted monitoring and personalized patient management.

  13. Hellenic Open University
  14. Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές