Εφαρμογή αυτοκωδικοποιητή για την εξαγωγή χαρακτηριστικών από σύνολα δεδομένων γονιδιακών εκφράσεων σχετικά με τον καρκίνο

Application of autoencoder to feature extraction from gene expression data relevant to cancer (Αγγλική)

  1. MSc thesis
  2. ΜΠΟΥΓΙΟΥΚΑΣ, ΓΕΩΡΓΙΟΣ ΣΤΥΛΙΑΝΟΣ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 26 Φεβρουαρίου 2022 [2022-02-26]
  5. Ελληνικά
  6. 86
  7. ΚΟΝΔΥΛΑΚΗΣ, ΧΑΡΙΔΗΜΟΣ
  8. ΝΙΚΟΛΑΟΥ, ΧΡΙΣΤΟΦΟΡΟΣ | ΧΑΤΖΗΝΙΚΟΛΑΟΥ, ΜΑΡΙΑ
  9. Αυτοκωδικοποιητής | Βαθιά Μάθηση | Γονιδιακή Έκφραση | Καρκίνος του Στήθους | Λευχαιμία | Μηχανική Μάθηση
  10. 1
  11. 2
  12. 20
  13. Περιέχει: πίνακες, διαγράμματα και εικόνες.
  14. Λύκας, Α. (2008). Τεχνητά Νευρωνικά Δίκτυα – Εφαρμογές (Τόμος Β'). Πάτρα: ΕΑΠ.
    • O “αυτοκωδικοποιητής” είναι μοντέλο Βαθιάς Μάθησης το οποίο, μεταξύ άλλων, βρίσκει εφαρμογή στην “εξαγωγή χαρακτηριστικών”. Tα εξαγόμενα χαρακτηριστικά είναι δυνατόν να συνιστούν έναν μη γραμμικό μετασχηματισμό των χαρακτηριστικών της εισόδου. Δεδομένου ότι ο καρκίνος είναι μια πολύπλοκη ασθένεια και οι πολύπλοκες ασθένειες διέπονται από μη γραμμικές σχέσεις, ένα μη γραμμικό μοντέλο είναι πιθανό να συλλαμβάνει σχέσεις οι οποίες διαφεύγουν από τα γραμμικά μοντέλα. Στην παρούσα εργασία, εφαρμόζονται δύο μοντέλα αυτοκωδικοποιητή σε δύο περιπτώσεις μελέτης αντίστοιχα, οι οποίες αξιοποιούν τρία σύνολα δεδομένων γονιδιακών εκφράσεων σχετικά με την ασθένεια του καρκίνου από το δημόσιο αποθετήριο GEO (Gene Expression Omnibus), για την εξαγωγή ενός σχετικά μικρού πλήθους χαρακτηριστικών (μέχρι είκοσι). Αφού τα μοντέλα εκπαιδευτούν, αποσπάται το τμήμα του κωδικοποιητή και μικρορυθμίζεται με την προσάρτηση πρόσθετων επιπέδων για κατηγοριοποίηση. Η ικανότητα γενίκευσης του σύνθετου μοντέλου κατηγοριοποίησης ελέγχεται με στρωματοποιημένη διασταυρωμένη επικύρωση (cross-validation) πέντε αναδιπλώσεων. Στην περίπτωση της κατηγοριοποίησης παραδειγμάτων με καρκίνο του στήθους και περιπτώσεων χωρίς καρκίνο του στήθους επιτυγχάνεται ακρίβεια (accuracy) 98.17%. Στην άλλη περίπτωση, της κατηγοριοποίησης διαφόρων ειδών λευχαιμίας, μυελοδυσπλαστικού συνδρόμου και μη-λευχαιμικών περιπτώσεων επιτυγχάνεται ακρίβεια (accuracy) 86.31% με αρκετά υψηλά μέτρα F1 (έως 99.2%) για συγκεκριμένες κατηγορίες, όπως η χρόνια λεμφοκυτταρική λευχαιμία (CLL). Σε καθεμία από τις παραπάνω περιπτώσεις, τα αποτελέσματα συγκρίνονται με τα αντίστοιχα αποτελέσματα της διασταυρωμένης επικύρωσης της κατηγοριοποίησης με ενισχυτή κλίσης (gradient booster), η οποία επιτυγχάνεται μετά από εφαρμογή άλλων μεθόδων εξαγωγής χαρακτηριστικών, τόσο γραμμικών όσο και μη γραμμικών. Η εξαγωγή χαρακτηριστικών με την χρήση αυτοκωδικοποιητή με μικρορύθμιση πετυχαίνει το μεγαλύτερο σκορ και στις δύο περιπτώσεις μελέτης. Για την επεξεργασία των δεδομένων, την κατασκευή των μοντέλων και την εφαρμογή τους αναπτύχθηκε κώδικας αντικειμενοστρεφούς προσέγγισης στην γλώσσα προγραμματισμού Python, ο οποίος είναι διαθέσιμος στο σχετικό παράρτημα.
    • The “autoencoder” is a Deep Learning model which, among other things, is applicable to “feature extraction”. The extracted features can constitute a non-linear transformation of the input features. Given that cancer is a complex disease and complex diseases are characterized by non-linear relations, a non-linear model can grasp relations that evade linear models. In the present study, two autoencoder models are applied to two case studies respectively, which make use of three gene expression data series relevant to cancer from the public repository of GEO (Gene Expression Omnibus), in order to extract a relatively small number of features (up to twenty). After models training, the encoder part is extracted and stacked together with additional classification layers for fine-tuning. The generalization ability of the composite model is evaluated using stratified 5-fold cross-validation. Regarding the case study of classification of breast cancer and non-breast cancer examples, the cross-validation accuracy reached was 98.17%. Regarding the case study of classification of sixteen types of leukemia, myelodsyplastic syndrome and non-leukemia examples the accuracy reached was 86.31%, accompanied by a relatively high F1 measure (up to 99.2%) for certain leukemia types, such as Chronic Lymphocytic Leukemia (CLL). In each case, the results are compared with the respective ones obtained from the cross-validation evaluation of a “gradient booster” classification model on the basis of other methods of feature extraction, linear and non-linear. Feature extraction using the fine-tuned autoencoder models achieved the best score in both cases. The data proccessing, the model construction and the model application have been developed in Python programming language in an object-oriented approach available in appendix.
  15. Αναφορά Δημιουργού 4.0 Διεθνές