Please use this identifier to cite or link to this item: https://apothesis.eap.gr/handle/repo/54953
Title: Εφαρμογή αυτοκωδικοποιητή για την εξαγωγή χαρακτηριστικών από σύνολα δεδομένων γονιδιακών εκφράσεων σχετικά με τον καρκίνο
Authors: ΜΠΟΥΓΙΟΥΚΑΣ, ΓΕΩΡΓΙΟΣ ΣΤΥΛΙΑΝΟΣ
metadata.dc.contributor.advisor: ΚΟΝΔΥΛΑΚΗΣ, ΧΑΡΙΔΗΜΟΣ
Keywords: Αυτοκωδικοποιητής;Βαθιά Μάθηση;Γονιδιακή Έκφραση;Καρκίνος του Στήθους;Λευχαιμία;Μηχανική Μάθηση
Issue Date: 26-Feb-2022
Abstract: O “αυτοκωδικοποιητής” είναι μοντέλο Βαθιάς Μάθησης το οποίο, μεταξύ άλλων, βρίσκει εφαρμογή στην “εξαγωγή χαρακτηριστικών”. Tα εξαγόμενα χαρακτηριστικά είναι δυνατόν να συνιστούν έναν μη γραμμικό μετασχηματισμό των χαρακτηριστικών της εισόδου. Δεδομένου ότι ο καρκίνος είναι μια πολύπλοκη ασθένεια και οι πολύπλοκες ασθένειες διέπονται από μη γραμμικές σχέσεις, ένα μη γραμμικό μοντέλο είναι πιθανό να συλλαμβάνει σχέσεις οι οποίες διαφεύγουν από τα γραμμικά μοντέλα. Στην παρούσα εργασία, εφαρμόζονται δύο μοντέλα αυτοκωδικοποιητή σε δύο περιπτώσεις μελέτης αντίστοιχα, οι οποίες αξιοποιούν τρία σύνολα δεδομένων γονιδιακών εκφράσεων σχετικά με την ασθένεια του καρκίνου από το δημόσιο αποθετήριο GEO (Gene Expression Omnibus), για την εξαγωγή ενός σχετικά μικρού πλήθους χαρακτηριστικών (μέχρι είκοσι). Αφού τα μοντέλα εκπαιδευτούν, αποσπάται το τμήμα του κωδικοποιητή και μικρορυθμίζεται με την προσάρτηση πρόσθετων επιπέδων για κατηγοριοποίηση. Η ικανότητα γενίκευσης του σύνθετου μοντέλου κατηγοριοποίησης ελέγχεται με στρωματοποιημένη διασταυρωμένη επικύρωση (cross-validation) πέντε αναδιπλώσεων. Στην περίπτωση της κατηγοριοποίησης παραδειγμάτων με καρκίνο του στήθους και περιπτώσεων χωρίς καρκίνο του στήθους επιτυγχάνεται ακρίβεια (accuracy) 98.17%. Στην άλλη περίπτωση, της κατηγοριοποίησης διαφόρων ειδών λευχαιμίας, μυελοδυσπλαστικού συνδρόμου και μη-λευχαιμικών περιπτώσεων επιτυγχάνεται ακρίβεια (accuracy) 86.31% με αρκετά υψηλά μέτρα F1 (έως 99.2%) για συγκεκριμένες κατηγορίες, όπως η χρόνια λεμφοκυτταρική λευχαιμία (CLL). Σε καθεμία από τις παραπάνω περιπτώσεις, τα αποτελέσματα συγκρίνονται με τα αντίστοιχα αποτελέσματα της διασταυρωμένης επικύρωσης της κατηγοριοποίησης με ενισχυτή κλίσης (gradient booster), η οποία επιτυγχάνεται μετά από εφαρμογή άλλων μεθόδων εξαγωγής χαρακτηριστικών, τόσο γραμμικών όσο και μη γραμμικών. Η εξαγωγή χαρακτηριστικών με την χρήση αυτοκωδικοποιητή με μικρορύθμιση πετυχαίνει το μεγαλύτερο σκορ και στις δύο περιπτώσεις μελέτης. Για την επεξεργασία των δεδομένων, την κατασκευή των μοντέλων και την εφαρμογή τους αναπτύχθηκε κώδικας αντικειμενοστρεφούς προσέγγισης στην γλώσσα προγραμματισμού Python, ο οποίος είναι διαθέσιμος στο σχετικό παράρτημα.
Supervisor: Αναφορά Δημιουργού 4.0 Διεθνές
Appears in Collections:ΒΝΠ Διπλωματικές Εργασίες

Files in This Item:
File Description SizeFormat 
507574_BOUGIOUKAS_GEORGIOS_STYLIANOS.pdfΣύνοψη διπλωματικής εργασίας215.12 kBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons