- MSc thesis
- Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
- 22 Ιουλίου 2023
- Ελληνικά
- 131
- ΚΟΥΜΑΚΗΣ, ΕΛΕΥΘΕΡΙΟΣ
- Κουμάκης, Ελευθέριος | Δημητρακόπουλος Γεώργιος | Βλαμος, Παναγιώτης
- Μηχανική Μάθηση, Μεταγραφωματική, Επιγενωμική, Πολυομικά δεδομένα, TCGA
- ΒΝΠΔΕ
- 1
- 3
- 240
-
-
Ο καρκίνος του προστάτη, για τους άντρες, έχει τη μεγαλύτερη πιθανότητα κακοήθειας και είναι μια από τις κύριες αιτίες θανάτου. Στις περισσότερες περιπτώσεις τείνει να αναπτύσσεται αργά, είναι μικρού μεγέθους, έχει χαμηλό ρίσκο και περιορισμένη επιθετικότητα. Ειδικά αν περιοριστεί στον προστάτη είναι δυνητικά ιάσιμος. Στην σύγχρονη εποχή έχουν γίνει προσπάθειες για τον καθορισμό αλλαγών σε μοριακό επίπεδο που διέπουν την εμφάνιση και την εξέλιξη του καρκίνου.
Οι νέες τεχνολογίες που έχουν εισαχθεί στις βιοεπιστήμες παράγουν δεδομένα σε εξαιρετικά μεγάλο ρυθμό και όγκο. Η απόκτηση πολύτιμης γνώσης από κάθε επιμέρους κατηγορία ωμικών δεδομένων, όπως transcriptomics, epigenomics, metabolomics και proteomics, είναι μια πρόκληση της βιοπληροφορικής. Χρησιμοποιώντας τους υπολογιστές και τη στατιστική ως βασικά εργαλεία καθιστάτε δυνατή η εξαγωγή συμπερασμάτων μέσω της επεξεργασίας δεδομένων με απώτερο σκοπό την ανάπτυξη θεραπευτικών και προγνωστικών στρατηγικών στην αντιμετώπιση σοβαρών ασθενειών. Με την εφαρμογή αλγορίθμων μηχανικής μάθησης γίνεται αξιολόγηση του προβλεπτικού μοντέλου για τη σωστή ταξινόμηση δειγμάτων περιπτώσεων και ελέγχου.
Η πολυπλοκότητα των μοριακών διεργασιών στα βιολογικά συστήματα δυσκολεύει την εξαγωγή ασφαλών αποφάσεων από ένα είδος μοριακής ανάλυσης επομένως η γενίκευση των συμπερασμάτων από την βιοπληροφορική ανάλυση ενός μόνου είδους ομικών δεδομένων είναι στις περισσότερες περιπτώσεις ανέφικτη. Επόμενο βήμα είναι η ενσωμάτωση των διαφορετικών ειδών δεδομένων σε πολυομικά σύνολα με αρχική ιδέα ότι μπορεί να προσφέρει μια πιο πλήρη και ολοκληρωμένη εικόνα. Είναι αναμενόμενο να υπάρχουν αρκετά προβλήματα σε αυτή τη διαδικασία. Η ετερογένεια των πολυομικών δεδομένων διαφορετικής προέλευσης μπορεί να προκαλέσει θόρυβο και η κατάρα της διαστατικότητας είναι μερικά από αυτά.
Έχουν προταθεί πολλές μέθοδοι ενσωμάτωσης πολυομικών δεδομένων που αντιμετωπίζουν σε μεγάλο βαθμό τις προκλήσεις που προκύπτουν. Στην παρούσα εργασία αναλύσαμε ελεύθερα εναρμονισμένα transcriptomics (mRNA-Seq, miRNA-Seq) και epigenomics (methylation beta values) δεδομένα από το πρόγραμμα TCGA-PRAD του NIH (National Cancer Institute). Με τη χρήση στατιστικών μεθόδων (κανονικοποίηση, Tsne, t-test, FDR) εξήγαμε τις γονιδιακές υπογραφές για κάθε μεμονωμένο είδος μοριακής ανάλυση και αξιολογήσαμε την ακρίβεια της ταξινόμησης των δειγμάτων μέσω μοντέλων μηχανικής μάθησης. Στη συνέχεια ενσωματώσαμε τα δεδομένα σε ένα πολυομικό σύνολο και ακολουθώντας την ίδια μεθοδολογία εξετάσαμε τη πιθανή βελτίωση των προβλεπτικών μοντέλων.
-
Prostate cancer, for men, has the highest chance of malignancy and is one of the leading causes of death. In most cases it tends to grow slowly, is small in size, has low risk and limited aggressiveness. Especially if confined to the prostate it is potentially curable. In modern times, there have been several attempts to define changes at the level of the molecule that control the onset and progression of cancer.
New technologies that have been introduced in the life sciences are generating data at an extremely high rate and volume. Acquiring valuable knowledge from each individual omics data category, such as transcriptomics, epigenomics, metabolomics and proteomics, is a challenge of bioinformatics. Using computers and in statistics as key tools, it is possible to process the data and draw conclusions with the ultimate goal of developing therapeutic and prognostic strategies in the treatment of serious diseases. By applying machine learning algorithms, the predictive model is evaluated to correctly classify case and control samples.
The complexity of molecular processes in biological systems makes it difficult to make confident decisions from one type of molecular analysis therefore generalization of conclusions from bioinformatics analysis of a single type of omics data is in most cases impractical. The next step is to integrate the different kinds of data into polymorphic datasets with the initial idea that it can provide a completer and more comprehensive picture. It is expected that there are several problems in this process. The heterogeneity of multi-modal data of different origins can cause noise and the curse of dimensionality are some of them.Many methods have been proposed to integrate multiomics data that largely address the challenges that arise. In this paper, we analysed freely harmonized transcriptomics (mRNA-Seq, miRNA-Seq) and epigenomics (methylation beta values) data from the NIH (National Cancer Institute) TCGA-PRAD program. Using statistical methods (normalization, Tsne, t-test, FDR) we extracted gene signatures for each individual molecular analysis species and evaluated the accuracy of sample classification using machine learning models. We then integrated the data into a polymorphic dataset and followed the same methodology to examine the potential improvement of the predictive models.
-
- Hellenic Open University
- Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές