Ανάλυση ελεύθερων δεδομένων γονιδιακής έκφρασης από πειράματα RNA Sequencing και DNA microarrays με ποιοτική σύγκριση αποτελεσμάτων

Analysis of free gene expression data from RNA Sequencing and DNA microarrays with qualitative comparison of results (english)

  1. MSc thesis
  2. ΒΑΣΙΛΗΣ ΚΑΡΑΚΟΥΜΗΣ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 22 July 2023
  5. Ελληνικά
  6. 73
  7. ΚΟΥΜΑΚΗΣ, ΕΛΕΥΘΕΡΙΟΣ
  8. ΚΟΥΜΑΚΗΣ, ΕΛΕΥΘΕΡΙΟΣ | ΚΟΝΔΥΛΑΚΗΣ, ΧΑΡΙΔΗΜΟΣ | ΧΑΤΖΗΝΙΚΟΛΑΟΥ, ΜΑΡΙΑ
  9. Μικροσυστοιχίες DNA, RNA sequencing, γονιδιακή έκφραση, μηχανική μάθηση, καρκίνος του μαστού
  10. Μεταπτυχιακή Διπλωματική Εργασία
  11. 2
  12. 28
    • Oι μικροσυστοιχίες DNA και η αλληλούχιση RNA (RNA-Seq) είναι οι δυο βασικές τεχνολογίες της μεταγραφομικής. Η RNA-Seq παρέχοντας πολύ μεγαλύτερη κάλυψη καθώς και μεγαλύτερη ανάλυση της δυναμικής φύσης του μεταγραφώματος αρχίζει τα τελευταία χρόνια να υπερτερεί απέναντι στις μικροσυστοιχίες DNA, χωρίς να σημαίνει αυτό ότι οι τελευταίες θεωρούνται παρωχημένες. Η μετάβαση μεταξύ των τεχνολογιών  δημιουργεί το ερώτημα κατά πόσο τα αποτελέσματα από μελέτη δειγμάτων των δυο τεχνολογιών συνάδουν. Στην παρούσα εργασία διατηρώντας το μέγιστο δυνατό σταθερές τις όποιες άλλες παραμέτρους μελετήθηκαν κοινά δείγματα από μικροσυστοιχίες DNA και RNA-Seq από ασθενείς δυο ασθενειών θέλοντας να ελέγξουμε το κατά πόσο τα αποτελέσματα είναι όμοια. Πραγματοποιήθηκε στατιστική ανάλυση εκτελώντας  τον πιο διαδεδομένο τρόπο  ελέγχου που είναι το Student’s t-test σε περίπτωση σύγκρισης δυο δειγμάτων, ενώ σε περιπτώσεις σύγκρισης περισσοτέρων από δυο δειγμάτων έγινε ανάλυση διακύμανσης (Analysis of Variance,ANOVA). Οι παραπάνω στατιστικοί έλεγχοι μαζί με το Fold Change ορίσαν τα κατώφλια ώστε τα γονίδια να θεωρηθούν στατιστικά σημαντικά. Επίσης, έγινε κατηγοριοποίηση των δεδομένων με αλγορίθμους της μηχανικής μάθησης , καθώς και αναζήτηση σημαντικών γονιδίων μέσω του αλγόριθμου μηχανικής μάθησης Boruta ώστε να συγκριθούν τα αποτελέσματα με αυτά της στατιστικής ανάλυσης. Αρκετά γραφήματα δημιουργήθηκαν κατά την διάρκεια εκτέλεσης του πειράματος όπως θηκογράμματα για μια πρώτη αξιολόγηση των δεδομένων, καθώς και διαγράμματα Volcano, Heatmaps και διαγράμματα Venn για την καλύτερη αποτύπωση των αποτελεσμάτων. Στις δυο περιπτώσεις ασθενειών η μελέτη επέστρεψε ικανοποιητικό πλήθος κοινών γονιδίων  από τις δυο τεχνολογίες. Ακόμα οι αλγόριθμοι μηχανικής μάθησης για την κατηγοριοποίηση των δεδομένων λειτουργήσαν πολύ καλά και συνεπώς προκύπτει το συμπέρασμα ότι ο ταξινομητής είναι αξιόπιστος και ικανός να κατηγοριοποιήσει  σωστά τα δείγματα. Περαιτέρω ανάλυση των λειτουργιών των γονίδιων που χαρακτηρίστηκαν ως σημαντικά και   υπέρ εκφρασμένα απαιτείται ώστε να αποσαφηνιστεί ο ρόλος και η σημαντικότητα τους.

    • DNA microarrays and RNA sequencing (RNA-Seq) are the two main technologies of transcriptomics. RNA-Seq, providing much greater coverage as well as greater resolution of the dynamic nature of the transcriptome, has in recent years begun to outperform DNA microarrays, but this does not mean that the latter are considered obsolete. The transition between the technologies raises the question of whether the results from sample studies of the two technologies are consistent. In this work, keeping any other parameters as constant as possible, we studied common DNA microarray and RNA-Seq samples from patients with two diseases, wanting to test whether the results are similar. Statistical analysis was performed by performing the most widely used test which is Student's t-test in case of comparison of two samples, while in case of comparison of more than two samples, Analysis of Variance (ANOVA) was performed. The above statistical tests along with Fold Change set the thresholds for the genes to be considered statistically significant. Also, data categorization was done using machine learning algorithms , and search for significant genes using Boruta machine learning algorithm to compare the results with those of statistical analysis. Several graphs were created during the execution of the experiment such as boxplots diagrams for a first evaluation of the data, as well as Volcano diagrams, Heatmaps and Venn diagrams to better capture the results. In both disease cases the study returned a satisfactory number of common genes from both technologies. Still the machine learning algorithms for categorizing the data worked very well and therefore it is concluded that the classifier is reliable and able to categorize the samples correctly. Further analysis of the functions of the genes identified as important and overexpressed is required to clarify their role and importance.

  13. Hellenic Open University
  14. Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές