Explainable Artificial Intelligence on Wnt signaling data sets

Επεξηγήσιμη Τεχνητή Νοημοσύνη σε σύνολα δεδομένων σηματοδότησης Wnt (Ελληνική)

  1. MSc thesis
  2. ΝΙΚΟΛΑΟΣ ΔΟΥΜΠΑΣ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 17 Φεβρουαρίου 2024
  5. Αγγλικά
  6. 50
  7. Βραχάτης Αριστείδης
  8. Μονοπάτια μεταγωγής σήματος, Μηχανική μάθηση, Στατιστική ανάλυση
  9. Βιοπληροφορική και Νευροπληροφορική
  10. 64
    • Singaling pathways are vital for the development of organisms, orchestrating a plethora of

      biological processes. Only a handful of highly conserved signaling pathways are able to

      specify cell fates during development. Wnt signaling is one of those signaling pathways and

      it is known to be involved in development, tissue maintenance and homeostasis. Wnt

      signalling’s importance is underlined by its conserved presence in almost all mammalian

      organisms. Mis-regulation of Wnt signaling can result in numerous diseases, including

      cancer, thus fully understanding it is of major scientific importance. Using Crispr/Cas9, a

      “famous” gene editing technique, I genetically modified cell lines in a way that they lack

      major components of the Wnt pathway. Using the modified cell lines, Wnt signalling was

      activated and its response was monitored, utilizing RNA sequencing (RNA-seq). Here,

      machine learning combined with traditional statistical analysis methods is used, in order to

      analyze the RNA-seq data, but also to compare the robustness of machine learning versus

      traditional statistical analysis methods. Furthermore, the power of combining machine

      learning together with traditional statistical analysis, in order to make whole genome data

      analysis much easier and more insightful, will be demonstrated. In addition, enrichment

      analysis based both on machine learning and statistical analysis, is been introduced. In order

      to advance the analysis, gene expression heatmaps, biological process gene ontologies and

      molecular function gene ontologies, deriving from machine learning and statistical analysis

      methods, are presented. Finally, the two methods will be compared, but also combined to

      showcase their pros and cons in the whole genome data analysis field.

    • Τα μονοπάτια μεταγωγής σήματος είναι ζωτικής σημασίας για την ανάπτυξη των

      οργανισμών, ενορχηστρώνοντας μια πληθώρα βιολογικών διεργασιών. Μόνο μια χούφτα

      εξαιρετικά διατηρημένων μονοπατιών σήματος είναι σε θέση να καθορίσουν τη μοίρα των

      κυττάρων κατά την ανάπτυξη. Το μονοπάτι μεταγωγής σήματος Wnt, είναι ένα από αυτά

      τα μονοπάτια σηματοδότησης και είναι γνωστό ότι εμπλέκεται σε διεργασίες όπως η

      ανάπτυξη, η συντήρηση των ιστών και η ομοιόσταση. Η σημασία του μονοπατιού Wnt

      υπογραμμίζεται από τη συντηρημένη παρουσία του σε όλους σχεδόν τους θηλαστικούς

      οργανισμούς. Η λανθασμένη ρύθμιση της σηματοδότησης Wnt μπορεί να οδηγήσει σε

      πολλές ασθένειες, συμπεριλαμβανομένου του καρκίνου, επομένως η πλήρης κατανόησή

      του είναι μείζονος επιστημονικής σημασίας. Χρησιμοποιώντας Crispr/Cas9, μια

      .διάσημη. τεχνική τροποποίησης γονιδίων, τροποποίησα γενετικά κυτταρικές σειρές ώστε

      να λείπουν κύρια μέλη του μονοπατιού Wnt. Χρησιμοποιώντας τις τροποποιημένες

      κυτταρικές σειρές ενεργοποίησα τη σηματοδότηση Wnt και παρακολούθησα την απόκρισή

      της, χρησιμοποιώντας την αλληλουχία RNA (RNA-seq). Εδώ, χρησιμοποιώ τη μηχανική

      μάθηση χρησιμοποιώντας τον αλγόριθμο Random Forest αλλά και παραδοσιακή στατιστική

      ανάλυση για να αναλύσω τα δεδομένα RNA-seq, έτσι ώστε να απομονώσω τα

      σημαντικότερα γονίδια, αλλά και να συγκρίνω την ευρωστία της μηχανικής μάθησης έναντι

      των παραδοσιακών μεθόδων στατιστικής ανάλυσης. Επιπλέον, επιδεικνύω τη δύναμη του

      συνδυασμού της μηχανικής μάθησης μαζί με την παραδοσιακή στατιστική ανάλυση,

      προκειμένου να γίνει η ανάλυση δεδομένων ολόκληρου του γονιδιώματος πολύ πιο εύκολη

      και πιο διορατική. Επιπλέον, εισάγω την ανάλυση εμπλουτισμού που βασίζεται στα

      σημαντικότερα γονίδια που απομονώθηκαν τόσο από τη μηχανική μάθηση όσο και από τη

      στατιστική ανάλυση. Προκειμένου να προωθηθεί η ανάλυση, παρουσιάζω θερμικούς

      χάρτες έκφρασης γονιδίων, οντολογίες γονιδίων βιολογικών διεργασιών και οντολογίες

      γονιδίων μοριακής λειτουργίας, που προέρχονται από μεθόδους μηχανικής μάθησης και

      στατιστικής ανάλυσης. Τέλος, συγκρίνω τις δύο μεθόδους, αλλά και τις συνδυάζω, για να

      δείξω τα πλεονεκτήματα και τα μειονεκτήματά τους στην ανάλυση δεδομένων ολόκληρου

      του γονιδιώματος.

  11. Hellenic Open University
  12. Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές