Gene network summarization

Σύνοψη δικτύου γονιδίων (Ελληνική)

  1. MSc thesis
  2. ΔΗΜΗΤΡΑ ΚΩΝΣΤΑΝΤΙΝΙΔΟΥ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 19 Φεβρουαρίου 2023
  5. Αγγλικά
  6. 95
  7. ΚΟΥΜΑΚΗΣ, ΕΛΕΥΘΕΡΙΟΣ
  8. ΚΟΥΜΑΚΗΣ, ΕΛΕΥΘΕΡΙΟΣ | ΚΟΝΔΥΛΑΚΗΣ, ΧΑΡΙΔΗΜΟΣ | ΠΑΝΑΓΙΩΤΗΣ ΒΛΑΜΟΣ | ΒΡΑΧΑΤΗΣ, ΑΡΙΣΤΕΙΔΗΣ
  9. KEGG pathways, Centrality measures, Graph summary, Topological Data Analysis (TDA) Mapper algorithm, Random Forests, Graph Convolutional Networks
  10. Μεταπτυχιακή Διπλωματική Εργασία
  11. 2
  12. 47
  13. Περιέχει: εικόνες, κώδικα
    • Since biological networks tend to be large, efficient computational approaches to summarize and simplify them are crucial for gaining insights into diseases like cancer. In this dissertation, we present a summarization method for gene networks that is based on the Mapper algorithm from Topological Data Analysis. Starting from the human calcium signaling KEGG pathway, all embedded pathways are expanded and merged to form a gene network. A number of features is attached to each node/gene in the network including topological features (centrality measures) and biological features. We generate a graph summary by leveraging the TDA Mapper algorithm using two different lens/filter functions: a Random Forest classifier and a GCN classifier. Moreover, we incorporate into the summaries information from the Cancer Gene Census list provided by the Sanger Institute. The resulting summaries improve the understanding of the structure of the underlying network and can also prove to be useful in the refinement of classification algorithms. However, the difficulty associated with selecting the optimal parameters for the Mapper algorithm and the lack of a standardized method for evaluating its output hinder the use of the generated graph summaries for exploratory data analysis.

    • Τα βιολογικά δίκτυα χαρακτηρίζονται κατά κανόνα από μεγάλο αριθμό κόμβων/γονιδίων καθώς και συνδέσεων μεταξύ των κόμβων αυτών. Σαν αποτέλεσμα καθίσταται επιτακτική η ανάγκη για αποτελεσματικές υπολογιστικές προσεγγίσεις που συντελούν στη σύνοψη και την απλοποίησή τους με απώτερο σκοπό την κατανόηση μηχανισμών που εμπλέκονται σε ασθένειες όπως για παράδειγμα ο καρκίνος. Στην παρούσα εργασία, παρουσιάζουμε μια μέθοδο σύνοψης δικτύων γονιδίων η οποία είναι βασισμένη στον αλγόριθμο τοπολογικής ανάλυσης δεδομένων Mapper. Πιο αναλυτικά, με αφετηρία το ανθρώπινο βιολογικό μονοπάτι σηματοδότησης ασβεστίου που είναι διαθέσιμο στη βάση δεδομένων KEGG, αναλύουμε και συγχωνεύουμε όλα τα ενσωματωμένα σε αυτό μονοπάτια ώστε να δημιουργηθεί ένα δικτύο γονιδίων. Στη συνέχεια, συσχετίζουμε κάθε κόμβο/γονίδιο του δικτύου με ένα σύνολο χαρακτηριστικών γνωρισμάτων που συμπεριλαμβάνει τόσο τοπολογικά χαρακτηριστικά όπως μέτρα κεντρικότητας όσο και βιολογικά χαρακτηριστικά. Με τη βοήθεια του αλγορίθμου Mapper δημιουργούμε συνόψεις του δικτύου γονιδίων (graph summaries) χρησιμοποιώντας ως φίλτρα (filter functions) δύο διαφορετικές συναρτήσεις ταξινόμησης: Random Forest και GCN. Επιπρόσθετα, ενσωματώνουμε στις συνόψεις αυτές πληροφορία αναφορικά με το κατά πόσο κάθε γονίδιο(κόμβος) ανήκει στη λίστα γονιδίων Cancer Gene Census η οποία διατίθεται από το Ινστιτούτο Sanger. Σε γενικές γραμμές, οι παραγόμενες συνόψεις υποβοηθούν την κατανόηση της δομής του υποκείμενου δικτύου, ενώ μπορούν να αποβούν χρήσιμες και κατά την παραμετροποίηση των αλγορίθμων ταξινόμησης με στόχο τη βελτιστοποίηση της απόδοσής τους. Παρόλα αυτά, η δυσκολία που συνδέεται με την επιλογή των βέλτιστων παραμέτρων για τον αλγόριθμο Mapper και η έλλειψη μιας τυποποιημένης μεθόδου για την αξιολόγηση των αποτελεσμάτων του, δυσχεραίνουν την χρησιμοποίηση των συνόψεων κατά τη διερευνητική ανάλυση δεδομένων.

  14. Hellenic Open University
  15. Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές