- MSc thesis
- Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
- 9 March 2025
- Αγγλικά
- 44
- ΧΑΡΙΔΗΜΟΣ ΚΟΝΔΥΛΑΚΗΣ
- ΧΑΡΙΔΗΜΟΣ ΚΟΝΔΥΛΑΚΗΣ | ΜΑΡΙΟΣ ΚΡΟΚΙΔΗΣ | ΘΕΜΙΣΤΟΚΛΗΣ ΕΞΑΡΧΟΣ
- Machine Learning | Interpretable Methods | Regularization Techniques | CRISPR-Cas9 | Epigenetic Factors
- Βιοπληροφορική και Νευροπληροφορική / ΒΝΠΔΕ
- 37
- Περιλαμβάνει: Πίνακες, Εικόνες, Διαγράμματα
-
-
This study explores the implementation of interpretable methods and how their insights can dynamically inform regularization applications, aiming to enhance the performance of an existing machine learning model for off-target sgRNA prediction of CRISPR-Cas9 systems. SHAP and LIME, two interpretable machine learning methods were employed. The insights extracted by the SHAP analysis were used to guide the implementation of regularization techniques, while the LIME method was employed to verify the outputs of the SHAP analysis. The study emphasized epigenetic factors to extract insights, leading to the development and evaluation of various CRISPR-M model versions. Epigenetic factors’ contributions were evaluated, identifying the least influential factor. Furthermore, the strength of regularization factors was calculated for each epigenetic features group, using their total mean contribution and correlation. The calculated regularization factors were scaled and integrated into training to estimate their impact on prediction accuracy. The epigenetic features were grouped and regularization techniques were implemented with the guidance of the interpretability analysis. The predictive performance of the models was evaluated comparatively based on evaluation metrics. The models that were trained and
compared are the following:
The initial version of CRISPR-M model that was used as the baseline model.
L2 Regularization and Masking versions of the model were used as checkpoints, to reveal the impacts of the global application of regularization techniques and the impact of the exclusion of the least important features.
Versions of the model that applied the L1 Regularization technique, with three different
values of regularization strength calculated based on SHAP analysis, applied to the least important factor’s features.
For further exploration of this technique, Group Regularization versions were developed, by applying to all four epigenetic factors’ features L1 Regularization using two different sets of values of the regularization strength that were previously calculated for each factor.
The findings of this study indicate that the influence of the epigenetic factors on CRISPR Cas9 off-target cleavage may vary, and that evaluating and adjusting their importance through regularization techniques could be beneficial and efficient. This approach could be effectively applied in other research domains and fields. -
Η παρούσα μελέτη διερευνά την εφαρμογή ερμηνεύσιμων μεθόδων και τον τρόπο με τον οποίο οι πληροφορίες που προκύπτουν από αυτές μπορούν να χρησιμοποιηθούν δυναμικά για την καθοδήγηση τεχνικών κανονικοποίησης, με στόχο τη βελτίωση της απόδοσης ενός υπάρχοντος μοντέλου μηχανικής μάθησης για την πρόβλεψη off-target sgRNA του CRISPR-Cas9. Χρησιμοποιήθηκαν οι ερμηνεύσιμες μέθοδοι μηχανικής μάθησης SHAP και LIME. Οι πληροφορίες που προέκυψαν από την ανάλυση SHAP χρησιμοποιήθηκαν για την καθοδήγηση της εφαρμογής τεχνικών κανονικοποίησης, ενώ η μέθοδος LIME χρησιμοποιήθηκε για την επαλήθευση των αποτελεσμάτων της ανάλυσης SHAP. Η μελέτη επικεντρώθηκε στους επιγενετικούς παράγοντες για την εξαγωγή πληροφοριών, οδηγώντας στην ανάπτυξη και αξιολόγηση διαφόρων εκδόσεων του μοντέλου CRISPRM. Αξιολογήθηκε η συμβολή των επιγενετικών παραγόντων, με στόχο την ταυτοποίηση του λιγότερο σημαντικού παράγοντα. Επιπλέον, υπολογίστηκε η ένταση των παραγόντων κανονικοποίησης για κάθε ομάδα επιγενετικών χαρακτηριστικών, λαμβάνοντας υπόψη τη συνολική μέση συνεισφορά και τη συσχέτισή τους. Οι παράγοντες κανονικοποίησης που υπολογίστηκαν κλιμακώθηκαν και ενσωματώθηκαν στην εκπαίδευση του μοντέλου, προκειμένου να εκτιμηθεί η επίδρασή τους στην ακρίβεια των προβλέψεων. Τα επιγενετικά χαρακτηριστικά ομαδοποιήθηκαν και εφαρμόστηκαν τεχνικές κανονικοποίησης υπό την καθοδήγηση της ανάλυσης ερμηνευσιμότητας. Η προγνωστική απόδοση των μοντέλων αξιολογήθηκε συγκριτικά, βάσει μετρικών αξιολόγησης. Τα μοντέλα εκπαιδεύτηκαν και συγκρίθηκαν ως εξής:
Το αρχικό μοντέλο CRISPR-M χρησιμοποιήθηκε ως βασικό μοντέλο αναφοράς. Οι εκδόσεις L2 Regularization και Masking χρησιμοποιήθηκαν ως σημεία ελέγχου,
προκειμένου να διερευνηθούν οι επιπτώσεις της καθολικής εφαρμογής κανονικοποίησης και της εξαίρεσης των λιγότερο σημαντικών χαρακτηριστικών. Εκδόσεις του μοντέλου στις οποίες εφαρμόστηκε η τεχνική L1 Regularization, με τρεις διαφορετικές τιμές έντασης κανονικοποίησης, που υπολογίστηκαν βάσει της ανάλυσης SHAP, και εφαρμόστηκαν στα χαρακτηριστικά του λιγότερο σημαντικού παράγοντα. Για περαιτέρω διερεύνηση αυτής της τεχνικής, αναπτύχθηκαν εκδόσεις Group Regularization, όπου εφαρμόστηκε L1 Regularization σε όλα τα χαρακτηριστικά των τεσσάρων επιγενετικών παραγόντων, χρησιμοποιώντας δύο διαφορετικά σύνολα τιμών έντασης κανονικοποίησης, που είχαν προηγουμένως υπολογιστεί για κάθε παράγοντα. Τα αποτελέσματα της μελέτης δείχνουν ότι η επίδραση των επιγενετικών παραγόντων στα off-target τομές του CRISPR-Cas9 μπορεί να διαφέρει. Η αξιολόγηση και ρύθμιση της σημασίας τους μέσω τεχνικών κανονικοποίησης θα μπορούσε να είναι επωφελής και
αποδοτική. Η προσέγγιση αυτή μπορεί να διερευνηθεί περαιτέρω και να εφαρμοστεί
αποτελεσματικά και σε άλλους τομείς έρευνας και επιστημονικά πεδία.
-
- Hellenic Open University
- Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές
ENHANCING AN EXISTING MACHINE LEARNING MODEL FOR OFFTARGET SGRNA PREDICTIONS USING INTERPRETABLE METHODS WITH AN EMPHASIS ON EPIGENETIC FACTORS
ΒΕΛΤΙΩΣΗ ΕΝΟΣ ΥΠΑΡΧΟΝΤΟΣ ΜΟΝΤΕΛΟΥ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗΝ ΠΡΟΒΛΕΨΗ OFF-TARGET SGRNA, ΜΕΣΩ ΕΡΜΗΝΕΥΣΙΜΩΝ ΜΕΘΟΔΩΝ ΜΕ ΈΜΦΑΣΗ ΣΤΟΥΣ ΕΠΙΓΕΝΕΤΙΚΟΥΣ ΠΑΡΑΓΟΝΤΕΣ (greek)
Main Files
- ENHANCING AN EXISTING MACHINE LEARNING MODEL FOR OFFTARGET SGRNA PREDICTIONS USING INTERPRETABLE METHODS WITH AN EMPHASIS ON EPIGENETIC FACTORS
Description: Tentsidou.pdf (pdf) Book Reader
Size: 1.6 MB