Συγκριτική ανάλυση αλγορίθμων μηχανικής μάθησης και βαθιάς μάθησης σε προβλήματα εκφράσεων γονιδίων

Comparative analysis of machine learning and deep learning algorithms in gene expression problems (Αγγλική)

  1. MSc thesis
  2. ΙΣΙΔΩΡΟΣ ΑΒΔΕΛΙΩΔΗΣ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 19 Φεβρουαρίου 2024
  5. Ελληνικά
  6. 72
  7. Αμανατίδης Δημήτριος
  8. Αμανατίδης Δημήτριος | Κονδυλάκης Χαρίδημος | Βλάμος Παναγιώτης
  9. Machine Learning | Deep Learning | Omics | Transcriptomics | RNA Sequencing και Αλληλούχιση RNA | TCGA | pytorch | scikit-learn | TCGABiolinks | SMOTE
  10. Αλγόριθμοι στη Μοριακή Βιολογία και στη Δομική Βιοπληροφορική BNP54
  11. 1
  12. 3
  13. 94
  14. Περιλαμβάνει: πίνακες, εικόνες.
    • Τις τελευταίες δεκαετίες η μηχανική μάθηση, ως μέρος της τεχνητής νοημοσύνης,  χρησιμοποιείται όλο και περισσότερο σε διάφορους τομείς της καθημερινότητάς μας και αποτελεί ένα χρήσιμο εργαλείο που δίνει λύσεις σε πλήθος προβλημάτων. Η παραδοσιακή όμως μηχανική μάθηση έχει τα όριά της, μετά τα οποία παραμένει στάσιμη. Λύση σε αυτό δίνει η βαθιά μάθηση, που αποτελεί υποσύνολο της μηχανικής και τα τελευταία χρόνια βρίσκει πληθώρα εφαρμογών σε προβλήματα που η πρώτη δε μπορεί να αποδώσει. Αυτό οφείλεται στο ότι η βαθιά μάθηση γίνεται πιο αποτελεσματική με το μεγαλύτερο πλήθος δεδομένων, γεγονός που συνάδει με το ότι στις μέρες μας υπάρχει (και συνεχίζει να δημιουργείται καθημερινά) ένας τεράστιος όγκος δεδομένων. Σε συμφωνία με αυτό έρχεται και ο τομέας της βιολογίας, που από το 2003, όταν και ολοκληρώθηκε το human genome project, οι ερευνητές έχουν την δυνατότητα να εντοπίζουν τις πιο μικρές αλλαγές στο γονιδίωμα. Αυτό σε συνδυασμό με τη γνώση ότι πολλές και σοβαρές ασθένειες, όπως ο καρκίνος, συνδέονται με την αλληλεπίδραση γονιδίων οδήγησε αναπόφευκτα στην εφαρμογή μοντέλων μηχανικής και βαθιάς μάθησης σε δεδομένα εκφράσεων γονιδίων.

      Στη παρούσα εργασία λοιπόν, και με γνώμονα τη θεραπεία του καρκίνου,  πραγματοποιείται σύγκριση ανάμεσα σε αλγορίθμους μηχανικής μάθησης (KNN, SVM, Decision Tree, Random Forest) και τεχνητά νευρωνικά δίκτυα βαθιάς μάθησης πάνω σε δεδομένα εκφράσεων γονιδίων (μεταγραφομική), που σχετίζονται με έναν αριθμό από διαφορετικά είδη κακοήθειας, για το ποια από τις δύο κατηγορίες μάθησης δίνει τα καλύτερα αποτελέσματα. Συγκρίσεις έγιναν τόσο πάνω στην ταξινόμηση ασθενείς – υγιείς, όσο και στην διάκριση ανάμεσα σε διαφορετικούς καρκίνους στο ίδιο όργανο (παχύ έντερο, οισοφάγος-στομάχι, πνεύμονες και νεφρός).  Παρόλο που δεν υπήρξε ξεκάθαρη πρωτιά, αναδείχθηκαν ο αλγόριθμος SVM για τα πολύ καλά του αποτελέσματα, ο αλγόριθμος SMOTE για τον βοηθητικό του χαρακτήρα σε περιπτώσεις ανισοβαρών δεδομένων και τα νευρωνικά δίκτυα, που κατάφεραν να δώσουν λύσεις σε κάποιες περιπτώσεις δεδομένων που οι παραδοσιακοί αλγόριθμοι υστερούσαν.

    • In the last decades machine learning, as part of artificial intelligence, is used more and more in various areas of our daily life and is a useful tool that provides solutions to a multitude of problems. Τraditional machine learning though has its limits, after which it stagnates. A solution to this is deep learning, which is a subset of machine learning, and in recent years has found many applications in problems that machine learning faces difficulties. This is because deep learning becomes more efficient with larger amounts of data, which is consistent with the fact that nowadays there is a huge amount of it. The field of biology is no different. After 2003 when the human genome project was completed researchers have the ability to detect the smallest changes in the genome. This combined with the knowledge that many dangerous diseases, such as cancer, are linked to gene interaction inevitably led to the use of machine and deep learning models on gene expression data.

      Therefore with a view to cancer’s treatment, in this master thesis a comparison is made between machine learning algorithms (KNN, SVM, Decision Tree, Random Forest) and deep learning’s artificial neural networks on gene expression data (transcriptomics), associated with a number of different types of malignancy, about which of the two categories gives the best results. Comparisons were made both on the healthy-non healthy classification and on the classification between different cancers in the same organ (colon-rectum, esophagus-stomach, lungs and kidney). Although there was no clear winner, three things are pointed out: SVM had very good results in almost all cases, SMOTE played a crucial role in cases with unbalanced data and finally artificial neural networks managed to provide solutions in cases where traditional algorithms lagged behind.

  15. Hellenic Open University
  16. Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές