Νόσος του Parkinson και Parkinson’s disease, Machine Learning
MSc thesis
1
1
76
Η παρούσα εργασία μελετά τα συστήματα αυτόματης διάγνωση της νόσου Πάρκινσον,
και επιχειρεί πειραματικά την διάγνωση ασθενών μέσω φωνητικών σημάτων, και χρήση
μεθόδων μηχανικής μάθησης. Οι νευροεκφυλιστικές (neurodegenerative) ασθένειες,
συμπεριλαμβανομένης της νόσου Πάρκινσον επηρεάζουν εκατομμύρια ανθρώπους
παγκοσμίως, ενώ η πιθανότητα εμφάνισης νευροεκφυλιστικής νόσου αυξάνεται με το
πέρασμα των χρόνων. Η εργασία αρχικά μελετά αναλυτικά όλες τις πτυχές της
ανάπτυξης, της διάγνωση και της θεραπείας της ασθένειας με σκοπό να παρουσιάσει τις
επικρατέστερες προσεγγίσεις αυτόματης διάγνωσης που έχουν παρουσιαστεί στην
βιβλιογραφία. Εν συνεχεία, αξιοποιεί δημοσιευμένα δεδομένα στην βάση Kaggle, που
προέρχονται από σήματα φωνής με σκοπό την διάγνωση της Νόσου. Η διάγνωση
πραγματοποιήθηκε με χρήση ευφυών μεθόδων κατηγοριοποίησης. Η εργασία εστιάζει
στην απόδοση των μεθόδων με χρήση ενός πλήρους συνόλου 755 χαρακτηριστικών που
εξήχθησαν από τα σήματα, αλλά και στην απόδοση τους μειώνοντας την διάσταση του
χώρου των χαρακτηριστικών και εξαλείφοντας την πλεονάζουσα πληροφορία. Πιλοτικά
εφαρμόστηκε η Ανάλυση Κύριων Συνιστωσών για την μείωση του χώρου των
χαρακτηριστικών αλλά και έξι διαφορετικοί αλγόριθμοι ταξινόμησης. Οι μεθοδολογίες
επιτυγχάνουν ακρίβεια έως 87% στο δυαδικό πρόβλημα ταξινόμησης, γεγονός που
υποδεικνύει ότι η διάγνωση της ασθένειας από σήματα φωνής δύναται να επιτευχθεί με
ικανοποιητική ακρίβεια.
The work studies the systems of automatic diagnosis of Parson's disease, and
experimentally attempts to diagnose patients through voice signals, and the use of
machine learning methods. Neurodegenerative diseases, including Parkinson's disease,
affect many people worldwide, and the likelihood of developing a neurodegenerative
disease increases with age. The paper first reviews in detail all aspects of disease
development, diagnosis and treatment in order to present the most prevalent automatic
diagnosis approaches that have been presented in the literature. Then, it utilizes
published data in the Kaggle database, derived from voice signals, in order to diagnose
the Disease. Diagnosis was performed using intelligent categorization methods. The
paper focuses on the performance of the methods using a full set of 755 features
extracted from the signals, but also on their performance by reducing the dimension of
the feature space and eliminating redundant information. Principal Component Analysis
was piloted to reduce the feature space as well as six different classification algorithms.
The methodologies achieve an accuracy of up to 87% in the binary classification
problem, which indicates that disease diagnosis from voice signals can be achieved with
satisfactory accuracy.