Η αναφερόμενη ΔΕ μελετά μεθόδους Εξόρυξης Δεδομένων, Ανάκτησης Πληροφορίας, καθώς και Μηχανικής Μάθησης με σκοπό την Ταξινόμηση Καρδιαγγειακών Νόσων.
Απώτερος στόχος της εργασίας αποτελεί η χρησιμοποίηση μεγάλου όγκου δεδομένων για την εξαγωγή χρήσιμων συμπερασμάτων και εν τέλει κατάλληλων πληροφοριών στον τελικό χρήστη.
Για να υλοποιηθεί ο στόχος, στο πρώτο μέρος της εργασίας διενεργείται μία βιβλιογραφική έρευνα, ώστε να διερευνηθεί και να εξηγηθεί η έννοια της εξόρυξης των δεδομένων, ο τρόπος που αυτή συντελείται, τα μοντέλα συγκέντρωσης και αποτίμησης των αποτελεσμάτων, καθώς και το πώς τα τελικά δεδομένα θα είναι εκμεταλλεύσιμα από τον τελικό χρήστη.
Με σκοπό να διερευνηθεί η αξιοπιστία αυτών των μοντέλων συγκέντρωσης, αποτίμησης και τελικά χρήσης αυτών των δεδομένων, στο δεύτερο μέρος της εργασίας (που αποτελεί και το πρακτικό μέρος), πραγματοποιείται η υλοποίηση μιας εφαρμογής με χρήση της γλώσσας προγραμματισμού Python, αλλά και της σουίτας λογισμικού WEKA, με την οποία μελετώνται μεγάλες βάσεις δεδομένων.
Η εξόρυξη δεδομένων αποτελεί ένα ιδιαίτερα αναπτυσσόμενο εργαλείο, το οποίο χρησιμοποιείται όχι μόνο από εμπορικές εταιρείες, αλλά και σε πληθώρα άλλων πεδίων, όπως στην ιατρική. Στην παρούσα διπλωματική, μελετάται η ανάλυση ιατρικών σετ δεδομένων και πιο συγκεκριμένα σετ δεδομένων σχετικά με καρδιαγγειακές νόσους. Για τον σκοπό αυτό, θα χρησιμοποιηθούν κάποιοι από τους αλγόριθμους, οι οποίοι θα εκπαιδευτούν με αντιπροσωπευτικά δείγματα, ώστε να εξαχθούν ανάλογα συμπεράσματα σχετικά με το ποιοι αλγόριθμοι παρουσιάζουν καλύτερη ανταπόκριση και οι οποίοι θα επιλεγούν τελικά για να συγκροτηθεί ένα μοντέλο, το οποίο θα αποτελέσει βασικό στοιχείο της τελικής εφαρμογής.
Τελικά, η εκπόνηση της ΜΔΕ στοχεύει στην παροχή εξειδικευμένου εργαλείου στον ιατρικό χώρο και πιο συγκεκριμένα στους καρδιολόγους, οι οποίοι θα με την πληροφόρηση που θα λαμβάνουν, θα είναι σε θέση να λάβουν τις αρτιότερες αποφάσεις για τον τρόπο θεραπείας του ασθενούς.
The mentioned Diploma Thesis studies methods of Data Mining, Information Retrieval, as well as Machine Learning in order to Classify Cardiovascular Diseases.
The ultimate goal of this work is to use large volume of data, in order to draw useful conclusions and at the same time appropriate information to the end user.
In order to achieve this goal, in the first part of the work a literature review is carried out, in order to investigate and explain the concept of data mining, the way it is done, the models for collecting and evaluating the results, as well as how the final data will be usable by the end user.
In order to investigate the reliability of these models for collecting, evaluating and finally using this data, in the second part of the work (which is also the practical part), an application is implemented using the Python programming language, but also the software suite WEKA, with which large databases are studied.
Data mining is a highly developed tool, used not only by commercial companies, but also in a variety of other fields, such as medicine. In the present dissertation, the analysis of medical datasets and more specifically datasets, related to cardiovascular diseases, is studied. For this purpose, seven algorithms will be used, which will be trained with representative samples, in order to draw appropriate conclusions about which algorithms are best suited and which will eventually be selected to form a model, which will be a key element of the final application.
Finally, the elaboration of the Diploma Thesis aims to provide a specialized tool in the medical field and more specifically to the cardiologists, who with the information they will receive, will be able to make the best decisions on how to treat the patient.