Please use this identifier to cite or link to this item: https://apothesis.eap.gr/handle/repo/32627
Title: Αξιολόγηση Μεθοδολογιών Διαχείρισης Ελλιπών Τιμών σε Προβλήματα Εξόρυξης Δεδομένων
Authors: ΤΟΥΡΒΑΛΗΣ, ΕΥΑΓΓΕΛΟΣ
Advisor: Κωτσιαντής, Σωτήρης
Keywords: Εξόρυξη γνώσης - Data mining;Μηχανική Μάθηση - Machine Learning;Ομάδες Ταξινομητών - Classifiers Groups;Διαχείριση Ελλιπών Τιμών - Management of Missing Values;Μέθοδοι Καταλογισμού - Imputation Methods
Issue Date: Oct-2016
Abstract: Η παρουσία των ελλιπών τιμών σε ένα σύνολο δεδομένων μπορεί να επηρεάσει την απόδοση ενός ταξινομητή, ο οποίος χρησιμοποιεί τα δεδομένα ως δείγμα για την αρχική ανάλυση, κατανόηση και εξόρυξη γνώσης. Τις τελευταίες δεκαετίες, υπάρχει μία συστηματική προσπάθεια για τον σχεδιασμό μεθόδων, οι οποίες επιτρέπουν τον χειρισμό των δεδομένων που έχουν ελλιπή στοιχεία, χωρίς να επηρεάζονται τα συμπεράσματα των ερευνών. Στόχος της παρούσας εργασίας αποτελεί η παρουσίαση των μεθόδων που χρησιμοποιούνται σήμερα για την αντιμετώπιση του προβλήματος του χειρισμού δεδομένων με ελλιπή στοιχεία και η σύγκρισή τους όσον αφορά τη βέλτιστη συνεργασία τους με διάφορους αλγόριθμους ταξινόμησης (classification algorithms). Οι μέθοδοι διαγραφής πρέπει να χρησιμοποιούνται μόνο όταν τα ελλιπή δεδομένα αποτελούν μικρό ποσοστό των συνολικών στοιχείων και ο μηχανισμός έλλειψης είναι MCAR. Οι διαδικασίες στάθμισης όταν χρησιμοποιούνται σε συνδυασμό με τις μεθόδους διαγραφής βελτιώνουν τις εκτιμήσεις, χωρίς όμως να εξαλείφουν το πρόβλημα της μικρής στατιστικής δύναμης των αποτελεσμάτων. Οι μέθοδοι αντικατάστασης, αυξάνουν τη στατιστική δύναμη των αποτελεσμάτων, όμως συνήθως καταλήγουν σε υποεκτίμηση ή υπερεκτίμηση της απόκλισης διακύμανσης. Αθροιστικά προκύπτει ότι, οι μέθοδοι που βασίζονται σε μοντέλα παρέχουν αυξημένη ευελιξία στον αναλυτή, ενώ τα αποτελέσματά τους δίνουν τη μεγαλύτερη ακρίβεια. Ειδικότερα, οι αλγόριθμοι Διαχείρισης Ελλιπών Τιμών ΚΝΝΙ και EC, μαζί με τους αλγόριθμους Μηχανικής Μάθησης SVM και RBFN μπορούν συνδυαστικά να καλύψουν ικανοποιητικά σχεδόν όλους τους συνδυασμούς που μπορούν να προκύψουν από την «κατάσταση» των χαρακτηριστικών ενός συνόλου δεδομένων με ελλιπής τιμές.
Appears in Collections:ΠΛΣ Διπλωματικές Εργασίες

Files in This Item:
File Description SizeFormat 
ΔΕ Ευάγγελου Τουρβαλή ΕΑΠ 2016 _final_25_09_2016_.pdfΚυρίως σώμα διπλωματικής, συμπεριλαμβανομένων των δύο (2) Παραρτημάτων του.2.59 MBAdobe PDFView/Open


Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.