Εξόρυξη γνώσης - Data mining | Μηχανική Μάθηση - Machine Learning | Ομάδες Ταξινομητών - Classifiers Groups | Διαχείριση Ελλιπών Τιμών - Management of Missing Values | Μέθοδοι Καταλογισμού - Imputation Methods
2
2
65
Περιέχει : Εικόνες, Πίνακες, Γραφήματα
Η παρουσία των ελλιπών τιμών σε ένα σύνολο δεδομένων μπορεί να επηρεάσει την απόδοση ενός ταξινομητή, ο οποίος χρησιμοποιεί τα δεδομένα ως δείγμα για την αρχική ανάλυση, κατανόηση και εξόρυξη γνώσης. Τις τελευταίες δεκαετίες, υπάρχει μία συστηματική προσπάθεια για τον σχεδιασμό μεθόδων, οι οποίες επιτρέπουν τον χειρισμό των δεδομένων που έχουν ελλιπή στοιχεία, χωρίς να επηρεάζονται τα συμπεράσματα των ερευνών.
Στόχος της παρούσας εργασίας αποτελεί η παρουσίαση των μεθόδων που χρησιμοποιούνται σήμερα για την αντιμετώπιση του προβλήματος του χειρισμού δεδομένων με ελλιπή στοιχεία και η σύγκρισή τους όσον αφορά τη βέλτιστη συνεργασία τους με διάφορους αλγόριθμους ταξινόμησης (classification algorithms).
Οι μέθοδοι διαγραφής πρέπει να χρησιμοποιούνται μόνο όταν τα ελλιπή δεδομένα αποτελούν μικρό ποσοστό των συνολικών στοιχείων και ο μηχανισμός έλλειψης είναι MCAR. Οι διαδικασίες στάθμισης όταν χρησιμοποιούνται σε συνδυασμό με τις μεθόδους διαγραφής βελτιώνουν τις εκτιμήσεις, χωρίς όμως να εξαλείφουν το πρόβλημα της μικρής στατιστικής δύναμης των αποτελεσμάτων. Οι μέθοδοι αντικατάστασης, αυξάνουν τη στατιστική δύναμη των αποτελεσμάτων, όμως συνήθως καταλήγουν σε υποεκτίμηση ή υπερεκτίμηση της απόκλισης διακύμανσης. Αθροιστικά προκύπτει ότι, οι μέθοδοι που βασίζονται σε μοντέλα παρέχουν αυξημένη ευελιξία στον αναλυτή, ενώ τα αποτελέσματά τους δίνουν τη μεγαλύτερη ακρίβεια.
Ειδικότερα, οι αλγόριθμοι Διαχείρισης Ελλιπών Τιμών ΚΝΝΙ και EC, μαζί με τους αλγόριθμους Μηχανικής Μάθησης SVM και RBFN μπορούν συνδυαστικά να καλύψουν ικανοποιητικά σχεδόν όλους τους συνδυασμούς που μπορούν να προκύψουν από την «κατάσταση» των χαρακτηριστικών ενός συνόλου δεδομένων με ελλιπής τιμές.
The presence of missing values in a data set can affect the performance of a classifier, which uses the data sampled for initial analysis, understanding and knowledge mining. In recent decades, there is a systematic effort to design methods which allow the handling of data have missing information, without affecting the conclusions of the researches.
The aim of this paper is to present the methods currently used to address the problem of handling data with missing data and compare them with regard to optimum cooperation with several classification algorithms (classification algorithms)
The deletion methods should only be used when the missing data is a small fraction of the total data and the lack of mechanism is MCAR. The weighting processes, when used in combination with the deletion methods, improve the estimate, but not eliminate the problem of low statistical power of the results. The imputation methods, increase the statistical power of the results, but usually result in underestimation or overestimation of the variance deviation. Cumulatively, model-based methods provide increased flexibility in the analyzer, and the results give greater accuracy.
Specifically, Missing Data Management Algorithms KNNI and EC, along with the Machine Learning Algorithms SVM and RBFN, when combined, can meet satisfactorily almost all the combinations that can derive from the "state" of a data set characteristics with incomplete values.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.