Αξιολόγηση Αλγορίθμων Διαχείρισης Ελλιπών Τιμών στην Ανακάλυψη Γνώσης

  1. MSc thesis
  2. Κανίστρας, Κωνσταντίνος
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 22 Σεπτεμβρίου 2018 [2018-09-22]
  5. Ελληνικά
  6. 73
  7. Κωτσιαντής, Σωτήριος
  8. Πρέντζα, Ανδριάνα
  9. Εξόρυξη Γνώσης | Ελλιπή Στοιχεία | Μηχανική Μάθηση | Υπολογιστική Νοημοσύνη
  10. 7
  11. 17
  12. Περιέχει : πίνακες, σχήματα
    • Η προεπεξεργασία των δεδομένων αποτελεί ένα σημαντικό βήμα στη διαδικασία της εξόρυξης γνώσης. Η συλλογή των δεδομένων συνήθως δεν είναι μια πλήρως ελεγχόμενη διαδικασία με αποτέλεσμα να οδηγεί σε μη ρεαλιστικές καταγραφές ή σε ελλιπείς τιμές. Η ανάλυση δεδομένων χωρίς τον εντοπισμό και την επεξεργασία τέτοιων τιμών μπορεί να οδηγήσει σε παραπλανητικά συμπεράσματα. Η ποιότητα των δεδομένων εισόδου καθορίζει σε μεγάλο βαθμό και την ποιότητα των αποτελεσμάτων της εξόρυξης δεδομένων. Η προεπεξεργασία των δεδομένων αποτελεί χρονοβόρο κομμάτι στη διαδικασία της ανακάλυψης γνώσης από δεδομένα. Η προεπεξεργασία περιλαμβάνει μεταξύ άλλων: α) τη συμπλήρωση των ελλιπών τιμών και την απαλοιφή θορύβου, β) τη μείωση της διάστασης των δεδομένων εισόδου, γ) τη διακριτοποίηση των δεδομένων ή την κανονικοποίησή τους. Στόχος της εφαρμογής των διαδικασιών προεπεξεργασίας των δεδομένων είναι η δημιουργία ενός τελικού συνόλου δεδομένων το οποίο μπορεί να θεωρηθεί σωστό και χρήσιμο για περαιτέρω αλγορίθμους εξόρυξης γνώσης. Σε αυτή τη διπλωματική εργασία αρχικά θα γίνει μια ανασκόπηση των σημαντικότερων αλγορίθμων προεπεξεργασίας των δεδομένων. Εν συνεχεία, μέσω συγκριτικής μελέτης της αποτελεσματικότητάς τους σε συνδυασμό με τη χρήση διάφορων αλγορίθμων ταξινόμησης και παλινδρόμησης θα προταθούν καλές πρακτικές συνδυαστικής χρήσης αλγορίθμων προεπεξεργασίας δεδομένων και αλγορίθμων επιβλεπόμενης μηχανικής μάθησης
    • Data preprocessing is a major step in the data mining process. The data collection is usually a difficult process to control, resulting in out of range or missing values. Ignoring such cases and proceed with data analysis may produce misleading results. The quality check of the data is mandatory before running any analysis. Data preparation can take considerable amount of processing time. Data preprocessing includes several parts; a) dealing with missing values and noisy data, b) data reduction, c) discretization and normalization of the data. The result expected after applying preprocessing algorithms in the original data is a dataset, which can be considered correct and useful for further data mining algorithms. The aim of this paper is to review first the most important data preprocessing algorithms. Subsequently, through a comparative study of their effectiveness in combination with the use of different classification algorithms and regression will propose good practices for combined usage of data preprocessing algorithms and supervised machine learning algorithms.
  13. Αναφορά Δημιουργού 4.0 Διεθνές