Τεχνικές ταξινόμησης/συσταδοποίησης μεγάλων συλλογών διαδικτυακών δεδομένων

  1. Bachelor’s thesis
  2. ΜΠΑΖΑΚΟΣ, ΚΩΝΣΤΑΝΤΙΝΟΣ
  3. Πληροφορική (ΠΛΗ)
  4. 31 Ιουλίου 2017 [2017-07-31]
  5. Ελληνικά
  6. 129
  7. ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ, ΙΩΑΝΝΗΣ
  8. Μηχανική Μάθηση, Επιβλεπόμενη Μάθηση, Μη Επιβλεπόμενη Μάθηση, Ταξινόμηση, Συσταδοποίηση, Εξόρυξη Πληροφορίας
  9. 4
  10. 12
  11. σχήματα, πίνακες
    • Το γενικό θεωρητικό αντικείμενο που αναπτύσσεται σε αυτήν την εργασία είναι η μηχανική μάθηση και εφαρμογές της (classification/clustering). Η μηχανική μάθηση θα μπορούσε να περιγραφεί ως η διαδικασία εκείνη κατά την οποία ένα σύστημα βελτιώνεται συνεχώς ως προς την απόδοσή του, κατά τη διάρκεια εκτέλεσης μιας συγκεκριμένης εργασίας, χωρίς να απαιτείται ο εκ νέου προγραμματισμός του. Σύμφωνα με αυτήν την προσέγγιση, σκοπός της είναι η δημιουργία συστημάτων που διαθέτουν ικανότητες μάθησης και βελτίωσης της απόδοσής τους σε ορισμένους τομείς μέσω της αξιοποίησης προηγούμενης γνώσης και εμπειρίας. Αρχικά γίνεται αναφορά στα σημαντικότερα σημεία της θεωρίας όπως η ανάκτηση της πληροφορίας, ο διανυσματικός χώρος, μέθοδοι μηχανικής μάθησης, έννοιες απόδοσης (ανάκληση και ακρίβεια) και οι αλγόριθμοι που εφαρμόσθηκαν στα πλαίσια της εργασίας. Έπειτα παρουσιάζονται οι πηγές δεδομένων που χρησιμοποιήθηκαν , η διαδικασία της απαιτούμενης προεπεξεργασίας των δεδομένων καθώς και οι διαδικασίες εμπλουτισμού του dataset Amazon Movies Reviews με τα ground truth labels. Στη συνέχεια αντιμετωπίζονται δύο διαφορετικά προβλήματα, αυτό της ταξινόμησης και της συσταδοποίησης. Και στις δύο αυτές περιπτώσεις χρησιμοποιούνται οι πηγές δεδομένων που αναλύθηκαν εκτενώς στο τρίτο κεφάλαιο. Στο πρόβλημα της ταξινόμησης εφαρμόζονται πέντε διαφορετικά μοντέλα (Naive Bayes, Random Forest, Logistic Regression, K-nearest neighbors kai Support vector machine) ενώ για την υλοποίηση της συσταδοποίησης χρησιμοποιείται η LDA και η μέθοδος μέσω των πινάκων – μασκών συνάφειας. Σε όλες τις περιπτώσεις παρατίθενται τα αποτελέσματα των αλγορίθμων καθώς και κάποιες γραφικές παραστάσεις όπου ήταν εφικτό. Τέλος παρουσιάζονται αξιολογήσεις των αποτελεσμάτων των μοντέλων που υλοποιήθηκαν και για τα δύο προβλήματα. Ο σχολιασμός γίνεται ανά πηγή δεδομένων και ανά μοντέλο. Λαμβάνονται υπόψη οι τιμές των μετρικών της ακριβείας, ανάκλησης καθώς και η τιμή της f1-score. Το σύνολο του κώδικα βρίσκεται δημοσιευμένο σε Git Repository [6].
    • The general theoretical subject developed in this dissertation is machine learning and applications such as classification and clustering. Machine learning could be described as the process in which a system is continually improving its performance while executing a particular task without requiring it to be re-programmed. According to this approach, its purpose is to create systems that have skills to improve their performance through the use of prior knowledge and experience. Initially, reference is made to the most important points of the theory, such as information retrieval, machine learning methods, performance metrics (recall and precision) and algorithms that have been applied. Next, follows an presentation of the datasets used, the required data pre-processing, and the procedures through which the Amazon Movies Reviews dataset has been enriched with ground truth labels. Two different problems (classification and clustering) are then addressed. In both cases, the datasets used are those detailed in chapter three. In classification problem five different models have been applied (Naive Bayes, Random Forest, Logistic Regression, K-nearest neighbors and Support vector machine) whereas in the clustering one, the LDA method and the Relevance Matrices have been used. In all cases, the results of the algorithms, as well as some graphs are listed. Finally, an evaluation of the results is presented, for both problems. Annotation is made by dataset and by model. In this process, performance metrics such as recall, precision and fl-score have been taken into account. All the code written for this thesis is available on Git Repository [6].
  12. Hellenic Open University
  13. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.