Τεχνολογίες εξόρυξης επιχειρησιακών δεδομένων με χρήση προγραμματιστικών εργαλείων

Data Mining with use of Programming Tools (Αγγλική)

  1. MSc thesis
  2. Οικονομίδης, Κωνσταντίνος
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 18 Σεπτεμβρίου 2021 [2021-09-18]
  5. Ελληνικά
  6. 96
  7. Πάσχου, Μερσίνη
  8. Data | Mining | Machine | Learning | Εξόρυξη | Δεδομένων | Python | SQL
  9. 13
  10. Κατάλογος Εικόνων / Σχημάτων Εικόνα 1 - Συσταδοποίηση δεδομένων ........................................................................ 25 Εικόνα 2 - Διάγραμμα Διασποράς ............................................................................... 26 Εικόνα 3 - Γραμμική απεικόνιση δεδομένων .............................................................. 30 Εικόνα 4 - Εμφάνιση πινάκων που περιέχει η Β.Δ. ..................................................... 34 Εικόνα 5 - Δεδομένα του πίνακα dbo.rental_data ....................................................... 34 Εικόνα 6 - Εμφάνιση πινάκων που περιέχει η Β.Δ. ..................................................... 41 Εικόνα 7 - Γραφική παράσταση Elbow method for KMeans clustering ..................... 44 Εικόνα 8 - Εμφάνιση πινάκων και συναρτήσεων της Β.Δ. ......................................... 47 Εικόνα 9 - Γράφημα με χρήση της Python μέσω Transact-SQL ................................. 50 Εικόνα 10 - Πιθανότητα πληρωμής φιλοδωρήματος - βιβλιοθήκη scikit-learn .......... 55 Εικόνα 11 - Πιθανότητα πληρωμής φιλοδωρήματος - βιβλιοθήκη revoscalepy ......... 56 Εικόνα 12 - Οι 5 θέσεις παικτών στο άθλημα του μπάσκετ ........................................ 61 Εικόνα 13 - Γραφική παράσταση Elbow method for KMeans clustering ................... 68 Εικόνα 14 - Βραβείο MVP κανονικής σεζόν ΝΒΑ ..................................................... 76 Εικόνα 15 - Αποθηκευμένη διαδικασία generate_MVP_py_model ............................ 85 Κατάλογος Πινάκων Πίνακας 1 - Περιεχόμενα Πίνακα py_rental_predictions ............................................ 39 Πίνακας 2 - Περιεχόμενα Πίνακα dbo.customer ......................................................... 41 Πίνακας 3 - Περιεχόμενα Πίνακα customer_data........................................................ 43 Πίνακας 4 - Πλήθος δεδομένων ανά cluster ................................................................ 44 Πίνακας 5 - Μέσες τιμές ανά cluster ........................................................................... 45 Πίνακας 6 - Περιεχόμενα Πίνακα py_customer_clusters ............................................ 46 Πίνακας 7 - Emails πελατών που ανήκουν στη συστάδα 0 ......................................... 46 Πίνακας 8 - Περιεχόμενα Πίνακα Seasons_Stats ........................................................ 59 Πίνακας 9 - Στήλες πίνακα Seasons_Stats ................................................................... 60 Πίνακας 10 - Πρώτοι σκόρερ όλων των εποχών ......................................................... 60 Πίνακας 11 - Τιμές NULL που εμπεριέχονται στον πίνακα Seasons_Stats ................ 63 Πίνακας 12 - Συνολικά παιχνίδια παίκτη Lou Williams τη σεζόν 2016-2017 ............ 64 Πίνακας 13 - Περιεχόμενα του Πίνακα Player_Stats .................................................. 67 Πίνακας 14 - Πλήθος δεδομένων ανά cluster .............................................................. 69 Πίνακας 15 - Μέσες τιμές ανά cluster ......................................................................... 69 Πίνακας 16 - Εμφάνιση συστάδας για κάθε παίκτη .................................................... 72 Πίνακας 17 - Παίκτες ανά σεζόν που ανήκουν στη συστάδα μηδέν ........................... 73 Πίνακας 18 - Περιεχόμενα Πίνακα MVP .................................................................... 78 Πίνακας 19 - Αρχική και φιλτραρισμένη λίστα στηλών.............................................. 80 Πίνακας 20 - Training και test σύνολο δεδομένων ...................................................... 82 Πίνακας 21 - Τιμές πρόβλεψης και σφάλμα ................................................................ 83 Πίνακας 22 - Αποθηκευμένο μοντέλο στον πίνακα MVP_py_models ....................... 86 Πίνακας 23 - Σύγκριση τιμών πρόβλεψης με πραγματικές ......................................... 89 Πίνακας 24 - Σφάλμα, προβλέψεις και πραγματικές τιμές .......................................... 90
    • Η παρούσα διπλωματική ασχολείται με την έννοια της εξόρυξης δεδομένων με προγραμματιστικά εργαλεία. Αρχικά παρουσιάζεται το θεωρητικό υπόβαθρό της, οι εφαρμογές της σε διάφορους τομείς της επιστήμης και της οικονομίας καθώς και η ευρεία χρήση που έχει στον επαγγελματικό αθλητισμό. Παρουσιάζονται τα προγραμματιστικά εργαλεία που χρησιμοποιούνται, όπως ο Microsoft SQL Server, το Machine Learning Services και το Azure Data Studio της Microsoft και επιχειρείται μια θεωρητική περιγραφή τριών γνωστών αλγορίθμων που χρησιμοποιούνται στην εξόρυξη δεδομένων, του αλγορίθμου συσταδοποίησης K-means, του αλγορίθμου Γραμμικής Παλινδρόμησης και του αλγορίθμου Λογιστικής Παλινδρόμησης. Παρουσιάζονται τρία παραδείγματα εφαρμογής της εξόρυξης δεδομένων που έχουν αναπτυχθεί από τη Microsoft. Το πρώτο αφορά σύστημα ηλεκτρονικών αγορών προϊόντων λιανικής για την κατηγοριοποίηση των πελατών με τη μέθοδο της συσταδοποίησης, το δεύτερο αφορά σύστημα κρατήσεων/ενοικιάσεων τουριστικών υπηρεσιών με σκοπό την πρόβλεψη των μελλοντικών ενοικιάσεων με τη μέθοδο της γραμμικής παλινδρόμησης ενώ το τρίτο παράδειγμα αφορά σύστημα υπηρεσιών ταξί όπου μελετάται η πιθανότητα πληρωμής φιλοδωρήματος με τη μέθοδο της λογιστικής παλινδρόμησης. Στη συνέχεια με χρήση πραγματικών στατιστικών δεδομένων μέτρησης της απόδοσης παικτών και ομάδων του αμερικανικού πρωταθλήματος επαγγελματικού μπάσκετ (National Basketball Association – NBA) σε διάρκεια πολλών ετών, επιχειρείται η εφαρμογή των αλγορίθμων που μελετήθηκαν, για την ανακάλυψη συσχετίσεων μεταξύ των στατιστικών και των αποτελεσμάτων. Αρχικά μελετάται και παρουσιάζεται η κατηγοριοποίηση των παικτών του πρωταθλήματος σε συστάδες ανάλογα με τα διαφορετικά χαρακτηριστικά τους, με χρήση του αλγορίθμου συσταδοποίησης Kmeans. Στη συνέχεια επιχειρείται η εφαρμογή του αλγορίθμου γραμμικής παλινδρόμησης για την πρόβλεψη του MVP της κανονικής διάρκειας του πρωταθλήματος για κάθε σεζόν. Στο τελευταίο κεφάλαιο αναπτύσσονται συμπεράσματα και σχόλια που προέκυψαν κατά τη διαδικασία της εφαρμογής των αλγορίθμων και της επεξεργασίας των δεδομένων καθώς και σκέψεις για πιθανές μελλοντικές χρήσεις και εφαρμογές.
    • This Thesis is about Data Mining with use of Programming Tools. It begins with a presentation of the theoretical background of Data Mining, its several applications in science, economy and in professional sports. We present the Programming Tools that we are going to use, like Microsoft SQL Server, Machine Learning Services and Microsoft’s Azure Data Studio and 3 largely used algorithms in data mining, the Microsoft K-means Clustering Algorithm, the Microsoft Linear Regression Algorithm and Microsoft Logistic Regression Algorithm. Secondly we present 3 examples of data mining algorithms application, developed by Microsoft. The first example is about a retail e-shop and how we can categorize its customers in clusters using the K-means Clustering Algorithm. The second example is about a ski rental company and the aim is to predict its future bookings with the Linear Regression Algorithm. The last example deals with a Taxi rental company and is about predicting the possibility of tip payment for each trip, with the use of Logistic Regression Algorithm. Thirdly, with the use of real data from teams and players of the National Basketball Association (NBA) through several seasons, we try to apply the algorithms that are presented above, to discover relations between individual or team statistics and results. Firstly, using the individual performance data and the K-means Clustering Algorithm, we categorize all the players in clusters, depending on the different playing style and thus the position of each player. Secondly, through the use of the individual statistics of each player and the Linear Regression Algorithm, we predict the Regular Season MVP for each season. In the last chapter we present the conclusions and discuss issues that emerged while dealing with data cleaning and pre-processing and while applying the Data Mining Algorithms, and we suggest some thoughts and ideas for future applications.
  11. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.