Κατάλογος Εικόνων / Σχημάτων
Εικόνα 1 - Συσταδοποίηση δεδομένων ........................................................................ 25
Εικόνα 2 - Διάγραμμα Διασποράς ............................................................................... 26
Εικόνα 3 - Γραμμική απεικόνιση δεδομένων .............................................................. 30
Εικόνα 4 - Εμφάνιση πινάκων που περιέχει η Β.Δ. ..................................................... 34
Εικόνα 5 - Δεδομένα του πίνακα dbo.rental_data ....................................................... 34
Εικόνα 6 - Εμφάνιση πινάκων που περιέχει η Β.Δ. ..................................................... 41
Εικόνα 7 - Γραφική παράσταση Elbow method for KMeans clustering ..................... 44
Εικόνα 8 - Εμφάνιση πινάκων και συναρτήσεων της Β.Δ. ......................................... 47
Εικόνα 9 - Γράφημα με χρήση της Python μέσω Transact-SQL ................................. 50
Εικόνα 10 - Πιθανότητα πληρωμής φιλοδωρήματος - βιβλιοθήκη scikit-learn .......... 55
Εικόνα 11 - Πιθανότητα πληρωμής φιλοδωρήματος - βιβλιοθήκη revoscalepy ......... 56
Εικόνα 12 - Οι 5 θέσεις παικτών στο άθλημα του μπάσκετ ........................................ 61
Εικόνα 13 - Γραφική παράσταση Elbow method for KMeans clustering ................... 68
Εικόνα 14 - Βραβείο MVP κανονικής σεζόν ΝΒΑ ..................................................... 76
Εικόνα 15 - Αποθηκευμένη διαδικασία generate_MVP_py_model ............................ 85
Κατάλογος Πινάκων
Πίνακας 1 - Περιεχόμενα Πίνακα py_rental_predictions ............................................ 39
Πίνακας 2 - Περιεχόμενα Πίνακα dbo.customer ......................................................... 41
Πίνακας 3 - Περιεχόμενα Πίνακα customer_data........................................................ 43
Πίνακας 4 - Πλήθος δεδομένων ανά cluster ................................................................ 44
Πίνακας 5 - Μέσες τιμές ανά cluster ........................................................................... 45
Πίνακας 6 - Περιεχόμενα Πίνακα py_customer_clusters ............................................ 46
Πίνακας 7 - Emails πελατών που ανήκουν στη συστάδα 0 ......................................... 46
Πίνακας 8 - Περιεχόμενα Πίνακα Seasons_Stats ........................................................ 59
Πίνακας 9 - Στήλες πίνακα Seasons_Stats ................................................................... 60
Πίνακας 10 - Πρώτοι σκόρερ όλων των εποχών ......................................................... 60
Πίνακας 11 - Τιμές NULL που εμπεριέχονται στον πίνακα Seasons_Stats ................ 63
Πίνακας 12 - Συνολικά παιχνίδια παίκτη Lou Williams τη σεζόν 2016-2017 ............ 64
Πίνακας 13 - Περιεχόμενα του Πίνακα Player_Stats .................................................. 67
Πίνακας 14 - Πλήθος δεδομένων ανά cluster .............................................................. 69
Πίνακας 15 - Μέσες τιμές ανά cluster ......................................................................... 69
Πίνακας 16 - Εμφάνιση συστάδας για κάθε παίκτη .................................................... 72
Πίνακας 17 - Παίκτες ανά σεζόν που ανήκουν στη συστάδα μηδέν ........................... 73
Πίνακας 18 - Περιεχόμενα Πίνακα MVP .................................................................... 78
Πίνακας 19 - Αρχική και φιλτραρισμένη λίστα στηλών.............................................. 80
Πίνακας 20 - Training και test σύνολο δεδομένων ...................................................... 82
Πίνακας 21 - Τιμές πρόβλεψης και σφάλμα ................................................................ 83
Πίνακας 22 - Αποθηκευμένο μοντέλο στον πίνακα MVP_py_models ....................... 86
Πίνακας 23 - Σύγκριση τιμών πρόβλεψης με πραγματικές ......................................... 89
Πίνακας 24 - Σφάλμα, προβλέψεις και πραγματικές τιμές .......................................... 90
Η παρούσα διπλωματική ασχολείται με την έννοια της εξόρυξης δεδομένων με
προγραμματιστικά εργαλεία. Αρχικά παρουσιάζεται το θεωρητικό υπόβαθρό της, οι
εφαρμογές της σε διάφορους τομείς της επιστήμης και της οικονομίας καθώς και η
ευρεία χρήση που έχει στον επαγγελματικό αθλητισμό. Παρουσιάζονται τα
προγραμματιστικά εργαλεία που χρησιμοποιούνται, όπως ο Microsoft SQL Server, το
Machine Learning Services και το Azure Data Studio της Microsoft και επιχειρείται
μια θεωρητική περιγραφή τριών γνωστών αλγορίθμων που χρησιμοποιούνται στην
εξόρυξη δεδομένων, του αλγορίθμου συσταδοποίησης K-means, του αλγορίθμου
Γραμμικής Παλινδρόμησης και του αλγορίθμου Λογιστικής Παλινδρόμησης.
Παρουσιάζονται τρία παραδείγματα εφαρμογής της εξόρυξης δεδομένων που έχουν
αναπτυχθεί από τη Microsoft. Το πρώτο αφορά σύστημα ηλεκτρονικών αγορών
προϊόντων λιανικής για την κατηγοριοποίηση των πελατών με τη μέθοδο της
συσταδοποίησης, το δεύτερο αφορά σύστημα κρατήσεων/ενοικιάσεων τουριστικών
υπηρεσιών με σκοπό την πρόβλεψη των μελλοντικών ενοικιάσεων με τη μέθοδο της
γραμμικής παλινδρόμησης ενώ το τρίτο παράδειγμα αφορά σύστημα υπηρεσιών ταξί
όπου μελετάται η πιθανότητα πληρωμής φιλοδωρήματος με τη μέθοδο της λογιστικής
παλινδρόμησης.
Στη συνέχεια με χρήση πραγματικών στατιστικών δεδομένων μέτρησης της απόδοσης
παικτών και ομάδων του αμερικανικού πρωταθλήματος επαγγελματικού μπάσκετ
(National Basketball Association – NBA) σε διάρκεια πολλών ετών, επιχειρείται η
εφαρμογή των αλγορίθμων που μελετήθηκαν, για την ανακάλυψη συσχετίσεων μεταξύ
των στατιστικών και των αποτελεσμάτων. Αρχικά μελετάται και παρουσιάζεται η
κατηγοριοποίηση των παικτών του πρωταθλήματος σε συστάδες ανάλογα με τα
διαφορετικά χαρακτηριστικά τους, με χρήση του αλγορίθμου συσταδοποίησης Kmeans.
Στη συνέχεια επιχειρείται η εφαρμογή του αλγορίθμου γραμμικής
παλινδρόμησης για την πρόβλεψη του MVP της κανονικής διάρκειας του
πρωταθλήματος για κάθε σεζόν.
Στο τελευταίο κεφάλαιο αναπτύσσονται συμπεράσματα και σχόλια που προέκυψαν
κατά τη διαδικασία της εφαρμογής των αλγορίθμων και της επεξεργασίας των
δεδομένων καθώς και σκέψεις για πιθανές μελλοντικές χρήσεις και εφαρμογές.
This Thesis is about Data Mining with use of Programming Tools. It begins with a
presentation of the theoretical background of Data Mining, its several applications in
science, economy and in professional sports. We present the Programming Tools that
we are going to use, like Microsoft SQL Server, Machine Learning Services and
Microsoft’s Azure Data Studio and 3 largely used algorithms in data mining, the
Microsoft K-means Clustering Algorithm, the Microsoft Linear Regression Algorithm
and Microsoft Logistic Regression Algorithm.
Secondly we present 3 examples of data mining algorithms application, developed by
Microsoft. The first example is about a retail e-shop and how we can categorize its
customers in clusters using the K-means Clustering Algorithm. The second example is
about a ski rental company and the aim is to predict its future bookings with the Linear
Regression Algorithm. The last example deals with a Taxi rental company and is about
predicting the possibility of tip payment for each trip, with the use of Logistic
Regression Algorithm.
Thirdly, with the use of real data from teams and players of the National Basketball
Association (NBA) through several seasons, we try to apply the algorithms that are
presented above, to discover relations between individual or team statistics and results.
Firstly, using the individual performance data and the K-means Clustering Algorithm,
we categorize all the players in clusters, depending on the different playing style and
thus the position of each player.
Secondly, through the use of the individual statistics of each player and the Linear
Regression Algorithm, we predict the Regular Season MVP for each season.
In the last chapter we present the conclusions and discuss issues that emerged while
dealing with data cleaning and pre-processing and while applying the Data Mining
Algorithms, and we suggest some thoughts and ideas for future applications.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Τεχνολογίες εξόρυξης επιχειρησιακών δεδομένων με χρήση προγραμματιστικών εργαλείων Περιγραφή: ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ - ΟΙΚΟΝΟΜΙΔΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ.pdf (pdf)
Book Reader Πληροφορίες: primary:true Μέγεθος: 1.9 MB
Τεχνολογίες εξόρυξης επιχειρησιακών δεδομένων με χρήση προγραμματιστικών εργαλείων - Identifier: 160321
Internal display of the 160321 entity interconnections (Node labels correspond to identifiers)