Η πρόοδος της τεχνολογίας έχει οδηγήσει στην ανάπτυξη υπολογιστών, λογισμικού και αποθηκευτικών μέσων, τα οποία έχουν τη δυνατότητα να συγκεντρώνουν, να οργανώνουν και να αποθηκεύουν μεγάλο όγκο δεδομένων καθημερινά. Η ανίχνευση ακραίων σημείων, η ανακάλυψη, δηλαδή, σπάνιων ή ασυνήθιστων γεγονότων ή εξαιρέσεων, έχει συγκεντρώσει μεγάλο ενδιαφέρον τα τελευταία χρόνια, καθώς αποτελεί ένα σημαντικό κομμάτι στην ανάλυση δεδομένων. Η σημαντικότητα της ανάλυσης των ακραίων σημείων έγκειται στο γεγονός ότι αυτά, ενώ λανθασμένα μπορεί να θεωρηθούν ως σφάλματα ή θόρυβος, τελικά έχουν τη δυνατότητα να προσφέρουν πολύτιμη πληροφόρηση στον αναλυτή, η οποία θα οδηγήσει στη σωστή λήψη αποφάσεων, με απώτερο σκοπό την πρόληψη σφαλμάτων, τη βελτίωση της ποιότητας και, τελικά, το κέρδος. Η ανίχνευση ακραίων σημείων βρίσκει εφαρμογές σε πολλές δραστηριότητες, όπως στην ανακάλυψη μη νόμιμης χρήσης πιστωτικών καρτών και παραβατικότητας στις ηλεκτρονικές συναλλαγές, στην πρόβλεψη καιρικών φαινομένων, στο marketing, στην ανάλυση της συμπεριφοράς καταναλωτών, κ.ά. Η επιστήμη της Στατιστικής έχει παραδοσιακά ασχοληθεί με την ανάπτυξη μεθόδων για την ανίχνευση ακραίων σημείων. Πιο πρόσφατα, οι αναλυτές της εξόρυξης δεδομένων (data mining) και της μηχανικής μάθησης (machine learning) έχουν επίσης αναπτύξει τεχνικές για τον εντοπισμό της μη φυσιολογικής συμπεριφοράς σε σύνολα δεδομένων.
Σκοπός της παρούσας διπλωματικής εργασίας είναι, αρχικά, να παρουσιάσει τις κατηγορίες των διαφόρων μεθόδων για την ανίχνευση ακραίων σημείων, οι οποίες έχουν αναπτυχθεί στο πέρασμα του χρόνου και τα πεδία στα οποία βρίσκει εφαρμογή η ανάλυση τέτοιων δεδομένων. Στη συνέχεια, θα παρουσιαστούν, πιο συγκεκριμένα, χρησιμοποιούμενες μέθοδοι για την ανίχνευση εξαιρέσεων σε δεδομένα χρονολογικών σειρών. Τελικά, με τη χρήση της στατιστικής γλώσσας προγραμματισμού R, οι παραπάνω μέθοδοι θα εφαρμοστούν σε δεδομένα πωλήσεων ταχυκίνητων καταναλωτικών προϊόντων και θα δοθούν συμπεράσματα.
Technology advancement has led to the development of computers, software and storage units which have the ability to daily collect, organize and store large volumes of data. In recent years, outlier detection, meaning the discovery of rare or unusual events or exceptions has gained much interest as it is an important step in data analysis. The significance of outlier detection is due to the fact that outliers can provide useful knowledge which will lead to proper decision making for the analyst, although they can be misconceived as errors or noise. The ultimate goal of outlier detection is preventing errors, quality improvement and profit. Outlier detection is applicable to a wide range of applications including detection of credit card fraud, intrusion detection, weather forecasting, marketing, consumer behaviour analysis and so on. Statistics has traditionally developed outlier detection methods. More recently data mining and machine learning analysts have also developed techniques for detecting anomalous behaviour in datasets.
The goal of this thesis is to present the categories of outlier detection methods which have been developed over time. Popular application domains of outlier detection will be discussed. Methods used in outlier detection specifically to time series data will then be presented. Using the R programming language the above techniques will be applied on fast-moving consumer goods sales data. Finally, conclusions will be drawn.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Συγκριτική ανάλυση μεθόδων ανίχνευσης ακραίων σημείων με εφαρμογή σε πωλήσεις ταχυκίνητων καταναλωτικών αγαθών. - Identifier: 157947
Internal display of the 157947 entity interconnections (Node labels correspond to identifiers)