Συσταδοποίηση, Ανάλυση σε Κύριες Συνιστώσες, Συνδιακύμανση, Μοντέλο Μίξης Γκαουσιανών
2
16
0
Η μη εποπτευόμενη μάθηση έχει ως αντικείμενο την ανάπτυξη αλγορίθμων για την ανίχνευση μοτίβων σε αταξινόμητα δεδομένα. Μία από τις μεθόδους που χρησιμοποιούνται
ευρέως είναι η συσταδοποίηση (clustering) των δεδομένων. Στην εργασία αυτή μελετάται
το μαθηματικό υπόβαθρο της συσταδοποίησης δεδομένων της μορφής τυχαίων διανυσμάτων
του R^n προερχόμενων από Μοντέλα Μίξης Γκαουσιανών Κατανομών (Gaussian Mixture
Models). Σκοπός είναι, εξετάζοντας ένα τυχαίο δείγμα των δεδομένων αυτών, να εντοπίσουμε τις παραμέτρους των κατανομών που τα περιγράφουν, και συνεπώς, την ταξινόμηση κάθε
δεδομένου σύμφωνα με αυτές, δηλαδή τη συστάδα στην οποία ανήκει. Η ταξινόμηση των
δεδομένων σε συστάδες, πραγματοποιείται με εφαρμογή του αλγόριθμου K-means στον χώρο
μειωμένης διάστασης που έχει προκύψει από την Ανάλυση σε Κύριες Συνιστώσες (PCA) του
πίνακα συνδιακύμανσης του δείγματος
Unsupervised learning is a class of algorithms developed for pattern recognition on
unlabelled data. One of the methods largely used is the clustering of data according to
some criteria. In this thesis, the mathematical background of clustering data in the form
of random R^n vectors drawn according to a Gaussian Mixture Model is studied. We aim at
locating the parameters of these distributions and thus, classify the data accordingly, by
studying only a random sample of them. The final clusters are produced by first applying
the Principal Component Analysis on the sample covariance matrix for dimensionality
reduction and secondly by applying the K-means algorithm in the reduced data space .