Η παρούσα διπλωματική εργασία πραγματεύεται τη διασύνδεση εγγραφών με ταυτόχρονη διατήρηση της ιδιωτικότητας και χρήση της μεθόδου Federated Learning. Για το σκοπό αυτό χρησιμοποιήθηκαν δύο σύνολα εγγραφών, με τρία χαρακτηριστικά το καθένα και ένα σύνολο αναφοράς, προκειμένου να αποφύγουμε τις απευθείας συγκρίσεις ομοιότητας μεταξύ των εγγραφών. Επίσης, για να αξιολογηθεί η μέθοδος Federated Learning, αναπτύξαμε έναν αλγόριθμο που βασίζεται στη μέθοδο του αλγορίθμου κατηγοριοποίησης που παρουσιάζει ο Peter Christen. Αρχικά, υλοποιήσαμε τις μεθόδους μας χωρίς τη χρήση των συνόλων αναφοράς, κάναμε χρήση του κατηγοριοποιητή SVM για το διαχωρισμό των ζευγών εγγραφών και καταγράψαμε τις επιδόσεις τους με τη βοήθεια των μετρικών Recall και Precision. Στη συνέχεια, ενσωματώσαμε στους αλγόριθμους τα σύνολα αναφοράς και επαναλάβαμε την υλοποίηση. Και σε αυτή την περίπτωση καταγράψαμε τις επιδοσεις, ώστε στο τέλος να αποφανθούμε για τη μέθοδο που επιτυγχάνει τα καλύτερα αποτελέσματα. Ολοκληρώνοντας την εργασία καταλήγουμε ότι η χρήση του συνόλου αναφοράς ως μέσο αποφυγής των απευθείας συγκρίσεων των εγγραφών, η χρήση του κατηγοριοποιητή SVM για τον διαχωρισμό των δεδομένων σε κλάσεις και η προσομοίωση ενός περιβάλλοντος Federated Learning μας απέφεραν τα βέλτιστα αποτελέσματα.
The present thesis is dealing with privacy preserving record linkage using Federated Learning method. For this reason, two datasets were used, including three features each and a reference set, so as to avoid direct similarity comparisons between the records. In addition, in order to evaluate the Federated Learning method, we created an algorithm which is based on the method of the classification algorithm presented by Peter Christen. In the beginning, we implemented our methods without using the reference sets, applied the SVM classifier to separate the record pairs into classes and recorded their scores by using Recall and Precision metrics. The next step was to insert the reference sets to the algorithms and repeat the execution. Also in this case, we wrote down the scores, in order to decide which method achieves the best results. Finishing this thesis, we conclude that the use of a reference set as a way to avoid direct entity resolutions, the application of the SVM classifier to separate the record pairs into classes and the simulation of a Federated Learning environment achieved the best results.
Σύνδεση Εγγραφών με Ταυτόχρονη Διατήρηση της Ιδιωτικότητας με Χρήση της Μεθόδου Federated Learning Description: 130912_ΒΛΑΧΟΥ_ΜΑΡΘΑ.pdf (pdf)
Book Reader Licence: Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές Info: ΚΥΡΙΩΣ ΣΩΜΑ ΔΙΠΛΩΜΑΤΙΚΗΣ Size: 2.4 MB
Σύνδεση Εγγραφών με Ταυτόχρονη Διατήρηση της Ιδιωτικότητας με Χρήση της Μεθόδου Federated Learning - Identifier: 160302
Internal display of the 160302 entity interconnections (Node labels correspond to identifiers)