Ζούμε στην ψηφιακή εποχή, μια εποχή που όλο και περισσότερα δεδομένα συλλέγονται, αποθηκεύονται και επεξεργάζονται.
Το ζήτημα της ανάλυσης μεγάλων ποσοτήτων δεδομένων, διατηρώντας παράλληλα την ιδιωτικότητα, είναι ένα από τα πλέον επίκαιρα θέματα του παγκόσμιου κοινωνικού διαλόγου, απασχολώντας μια ευρεία γκάμα επιστημόνων.
Κατά τη διάρκεια της σύντομης ψηφιακής ιστορίας, έγιναν πολλές αποτυχημένες προσπάθειες, δείχνοντας ότι η συλλογιστική για την προστασία της ιδιωτικότητας των δεδομένων είναι γεμάτη παγίδες. Αυτό προκάλεσε αυξημένο ενδιαφέρον για έναν μαθηματικά αξιόπιστο ορισμό της ιδιωτικότητας.
Η παρούσα εργασία ασχολείται με την διασφάλιση της ιδιωτικότητας σε συλλογές προσωπικών δεδομένων. Αρχικά αναλύουμε τις σύγχρονες μεθόδους γενίκευσης, συγκρίνουμε τις επιδόσεις τους και τονίζουμε τις αδυναμίες τους, υπογραμίζοντας ότι είναι αδύνατη η απόλυτη πρόληψη αποκαλύψεων. Στη συνέχεια παρουσιάζουμε την κυριότερη μέθοδο τυχαιοποίησης, την Διαφορική Ιδιωτικότητα, η οποία αντιμετωπίζει όλες τις επί του παρόντος γνωστές επιθέσεις, έχει πολλές πρακτικές υλοποιήσεις και γνωρίζει πολλές επεκτάσεις που την καθιστούν εφαρμόσιμη σε ευρύ φάσμα καταστάσεων.
Στο τελευταίο κομμάτι της εργασίας, αναπτύσουμε αλγορίθμους τυχαιοποίησης της Διαφορικής Ιδιωτικότητας σε γλώσσα προγραμματισμού Python, και αναλύουμε τις επιδόσεις τους.
We live in the digital age, a time when more and more data is collected, stored and processed.
The question of analyzing large amounts of data, while preserving privacy, is one of the most up-to-date issues of the global social dialogue, employing a wide range of scientists.
In the course of history, many failed attempts have been made, indicating that the reasoning behind data privacy is full of traps. This has prompted increased interest in a mathematically robust definition of privacy. This paper is concerned with ensuring privacy in personal data sets. Initially, we analyze modern generalization methods, compare their performance and emphasize their weaknesses, pointing that absolute disclosure prevention is impossible. Afterwards, we present the main method of randomization, Differential Privacy, which addresses all the currently known attacks, it has many practical implementations and knows many extensions that make it applicable to a wide range of situations. In the last part of the thesis, we develop randomization algorithms of Differential Privacy in Python programming language and we analyze their performance.
Μελέτη και Αξιολόγηση Τεχνικών Ιδιωτικότητας στην Ανάλυση Δεδομένων Περιγραφή: ΜΕΛΕΤΗ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗ ΤΕΧΝΙΚΩΝ ΙΔΙΩΤΙΚΟΤΗΤΑΣ.pdf (pdf)
Book Reader Άδεια: Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές Πληροφορίες: Κυρίως σώμα διπλωματικής Μέγεθος: 2.0 MB
Μελέτη και Αξιολόγηση Τεχνικών Ιδιωτικότητας στην Ανάλυση Δεδομένων - Identifier: 77962
Internal display of the 77962 entity interconnections (Node labels correspond to identifiers)