- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 18 May 2025
- Ελληνικά
- 200
- Φερετζάκης Γεώργιος
- Φερετζάκης Γεώργιος | Καλλές Δημήτριος | Βερύκιος Βασίλης
- Διαφορική Ιδιωτικότητα, DP-SGD Αλγόριθμος, Ιατρικά Δεδομένα Ασθενών, Προστασία Προσωπικών Δεδομένων, Ρύθμιση Υπερπαραμέτρων, DP, DP-SGD Algorithm, Patient Medical Data, Personal Data Protection, Hyperparameter Tuning.
- ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΞΕΙΔΙΚΕΥΣΗ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
- 2
- 64
- Περιλαμβάνει: Πίνακες, διαγράμματα, εικόνες/σχήματα, παραρτήματα
-
-
Η παρούσα εργασία εξετάζει την εφαρμογή της διαφορικής ιδιωτικότητας μέσω του αλγορίθμου Differentially Private Stochastic Gradient Descent - DP-SGD στη μηχανική μάθηση για ιατρικά δεδομένα, εστιάζοντας στην επίδραση διαφορετικών υπερπαραμέτρων (learning rate, noise multiplier, clipping norm, batch size) στην απόδοση των μοντέλων. Η μελέτη βασίστηκε σε δύο σύνολα δεδομένων: το Heart Disease Dataset και το Cardiovascular Disease Dataset. Τα αποτελέσματα ανέδειξαν ότι υψηλές τιμές του πολλαπλασιαστή θορύβου, αν και ενισχύουν την ιδιωτικότητα, μειώνουν την ακρίβεια των μοντέλων. Παρομοίως, αυστηρή αποκοπή των gradients οδηγεί σε απώλεια πληροφορίας και χαμηλότερη απόδοση. Ωστόσο, μετριοπαθείς ρυθμίσεις επιτρέπουν την επίτευξη ισορροπίας μεταξύ προστασίας ιδιωτικότητας και χρησιμότητας των προβλέψεων. Η σύγκριση των δύο datasets έδειξε ότι το Cardiovascular Dataset, λόγω του μεγαλύτερου όγκου του, παρουσίασε πιο σταθερή απόδοση υπό DP-SGD, ενώ το μικρότερο Heart Dataset ήταν πιο ευάλωτο στις επιπτώσεις του θορύβου. Επιπλέον, η ανάλυση μέσω heatmaps και συγκριτικών πινάκων αποκάλυψε ότι συγκεκριμένοι συνδυασμοί learning rate και batch size επηρεάζουν καθοριστικά την απόδοση των μοντέλων. Ιδιαίτερα, η χρήση υψηλού learning rate επιδεινώνει τα αποτελέσματα, ειδικά σε μεγάλα datasets, ενώ μικρότερα rates με μικρό batch size οδηγούν σε σταθερότερη απόδοση. Η εργασία καταλήγει στο ότι η επιτυχής εφαρμογή της διαφορικής ιδιωτικότητας εξαρτάται όχι μόνο από την επιλογή του αλγορίθμου, αλλά από μια στρατηγική που συνδυάζει επάρκεια δεδομένων, σωστή παραμετροποίηση και εργαλεία ανάλυσης.
-
This study examines the application of DP (DP) through the Differentially Private Stochastic Gradient Descent (DP-SGD) algorithm in machine learning for medical data, focusing on the impact of different hyperparameters (learning rate, noise multiplier, clipping norm, batch size) on model performance. The analysis was conducted using two datasets: the Heart Disease Dataset and the Cardiovascular Disease Dataset. Results showed that high noise multiplier values, although beneficial for privacy, reduced model accuracy. Similarly, aggressive gradient clipping led to information loss and lower performance. However, moderate hyperparameter settings allowed for a balance between privacy protection and predictive utility.
Comparing the two datasets, the larger Cardiovascular Dataset demonstrated more stable performance under DP-SGD, while the smaller Heart Dataset was more vulnerable to the effects of noise. Further analysis using heatmaps and comparative tables revealed that specific combinations of learning rate and batch size significantly influence model outcomes. In particular, high learning rates led to performance degradation, especially in larger datasets, whereas lower rates with smaller batch sizes yielded more consistent results.
The findings suggest that the successful implementation of DP depends not only on the algorithm used, but also on a broader strategy that includes sufficient data volume, careful hyperparameter tuning, and appropriate analysis tools.
-
- Hellenic Open University
- Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Μηχανική Μάθηση με Προστασία Ιδιωτικότητας στην Υγεία: Εφαρμογή DP-SGD σε Δεδομένα Ασθενών
Privacy-Preserving Machine Learning in Healthcare: Applying DP-SGD to Patient Data (english)
Main Files
- Κύριο μέρος της Διπλωματικής
Description: ΔΕ_ΖΟΥΛΙΑΤΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ_2025.pdf (pdf) Book Reader
Size: 3.7 MB