Development and Evaluation of a Novel Genomic Data Anonymization Tool

  1. MSc thesis
  2. ΜΑΡΙΑ-ΜΥΡΣΙΝΗ ΓΟΥΝΑΡΗ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 07 March 2026
  5. Αγγλικά
  6. 80
  7. ΧΑΡΙΔΗΜΟΣ ΚΟΝΔΥΛΑΚΗΣ
  8. ΕΛΕΥΘΕΡΙΟΣ ΚΟΥΜΑΚΗΣ | ΘΕΜΙΣΤΟΚΛΗΣ ΕΞΑΡΧΟΣ
  9. Genomic data privacy; Anonymization; Hybrid allele frequency filtering; BAMboozle; k-anonymity; ℓ-diversity; Shannon entropy; Mutual information; Privacy–utility trade-off; Cloud computing; Precision medicine.
  10. Βιοπληροφορική και Νευροπληροφορική/ΒΝΠΔΕ
  11. 2
  12. 43
    • The advent of genomic research and population-level sequencing has driven huge advances in precision medicine and population genetics. Yet genomic sequences are by nature identifying, hence evoke serious privacy and ethical concerns—every single person’s genome can divulge ancestry, genetic traits, and risk for disease. This has made the protection and continued utility of these data a leading challenge in bioinformatics and data governance. To address this challenge, this study experimentally compares two anonymization strategies for genomic sequencing data:
      BAMboozle, a comprehensive read-level anonymization tool, and a hybrid allele-frequency–based method, removing variants below a configurable minor allele frequency (MAF) threshold. The anonymization pipeline was run in Google Cloud and combines existing bioinformatic tools including including Samtools, BCFtools, and pysam with custom Python scripts for privacy metric computations. To simulate realistic anonymization data, an actual genomic sequence was used from the 1000 Genomes Project (sample NA06985, chromosome 22) aligned to the GRCh38
      reference genome were combined with population reference data from gnomAD.
      BAMboozle uses full read-level sanitization and removes all individual variant information from BAM files, while the hybrid approach effectively masks rare variants below a certain MAF threshold. The effectiveness of each approach was tested using information-theoretic and privacy metrics such as Shannon entropy, mutual information, variant concordance, ΔMAF divergence, rare-variant retention rates, k-anonymity, and ℓ-diversity. Results confirmed that BAMboozle reaches complete anonymization, generating entropy and mutual information to zero while eliminating all variants, thus maximizing privacy but reducing analytical utility. Both methods effectively removed all rare variants below aa given threshold, meaning that the methods minimize the risk of re-identifying the variant. These results indicate
      the privacy requirement for genomics to remain intact. While BAMboozle forms an excellent steppingstone to complete anonymization, it could benefit from a MAF-aware filtering mode within its underlying functionality, which can allow for variant masking in a controlled way compared to the hybrid methods discussed above. Such an expansion could change BAMboozle from a binary anonymizer to a tuned and context-sensitive framework that balances privacy needs with the use of downstream data.
      The results this thesis provides are: (i) a replicable but cloud-ready pipeline to perform automated genomic anonymization testing: (ii) a quantitative framework to assess privacy and utility trade offs: and (iii) empirical evidence that hat highlights the disproportionate privacy risk off rare variants. Collectively, these contributions assist towards the goal of secure, ethical, and scientifically valuable sharing of genomic data. 

    • Η ταχεια ανάπτυξη της γονιδιωματικής έρευνας και της αλληλούχησης έχει επηρεάσει την προσέγγιση της εξατομικευμένης ιατρικής και της γενετικής του πληθυσμού. Ωστόσο, η εγγενώς ευαίσθητη φύση των γονιδιωματικών δεδομένων δημιουργεί σημαντικές προκλήσεις σχετικά με την προστασία των προσωπικών δεδομένων, καθώς το ανθρώπινο γονιδίωμα μπορεί να ταυτοποιήσει μοναδικά ένα άτομο και να αποκαλύψει πληροφορίες για την καταγωγή, τα κληρονομικά χαρακτηριστικά και τον κίνδυνο ασθενειών. Η παρούσα εργασία αντιμετωπίζει αυτό το ζήτημα συγκρίνοντας δύο διαφορετικές στρατηγικές ανωνυμοποίησης γονιδιωματικών δεδομένων: το BAMboozle, ένα εργαλείο πλήρους ανωνυμοποίησης σε επίπεδο αναγνωσμάτων (read-level), και μία υβριδική προσέγγιση βασισμένη στη συχνότητα των αλληλομόρφων (MAF), η οποία αποκρύπτει επιλεκτικά σπάνιες παραλλαγές κάτω από ένα καθορισμένο κατώφλι συχνότητας. Η μελέτη πραγματοποιήθηκε σε περιβάλλον που δημθουργήθηκε στο Google Cloud, συνδυάζοντας εργαλεία βιοπληροφορικής όπως τα Samtools, BCFtools και pysam με Python scripts για αυτοματοποιημένη ανωνυμοποίηση και υπολογισμό μετρικών. Τα δεδομένα προήλθαν από το δείγμα NA06985 του 1000 Genomes Project (επιλέχθηκε το χρωμόσωμα 22), ευθυγραμμισμένα στο αναφοράς γονιδίωμα GRCh38.
      Η αξιολόγηση βασίστηκε σε ένα ποσοτικό πλαίσιο μετρήσεων, που συνδύασε μια πληθώρα μετρικών: Εντροπία Shannon, Αμοιβαία Πληροφορία, Συμφωνία Παραλλαγών, Απόκλιση ΔΜΑF (ΔMAF), Ποσοστό Διατήρησης Σπάνιων Παραλλαγών, k-Ανωνυμία και ℓ-Διαφορετικότητα. Τα αποτελέσματα έδειξαν ότι το BAMboozle εξασφαλίζει πλήρη ιδιωτικότητα εξαλείφοντας κάθε παραλλαγή, αλλά με μηδενική χρησιμότητα δεδομένων. Αντίθετα, η υβριδική μέθοδος επιτυγχάνει ισορροπία μεταξύ προστασίας και χρησιμότητας, διατηρώντας υψηλή πληροφοριακή αξία ενώ μειώνει τον κίνδυνο ταυτοποίησης. Συνολικά, η εργασία αυτή συμβάλλει στη δημιουργία ενός ποσοτικού, διαφανούς και επαναλήψιμου πλαισίου αξιολόγησης ανωνυμοποίησης, υπογραμμίζοντας τη σημασία των παραμετροποιημένων, ευαίσθητων στο πλαίσιο προσεγγίσεων για την προστασία της γονιδιωματικής ιδιωτικότητας. Παράλληλα, προτείνει τη μελλοντική ενσωμάτωση φίλτρων MAF στο BAMboozle, ώστε να επιτευχθεί πιο ευέλικτη και ισορροπημένη ανωνυμοποίηση. Τα ευρήματα υποστηρίζουν τη δυνατότητα ασφαλούς, υπεύθυνης και επιστημονικά χρήσιμης κοινοποίησης γονιδιωματικών δεδομένων.

  13. Hellenic Open University
  14. Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές