Μελέτη της μεροληψίας σε αλγόριθμους αντιστοίχισης οντοτήτων

  1. MSc thesis
  2. ΑΡΓΥΡΩ ΑΒΡΟΝΙΔΑΚΗ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 16 Μαίου 2026
  5. Ελληνικά
  6. 63
  7. Καρακασίδης, Αλέξανδρος
  8. Entity resolution | algorithmic bias | algorithmic fairness | Splink
  9. Μεταπτυχιακή Διπλωματική Εργασία/ΠΛΣΔΕ
  10. 5
  11. 23
    • Η παρούσα εργασία μελετά συστηματικά το φαινόμενο της μεροληψίας κατά την αντιστοίχιση οντοτήτων, εφαρμόζοντας το λογισμικό πιθανολογικής αντιστοίχισης εγγραφών Splink σε δείγμα της βάσης North Carolina Voters. Η μεθοδολογία ακολουθεί διαδικασία πέντε βημάτων που περιλαμβάνει την προετοιμασία των δεδομένων με δημιουργία μοναδικών αναγνωριστικών, τον εμπλουτισμό με πρόβλεψη εθνοτικής ομάδας μέσω του πακέτου rethnicity της γλώσσας R, την εκπαίδευση πιθανολογικού μοντέλου βάσει του μοντέλου Fellegi-Sunter και του αλγορίθμου Expectation-Maximization, την εξαγωγή συμπερασμάτων σε δείγμα δέκα χιλιάδων εγγραφών ανά αρχείο και τέλος τον υπολογισμό εξειδικευμένων μετρικών μεροληψίας. Ως backend εκτέλεσης αξιοποιείται η μηχανή DuckDB, ενώ για την ανάλυση της δικαιοσύνης χρησιμοποιούνται τρεις μετρικές: ο Λόγος Ανισομερούς Αντίκτυπου, η Διαφορά Ίσων Ευκαιριών και ο συντελεστής συσχέτισης Matthews. Οι τέσσερις εθνοτικές ομάδες που εξετάζονται αντιστοιχούν στις κατηγορίες που προβλέπει το πακέτο rethnicity (white, black, asian και hispanic). Τα αποτελέσματα αναδεικνύουν ενδείξεις ουσιώδους διαφοροποίησης της απόδοσης του εξεταζόμενου συστήματος μεταξύ των υπό μελέτη ομάδων, με τον Λόγο Ανισομερούς Αντίκτυπου να υπολογίζεται σε 0,5103, τιμή σημαντικά χαμηλότερη του κατωφλίου αποδοχής 0,80, και τη Διαφορά Ίσων Ευκαιριών στις -38,65 ποσοστιαίες μονάδες. Ενδιαφέρον παρουσιάζει η αντιδιαισθητική κατεύθυνση της μεροληψίας, καθώς οι πληθυσμιακά μεγαλύτερες ομάδες εμφάνισαν χαμηλότερες τιμές precision σε σύγκριση με ορισμένες μειοψηφικές ομάδες, εύρημα που ενδέχεται να σχετίζεται με τη μειωμένη διακριτικότητα των ονοματεπωνυμικών πεδίων σε ομάδες με υψηλή επανάληψη ονομάτων. Τα ευρήματα υπογραμμίζουν τη σημασία της πολυδιάστατης αξιολόγησης της αλγοριθμικής δικαιοσύνης και αναδεικνύουν την ανάγκη προσεκτικού σχεδιασμού συστημάτων αντιστοίχισης εγγραφών σε εφαρμογές μεγάλης κοινωνικής σημασίας.

  12. Hellenic Open University
  13. Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές