- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 21 Σεπτεμβρίου 2024
- Ελληνικά
- 81
- ΔΗΜΗΤΡΙΟΣ ΚΑΡΑΠΙΠΕΡΗΣ
- ΚΑΡΑΠΙΠΕΡΗΣ, ΔΗΜΗΤΡΙΟΣ | ΚΑΛΛΕΣ , ΔΗΜΗΤΡΙΟΣ | ΑΛΕΞΑΝΔΡΟΣ ΚΑΡΑΚΑΣΙΔΗΣ | ΒΕΡΥΚΙΟΣ ΒΑΣΙΛΕΙΟΣ
- NLU, embeddings, vector spaces, word2vec, bert, allenai-specter, lsh, record linkage
- ΠΛΣΔΕ
- 1
- 15
-
-
Στην επεξεργασία φυσικής γλώσσας (Natural Language Processing), η ενσωμάτωση κειμένου σε έναν διανυσματικό χώρο κωδικοποιεί τη σημασία αυτού του κειμένου για να απαντηθούν επιτυχώς ερωτήματα αναζήτησης παρόμοιου κειμένου.
Στην παρούσα εργασία θα αξιολογηθεί αν αυτές οι τεχνικές ενσωμάτωσης, μπορεί να φανούν χρήσιμες και για τη διαδικασία της σύνδεσης εγγραφών (record linkage)
Επομένως, ο στόχος της παρούσας διπλωματικής είναι (α) η αποτελεσματική ενσωμάτωση αλφαριθμητικών πεδίων εγγραφών σε έναν διανυσματικό χώρο όπου θα διατηρούνται οι αρχικές αποστάσεις και (β) η εφαρμογή κατάλληλων blocking/matching τεχνικών για την αποτελεσματική κατάρτιση ζευγών εγγραφών στο πλαίσιο μιας εργασίας σύνδεσης εγγραφών (Record Linkage)
Η ενσωμάτωση λέξεων/προτάσεων/κειμένου μπορεί να επιτευχθεί χρησιμοποιώντας ένα σύνολο γλωσσικών τεχνικών μοντελοποίησης και χαρακτηριστικών τεχνικών εκμάθησης όπου εγγραφές αποτελούμενες από αλφαριθμητικά ή αριθμούς αντιστοιχίζονται σε διανύσματα πραγματικών αριθμών. Υπάρχουν διάφορα μοντέλα και προσεγγίσεις για τη δημιουργία των ενσωματώσεων.
Στο πλαίσιο της παρούσας διπλωματικής γίνεται χρήση των μοντέλων Word2Vec, Glove, FastText BERT και allenai-specter για την ενσωμάτωση στο πλαίσιο της σύνδεσης εγγραφών
-
In Natural Language Processing, embedding text into a vector space encodes the semantics of that text to successfully answer search queries for similar text.
In this dissertation we will try to evaluate if these embedding models and techniques can prove useful in the context of record linkage.
More specifically, the objective of this dissertation is (a) the efficient integration of alphanumeric fields of records into a vector space where the original distances will be preserved and (b) the application of appropriate blocking/matching techniques to efficiently identify pairs of records in the context of a record linking task (Record Linkage)
Word/sentence/text embedding can be achieved by using a set of language modeling techniques and feature learning techniques, where records consisting of alphanumerics or numbers are mapped to vectors of real numbers.
In the context of this dissertation, the embedding models of Word2Vec, Glove, FastText BERT and allenai-specter will be used to generate text embeddings in the context of record linkage.
-
- Hellenic Open University
- Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές
Σύνδεση εγγραφών με χρήση διανυσματικών χώρων
Record linkage using vector spaces (Αγγλική)
Κύρια Αρχεία Διατριβής
- record linkage using vector spaces
Περιγραφή: Record linkage using vector spaces.pdf (pdf) Book Reader
Μέγεθος: 2.3 MB