- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 21 September 2025
- Ελληνικά
- 91
- ΔΗΜΗΤΡΙΟΣ ΚΑΡΑΠΙΠΕΡΗΣ
- ΔΗΜΗΤΡΙΟΣ ΑΜΑΝΑΤΙΔΗΣ | ΒΕΡΥΚΙΟΣ ΒΑΣΙΛΕΙΟΣ
- Μεγάλα Γλωσσικά Μοντέλα (LLM) | Αντιστοίχιση Εγγραφών | Ενσωματώσεις Διανυσμάτων | Δομημένα Δεδομένα | Επεξεργασία Φυσικής Γλώσσας (NLP)
- Μηχανική Μάθηση - Μεγάλα Γλωσσικά Μοντέλα
- 49
-
-
Αυτή η διατριβή εστιάζει στις δυνατότητες μεγάλων γλωσσικών μοντέλων (LLM), όπως τα BERT και DistilBERT, στην ενίσχυση της ακρίβειας της αντιστοίχισης εγγραφών που περιλαμβάνουν αλφαριθμητικά πεδία εντός διανυσματικών χώρων. Ο κύριος στόχος είναι η αξιολόγηση των προτεινόμενων μεθόδων αυτών των μοντέλων, καταδεικνύοντας πώς μπορούν να διατηρήσουν την ομοιότητα κειμένου και να καταγράψουν τις σχεσιακές εξαρτήσεις κατά την ενσωμάτωση δεδομένων. Η μελέτη περιλαμβάνει μια αξιολόγηση αρχιτεκτονικών μοντέλων, στόχους προεκπαίδευσης και στρατηγικές βελτίωσης για την κατανόηση της αποτελεσματικότητας των διανυσματικών αναπαραστάσεων. Μετά την ολοκλήρωσή της, η παρούσα εργασία στοχεύει στην προώθηση του τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP) και των συστημάτων διαχείρισης δεδομένων, παρουσιάζοντας πώς τα LLM μπορούν να βελτιώσουν τόσο την ακρίβεια αντιστοίχισης όσο και τη σημασιολογική συνέπεια σε δομημένα αρχεία.
-
This thesis focuses on the capabilities of large language models (LLMs), such as BERT and DistilBERT, in enhancing the accuracy of record matching involving alphanumeric fields within vector spaces. The primary objective is to evaluate the proposed methods of these models, demonstrating how they can preserve textual similarity and capture relational dependencies during data embedding. The study includes an assessment of model architectures, pretraining objectives, and refinement strategies to understand the effectiveness of vector representations. Upon its completion, this work aims to contribute to the fields of Natural Language Processing (NLP) and data management systems by illustrating how LLMs can improve both matching accuracy and semantic consistency in structured records.
-
- Hellenic Open University
- Αναφορά Δημιουργού 4.0 Διεθνές
Χρήση μεγάλων γλωσσικών μοντέλων για την ενσωμάτωση εγγραφών σε διανυσματικούς χώρους με τη μεγαλύτερη δυνατή ακρίβεια.
Use of large language models for embedding records into vector spaces with the highest possible accuracy. (english)
Main Files
Χρήση μεγάλων γλωσσικών μοντέλων για την ενσωμάτωση εγγραφών σε διανυσματικούς χώρους με τη μεγαλύτερη δυνατή ακρίβεια.
Description: Χρήση μεγάλων γλωσσικών μοντέλων για την ενσωμάτωση εγγραφών σε διανυσματικούς χώρους με τη μεγαλύτερη δυνατή ακρίβεια..pdf (pdf) Book Reader
Size: 1.3 MB

