Αυτόματη ταξινόμηση νομικών κειμένων σε θέματα της Ευρωπαϊκής Σύμβασης για τα Δικαιώματα του Ανθρώπου (ΕΣΔΑ)

Automatic legal text classification on European Convention on Human Rights (ECHR) cases (Αγγλική)

  1. MSc thesis
  2. ΕΥΡΙΠΙΔΗΣ ΒΑΚΑΛΗΣ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 20 Σεπτεμβρίου 2025
  5. Ελληνικά
  6. 85
  7. Ιωάννης Ρεφανίδης
  8. Ιωάννης Ρεφανίδης | Γεώργιος Παπαμιχαήλ | Μιχαήλ Βασιλακόπουλος
  9. Αυτόματη Ταξινόμηση Κειμένων, Τεχνητή Νοημοσύνη, Επεξεργασία Φυσικής Γλώσσας, Ευρωπαϊκή Σύμβαση για τα Δικαιώματα του Ανθρώπου, Νομικά Δεδομένα, Μηχανική Μάθηση, Βαθιά Μάθηση, Νευρωνικά Δίκτυα, Μετασχηματιστές, Ισχυρή Ανωνυμοποίηση
  10. ΠΛΣΔΕ - Μεταπτυχιακή Διπλωματική Εργασία
  11. 11
    • Η αυξανόμενη παραγωγή νομικών εγγράφων, σε συνδυασμό με την απαίτηση για ταχεία και αποτελεσματική πρόσβαση στη σχετική νομική πληροφορία, καθιστούν αναγκαία την αυτοματοποίηση στην επεξεργασία τους. Η παρούσα διπλωματική εργασία επικεντρώνεται στην ανάπτυξη και αξιολόγηση ενός τέτοιου συστήματος αυτόματης ταξινόμησης νομικών κειμένων σε θεματικές κατηγορίες που αντιστοιχούν στα άρθρα της Ευρωπαϊκής Σύμβασης Δικαιωμάτων του Ανθρώπου (ΕΣΔΑ).

      Κύριος στόχος της είναι η συγκριτική αξιολόγηση διαφόρων αλγορίθμων μηχανικής μάθησης ως προς την αποτελεσματικότητά τους στην κατηγοριοποίηση νομικών εγγράφων. Η αυτόματη ταξινόμηση νομικών κειμένων συνιστά μια εφαρμογή της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) στον τομέα της Νομικής Επιστήμης, καθώς συμβάλει στην αποδοτικότερη διαχείριση, αναζήτηση και ανάλυση εκτεταμένου όγκου νομικών δεδομένων.

      Προς επίτευξη του ανωτέρω στόχου, σχεδιάστηκαν, υλοποιήθηκαν και αξιολογήθηκαν πέντε μοντέλα, τα οποία καλύπτουν τόσο παραδοσιακές τεχνικές μηχανικής μάθησης όσο και αρχιτεκτονικές βαθιάς μάθησης. Συγκεκριμένα, εξετάστηκαν οι αλγόριθμοι: XGBoost, Linear Support Vector Classifier (LinearSVC), Multi-layer Perceptron Classifier (MLP Classifier), Multi-layer Perceptron Classifier με K-Fold (MLP Classifier w/ K-Fold), καθώς και ένα προεκπαιδευμένο μοντέλο βασισμένο στην αρχιτεκτονική Μετασχηματιστών (Transformer), το DistilBERT. Τα νομικά κείμενα που αποτέλεσαν το σώμα δεδομένων (corpus) υπέστησαν προ-επεξεργασία και μετατράπηκαν σε κατάλληλες αναπαραστάσεις (TF-IDF, embeddings). Υπογραμμίζεται ότι το σύνολο δεδομένων ανωνυμοποιήθηκε ισχυρά πριν από οποιαδήποτε διαδικασία εκπαίδευσης των μοντέλων για την προστασία των προσωπικών δεδομένων και την αποφυγή μεροληψίας από αυτά.

      Η απόδοση των μοντέλων αξιολογήθηκε ποσοτικά μέσω καθιερωμένων μετρικών ταξινόμησης, όπως η Ορθότητα (Accuracy), η Ευστοχία (Precision), η Ανάκληση (Recall) και η μέτρηση F1 (F1-score). Η συγκριτική ανάλυση των αποτελεσμάτων ανέδειξε το μοντέλο DistilBERT ως το πλέον αποτελεσματικό, ιδίως σε κατανόηση συμφραζομένων (context) εντός των εξειδικευμένων νομικών κειμένων.

      Τα ευρήματα καταδεικνύουν την πρακτική δυνατότητα για αποτελεσματική αυτόματη ταξινόμηση κειμένων, τη χρησιμότητα της Τεχνητής Νοημοσύνης στο Δίκαιο και τις δυνατότητες των μεθόδων ΕΦΓ για την υποστήριξη της πρόσβασης στη νομική γνώση και την επιτάχυνση της έρευνας στο πεδίο αυτό.

    • The increasing production of legal documents, combined with the demand for rapid and effective access to relevant legal information, necessitates automation in their processing. This thesis focuses on the development and evaluation of such a system for the automatic classification of legal texts into thematic categories corresponding to the articles of the European Convention on Human Rights (ECHR).

      Its main objective is the comparative evaluation of various machine learning algorithms regarding their effectiveness in categorizing legal documents. The automatic classification of legal texts constitutes an application of Natural Language Processing (NLP) in the field of Legal Science, as it contributes to the more efficient management, retrieval, and analysis of extensive volumes of legal data.

      To achieve the above objective, five models were designed, implemented, and evaluated, covering both traditional machine learning techniques and deep learning architectures. Specifically, the algorithms examined were: XGBoost, Linear Support Vector Classifier (LinearSVC), Multi-layer Perceptron Classifier (MLP Classifier), Multi-layer Perceptron Classifier with K-Fold (MLP Classifier w/ K-Fold), as well as a pre-trained model based on the Transformer architecture, DistilBERT. The legal texts that formed the data corpus underwent preprocessing and were converted into suitable representations (TF-IDF, embeddings). It is emphasized that the dataset was strongly anonymized before any model training process to protect personal data and avoid bias stemming from it.

      The performance of the models was quantitatively evaluated using established classification metrics, such as Accuracy, Precision, Recall, and F1-score. The comparative analysis of the results highlighted the DistilBERT model as the most effective, particularly in understanding context within specialized legal texts.

      The findings demonstrate the practical feasibility of effective automatic text classification, the utility of Artificial Intelligence in Law, and the potential of NLP methods to support access to legal knowledge and accelerate research in this field.

  12. Hellenic Open University
  13. Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές