Ανάπτυξη Μηχανισμών Αυτόματης Κατηγοριοποίησης Νομικών Κειμένων

  1. Bachelor’s thesis
  2. ΤΟΠΟΥΡΤΗΣ, ΔΗΜΗΤΡΙΟΣ
  3. Πληροφορική (ΠΛΗ)
  4. 2016 [2016]
  5. Ελληνικά
  6. 116
  7. ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ, ΙΩΑΝΝΗΣ
  8. Νομικές Πηγές | Μηχανική μάθηση | VFI | Naïve Bayes | Probabilistic Label Identification
  9. 0
  10. 0
    • Σκοπός της παρούσας πτυχιακής είναι να συμβάλει στην δημιουργία μιας εφαρμογής που θα προσδιορίζει αυτόματα κατηγορίες σε νομικές αποφάσεις του Αρείου Πάγου, οι οποίες όμως δεν ανήκουν μονοσήμαντα σε μία μόνο κατηγορία. Μεθοδολογικά, το εγχείρημα βασίζεται σε συμπεράσματα μελετών που αφορούν μεθόδους επεξεργασίας και ταξινόμησης κειμένων με πολλαπλές ετικέτες (multi-label classification problem), καθώς και μεθόδους μηχανικής μάθησης. Σε πρώτο στάδιο μελετήθηκε το περιβάλλον του ιστότοπου του Αρείου Πάγου, η δομή μιας νομικής απόφασης του Αρείου Πάγου και η έννοια της νομικής αναφοράς. Για την δημιουργία δεδομένων εκπαίδευσης μελετήθηκαν οι περιορισμοί που προκύπτουν στο περιβάλλον του ιστότοπου του Αρείου Πάγου και με την βοήθεια προγραμμάτων σε γλώσσα Python, εξήχθησαν τα διανύσματα εκπαίδευσης. Τα διανύσματα αυτά αποτέλεσαν είσοδο στο περιβάλλον της πλατφόρμας Weka. Αφού μετρήθηκαν και αξιολογήθηκαν τα αποτελέσματα όλων των ταξινομητών του Weka, επιλέχθηκαν οι καλύτεροι ταξινομητές βάσει απόδοσης (Naïve Bayes και VFI) με σκοπό την ενδελεχή έρευνα της επίδρασης γνωστών τεχνικών μηχανικής μάθησης. Τέλος, προτάθηκε μία μεθοδολογική προσέγγιση (Πιθανοτικός Προσδιορισμός Ετικέτας – ΠΠΕ), η οποία μπορεί να επαναπροσδιορίσει πιθανοτικά συναφείς ετικέτες σε περίπτωση εσφαλμένης αυτόματης επισήμανσης σε συγκεκριμένη κατηγορία μέσω ενός δικτύου συνάφειας.
    • This dissertation aims at developing a methodology for automatic classification of legal documents of the supreme court of Greece (Άρειος Πάγος).These decisions do not belong to a single category (label), thus we tackle a multi-label classification problem through classical machine learning methods. At first, we describe the dataset used, the structure of a legal decisions we employ as learning and test set, as well as the role of legal references as knowledge representation vector features. For transforming text to WEKA machine-learning readable vectors, we use traditional text mining and information retrieval techniques through the Python programming framework. After exhaustive evaluations across numerous WEKA machine-learning and classification methods, we ended up to the best methodology that suits to our multi-label classification problem. Finally, we propose a generic propabilistic evaluation methodology (ProbabilisticLabelIdentification) for measuring the classification accuracy of any selected classifier that can be used for the problem addressed and we discuss the possible future extensions of this work.
  11. Hellenic Open University
  12. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.