Αξιοποίηση Επώνυμων Οντοτήτων για την Κατηγοριοποίηση Σύντομου Κειμένου

Using named entities for classifying short text messages (Αγγλική)

  1. MSc thesis
  2. ΣΤΑΥΡΟΥΛΑ ΠΟΥΛΙΑ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 22 Σεπτεμβρίου 2024
  5. Ελληνικά
  6. 65
  7. Τζαγκαράκης, Εμμανουήλ
  8. Τζαγκαράκης Εμμανουήλ, Μαυρομμάτης Γεώργιος, Βερύκιος Βασίλειος
  9. επώνυμες οντότητες, κατηγοριοποίηση κειμένου, επεξεργασία φυσικής γλώσσας, ταξινομητές
  10. Μεταπτυχιακή Διατριβή
  11. 1
  12. 33
  13. Περιλαμβάνει: Πίνακες, Εικόνες
    • Καθώς ο όγκος των δεδομένων συνεχώς αυξάνεται, η ανάγκη εύρεσης τρόπων για την κατηγοριοποίησή τους είναι επιτακτική. Στη νέα αυτή συνθήκη σημαντικός είναι ο ρόλος της αξιοποίησης των επώνυμων οντοτήτων τόσο σε μεγαλύτερα όσο και σε μικρότερα κείμενα. Οι κατηγοριοποιητές που έχουν αναπτυχθεί με την πάροδο των χρόνων αλλά και γενικά η εξέλιξη στον κλάδο της επεξεργασία φυσικής γλώσσας και της εξόρυξης δεδομένων έχουν συμβάλλει τα μέγιστα στην διαχείριση του όγκου των ψηφιακών δεδομένων. Σε αυτή την εργασία θα προσπαθήσουμε να κατανοήσουμε την συμπεριφορά κάποιων από τους κατηγοριοποιητές που αναλύονται παρακάτω όταν τα δεδομένα που χρησιμοποιούμε προέρχονται από μία συλλογή μικρών κειμένων κυρίως από ειδησεογραφικά sites. Πρόκειται δηλαδή για μια ποσοτική προσέγγιση, εστιάζοντας στην εμπειρική αξιολόγηση μοντέλων ταξινόμησης κειμένων μέσω στατιστικής ανάλυσης. Θα χρησιμοποιηθεί η συγκεκριμένη μέθοδος εξαιτίας της καταλληλόλητας της στην δοκιμή υποθέσεων και την αξιολόγηση της αποτελεσματικότητας διαφορετικών αλγορίθμων μηχανικής μάθησης. Με τον τρόπο αυτό διευκολύνεται η σύγκριση της ακρίβειας διάφορων μοντέλων ταξινόμησης ενώ ταυτόχρονα παρέχονται πληροφορίες σχετικά με σημαντικές διαφορές που εντοπίζονται στις επιδόσεις των μοντέλων ταξινομητών στα προεπεξεργασμένα δεδομένα.
    • As the volume of data continues to grow, the need to find ways to categorize it is imperative. In this new condition, the role of use of named entities in both larger and smaller texts is important. The classifiers that have been developed over the years as well as the general development in the field of natural language processing and data mining have contributed the most to managing the volume of digital data. In this work we will try to understand the behavior of some of the classifiers analyzed below when the data we use comes from a collection of texts from news sites. It is a quantitive approach, focusing on the empirical evaluation of text classification models through statistical analysis. This particular method will be used because of its suitability for testing hypotheses and evaluating the effectiveness of different machine learning algorithms. Also facilitates the comparison of the accuracy of different classification models while simultaneously providing information about significant differences found in the performance of the classifier models on the preprocessed data.
  14. Hellenic Open University
  15. Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές