- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 21 Σεπτεμβρίου 2024
- Ελληνικά
- 82
- Κάρλος Σταμάτης
- Κάρλος Σταμάτης | Παλιόκας Ιωάννης
- ανάκτηση πληροφοριών, αναπαράσταση κειμένου, εξαγωγή γνώσης, BERT, LDA, TF-IDF, Wikipedia, Τέχνη
- Πληροφοριακά Συστήματα Μεταπτυχιακή Διπλωματική Εργασία ΠΛΣΔΕ
- 91
- Περιλαμβάνει πίνακες, εικόνες, εξισώσεις και ακρωνύμια
-
-
Στην παρούσα εργασία θα ασχοληθούμε με τη διαδικασία εξόρυξης δεδομένων κειμένου από ιστοσελίδες με ελληνικό κείμενο με σκοπό την εφαρμογή βασικών και εξελιγμένων μεθόδων εξαγωγής λέξεων κλειδιών. Η ανάλυση δεδομένων κειμένου και η αυτοματοποιημένη εξαγωγή σημαντικών πληροφοριών έχει κερδίσει το ενδιαφέρον τα τελευταία χρόνια εξαιτίας της αύξησης του τεράστιου όγκου των δεδομένων. Λόγω της αδόμητης μορφής και του πλούσιου περιεχομένου που αυτά κατέχουν, απαιτούνται αποτελεσματικές τεχνικές και κατάλληλοι αλγόριθμοι για την επεξεργασία, την ανάλυση, και την αποτελεσματική αποτύπωση των δεδομένων αυτών. Η χρήση κατάλληλων μετρικών ποσοτικοποίησης της συνάφειας της εξαγόμενης πληροφορίας θα είναι βασικό κριτήριο για τη σύγκριση των εξεταζόμενων μεθόδων.
-
In this paper we will deal with the process of extracting text data from Greek websites in order to apply basic and advanced keyword extraction methods. The analysis of textual data and the automated extraction of meaningful information has gained interest in recent years because of the increase of the huge amount of data. Due to the unstructured format and the rich content, effective techniques and appropriate algorithms are required for the processing, analysis, and effective recording of these data. The use of appropriate metrics to quantify the relevance of the extracted information will be the key criterion for the comparison of the examined methods.
-
- Hellenic Open University
- Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές