Ο αυξανόμενος αριθμός επιστημονικών δημοσιεύσεων έχει οδηγήσει στην ανάγκη για μεθόδους και τεχνικές που να είναι ικανές να επεξεργάζονται τεράστιες συλλογές άρθρων και να παράγουν χρήσιμη πληροφορία. Η ανίχνευση θέματος είναι μία εφαρμογή της επεξεργασίας φυσικής γλώσσας που μπορεί να βοηθήσει στην επεξεργασία τέτοιων συλλογών (π.χ. βοηθώντας στην φάση της ευρετηρίασης). Επιπλέον, η πρόβλεψη θέματος μπορεί να παράγει πληροφορία σχετική με την εξέλιξη της έρευνας και την πρόβλεψη μελλοντικών τάσεων. Προτείνουμε μία προσέγγιση για την ανίχνευση θεμάτων και πρόβλεψη που χρησιμοποιεί κανόνες συσχέτισης και μέθοδοι συνόλων χρονοσειρών πρόβλεψης για την αυτοματοποιημένη εύρεση θεμάτων από ένα σύνολο επιστημονικών άρθρων και την πρόβλεψη εξελισσόμενων τάσεων στο μέλλον. Συγκεντρώνοντας ένα σύνολο από επιστημονικά άρθρα, εφαρμόσαμε κανόνες συσχέτισης για την εύρεση συνύπαρξης μεταξύ δύο όρων στο σύνολο αυτό. Οι παραγόμενοι κανόνες δείχνουν όρους που συνυπάρχουν συχνά με άλλους όρους και υποθέτουμε ότι οι συγκόλληση μεταξύ των όρων ότι είναι υποψήφια θέματα. Έπειτα, εφαρμόσαμε την μέθοδο εύρεσης κλικών με βάση της συσχετίσεις για την εύρεση ισχυρών συσχετίσεων μεταξύ θεμάτων. Τέλος, χρησιμοποιήθηκαν θέματα από την ίδια κλίκα για την πρόβλεψη της εξέλιξης ενός θέματος.
The growing number of scientific articles indicates the need of methods and techniques which can process big collections of articles and to produce useful information. Topic identification is an application of natural language processing which can help the processing of such collections (e.g. helping in indexing phase). Furthermore, topic forecasting can produce information about the evolution of research and forecasting future trends. We propose an approach for topic identification and forecasting which uses association analysis and ensemble time series forecasting to automatically find topics from a set of scientific articles and forecast their evolving trend in the future. Collecting a set of scientific articles, we applied association analysis to find co-occurrences between terms in this set. The produced rules indicate terms that frequently co-exist with other terms and we assumed that these concatenated terms are candidate topics. Next, we applied a clique percolation method for finding strong correlations between topics. Finally, we use topics from the same cliques to forecast the evolution of another topic.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Main Files
Εύρεση Θεμάτων και Πρόβλεψη Τάσεων από Κείμενα Description: ΔΕ_ΕΥΡΕΣΗ_ΠΡΟΒΛΕΨΗ.pdf (pdf)
Book Reader Info: "Κυρίως σώμα διπλωματικής", "Παράρτημα" Size: 2.8 MB
Εύρεση Θεμάτων και Πρόβλεψη Τάσεων από Κείμενα - Identifier: 77952
Internal display of the 77952 entity interconnections (Node labels correspond to identifiers)