Ο όγκος των πληροφοριών και ειδικότερα του ειδησεογραφικού υλικού που διακινείται καθημερινά στο διαδίκτυο από τα ηλεκτρονικά μέσα ενημέρωσης είναι τεράστιος. Αυτό, λοιπόν, καθιστά δύσκολη την αδιάλειπτη παρακολούθηση και αξιολόγησή του.
Η παρούσα διπλωματική εργασία αφορά στη δημιουργία ενός πληροφοριακού συστήματος για την ευφυή διαχείριση των ειδησεογραφικών δεδομένων που δημιουργούνται, σε καθημερινή βάση, από διάφορα δημοφιλή Ελληνικά μέσα ηλεκτρονικής ενημέρωσης. Η ανάπτυξη του εν λόγω συστήματος πραγματοποιήθηκε σε γλώσσα προγραμματισμού Python και περιλαμβάνει τη συλλογή ειδήσεων από πέντε μεγάλα Ελληνικά ειδησεογραφικά site, με στόχο την διαχείρισή τους. Συγκεκριμένα, αφού αποθηκευτούν συγκεντρωτικά οι ειδήσεις, μπορεί, έπειτα από κατάλληλη επεξεργασία, να εφαρμοστούν αλγόριθμοι για :
• Ομαδοποίηση ειδήσεων (k-means clustering) και δημιουργία γραφημάτων
• Οπτικοποίηση των topics
Κύριος σκοπός του πληροφοριακού συστήματος είναι τα δεδομένα να μπορούν να αναζητηθούν με ευφυείς μεθόδους, που συνδυάζουν την ανάκτηση πληροφοριών με την επεξεργασία φυσικής γλώσσας, ώστε να αποτελέσουν ένα εν-δυνάμει χρήσιμο εργαλείο διαχείρισης ειδήσεων τόσο για τους επαγγελματίες του τομέα (π.χ. εκδότες, δημοσιογράφους) όσο και για τους πολίτες που αναζητούν πολύπλευρη και έγκυρη ενημέρωση.
Η αναζήτηση συγκεκριμένων ειδησεογραφικών δεδομένων υλοποιήθηκε με :
• Τη βιβλιοθήκη Facebook AI Similarity Search (Faiss)
• Τη μηχανή αναζήτησης ElasticSearch
Και στις δύο παραπάνω περιπτώσεις πραγματοποιείται σημασιολογική αναζήτηση έναντι της λεξιλογικής, η οποία δε στοχεύει στον εντοπισμό των όρων που αναζητούνται, αλλά στην κατανόηση του ερωτήματος που υποβάλλεται. Στη συνέχεια υποβλήθηκε ένας αριθμός ερωτημάτων προς αναζήτηση (και με τους δυο τρόπους, Faiss και ElasticSearch) στην εφαρμογή και δημιουργήθηκαν γραφικές παραστάσεις στις οποίες απεικονίζεται συγκριτικά τα αποτελέσματα αναζήτησης, τόσο με Faiss όσο και με ElasticSearch.Από την αξιολόγηση των γραφημάτων αυτών προκύπτει ότι η αναζήτηση με ElasticSearch υπερτερεί σε μικρό βαθμό σε σχέση με την αναζήτηση με Faiss.Γενικά το συγκεκριμένο πληροφοριακό σύστημα προσφέρει κατά μέσο όρο ικανοποιητικά αποτελέσματα, αφήνοντας περιθώρια για βελτίωση.
The volume of information that circulates the internet daily and more specific the volume of the news material from the electronic media, is huge. This, in turn, makes the constant monitoring and evaluation of it, a delicate task.
This thesis concerns the creation of an information system for the intelligent management of news data, generated on a daily basis, by various popular Greek electronic media. This information system was developed using the Python programming language. Initially, it includes the collection of news articles from RSS feeds of five major Greek news sites. Then, after proper pre-processing of the collected news (cleaning and stemming), algorithms can be applied for:
- News clustering (k-means clustering) and graph creation - Visualization of topics
The main purpose of the information system, however, is to enable data to be retrieved using intelligent methods, which combine information retrieval with natural language processing, in order to become a potentially useful news management tool for both professionals (e.g. publishers, journalists) and citizens seeking comprehensive and valid information.
The search for specific news data is carried out with:
- The Facebook AI Similarity Search library (Faiss) - The elasticSearch search engine
In both the above ways, a semantic search is performed instead of a lexical one, which does not aim at identifying the terms sought, but rather at understanding the question being asked. Then several queries are performed in the application (using both faiss and elasticsearch) and a graph is created depicting comparatively, the search findings both with faiss and elasticsearch. The evaluation of these graphs shows that the search with elasticsearch is slightly superior to the search with faiss. In general, this information system offers on average satisfactory results, leaving room for improvement.
Σχεδιασμός και Υλοποίηση Ευφυούς Πληροφοριακού Συστήματος Ανάλυσης και Διαχείρισης Ειδησεογραφικών Δεδομένων από Ελληνικά Μέσα Ηλεκτρονικής Ενημέρωσης Περιγραφή: 142896_ΑΕΤΟΠΟΥΛΟΥ_ΒΑΣΙΛΙΚΗ.pdf (pdf)
Book Reader Άδεια: Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές Πληροφορίες: Κυρίως σώμα διπλωματικής εργασίας Μέγεθος: 5.5 MB
Σχεδιασμός και Υλοποίηση Ευφυούς Πληροφοριακού Συστήματος Ανάλυσης και Διαχείρισης Ειδησεογραφικών Δεδομένων από Ελληνικά Μέσα Ηλεκτρονικής Ενημέρωσης - Identifier: 160288
Internal display of the 160288 entity interconnections (Node labels correspond to identifiers)