Εφαρμογή τεχνικών εξαγωγής πληροφοριών από το Web: Εντοπισμός και Κατηγοριοποίηση χωρικών πληροφοριών σε HTML σελίδες

Applying text mining techniques in the Web : Extraction and categorization of spatial information in HTML pages. (Αγγλική)

  1. MSc thesis
  2. Κοκκινάκης, Εμμανουήλ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. Σεπτέμβριος 2017 [2017-09]
  5. Ελληνικά | Αγγλικά
  6. 82
  7. Μαρκέτος, Γεράσιμος
  8. Βερύκιος, Βασίλειος | Σακκόπουλος, Ευάγγελος
  9. εξόρυξη κειμένου | επεξεργασία φυσικής γλώσσας | εξαγωγή πληροφοριών | κατηγοριοποίηση πληροφορίας | text mining | natural language processing | data extraction | information classification
  10. 5
  11. 7
  12. 49
  13. Περιέχει : εικόνες, φωτογραφίες
    • Η παρούσα διπλωματική εργασία, που εντάσσεται στο θεματικό πεδίο της Εξόρυξης Κειμένου, εκπονήθηκε στο πλαίσιο του Προγράμματος “Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα”. Σκοπός της διπλωματικής εργασίας ήταν η ανάπτυξη μια εφαρμογής που να ανακτά πληροφορίες από κείμενα του διαδικτύου χρησιμοποιώντας μεθοδολογία από τον τομέα της εξόρυξης κειμένου και της επεξεργασίας φυσικής γλώσσας, προκειμένου να εντοπίζονται και να ανακτώνται οι χωρικές πληροφορίες που περιλαμβάνονται στα συγκεκριμένα κείμενα. Η ανάγκη για τη δημιουργία της συγκεκριμένης εφαρμογής προέκυψε από τη δυσκολία που αντιμετωπίζει ο τομέας του text mining σε σχέση με τις απαιτητικές, όσον αφορά στον εντοπισμό τους, διευθύνσεις οδών μέσα σε κείμενα. Σε πρώτο στάδιο έγινε επισκόπηση πεδίου σε σχέση με τις τεχνολογίες, τις εφαρμογές και τα εργαλεία που χρησιμοποιούνται στους τομείς της εξόρυξης δεδομένων και της επεξεργασίας φυσικής γλώσσας. Στη συνέχεια επικεντρωθήκαμε στην εξόρυξη κειμένου, τα πεδία και τα εργαλεία στα οποία αυτή βρίσκει εφαρμογή. Τέλος, δημιούργησα μια εφαρμογή σε γλώσσα python η οποία προσπελαύνει κείμενα που εντοπίζονται σε html σελίδες και αναγνωρίζει τις διευθύνσεις που βρίσκονται εντός των κειμένων με σκοπό να τις ανακτήσει και να τις παρουσιάσει στο χρήστη. Η εφαρμογή σε πρώτη φάση δέχτηκε ένα αρχείο με όγκο περίπου ογδόντα χιλιάδων λέξεων και περίπου χιλίων επισημασμένων διευθύνσεων που δημιουργήθηκε από κείμενα αντίστοιχα αυτών στα οποία επικεντρωνόμαστε για ανάκτηση της πληροφορίας. Μέσω αυτού του αρχείου ο αλγόριθμος εκπαιδεύτηκε με πραγματικά δεδομένα στη διαδικασία της ανάκτησης πληροφοριών. Στο αρχείο αυτό περιλαμβάνεται μια μεγάλη γκάμα διαφορετικών μορφών διευθύνσεων που απαντώνται σε κείμενα της ελληνικής γλώσσας. Ακολούθως, η εφαρμογή μπορεί να ανατρέχει στα κείμενα της ιστοσελίδας που δημιούργησα και να επιχειρεί να εντοπίσει και να ανακτήσει τις διευθύνσεις που περιλαμβάνονται στα κείμενα αυτά.
    • This thesis, which is situated in the field of Text Mining, was done in the framework of the Msc degree “Master in Informational Systems”. Goal of the thesis has been the development of an application which retrieves information from Internet texts using methodologies from the field of text mining and natural language processing in order to locate and extract special information included in those texts. The necessity for the creation of such an application is justified by the difficulty which the field of text mining is facing when it comes to street addresses within texts, which are considerably hard to distinguish and locate. Firstly, a field overview was done with regards to the technologies, the applications and the tools which are used in the field of data mining and natural language processing. After that, I focused specifically on text mining and the fields and tools in which its applications are developed. Finally, I created an application in python language, which accesses texts that are found in html pages and recognizes addresses inside those texts with the purpose of retrieving them and presenting them to the user. Initially the application received a file containing around eighty thousand words and around a thousand tagged addresses, which was built from texts similar to those which I have focused on for information recovery. Through this file the algorithm was trained on the process of data recovery using real data. Inside this file a big range of different kinds of addresses that can be encountered in Greek language texts is included. As a consequence the application can browse texts from the webpage which I have created and attempt to locate and retrieve the addresses which are included inside.
  14. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.