Please use this identifier to cite or link to this item: https://apothesis.eap.gr/handle/repo/34810
Title: Εφαρμογή τεχνικών εξαγωγής πληροφοριών από το Web: Εντοπισμός και Κατηγοριοποίηση χωρικών πληροφοριών σε HTML σελίδες
Authors: Κοκκινάκης, Εμμανουήλ
Advisor: Μαρκέτος, Γεράσιμος
Keywords: εξόρυξη κειμένου;επεξεργασία φυσικής γλώσσας;εξαγωγή πληροφοριών;κατηγοριοποίηση πληροφορίας;text mining;natural language processing;data extraction;information classification
Issue Date: Sep-2017
Abstract: Η παρούσα διπλωματική εργασία, που εντάσσεται στο θεματικό πεδίο της Εξόρυξης Κειμένου, εκπονήθηκε στο πλαίσιο του Προγράμματος “Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα”. Σκοπός της διπλωματικής εργασίας ήταν η ανάπτυξη μια εφαρμογής που να ανακτά πληροφορίες από κείμενα του διαδικτύου χρησιμοποιώντας μεθοδολογία από τον τομέα της εξόρυξης κειμένου και της επεξεργασίας φυσικής γλώσσας, προκειμένου να εντοπίζονται και να ανακτώνται οι χωρικές πληροφορίες που περιλαμβάνονται στα συγκεκριμένα κείμενα. Η ανάγκη για τη δημιουργία της συγκεκριμένης εφαρμογής προέκυψε από τη δυσκολία που αντιμετωπίζει ο τομέας του text mining σε σχέση με τις απαιτητικές, όσον αφορά στον εντοπισμό τους, διευθύνσεις οδών μέσα σε κείμενα. Σε πρώτο στάδιο έγινε επισκόπηση πεδίου σε σχέση με τις τεχνολογίες, τις εφαρμογές και τα εργαλεία που χρησιμοποιούνται στους τομείς της εξόρυξης δεδομένων και της επεξεργασίας φυσικής γλώσσας. Στη συνέχεια επικεντρωθήκαμε στην εξόρυξη κειμένου, τα πεδία και τα εργαλεία στα οποία αυτή βρίσκει εφαρμογή. Τέλος, δημιούργησα μια εφαρμογή σε γλώσσα python η οποία προσπελαύνει κείμενα που εντοπίζονται σε html σελίδες και αναγνωρίζει τις διευθύνσεις που βρίσκονται εντός των κειμένων με σκοπό να τις ανακτήσει και να τις παρουσιάσει στο χρήστη. Η εφαρμογή σε πρώτη φάση δέχτηκε ένα αρχείο με όγκο περίπου ογδόντα χιλιάδων λέξεων και περίπου χιλίων επισημασμένων διευθύνσεων που δημιουργήθηκε από κείμενα αντίστοιχα αυτών στα οποία επικεντρωνόμαστε για ανάκτηση της πληροφορίας. Μέσω αυτού του αρχείου ο αλγόριθμος εκπαιδεύτηκε με πραγματικά δεδομένα στη διαδικασία της ανάκτησης πληροφοριών. Στο αρχείο αυτό περιλαμβάνεται μια μεγάλη γκάμα διαφορετικών μορφών διευθύνσεων που απαντώνται σε κείμενα της ελληνικής γλώσσας. Ακολούθως, η εφαρμογή μπορεί να ανατρέχει στα κείμενα της ιστοσελίδας που δημιούργησα και να επιχειρεί να εντοπίσει και να ανακτήσει τις διευθύνσεις που περιλαμβάνονται στα κείμενα αυτά.
Appears in Collections:ΠΛΣ Διπλωματικές Εργασίες

Files in This Item:
File Description SizeFormat 
KokkinakisEmmanouil_std82090.pdfΚυρίως άρθρο1.48 MBUnknownView/Open


This item is protected by original copyright



Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.