Δημιουργία Βάσης Δεδομένων με εγκλήματα, ατυχήματα και παραβάσεις στην Ελλάδα, με χρήση τεχνικών ανάλυσης κειμένου

Φράγγας, Ευάγγελος

Δημιουργία Βάσης Δεδομένων με εγκλήματα, ατυχήματα και παραβάσεις στην Ελλάδα, με χρήση τεχνικών ανάλυσης κειμένου

Title in other language Applying text mining techniques to build a database of crimes, violations, and accidents (english)

Entity typeMSc thesis
Author Φράγγας, Ευάγγελος
Department Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
Date of work 20 September 2020 [2020-09-20]
Work language Ελληνικά
Number of Pages 137
Supervisor Μαρκέτος, Γεράσιμος
Committee members Σακκόπουλος, Ευάγγελος | Ταμπούρης, Ευθύμιος
Keywords Ιχνηλασία ιστοσελίδων | εξόρυξη κειμένου | διαχείριση δεδομένων μεγάλου όγκου | web crawling | web scraping | big data
Number of Annexes2
Number of Greek bibliographic references1
Number of international bibliographic reference 38
Description Περιέχει: Πίνακες, εικόνες, σχήματα, διαγράμματα, γραμμές κώδικα σε Python, Ερωτήματα SQL
Matching with printed material of HOUΕυαγγελία Πιτούρα, (2015): Διαχείριση δεδομένων
Abstract
- Το θέμα της εργασίας αφορά στην δημιουργία μιας βάσης δεδομένων από στοιχεία που προέρχονται από διάφορες ιστοσελίδες ειδήσεων. Συνεπώς ερευνώνται οι τρόποι ιχνηλάτησης (web crawling) ιστοσελίδων για τον εντοπισμό των κατάλληλων συνδέσμων προς περαιτέρω επεξεργασία. Στη συνέχεια με την χρήση κατάλληλου κώδικα εξόρυξης πληροφορίας πραγματοποιείται εξαγωγή των δεδομένων που αφορά εγκλήματα, ατυχήματα και παραβάσεις στην Ελλάδα. Αυτή η πληροφορία αποθηκεύεται σε μια βάση δεδομένων ώστε να υπάρξει δυνατότητα στατιστικών αναλύσεων. Τέλος παρουσιάζονται κάποια βασικά στατιστικά που αφορά στην ποσότητα και την ποιότητα ανά περιοχή. Για την υλοποίηση του απαραίτητου κώδικα που πραγματοποιείται για την ιχνηλασία και την εξόρυξη του κειμένου χρησιμοποιήθηκε η γλώσσα προγραμματισμού Python. Για την κατασκευή των crawlers και των scraping tools εγκαταστάθηκε η πλατφόρμα Anaconda καθώς επίσης και οι βιβλιοθήκες του Scrapy. Η αποθήκευση των δεδομένων πραγματοποιείται σε αρχεία .JSON που στη συνέχεια εισάγονται στην βάση δεδομένων. Για την δημιουργία στατιστικών και την αστικοποίηση τους χρησιμοποιείται το Microsoft Excel. Παρουσιάζονται διαφορετικοί τρόποι ιχνηλασίας σε ιστοσελίδες, η χρησιμότητα τους καθώς και προβλήματα που μπορεί να χρειαστεί να αντιμετωπιστούν για την ολοκλήρωση μιας πετυχημένης ιχνηλασίας. Επίσης αναλύεται η έννοια της εξόρυξης δεδομένων κειμένου και οι διάφορες προσεγγίσεις που μπορούν να ακολουθηθούν για την επίτευξη του στόχου. Στην ανάλυση για την εξόρυξη δεδομένων επιλύονται και διάφορα ζητήματα που προκύπτουν κατά διαδικασία καθώς και οι μηχανισμοί ώστε να καταλήξουμε στο επιθυμητό αποτέλεσμα. Τέλος περιγράφεται ο σχεδιασμός και η δημιουργία μιας βάσης για την αποθήκευση των παραγόμενων δεδομένων με κατάλληλο τρόπο. Αυτό φυσικά είναι απαραίτητο, αφενός για να υπάρχει αποθηκευμένος ο μεγάλος όγκος της πληροφορίας αυτής και αφετέρου για να χρησιμοποιηθεί καταλλήλως για την εξαγωγή ασφαλών στατιστικών στοιχείων και την οπτικοποίηση τους. Σε αυτό το τελευταίο κομμάτι αναλύεται η διαχείριση δεδομένων μεγάλου όγκου καθώς επίσης και συγκεκριμένα θέματα που αφορούν στην δομημένη αποθήκευση τους
- The topic of this thesis is to create a database of incidents from various news websites. We are therefore exploring ways of web crawling to identify appropriate links for further editing. Furthermore, using the appropriate mining code, information is extracted on crime, accidents and violations in Greece. This information is stored in a database for statistical analysis. Finally, some basic statistics on quantity and quality by region are presented. The Python programming language was used to implement the code needed to trace and extract the appropriate text from the web pages. The Anaconda platform as well as the Scrapy libraries was installed to build the crawlers and scraping tools. The data is stored in .JSON files which are then imported into the database. Microsoft Excel is used to generate and visualize statistics. Different ways of crawling web pages, their usefulness as well as problems that may need to be tackled to complete a successful crawl are presented. It also analyzes the concept of text data mining and the various approaches that can be taken to achieve this goal. In this analysis solutions have been proposed to solve various issues that arise in the process of text mining as well as the mechanisms to get the desired result. Finally, the design and creation of a database for storing the generated data in an appropriate manner is described. This is of course indispensable, on the one hand, in order to have the bulk of this information stored and on the other hand to be used appropriately for the extraction and visualization of secure statistics. This last section discusses the management of large volumes of data as well as specific issues related to their structured storage
Licence Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Δημιουργία Βάσης Δεδομένων με εγκλήματα, ατυχήματα και παραβάσεις στην Ελλάδα, με χρήση τεχνικών ανάλυσης κειμένου - Identifier: 78094

Internal display of the 78094 entity interconnections (Node labels correspond to identifiers)

Loading..

Legend

Navigation

Info

Controls

Narrowness

Inferred

Δημιουργία Βάσης Δεδομένων με εγκλήματα, ατυχήματα και παραβάσεις στην Ελλάδα, με χρήση τεχνικών ανάλυσης κειμένου

Title in other language Applying text mining techniques to build a database of crimes, violations, and accidents (english)

Main Files