Δημιουργία Βάσης Δεδομένων με εγκλήματα, ατυχήματα και παραβάσεις στην Ελλάδα, με χρήση τεχνικών ανάλυσης κειμένου

Applying text mining techniques to build a database of crimes, violations, and accidents (english)

  1. MSc thesis
  2. Φράγγας, Ευάγγελος
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 20 September 2020 [2020-09-20]
  5. Ελληνικά
  6. 137
  7. Μαρκέτος, Γεράσιμος
  8. Σακκόπουλος, Ευάγγελος | Ταμπούρης, Ευθύμιος
  9. Ιχνηλασία ιστοσελίδων | εξόρυξη κειμένου | διαχείριση δεδομένων μεγάλου όγκου | web crawling | web scraping | big data
  10. 2
  11. 1
  12. 38
  13. Περιέχει: Πίνακες, εικόνες, σχήματα, διαγράμματα, γραμμές κώδικα σε Python, Ερωτήματα SQL
  14. Ευαγγελία Πιτούρα, (2015): Διαχείριση δεδομένων
    • Το θέμα της εργασίας αφορά στην δημιουργία μιας βάσης δεδομένων από στοιχεία που προέρχονται από διάφορες ιστοσελίδες ειδήσεων. Συνεπώς ερευνώνται οι τρόποι ιχνηλάτησης (web crawling) ιστοσελίδων για τον εντοπισμό των κατάλληλων συνδέσμων προς περαιτέρω επεξεργασία. Στη συνέχεια με την χρήση κατάλληλου κώδικα εξόρυξης πληροφορίας πραγματοποιείται εξαγωγή των δεδομένων που αφορά εγκλήματα, ατυχήματα και παραβάσεις στην Ελλάδα. Αυτή η πληροφορία αποθηκεύεται σε μια βάση δεδομένων ώστε να υπάρξει δυνατότητα στατιστικών αναλύσεων. Τέλος παρουσιάζονται κάποια βασικά στατιστικά που αφορά στην ποσότητα και την ποιότητα ανά περιοχή. Για την υλοποίηση του απαραίτητου κώδικα που πραγματοποιείται για την ιχνηλασία και την εξόρυξη του κειμένου χρησιμοποιήθηκε η γλώσσα προγραμματισμού Python. Για την κατασκευή των crawlers και των scraping tools εγκαταστάθηκε η πλατφόρμα Anaconda καθώς επίσης και οι βιβλιοθήκες του Scrapy. Η αποθήκευση των δεδομένων πραγματοποιείται σε αρχεία .JSON που στη συνέχεια εισάγονται στην βάση δεδομένων. Για την δημιουργία στατιστικών και την αστικοποίηση τους χρησιμοποιείται το Microsoft Excel. Παρουσιάζονται διαφορετικοί τρόποι ιχνηλασίας σε ιστοσελίδες, η χρησιμότητα τους καθώς και προβλήματα που μπορεί να χρειαστεί να αντιμετωπιστούν για την ολοκλήρωση μιας πετυχημένης ιχνηλασίας. Επίσης αναλύεται η έννοια της εξόρυξης δεδομένων κειμένου και οι διάφορες προσεγγίσεις που μπορούν να ακολουθηθούν για την επίτευξη του στόχου. Στην ανάλυση για την εξόρυξη δεδομένων επιλύονται και διάφορα ζητήματα που προκύπτουν κατά διαδικασία καθώς και οι μηχανισμοί ώστε να καταλήξουμε στο επιθυμητό αποτέλεσμα. Τέλος περιγράφεται ο σχεδιασμός και η δημιουργία μιας βάσης για την αποθήκευση των παραγόμενων δεδομένων με κατάλληλο τρόπο. Αυτό φυσικά είναι απαραίτητο, αφενός για να υπάρχει αποθηκευμένος ο μεγάλος όγκος της πληροφορίας αυτής και αφετέρου για να χρησιμοποιηθεί καταλλήλως για την εξαγωγή ασφαλών στατιστικών στοιχείων και την οπτικοποίηση τους. Σε αυτό το τελευταίο κομμάτι αναλύεται η διαχείριση δεδομένων μεγάλου όγκου καθώς επίσης και συγκεκριμένα θέματα που αφορούν στην δομημένη αποθήκευση τους
    • The topic of this thesis is to create a database of incidents from various news websites. We are therefore exploring ways of web crawling to identify appropriate links for further editing. Furthermore, using the appropriate mining code, information is extracted on crime, accidents and violations in Greece. This information is stored in a database for statistical analysis. Finally, some basic statistics on quantity and quality by region are presented. The Python programming language was used to implement the code needed to trace and extract the appropriate text from the web pages. The Anaconda platform as well as the Scrapy libraries was installed to build the crawlers and scraping tools. The data is stored in .JSON files which are then imported into the database. Microsoft Excel is used to generate and visualize statistics. Different ways of crawling web pages, their usefulness as well as problems that may need to be tackled to complete a successful crawl are presented. It also analyzes the concept of text data mining and the various approaches that can be taken to achieve this goal. In this analysis solutions have been proposed to solve various issues that arise in the process of text mining as well as the mechanisms to get the desired result. Finally, the design and creation of a database for storing the generated data in an appropriate manner is described. This is of course indispensable, on the one hand, in order to have the bulk of this information stored and on the other hand to be used appropriately for the extraction and visualization of secure statistics. This last section discusses the management of large volumes of data as well as specific issues related to their structured storage
  15. Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές