ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΡΟΒΟΛΗ ΕΓΓΡΑΦΩΝ ΠΟΛΥ ΜΕΓΑΛΟΥ ΣΥΝΟΛΟΥ ΔΕΔΟΜΕΝΩΝ

DEVELOPMENT OF A SYSTEM FOR VIEWING VERY LARGE DATA SET DOCUMENTS (Αγγλική)

  1. MSc thesis
  2. Μετζίτης, Γεώργιος
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 17 Σεπτεμβρίου 2022 [2022-09-17]
  5. Ελληνικά
  6. 84
  7. Καραπιπέρης, Δημήτριος
  8. Βασιλακόπουλος, Μιχαήλ | Γκαράνη, Γεωργία
  9. Μεγάλα Δεδομένα | Βιg Data | Εξόρυξη δεδομένων | Data Mining | Python | Python | SQLite | SQLite | Postgres | Postgres | Jaccard Distance | Jaccard Distance | Edit Distance | Edit Distance | Jaro Winkler Distance | Jaro Winkler Distance | Hamming Distance | Hamming Distance | Levenshtein Distance | Levenshtein Distance | HTML | HTML | Pagination | Pagination
  10. 2
  11. 2
  12. 19
  13. πίνακες, σχήματα, διαγράμματα, εικόνες
  14. Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, Vipin Kumar «Εισαγωγή στην εξόρυξη δεδομένων» εκδόσεις Τζιόλα, Επιστημονική επιμέλεια Βασίλειος Σ. Βερύκιος
    • Η παρούσα διπλωματική εργασία έχει ως στόχο την ανάπτυξη ενός συστήματος σε Python που θα εμφανίζει στον τελικό χρήστη ένα μεγάλο σύνολο δεδομένων. Αρχικά θα γίνει εισαγωγή των δεδομένων από μία πολύ μεγάλη, προϋπάρχουσα, βάση δεδομένων xml, σε μία τοπική σχεσιακή βάση δεδομένων. Το σύστημα θα πραγματοποιεί σταδιακή άντληση των εγγραφών χρησιμοποιώντας πολύ-νηματικές διατάξεις που θα τρέχουν στο παρασκήνιο. Η εύρεση των δεδομένων (filtering) βάσει κριτηρίων θα γίνεται προσεγγιστικά με χρήση κατάλληλων συναρτήσεων όπως την Jaccard distance, Jaro Winkler Distance, Hamming Distance και edit distance (Levenshtein distance). Τέλος ο χρήστης μέσα από το web interface που θα υλοποιηθεί θα έχει την δυνατότητα να αντλήσει δεδομένα γρήγορα, χωρίς μεγάλη καθυστέρηση, λόγω της δυναμικής σελιδοποίησης (Pagination). Θα παρουσιάσουμε μέσα από τις προσεγγιστικές μεθόδους πως μπορεί να γίνει η εξόρυξη της γνώσης αποτελεσματικά και άμεσα. Η παραδοσιακή μέθοδος σελιδοποίησης ή αλλιώς default paging όπως αναφέρεται στο διαδίκτυο, η οποία έχει ευρεία χρήση σε μικρές βάσεις δεδομένων, δεν ενδείκνυται για της μεγάλες βάσεις καθώς ανακτά όλες τις εγγραφές, παρόλο που μόνο ένα υποσύνολο από αυτές εμφανίζεται στη σελίδα Η σελιδοποίηση είναι μία τεχνική όπου την συναντάμε σε πολλά συστήματα υλοποιημένη λανθασμένα και αυτό κατά κύριο λόγω δημιουργεί κακή εμπειρία στον τελικό χρήστη και μειωμένη απόδοση της εκάστοτε βάσης δεδομένων. Η εμφάνιση των δεδομένων στον τελικό χρήστη είναι ίσως η πιο σημαντική εικόνα που λαμβάνει ο χρήστης από το εκάστοτε σύστημα, είτε αυτό είναι μία εφαρμογή είτε είναι ένα web interface. Ειδικά όταν έχουμε μια πολύ μεγάλη βάση δεδομένων είναι πολύ εύκολο με την λανθασμένη μεθοδολογία σελιδοποίησης και φιλτραρίσματός να λάβει ο τελικός χρήστης τεράστιο όγκο δεδομένων στην οθόνη του που στην πραγματικότητα δεν θα τον ωφελήσει αλλά θα τον δυσκολέψει να αντλήσει την πληροφορία που θέλει και φυσικά θα έχουμε καταναλώσει και υπολογιστικούς πόρους που θα μπορούσαμε να είχαμε αποφύγει.
    • This dissertation aims to develop a system in Python that will display to the end user a large set of data. The data will initially be imported from a very large, pre-existing, xml database into a local relational database. The system will gradually extract the recordings using multi-threaded design running in the background. The filtering of data based on criteria will be done approximately using appropriate functions such as Jaccard distance, Jaro Winkler Distance, Hamming Distance and edit distance (Levenshtein distance). Finally, the user through the web interface that will be implemented will be able to extract data quickly, without much delay, due to the dynamic pagination (Pagination). We will present through the approximate methods how the extraction of knowledge can be done efficiently and directly. The traditional method of paging or default paging as mentioned on the internet, which is widely used in small databases, is not suitable for large databases as it retrieves all records, although only a subset of them appears on the page. Pagination is a technique where we find it in many systems implemented incorrectly and this mainly because it creates a bad experience for the end user and reduced performance of the respective database. The display of data to the end user is probably the most important image that the user receives from the respective system, whether it is an application or a web interface. Especially when we have a very large database, it is very easy with the wrong paging and filtering methodology for the end user to get a huge amount of data on his screen that will not actually benefit him but will make it difficult for him to extract the information he wants and of course at the same time we have consumed computing resources that we could have avoided.
  15. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.