- MSc thesis
- Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
- 20 Ιουλίου 2024
- Ελληνικά
- 59
- Γεώργιος Δημητρακόπουλος
- Κονδυλάκης Χαρίδημος | Βλάμος Παναγιώτης
- Βάσεις δεδομένων | NoSQL | SQL | Βιολογικές Βάσεις Δεδομένων | DBMS | Big Data
- BNΠ
- 26
-
-
Η παρούσα εργασία αποτελεί μια σημαντική προσπάθεια στον τομέα της βιοπληροφορικής, καθώς προσπαθεί να αντιπαραβάλει με συγκεκριμένα κριτήρια και μεθόδους τον καταλληλότερο τύπο συστήματος διαχείρισης βάσεων δεδομένων για την φιλοξενία βιολογικής πληροφορίας. Επικεντρώνεται στη διαδικασία σύγκρισης μεταξύ σχεσιακών (SQL) και μη-σχεσιακών (NoSQL) συστημάτων διαχείρισης βάσεων δεδομένων, παρέχοντας σαφή κριτήρια αξιολόγησης βασιζόμενα σε πρακτικές ανάγκες και τεχνικές απαιτήσεις. Αρχικά, η εργασία καθορίζει τα βασικά χαρακτηριστικά που διέπουν κάθε μία από τις δύο προαναφερόμενες αρχιτεκτονικές καθώς και τους βασικούς τύπους βιολογικών δεδομένων και τις ανάγκες αποθήκευσης αυτών , λαμβάνοντας παράλληλα υπόψη τον μεγάλο όγκο που συνήθως διέπει τα βιολογικά δεδομένα, την πολυπλοκότητα, τη συχνότητα ανανεώσεων και ανακτήσεων που χρήζουν, καθώς και την ανάγκη για γρήγορη επεξεργασία και ανάλυση. Στη συνέχεια, αναλύει τα πλεονεκτήματα και τα χαρακτηριστικά των SQL και NoSQL συστημάτων διαχείρισης βάσεων δεδομένων, καταλήγοντας πως τα SQL DBMS είναι προτιμότερα για περιπτώσεις όπου απαιτείται αυστηρή συνέπεια και τα δεδομένα είναι πεπερασμένου και μη δυναμικού χαρακτήρα, ενώ τα NoSQL DBMS είναι ιδανικά για εφαρμογές σε μεγάλη κλίμακα δεδομένων, που εμφανίζουν δυναμικό χαρακτήρα και χρήζουν δυνατότητας οριζόντιας επεκτασιμότητας.
Επιπρόσθετα, η εργασία προσεγγίζει με σαφή και διακριτά βήματα την αξιολόγηση της καταλληλόλητας της εκάστοτε αρχιτεκτονικής , με βάση κριτήρια όπως η απόδοση, η κλιμακωσιμότητα, η διαχειρισιμότητα και η συνολική αποδοτικότητα κόστους/οφέλους. Μέσω της ανάλυσης αυτής, παρέχει πρακτικές συμβουλές που βοηθούν τους ερευνητές και βιοπληροφορικούς να κάνουν την καλύτερη δυνατή επιλογή ανάλογα με τις απαιτήσεις τους, διασφαλίζοντας έτσι την - κατά το δυνατό - βέλτιστη σε αποδοτικότητα διαχείριση και ανάλυση των διαθέσιμων βιολογικών δεδομένων καταλήγοντας στην ανωτερότητα που εμφανίζουν τα NoSQL συστήματα στην διαχείριση και φιλοξενία των βιολογικών δεδομένων.
-
This thesis represents a significant effort in the field of bioinformatics as it attempts to compare, with specific criteria and methods, the most suitable type of database management system for hosting biological information. It focuses on the comparative process between relational (SQL) and non-relational (NoSQL) database management systems, providing clear evaluation criteria based on practical needs and technical requirements. Initially, the paper defines the fundamental characteristics of each of the two mentioned architectures as well as the main types of biological data and their storage needs, considering the large volume that usually characterizes biological data, the complexity, the frequency of updates and retrievals required, and the need for fast processing and analysis. It then analyzes the advantages and features of SQL and NoSQL database management systems, concluding that SQL DBMSs are preferable for cases where strict consistency is required and the data is finite and non-dynamic, while NoSQL DBMSs are ideal for large-scale, dynamic data applications that require horizontal scalability.
Additionally, this thesis approaches the evaluation of the suitability of each architecture with clear and distinct steps based on criteria such as performance, scalability, manageability, and overall cost/benefit efficiency. Through this analysis, it provides practical advice that helps researchers and bioinformaticians make the best possible choice according to their requirements, thereby ensuring the most efficient management and analysis of available biological data, ultimately concluding that NoSQL systems show superiority in managing and hosting biological data.
-
- Hellenic Open University
- Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές