Diversity analysis of Family Thermodesulfobacteriaceae based on massively integrated sequence evidences

"Ανάλυση ποικιλομορφίας της οικογένειας Thermodesulfobacteriaceae με βάση μαζικά ενσωματωμένα στοιχεία αλληλουχιών (Ελληνική)

  1. MSc thesis
  2. ΒΑΣΙΛΙΚΗ ΝΤΑΛΙΑΝΗ
  3. Βιοπληροφορική και Νευροπληροφορική (ΒΝΠ)
  4. 19 Φεβρουαρίου 2023
  5. Αγγλικά
  6. 39
  7. ΗΛΙΑΣ ΛΑΓΚΟΥΒΑΡΔΟΣ
  8. taxonomic classification, clustering, diversity analysis, alignment, Thermodesulfobacteriaceae, TIC, ecological analysis
  9. ΒΝΠ57
  10. 4
  11. 34
    • <p>This thesis aims to analyze the diversity of the family Thermodesulfobacteriaceae based on massively integrated sequence evidences. The databases we used were SILVA and NCBI from which we obtained the sequences of interest as well as their taxonomic information. Our main tool for diversity analysis was the TIC (Taxonomy Informed Clustering) algorithm. This algorithm, unlike other classification algorithms, in addition to the position information for any given sequence, also uses taxonomic information from the databases to restrict clustering only to those sequences that share the same taxonomic path. Firstly, we performed taxonomy and similarity query in IMNGS as well as removing the duplicate sequences from our data. Subsequently, we performed taxonomy classification and alignment based on SINA and the sequences that had at least 80% of the aligned E. coli bases in the region of interest were selected. After assembling these sequences into fasta files, we ran the TIC algorithm. The result was that 3844 sOTUs and 84 gOTUs were classified as members of the family Thermodesulfobacteriaceae. Finally, a statistical and ecological analysis was performed on the sequences obtained by running TIC algorithm.</p>
    • <p>Η παρούσα διατριβή έχει ως στόχο την ανάλυση ποικιλομορφίας της οικογένειας Thermodesulfobacteriaceae βάση αλληλουχιών που έχουν αντληθεί απο γνωστές βάσεις δεδομένων. Οι βάσεις δεδομένων που επιλεχθηκαν είναι η SILVA και το NCBI απο τις οποίες πήραμε και ταξονιμικές πληροφορίες για τις αλληλουχίες ενδιαφέροντος. Το βασικό εργαλείο μας για την ανάλυση ποικιλομορφίας ήταν ο αλγόριθμος TIC (Taxonomy Informed Clustering). Ο συγκεκριμένος αλγόριθμος σε αντίθεση με τους υπόλοιπους αλγόριθμους ταξινόμισης πέρα τις πληροφορίες θέσεις για κάθε δεδομένη ακολουθία χρησιμοποιεί και τις ταξονομικές πληροφορίες από τις βάσεις δεδομένων ώστε να περιορίσει την ομαδοποίηση μόνο σε εκέινες τις ακολουθίες που μοιράζονται το ίδιο ταξονομικό μονοπάτι. Αρχικά έγινε taxonomy και similarity query στο IMNGS καθώς και αφαίρεση των αλληλουχιών που εμφανίζονταν πάνω απο μία φορά στα δεδομένα μας. Ακολούθησε taxonomy classification και alignment βάση της SINA και επιλέχθηκαν οι αλληλουχίες που έιχαν τουλάχιστον 80% των βάσεων του aligned E.coli στην περιοχή ενδιαφέροντος. Αφού συγκεντρώθηκαν αυτές οι αλληλουχίες σε αρχεία fasta, τρέξαμε τον αλγόριθμο TIC. Το αποτέλεσμα ήταν ότι στην οικογένεια Thermodesulfobacteriaceae ανήκουν 3844 sOTUs και 84 gOTUs. Κλείνοντας έγινε μια στατιστική και οικολογική ανάλυση στις ακολουθίες που προέκυψαν απο την εκτέλεση του TIC.</p>
  12. Hellenic Open University
  13. Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές