View
0
Download
0
Category
Preview:
Citation preview
Übung II
Einführung, Teil 1
Arbeiten mit Ensembl
Ensembl
• Genome Browser (Bereitstellung von Vielzeller-Genomen)
• Projekt wurde 1999 initiiert
• Projektpartner
– EMBL – European Bioinformatics Institute (EBI)
– Wellcome Trust Sanger Institute
• > 40 Entwickler beschäftigt
• Software, Daten und Resultate frei verfügbar
• Vergleichende Genomik
• Variation und Regulation
• Integration von externen Daten (DAS)
Ensembl
• Ensembl Core database
– normalisiert, jeder Eintrag nur 1 mal gespeichert
– schnelle Updates, geringer Speicheraufwand
• Mart database
– De-normalisiert, Tabellen enthalten redundante Einträge schnellere Abfragen
• Biomart
– Abfrage Tool Erstellung personalisierter Abfragen
• Weitere Zugriffsmöglichkeiten
– Direkter Datenbankzugriff (ensembldb.ensembl.org)
– MySQL client, Perl, REST, R
Spezien in Ensembl v104
• Stand Juni 2021
• 310 Spezien (hauptsächlich Vertebraten)
• Weitere Instanzen mit Organismen aus:
– EnsemblMetazoa
– EnsemblPlants
– EnsemblFungi
– EnsemblProtist
– EnsemblBacteria
Ensembl
• Ensembl ID: stabiler Identifier
• Format:
– ENS#
– ENSG# ............... Gen (Human)
– ENST# ............... Transkript
– ENSP# ............... Protein
– ENSE# ............... Exon
– ENSR# ............... Regulatorisches element
• Spezien prefixes:
– ENSMUSG# Gen (Maus), ENSRNOG# Gen (Ratte – rattus norvegicus) ....
Ensembl
BRCA1
Human
Ensembl
Ensembl
Ensembl
Ensembl BioMart
Exercise 2 - Task 1: Working with Ensembl
2.1 Exploring features related to a gene
2.2 Examining the supporting evidence for a gene prediction
2.3 Extracting sequences related to a gene
2.4 Retrieve all coding SNPs (variations) in the germline with pathogenic clinical significance for a gene from dbSNP
Übung II
Einführung, Teil 2
Vergleichend Genomik
Vergleichende Genomik• Vergleich genomischer “features” unterschiedlicher Organismen:
– DNA sequence– Gene– Genreihenfolge– Regulatorische Sequenzen
• Der Vergleich ganzer oder große Teile mehrerer Genome ergibt:– Grundlegende biologische Ähnlichleiten oder Unterschiede– Evolutionäre Beziehungen zwischen Organismen
Hauptprinzip/Annahme der vergleichenden Genomikgemeinsame “features” sind in konservierten DNA Bereichen kodiert
• Methode– Alignment von Genom Sequenzen– finden von orthologen Sequenzen in den “alignten” Genomen– Feststellung des Ausmaßes der Konservierung– Basierend darauf können Rückschlüssen auf die Evolution der Genome gemacht werden
Vergleichende Genomik – Tools/DBs
• Orthologe/paraloge Gene– HomoloGene (NCBI)
– Inparanoid (CGB, Karolinska Institute)
– OrthoMCL, Markov Clustering algorithm (University of Pennsylvania)
– YOGY (eukarYotic OrtholoGY) web-based resource, integriert 5 independent resources (Sanger)
– …
• Protein Familien (PFAM, Sammlung von Protein Familien)
• Chromosomen Synteny e.g. Ensembl viewer
Multiple sequence alignment(CLUSTALW, Clustal Omega)
Multiple Sequence Alignment (MSA): Sequenz Alignment aus drei oder mehrbiologischen Sequenzen, generell Protein, DNA, or RNA.
MSA: Ableitung von Homologie, Hinweise auf evolutionäre Beziehungen
Jalview
Exercise 2 - Task 2: Comparative Genomics
2.5 Comparative Genomics using Ensembl
2.6 Comparing gene related sequences from different organisms
2.7 Find orthologs of a human protein and generate a MSA
Glossar
• Transkript
• UTR
• 5‘ upstream region
• Protein domain
• Chromosomenband
• SNP
• Contig
Clone
Homologie
Synteny
GeneOntology
RefSeq
BLASTz
InterPro
Glossar
• Transkript
Reifes mRNA Molekül (bereits gespliced und verarbeitet [beinhaltet nur Exons] - somit fertig für die
Proteinsynthese im Zuge der Translation); Aufgrund von unterschiedlichen Splicing-Varianten können
unterschiedliche Transkripte entstehen.
• Untranslated region (UTR)
Randbereiche der mRNA welche nicht für Proteine codieren (5‘, 3‘, PolyA)
• 5‘ - upstream region (5‘-flanking, cis-regulatory or promoter region)
Region vor Gen; Länge bis zu tausende Basenpaare; Bindungsstellen für Promotoren, regulatorische
Elemente, ...
Glossar
• Protein domain
Teil/Struktur eines Proteins welches bestimmte physiochemische Eigenschaften besitzt. zB:
hydrophob, polar, DNA-binding domain, ATP-binding domain
• Protein Familien
Gruppe von evolutionär-abhängigen Proteinen → leiten sich von gemeinsamen Vorfahren ab
(Homologie), ähnliche 3D-Struktur
• Chromosomenband
Durch Einfärben entstehen unterschiedliche Bandenmuster, eindeutige Identifizierung, Navigation auf
Chromosom, Bandenmuster sind charakteristisch für jeweiliges Chromosom.
Glossar
• Single nucleotide polymorphism (SNP)
Variationen einzelner Basenpaare in einem DNA-Strang; ca. 90 % aller genetischen Varianten des
menschlichen Genoms; treten nicht gleichverteilt auf, sondern nur ungleichmäßig stark an bestimmten
Regionen; Unterscheidung von synonymous vs. Nonsynonymous; 1-3 mio SNPs pro Individuum
• Genomic marker
Sequenz die eindeutig einen bestimmten Bereich im Genom bestimmt; wichtig für genetische Studien,
Klonierung, ...
• GeneOntology
Vereinheitlichung eines Teils des Vokabulars der Biowissenschaften → Ontologie-Datenbank; Ziel:
Zuordnung der Ontologien zu den Genen, oder vielmehr ihrer Produkte anhand einer hierarchischen
Struktur mit drei grundlegender Domänen; keine Datenbank sondern ein System zur Beschreibung von
Proteinen
Glossar
• RefSeq
Nicht-redundante und frei verfügbare Sammlung von annotierten, separierten und verlinkten
Referenzstandards besteht aus Genome-, Transkript- und Proteinsequenzen
• BLASTz / LASTz
Multiple Sequence Alignment Program für Genom-Genom Alignments
• Clone
Teil einer DNA die zB in Plasmid eingebracht wurde um diese dann zu vervielfältigen
• Contig
Ein Set überlappender DNA-Stücke. die von derselben genetischen Quelle stammen. Ein solches Contig
kann dazu genutzt werden, die Original-DNA-Sequenz dieser genetischen Quelle abzuleiten.
Glossar
• InterPro: the integrative protein signature database
- Vorhersage von Protein Signaturen (domains, families and functional sites)
- Klassifizierung von Proteinen auf superfamily, family und subfamily Ebene
• Synteny
Maß für die genetische Verwandtschaft zweier/mehrerer Arten. Synteny beschreibt die Konservierung
der Genanordnung im Genom zwischen verwandten Arten, die Genanordnung im Genom ist umso
konservierter, je verwandter die verglichenen Arten sind.
Glossar
• Homologie
Gene in unterschiedlichen Spezien welche ähnliche oder identische Funktionen haben, und in ihrer
Sequenz auf einen gemeinsamen Vorgänger zurückzuführen sind
– Orthologie
Artenbildung (Speciation)
funktional verwandte und von einem gemeinsamen
Vorgänger abstammende Gene und deren Proteine
– Paralogie
Genduplikation (Gene duplication)
Verwandtschaft von Genen mit möglicherweise
unterschiedlicher Funktion innerhalb des
Genoms, auch Ausbildung neuer Funktion möglich
Orthologe haben meist die selbe oder ähnliche Funktion,
Paraloge nicht unbedingt.
Recommended