Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Übung II
Einführung, Teil 1
Arbeiten mit Ensembl
Ensembl
• Genome Browser (Bereitstellung von Vielzeller-Genomen)
• Projekt wurde 1999 initiiert
• Projektpartner
– EMBL – European Bioinformatics Institute (EBI)
– Wellcome Trust Sanger Institute
• > 40 Entwickler beschäftigt
• Software, Daten und Resultate frei verfügbar
• Vergleichende Genomik
• Variation und Regulation
• Integration von externen Daten (DAS)
Ensembl
• Ensembl Core database
– normalisiert, jeder Eintrag nur 1 mal gespeichert
– schnelle Updates, geringer Speicheraufwand
• Mart database
– De-normalisiert, Tabellen enthalten redundante Einträge schnellere Abfragen
• Biomart
– Abfrage Tool Erstellung personalisierter Abfragen
• Weitere Zugriffsmöglichkeiten
– Direkter Datenbankzugriff (ensembldb.ensembl.org)
– MySQL client, Perl, REST, R
Spezien in Ensembl v104
• Stand Juni 2021
• 310 Spezien (hauptsächlich Vertebraten)
• Weitere Instanzen mit Organismen aus:
– EnsemblMetazoa
– EnsemblPlants
– EnsemblFungi
– EnsemblProtist
– EnsemblBacteria
Ensembl
• Ensembl ID: stabiler Identifier
• Format:
– ENS#
– ENSG# ............... Gen (Human)
– ENST# ............... Transkript
– ENSP# ............... Protein
– ENSE# ............... Exon
– ENSR# ............... Regulatorisches element
• Spezien prefixes:
– ENSMUSG# Gen (Maus), ENSRNOG# Gen (Ratte – rattus norvegicus) ....
Ensembl
BRCA1
Human
Ensembl
Ensembl
Ensembl
Ensembl BioMart
Exercise 2 - Task 1: Working with Ensembl
2.1 Exploring features related to a gene
2.2 Examining the supporting evidence for a gene prediction
2.3 Extracting sequences related to a gene
2.4 Retrieve all coding SNPs (variations) in the germline with pathogenic clinical significance for a gene from dbSNP
Übung II
Einführung, Teil 2
Vergleichend Genomik
Vergleichende Genomik• Vergleich genomischer “features” unterschiedlicher Organismen:
– DNA sequence– Gene– Genreihenfolge– Regulatorische Sequenzen
• Der Vergleich ganzer oder große Teile mehrerer Genome ergibt:– Grundlegende biologische Ähnlichleiten oder Unterschiede– Evolutionäre Beziehungen zwischen Organismen
Hauptprinzip/Annahme der vergleichenden Genomikgemeinsame “features” sind in konservierten DNA Bereichen kodiert
• Methode– Alignment von Genom Sequenzen– finden von orthologen Sequenzen in den “alignten” Genomen– Feststellung des Ausmaßes der Konservierung– Basierend darauf können Rückschlüssen auf die Evolution der Genome gemacht werden
Vergleichende Genomik – Tools/DBs
• Orthologe/paraloge Gene– HomoloGene (NCBI)
– Inparanoid (CGB, Karolinska Institute)
– OrthoMCL, Markov Clustering algorithm (University of Pennsylvania)
– YOGY (eukarYotic OrtholoGY) web-based resource, integriert 5 independent resources (Sanger)
– …
• Protein Familien (PFAM, Sammlung von Protein Familien)
• Chromosomen Synteny e.g. Ensembl viewer
Multiple sequence alignment(CLUSTALW, Clustal Omega)
Multiple Sequence Alignment (MSA): Sequenz Alignment aus drei oder mehrbiologischen Sequenzen, generell Protein, DNA, or RNA.
MSA: Ableitung von Homologie, Hinweise auf evolutionäre Beziehungen
Jalview
Exercise 2 - Task 2: Comparative Genomics
2.5 Comparative Genomics using Ensembl
2.6 Comparing gene related sequences from different organisms
2.7 Find orthologs of a human protein and generate a MSA
Glossar
• Transkript
• UTR
• 5‘ upstream region
• Protein domain
• Chromosomenband
• SNP
• Contig
Clone
Homologie
Synteny
GeneOntology
RefSeq
BLASTz
InterPro
Glossar
• Transkript
Reifes mRNA Molekül (bereits gespliced und verarbeitet [beinhaltet nur Exons] - somit fertig für die
Proteinsynthese im Zuge der Translation); Aufgrund von unterschiedlichen Splicing-Varianten können
unterschiedliche Transkripte entstehen.
• Untranslated region (UTR)
Randbereiche der mRNA welche nicht für Proteine codieren (5‘, 3‘, PolyA)
• 5‘ - upstream region (5‘-flanking, cis-regulatory or promoter region)
Region vor Gen; Länge bis zu tausende Basenpaare; Bindungsstellen für Promotoren, regulatorische
Elemente, ...
Glossar
• Protein domain
Teil/Struktur eines Proteins welches bestimmte physiochemische Eigenschaften besitzt. zB:
hydrophob, polar, DNA-binding domain, ATP-binding domain
• Protein Familien
Gruppe von evolutionär-abhängigen Proteinen → leiten sich von gemeinsamen Vorfahren ab
(Homologie), ähnliche 3D-Struktur
• Chromosomenband
Durch Einfärben entstehen unterschiedliche Bandenmuster, eindeutige Identifizierung, Navigation auf
Chromosom, Bandenmuster sind charakteristisch für jeweiliges Chromosom.
Glossar
• Single nucleotide polymorphism (SNP)
Variationen einzelner Basenpaare in einem DNA-Strang; ca. 90 % aller genetischen Varianten des
menschlichen Genoms; treten nicht gleichverteilt auf, sondern nur ungleichmäßig stark an bestimmten
Regionen; Unterscheidung von synonymous vs. Nonsynonymous; 1-3 mio SNPs pro Individuum
• Genomic marker
Sequenz die eindeutig einen bestimmten Bereich im Genom bestimmt; wichtig für genetische Studien,
Klonierung, ...
• GeneOntology
Vereinheitlichung eines Teils des Vokabulars der Biowissenschaften → Ontologie-Datenbank; Ziel:
Zuordnung der Ontologien zu den Genen, oder vielmehr ihrer Produkte anhand einer hierarchischen
Struktur mit drei grundlegender Domänen; keine Datenbank sondern ein System zur Beschreibung von
Proteinen
Glossar
• RefSeq
Nicht-redundante und frei verfügbare Sammlung von annotierten, separierten und verlinkten
Referenzstandards besteht aus Genome-, Transkript- und Proteinsequenzen
• BLASTz / LASTz
Multiple Sequence Alignment Program für Genom-Genom Alignments
• Clone
Teil einer DNA die zB in Plasmid eingebracht wurde um diese dann zu vervielfältigen
• Contig
Ein Set überlappender DNA-Stücke. die von derselben genetischen Quelle stammen. Ein solches Contig
kann dazu genutzt werden, die Original-DNA-Sequenz dieser genetischen Quelle abzuleiten.
Glossar
• InterPro: the integrative protein signature database
- Vorhersage von Protein Signaturen (domains, families and functional sites)
- Klassifizierung von Proteinen auf superfamily, family und subfamily Ebene
• Synteny
Maß für die genetische Verwandtschaft zweier/mehrerer Arten. Synteny beschreibt die Konservierung
der Genanordnung im Genom zwischen verwandten Arten, die Genanordnung im Genom ist umso
konservierter, je verwandter die verglichenen Arten sind.
Glossar
• Homologie
Gene in unterschiedlichen Spezien welche ähnliche oder identische Funktionen haben, und in ihrer
Sequenz auf einen gemeinsamen Vorgänger zurückzuführen sind
– Orthologie
Artenbildung (Speciation)
funktional verwandte und von einem gemeinsamen
Vorgänger abstammende Gene und deren Proteine
– Paralogie
Genduplikation (Gene duplication)
Verwandtschaft von Genen mit möglicherweise
unterschiedlicher Funktion innerhalb des
Genoms, auch Ausbildung neuer Funktion möglich
Orthologe haben meist die selbe oder ähnliche Funktion,
Paraloge nicht unbedingt.