Transcript
Page 1: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Übung II

Einführung, Teil 1

Arbeiten mit Ensembl

Page 2: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

• Genome Browser (Bereitstellung von Vielzeller-Genomen)

• Projekt wurde 1999 initiiert

• Projektpartner

– EMBL – European Bioinformatics Institute (EBI)

– Wellcome Trust Sanger Institute

• > 40 Entwickler beschäftigt

• Software, Daten und Resultate frei verfügbar

• Vergleichende Genomik

• Variation und Regulation

• Integration von externen Daten (DAS)

Page 3: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

• Ensembl Core database

– normalisiert, jeder Eintrag nur 1 mal gespeichert

– schnelle Updates, geringer Speicheraufwand

• Mart database

– De-normalisiert, Tabellen enthalten redundante Einträge schnellere Abfragen

• Biomart

– Abfrage Tool Erstellung personalisierter Abfragen

• Weitere Zugriffsmöglichkeiten

– Direkter Datenbankzugriff (ensembldb.ensembl.org)

– MySQL client, Perl, REST, R

Page 4: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Spezien in Ensembl v104

• Stand Juni 2021

• 310 Spezien (hauptsächlich Vertebraten)

• Weitere Instanzen mit Organismen aus:

– EnsemblMetazoa

– EnsemblPlants

– EnsemblFungi

– EnsemblProtist

– EnsemblBacteria

Page 5: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

• Ensembl ID: stabiler Identifier

• Format:

– ENS#

– ENSG# ............... Gen (Human)

– ENST# ............... Transkript

– ENSP# ............... Protein

– ENSE# ............... Exon

– ENSR# ............... Regulatorisches element

• Spezien prefixes:

– ENSMUSG# Gen (Maus), ENSRNOG# Gen (Ratte – rattus norvegicus) ....

Page 6: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

BRCA1

Human

Page 7: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

Page 8: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

Page 9: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

Page 10: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl BioMart

Page 11: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Exercise 2 - Task 1: Working with Ensembl

2.1 Exploring features related to a gene

2.2 Examining the supporting evidence for a gene prediction

2.3 Extracting sequences related to a gene

2.4 Retrieve all coding SNPs (variations) in the germline with pathogenic clinical significance for a gene from dbSNP

Page 12: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Übung II

Einführung, Teil 2

Vergleichend Genomik

Page 13: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Vergleichende Genomik• Vergleich genomischer “features” unterschiedlicher Organismen:

– DNA sequence– Gene– Genreihenfolge– Regulatorische Sequenzen

• Der Vergleich ganzer oder große Teile mehrerer Genome ergibt:– Grundlegende biologische Ähnlichleiten oder Unterschiede– Evolutionäre Beziehungen zwischen Organismen

Hauptprinzip/Annahme der vergleichenden Genomikgemeinsame “features” sind in konservierten DNA Bereichen kodiert

• Methode– Alignment von Genom Sequenzen– finden von orthologen Sequenzen in den “alignten” Genomen– Feststellung des Ausmaßes der Konservierung– Basierend darauf können Rückschlüssen auf die Evolution der Genome gemacht werden

Page 14: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Vergleichende Genomik – Tools/DBs

• Orthologe/paraloge Gene– HomoloGene (NCBI)

– Inparanoid (CGB, Karolinska Institute)

– OrthoMCL, Markov Clustering algorithm (University of Pennsylvania)

– YOGY (eukarYotic OrtholoGY) web-based resource, integriert 5 independent resources (Sanger)

– …

• Protein Familien (PFAM, Sammlung von Protein Familien)

• Chromosomen Synteny e.g. Ensembl viewer

Page 15: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Multiple sequence alignment(CLUSTALW, Clustal Omega)

Multiple Sequence Alignment (MSA): Sequenz Alignment aus drei oder mehrbiologischen Sequenzen, generell Protein, DNA, or RNA.

MSA: Ableitung von Homologie, Hinweise auf evolutionäre Beziehungen

Jalview

Page 16: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Exercise 2 - Task 2: Comparative Genomics

2.5 Comparative Genomics using Ensembl

2.6 Comparing gene related sequences from different organisms

2.7 Find orthologs of a human protein and generate a MSA

Page 17: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Transkript

• UTR

• 5‘ upstream region

• Protein domain

• Chromosomenband

• SNP

• Contig

Clone

Homologie

Synteny

GeneOntology

RefSeq

BLASTz

InterPro

Page 18: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Transkript

Reifes mRNA Molekül (bereits gespliced und verarbeitet [beinhaltet nur Exons] - somit fertig für die

Proteinsynthese im Zuge der Translation); Aufgrund von unterschiedlichen Splicing-Varianten können

unterschiedliche Transkripte entstehen.

• Untranslated region (UTR)

Randbereiche der mRNA welche nicht für Proteine codieren (5‘, 3‘, PolyA)

• 5‘ - upstream region (5‘-flanking, cis-regulatory or promoter region)

Region vor Gen; Länge bis zu tausende Basenpaare; Bindungsstellen für Promotoren, regulatorische

Elemente, ...

Page 19: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Protein domain

Teil/Struktur eines Proteins welches bestimmte physiochemische Eigenschaften besitzt. zB:

hydrophob, polar, DNA-binding domain, ATP-binding domain

• Protein Familien

Gruppe von evolutionär-abhängigen Proteinen → leiten sich von gemeinsamen Vorfahren ab

(Homologie), ähnliche 3D-Struktur

• Chromosomenband

Durch Einfärben entstehen unterschiedliche Bandenmuster, eindeutige Identifizierung, Navigation auf

Chromosom, Bandenmuster sind charakteristisch für jeweiliges Chromosom.

Page 20: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Single nucleotide polymorphism (SNP)

Variationen einzelner Basenpaare in einem DNA-Strang; ca. 90 % aller genetischen Varianten des

menschlichen Genoms; treten nicht gleichverteilt auf, sondern nur ungleichmäßig stark an bestimmten

Regionen; Unterscheidung von synonymous vs. Nonsynonymous; 1-3 mio SNPs pro Individuum

• Genomic marker

Sequenz die eindeutig einen bestimmten Bereich im Genom bestimmt; wichtig für genetische Studien,

Klonierung, ...

• GeneOntology

Vereinheitlichung eines Teils des Vokabulars der Biowissenschaften → Ontologie-Datenbank; Ziel:

Zuordnung der Ontologien zu den Genen, oder vielmehr ihrer Produkte anhand einer hierarchischen

Struktur mit drei grundlegender Domänen; keine Datenbank sondern ein System zur Beschreibung von

Proteinen

Page 21: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• RefSeq

Nicht-redundante und frei verfügbare Sammlung von annotierten, separierten und verlinkten

Referenzstandards besteht aus Genome-, Transkript- und Proteinsequenzen

• BLASTz / LASTz

Multiple Sequence Alignment Program für Genom-Genom Alignments

• Clone

Teil einer DNA die zB in Plasmid eingebracht wurde um diese dann zu vervielfältigen

• Contig

Ein Set überlappender DNA-Stücke. die von derselben genetischen Quelle stammen. Ein solches Contig

kann dazu genutzt werden, die Original-DNA-Sequenz dieser genetischen Quelle abzuleiten.

Page 22: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• InterPro: the integrative protein signature database

- Vorhersage von Protein Signaturen (domains, families and functional sites)

- Klassifizierung von Proteinen auf superfamily, family und subfamily Ebene

• Synteny

Maß für die genetische Verwandtschaft zweier/mehrerer Arten. Synteny beschreibt die Konservierung

der Genanordnung im Genom zwischen verwandten Arten, die Genanordnung im Genom ist umso

konservierter, je verwandter die verglichenen Arten sind.

Page 23: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Homologie

Gene in unterschiedlichen Spezien welche ähnliche oder identische Funktionen haben, und in ihrer

Sequenz auf einen gemeinsamen Vorgänger zurückzuführen sind

– Orthologie

Artenbildung (Speciation)

funktional verwandte und von einem gemeinsamen

Vorgänger abstammende Gene und deren Proteine

– Paralogie

Genduplikation (Gene duplication)

Verwandtschaft von Genen mit möglicherweise

unterschiedlicher Funktion innerhalb des

Genoms, auch Ausbildung neuer Funktion möglich

Orthologe haben meist die selbe oder ähnliche Funktion,

Paraloge nicht unbedingt.


Recommended