Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Preview:

Citation preview

Übung II

Einführung, Teil 1

Arbeiten mit Ensembl

Ensembl

• Genome Browser (Bereitstellung von Vielzeller-Genomen)

• Projekt wurde 1999 initiiert

• Projektpartner

– EMBL – European Bioinformatics Institute (EBI)

– Wellcome Trust Sanger Institute

• > 40 Entwickler beschäftigt

• Software, Daten und Resultate frei verfügbar

• Vergleichende Genomik

• Variation und Regulation

• Integration von externen Daten (DAS)

Ensembl

• Ensembl Core database

– normalisiert, jeder Eintrag nur 1 mal gespeichert

– schnelle Updates, geringer Speicheraufwand

• Mart database

– De-normalisiert, Tabellen enthalten redundante Einträge schnellere Abfragen

• Biomart

– Abfrage Tool Erstellung personalisierter Abfragen

• Weitere Zugriffsmöglichkeiten

– Direkter Datenbankzugriff (ensembldb.ensembl.org)

– MySQL client, Perl, REST, R

Spezien in Ensembl v104

• Stand Juni 2021

• 310 Spezien (hauptsächlich Vertebraten)

• Weitere Instanzen mit Organismen aus:

– EnsemblMetazoa

– EnsemblPlants

– EnsemblFungi

– EnsemblProtist

– EnsemblBacteria

Ensembl

• Ensembl ID: stabiler Identifier

• Format:

– ENS#

– ENSG# ............... Gen (Human)

– ENST# ............... Transkript

– ENSP# ............... Protein

– ENSE# ............... Exon

– ENSR# ............... Regulatorisches element

• Spezien prefixes:

– ENSMUSG# Gen (Maus), ENSRNOG# Gen (Ratte – rattus norvegicus) ....

Ensembl

BRCA1

Human

Ensembl

Ensembl

Ensembl

Ensembl BioMart

Exercise 2 - Task 1: Working with Ensembl

2.1 Exploring features related to a gene

2.2 Examining the supporting evidence for a gene prediction

2.3 Extracting sequences related to a gene

2.4 Retrieve all coding SNPs (variations) in the germline with pathogenic clinical significance for a gene from dbSNP

Übung II

Einführung, Teil 2

Vergleichend Genomik

Vergleichende Genomik• Vergleich genomischer “features” unterschiedlicher Organismen:

– DNA sequence– Gene– Genreihenfolge– Regulatorische Sequenzen

• Der Vergleich ganzer oder große Teile mehrerer Genome ergibt:– Grundlegende biologische Ähnlichleiten oder Unterschiede– Evolutionäre Beziehungen zwischen Organismen

Hauptprinzip/Annahme der vergleichenden Genomikgemeinsame “features” sind in konservierten DNA Bereichen kodiert

• Methode– Alignment von Genom Sequenzen– finden von orthologen Sequenzen in den “alignten” Genomen– Feststellung des Ausmaßes der Konservierung– Basierend darauf können Rückschlüssen auf die Evolution der Genome gemacht werden

Vergleichende Genomik – Tools/DBs

• Orthologe/paraloge Gene– HomoloGene (NCBI)

– Inparanoid (CGB, Karolinska Institute)

– OrthoMCL, Markov Clustering algorithm (University of Pennsylvania)

– YOGY (eukarYotic OrtholoGY) web-based resource, integriert 5 independent resources (Sanger)

– …

• Protein Familien (PFAM, Sammlung von Protein Familien)

• Chromosomen Synteny e.g. Ensembl viewer

Multiple sequence alignment(CLUSTALW, Clustal Omega)

Multiple Sequence Alignment (MSA): Sequenz Alignment aus drei oder mehrbiologischen Sequenzen, generell Protein, DNA, or RNA.

MSA: Ableitung von Homologie, Hinweise auf evolutionäre Beziehungen

Jalview

Exercise 2 - Task 2: Comparative Genomics

2.5 Comparative Genomics using Ensembl

2.6 Comparing gene related sequences from different organisms

2.7 Find orthologs of a human protein and generate a MSA

Glossar

• Transkript

• UTR

• 5‘ upstream region

• Protein domain

• Chromosomenband

• SNP

• Contig

Clone

Homologie

Synteny

GeneOntology

RefSeq

BLASTz

InterPro

Glossar

• Transkript

Reifes mRNA Molekül (bereits gespliced und verarbeitet [beinhaltet nur Exons] - somit fertig für die

Proteinsynthese im Zuge der Translation); Aufgrund von unterschiedlichen Splicing-Varianten können

unterschiedliche Transkripte entstehen.

• Untranslated region (UTR)

Randbereiche der mRNA welche nicht für Proteine codieren (5‘, 3‘, PolyA)

• 5‘ - upstream region (5‘-flanking, cis-regulatory or promoter region)

Region vor Gen; Länge bis zu tausende Basenpaare; Bindungsstellen für Promotoren, regulatorische

Elemente, ...

Glossar

• Protein domain

Teil/Struktur eines Proteins welches bestimmte physiochemische Eigenschaften besitzt. zB:

hydrophob, polar, DNA-binding domain, ATP-binding domain

• Protein Familien

Gruppe von evolutionär-abhängigen Proteinen → leiten sich von gemeinsamen Vorfahren ab

(Homologie), ähnliche 3D-Struktur

• Chromosomenband

Durch Einfärben entstehen unterschiedliche Bandenmuster, eindeutige Identifizierung, Navigation auf

Chromosom, Bandenmuster sind charakteristisch für jeweiliges Chromosom.

Glossar

• Single nucleotide polymorphism (SNP)

Variationen einzelner Basenpaare in einem DNA-Strang; ca. 90 % aller genetischen Varianten des

menschlichen Genoms; treten nicht gleichverteilt auf, sondern nur ungleichmäßig stark an bestimmten

Regionen; Unterscheidung von synonymous vs. Nonsynonymous; 1-3 mio SNPs pro Individuum

• Genomic marker

Sequenz die eindeutig einen bestimmten Bereich im Genom bestimmt; wichtig für genetische Studien,

Klonierung, ...

• GeneOntology

Vereinheitlichung eines Teils des Vokabulars der Biowissenschaften → Ontologie-Datenbank; Ziel:

Zuordnung der Ontologien zu den Genen, oder vielmehr ihrer Produkte anhand einer hierarchischen

Struktur mit drei grundlegender Domänen; keine Datenbank sondern ein System zur Beschreibung von

Proteinen

Glossar

• RefSeq

Nicht-redundante und frei verfügbare Sammlung von annotierten, separierten und verlinkten

Referenzstandards besteht aus Genome-, Transkript- und Proteinsequenzen

• BLASTz / LASTz

Multiple Sequence Alignment Program für Genom-Genom Alignments

• Clone

Teil einer DNA die zB in Plasmid eingebracht wurde um diese dann zu vervielfältigen

• Contig

Ein Set überlappender DNA-Stücke. die von derselben genetischen Quelle stammen. Ein solches Contig

kann dazu genutzt werden, die Original-DNA-Sequenz dieser genetischen Quelle abzuleiten.

Glossar

• InterPro: the integrative protein signature database

- Vorhersage von Protein Signaturen (domains, families and functional sites)

- Klassifizierung von Proteinen auf superfamily, family und subfamily Ebene

• Synteny

Maß für die genetische Verwandtschaft zweier/mehrerer Arten. Synteny beschreibt die Konservierung

der Genanordnung im Genom zwischen verwandten Arten, die Genanordnung im Genom ist umso

konservierter, je verwandter die verglichenen Arten sind.

Glossar

• Homologie

Gene in unterschiedlichen Spezien welche ähnliche oder identische Funktionen haben, und in ihrer

Sequenz auf einen gemeinsamen Vorgänger zurückzuführen sind

– Orthologie

Artenbildung (Speciation)

funktional verwandte und von einem gemeinsamen

Vorgänger abstammende Gene und deren Proteine

– Paralogie

Genduplikation (Gene duplication)

Verwandtschaft von Genen mit möglicherweise

unterschiedlicher Funktion innerhalb des

Genoms, auch Ausbildung neuer Funktion möglich

Orthologe haben meist die selbe oder ähnliche Funktion,

Paraloge nicht unbedingt.

Recommended