Upload
zuzela
View
21
Download
0
Embed Size (px)
DESCRIPTION
Lehrstuhl Ökosysteme und Umweltinformatik. 27·10 ·2010 Organisation und Verwaltung von Forschungsdaten zum Gewässermanagement Mirko Filetti. 1. 2. GLIEDERUNG. Einleitung Aktuelle Situation „GeoNetwork Opensource“ (GNOS) Live-Präsentation GNOS Schlussbemerkungen. - PowerPoint PPT Presentation
Citation preview
11
27·10 ·2010
Organisation und Verwaltung von Forschungsdaten zum Gewässermanagement
Mirko Filetti
Lehrstuhl Ökosysteme und Umweltinformatik
22
GLIEDERUNG
1. Einleitung
2. Aktuelle Situation
3. „GeoNetwork Opensource“ (GNOS)
4. Live-Präsentation GNOS
5. Schlussbemerkungen
Lehrstuhl Ökosysteme und Umweltinformatik
2
33
THESE
Nur eine open source Software, wie „GeoNetwork Opensource“ (GNOS), ist für den öffentlichen Zugriff (open access) auf wissenschaftliche Daten in einem
weltweiten Netzwerk nachhaltig geeignet.
Lehrstuhl Ökosysteme und Umweltinformatik
3
44
THESE
Warum open source?
• Software ist für Alle frei verfügbar (keine Kosten)
• Weltweite Entwicklergemeinde
• Unabhängigkeit
• Einheitliche Bedienung
Warum GNOS?
• Benutzerfreundlich und gut anpassbar
• Georeferenzierung / GIS - Layertechnik
• Metadatensuche
• Standards (XML, XSLT, ISO,…)
• Harvesting / Nodes // Hierarchische Strukturen
• Benutzerrechte / -verwaltung Lehrstuhl Ökosysteme und Umweltinformatik
4
55
01EINLEITUNG
Lehrstuhl Ökosysteme und Umweltinformatik
5
66
EINLEITUNGDatenvolumen I
01 · KAPITEL – EINLEITUNG Lehrstuhl Ökosysteme und Umweltinformatik
6
(de: ca. 1 Billion 1012)
77
EINLEITUNG Datenvolumen II
Lehrstuhl Ökosysteme und Umweltinformatik
7
01 · KAPITEL – EINLEITUNG
88
EINLEITUNGDatenvolumen III
Lehrstuhl Ökosysteme und Umweltinformatik
8
(de: Billion 1012)
01 · KAPITEL – EINLEITUNG
99
EINLEITUNG Datenvolumen IV
Nur mit modernen Kompresssionstechnologien ist diesem Missverhältnis beizukommen
Lehrstuhl Ökosysteme und Umweltinformatik
9
~1 ZB = 1012 GB
01 · KAPITEL – EINLEITUNG
1010
EINLEITUNG Datenvolumen V
Lehrstuhl Ökosysteme und Umweltinformatik01 · KAPITEL – EINFÜHRUNG
Bis 2020 soll die weltweite digitale Datenmenge um den Faktor 44 auf runde 35 Zettabyte anwachsen.
Das entspricht zwei Stapeln von DVDs, die von der Erde bis zum Mond reichen.
10
2009: ~1 ZB = 1012 GB
1111
EINLEITUNG Daten-Typen
Beispiele für Datentypen:
Programme
Audio/Video
Studien, best practice
Konferenz-Ergebnisse
Datenreihen
Verzeichnisse / Kataloge
Interaktive Ressourcen
Karten & Grafiken
Fotos
Andere Informationsquellen
Big Science Data
(z.B. Satellitenbilder)
Small Science Data (z.B. kleine Excel Tabelle)
Lehrstuhl Ökosysteme und Umweltinformatik
zeichnen sich aus durch große Datenmengen mit relativ homogenen Strukturen.
zeichnen sich durch kleine Datenmengen mit heterogenen Strukturen aus.
Bislang lag das Augenmerk beim Umgang mitForschungsdaten auf großen Beständen, sog. „Big Science Data“. Auf Grund der großen Datenmengen gibt es hier immer ein Datenmanagement.
11
01 · KAPITEL – EINLEITUNG
1212
EINLEITUNG Metadaten - „Daten über Daten“
• Dateninhalt (z.B. Wo?, Wann?)
• Datenqualität (z.B. Auflösung)
• Datenformat (z.B. RGB, CMYK)
• Hersteller (Person, Organisation)
• verwendete Referenzsysteme
• Art der Weitergabe
• Kontaktpersonen
• ...
Lehrstuhl Ökosysteme und Umweltinformatik
Ohne Beschreibung ist der Inhalt unbrauchbar!
12
01 · KAPITEL – EINLEITUNG
1313
EINLEITUNG Data Life Cycle
Lehrstuhl Ökosysteme und Umweltinformatik
Personenkreis
Handlungen
Phasen
13
01 · KAPITEL – EINLEITUNG
1414
02ALLGEMEINE SITUATION
Lehrstuhl Ökosysteme und Umweltinformatik
14
1515
ALLGEMEINE SITUATION Informationen & Geodaten im öffentlichen Sektor
• Im europäischen Rahmen werden jährlich etwa 10 Mrd. Euro für Informationen des öffentlichen Sektors investiert. Davon entfallen ca. 50% auf Geoinformationen (IMAGI 2007).
• Durch mangelnde Koordination und aus Unkenntnis über Umfang, Qualität, Aktualität und Verfügbarkeit von vorhandenen Datenquellen werden Geodaten jedoch oft mehrfach erhoben oder gekauft.
• Mit öffentlichen Mitteln erhobene Daten sollten unbeschränkt für die Öffentlichkeit verfügbar sein (Open Access).
Lehrstuhl Ökosysteme und Umweltinformatik
15
02 · KAPITEL – ALLGEMEINE SITUATION
1616
ALLGEMEINE SITUATIONDatenhaltung
Unterschiedliche Def. der Langzeit-Datenhaltung:
Informatiker: > 5 Jahre
DFG: > 10 Jahre
SFB: > 25 Jahre vom Start
Ingenieure: > 30 Jahre
Linguisten: > 100 Jahre
Lehrstuhl Ökosysteme und Umweltinformatik02 · KAPITEL – ALLGEMEINE SITUATION
16
???
(bis 10 Jahre danach)
„Million years later…“
1717
ALLGEMEINE SITUATION “good scientific practice“
DFG:„Empfehlung 7Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.“Quelle: http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_0198.pdf
• Alle Schritte müssen als Grundlage wiss. Arbeit nachvollziehbar sein.
• Primärdaten müssen persistent und wiederfindbar aufbewahrt werden.
• Fachspezifisches Organisationskonzept zur Datenhaltung ist erforderlich
• „Open Access“ - Daten für die Öffentlichkeit.
• Datenschutz, Urheberrechte und Zugriffsrechte müssen beachtet werden.
• Die Speicherung sollte im Rahmen definierter Standards erfolgen.
Lehrstuhl Ökosysteme und Umweltinformatik
17
02 · KAPITEL – ALLGEMEINE SITUATION
1818
ALLGEMEINE SITUATION Data Policies (DP) - Allgemein
Für den wissenschaftlichen Umgang mit Daten müssen
allgemeingültige Regeln definiert werden, um eine gute
wissenschaftliche Praxis (GwP) einzuhalten und den offenen
Zugang zu Daten zu gewährleisten (OA).
Die Regeln (DP) sollten fest verankert sein:
• im alltäglichen Arbeitsablauf & IT,
• in Dienstanweisungen,
• in Studienordnungen…
Lehrstuhl Ökosysteme und Umweltinformatik
18
02 · KAPITEL – ALLGEMEINE SITUATION
1919
ALLGEMEINE SITUATION Data Policies (DP) - Probleme
• Akzeptanz bei Personal / Anreize
• Zusätzlicher Aufwand (Dilemma der Prioritäten)
• Small Science Data (Aufwand / Datenmenge)
• Integration in Arbeitsabläufe (Workflow und IT)
• Schneller Fortschritt in IT (Kompatibilität, Standards)
• Interoperabilität (Austausch von Metadaten)
• Wer trägt Verantwortung für Datenhaltung
• Allgemeine Rechtsgrundlagen, Richtlinien, Arbeitsanweisungen
Lehrstuhl Ökosysteme und Umweltinformatik
19
02 · KAPITEL – ALLGEMEINE SITUATION
2020
ALLGEMEINE SITUATION Data Policies (DP) - Lösungsansätze
• Sensibilisierung der Mitarbeiter für Datenhaltung und Metadatenerfassung.
• DFG gibt 5% Aufschlag der Förderung für Datenhaltung.
• Verankerung als Teil von Dienstanweisungen / Studienordnung, …
• Eingabe der Studienarbeit / Veröffentlichung in Informationssystem könnte Pflicht sein.
• Geeignete Werkzeuge (FOSS) zur Datenhaltung.
• Einhaltung von Standards und zukunftsorientierten Technologien.
• Digital Object Identifyer (DOI): Internationale eindeutige Nummer für digitale Daten (kostenpflichtig, aber nonprofit). Kostenlose Alternativen zu DOI bestehen
Lehrstuhl Ökosysteme und Umweltinformatik
20
02 · KAPITEL – ALLGEMEINE SITUATION
2121
ALLGEMEINE SITUATION Beispiel für Projektanforderungen aus einem SFB
a) Aufbau einer Datenbank: zur Speicherung der im Projekt anfallenden Forschungsdaten einschließlich der Vergabe von Metadaten. Die Interoperabilität mit weiteren relevanten internen oder externen Datenrepositorien soll dabei sichergestellt sein.
b) Pflege und Erschließung von Forschungsdaten: Implementierung und Entwicklung von Techniken und Verfahren zur Pflege und Erschließung von Informationen sowie Verknüpfung der Forschungsdaten mit anderen Datensystemen auch außerhalb des Verbundes, bzw. Einbettung in diese (Referenzierung von Daten).
c) Nachnutzung von Forschungsdaten: Das Datenspeicherungssystem ist so aufzubauen, dass die Nachnutzbarkeit der Daten ermöglicht wird. Dies kann durch die Implementierung oder Entwicklung von Interoperabilität bzw. Schnittstellen der Retrival- und Referenzierungsverfahren oder sonstigen Softwarelösungen und Techniken mit Datenbanksystemen (Fachdatenbanken, Online-Kataloge u.ä.), die außerhalb des Verbundes bestehen und von den jeweils einschlägigen Disziplinen genutzt werden, geschehen.
Lehrstuhl Ökosysteme und Umweltinformatik
21
02 · KAPITEL – ALLGEMEINE SITUATION
2222
ALLGEMEINE SITUATION Prinzipielle Ziele für Projekte
• Erstellung der Data Policy für ein Projekt
• Suchfunktion nach Informationen über georeferenzierte Metadaten
• Unterstützung des Projektmanagements durch IT-Infrastruktur
• Datenaustausch zwischen den Projektpartnern
• Langzeitdatenhaltung
• Öffentlicher Zugang (OA)
• Verbund mit anderen Nodes / Netzwerken
• Zukunftsorientiert / Nachhaltigkeit
Lehrstuhl Ökosysteme und Umweltinformatik
22
02 · KAPITEL – ALLGEMEINE SITUATION
2323
ALLGEMEINE SITUATION IT-Ziele
• Wo möglich – open source
• Bereitstellung eines Servers (Hard-/Software) zur Datenhaltung
• Benutzerfreundlichkeit und intuitive Bedienung
• Optimierung der Konfiguration und Struktur
• Cloud Computing Architecture
• Ausfallsicherheit
• Backupstrategie
• Sicherheitsstrategie (Firewall, etc.)
• Einhaltung von Standards in der IT
• Semantic Web
Lehrstuhl Ökosysteme und Umweltinformatik
23
02 · KAPITEL – ALLGEMEINE SITUATION
Keine „out of the box“-Lösungen!
2424
ALLGEMEINE SITUATION Projektdaten im Gewässermanagement
Lehrstuhl Ökosysteme und Umweltinformatik
24
02 · KAPITEL – ALLGEMEINE SITUATION
• Hydrologische Daten
• Gewässerökologische Daten
• Daten der Landnutzung
• Sozioökonomische Daten
• Daten zur Energiegewinnung aus Wasserkraft
• Daten zur Wasserbewirtschaftung nach Menge und Güte
• Administrative Daten
• Daten zur Gewässerpolitik
2525
ALLGEMEINE SITUATION Metadaten im Gewässermanagement
Lehrstuhl Ökosysteme und Umweltinformatik
25
02 · KAPITEL – ALLGEMEINE SITUATION
1. Gewässer
2. Wassernutzungen
3. Gewässerbelastungen
4. Kopplung von Atmosphäre und Gewässer
5. Datenerfassung
6. Zusammenführung unterschiedlicher Daten und Datenspeicherung
7. Entscheidungsunterstützungssysteme
8. Entwicklung politischer und ökonomischer Instrumente
9. System Wasser und Gesellschaft
10.System der Wassernutzer
2626
ALLGEMEINE SITUATION Metadaten im Gewässermanagement
Lehrstuhl Ökosysteme und Umweltinformatik
26
02 · KAPITEL – ALLGEMEINE SITUATION
2727
03GEO NETWORK Open Source
Lehrstuhl Ökosysteme und Umweltinformatik
27
2828
GEO NETWORKFree and Open Source Software (FOSS)
• Der Einsatz von Free and Open Source Software (FOSS) ist in der heutigen Zeit eine vielfach diskutierte Thematik in Wirtschaft, Wissenschaft und öffentlichen Einrichtungen.
• Besonders im hochschulbasierten Einsatz stellt die Verwendung von FOSS eine attraktive Alternative zur kostspieligen Lizenznahme proprietärer Software dar.
• Dies hat vor allem die folgenden Gründe: Weltweite Entwicklergemeinde, geringere Kosten, kurzer Updatezyklus, Unabhängigkeit und Unterstützung, validierte Quelltexte.
03 · KAPITEL - GEO NETWORK Lehrstuhl Ökosysteme und Umweltinformatik
28
2929
GEO NETWORKEinführung• GNOS ist ein auf internationalen Standards
aufbauendes Informations-Management-System (IMS) mit Netzwerk-Interoperabilität, Metadaten- und Geo-Referenzierung.
• Benutzergruppen / Benutzerrollen ermöglichen die Trennung von Administration des Systems, Dateneingabe / -pflege und die Zugriffskontrolle auf Daten.
• Es wurde ursprünglich 2001 von der UN entwickelt und seit dem kontinuierlich von vielen Partnern weiterentwickelt.
• Inzwischen wird es weltweit (oftmals in einem Netzwerk aus verschiedenen GNOS Servern) von vielen großen und kleinen Organisationen erfolgreich eingesetzt.
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
29
3030
GEO NETWORKSystemvoraussetzungen Hardware / Software
• Schneller Server mit mind. Dual/Quad Core (etc.)
• >500 GB / 1TB HDD,
• >4 GB RAM.
• Cloud-Server (optional): der dynamisch mit den Anforderungen wachsen kann.
• Betriebssystem: Windows Server 2003 / 2008 oder Linux.
• Erweiterungen: MySQL, PHP, Tomcat, Java SDK.
• Optional: ArcIMS (GisWebServer).
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
30
3131
GEO NETWORKMain-features
• schnelle Suche nach lokalen und verteilten raumbezogenen Daten,
• up/- download von Daten und Dokumenten (z.B. Maps, PDF, Excel,…),
• interaktiver Map-Viewer mit Karten von weltweiten Servern,
• Map- & Layer- Export als PDF,
• Onlinebearbeitung von Metadaten mit leistungsstarkem Templatesystem,
• Datenaustausch und Synchronisation von Metadaten auf verteilten Servern (Harvesting),
• Gruppen- und Benutzermanagement,
• Zugriffskontrolle auf Datenquellen,
• interne / externe Thesauri Kataloge für Schlagwörter.
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
31
3232
GEO NETWORKStandards für Meta Daten und Datenaustausch
• Dublin Core (DC) Metadata von der International Organization for Standardization (ISO)
• Content Standard for Digital Geospatial Metadata (CSDGM)von dem Federal Geographic Data Committe (FGDC) / (ESRI FGDC)
• ISO 19115 Die ISO 19115 "Geographic Information – Metadata" definiert einen international gültigen Standard zur Beschreibung geographischer Informationen und zugehöriger Dienstleistungen.
• ISO19139 Mit dem XML-Schema von ISO 19139 wird eine Grundlage geschaffen, auf deren Basis Metadatensätze einheitlich zwischen verschiedenen Systemen austauschbar sind.
• Infrastructure for Spatial Information in the Europ. Community (INSPIRE)Seit 2007 Europäische Geodaten-Basis mit integrierten raumbezogenen Informationsdiensten
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
32
3333
GEO NETWORKMetadaten nach ISO 19115
Metadaten zur Beschreibung von Geodaten nach ISO 19115(vereinfacht, grün=obligatorisch) verändert nach Senkler et al. (2004)
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
33
3434
GEO NETWORKEingabeschema für Metadaten
Ablauf der Metadatenerfassung je nach Ausgangssituation
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
34
3535
GEO NETWORKBenutzerverwaltung
Benutzerverwaltung • mit detaillierter Rechteregelung,• hohe Sicherheit,• Einhaltung des Urheberrechts.
Benutzerrechte• einzelne Personen,• die eigene Einrichtung, Abteilung oder Fakultät,• die gesamte Einrichtung,• der Rest der Welt.
Gruppenrechte• Einsicht in die Metadaten,• Einsicht der Geodaten über den integrierten WMS-Viewer,• Zugriff auf die Geodaten direkt über Webservices,• Download der Geodaten.
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
35
3636
GEO NETWORKThesaurus-Support
Meta-Daten-Eingabe:
• Schlagwortkatalog für die Eingabe der Metadaten nach ISO und Dublin Core.
Admin:
• Import, Export, Bearbeitung, eigene Thesauri.
Suchfunktionen:
• Keywords (mit jeweiliger Trefferanzahl) werden bei Suche vorgeschlagen.
Thesauri-Typen:
• Extern: importierte Thesauri können mit Schreibschutz von anderen Knoten importiert werden. Die Thesauri werden dann von den anderen Knoten gemanaged.
• Lokal: Ein lokal gespeichertes Thesaurus kann selbst bearbeitet werden.
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
36
3737
GEO NETWORKNetzwerke
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
37
a) Abgeschlossenes, kleines Netzwerk nur für einen bestimmten Personenkreis (mit feinen Benutzerrechten für Eingabe und Lesen der Metadaten bzw. Download der Primärdaten).
b) Abgeschlossenes Netzwerk für hierarchisch gegliederte Organisationsstrukturen.
c) Weltweites Netzwerk im Verbund mit fremden Netzwerkknoten (Eigentümer der Daten hat exklusive Schreibrechte).
A
Intranet www
AB
C
AB
CD
Mit GeoNetwork sind verschiedene Netztypen und Zugriffsszenarien zu realisieren:
3838
GEO NETWORKHarvesting – Interoperabler Datenaustausch verschiedener Knoten (Nodes)
1. Andere GeoNetwork Nodes (ab Version 2.1)2. alte GeoNetwork Nodes (bis Version 2,0)3. WebDAV Server (Web-based Distributed Authoring and Versioning)4. CSW 2.0.1 oder 2.0.2 Katalog-Server (Catalog Service Web-Spezifikationen)5. OAI-PMH Server (Open Archives Initiative Protocol for Metadata Harvesting)6. OGC Server (Open GIS Consortium)
Lehrstuhl Ökosysteme und Umweltinformatik
1. Node (A) erzeugt Meta Daten (a)2. Node (B) bezieht (a) von (A)3. Node (C) bezieht (a) von (B)4. Node (D) bezieht (a) von (A), (B) and (C)5. Node (E) und (A) kommunizieren bidirektional
A
D
B CE
03 · KAPITEL - GEO NETWORK
38
3939
04LIVE PRÄSENTATIONGeoNetwork Opensource
Lehrstuhl Ökosysteme und Umweltinformatik
39
4040
GEO NETWORK
Lehrstuhl Ökosysteme und Umweltinformatik03 · KAPITEL - GEO NETWORK
40
4141Lehrstuhl Ökosysteme und Umweltinformatik
41
4242Lehrstuhl Ökosysteme und Umweltinformatik
42
4343
05SCHLUSSBEMERKUNGEN
Lehrstuhl Ökosysteme und Umweltinformatik
43
4444
SCHLUSSBEMERKUNGEN
Fazit:
• Datenhaltung ist angesichts des allgemein wachsenden Datenvolumens eine zentrale Aufgabe in fast allen Bereichen der Wissenschaft und Forschung.
• Diese Aufgabe erfordert aufgrund der Komplexität und Verantwortung eine eigenständige Position im Organisationskonzept.
Anwendungsbereiche:
• Datenhaltung für alle Daten mit geografischem Bezug…
• Forschungsprojekte, Drittmittelprojekte,
• Lehrstühle / Fakultäten / Universitäten.
Weiterentwicklung:
• Semantic Web („Maschinenverständliches Internet“),
• Datenkomprimierung, Indexoptimierung der Primärdaten / noSQL,
• Datenanalyse, Metadaten-Analyse,
• Reporting-Tools, Decision-Support-Systeme (DSS).
Lehrstuhl Ökosysteme und Umweltinformatik05 · KAPITEL - FAZIT
44
4545
Vielen Dank!Mirko Filetti
Lehrstuhl Ökosysteme und Umweltinformatik