LOD2 CKAN Workshop Wien - 15.6files.meetup.com/1473264/CKAN-FriedrichLindenberg_OKFN_15Juni... ·...

Preview:

Citation preview

LOD2 CKAN Workshop Wien - 15.6.2011

Warum?

✓ Welche Lizenz?

✓ Welche Formate?

✓ Welche Inhalte?

✓ Dann:

✓ Aktualität

✓ Vollständigkeit

✓ Bezugsraum, ...

Kernfragen

Informationsarchitektur

Daten-Ökosystem

Beispiel: Ausgaben UK

November 2011:

Veröffentlichung Ausgaben der zentralen Regierung > £ 25.000, lokal: > £ 500

7 Monate später

• 557 Datenpakete

• 588 Behörden

• 3327 Tabellen (CSV, Excel, HTML)

Datenbereinigung

• Abruf per CKAN-API (data.gov.uk)

• Formatkonvertierung (SQLite)

• Vereinheitlichung von Ministerien und Behörden (Google Spreadsheet)

• Verbindung mit OpenCorporates (Unternehmens-Registernummern)

• Als neues CKAN-Paket bereit gestellt (ckan.net)

Weiternutzung

Was ist CKAN? (I)

• Open Source-Projekt, etwa 12 Kernentwickler

• Nutzer: data.gov.uk, data.norge.no, hri.fi, register.data.overheid.nl, iatiregistry.org

• ckan.net und ~ 24 Community-Instanzen

Was ist CKAN? (II)

• Datenkatalog, kein Repositorium

• (Archiv & Speicherung als Erweiterung)

• flexibles Metadatenschema

• Kernelemente ~ Dublin Core + Ressourcen

• Versionierung aller Metadaten

Was ist CKAN? (III)• Ein Wiki für Metadaten

• Vision: GitHub/SourceForge für Datenquellen

• Community von aktiven Datennutzern einbinden (auch für Regierungsseiten)

• Verschiedene Metaphern (CPAN = Perl Packet-Verzeichnis)

Beispiel: LOD Cloud

Metadaten

• Kernelemente und “Extras”

• anpassbare Formulare im Webfrontend

• durch data.gov.uk: Konventionen für Extra-Felder (auch in data.norge.no, hri.fi, overheid.nl)

Theming

Content Management

• “Wordpresser”-Erweiterung zur Anbindung an Wordpress

• Integration mit Drupal bei data.gov.uk (Open Source)

Geodaten (I)

Geodaten (II)• CSW-Harvester und Endpunkt

• GEMINI 2.1 (~> INSPIRE)

• sammelt Kataloge aus England und den anghängten Ländern

• Übergabe via Ordnance Survey an EC

• Experimentelle Geo-Suche, WMS-Preview

Publisher

• Institutionen-Modell

• Freischaltung von Behörden

• Nutzergruppen

Moderierte Eingaben

Schnittstelle

• REST-API mit JSON und RDF-Support

• Bibliotheken für Python, PHP, Ruby

• Nutzung:

• Paketimport (Excel-Sheets)

• Metadatenanreicherung

Metadatenbereinigung

publicdata.eu

• Portal als Forschungs-Prototyp für data.eu

• Föderierung von Datenkatalogen aus Europa

• Integration & Anreicherung der Metadaten

• Standardisierung von DCat

Scraping

DCat• Standardisierungsdiskussion läuft (Workshop

Anfang Mai)

• Partner: RPI, CTIC, LOD2, CSI Piemonte etc.

• RDF mit DC Terms und Ressourcen

• Gemeinsame Harvesting-API

• datacatalogs.org

• GLD WG im W3C neu gestartet

• SKOS?

• 430 Teilnehmer aus 23 EU-Staaten

• Preisvergabe bei der Digital Assembly

Apps-Katalog

Ressourcen

• CKAN Projektseite - http://ckan.org

• CKAN Wiki - http//wiki.ckan.net

• PublicData.eu-Portal - http://publicdata.eu

• Open Data Manual - http://www.opendatamanual.org

• Open Defintion - http://opendefintion.org

• Allg. Informationen - http://opengovernmentdata.org/

Folien: CC-BY, Friedrich Lindenberg, genutzte Bilder: London Traffic Lights (Wikimedia Commons); Francis Maude at data.gov.uk Event (Guardian), Screenshots

Teil II: Hands-on

Technik

• Python-Anwendung, Pylons MVC-Framework

• PostgreSQL-Datenbank

• Apache/mod_wsgi oder uwsgi

• Optionale Abh.: Apache Solr, RabbitMQ

Modularisierung

Installation

• Debian Packages für Ubuntu LTS

• Extensions werden als Packages verteilt

• Solr und RabbitMQ getrennt installieren

Anpassung

• ckanext-exampletheme ableiten

• Formulare als Python-Modul anpassen

• Themes sind Template-Overlays

• HTML-Struktur enspricht Wordpress

• Lokalisierung via transifex.net

Sicherheit

• Authentifizierung via Login, OpenID, API Key

• Authorisierung via Rollen und Aktionen

• ACL für jedes Packet, jede Gruppe

• globale Defaults sind konfigurierbar

• AuthzGroups für Nutzergruppen

API

• /api/X/rest - Versioniert

• /api/2/rest/package - REST Collection (GET, POST), auf Entities: GET, PUT.

• Beispiele in ckanext-pdeu/scripts

Revisionen

• Copy on Write in Spiegel-Tabelle

• Revisionen können gelöscht werden

• Quelle für RSS-Feeds

Queue

• Hintergrundverarbeitung durch Queue

• Solr Index Aktualisierung

• Triple Store sync

• Archivierung

• Webhooks

Speicherung

• Noch im Beta-Stadium

• Nutzt Dateisystemabstraktion (OFS)

• S3, Archive.org, Google Storage

• REST Forward, Pairtree Dateisystem

Recommended