47
LOD2 CKAN Workshop Wien - 15.6.2011

CKAN by Friedrich Lindenberg

Embed Size (px)

DESCRIPTION

Presentation at the OGD2011 conference taking place in Vienna on the 16th of June 2011 as well as at the LOD2 CKAn workshop on 15th of June 2011: CKAN by Friedrich Lindenberg, Open Knowledge Foundation.(License: CC-BY 3.0)

Citation preview

Page 1: CKAN by Friedrich Lindenberg

LOD2 CKAN Workshop Wien - 15.6.2011

Page 2: CKAN by Friedrich Lindenberg
Page 3: CKAN by Friedrich Lindenberg
Page 4: CKAN by Friedrich Lindenberg

Warum?

Page 5: CKAN by Friedrich Lindenberg

✓ Welche Lizenz?

✓ Welche Formate?

✓ Welche Inhalte?

✓ Dann:

✓ Aktualität

✓ Vollständigkeit

✓ Bezugsraum, ...

Kernfragen

Page 6: CKAN by Friedrich Lindenberg

Informationsarchitektur

Page 7: CKAN by Friedrich Lindenberg

Daten-Ökosystem

Page 8: CKAN by Friedrich Lindenberg

Beispiel: Ausgaben UK

Page 9: CKAN by Friedrich Lindenberg

November 2011:

Veröffentlichung Ausgaben der zentralen Regierung > £ 25.000, lokal: > £ 500

Page 10: CKAN by Friedrich Lindenberg
Page 11: CKAN by Friedrich Lindenberg

7 Monate später

• 557 Datenpakete

• 588 Behörden

• 3327 Tabellen (CSV, Excel, HTML)

Page 12: CKAN by Friedrich Lindenberg

Datenbereinigung

• Abruf per CKAN-API (data.gov.uk)

• Formatkonvertierung (SQLite)

• Vereinheitlichung von Ministerien und Behörden (Google Spreadsheet)

• Verbindung mit OpenCorporates (Unternehmens-Registernummern)

• Als neues CKAN-Paket bereit gestellt (ckan.net)

Page 13: CKAN by Friedrich Lindenberg
Page 14: CKAN by Friedrich Lindenberg

Weiternutzung

Page 15: CKAN by Friedrich Lindenberg
Page 16: CKAN by Friedrich Lindenberg

Was ist CKAN? (I)

• Open Source-Projekt, etwa 12 Kernentwickler

• Nutzer: data.gov.uk, data.norge.no, hri.fi, register.data.overheid.nl, iatiregistry.org

• ckan.net und ~ 24 Community-Instanzen

Page 17: CKAN by Friedrich Lindenberg

Was ist CKAN? (II)

• Datenkatalog, kein Repositorium

• (Archiv & Speicherung als Erweiterung)

• flexibles Metadatenschema

• Kernelemente ~ Dublin Core + Ressourcen

• Versionierung aller Metadaten

Page 18: CKAN by Friedrich Lindenberg

Was ist CKAN? (III)• Ein Wiki für Metadaten

• Vision: GitHub/SourceForge für Datenquellen

• Community von aktiven Datennutzern einbinden (auch für Regierungsseiten)

• Verschiedene Metaphern (CPAN = Perl Packet-Verzeichnis)

Page 19: CKAN by Friedrich Lindenberg

Beispiel: LOD Cloud

Page 20: CKAN by Friedrich Lindenberg

Metadaten

• Kernelemente und “Extras”

• anpassbare Formulare im Webfrontend

• durch data.gov.uk: Konventionen für Extra-Felder (auch in data.norge.no, hri.fi, overheid.nl)

Page 21: CKAN by Friedrich Lindenberg

Theming

Page 22: CKAN by Friedrich Lindenberg

Content Management

• “Wordpresser”-Erweiterung zur Anbindung an Wordpress

• Integration mit Drupal bei data.gov.uk (Open Source)

Page 23: CKAN by Friedrich Lindenberg

Geodaten (I)

Page 24: CKAN by Friedrich Lindenberg

Geodaten (II)• CSW-Harvester und Endpunkt

• GEMINI 2.1 (~> INSPIRE)

• sammelt Kataloge aus England und den anghängten Ländern

• Übergabe via Ordnance Survey an EC

• Experimentelle Geo-Suche, WMS-Preview

Page 25: CKAN by Friedrich Lindenberg

Publisher

• Institutionen-Modell

• Freischaltung von Behörden

• Nutzergruppen

Page 26: CKAN by Friedrich Lindenberg

Moderierte Eingaben

Page 27: CKAN by Friedrich Lindenberg

Schnittstelle

• REST-API mit JSON und RDF-Support

• Bibliotheken für Python, PHP, Ruby

• Nutzung:

• Paketimport (Excel-Sheets)

• Metadatenanreicherung

Page 28: CKAN by Friedrich Lindenberg

Metadatenbereinigung

Page 29: CKAN by Friedrich Lindenberg

publicdata.eu

• Portal als Forschungs-Prototyp für data.eu

• Föderierung von Datenkatalogen aus Europa

• Integration & Anreicherung der Metadaten

• Standardisierung von DCat

Page 30: CKAN by Friedrich Lindenberg

Scraping

Page 31: CKAN by Friedrich Lindenberg
Page 32: CKAN by Friedrich Lindenberg
Page 33: CKAN by Friedrich Lindenberg

DCat• Standardisierungsdiskussion läuft (Workshop

Anfang Mai)

• Partner: RPI, CTIC, LOD2, CSI Piemonte etc.

• RDF mit DC Terms und Ressourcen

• Gemeinsame Harvesting-API

• datacatalogs.org

• GLD WG im W3C neu gestartet

• SKOS?

Page 34: CKAN by Friedrich Lindenberg

• 430 Teilnehmer aus 23 EU-Staaten

• Preisvergabe bei der Digital Assembly

Page 35: CKAN by Friedrich Lindenberg

Apps-Katalog

Page 36: CKAN by Friedrich Lindenberg

Ressourcen

• CKAN Projektseite - http://ckan.org

• CKAN Wiki - http//wiki.ckan.net

• PublicData.eu-Portal - http://publicdata.eu

• Open Data Manual - http://www.opendatamanual.org

• Open Defintion - http://opendefintion.org

• Allg. Informationen - http://opengovernmentdata.org/

Folien: CC-BY, Friedrich Lindenberg, genutzte Bilder: London Traffic Lights (Wikimedia Commons); Francis Maude at data.gov.uk Event (Guardian), Screenshots

Page 37: CKAN by Friedrich Lindenberg

Teil II: Hands-on

Page 38: CKAN by Friedrich Lindenberg

Technik

• Python-Anwendung, Pylons MVC-Framework

• PostgreSQL-Datenbank

• Apache/mod_wsgi oder uwsgi

• Optionale Abh.: Apache Solr, RabbitMQ

Page 39: CKAN by Friedrich Lindenberg

Modularisierung

Page 40: CKAN by Friedrich Lindenberg

Installation

• Debian Packages für Ubuntu LTS

• Extensions werden als Packages verteilt

• Solr und RabbitMQ getrennt installieren

Page 41: CKAN by Friedrich Lindenberg

Anpassung

• ckanext-exampletheme ableiten

• Formulare als Python-Modul anpassen

• Themes sind Template-Overlays

• HTML-Struktur enspricht Wordpress

• Lokalisierung via transifex.net

Page 42: CKAN by Friedrich Lindenberg
Page 43: CKAN by Friedrich Lindenberg

Sicherheit

• Authentifizierung via Login, OpenID, API Key

• Authorisierung via Rollen und Aktionen

• ACL für jedes Packet, jede Gruppe

• globale Defaults sind konfigurierbar

• AuthzGroups für Nutzergruppen

Page 44: CKAN by Friedrich Lindenberg

API

• /api/X/rest - Versioniert

• /api/2/rest/package - REST Collection (GET, POST), auf Entities: GET, PUT.

• Beispiele in ckanext-pdeu/scripts

Page 45: CKAN by Friedrich Lindenberg

Revisionen

• Copy on Write in Spiegel-Tabelle

• Revisionen können gelöscht werden

• Quelle für RSS-Feeds

Page 46: CKAN by Friedrich Lindenberg

Queue

• Hintergrundverarbeitung durch Queue

• Solr Index Aktualisierung

• Triple Store sync

• Archivierung

• Webhooks

Page 47: CKAN by Friedrich Lindenberg

Speicherung

• Noch im Beta-Stadium

• Nutzt Dateisystemabstraktion (OFS)

• S3, Archive.org, Google Storage

• REST Forward, Pairtree Dateisystem