View
821
Download
0
Category
Preview:
DESCRIPTION
Presentation at the OGD2011 conference taking place in Vienna on the 16th of June 2011 as well as at the LOD2 CKAn workshop on 15th of June 2011: CKAN by Friedrich Lindenberg, Open Knowledge Foundation.(License: CC-BY 3.0)
Citation preview
LOD2 CKAN Workshop Wien - 15.6.2011
Warum?
✓ Welche Lizenz?
✓ Welche Formate?
✓ Welche Inhalte?
✓ Dann:
✓ Aktualität
✓ Vollständigkeit
✓ Bezugsraum, ...
Kernfragen
Informationsarchitektur
Daten-Ökosystem
Beispiel: Ausgaben UK
November 2011:
Veröffentlichung Ausgaben der zentralen Regierung > £ 25.000, lokal: > £ 500
7 Monate später
• 557 Datenpakete
• 588 Behörden
• 3327 Tabellen (CSV, Excel, HTML)
Datenbereinigung
• Abruf per CKAN-API (data.gov.uk)
• Formatkonvertierung (SQLite)
• Vereinheitlichung von Ministerien und Behörden (Google Spreadsheet)
• Verbindung mit OpenCorporates (Unternehmens-Registernummern)
• Als neues CKAN-Paket bereit gestellt (ckan.net)
Weiternutzung
Was ist CKAN? (I)
• Open Source-Projekt, etwa 12 Kernentwickler
• Nutzer: data.gov.uk, data.norge.no, hri.fi, register.data.overheid.nl, iatiregistry.org
• ckan.net und ~ 24 Community-Instanzen
Was ist CKAN? (II)
• Datenkatalog, kein Repositorium
• (Archiv & Speicherung als Erweiterung)
• flexibles Metadatenschema
• Kernelemente ~ Dublin Core + Ressourcen
• Versionierung aller Metadaten
Was ist CKAN? (III)• Ein Wiki für Metadaten
• Vision: GitHub/SourceForge für Datenquellen
• Community von aktiven Datennutzern einbinden (auch für Regierungsseiten)
• Verschiedene Metaphern (CPAN = Perl Packet-Verzeichnis)
Beispiel: LOD Cloud
Metadaten
• Kernelemente und “Extras”
• anpassbare Formulare im Webfrontend
• durch data.gov.uk: Konventionen für Extra-Felder (auch in data.norge.no, hri.fi, overheid.nl)
Theming
Content Management
• “Wordpresser”-Erweiterung zur Anbindung an Wordpress
• Integration mit Drupal bei data.gov.uk (Open Source)
Geodaten (I)
Geodaten (II)• CSW-Harvester und Endpunkt
• GEMINI 2.1 (~> INSPIRE)
• sammelt Kataloge aus England und den anghängten Ländern
• Übergabe via Ordnance Survey an EC
• Experimentelle Geo-Suche, WMS-Preview
Publisher
• Institutionen-Modell
• Freischaltung von Behörden
• Nutzergruppen
Moderierte Eingaben
Schnittstelle
• REST-API mit JSON und RDF-Support
• Bibliotheken für Python, PHP, Ruby
• Nutzung:
• Paketimport (Excel-Sheets)
• Metadatenanreicherung
Metadatenbereinigung
publicdata.eu
• Portal als Forschungs-Prototyp für data.eu
• Föderierung von Datenkatalogen aus Europa
• Integration & Anreicherung der Metadaten
• Standardisierung von DCat
Scraping
DCat• Standardisierungsdiskussion läuft (Workshop
Anfang Mai)
• Partner: RPI, CTIC, LOD2, CSI Piemonte etc.
• RDF mit DC Terms und Ressourcen
• Gemeinsame Harvesting-API
• datacatalogs.org
• GLD WG im W3C neu gestartet
• SKOS?
• 430 Teilnehmer aus 23 EU-Staaten
• Preisvergabe bei der Digital Assembly
Apps-Katalog
Ressourcen
• CKAN Projektseite - http://ckan.org
• CKAN Wiki - http//wiki.ckan.net
• PublicData.eu-Portal - http://publicdata.eu
• Open Data Manual - http://www.opendatamanual.org
• Open Defintion - http://opendefintion.org
• Allg. Informationen - http://opengovernmentdata.org/
Folien: CC-BY, Friedrich Lindenberg, genutzte Bilder: London Traffic Lights (Wikimedia Commons); Francis Maude at data.gov.uk Event (Guardian), Screenshots
Teil II: Hands-on
Technik
• Python-Anwendung, Pylons MVC-Framework
• PostgreSQL-Datenbank
• Apache/mod_wsgi oder uwsgi
• Optionale Abh.: Apache Solr, RabbitMQ
Modularisierung
Installation
• Debian Packages für Ubuntu LTS
• Extensions werden als Packages verteilt
• Solr und RabbitMQ getrennt installieren
Anpassung
• ckanext-exampletheme ableiten
• Formulare als Python-Modul anpassen
• Themes sind Template-Overlays
• HTML-Struktur enspricht Wordpress
• Lokalisierung via transifex.net
Sicherheit
• Authentifizierung via Login, OpenID, API Key
• Authorisierung via Rollen und Aktionen
• ACL für jedes Packet, jede Gruppe
• globale Defaults sind konfigurierbar
• AuthzGroups für Nutzergruppen
API
• /api/X/rest - Versioniert
• /api/2/rest/package - REST Collection (GET, POST), auf Entities: GET, PUT.
• Beispiele in ckanext-pdeu/scripts
Revisionen
• Copy on Write in Spiegel-Tabelle
• Revisionen können gelöscht werden
• Quelle für RSS-Feeds
Queue
• Hintergrundverarbeitung durch Queue
• Solr Index Aktualisierung
• Triple Store sync
• Archivierung
• Webhooks
Speicherung
• Noch im Beta-Stadium
• Nutzt Dateisystemabstraktion (OFS)
• S3, Archive.org, Google Storage
• REST Forward, Pairtree Dateisystem
Recommended