12
Cooperation OGD Österreich SUB-AG Qualitätssicherung auf Open Data Portalen Johann Höchtl Axel Polleres Jürgen Umbrich

Datenqualität von Datenportalen

Embed Size (px)

DESCRIPTION

Workshop beim Govcamp Wien 21. 11. 2014 Rathaus Wien

Citation preview

Page 1: Datenqualität von Datenportalen

Cooperation OGD Österreich

SUB-AGQualitätssicherung auf Open Data Portalen

Johann HöchtlAxel PolleresJürgen Umbrich

Page 2: Datenqualität von Datenportalen

Mission Statement

Die Sub-Arbeitsgruppe Qualitätssicherung von Open Data

Portalen verbessert durch technische Maßnahmen und die

Erstellung von Leitfäden zur empfohlenen Praxis die

Datenqualität von Datensätzen und unterstützt durch

organisatorische und technische Maßnahmen den

Veröffentlichungsprozess, um in Zukunft höhere

Qualitätsniveaus und somit erhöhte Nutzbarkeit und

Nachhaltigkeit von offenen Daten zu erreichen.

Page 3: Datenqualität von Datenportalen

Zielerreichung

1. Arbeitserleichterung: für DatenanbieterInnen bei Veröffentlichung und Wartung

2. Messbare Datenqualität: In Vergleichen sindösterreichische Verwaltungsdaten im Bereich der Daten-Qualität im vorderen Drittel

3. Vorbildsfunktion: internationale Anerkennung der Qualitätsmaßnahmen als gute Praxis

Page 4: Datenqualität von Datenportalen

Ziele (1)

Sammlung, Auswertung und Bereitstellung von nationalen und internationalen Erfahrungswerten bei der Veröffentlichung offener Daten

Page 5: Datenqualität von Datenportalen

Ziele (2)

Evaluierung, Konzeption und Implementierung von technischen Werkzeugen

Page 6: Datenqualität von Datenportalen

Ziele (3)

Handlungsempfehlungen

http://opendataresearch.org/sites/default/files/posts/Common%20Assessment%20Workshop%20Report.pdf

Page 7: Datenqualität von Datenportalen

Qualitätshebel – Big Picture

Page 8: Datenqualität von Datenportalen

NICHT-Ziele

• Hürden zur Teilnahme an OGD

• Mehraufwand

• Das Rad neu Erfinden: Integration neuer Komponenten in bestehende Lösungen

Page 9: Datenqualität von Datenportalen

Identifizierte Datenprobleme (UK)

• Encoding is introducing characters that cause data quality problems. Various encoding methods are used randomly, including ASCII, ISO-8859 and Windows formats

• Software such as Microsoft Excel is producing non-compliant UTF-8 exports, introducing flaws into the data where they need not exist

• Formatting of common information, such as data fields, was different across different records

• Fields were continually added or removed

• Commas are added to records, causing problems with processing and analysis, since many systems use commas to separate data fields

• Analysis suggested a large amount of human error

http://www.computerweekly.com/news/2240227682/Poor-data-quality-hindering-government-open-data-transparency-programme

Page 10: Datenqualität von Datenportalen

Identifizierte Datenprobleme (AT)

• Nicht funktionierende URLs

• Probleme bei Metadatenbeschreibungen

https://github.com/the42/ogdat

http://data.linz.gv.at/katalog/population/wanderung/zuzug/2009/zuzug_2009.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00

http://data.linz.gv.at/katalog/population/wanderung/zuzug/2008/zuzug_2008.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00

http://data.linz.gv.at/katalog/population/wanderung/zuzug/2011/zuzug_2011.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00

http://data.linz.gv.at/katalog/population/wanderung/zuzug/2010/zuzug_2010.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:22:43.533842+00

http://data.linz.at/katalog/stadt/wohnungen/wohnraeume/2012/twoanzrg_2012.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-16 20:33:42.795532+00

http://data.linz.gv.at/ogd/katalog/politik_verwaltung/verwaltung/budget/2013/RA/ZRECHAB_2013.csv liefert nicht-OK Status-Code '404' (Get) 2014-11-17 13:32:08.374879+00

Land TirolFeldwert vom Typ ÖNORM ISO 8601 TM_Primitive 'YYYY-MM-DDThh:mm:ss' erwartet, Wert entspricht aber nicht diesem Typ: '2009-01-01'

Land Tirol JSON vom Typ 'Array of String' erwartet, es wurde jedoch ein einzelner Wert geliefert

Land Tirol kein Wert für Link angegeben (Länge 0)

Land Tirol Beschreibung enthält weniger als 20 Zeichen (sinnvolle Beschreibung?)

Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll

Land Tirol Zeichenkette mit Länge 0 an dieser Stelle nicht sinnvoll

Page 11: Datenqualität von Datenportalen

Nächste Schritte

• Sammlung nationaler und internationaler guter Erfahrung mit Open Data

• Maschinenlesbare Version der österreichischen Metadatenkonvention und

davon abgeleitete Formate

• Überprüfung der österreichischen Metadatenkonvention auf ihre

allgemeingültige Anwendbarkeit für andere Einsatzbereiche

• Implementierung / Erweiterung eines Plugins für CKAN

• Monitoring der Daten und Metadaten im Zeitverlauf

• Verbesserung der Suche auf Datenportalen

• Community-Portal, das Metadaten von data.gv.at und opendataportal.at

zusammenfasst mit erweiterten Funktionalitäten

Page 12: Datenqualität von Datenportalen

MITARBEIT GEWÜNSCHT

Österreich wird internationalbei Open Data ganz vorne mit dabei sein!