Neue Metadaten braucht das Land

Embed Size (px)

Citation preview

Neue Metadaten braucht das Land

Neue Metadaten braucht das LandArnulf CHRISTLVerffentlicht in: Strobl, Blaschke, Griesebner: Angewandte Geoinformatik 2010, Beitrge zum 22. AGIT-Symposium. Salzburg ISBN: 978-3-87907-495-2.Download: http://arnulf.us/publications/neue-metadaten-braucht-das-land_paper.odtOnline unter: http://arnulf.us/Neue_Metadaten_Braucht_das_Land ZusammenfassungAls Metadaten oder Metainformationen werden allgemein Daten bezeichnet, die Informationen ber andere Daten enthalten. Es gibt keine allgemeingltige Unterscheidung zwischen Metadaten und "gewhnlichen" Daten, da die Bezeichnung eine Frage des Standpunkts ist. Metadaten sind in der digitalen Welt nicht von Daten unterscheidbar. Damit unterscheiden sich Metadaten von Dingen, wie z.B. eine Karteikarte von einem Buch, grundstzlich von digitalen Daten, die beides gleichzeitig sind. Metadaten knnen in der digitalen Welt auch als ein Aspekt oder eine Sicht auf Daten und damit auch auf sich selbst verstanden werden. Diese Perspektive erschliet ganz neue Mglichkeiten. Die aktuelle Metadatenverarbeitung wie sie auch durch INSPIRE beschrieben wird, bercksichtigt die vielfltigen Vorteile digitaler (Meta)-Daten noch nicht. Nach einer kurzen Einfhrung in grundstzlich Unterschiede zwischen der dinglichen und digitalen Welt wird kurz die Geschichte traditioneller, analoger Katalogtechniken angerissen. Anschlieend werden die Besonderheiten digitaler Daten beleuchtet und kurz Techniken vorgestellt, die diese in Zukunft besser nutzen werden. Zum Abschluss wird auf die unter den Schlagwrtern Social Networking und Web 2.0 bekannte und noch etwas ungewohnte kulturelle Technik der sozialen Vernetzung verwiesen, die sich optimal eignet, um die neuen, digitalen (Meta)-Daten in Wert zu setzen. KatalogeKataloge ermglichen es, Gegenstnde systematisch in knapper Form zu beschreiben und zu sortieren. Dafr wird zunchst ein festes Schema erstellt mit dem die Gegenstnde beschrieben werden. Eine Systematik ordnet diese Beschreibungen in einer festen Struktur an. Die Systematik von Bibliothekenber Jahrhunderte wurden Konzepte und Techniken fr die Verwaltung von Metadaten in Katalogen entwickelt. Vor allem das Bibliothekswesen hat sehr frh angefangen, Metadaten zu erheben und Kataloge zu entwickeln, um Bcher zu verwalten und auffindbar zu machen. Dabei ist eine immer weiter ausgefeilte aber niemals vollstndige Klassifikation entstanden, die ber Ordnungsschemata sortiert wurde (Weinberger, 2008). Das am weitesten verbreitete Ordnungsschema ist die alphabetische Sortierung. Sie ist opak (undurchsichtig) weil das Alphabet kein inhaltlich-semantisches Ordnungskriterium ist, sondern ein selbstreferentielles. Die alphabetische Sortierung der Autorennamen in einer Literaturliste sagt nichts ber den Inhalt, Relevanz, Qualitt oder das Alter der Publikation aus. Um eine eindeutig benannte Information zu finden ist diese Art von Katalog durchaus geeignet, aber nicht um darin zu suchen, im Sinn von "stbern". Festzuhalten bleibt, dass Kataloge primr dazu geeignet sind Dinge zu finden, die bereits bekannt sind. Der Katalog der Industrie die Registratur In einer traditionellen, kleinen Schmiede oder Tischlerei konnten alle Gegenstnde, die fr die Produktion bentigt wurden, in berschaubaren (also visuell erfassbaren) Lagern vorgehalten werden. Mit der Industrialisierung wurden fr die Produktion Teilelager erforderlich, und mit ihnen neue Anforderungen an die Verwaltung der Lager. Eine wachsende Anzahl unterschiedlicher Gegenstnde musste sortiert und auffindbar gemacht werden. Hierfr wurde die traditionelle Katalogtechnik der Bibliotheken genutzt, angepasst und erweitert. Des weiteren wurde es erforderlich, unberschaubare Mengen gleichartiger Dinge zu lagern. Diese Bestnde mussten erfasst und die Mengen kontrolliert werden. Hierfr wurden Registraturen entwickelt, die optimal geeignet sind bekannte Inventare zu beschreiben und zu verwalten. Eine weitere Neuerungen war die stringente Arbeitsteilung in Einkauf, Produktion und Verkauf. Die Trennung von Anbieter und Nutzer pflanzte sich in die Organisationsstruktur fort. Die Registratur konnte unterschiedliche Nutzer bedienen, die ihren Bedarf nicht mehr direkt an den Anbieter kommunizieren mussten. Wird ein Teil aus dem Lager genommen, knnen Schwellenwerte berprft und Lagerbestnde aufgefllt werden ohne explizit kommunizieren zu mssen. Materielles und nicht-MateriellesEs ist fr das weitere Verstndnis von Ordnung und Sortierung wichtig, grundstzliche berlegungen zur materiellen und nicht-materiellen Welt anzustellen. Nicht-materielle "Dinge" wie digitale Daten und Informationen zeichnen sich durch eine Reihe von Eigenschaften aus, die sie grundlegend von der materiellen Welt unterscheiden. Dazu zhlen vor allem Vervielfltigung (Kopieren), Ordnung (Sortieren) und Suchen (Finden).

KopierenDie Erstellung einer identischen Kopie eines Gegenstands ist in der materiellen Welt unmglich. Kein Gegenstand ist niemals identisch, egal wie viel Sorgfalt aufgewendet wird. Die Herstellung jeder "Kopie" eines Gegenstands bentigt mindestens genau so viel Energie und Materie wie das Original. Mit Information und digitalen Daten verhlt es sich grundstzlich anders. Das Rohmaterial einer Information oder eines gedanklichen Zusammenhangs ist die Idee und deren Konkretisierung in einer Beschreibung. Ist die Information erst einmal erstellt (die Schaffung eines Werkes) und digital formatiert, kann sie beliebig oft vervielfltigt werden. Gleiches gilt fr rumliche Beobachtungen und Daten. Sobald das Satellitenbild oder die Vermessung eines Grundstcks als Information erhoben wurde und digital bereit steht, kann sie beliebig oft dupliziert werden, ohne dass die Aufnahme selbst noch einmal erfolgen msste. Der Vorgang des massenhaften Kopierens hat sich in der Kulturhistorie erst spt entwickelt. Frhe Formen des Kopierens, z.B. die Erstellung handschriftlicher Bcher war mit auerordentlich viel Handarbeit und Zeit verbunden und unterschieden sich deshalb noch nicht sehr von der Herstellung des Ausgangsprodukts selbst. Mit dem Aufkommen der Drucktechnik wurde eine frhe Form der Vervielfltigung mglich. Der Fotokopierer stellt eine weitere Vereinfachung des Prozesses dar, die allerdings immer noch mit einem Qualittsverlust einher ging. Heute ist das exakte Kopieren digitaler Daten mit minimalen Grenzkosten verbunden was z.B. auch das Phnomen der Open Source Bewegung ermglichte und neue Fragen zu Eigentum aufwirft (Phelps, 2010). Gegenstnde bleiben weiterhin nicht in dieser Form kopierbar (auer in Science Fiction Welten wie z.B. dem Star Trek Universums in dem Replikatoren die Erzeugung von Materie ermglichen (Wikipedia, Juli 2010)).Anordnen, suchen und sortierenGegenstnde lassen sich anordnen. Dabei gibt es zwei deutlich unterscheidbare Mglichkeiten. Sie knnen entweder gleichberechtigt nebeneinander oder sich gegenseitig verdeckend hintereinander angeordnet werden. Werden zwei Dinge nebeneinander (oder bereinander) angeordnet sind sie gleichzeitig sichtbar. Stehen sie hintereinander, verdeckt das eine das andere. Diese Problematik optimal zu lsen ist z.B. die Aufgabe von Auslagen und Regalen in Verkaufsrumen und Lagern (Weinberger, 2008). Die Suche (der Einfachheit halber wird hier nur die visuelle Suche bercksichtigt) nach einem Gegenstand erfolgt ber das Erkennen. Wird ein Objekt von dem davor stehenden verdeckt, ist es ungleich schwieriger zu suchen und durch Erkennen zu finden. Die Anordnung von Gegenstnden kann auch nach einer bestimmten Sortierung erfolgen. Dabei muss das Schema der Sortierung, die Ordnung, vorher festgelegt werden. In der Lebensmittelabteilung stehen die Nudeln deshalb neben den Soen. Im Heimwerkerbereich die Schrauben neben den Ngeln (Kategorie:Befestigungsmittel) und der Hammer neben dem Schraubendreher (Kategorie:Werkzeug). Der Hammer kann nicht gleichzeitig bei den Ngeln angeordnet sein.In der digitalen, nicht-materiellen Welt ist das anders. Digital bereitgestellte Informationen knnen mit extrem wenig Aufwand umsortiert und anders angeordnet werden. Sie knnen beliebig oft dupliziert und mehrfach angeordnet werden. Die nicht-materiellen Metadaten eines Hammers knnen z.B. als Verweis oder als Kopie sowohl neben den Ngeln als auch bei den Werkzeugen gesetzt werden. Bei den Ngeln ist nicht nur ein Verweis auf den Hammer hinterlegt, sondern es kann zustzlich ein Verweis auf Zangen gesetzt werden. Bei den Zangen werden aber auch Rohrzangen einsortiert, obwohl die nichts mit Ngeln zu tun haben. Und Rohrzangen haben einen Verweis zu Waschbecken, nicht aber zu Hmmern. Alle Bezge knnen auerdem dynamisch, im Augenblick der Anfrage neu zusammengestellt werden, wie man es auch schon aus groen Verkaufsplattformen wie Amazon kennt.Die Ordnung nicht-materieller Gegenstnde, die Sortierung und das Suchen unterliegen nicht den Beschrnkungen von Raum und Materie und werden dadurch unendlich komplex. Von der analogen in die digitale WeltMit dem Aufkommen der technischen Datenverarbeitung wurden auch Bibliotheken und Registraturen digital abgebildet und profitierten jetzt von Computern, die groe Menge von Daten schnell verarbeiten konnten. Software kann jederzeit berechnen, ob die Produktion ausreichend mit Teilen versorgt ist. Preislisten knnen mit dem Rohmarktpreis verknpft werden, Grenzkosten knnen ermittelt werden und so weiter. Der bergang von der analogen in die digitale Welt ist dabei mehrstufig. Zunchst wurden Karteikarten (Metadaten) digital nachgebildet. Dadurch wurde der gesamte Katalog kopierbar. Als nchstes wurde die Sortierung erweitert und das bisher alles beherrschende Alphabet wurde durch andere Kriterien ergnzt und kombiniert. Ein hnlicher Prozess konnte bei den ersten Formularservern beobachtet werden. Zunchst wurde das Papierformular lediglich als Datei zum Herunterladen bereitgestellt. In einem weiteren Schritt wurden aus den Papierformularen digitale HTML-Eingabemasken und die Inhalte in zentralen Datenbanken gespeichert. Damit wurde die Information selbst digital. Erst dieser Schritt ermglichte unbegrenzte Sortier- und Verknpfbarkeit. Karten und digitale Geodaten Karten wie ein Bebauungsplan (B-Plan) knnen wie Bcher durch Metadaten beschrieben werden. Dabei wird fr ein Kartenblatt (der B-Plan) eine Karteikarte angelegt, die ihn beschreibt und ber eine eindeutig Nummer auffindbar macht. Die Nummer und der Umring des B-Plans knnen auf einer bersichtskarte vermerkt werden, die so selbst ein Teil der Metadaten wird. Dadurch kann die Suche auch rumliche Ordnungskriterien beinhalten. Die erste Phase der berfhrung in die digitale Welt beschrnkt sich auf den Scan, also die Erstellung einer analogen Kopie des B-Plans, einer Pixelgraphik (Stadtverwaltung Landau - Stadtbauamt 2010) und eines separat dazu existierenden Katalogeintrags (GeoPortal RLP, 2010). Die Semantik des Planes ist noch nicht maschinenlesbar, da ihr keine beschreibende Struktur zugrunde liegt. Erst wenn die Information selbst digital ist, greifen alle Vorteile digitaler Datenstrukturen. Ohne einen Erluterungstext (Stadt Landau in der Pfalz 2010), der ebenfalls digital erfasst werden muss, ist der B-Plan semantisch nicht vollstndig. Die Syntax eines einfachen Textes ist derzeit digital ungleich einfacher zu erfassen als die Inhalte einer Karte, deshalb knnen Texte auch ber ihren semantischen Zusammenhang gesucht werden. Der Text kann indexiert und sortiert werden und wird ber Suchmaschinen auffindbar. In einem nchsten Schritt mssen auch die Rohdaten der B-Plan Karte digital bereitgestellt werden, wodurch sie ebenfalls indexiert und mit Verweisen (Links) ausgestattet werden knnen. Akteure Ein Problem digitaler Geodaten und ihrer Metadaten liegt in der unterschiedlichen Herangehensweise und Motivation der Hauptakteure "Anbieter" und "Nutzer". Typischerweise ordnet der Anbieter seine Produkte (oder Daten) nach einem Schema, das fr die eigenen Geschftsprozesse optimiert ist. Um Informationen finden zu knnen, mssen sich die Nutzer zunchst diese ihnen fremde Schemata, die aus vllig anderen Geschftsprozessen stammen, zu Eigen machen. Des weiteren mssen sie die "richtigen" Parameter als Suchkriterium eingeben. Der Nutzer kann nicht mit den eigenen Ordnungskriterium und Klassifikation suchen, was die Mglichkeiten erheblich einschrnkt. Zustzliche Metadaten werden sowohl von Anbietern als auch Nutzern hufig als Beiwerk betrachtet, denn man kennt ja seine eigenen Daten. Wozu also noch mal beschreiben? Die Mehrheit der Software-Anwendungen ist derzeit noch nicht in der Lage das durch INSPIRE verordnete Format (Open Geospatial Foundation, 2004) automatisch zu erzeugen, obwohl die meisten dafr erforderlichen Informationen bereits in den Daten enthalten sind. Die Erstellung solcher Metadaten ist also ein Mehraufwand, der den Datenanbietern keinen erkennbaren Nutzen bringt. INSPIRE macht Metadaten zu einem notwendigen bel mit gesetzlicher Verpflichtung. Wer Geodaten erstellt, pflegt oder einfach nur hat, wird gesetzlich verpflichtet sie in einem Standard-konformen Format zu beschreiben. Das Ergebnis ist ein neuer, separater Datenbestand, der meist weder in die aktuelle Softwarelandschaft noch in die Geschftsprozesse integriert ist. Es wird erwartet, dass sich sowohl die Technologie-Anbieter als auch die Geschftsprozesse der Anwender nach diesen neuen Formaten und Vorgaben richten. Durch INSPIRE in seiner jetzigen Form ist also keine grundlegende Verbesserung der Informationslage zu erwarten. Die digitalen Daten inhrenten Eigenschaften beliebiger Ordnung, Verknpfung und Sortierbarkeit kommen nicht zum Tragen. Die dafr erforderliche Technik ist bereits seit langem verfgbar, hat sich aber in der rumlichen Datenverarbeitung mangels Bekanntheit noch nicht durchgesetzt. Technik Das Hypertext System des Internet und die Auszeichnungssprache XML stellen die Technik bereit, um digitale Daten im globalen Netz (Internet) beliebig zu indexieren, anzuordnen und in der Folge zu durchsuchen. Die am weitesten verbreitete und zuverlssigste technische Ausprgung einer Verbindung im globalen Netz ist der Uniform Resource Locator (URL). Es gibt technische Lsungen, um die Dynamik von URL abzubilden, z.B. wenn eine Seite eine neue Adresse bekommt. Die HTTP-Statuscodes der 3er Serie (Umleitung) beinhalten in der Rckgabe den neuen Ort der Seite (Christl, 2010). Unabhngig davon ist bei der Erstellung von URL darauf zu achten, dass sie im weitesten Sinn "sinnvoll" und langlebig sind. Eine URL sollte sich hnlich verhalten wie eine Adresse, die sich aus Land, Ort, Strae und Hausnummer und ggf. Postleitzahl zusammensetzt. So wie Lnder, Orte und Straen nicht im Raum "herumhpfen" sollten auch URL eine hohe Persistenz haben. Im oben beschrieben Fall wird der B-Plan digital als Dienst bereitgestellt. In einem nchsten Schritt sollte der B-Plan jedoch nicht nur als Pixelgraphik bereitgestellt werden, wie es der OGC WMS Standard erlaubt, sondern vollstndig inklusive Geometrie und Alphanumerik, wie in den OGC Standards WFS und SLD spezifiziert. Der WFS liefert die Rohdaten der Karte die der OGC WMS liefert. Die vom WFS gelieferten Daten sind maschinenlesbar (in XML, GML und optional RDF) und erffnen damit die Mglichkeit sie automatisiert zu indizieren. Metainformation und die Information selbst sind jetzt vollstndig vermischt und ergnzen sich. Die Indexierung erlaubt die beliebige Sortierung und Klassifikation der Information und gestattet es Auszge zu erstellen und die Information mit weiteren Quellen zu verbinden. Jedes Objekt eines B-Plans wird so ber eine eindeutige Web-Adresse (URL) erreichbar und kann mit beliebigen weiteren digitalen Daten verknpft werden. Diese Technik wird derzeit zunehmend unter dem Begriff Linked Data (http://linkeddata.org/) bekannt. Ein Ausblick auf die "Soziale Vernetzung"Zusammengefasst kann festgestellt werden, dass Metadaten nicht separat von den digitalen Datenbestnden gepflegt werden sollten, die sie beschreiben. Ihr volles Potential knnen sie nur entfalten, wenn sie direkt aus den Daten selbst extrahiert werden, im Idealfall zur Laufzeit. Hierbei gibt es zwei Mglichkeiten: Entweder werden die Metadaten von der Software automatisch abgeleitet und bereitgestellt, oder spezielle Indexierungssoftware analysiert und durchsucht selbstndig Rohdaten die in einem offene Standard wie GML, RDF, Atom oder RSS hinterlegt werden. Zustzliche Informationen, die nicht in den Daten selbst enthalten sind, also auch nicht automatisch extrahiert werden knnen (Autor, Qualitt, Aktualisierungsrhytmus, etc.), mssen anderweitig dauerhaft an die Ursprungsdaten gekoppelt werden. Hier kommt wieder die flexible technische Lsung der URL zum Einsatz.Je mehr Daten in dieser Weise ber das Internet recherchierbar werden, um so mehr Anwendergemeinschaften knnen entstehen. Diese sozialen Netzwerke erstellen eigene Klassifikationen und Beschreibungen (Ontologien) und vernetzen sie mit Geodaten. Dabei ist es unerheblich, die Metadaten in einem exakt gleichen Schema vorzuhalten, wie es derzeit von INSPIRE gefordert wird. Es ist viel wichtiger, dass mglichst viel Information ausgezeichnet verlinkt, erreichbar und zugreifbar ist. Fr den ersten Teil zeichnen die Anbieter verantwortlich, fr den zweiten die Nutzer selbst. Nur so wird ein Angebot entstehen das den Nutzern bietet was sie brauchen, ohne die Anbieter mit zustzlichen Aufgaben zu belasten, die ihnen keinen Mehrwert bei der tglichen Arbeit bieten.LiteraturChristl, Arnulf, (2010) Neue Wege fr Metadaten. In: FOSSGIS. Osnabrck. S.133-138.GeoPortal RLP (2010), GeoPortal Rheinland Pfalz Metadaten, Web: http://www.geoportal.rlp.de/mapbender/x_geoportal/mod_layerMetadata.php?id=24328 OGC, (2004): CSW http://portal.opengeospatial.org/files/?artifact_id=6495 (20.04.2010)Phelps, Nik, Copying is not Theft; Web: http://bit.ly/aLUfSc (20.04.2010)Stadt Landau in der Pfalz, Flchennutzungsplan 2010 und rechtsverbindliche Bebauungsplne der Stadt Landau in der Pfalz,
Web: http://webcam.landau.de/stadtplan1/BPlaene/BPlaene.htm (20.04.2010)Weinberger, David, (2008), Das Ende der Schublade Die Macht der neuen digitalen Unordnung. Mnchen.Wikipedia, (Mrz 2010): http://en.wikipedia.org/wiki/Replicator_(Star_Trek) Neue Metadaten braucht das LandArnulf Christl