Linked Data - Das Ende des Dokuments?

  • Published on
    27-Jan-2015

  • View
    103

  • Download
    0

Embed Size (px)

DESCRIPTION

Keynote talk was given in May 2014 in Frankfurt at the annual congress of the German Society for Information Science and Information Practice (DGI)

Transcript

<ul><li> 1. Herzlich Willkommen! Einleitende Gedanken ber Informationsqualitt &amp; Wissensgenerierung Was ist Linked Data? - Warum das Ende des Dokuments? Wozu Linked Data? - Anwendungsbeispiele Die Bedeutung von Linked Data fr das Informationsmanagement Andreas Blumauer, MSc IT CEO der Semantic Web Company, Wien Als Wirtschaftsinformatiker seit 2001 in den Bereichen Text Mining, Semantic Web, Wissensmodellierung &amp; Linked Data ttig. </li></ul> <p> 2. ber Semantic Web Company (SWC) SWC wurde 2001 in Wien gegrndet ber 20 Experten im Bereich Linked Data Produkt: PoolParty Suite (seit 2009 am Markt) Kunden aus unterschiedlichen Branchen EU- &amp; US-basiertes Partner Netzwerk 3. PoolParty Semantic Suite in 90 Sekunden 1. Werkzeug zur semi-automatischen Erstellung und Wartung von Wissensgraphen (Taxonomien, Thesauri, Ontologien) 1. Text-Mining: Analyse umfassender Text- und Datenbestnde Annotation, Extraktion, Vernetzung Linked Data 2. Business Intelligence &amp; Datenintegration auf Basis offener Semantic Web Standards des W3C (RDF, SKOS, SPARQL) 3. Einfache Bedienbarkeit 4. Enterprise-tauglich: Skalierbar, Secure, Qualittsgesichert 5. Integrierbarkeit (SharePoint, Confluence, Drupal, FirstSpirit, Wordpress, ) 6. Einfaches Deployment: Als Cloud-Service oder innerhalb der Firewall 4. Branchen und Kunden Credit Suisse Daimler Roche Wolters Kluwer World Bank Group The Pokmon Company Healthdirect Australia Ministry of Finance (A) Wood Mackenzie Council of the European Union American Physical Society Education Services Australia Pearson Techtarget Norwegian Directorate of Immigration REEEP GBPN City of Vienna ... Finanz / Automotive / Verlage &amp; Medien / Gesundheit / Pharma / Verwaltung / Energie / Bildung 5. Informationsqualitt aus unternehmerischer Sicht Information ist oft 2nd class citizen in Unternehmen Informationsmanagement liegt bei CTO Information als technisches Artefakt Nach wie vor Tendenz zu Informationsinseln, keine Standards Wert von Kontextinformation und hochwertigen Metadaten wird weiterhin unterschtzt Geschftsmodelle (z.B. bei Publishern) beruhen kaum auf Kollaboration Hypothese 1: Es wird an den dynamisch wachsenden Informationsbedrfnissen der Endkunden vorbei gewirtschaftet Hypothese 2: Vor allem Europische Unternehmen geraten deshalb gegenber Amerikanischen Unternehmen unter Druck 6. Informationsqualitt aus einer Meta-Perspektive Information ist um so wertvoller, wenn schlielich ein Sinnverstehen bei Menschen ermglicht wird, und wenn der Weg dorthin zielgruppengerecht (personalisiert) aufbereitet ist Hypothese: Die Fhigkeit der Wissensvermittlung (Kontexte, Zusammenhnge) wird immer wichtiger Mensch &amp; Information (CIO-Sicht) https://www.ted.com/talks/hans_rosling_on_global_population_growth Hans Rosling: Globales Wachstum der Bevlerung 7. Informationsqualitt aus einer Meta-Perspektive Information ist um so wertvoller, Je kostengnstiger sie integriert werden kann, und somit einfach in unterschiedliche Kontexte gesetzt werden kann Hypothese: Information (Content) unterschiedlichen Formats als Service via APIs verbreiten zu knnen, ist ein Schlssel fr hohe Informationsqualitt aus technischer Sicht Maschine &amp; Information (CTO-Sicht) 8. Das Ende des Dokuments? Was ist ein Dokument, was sollte es sein? Produktion: Der passende Ort, um neue Information zu produzieren? Speicher: Eine Mglichkeit, um Information zu speichern? Darstellung: Ein User-Interface, um Information zu visualisieren und zu reprsentieren? Interface: Ein technisches Interface (API) bzw. ein Container, um verteilte Information zu verlinken und auffindbar zu machen? Kulturtechnik: Ein Medium, um Erzhlungen und Emotionen zu transportieren und zu vermitteln? ? 9. Beispiel: Wie entstand dieses Dokument? Artikel in analogen Medien (z.B. Hohe Luft) Wikipedia Fakten YouTube Recherche auf Datenportalen (zB. Datahub.io) Recherche auf LinkedIn &amp; Emails Google Abfragen Websites (Screenshots), blogs, videos, Bilder Alle Schritte, um die Informationsinseln zusammen zu ziehen, mussten manuell durchgefhrt werden (vgl. Management by Excel) 10. Wissensarbeit bedeutet Vernetzung &amp; Kontextualisierung von Information! Produktbeschreibung Kampagne Dossier Tweet Journal Artikel Vertrag Hersteller-Spezification News Artikel Social Web Profil Patienten-Akte Gedicht Regulierung Blog Gesetz Follow your nose (nous) 11. ...und noch mehr Graphen Microsoft Office Graph Facebook Social Graph Google Knowledge Graph 12. Was genau aber wird von Wissensarbeitern vernetzt? Entitten, nicht Dokumente! Things, not strings! 13. PoolParty Tagging Workflow Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut. Corpus Analysis Quality Checks sadipscing Aus strings werden things 14. PoolParty PowerTagging: Integration von Linked Data und CMS 15. Googles Knowledge Graph als Beispiel fr semantische Informationsmaschinen Mashup aus Wissens-Graphen und API Calls! Unternehmen haben begonnen, ihre eigenen, spezifischen Wissens- Graphen zu entwickeln. Welche neuen Mglichkeiten entstehen damit fr die Informationswirtschaft? 16. Linked Data ist ein Datenmodell, das auf Graphen basiert Linked Data ist ein Graph-basiertes Datenmodell und ist ausdrucksstark genug, um ein groes Spektrum von Informationsarten reprsentieren und verarbeiten zu knnen Eignung fr Daten-Integration &amp; Dynamisches Semantisches Publizieren (DSP) in verteilten Umgebungen (semantic web) 17. BBCs Linked Data Plattform: Wieviele Informationsquellen sehen Sie? Individual CMSs are pretty good at keeping tabs on the content they create but if you wanted to get hold of the 20 most recent pieces of content from across the BBC (and hence across CMSs) on Burkina Faso, or Jarvis Cocker or global warming it would be very tricky. Oli Bartlett, product manager for the BBC's Linked Data Platform 18. Case Study: The 100 most influential people in the world http://time.com/time100-2014/ http://mercury.poolparty.biz/time100 19. SKOS: Taxonomien werden wieder- verwendbar, integrierbar &amp; verlinkbar http://www.w3.org/2004/02/skos/ 20. Taxonomie- und Thesaurus-Management eingebettet im Semantic Web Schritt 1: Aufbau eines Thesaurus Schritt 2: Verknpfe Deine Thesauri mit anderen Wissens-Graphen (zB. DBpedia) 21. Annotation / Entity Extraction = Transformation v. Dokumenten in Graphen Schritt 4: Komplexe Fragen stellen PREFIX skos: PREFIX foaf: PREFIX dbpedia: SELECT DISTINCT ?personname ?timelink WHERE { ?person skos:prefLabel ?personname . ?person a dbpedia:Person . ?person . OPTIONAL { ?person ?timelink . } } Who of the most influential people in the world are Princeton University alumni? Results Carl Cahn http://time.com/70813/ Jeff Bezos http://time.com/70917/ Schritt 3: Entitten automatisch extrahieren (PowerTagging) 22. Thesauri sind semantische Interfaces, um verteilte Inhalte abzufragen, zu vernetzen EurovocWKD Arbeitsrechts-Thesaurus STW Thesaurus DBpedia 23. Case Study: Clean Energy Data - Lnderprofile http://www.reegle.info/countries/ 24. Linked Data &amp; Linked Vocabularies knnen leicht wieder verwendet werden Linked Data basiert auf Standards und ist so in ein umfassendes Daten-kosytem eingebettet Ontologien, Thesauri, Taxonomien und Wissens-Graphen knnen zu geringst mglichen Kosten wiederverwendet werden, zumindest technisch betrachtet. 25. Linked Open Data Graphen 12.6 Mio. Entitten 2.46 Mrd. Fakten 119 Sprachen 45 Mio. Links zu anderen Quellen 26. SKOS Thesauri Eurovoc (EU) ESCO (EU) Jurivoc (SUI) ScoT (AUS) Agrovoc (UN) MeSH (US) Getty Vocabularies (US) GEMET (EEA) GeoThesaurus (AT) STW Economy (DE) Polythematic SH (CZ) Canadian Subject Headings (Can) LCSH (US) Worldbank Taxonomy (WBG) Labor Law Germany Thesaurus (DE) Reegle Thesaurus (REEEP) Austrian Tax Law Thesaurus (AT) UNESCO Thesaurus (UN) New York Times SH (US) RAMEAU subject headings (FR) TheSoz (DE) The General Finnish Thesaurus (FIN) NAL Thesaurus (US) Social Semantic Web Thesaurus (AT) Courts thesaurus (DE) SITC-V4 (UN) Google Product Taxonomy (US) NAICS 2012 (US) Common Procurement Vocabulary (ES) UKAT UK Archival Thesaurus (UK) NASA taxonomy (US) IVOA astronomy vocabularies (UK) IPTC News Codes (UK) WAND taxonomies (US) 27. Linked Data verknpft die Anforderungen Semantic search und Business analytics Linked Data basiert auf einem ausdrucksstarken Datenmodell und kann so unterschiedlichste Informationsarten reprsentieren Hervorragende Eignung fr komplexere Such- und Analyseanwendungen; vereint die Welten der strukturierten &amp; unstrukturierten Informationen 28. Der traditionelle Ansatz zur Daten- und Informations-Integration Person 4711 Name Jeff Bezos Affiliation Amazon Born in Albuquerque Land 4812 Name USA BIP $ 15.684 billion HDI 0.937 Lsung: Spezielle Anwendung wird entwickelt, um die Daten zu integrieren. Show me the most influential people in the world who were born in countries with an HDI less than 0.5? 29. PersonOrganization Place affiliated with born in Ontologie-Graph Jeff Bezos Amazon Albuquerque United States Wissens-Graph 2 GDP $ 15.684 billion HDI 0,937 Continents U.S. Thesaurus/Taxonomy-Graph America New Mexico Albuquerque South America Wissens-Graph 1 Show me the most influential people in the world who were born in countries with an HDI less than 0.5? Lsung: Taxonomien werden verwendet, um Graphen zu verknpfen 30. SPARQL untersttzt komplexe Abfragen PREFIX skos: PREFIX foaf: PREFIX dbpedia: SELECT DISTINCT ?personname ?picture ?countryname ?hdi ?picture WHERE { ?person skos:prefLabel ?personname . ?country skos:prefLabel ?countryname . ?person a dbpedia:Person . ?country a dbpedia:Country . ?person skos:related ?country . ?country ?hdi . FILTER ( ?hdi &lt; 0.6) OPTIONAL { ?person foaf:depiction ?picture . } } ORDER BY DESC(?hdi) 31. Case Study: Linked Life Data http://linkedlifedata.com/ 32. Interaktive Daten Visualisierungen 33. Kernfunktion von Linked Data: Matchmaking Die Qualitt der Meta- Informationen und Wissens- Graphen determiniert die Mglichkeiten, Informationseinheiten (chunks), Produkte &amp; User auf neuartige Weise verknpfen, und im Verbund abfragbar zu machen. 34. Matchmaking von Usern / von Content http://www.eip-water.eu/ http://faq.poolparty.biz/ 35. Linked Enterprise Data Show me the impact of our campaign for FIFA WC 2014. 36. Welche Bedeutung hat Linked Data fr das Informationsmanagement? 1. bersetzung zwischen Anwender und Techniker (Taxonomist) 2. Keine technischen Lock-in-Effekte mehr 3. Standard, um Referenzsysteme zu etablieren (zB. GND als LD) 4. Kommunikation zwischen Menschen und Menschen, Menschen und Maschinen, und Maschinen und Maschinen verbessern 5. Ermglicht komplexere Wertschpfungsketten in der Content- Industrie (vgl. Software-Industrie) 37. Content-Wertschpfungsketten mit Open Data 38. Zusammenfassung: Daten-Silo (Dokument) ffne Dich! Graph-basiertes Datenmodell Standard-basiertes Datenmodell Ausstrucksstarkes Datenmodell SKOS (Simple Knowledge Organization System) als Kernelement Suchen Analysieren Lesen Visualisieren Behaupten Beweisen (Data Journalism) Enterprise Linked Data 39. Kontakt &amp; Weitere Informationen Andreas Blumauer, MSc IT a.blumauer@semantic-web.at http://at.linkedin.com/in/andreasblumauer/ Semantic Web Company GmbH Mariahilfer Strasse 70/8, A-1070 Vienna +43-1-4021235 http://www.semantic-web.at http://www.poolparty-software.com http://slideshare.net/semwebcompany http://youtube.com/semwebcompany </p>