75
Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems www.wiwi.hu-berlin.de/~berendt

Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Embed Size (px)

Citation preview

Page 1: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Wissen im Web:

Semantic Web Mining und die Motivation Freiwilliger

Bettina Berendt

Humboldt University Berlin, Institute of Information Systems www.wiwi.hu-berlin.de/~berendt

Page 2: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Dank an ...

meine KoautorInnen (die auf den folgenden Folien gewürdigt sind)unddie Seminargruppen, die am EDOC-Projekt mitgearbeitet haben

und mitarbeiten:

Hanna Brekenfeld, Noppawan Bunyongasena, Thomas Dammeier, Gebhard Dettmar, Kai Dingel, Michael Ferber, Christoph Hanser, Oleg Ishenko, Beate Krause, Altug Kul, Toni Lohde, Egor Nikitin, Thomas Posner, Derya Saki, Mert Sengüner, Daniel Trümper

Page 3: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantic Web Mining=

Semantic Web Mining=

Semantic Web Mining

Page 4: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Agenda

Makrokosmos

BegriffeSemantic Web MiningSemantic Web MiningSemantic Web Mining

Mikrokosmos

BeispieleSemantics MiningSemantics Mining

Page 5: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

“Makrokosmos World Wide Web”

Page 6: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Das Potenzial

Page 7: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Sehr viel Wissen, für Menschen zugänglich.

Page 8: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Die Probleme

Page 9: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Sehr viel Wissen, für Menschen zugänglich.

Page 10: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Web Mining

Page 11: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Formen

Knowledge discovery (aka Data mining):

“the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1

Web Mining: die Anwendung von Data-Mining-Techniken auf Inhalt, (Hyperlink-) Struktur und Nutzung von Webressourcen.

Webmining-Gebiete: Web content mining

Web structure mining

Web usage mining

1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press

Page 12: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Webmining-Gebiete: Web content mining

Web structure mining

Web usage mining

Web Mining:Beispiele

Page 13: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Das Hauptproblem des Web Mining

Page 14: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Common phrases of selected components01. process; water; air; pressure; gas; body of water; natural gas; high pressure; hot water; fresh

water;12. Mark; Gospel; Matthew; Luke; Rose; Virgin; Virgin Mary; Gospel of John; Gospel of Mark;

Gospel of Luke;23. part; text; Britannica; entry; Encyclopedia Britannica; Encyclop~¦dia Britannica; Encyclopaedia

Britannica; domain Encyclop~¦dia Britannica; public domain Encyclop~¦dia Britannica; public domain text;3

4. property; theorem; elements; proof; subset; axioms; proposition; natural numbers; fundamental theorem; mathematical logic;4

5. Dove; AMD; Dove Streptopelia; imperial crown; Imperial army; imperial court; imperial family; Collared Dove Streptopelia; Imperial Russia;5

6. side; feet; long time; long period; right side; left side; long distances; different types; short distance; opposite side;6

7. David; bill; Bob; Jim; Allen; Dave; Current stars; former members; Bill Clinton; former President;7

8. magazine; newspaper; political parties; public domain text; public opinion; political career; public schools; own right; political life; public service;8

9. way; things; boy; cat; long time; same way; same thing; only way; different ways; good thing;11

10. problems; zero; sum; digits; ~~; natural numbers; positive integer; mathematical analysis; decimal digits; natural logarithm;12

11. population density; couples; races; total area; makeup; Demographics; median age; income; density; housing units;

175.Torres; Iraqi KASUMI KHAZAD Khufu; Granada; Spa; Fra; General information; General Public License; General Bernardo; New Granada; Torres Strait;

176.love; Me; Rolling Stones; love songs; Rolling Stone magazine; Love Me; Fall in Love; Meet Me; love story; professional wrestler;

Das Wikipedia 300 Component Model, generiert mit diskreter PCA

http://cosco.hiit.fi/search/H300.html/topic_list

Zusammenfassend – Schwächen rein statistischer Ansätze:

Interpretation der Resultate?

Existenz von Resultaten?

Korrektheit?

Inferenzen?

Zusammenfassend – Schwächen rein statistischer Ansätze:

Interpretation der Resultate?

Existenz von Resultaten?

Korrektheit?

Inferenzen?

Page 15: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantic Web

Page 16: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Das Semantic Web

“The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.” 1

“The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming.” 2

1 Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The Semantic Web. Sci. American, May.

2 http://www.w3.org/2001/sw/3 Berners-Lee, T. (2000). Semantic Web XML2000.

www.w3.org/2000/Talks/1206-xml2k-tbl/

Page 17: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Category structure:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"><Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> ....</Topic><Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/></Topic>....</RDF>

Category structure:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"><Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> ....</Topic><Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/></Topic>....</RDF>

Resources:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> ...<Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <link r:resource="http://www3...ca/…./file.html"/></Topic><ExternalPage about="http://www…ca/file .html"> <d:Title>John phillips Blown glass</d:Title> <d:Description>A small display of glass by John Phillips</d:Description></ExternalPage><Topic r:id="Top/Computers"> <tag catid="4"/> <d:Title>Computers</d:Title> <link r:resource="http://www.cs.tcd.ie/FME/"/> <link r:resource=”http://foo.asdfsa….."/></Topic></RDF>

Resources:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> ...<Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <link r:resource="http://www3...ca/…./file.html"/></Topic><ExternalPage about="http://www…ca/file .html"> <d:Title>John phillips Blown glass</d:Title> <d:Description>A small display of glass by John Phillips</d:Description></ExternalPage><Topic r:id="Top/Computers"> <tag catid="4"/> <d:Title>Computers</d:Title> <link r:resource="http://www.cs.tcd.ie/FME/"/> <link r:resource=”http://foo.asdfsa….."/></Topic></RDF>

Semantic Web:Beispiel

Page 18: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Warum Semantic Web?Bsp. strukturierte

Suche (1) – Metadaten gemäß DC

Page 19: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantische Suche: Bsp. 2 – Metadaten

gem. DC + Domänenontologie

Page 20: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Was ist eine Ontologie?

An ontology is „an explicit specification of a shared conceptualisation.“ (Gruber, 1993)

Gruber, T.R. (1993). Towards principles for the design of ontologies used for knowledge sharing. In N. Guarino & R. Poli (Eds.), Formal Ontologies in Conceptual Analysis and Knowledge Representation Deventer, NL: Kluwer.

Bozsak, Ehrig, Handschuh, Hotho, Maedche, Motik, Oberle, Schmitz, Staab, Stojanovic, Stojanovic, Studer, Stumme, Sure,Tane, Volz, & Zacharias (2002). KAON - Towards a Large Scale Semantic Web. In Kurt Bauknecht, A. Min Tjoa, & Gerald Quirchmayr (Eds.), E-Commerce and Web Technologies, Third International Conference, EC-Web 2002, Aix-en-Provence, France, September 2-6, 2002, Proceedings (pp. 304-313). Springer: LNCS 2455

Page 21: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Relational Metadata

DAMLPROJ

COOPERATES-WITH

URI-GST

URI-SWMining

COOPERATES-WITH

WORKS-IN

PROJECT

RESEARCHER

PERSON

OBJECT

COOPERATES--WITH

TITLE

NAME

RESEARCHER

PERSON

OntologyCOOPERATES--

WITH

Semantic Web Mining

WWW

-URI-AHO

Andreas Hotho

cooperateswith(X,Y)

cooperateswith(Y,X)

WORKS-IN

WORKS-IN

Ontologie-basierte Website-Modellierung

Page 22: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Das Hauptproblem des Semantic Web

<HTML><HEAD><META NAME="DC.Creator" CONTENT="(Scheme=Freetext) Thomas Seilnacht

<[email protected]>"><META NAME="DC.Title" CONTENT="(Scheme=Freetext) 10 Schritte zum Bau

der eigenen Homepage"><META NAME="DC.Date.Created" CONTENT="(Scheme=Freetext) 1998-10-02"><META NAME="DC.Form" CONTENT="(Scheme=IMT) text/html"><META NAME="DC.Identifier" CONTENT="(Scheme=URL)

http://www.seilnacht.tuttlingen.com/HTML/Homepage.htm"><META NAME="DC.Description" CONTENT="(Scheme=Freetext) Anleitung zum

Bau einer Homepage mit dem Netscape Communicator"><META NAME="DC.Subject.Keywords" CONTENT="(Scheme=Freetext)

Homepage, HTML, Internet, FTP, Polyview, Programmieren, Frames, JavaScript, CGI-Script, Grundbegriffe, Grafik, Freeware, INFORMATISCHE GRUNDBILDUNG">

<META NAME="DC.Type" CONTENT="Kurs/Onlinekurs/Virtuelles Seminar"><META NAME="DC.Language" CONTENT="Deutsch"><META NAME="DC.Description" CONTENT="(Scheme=URL)

http://dbs.schule.de/db/mlesen.html?Id=7915&KATEGORIE=medien">

“Wer soll das alles machen?”“Wer soll das alles machen?”

Page 23: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Strategien zur Schaffung des Semantic Web

“institutionell”: Zwang / extrinsische Motivation

“sozial”: Verteilte Autorenschaft à la Open Source (example: dmoz.org) / intrinsische Motivation

“informatisch / HCI”: Tool-Support

“informatisch / Informationsverarbeitung” …

Page 24: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

... Semantic Web Mining

Page 25: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantic Web Mining: Eine Definition

(1) Mining of the Semantic Web

(2) Mining for the Semantic Web

(3)The iterative process of (1) and (2), in which the semantics obtained by mining are re-used for mining again.

Berendt, Stumme, & Hotho, Proc. ISWC 2002; Stumme, G., Hotho, A., & Berendt, B. (submitted). Semantic Web Mining – State of the Art and Future Directions.

Page 26: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

“Mikrokosmos EDOC”

Page 27: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Wissensbeiträge: Daten und Metadaten

<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>

<HEAD>Literaturverzeichnis</HEAD>

...

<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">

<CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; G&ouml;bel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>,

</CITATION> ...

<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>

<HEAD>Literaturverzeichnis</HEAD>

...

<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">

<CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; G&ouml;bel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>,

</CITATION> ...

http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd

Page 28: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Dissertation Markup Language DiMLhttp://edoc.hu-berlin.de/diml/dtd/xdiml.dtd

...<!ELEMENT citation (#PCDATA | email | url | note | workauthor | worktitle | articletitle | serialtitle | address | editor | publisher |

edition | volume | number | version | pages | pubdate | bible | court | law | cut | pagenumber)*><!ATTLIST citation id ID #IMPLIED label CDATA #IMPLIED workType (Book | Journal | Misc) #IMPLIED published (yes|no) 'yes'><!ELEMENT note (#PCDATA | em | u | strong | br | sup | tt | sub | link | name | email | organization | term | foreign | url |

footnote | endnote | glossref | indexref | pagenumber | q | citation | imath | im)*><!ATTLIST note id ID #IMPLIED><!ELEMENT workauthor (#PCDATA | given | surname | suffix | organization)*><!ATTLIST workauthor role CDATA #IMPLIED ref IDREF #IMPLIED id ID #IMPLIED>...

<!ELEMENT worktitle (#PCDATA | em | u | strong | br | sup | tt | sub | pagenumber)*><!ATTLIST worktitle id ID #IMPLIED type CDATA #IMPLIED><!ELEMENT articletitle (#PCDATA | em | u | strong | br | sup | tt | sub | pagenumber)*><!ATTLIST articletitle id ID #IMPLIED type CDATA #IMPLIED>...

Page 29: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Das Potenzial

Page 30: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Wenn es diese Daten und Metadaten einmal gibt ...

... dann unterstützen sie leistungsfähige Suchen in verteilten Archiven (z.B.) elektr. Abschlussarbeiten u. Dissertationen (ETDs)

i.d.R. mit OAI-Metadaten-Harvesting Beispiele:

o www.ndltd.org• z.Z. 154 Mitglieder / Repositorien

o http://www.cybertesis.net• z.Z. 27 Mitglieder / Repositorien

Vorteile für die Autoren:o Kostenfreie Publikation, hochwertige Archivierungo Garantie der langfristigen Lesbarkeit (50 Jahre)o Authentizität & Integritäto Semantische Durchsuchbarkeit

Page 31: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

... aber wie bekommt man die (Meta)Daten?

Page 32: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Die Probleme

Page 33: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Befragung

Page 34: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Problem 1: Es ist nicht einfach (und es macht keinen Spaß)

Seit Beginn von EDOC (1997): Anteil der Online-Diss. ~20% (13% incl. Medizinische Fakultät)

Befragung aller DoktorandInnen und HabilitandInnen (knapp 2500 Personen, 12-14% antworteten)

Hauptergebnisse bzgl. Bekanntheit und Nutzung von EDOC-Diensten:o Probleme im Informationsfluss Marketing und Serviceo Die Erstellung der Metadaten wird als mühselig und

schwierig empfunden – insbesondere die I.d.R. nachträglich vorgenommene Literatur-Formatierung

[Berendt, Brenstein, Li, & Wendland, Proc. ETD 2003; Berendt, Proc. AAAI Spring Symposium KCVC, 2005]

Page 35: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

… und das hat Folgen

<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>

<HEAD>Literaturverzeichnis</HEAD>

<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">

<CUT ID="bib-15-">[1] </CUT><WORKAUTHOR>Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R.</WORKAUTHOR>U<ARTICLETITLE>ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements</ARTICLETITLE>, <WORKTITLE>J. Phys. Chem. B</WORKTITLE>, <PUBDATE>2000</PUBDATE>, <NUMBER>104</NUMBER>, <PAGES>2908</PAGES>,

</CITATION>

...

Page 36: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Warum ist das ein Problem?

Cardona, M., & Marx, W. (2004).Verwechselt,vergessen,wiedergefunden.

Referenzen–das fehlerhafte Gedächtnis[...] Physik Journal, 3 (11), 27-29.

Page 37: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantics Mining / usage mining

Page 38: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Ein 3. Hauptergebnis der Befragung:o weitgehend unbekannt und ungenutzt sind

• strukturiertes Schreiben• strukturierte Suche

Frage: Macht die Site Leser zu Autoren? Daten aus dem Webserver-Log 10,992 Sessions (210,655 Seiten) aus einer Woche 2003

(gegen Ende der ersten Befragung) Methoden: semantische Anreicherung, Assoziationsregel- und

Sequenzmining (Tools: WEKA, WUM); Clustering, Klassifikation

Q: Wissensbereitstellung als Nebeneffekt anderer Aktivitäten?

(hier: Websuche)

Page 39: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Non-semantic Web Usage Mining

80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /favicon.ico HTTP/1.1" 200 1406 "-" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0"

80.136.155.126 - - [29/Mar/2003:00:02:00 +0100] "GET /dissertationen/style/did.css HTTP/1.1" 200 10301 "http://edoc.hu-berlin.de/conferences/conf2/Kuehne-Hartmut-2002-09-08/HTML/kuehne-ch1.html" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/20020823 Netscape/7.0"

66.196.72.44 - - [29/Mar/2003:00:02:38 +0100] "GET /../projekte/epdiss/kolloqu/schu/slide4.html HTTP/1.0" 400 379 "-" "Mozilla/5.0 (Slurp/cat; [email protected]; http://www.inktomi.com/slurp.html)"

66.196.72.44 - - [29/Mar/2003:00:03:09 +0100] "GET /humboldt-vl/hofmann-hasso/PDF/Hofmann.pdf HTTP/1.1" 200 94881 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)"

66.196.72.21 - - [29/Mar/2003:00:04:14 +0100] "GET /dissertationen/biologie/kernekewisch-michaela/HTML/kernekewisch-vita.html HTTP/1.0" 200 7418 "-" "Mozilla/5.0 (Slurp/cat; [email protected]; http://www.inktomi.com/slurp.html)"

64.68.82.27 - - [29/Mar/2003:00:04:21 +0100] "GET /download/kume/r-lailach-hesse.PDF HTTP/1.0" 200 179357 "-" "Googlebot/2.1 +http://www.googlebot.com/bot.html)"

193.7.255.242 - - [29/Mar/2003:00:07:08 +0100] "GET /dissertationen/radspieler-alexander-2000-09-20/HTML/radspieler-ch2.html HTTP/1.1" 304 - "-" "Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)"

Problem: URLs sind nicht semantisch. Eine Analyse der Daten in dieser Form bringt keine Erkenntnis!

Page 40: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Ontologie-basierte Verhaltensmodellierung: URLs und Anwendungsereignisse

URL Webseite mit Inhalt

Gewünschter Dienst

Berendt, B., Stumme, G., & Hotho, A. (2004). Usage mining for and on the Semantic Web. In H. Kargupta, A. Joshi, K. Sivakumar, & Y. Yesha (Eds.), Data Mining: Next Generation Challenges and Future Directions. Menlo Park, CA: AAAI/MIT Press.

Erhaltener Inhalt

Page 41: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Datenvorbereitung: Semantische Anreicherung

TOP

AUTHOR SEARCH DOC OTHER

OAI OTHERDISSFULLTEXT

LIST

DNB

AUTHOR

KEYWORD

META PROJECTOTHER DOC

MASTER

ABSTRACT

ADVICE

TEMPLATE

FAQ

LATEX

HINWEISE

DIML

README

ACCESS

CONFERENCE

PUBLIC READ

STUDY

CMS

ABSTRACT

ACCESS

RESULT

regexpr.txt: mapping from URLs to concepts

HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*...

regexpr.txt: mapping from URLs to concepts

HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*...

HOME

Page 42: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

1. Ein Zugriff (request) entspricht [dem Interesse an]a) einem Konzept

b) einer (Multi-)Menge von Konzepten

c) einer strukturierten Menge von Konzepten

2. Ein Merkmalsträger isti. eine Session, betrachtet als eine (Multi-)Menge von Zugriffen

ii. eine Session, betrachtet als eine Sequenz von Zugriffen

iii. eine Session, betrachtet als ein Graph von Zugriffen

iv. ein Nutzer, modelliert durch – (ggf. aggregierte) Attribute seiner Session(s)

+ ggf. – andere Attribute (z.B. Wohnort, Einkommen, Transaktionshistorie)

Resultat der Datenvorbereitung: Datenmodellierung

A B A

A B C

A

B C

C

A B C

Page 43: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantic Web Usage Mining – Schritt 2: Musterentdeckung – Bsp. Sequenzmining

“Find out pages that are usually visited together and inspect the navigation paths between them.”

Sequence miner WUM (http://www.hypknowsys.de)

select t from node as a b, template # _ a * b as twhere a.accesses > 100 and a.support > 100and b.accesses > 50 and b.support > 50and ( b.support / a.support ) > 0.5and a.url startswith “AUTHOR”

- only paths starting from author-relevant content

Page 44: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Beliebte Eintrittspunkte und 1. Schritte

“Leser“ gehen direkt zu Dissertationen u. bleiben dort. “Leser“ gehen direkt zu Dissertationen u. bleiben dort.

Page 45: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Pfade zur Formatvorlage

“Autoren“ bleiben bei Autoren-Inhalten. “Autoren“ bleiben bei Autoren-Inhalten.

Page 46: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Leser und Autoren sind unterschiedliche Gruppen; Leser werden nicht zu Autoren (jedenfalls nicht in einer Session)

Nur wenige Besucher nutzen die interne Suchmaschine, und sie erfahren die strukturierte Suche nicht als effektive oder effiziente Suchoption.

Eine separate Fragebogenstudie unterstützt diesen Befund.

Die Nutzung externer Suchmaschinen macht den Zugang zu Dissertations-Volltexten wahrscheinlicher.

Problem 2: Wissensbereitstellung ergibt sich nicht als Nebeneffekt

anderer Aktivitäten (hier: Websuche)

Page 47: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Exkurs: Analyse bei gegebener Domänen-Ontologie: ka2portal.aifb.uni-karlsruhe.de

Gibt es verschiedene “Suchtypen”

in diesem Onlinekatalog?

Welche (Kombinationen von)

Suchoptionen sind populär?

Was signalisiert dieses über

das inhaltliche Interesse der Nutzer?

Page 48: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantics of requestsStep 1: Domain ontology

[Oberle, Berendt, Hotho, & Gonzalez, Proc. AWIC 2003]

• community portal ka2portal.aifb.uni-karlsruhe.de

• ontology-based:

• Knowledge base in F-Logic

• Static pages: annotations

• Dynamic pages: generated

from queries

• Queries also in F-Logic

• Logs contain these queries

affiliation

Page 49: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

RESEARCHER PERSON PROJECT PUBLICATION RESEARCHTOPIC EVENT ORGANIZATION RESEARCHINTEREST LASTNAME TITLE ISABOUT EVENTS EVENTTITLE WORKSATPROJECT AUTHOR AFFILIATION ISWORKEDONBY PROGRAMCOMMITTE

E EMPLOYS NAME RESEARCHGROUPS EMAIL

An example query with concepts and relations:

FORALL N,PEOPLE <-PEOPLE:Employee[affiliation->> "http://www.anInstitute.org"] and PEOPLE:Person[lastName->>N].

Query = feature vector of concepts + relations

Session = feature vector of concepts + relations, summed over all queries in the session

Semantics of requests Step 2: Modelling requests and sessions-as-sets

Clustering,Association rules,Classification, ...

Page 50: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Der Lösungsansatz

Page 51: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Mach es einfacher

Page 52: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantics Mining / content mining

Page 53: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Welche Art von Programmen und Nutzungsschnittstellen unterstützen

Autoren und motivieren sie zur Mitarbeit?

... Und wie können weitere Daten gesammelt werden, um den Schreibprozess zu verstehen und zu unterstützen?

Ein intelligentes Autorentool zur Schaffung von Semantik

Prototyp: Fokus auf Bibliographie-Annotationo Kern & fehleranfälligster Teil der Formatvorlagen-Benutzung in

EDOC

Basierend auf Informationsextraktion

[Berendt, Proc. AAAI Spring Symposium KCVC, 2005]

Page 54: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

System-Architektur

Web serviceWeb service

citeseerciteseer

paratoolsparatools

TTTTTT

other WS and info. sources

VBA macroVBA macro

Page 55: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Nutzungsschnittstelle

corrected, XML annotated, and formatted

Page 56: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Informationsextraktion: Referenz-Parsing in 3 Tools

Page 57: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Paratools-Zitations-Parsinghttp://paracite.eprints.org

Eine Datenbank von Templates der Form

'_AUTHORS_ (_YEAR_). _TITLE_.

_PUBLICATION_,_VOLUME_(_ISSUE_):_PAGES_' jedes _XXX_ ist assoziiert mit einem regulären Ausdruck

o Bsp.: _YEAR_ ([[:digit:]]{4}) 2 Gewichtungsfaktoren

o reliability: „syntaktische Festgelegtheit“ eines regulären Ausdrucks• Ex.: _URL_ > _TITLE_

o concreteness = Anzahl fixierter Symbole• Ex.: '_AUTHORS_,_PUBLICATION_, in press' > '_AUTHORS_,

_PUBLICATION_'

Templates werden gegen die Referenz gematcht. Wähle das Template mit der höchsten reliability, oder (wenn

diese gleich sind) mit der höchsten concreteness.

Page 58: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Mach es lohnender

Page 59: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantics Mining / content + structure mining: RDI – Rosetta

Bradshaw, S. (2003). Reference Directed Indexing: Redeeming Relevance for Subject Search in Citation Indexes. In Proceedings of the 7th European Conference on Research and Advanced Technology for Digital Libraries.Bradshaw, S., & Hammond, K. (2000). Guiding people to information: Providing an interface to a digital library usingReference as a basis for indexing. In Proceedings of the Fifth International ACM Conference on Intelligent User Interfaces .

Page 60: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt
Page 61: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Versteh es richtig

Page 62: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Semantics Mining / content + structure mining: SSI

R. Navigli & P. Velardi. Structural Semantic Interconnections: a knowledge-based approach to word sense disambiguation. IEEE Transactions on Pattern Analysis and Machine Intelligence (27-7), July, 2005.

Page 63: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt
Page 64: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt
Page 65: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Basic idea: graphs of meanings induced by WordNetBasic idea: graphs of meanings induced by WordNet

Using SSI for word sense disambiguation

(“The driver turned on his heel and went back to the truck.“)

Using SSI for word sense disambiguation

(“The driver turned on his heel and went back to the truck.“)

Page 66: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt
Page 67: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Zusammenfassung und Ausblick

Um Freiwillige zu motivieren, müssen informatische, motivationale und institutionelle Aspekte berücksichtigt werden!

Erweiterung des Intelligenten Autoren-Tools: o Erweiterung der Leistungsfähigkeit (Zitationsstile, ...)o Integration weiterer Information-Retrieval- und Mining-

Verfahreno Laborstudien zur ersten Evaluationo Usage-Mining zur fortlaufenden Evaluationo Verstärkung des Community-Elements!

Page 68: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Ausblick 1: Stärkere Einbeziehung der Community

Page 69: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

bibster.semanticweb.org

Recommendations based on items‘ semantics and their... similarity to the user‘s expertise measured by previous externalisations (content of personal database)... similarity to relevant items measured by previous internalisations (answers to a query) and combinations (addition to the personal database)

Haase, Ehrig, Hotho, & Schnizler, 2004

Page 70: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

www.bibserv.org

Page 71: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Ausblick 2: Spaß!

Page 72: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt
Page 73: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt
Page 74: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt
Page 75: Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems berendt

Danke für die Aufmerksamkeit!