1 Data Mining und Digitale Bibliotheken Bettina Berendt Institut für Wirtschaftsinformatik, HU...

Preview:

Citation preview

1

Data Mining und Digitale Bibliotheken

Bettina Berendt

Institut für Wirtschaftsinformatik,

HU Berlin

www.berendt.de

2

Fragen

3

1. Was tun die Leute da?

4

2. Was muss ein Informationssystem anbieten, um wirklich weltweit nutzbar zu sein?

5

3. Stell dir vor, es ist Wissensgesellschaft, und keiner geht hin.

6

Begriffe

7

Digitale Bibliotheken

A digital library

comprises digital collections, services and infrastructure to support lifelong learning, research, scholarly communication and preservation.

en.wikipedia.org/wiki/Digital_library

is ... available on the Internet or on CD-ROM

www.cesa8.k12.wi.us/media/digital_dictionary.htm

is an integrated set of services for capturing, cataloging, storing, searching, protecting, and retrieving information

www.wtec.org/loyola/digilibs/d_01.htm

8

Web Mining

Knowledge discovery (aka Data mining):

“the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1

Web Mining: the application of data mining techniques on the content, (hyperlink) structure, and usage of Web resources. Web mining areas:

Web content mining

Web structure mining

Web usage mining

1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press

9

Wohlbekannt ... Web Structure Mining

Ranking

aufgrund von Zahl + Bedeutung der eingehenden

Hyperlinks

10

Wohlbekannt ... Web Content Mining

Treffer

aufgrund von Text, Metadaten oder Ankertexten

in verweisenden Seiten

11

Wohlbekannt ... Web Usage Mining

12

... und noch ein Beispiel (Google goes Pinski/Narin ...)

13

Zu 1. Was tun die Leute da?

14

Rohdaten: Webserver-Logs

<ip_addr> - - <date><method><file><protocol><code><bytes><referrer><user_agent> <ip_addr> - - <date><method><file><protocol><code><bytes><referrer><user_agent>

203.30.5.145 - - [01/Jun/1999:03:09:21 -0600] "GET /Calls/OWOM.html HTTP/1.0" 200 3942 "http://www.lycos.com/cgi-bin/pursuit?query=advertising+psychology-&maxhits=20&cat=dir" "Mozilla/4.5 [en] (Win98; I)"

203.30.5.145 - - [01/Jun/1999:03:09:23 -0600] "GET /Calls/Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)"

203.30.5.145 - - [01/Jun/1999:03:09:24 -0600] "GET /Calls/Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)"

203.252.234.33 - - [01/Jun/1999:03:12:31 -0600] "GET / HTTP/1.0" 200 4980 "" "Mozilla/4.06 [en] (Win95; I)"

203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)"

203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/red.gif HTTP/1.0" 200 104 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)"

203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)"

203.252.234.33 - - [01/Jun/1999:03:13:11 -0600] "GET /CP.html HTTP/1.0" 200 3218 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)“

203.30.5.145 - - [01/Jun/1999:03:13:25 -0600] "GET /Calls/AWAC.html HTTP/1.0" 200 104 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)"

15

Navigationsspuren einzelner Benutzer: „Individualisierte Sitemaps“

Berendt & Brenstein (BRMIC 2001), Berendt & Kralisch

(Proc. GOR 2005), Berendt (Neues Handbuch

Hochschullehre, in press)

1. Aprilwoche 2003:239370 Anfragen16777 Visits

16Datenvorbereitung: Semantische Anreicherung

TOP

AUTHOR SEARCH DOC OTHER

OAI OTHERDISSFULLTEXT

LIST

DNB

AUTHOR

KEYWORD

META PROJECTOTHER DOC

MASTER

ABSTRACT

ADVICE

TEMPLATE

FAQ

LATEX

HINWEISE

DIML

README

ACCESS

CONFERENCE

PUBLIC READ

STUDY

CMS

ABSTRACT

ACCESS

RESULT

regexpr.txt: mapping from URLs to concepts

HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*...

regexpr.txt: mapping from URLs to concepts

HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*...

HOME

17

Die von diesem Besucher betrachteten Konzepte

18Verhaltensmuster (1): Metadatensuche Dissertation in max. 5 Schritten

select tfrom node as a b, template a [0;4] b as twhere a.url = “SEARCH-METADATA"and b.url = "DISS-ACCESS"and a.occurrence = 1 and b.occurrence = 1

19Verhaltensmuster (2): Google Dissertation in max. 5 Schritten

20

Die häufigsten ersten 3 Schritte bei Besuchen von Google aus

21

Google Abstract Volltext (jeweils in max. 3 Schritten)

22

Zu 2. Weltweite Informationssysteme

23

Anwendung: Suche in Informationsportalen; e-Health

Fragen:

• Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen?

• Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration?

• Zusammenhänge zwischen Verhalten u. Sprache, Kultur, Domänenwissen?

Fragen:

• Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen?

• Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration?

• Zusammenhänge zwischen Verhalten u. Sprache, Kultur, Domänenwissen?

24

Semantik: Dienst-Ontologie

Alphabetical

search

Diagnosis 21002

Diagnosis info

TOP

Search

25

[Berendt, Proc. WebKDD 2005]

Mining:Häufige Subgraphen, Visualisierung mit Detail & Kontext

26

Suchverhalten: häufige abstrakte Muster

Diagnosen sind “Hubs" fürdie Navigation (5.3%, 4%)

Alphabetische Suche: hub-and-spoke → nur linguistische Relationen (6.4%)

Lokalisationssuche: linear / Tiefensuche → Suchverfeinerung

& medizinisches Wissen (5%)2 Studien (Webserverlog: 277K Sessions aus 188 Ländern; Webserverlog + Fragebogen: 165 Personen aus 34 Ländern): Suchmaschine, alphabetische Suche: v.a. Muttersprachler, Ärzte

Lokalisationssuche: nicht-muttersprachliche Patienten

Domänenwissen kompensiert geringe Sprachkenntnisse.

[Berendt, Proc. WebKDD 2005][Kralisch & Berendt, New Review of Hypermedia and Multimedia 2005]

27

Zu 3. Wissensgesellschaft / Open Access

28Wissensbeiträge in einer Dig. Bibliothek: Daten & Metadaten

<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>

<HEAD>Literaturverzeichnis</HEAD>

...

<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">

<CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; G&ouml;bel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>,

</CITATION> ...

(http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd)

<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>

<HEAD>Literaturverzeichnis</HEAD>

...

<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">

<CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; G&ouml;bel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>,

</CITATION> ...

(http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd)

29

EDOC non-/not-yet-authors

Don’t publish online because they don’t wish to? do not feel capable / perceive barriers? are unaware of the possibility?

EDOC authors(contributors)

Publication on EDOC is a fast & easy way to satisfy the German university publication requirements. I have learned about EDOC (too) late. The formatting requirements are difficult.

Motivation: Knowns and unknowns

30

Methode

Date: Tue, 11 Mar 2003 From: Yunfan LiTo: the edoc survey mailing listSubject: Digital Dissertation Questionnaire for HU Doctoral Students and Doctors

Dear doctoral student, dear doctor,

Would you please take about 5 minutes tocomplete the HU Digital Dissertation Questionnaire.The goal of this investigation is to find out how theDigital publishing opportunity is known and used by HUdoctoral students and doctors. With your help, we aimto continue to improve the service of the Document andPublication Server (http://edoc.hu-berlin.de). ...

31

Problem 1: Es ist nicht einfach (und es macht keinen Spaß)

Befragung aller DoktorandInnen und HabilitandInnen (knapp 2500 Personen, 12-14% antworteten)

Hauptergebnisse bzgl. Bekanntheit und Nutzung von EDOC-Diensten:

Probleme im Informationsfluss Marketing und Service

Die Erstellung der Metadaten wird als mühselig und schwierig empfunden – insbesondere die I.d.R. nachträglich vorgenommene Literatur-Formatierung

[Berendt, Brenstein, Li, & Wendland, Proc. ETD 2003; Berendt, Proc. AAAI Spring Symposium KCVC, 2005]

32

… und das hat Folgen

<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>

<HEAD>Literaturverzeichnis</HEAD>

<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">

<CUT ID="bib-15-">[1] </CUT><WORKAUTHOR>Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R.</WORKAUTHOR>U<ARTICLETITLE>ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements</ARTICLETITLE>, <WORKTITLE>J. Phys. Chem. B</WORKTITLE>, <PUBDATE>2000</PUBDATE>, <NUMBER>104</NUMBER>, <PAGES>2908</PAGES>,

</CITATION>

...

33Warum ist das ein Problem?

Cardona, M., & Marx, W. (2004).Verwechselt,vergessen,wiedergefunden.

Referenzen–das fehlerhafte Gedächtnis[...] Physik Journal, 3 (11), 27-29.

34

Leser und Autoren sind unterschiedliche Gruppen; Leser werden nicht zu Autoren (jedenfalls nicht in einer Session)

Nur wenige Besucher nutzen die interne Suchmaschine, und sie erfahren die strukturierte Suche nicht als effektive oder effiziente Suchoption.

Strukturiertes Schreiben ist weitgehend unbekannt.

Eine separate Fragebogenstudie unterstützt diesen Befund.

Die Nutzung externer Suchmaschinen macht den Zugang zu Dissertations-Volltexten wahrscheinlicher.

Problem 2: Wissensbereitstellung ergibt sich nicht als Nebeneffekt

anderer Aktivitäten (hier: Websuche)

35

... viele Fehler auch beim autonomen Zitations-Indexing

36

Ansatz:Autoren- und Leserwerkzeuge

37

Web servicesWeb services

IR-THESIS – Systemarchitektur

Web servicesWeb services

Text mining /Information Extraction tools

Text mining /Information Extraction tools

Databases(local a/omirrored)

Databases(local a/omirrored)

other WS and info. sources

VBA macroVBA macro

Berendt, Dingel, & Hanser (Proc. ECDL 2006) / www.wiwi.hu-berlin.de/~berendt/DL

38

Komponenten wissenschaftlicher Arbeit

Informationssuche und –retrieval

Schreiben

Veröffentlichen

Wissen teilen

Diskussion

39

Co-citationBibliographic coupling

Citation analysis – linkage patterns

Direct citation

A B

C

A B C

A B

Direct citation Bibliographic coupling

Co-citation

“composite judgement of hundreds of citers”

dynamically changing

40

Literature search and bibliography construction

41

Publishing and sharing the results

42

Schreiben: Nutzungsschnittstelle

corrected, XML annotated, and formatted

43

Informationsextraktion: Referenz-Parsing in 3 Tools

44

Mining (Bsp.): Zitations-Parsing in den Paratoolshttp://paracite.eprints.org

Eine Datenbank von Templates der Form

'_AUTHORS_ (_YEAR_). _TITLE_.

_PUBLICATION_,_VOLUME_(_ISSUE_):_PAGES_'

jedes _XXX_ ist assoziiert mit einem regulären Ausdruck Bsp.: _YEAR_ ([[:digit:]]{4})

2 Gewichtungsfaktoren reliability: „syntaktische Festgelegtheit“ eines regulären Ausdrucks

Ex.: _URL_ > _TITLE_

concreteness = Anzahl fixierter Symbole Ex.: '_AUTHORS_,_PUBLICATION_, in press' > '_AUTHORS_,

_PUBLICATION_'

Templates werden gegen die Referenz gematcht.

Wähle das Template mit der höchsten reliability, oder (wenn diese gleich sind) mit der höchsten concreteness.

45

Ausblick: Was Data Mining noch kann ... und wofür es sensibilisiert

46

Data Mining wider Vorurteile

Problembereiche des Open Acces:

Mangelnde Qualitätskontrolle

Überschussangebot

Geringere Reputation

Neues unsicheres Verfahren

Marketing

Urheberrecht

Lösungsansatz aus dem Elektronischen Publizieren: neue detaillierte Lizenzmodelle, z.B. Creative Commons

Aber:

Lösungsansatz aus dem Data Mining: Plagiats-Suchdienste

47

48

Open Access – quo vadis?

Nach der Bibliothekskrise ...

Reiche lesenFähige schreibenReiche zahlen (fürs Lesen)

Reiche lesen allesArme lesen vielesFähige schreibenReiche zahlen (fürs Lesen)

Durch green road self-archiving ...

Mit lückenlosen golden road OA und IPR ...

Alle lesen allesReiche zahlen (fürs Schreiben: pay-per-publication)Reiche schreiben

Alle lesen allesReiche zahlen („Steuer“)Fähige schreiben

?

49

Zusammenfassung und Ausblick

Data Mining / Web Mining kann helfen,

die Benutzung digitaler Bibliotheken zu verstehen und zu unterstützen

Eine digitale Bibliothek „ubiquitär“ nutzbar zu machen

Menschen zu aktiven Mitgestaltern der in digitalen Bibliotheken manifestierten Wissensgesellschaft zu machen

Viele offene Fragen, z.B.

Was wollen Autoren und Leser?

Welche Maße sind (besser) geeignet, um Aktivität, Qualität etc. zu messen?

Was bedeutet Access?

50

… für Ihre Aufmerksamkeit!

Danke …

51

Bildnachweis... mit herzlichem Dank an die Internet-Gemeinde!

S. 1: http://www.iath.virginia.edu/~jmu2m/SDL_files/image023.gif

S. 3: http://www.britishcouncil.org/arts-literature-330x220library.jpg

S. 4: http://www.mitretek.org/gbc/images/pic_doctor.jpg und http://thecia.com.au/reviews/b/images/brokeback-mountain-3.jpg

S. 5: http://www.bl.uk/services/learning/curriculum/medrealms/images/t2imagesource3depisan.jpg

Weitere Abbildungen wurden den zitierten Quellen entnommen bzw. sind Screenshots der untersuchten Websites.

Recommended