1
Data Mining und Digitale Bibliotheken
Bettina Berendt
Institut für Wirtschaftsinformatik,
HU Berlin
www.berendt.de
2
Fragen
3
1. Was tun die Leute da?
4
2. Was muss ein Informationssystem anbieten, um wirklich weltweit nutzbar zu sein?
5
3. Stell dir vor, es ist Wissensgesellschaft, und keiner geht hin.
6
Begriffe
7
Digitale Bibliotheken
A digital library
comprises digital collections, services and infrastructure to support lifelong learning, research, scholarly communication and preservation.
en.wikipedia.org/wiki/Digital_library
is ... available on the Internet or on CD-ROM
www.cesa8.k12.wi.us/media/digital_dictionary.htm
is an integrated set of services for capturing, cataloging, storing, searching, protecting, and retrieving information
www.wtec.org/loyola/digilibs/d_01.htm
8
Web Mining
Knowledge discovery (aka Data mining):
“the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1
Web Mining: the application of data mining techniques on the content, (hyperlink) structure, and usage of Web resources. Web mining areas:
Web content mining
Web structure mining
Web usage mining
1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press
9
Wohlbekannt ... Web Structure Mining
Ranking
aufgrund von Zahl + Bedeutung der eingehenden
Hyperlinks
10
Wohlbekannt ... Web Content Mining
Treffer
aufgrund von Text, Metadaten oder Ankertexten
in verweisenden Seiten
11
Wohlbekannt ... Web Usage Mining
12
... und noch ein Beispiel (Google goes Pinski/Narin ...)
13
Zu 1. Was tun die Leute da?
14
Rohdaten: Webserver-Logs
<ip_addr> - - <date><method><file><protocol><code><bytes><referrer><user_agent> <ip_addr> - - <date><method><file><protocol><code><bytes><referrer><user_agent>
203.30.5.145 - - [01/Jun/1999:03:09:21 -0600] "GET /Calls/OWOM.html HTTP/1.0" 200 3942 "http://www.lycos.com/cgi-bin/pursuit?query=advertising+psychology-&maxhits=20&cat=dir" "Mozilla/4.5 [en] (Win98; I)"
203.30.5.145 - - [01/Jun/1999:03:09:23 -0600] "GET /Calls/Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)"
203.30.5.145 - - [01/Jun/1999:03:09:24 -0600] "GET /Calls/Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)"
203.252.234.33 - - [01/Jun/1999:03:12:31 -0600] "GET / HTTP/1.0" 200 4980 "" "Mozilla/4.06 [en] (Win95; I)"
203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)"
203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/red.gif HTTP/1.0" 200 104 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)"
203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)"
203.252.234.33 - - [01/Jun/1999:03:13:11 -0600] "GET /CP.html HTTP/1.0" 200 3218 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)“
203.30.5.145 - - [01/Jun/1999:03:13:25 -0600] "GET /Calls/AWAC.html HTTP/1.0" 200 104 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)"
15
Navigationsspuren einzelner Benutzer: „Individualisierte Sitemaps“
Berendt & Brenstein (BRMIC 2001), Berendt & Kralisch
(Proc. GOR 2005), Berendt (Neues Handbuch
Hochschullehre, in press)
1. Aprilwoche 2003:239370 Anfragen16777 Visits
16Datenvorbereitung: Semantische Anreicherung
TOP
AUTHOR SEARCH DOC OTHER
OAI OTHERDISSFULLTEXT
LIST
DNB
AUTHOR
KEYWORD
META PROJECTOTHER DOC
MASTER
ABSTRACT
ADVICE
TEMPLATE
FAQ
LATEX
HINWEISE
DIML
README
…
…
…
…
…
…
ACCESS
CONFERENCE
PUBLIC READ
STUDY
CMS
ABSTRACT
ACCESS
RESULT
…
…
…
…
…
…
regexpr.txt: mapping from URLs to concepts
HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*...
regexpr.txt: mapping from URLs to concepts
HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*...
HOME
17
Die von diesem Besucher betrachteten Konzepte
18Verhaltensmuster (1): Metadatensuche Dissertation in max. 5 Schritten
select tfrom node as a b, template a [0;4] b as twhere a.url = “SEARCH-METADATA"and b.url = "DISS-ACCESS"and a.occurrence = 1 and b.occurrence = 1
19Verhaltensmuster (2): Google Dissertation in max. 5 Schritten
20
Die häufigsten ersten 3 Schritte bei Besuchen von Google aus
21
Google Abstract Volltext (jeweils in max. 3 Schritten)
22
Zu 2. Weltweite Informationssysteme
23
Anwendung: Suche in Informationsportalen; e-Health
Fragen:
• Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen?
• Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration?
• Zusammenhänge zwischen Verhalten u. Sprache, Kultur, Domänenwissen?
Fragen:
• Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen?
• Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration?
• Zusammenhänge zwischen Verhalten u. Sprache, Kultur, Domänenwissen?
24
Semantik: Dienst-Ontologie
Alphabetical
search
Diagnosis 21002
Diagnosis info
TOP
Search
25
[Berendt, Proc. WebKDD 2005]
Mining:Häufige Subgraphen, Visualisierung mit Detail & Kontext
26
Suchverhalten: häufige abstrakte Muster
Diagnosen sind “Hubs" fürdie Navigation (5.3%, 4%)
Alphabetische Suche: hub-and-spoke → nur linguistische Relationen (6.4%)
Lokalisationssuche: linear / Tiefensuche → Suchverfeinerung
& medizinisches Wissen (5%)2 Studien (Webserverlog: 277K Sessions aus 188 Ländern; Webserverlog + Fragebogen: 165 Personen aus 34 Ländern): Suchmaschine, alphabetische Suche: v.a. Muttersprachler, Ärzte
Lokalisationssuche: nicht-muttersprachliche Patienten
Domänenwissen kompensiert geringe Sprachkenntnisse.
[Berendt, Proc. WebKDD 2005][Kralisch & Berendt, New Review of Hypermedia and Multimedia 2005]
27
Zu 3. Wissensgesellschaft / Open Access
28Wissensbeiträge in einer Dig. Bibliothek: Daten & Metadaten
<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>
<HEAD>Literaturverzeichnis</HEAD>
...
<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">
<CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>,
</CITATION> ...
(http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd)
<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>
<HEAD>Literaturverzeichnis</HEAD>
...
<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">
<CUT ID="bib-45-">[2] </CUT><WORKAUTHOR>Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O.</WORKAUTHOR> <ARTICLETITLE>Disorder mediated biexcitonic beats in semiconductor quantum wells</ARTICLETITLE>, <WORKTITLE>Phys. Rev. B</WORKTITLE>, <PUBDATE>1996</PUBDATE>, <NUMBER>54</NUMBER>, <PAGES>4436</PAGES>,
</CITATION> ...
(http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd)
29
EDOC non-/not-yet-authors
Don’t publish online because they don’t wish to? do not feel capable / perceive barriers? are unaware of the possibility?
EDOC authors(contributors)
Publication on EDOC is a fast & easy way to satisfy the German university publication requirements. I have learned about EDOC (too) late. The formatting requirements are difficult.
Motivation: Knowns and unknowns
30
Methode
Date: Tue, 11 Mar 2003 From: Yunfan LiTo: the edoc survey mailing listSubject: Digital Dissertation Questionnaire for HU Doctoral Students and Doctors
Dear doctoral student, dear doctor,
Would you please take about 5 minutes tocomplete the HU Digital Dissertation Questionnaire.The goal of this investigation is to find out how theDigital publishing opportunity is known and used by HUdoctoral students and doctors. With your help, we aimto continue to improve the service of the Document andPublication Server (http://edoc.hu-berlin.de). ...
31
Problem 1: Es ist nicht einfach (und es macht keinen Spaß)
Befragung aller DoktorandInnen und HabilitandInnen (knapp 2500 Personen, 12-14% antworteten)
Hauptergebnisse bzgl. Bekanntheit und Nutzung von EDOC-Diensten:
Probleme im Informationsfluss Marketing und Service
Die Erstellung der Metadaten wird als mühselig und schwierig empfunden – insbesondere die I.d.R. nachträglich vorgenommene Literatur-Formatierung
[Berendt, Brenstein, Li, & Wendland, Proc. ETD 2003; Berendt, Proc. AAAI Spring Symposium KCVC, 2005]
32
… und das hat Folgen
<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT>
<HEAD>Literaturverzeichnis</HEAD>
<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED">
<CUT ID="bib-15-">[1] </CUT><WORKAUTHOR>Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R.</WORKAUTHOR>U<ARTICLETITLE>ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements</ARTICLETITLE>, <WORKTITLE>J. Phys. Chem. B</WORKTITLE>, <PUBDATE>2000</PUBDATE>, <NUMBER>104</NUMBER>, <PAGES>2908</PAGES>,
</CITATION>
...
33Warum ist das ein Problem?
Cardona, M., & Marx, W. (2004).Verwechselt,vergessen,wiedergefunden.
Referenzen–das fehlerhafte Gedächtnis[...] Physik Journal, 3 (11), 27-29.
34
Leser und Autoren sind unterschiedliche Gruppen; Leser werden nicht zu Autoren (jedenfalls nicht in einer Session)
Nur wenige Besucher nutzen die interne Suchmaschine, und sie erfahren die strukturierte Suche nicht als effektive oder effiziente Suchoption.
Strukturiertes Schreiben ist weitgehend unbekannt.
Eine separate Fragebogenstudie unterstützt diesen Befund.
Die Nutzung externer Suchmaschinen macht den Zugang zu Dissertations-Volltexten wahrscheinlicher.
Problem 2: Wissensbereitstellung ergibt sich nicht als Nebeneffekt
anderer Aktivitäten (hier: Websuche)
35
... viele Fehler auch beim autonomen Zitations-Indexing
36
Ansatz:Autoren- und Leserwerkzeuge
37
Web servicesWeb services
IR-THESIS – Systemarchitektur
Web servicesWeb services
Text mining /Information Extraction tools
Text mining /Information Extraction tools
Databases(local a/omirrored)
Databases(local a/omirrored)
other WS and info. sources
VBA macroVBA macro
Berendt, Dingel, & Hanser (Proc. ECDL 2006) / www.wiwi.hu-berlin.de/~berendt/DL
38
Komponenten wissenschaftlicher Arbeit
Informationssuche und –retrieval
Schreiben
Veröffentlichen
Wissen teilen
Diskussion
39
Co-citationBibliographic coupling
Citation analysis – linkage patterns
Direct citation
A B
C
A B C
A B
Direct citation Bibliographic coupling
Co-citation
“composite judgement of hundreds of citers”
dynamically changing
40
Literature search and bibliography construction
41
Publishing and sharing the results
42
Schreiben: Nutzungsschnittstelle
corrected, XML annotated, and formatted
43
Informationsextraktion: Referenz-Parsing in 3 Tools
44
Mining (Bsp.): Zitations-Parsing in den Paratoolshttp://paracite.eprints.org
Eine Datenbank von Templates der Form
'_AUTHORS_ (_YEAR_). _TITLE_.
_PUBLICATION_,_VOLUME_(_ISSUE_):_PAGES_'
jedes _XXX_ ist assoziiert mit einem regulären Ausdruck Bsp.: _YEAR_ ([[:digit:]]{4})
2 Gewichtungsfaktoren reliability: „syntaktische Festgelegtheit“ eines regulären Ausdrucks
Ex.: _URL_ > _TITLE_
concreteness = Anzahl fixierter Symbole Ex.: '_AUTHORS_,_PUBLICATION_, in press' > '_AUTHORS_,
_PUBLICATION_'
Templates werden gegen die Referenz gematcht.
Wähle das Template mit der höchsten reliability, oder (wenn diese gleich sind) mit der höchsten concreteness.
45
Ausblick: Was Data Mining noch kann ... und wofür es sensibilisiert
46
Data Mining wider Vorurteile
Problembereiche des Open Acces:
Mangelnde Qualitätskontrolle
Überschussangebot
Geringere Reputation
Neues unsicheres Verfahren
Marketing
Urheberrecht
Lösungsansatz aus dem Elektronischen Publizieren: neue detaillierte Lizenzmodelle, z.B. Creative Commons
Aber:
Lösungsansatz aus dem Data Mining: Plagiats-Suchdienste
47
48
Open Access – quo vadis?
Nach der Bibliothekskrise ...
Reiche lesenFähige schreibenReiche zahlen (fürs Lesen)
Reiche lesen allesArme lesen vielesFähige schreibenReiche zahlen (fürs Lesen)
Durch green road self-archiving ...
Mit lückenlosen golden road OA und IPR ...
Alle lesen allesReiche zahlen (fürs Schreiben: pay-per-publication)Reiche schreiben
Alle lesen allesReiche zahlen („Steuer“)Fähige schreiben
?
49
Zusammenfassung und Ausblick
Data Mining / Web Mining kann helfen,
die Benutzung digitaler Bibliotheken zu verstehen und zu unterstützen
Eine digitale Bibliothek „ubiquitär“ nutzbar zu machen
Menschen zu aktiven Mitgestaltern der in digitalen Bibliotheken manifestierten Wissensgesellschaft zu machen
Viele offene Fragen, z.B.
Was wollen Autoren und Leser?
Welche Maße sind (besser) geeignet, um Aktivität, Qualität etc. zu messen?
Was bedeutet Access?
50
… für Ihre Aufmerksamkeit!
Danke …
51
Bildnachweis... mit herzlichem Dank an die Internet-Gemeinde!
S. 1: http://www.iath.virginia.edu/~jmu2m/SDL_files/image023.gif
S. 3: http://www.britishcouncil.org/arts-literature-330x220library.jpg
S. 4: http://www.mitretek.org/gbc/images/pic_doctor.jpg und http://thecia.com.au/reviews/b/images/brokeback-mountain-3.jpg
S. 5: http://www.bl.uk/services/learning/curriculum/medrealms/images/t2imagesource3depisan.jpg
Weitere Abbildungen wurden den zitierten Quellen entnommen bzw. sind Screenshots der untersuchten Websites.