Bakkalaureatsarbeit - michael.hahsler.net · based on similarities between users or content similarities between documents or they can try to consider what the real individual information

- 1 -

Empfehlungssysteme in digitalen Bibliotheken Ein Vergleich unterschiedlicher Zugänge zur Empfehlungsgenerierung

Recommender systems in digital libraries A comparison of different approaches of generating recommendations

Bakkalaureatsarbeit von

Stefan Millonig, 0052480 [email protected]

betreut und beurteilt von:

Dr. Michael Hahsler Abteilung für Informationswirtschaft

Institut für Informationsverarbeitung und Informationswirtschaft Wirtschaftsuniversität Wien

Augasse 2-6 A-1090 Wien, AUSTRIA

- 2 -

Inhaltsverzeichnis 1 EINLEITUNG ............................................................................................................................................. 6

2 DIGITALE BIBLIOTHEKEN.............................. ..................................................................................... 7

3 RECOMMENDER SYSTEME................................................................................................................ 10

4 RECOMMENDER SYSTEME IN DIGITALEN BIBLIOTHEKEN...... ............................................. 12

4.1 GRUNDLAGEN 12

4.2 TECHNIKEN DER EMPFEHLUNGSGENERIERUNG 13 4.2.1 Ähnlichkeit 14

4.2.1.1 Collaborative Filtering......................................................................................................................... 14 4.2.1.2 Content-Based Filtering....................................................................................................................... 15 4.2.1.3 Hybride Techniken .............................................................................................................................. 16

4.2.1.3.1 Fab ................................................................................................................................................. 17 4.2.1.3.2 Graph-Based Approach.................................................................................................................. 17

4.2.2 Interesse 19 4.2.2.1 Degree of Interest ................................................................................................................................ 19 4.2.2.2 Latent Interest Analysis....................................................................................................................... 21

4.2.3 Vergleich der Techniken 23

4.3 NUTZEN VON RECOMMENDER SYSTEMEN IN DIGITALEN BIBLIOTHEKEN 24

4.4 PROBLEME 24

4.5 ZUSÄTZLICHE VALUE ADDED SERVICES FÜR DIGITALE BIBLIOTHEKEN 25 4.5.1 AVANTI Browser 25 4.5.2 MyLibrary 26

5 UMSETZUNGSBEISPIEL AUS DER PRAXIS..................................................................................... 27

6 KONKLUSIO ............................................................................................................................................ 29

7 LITERATURVERZEICHNIS ................................................................................................................. 30

- 3 -

Bildverzeichnis Bild 1 Prinzip des Co-Usage .................................................................................................... 16 Bild 2 Modell des Graph-Based Approach .............................................................................. 18 Bild 3 User Information Needs Model ..................................................................................... 21 Bild 4 LIA Architektur............................................................................................................. 23 Bild 5 Architektur des Recommender Systems des Bibliotheksportals Karlsruhe .................. 27

- 4 -

Empfehlungssysteme in digitalen Bibliotheken

Ein Vergleich unterschiedlicher Zugänge zur Empfehlungsgenerierung

Recommender systems in digital libraries A comparison of different approaches of generating recommendations

Stichworte: digitale Bibliothek, Recommender System, Empfehlungsgenerierung, Collaborative Filtering, Content-Based Filtering, Hybride Techniken, Nutzen, Value Added Services Keywords: digital library, recommender system, recommendation generation, collaborative filtering, content-based filtering, hybrid approaches, benefit, value added services

Zusammenfassung Der Überfluss an Informationsträgern in Beständen von digitalen Bibliotheken bringt, neben dem Vorteil der großen Menge an Information, die Unannehmlichkeit einer komplexeren Suche für Benutzer mit sich. Traditionelle elektronische Kataloge stellen zwar ein brauchbares Hilfsmittel beim Suchvorgang dar, sind aber nicht frei von Problemfeldern. Unterschiedliche Interessensgebiete oder individuelle Suchhistorien im Dokumentenbestand finden dabei nämlich keinerlei Berücksichtigung. Unterschiedliche Benutzer werden ohne Rücksicht auf ihre persönlichen Gegebenheiten, lediglich aufgrund von gleichen Abfragetermen, mit gleichem Informationsmaterial versorgt. In den Datenbeständen von digitalen Bibliotheken finden sich zahlreiche Informationen über Benutzer, deren Suchhistorien, Inhalte von digitalen Dokumenten, etc., um so genannte „Value Added Services“ anzubieten, die den Benutzern zusätzlichen Nutzen stiften. Ein wichtiges Service dieser Art in digitalen Bibliotheken sind Recommender Systeme. Die Techniken der Generierung von Empfehlungen für Benutzer sind vielfältig. Sie reichen von Techniken, die auf Ähnlichkeiten zwischen Benutzern oder digitalen Dokumenten basieren, bis hin zu Techniken, die versuchen, das tatsächliche Interesse der einzelnen Benutzer individuell zu berücksichtigen.

Abstract Though the over abundance of informative material in digital libraries seems to be a great advantage, it has to be considered that searching for appropriate information objects becomes more complex. Electronic catalogues can be a suitable aid for users but there are still many unsolved problems. Users’ different areas of interests or different search histories are not taken into consideration. Different users might get the same information objects corresponding to their query terms without respect of their individual characteristics. In digital libraries there is enough information about users’ demographic data, their search histories, document content information etc. to provide value added services to the users to improve users’ benefits. An important value added service is a recommender system. Recommendations can be generated in various ways. Recommendations techniques can be

- 5 -

based on similarities between users or content similarities between documents or they can try to consider what the real individual information needs of the different users might be.

Kernpunkte für das Management

Um den Benutzer einer digitalen Bibliothek zufrieden stellende Suchergebnisse zu ermöglichen, und ihn somit langfristig als „Kunden“ zu gewinnen können, sind Recommender Systeme in digitalen Bibliotheken von essentieller Bedeutung. Diese Arbeit stellt einen Vergleich unterschiedlicher Möglichkeiten der Generierung von Empfehlungen in Recommender Systemen in digitalen Bibliotheken dar. Bei der Implementierung von Recommender Systemen in digitalen Bibliotheken muss beachtet werden, dass zwischen den einzelnen Techniken große Qualitätsunterschiede in Bezug auf Precision und Recall feststellbar sind. Precision und Recall beeinflussen den Nutzen für Benutzer digitaler Bibliotheken und somit deren Zufriedenheit und „Markentreue“. Um den Nutzen der Benutzer weiter zu steigern empfiehlt es sich für Betreiber digitaler Bibliotheken sich auch mit den Thema MyLibrary oder mit dem AVANTI Browser auseinanderzusetzen. Bei der Entscheidung Recommender Systeme in digitalen Bibliotheken einzusetzen, muss auf hohe Qualität geachtet werden, denn noch schlechter als der Verzicht auf dieses Service ist eine Entwicklung, die unpassende Empfehlungen generiert.

- 6 -

1 Einleitung

Recommender Systeme sind einer breiten Masse der Internetbenutzer (bewusst oder auch unbewusst) vor allem aufgrund der Verwendung bei Amazon.com bekannt. Ein sinnvoller Einsatz von Recommender Systemen zu Gunsten des Anwenders ist aber keinesfalls bloß auf den E-Commerce beschränkt. Aufgrund der großen Menge an Informationsobjekten in digitalen Bibliotheken und den damit verbundenen Unannehmlichkeiten beim Suchen von geeigneten Informationen, finden Recommender Systeme vor allem auch in digitalen Bibliotheken weite Verbreitung. Welche Techniken bei der Generierung der Empfehlungen zum Einsatz kommen, und welchen Nutzen Benutzer digitaler Bibliotheken aus diesem Service ziehen, soll in der vorliegenden Arbeit ausgearbeitet werden.

Die Arbeit ist folgender Maßen gegliedert: Zunächst werden die Grundlagen von digitalen Bibliotheken und mögliche Probleme

erläutert. Wie viele dieser Probleme durch den Einsatz von Recommender Systemen gelöst werden können, soll in weiterer Folge der Arbeit deutlich werden. Dazu werden zunächst Recommender Systeme losgelöst von digitalen Bibliotheken beschrieben, um in weiter Folge genauer auf Techniken der Empfehlungsgenerierung aufgrund von Informationen, welche in digitalen Bibliotheken vorhanden sind, einzugehen. Schließlich wird der Nutzen, der für Benutzer digitaler Bibliotheken durch Recommender Systeme entstehen kann, analysiert und weitere mögliche Value Added Services in digitalen Bibliotheken erwähnt. Zum Abschluss wird eine Implementierungsvariante anhand des Beispiels des Recommender Systems des Bibliotheksportals Karlsruhe beschrieben.

- 7 -

2 Digitale Bibliotheken “A digital library is an organized and focused collection of digital objects, including text, images, video and audio, along with methods for access and retrieval, and for selection, creation, organization, maintenance and sharing of the collection.” [Raja04]

Ian Witten, David Bainbridge „Digital libraries are organisations that provide the resources, including the specialized staff, to select, structure, offer intellectual access to, interpret, distribute, preserve the integrity of, and insure the persistence over time of collections of digital works so that they are readily and economically available for use by a defined community or set of communities.” [Raja04]

Digital Library Federation

Diese beiden Definitionen von digitalen Bibliotheken stehen stellvertretend für viele, die digitale Bibliotheken ähnlich definieren.

Dass digitale Bibliotheken als eine Sammlung digitaler Dokumente bzw. Objekte

verschiedenster Art bezeichnet werden, kommt in der Definition von Witten und Bainbridge gut zum Ausdruck. Digitale Bibliotheken sind jedoch mehr als eine bloße Aggregation digitaler Daten. Digitale Informationsobjekte bilden lediglich den „Content“, der die Basis einer digitalen Bibliothek darstellt. [Lein98] Hinzu kommen zahlreiche Eigenschaften und Services, die teilweise auch in physischen Bibliotheken vorkommen, teilweise aber auch aufgrund des weiten Fortschritts und des großen Potentials der Informationstechnologie darüber hinausgehen können. Beispielhaft seien hier eine Strukturierung der Daten, Suchmöglichkeiten mit Hilfe von Katalogen, Individualisierungsmöglichkeiten, eine Benutzer-Community, die Wartung der Datenbestände, oder Services wie Empfehlungssysteme zu nennen. Auf die eben genannten Empfehlungssysteme wird im weiteren Verlauf der Arbeit noch genauer eingegangen. Um diese Eigenschaften zu unterstreichen, soll an dieser Stelle William Arms kurz zitiert werden: „A stream of data sent to earth from a satellite is not a digital library. The same data, when organized systematically, becomes a digital library”. [Raja04]

Die hiervon alternative Auffassung der Digital Library Federation unterstreicht den

institutionellen Charakter digitaler Bibliotheken als eine dynamische Organisation. [Raja04]

Oftmals wird in Definitionen der Begriff „virtuelle Bibliothek“ als Synonym für „digitale Bibliothek“ verwendet (siehe [Wiki05b]). Dies ist aus Sicht des Autors der vorliegenden Arbeit allerdings etwas kritisch. Während die digitalen Objekte einer digitalen Bibliothek nicht notwendigerweise über das Internet abrufbar sein müssen, sondern beispielsweise auch auf Datenträgen gespeichert werden könnten, wird mit dem Begriff der virtuellen Bibliothek eher eine reine Abrufbarkeit der Daten über das Internet assoziiert. Somit könnte eine virtuelle Bibliothek, zur deutlicheren Abgrenzung zur digitalen Bibliothek, als eine digitale Bibliothek im Internet definiert werden.

Das Entstehen sowie die Weiterentwicklung von digitalen Bibliotheken sind untrennbar mit der zunehmenden Popularität des Internets in den 90er Jahren verbunden. Die ersten großen Projekte wurden in den USA initiiert. 1994 wurde das erste Großprojekt, in dem sechs digitale Bibliotheken aufgebaut wurden, von der National Science Foundation (NSF),

- 8 -

Department of Defense Advanced Research Projects Agency (ARPA), sowie der National Aeronautics and Space Administation (NASA) durchgeführt. Ein zweiter Meilenstein in der Entwicklung von digitalen Bibliotheken war das National Digital Library Federation Agreement im Jahr 1995, mit dem Ziel möglichst viele digitale Dokumente bzw. andere digitale Objekte zusammenzufassen, und diese möglichst jedem, vor allem aber Personen im universitären Bereich, zugänglich zu machen. [Raja04]

Wie zuvor bereits kurz erwähnt, besitzen digitale Bibliotheken eine Vielzahl der Merkmale, die auch physische Bibliotheken besitzen: [SAPN99]

Auch wenn die Mitarbeiter einer digitalen Bibliothek für den Benutzer nicht offensichtlich sichtbar sind, kommen ihnen doch die gleichen, oder zumindest ähnlichen Aufgaben zu, die auch Mitarbeiter von klassischen Büchereien erfüllen müssen. Dazu gehört das Aggregieren, sowie das Klassifizieren, Indexieren, die Aufbewahrung, etc. von Informationsträgern unterschiedlichster Art (Bücher, Zeitschriften, Tonträger, Filme, …).

Eine der Kernanforderungen sowohl in physischen als auch in digitalen Bibliotheken ist natürlich die Gewährleistung von zufrieden stellenden Suchergebnissen. Ab einem gewissen Umfang an Informationsträgern entsteht in beiden Bibliothekstypen die Notwendigkeit von Maßnahmen, die das Finden von geeigneten Informationen ermöglicht. Hier haben digitale Bibliotheken aufgrund der existierenden technischen Möglichkeiten mit Sicherheit große Vorteile gegenüber physischen Bibliotheken. Um diese Anforderung erfüllen zu können sind Maßnahmen und Tools erforderlich, die das Indexieren, Speichern, Suchen, Präsentieren etc. optimieren können. Hierzu zählen unter anderem Metadaten, Content Repositories, elektronische Kataloge, sowie effiziente Suchalgorithmen, um einen schnellen und befriedigenden Zugriff auf die Daten zu gewährleisten. Zur Gewährleistung zufrieden stellender Suchergebnisse sind Recommender Systeme ebenfalls von großer Bedeutung. In den weiteren Abschnitten der Arbeit wird darauf noch ausführlich eingegangen.

Alle bisher beschriebenen Anforderungen beziehen sich auf die Informationsobjekte an sich. Es gibt allerdings auch zahlreiche essentielle Anforderungen, die an digitale Bibliotheken gestellt werden, die mit den eigentlichen Trägern der Information nichts zu tun haben.

Digitale Bibliotheken sind kein statisches Gebilde, sondern wachsen stetig. Vergleicht man digitale Bibliotheken mit konventionellen Bibliotheken, so haben Erstere ein viel größeres Potential an Besuchern bzw. Zugriffen. Auch die Anzahl an Dokumenten, welche dem Benutzer verfügbar gemacht werden könnten ist in digitalen Bibliotheken ungleich größer als in traditionellen Bibliotheken. Die Modifizierbarkeit ist daher eine wichtige Voraussetzung. Darunter fällt die Fähigkeit, die Funktionalität, den Content oder das User-Interface falls notwendig jederzeit an geänderte Rahmenbedingungen oder Anforderungen unterschiedlicher Benutzergruppen anpassen zu können.

Versteht man digitale Bibliotheken als elektronisches Pendant zu physischen Bibliotheken, darf man daher einen Punkt sicher nicht außer Acht lassen. Digitale Bibliotheken müssen nämlich mehr als bloße Information bieten. [SAPN99] An dieser Stelle lässt sich eine Parallele zu einem Problem des E-Commerce ziehen. Für eine Vielzahl der Konsumenten geht durch das Kaufen von Waren im Internet ein gewisses Einkaufserlebnis verloren, auf das sie oftmals nicht verzichten wollen. Auch das Aufsuchen von physischen Bibliotheken ist oftmals mit einem sozialen Erlebnis verbunden. Diese soziale Komponente muss in digitalen Bibliotheken versucht werden zu kompensieren. Dies kann durch den Aufbau einer Community, in der die Benutzer ihre Erfahrungen austauschen können oder durch Individualisierungsmaßnahmen, geschehen.

- 9 -

Digitale Bibliotheken können den Benutzern in vielerlei Hinsicht zusätzlichen Nutzen stiften. [Raja04] Der Zugriff auf die vorhandenen Ressourcen ist unabhängig von Ort und Zeit möglich. Der Aufwand, der mit dem „Besuch“ einer digitalen Bibliothek verbunden ist, ist im Vergleich zu physischen Bibliotheken weitaus geringer, denn eine „DL brings the library to the user“. [Raja04] Außerdem kann es nie zu einer Situation kommen, dass die Nutzung einer digitalen Ressource durch eine Person, die Nutzung derselben Ressource durch eine andere Person einschränkt. Es können sich theoretisch unzählige Benutzer das gleiche digitale Dokument gleichzeitig ausborgen, ohne dass dieses jemals vergriffen ist. Die Menge an Information, die zur Verfügung gestellt werden kann ist zum einen ungleich größer, und zum anderen in unterschiedlichsten multimedialen Formaten möglich.

Es soll aber nicht unerwähnt bleiben, dass sich Betreiber von digitalen Bibliotheken auch mit durchaus ernsten Problemen auseinandersetzen müssen. [Raja04] Mit der zuvor erwähnten Möglichkeit der Multimedialität der Inhalte geht das Problem einer notwendigen Mindestbandbreite, um auf diese Inhalte zugreifen zu können, einher.

Aufgrund der digitalen Form der vorhandenen Ressourcen und der damit einfachen Möglichkeit des illegalen Vervielfältigens, ist das Thema Copyright ein sehr ernstes. In diesem Zusammenhang sei auf die freie digitale Bibliothek „DigBib.Org“ hingewiesen, die sich zum Ziel gesetzt hat „Werke, auf die es nach Erlöschen des Urheberrechts keine Copyrightansprüche mehr gibt, der Öffentlichkeit frei zugänglich zu machen, als HTML-Version internetgerecht aufzuarbeiten, zum Download im Ganzen bereitzustellen und die Inhalte verlinkbar zu machen, sodass von anderen Webseiten auf Werke, Kapitel oder Passagen verwiesen werden kann.“ [DigB05] Grundgedanke hierbei ist der des „Open Content“, bei dem die Weiterverbreitung von Schriftstücken, Bild- und Tonwerken ausdrücklich erwünscht ist. [Wiki05c] Auch die große Anzahl der zur Verfügung stehenden Ressourcen kann ein Problem darstellen. Mit der größeren Quantität an Ressourcen ist das Problem verbunden, dass Benutzer überfordert sind, in den vorhandenen Informationsmengen ihren Informationsbedürfnis entsprechende Ressourcen zu finden. [NiTP04]

- 10 -

3 Recommender Systeme Eine sehr viel versprechende Möglichkeit, die am Ende des vorigen Abschnitts beschriebene Informationsüberflutung für den Benutzer einzudämmen, und somit gezielteres Suchen in digitalen Bibliotheken zu ermöglichen, ist der Einsatz von Recommender Systemen.

Definiert man das Internet als Sonderfall einer großen digitalen Bibliothek, lässt sich dieses Problem der Informationsüberflutung auch in einem Zitat von Patrick Casey sehr schön verdeutlichen:

The internet is the world´s greatest library - with all the books on the floor." [o.A.a] Patrick Casey

Unter Recommender Systemen (Empfehlungssystemen) versteht man Programme, welche

einem Benutzer beim Suchen nach Information eine, seinen Bedürfnissen entsprechende, gezieltere Suche ermöglichen soll. Dabei wird allgemein formuliert versucht, Informationen, die über einen konkreten Benutzer vorhanden sind, mit Basisinformationen zu vergleichen und somit Gegenstände vorauszusagen, die für das Informationsbedürfnis des Benutzers relevant sein könnten. Diese vorhandenen Basisinformationen der Benutzer können explizit oder implizit gesammelt worden sein. Explizite Methoden der Informationssammlung sind davon abhängig, dass Benutzer das System mit Feedback (beispielsweise Beurteilung der Relevanz für ihr Informationsbedürfnis) über Gegenstände versorgen. Die Abgabe dieser Beurteilung ist für den Benutzer, der diese abgibt, mit einem Aufwand und damit mit Kosten verbunden. Die Qualität, der in Zukunft generierten Empfehlungen ist, wie man sich leicht vorstellen kann, von der Güte der Beurteilungen abhängig. Implizite Methoden haben den Vorteil, dass die relevanten Daten (beispielsweise wie lange und wie oft ein Benutzer z.B. ein digitales Dokument betrachtet, etc.) automatisch gesammelt werden, und somit nicht von den Beurteilungen der Benutzer abhängig sind. Auf die Ergebnisse der Analyse, wo Übereinstimmungen vorhanden sind, wird der Benutzer schließlich hingewiesen. [Wiki05a]

Es lassen sich zwei verschiedene Typen von Recommender Systemen unterscheiden: Während nicht-personalisierte Recommender Systeme unabhängig von einem Benutzer, der Empfehlungen benötigt, die gleichen Empfehlungen vorschlagen, generieren personalisierte Recommender Systeme dynamische Empfehlungen, abhängig vom konkreten Benutzer. [FabroJ]

Die den Recommender Systemen zugrunde liegenden Algorithmen können

unterschiedlichster Natur sein. Die zwei wohl bekanntesten Vorgehensweisen sind die des Collaborative Filtering sowie die des Content-Based Filtering. Deren Prinzip wird im Rahmen des Kapitels 4.2.1 näher erklärt.

Zum Abschluss dieses Kapitels soll noch kurz auf einige Probleme eingegangen werden, auf die beim Einsatz von Recommender Systemen Rücksicht genommen werden muss.

Es stellt sich bei expliziten Methoden der Sammlung von Empfehlungen die Frage, wie man die Benutzer dazu motivieren kann, qualitativ hochwertige Bewertungen abzugeben.

Außerdem muss man sich (wiederum speziell bei expliziten Methoden) mit der Frage beschäftigen, wie man das Vertrauen der Benutzer in die vom Recommender System generierten Empfehlungen gewinnt. Es könnte speziell im E-Commerce teilweise die Gefahr bestehen, dass Anbieter eigener Waren versuchen könnten, das Ergebnis der Empfehlungen

- 11 -

gezielt zugunsten ihrer eigenen Produkte zu beeinflussen. Es müssen hierfür Maßnahmen getroffen werden, um solche gezielten Manipulationen bestmöglich zu vermeiden. Auf Seiten des Händlers könnte ebenfalls ein gewisser Anreiz bestehen, Empfehlungen für Produkte zu generieren, die schon lange auf Lager liegen und sich als schlecht verkäuflich heraus gestellt haben.

- 12 -

4 Recommender Systeme in digitalen Bibliotheken

In den folgenden Abschnitten sollen, nachdem kurz auf Grundlagen von Recommender Systemen in digitalen Bibliotheken wurde, unterschiedliche Techniken der Empfehlungsgenerierung vorgestellt und verglichen werden. Dabei soll auch der Nutzen, den Recommender Systeme in digitalen Bibliotheken stiften können, verdeutlicht werden.

4.1 Grundlagen

Empfehlungssysteme im E-Commerce sind dem geübten Nutzer des Internets aufgrund des mittlerweile breiten Einsatzes bewusst oder unbewusst bekannt. Deren Nutzen, das Geben von zusätzlichen oder alternativen Kaufoptionen, ist für den Anwender offensichtlich. Auch in digitalen Bibliotheken stellen Empfehlungssysteme ein sehr nützliches Zusatzfeature dar. [GeNT04]

Digitale Bibliotheken bieten also, verglichen mit deren physischen Pendants, dem Benutzer

die Möglichkeit des Zugriffs auf größere Mengen an Ressourcen. Diese Ressourcen können in vielfältiger Form in Wort, Ton oder/und Bild gespeichert sein1. Aus Sicht des Besuchers mag eine größere Auswahl an digitalen Dokumenten natürlich als großer Vorteil erscheinen, da die Chance, dass unter diesen ein, seinem Informationsbedürfnis entsprechendes Dokument, vorhanden ist, ansteigt. Dabei sollte aber keinesfalls vergessen werden, dass damit die Gefahr steigt, sich in diesem dichter gewordenen Informationsdschungel zu verirren. Aufgrund der großen Anzahl an digitalen Dokumenten wird das Finden relevanter Dokumente erheblich erschwert und aufwendiger. Dieser auf den ersten Blick erscheinende Vorteil kann daher nur dann wirklich auch zum Vorteil für den Benutzer werden, wenn entsprechende Maßnahmen getroffen werden, um diese Informationsüberflutung einzudämmen, und um somit ein gezielteres, effizienteres, und weniger zeitintensives Suchen zu ermöglichen. Der Fortschritt auf dem Gebiet der Informationstechnologie bietet die Möglichkeit genau an diesem Punkt anzusetzen um die dafür notwendigen Maßnahmen zu ergreifen.

Analog zu traditionellen physischen Bibliotheken, in denen ein Bibliothekar aufgrund seines Wissens bzw. aufgrund seiner Erfahrung den Besucher über alternative Bücher, etc. informieren kann, sollen in digitalen Bibliotheken Recommender Systeme solche Empfehlungen generieren können. [Fisc03]

Vielfach erfolgt die Generierung von Empfehlungen in digitalen Bibliotheken lediglich auf

Basis der Informationen im Inhalt der digitalen Dokumente. [HCOC02] Damit wird das Potential der Empfehlungsgenerierung in digitalen Bibliotheken bei weitem nicht ausgenützt. Ganz im Gegenteil: Der zuvor angesprochene Bibliothekar bräuchte demnach keinen Vergleich mit einem Recommender System zu scheuen, denn aufgrund seiner Erfahrungen über den Inhalt sowie die Eignung diverser Bücher für das Informationsbedürfnis von Besuchern wäre er einem Recommender System in dieser Form sogar überlegen. In digitalen Bibliotheken verbirgt sich viel mehr als nur diese Informationen über den Inhalt der Dokumente. [GeMG01] klassifiziert vier Kategorien von Daten, die für Recommender Systeme in digitalen Bibliotheken relevant sein können:

1 Im Folgenden wird der Term „digitales Dokument“ oder nur „Dokument“ stellvertretend für alle Formen der in

digitalen Bibliotheken vorhandenen digitalen Ressourcenobjekte verwendet.

- 13 -

Resource characteristics: Alle vorhandenen Dokumente können durch Metadaten beschrieben werden, die einzelne Elemente (Titel, etc.) der Dokumente beschreiben. Resource quality judgements: Rezensionen oder Expertenurteile können brauchbare Informationen für andere Benutzer liefern. Resource use: Durch die Analyse der Server Log-Daten2 erhält man Informationen bezüglich der Häufigkeit des Zugriffs auf Dokumente von einzelnen Benutzern in Form von Downloads, Lesezeiten, etc. Mit Hilfe dieser resource use Daten können Benutzerprofile erstellt werden aus denen Usage Modelle entwickelt werden können. User profile: Aufgrund von Registrierungserfordernissen können demographische Daten oder Informationen über persönliche Präferenzen von Benutzern vorliegen, auf Basis derer Benutzergruppen gebildet werden können. Diese Vielfalt geht über die Möglichkeiten in konventionellen Bibliotheken hinaus, denn

dort kann beispielsweise die Benutzung von Dokumenten bzw. Büchern vom Benutzer nur aufgrund deren Abgenutztheit, und auch das nur sehr vage, beurteilt werden.

Alle eben erwähnten Daten können bei der Empfehlungsgenerierung sehr hilfreich sein,

jedoch kann die Verfügbarkeit oder die Qualität der einzelnen Daten beispielsweise aufgrund von fehlenden Angaben oder Falschinformationen bei persönlichen Präferenzen oder bei Rezensionen sehr unterschiedlich sein. Man muss sich daher Gedanken machen, welche Datenkategorien man für ein Recommender System heranzieht. Interessant ist die Frage, ob die Qualität des Empfehlungssystems durch Verwendung möglichst vieler Datenressourcen steigt. Konzentriert man sich lediglich auf Daten, von denen man ausgehen kann, dass sie von hoher Güte und hoher Verfügbarkeit sind (beispielsweise Server Log-Daten), riskiert man andere, möglicherweise qualitativ sehr hochwertige Daten zu ignorieren. Verwendet man andererseits alle potentiellen Datenquellen, um einen möglichst geringen Verlust an brauchbaren Daten zu haben, steht man vor dem Problem, wie man so große und unterschiedliche Informationsmengen sinnvoll kombinieren kann. Außerdem läuft man dabei Gefahr, dass mögliche Falschinformationen oder manipulierte Daten die Qualität und Brauchbarkeit des gesamten Empfehlungssystems gefährden. [GeMG01]

Damit eine digitale Bibliothek gegenüber einer physischen Bibliothek keine Einbußen

verzeichnet, sei an dieser Stelle noch die Notwendigkeit erwähnt, dass Besucher bzw. Benutzer miteinander in Kontakt treten können und persönliche Erfahrungen austauschen können, sodass Empfehlungen nicht nur automatisch generiert werden, sondern auch explizit ausgesprochen werden können. Es müssen also Rahmenbedingungen geschaffen werden, um ein Community entstehen lassen zu können. [SAPN99]

4.2 Techniken der Empfehlungsgenerierung

In digitalen Bibliotheken besteht die Möglichkeit eine Vielzahl von Daten bzw. Informationen über die Benutzer sowie über die vorhandenen digitalen Dokumente zu sammeln. Beispielsweise seien hier die Häufigkeit sowie die Dauer der Nutzung von bzw. der Zugriff auf bestimmte Dokumente von bestimmten Benutzern, über welche wiederum eine

2 Im Folgenden werden diese so zur Verfügung stehenden Daten in Anlehnung an die englischsprachige

Originalliteratur sowie in Ermangelung eines geeigneten deutschen Wortes als „Usage-Daten“ bezeichnet.

- 14 -

Vielzahl an Informationen vorhanden sein können, etc. angeführt. Aufgrund dieser Informationen kann bei der Empfehlungsgenerierung auf unterschiedliches und vielschichtiges Datenmaterial zugegriffen werden. Wie im folgenden Abschnitt zu sehen seihen wird, gibt es in der Praxis diverse unterschiedliche Ansätze, wie diese Daten tatsächlich in Recommender Systemen in digitalen Bibliotheken genutzt und verarbeitet werden. [YaLi05]

4.2.1 Ähnlichkeit

In digitalen Bibliotheken kann mit dem Begriff „Ähnlichkeit“ sowohl die Ähnlichkeit

zwischen einzelnen digitalen Dokumenten, als auch die Ähnlichkeit zwischen Benutzern verstanden werden. Auf Grundlage dieser Ähnlichkeiten basieren auch die vermutlich bekanntesten Techniken der Empfehlungsgenerierung, nämlich die des Collaborative Filterings sowie die des Content-Based Filterings.

4.2.1.1 Collaborative Filtering Beim Collaborative Filtering werden Empfehlungen vereinfacht gesagt aufgrund von

Ähnlichkeiten zwischen Benutzern, die nach Informationen suchen, generiert. Einem konkreten Benutzer werden in digitalen Bibliotheken, welche Empfehlungen mit dieser Technik generieren, daher digitale Dokumente empfohlen, die andere Benutzer, die ähnliche Präferenzen wie dieser haben, als gut befunden haben. [FabroJ] Die Profile auf deren Grundlage die Benutzer verglichen werden, können implizit auf Basis deren in der Vergangenheit getätigten Verhaltens [HCOC02] und/oder auf Basis demographischer Informationen oder Interessen, die vom Benutzer explizit angegeben wurden, erstellt werden.

Bei der Generierung der Vorschläge kann man das manuelle, sowie das automatische Benutzermatching unterscheiden. Während bei Ersterem vom Empfehlenden Vorschläge verteilt werden, bzw. dieser von Empfehlungsnachfragern befragt wird, geschieht Zweiteres automatisiert. Dabei kann das Benutzermatching entweder aufgrund eines zuvor geschätzten Modells (man spricht dabei vom „Model-Based Collaborative Filtering“) oder aufgrund eines direkten Vergleichs, der implizit oder explizit erhobenen Benutzerdaten (was als „Memory-Based Collaborative Filtering“ bezeichnet wird) durchgeführt werden. [o.A.c]

Amazon ist zwar ein Beispiel aus dem E-Commerce, es stellt aber wohl das bekannteste Beispiel dar, das sein Empfehlungssystem mit dieser Technik betreibt. Der Grund könnte vermutlich jener sein, dass Empfehlungen, die scheinbar von anderen Benutzern stammen, relativ glaubwürdig erscheinen.

Beim Collaborative Filtering müssen jedoch auch einige Schwachpunkte erwähnt werden. Ist die Menge der Benutzer der digitalen Bibliothek, die die Technik des Collaborate Filtering verwendet, im Verhältnis zu den vorhandenen Dokumenten relativ klein, besteht die Gefahr, dass Empfehlungen nur in sehr spärlicher Dichte verfügbar sind. Man braucht also eine gewisse kritische Masse an Benutzern, auf Basis deren abgegebenen Beurteilungen oder Verhalten die Empfehlungen generiert werden. Weiters bestehen Probleme, einem Benutzer mit ungewöhnlichen Interessen, geeignete Empfehlungen zu geben, da es möglicherweise keine anderen Benutzer gibt, die diesem Benutzer ähnlich sind. Wird ein neues Dokument in den Bestand der digitalen Bibliothek aufgenommen, ist es vorerst, bis Beurteilungen über dieses Dokument vorliegen, von den Empfehlungen ausgeschlossen.

- 15 -

4.2.1.2 Content-Based Filtering Beim Content-Based Filtering wird versucht, die Präferenz eines Benutzers aufgrund von

Ähnlichkeiten zwischen Produkten (Dokumenten) abzuleiten. Ähnlichkeiten zwischen Dokumenten in digitalen Bibliotheken können aufgrund

unterschiedlicher Techniken beurteilt werden: [CrKr02] Die Latente Semantische Analyse, die im Kapitel 4.2.2.2 näher erklärt wird, versucht

semantische Ähnlichkeiten zwischen Dokumenten zu analysieren. Eine andere Möglichkeit besteht darin, Dokumente aufgrund von Expertenurteilen zu

klassifizieren. Dies ist zwar eine qualitativ sehr hochwertige Methode, allerdings sind der Aufwand und die damit verbundenen Kosten beachtlich.

Die Analyse von Zitaten und Verweisen auf andere Dokumente ist auch eine Methode um Ähnlichkeiten zwischen Dokumenten zu beurteilen. Die Annahme, die dieser Methode zu Grunde liegt, ist die, dass ein Dokument D1, das im Dokument D2 zitiert wird mit diesem eine gewisse Ähnlichkeit hat.

Die Vorgehensweise zur Beurteilung der Ähnlichkeit von Dokumenten, die hier etwas genauer beschrieben werden soll, ist jene des Co-Usage. Dies ist auch der Basisgedanke, der dem Bibliotheksportal Karlsruhe, das im Kapitel 5 genauer beschrieben wird, zu Grunde liegt. Die Idee hinter dem Konzept des Co-Usage ist, dass sich zwei (oder mehrere) Dokumente ähnlich sind, wenn sie von mehreren Benutzern jeweils in Kombination betrachtet wurden. Wichtiges Rohmaterial zur Analyse des Co-Usage sind die Log-Daten des Webservers, der das Verhalten der Benutzer mitprotokolliert. Erster Anhaltspunkt bei der Analyse der Log-Daten sind die IP-Adressen der Benutzer. Blindes Vertrauen in die IP-Adresse kann aber zu unbefriedigenden Ergebnissen führen. Es ist nämlich nicht garantierbar, dass eine IP-Adresse einem Benutzer eindeutig zuordenbar ist (z.B.: mehrere Benutzer benutzen einen Rechner,…). Selbst wenn dies der Fall wäre, stünde man vor dem Problem, dass man einem Benutzer ein konstantes Informationsbedürfnis unterstellen müsste. Dieses Problem soll an folgendem Beispiel verdeutlicht werden: Benutzer Bert ist ein abenteuerlustiger Mensch. Bevor er im Jänner eine Reise nach Sibirien angetreten hat, hat er sich in der digitalen Bibliothek zum Thema Eisfischen Informationen besorgt. Im Frühling ist er beim Marathon des Sables in Marokko eine Woche quer durch die Wüste gelaufen und hat sich vorher über gefährliche Kleintiere in der Wüste informiert. Sucht nun Benutzerin Berta ebenfalls Informationsmaterial zum Thema Eisfischen, so würden Dokumente, die Bert vor seiner Marokkoreise betrachtet hat, als ähnlich mit den von ihm betrachteten Dokumenten zum Thema Eisfischen beurteilt werden. So würden für Berta völlig unbrauchbare Empfehlungen generiert werden. Daher ist es nahe liegend sich bei der Analyse der Log-Daten auf jene Einträge zu konzentrieren, welche aus einer Session stammen.

[CrKr02] definiert Co-Usage formal als: |)(||)(|

|),(|),(

2

ji

jiji dudu

dduddc = ,

wobei |u(di,dj)| die Anzahl der Sessions bezeichnet in denen die Dokumente di und dj gleichzeitig vorkommen und c(di,dj) als Co-Usage-Koeffizient bezeichnet wird. Um die Generierung von Empfehlungen nach dem Prinzip des Co-Usage zu veranschaulichen, soll an dieser Stelle eine vereinfachte Darstellung mit acht Dokumenten, vier aufgezeichneten Sessions und einer aktuellen Session Sn des Prinzips in Anlehnung an [NiTP04] dargestellt werden.

- 16 -

D1 D2 D3 D4 D5 D6 D7 D8

S1 x x x x x

S2 x x x

S3 x x x

S4 x x x

Sn x x

Bild 1 Prinzip des Co-Usage [NiTP04]

In der aktuellen Session S* hat der Benutzer bereits auf die Dokumente D2 und D3

zugegriffen und will sich nun weitere Dokumente empfehlen lassen. Bei dem nun ablaufenden Algorithmus wird zunächst eine Liste erstellt, die die aufgezeichneten Sessions nach höchster Ähnlichkeit absteigend ordnet. Die ähnlichste Session (im Beispielfall wäre dies S2) wird nun herangezogen und Dokumente empfohlen, auf die in der aktuellen Session noch nicht zugegriffen wurden (D5). Sind diese Empfehlungen unbrauchbar für den Benutzer erfolgt die Empfehlung nach Vergleich mit der zweit-ähnlichsten Session usw.

Vergleicht man beide eben geschilderten Techniken, so lassen sich als Vorteile von

Content-Based Filtering Methoden festhalten, dass man beispielsweise auf keine Angaben der Benutzer angewiesen ist. Dadurch gewinnt das System an Glaubwürdigkeit, da niemand durch Empfehlungen eigene Interessen verfolgen kann. Außerdem ist die Sammlung von Usage-Daten schon möglich, bevor das Recommender System tatsächlich eingesetzt wird. Es kann dadurch das so genannte „cold-start“-Problem verhindert werden. Das Collaborative Filtering hat allerdings den Vorteil, dass es von Produkteigenschaften unabhängig ist. Somit besteht einerseits keine Notwendigkeit der Beschreibbarkeit der Produkte (was abseits von digitalen Bibliotheken beispielsweise bei Düften, Bildern etc. nur sehr schwer möglich ist) und andererseits können auch nicht-ähnliche Produkte (Dokumente) sowie neue Produkte (Dokumente) in die Empfehlung miteinbezogen werden. [o.A.c], [NiTP04]

4.2.1.3 Hybride Techniken

Weiters existieren auch Ansätze, die versuchen beide Varianten zu kombinieren, um schließlich Empfehlungen generieren, in die beide Methoden einfließen. Dadurch soll es möglich werden, noch passendere Empfehlungen zu generieren. Die hybriden Ansätze unterscheiden sich allerdings wiederum in ihrer Komplexität, sodass man sie differenziert betrachten muss. Eine Möglichkeit besteht, ähnlich wie zuvor beschrieben, die beiden nicht-hybriden Ansätze einzeln anzuwenden, und die daraus resultierenden Ergebnisse zu einer Empfehlung zu kombinieren. [HCOC02] In diesem Fall kann man allerdings noch nicht von einem hybriden Ansatz im engeren Sinn sprechen Die andere Technik setzt einen Schritt früher an, und generiert die Empfehlungen auf einer gemeinsamen Repräsentationsebene von Dokumenten und Benutzern. [YaLi05] Hybride Techniken finden sich beispielsweise in Fab, das im Folgenden kurz vorgestellt werden soll.

- 17 -

4.2.1.3.1 Fab

Fab ist ein Recommender System für Web-Seiten, das im Rahmen des Stanford Digital

Library Project entwickelt wurde. Benutzerprofile werden dabei auf Basis von Daten, die sich aus den in der Vergangenheit betrachteten Dokumenten ergeben, erstellt. Diese Benutzerprofile werden in weiterer Folge mit anderen Benutzerprofilen verglichen. Empfehlungen für ein bestimmtes Dokument werden dann ausgesprochen, wenn dieses Dokument den Daten im Benutzerprofil ähnlich ist, oder wenn Benutzer mit ähnlichen Benutzerprofilen dieses Dokument als relevant bewertet haben. Sowohl die Repräsentation der Benutzerinteressen, als auch die der Dokumente (der Web-Seite) erfolgt in Form von Vektoren. Zunächst suchen „collection agents“ nach Dokumenten und gruppieren diese in bestimmte Themengruppen. In weiterer Folge greifen „selection agents“ je nach Benutzerprofilen auf diese Themencluster zu um Dokumente für einen speziellen Benutzer zu finden. [BaSh97]

Das Besondere an Fab ist dessen Adaptivität, wodurch die Empfehlungen personalisiert werden können. Benutzer können die „selection agents“ als auch die „collection agents“ mit Feedback in Form einer 7-stufigen Beurteilung (3…excellent, 0…neutral, -3…terrible) [BalaoJ]der Relevanz des Dokuments updaten, wodurch das ganze System lernt. [BaSh97] Die „collection agents“ werden darauf trainiert, die Bedürfnisse einer Benutzergruppe zu lernen, und die „selection agents“ der Benutzer sollen deren individuelle Bedürfnisse kennen lernen. [Chee00] Man geht weiters davon aus, dass sich Benutzerinteressen im Laufe der Zeit ändern. Daher werden die Gewichte der Benutzerinteressensvektoren täglich mit 0,97 multipliziert. [BalaoJ]

4.2.1.3.2 Graph-Based Approach

Während in Fab die Beziehungen zwischen Dokumenten und Benutzern jeweils einzeln

analysiert werden, liefert ein graphen-basierter Ansatz von [HCOC02] ein Modell, das auf einer Ebene Ähnlichkeiten zwischen Dokumenten (typisch für das Content-Based Filtering), auf einer zweiten Ebene Ähnlichkeiten zwischen Benutzern (typisch für das Collaborative Filtering) und zusätzlich zwischen diesen beiden Ebenen Beziehungen zwischen Dokumenten und Benutzern berücksichtigt.

Auch hier erfolgt die Repräsentation der Benutzer und der Dokumente durch Vektoren. Die Vektoren zur Beschreibung der Benutzer ergeben sich aus den jeweiligen demographischen Daten und jene der Dokumente enthalten sowohl Informationen zum Inhalt als auch Informationen über einzelne Attribute der Dokumente.

- 18 -

Bild 2 Modell des Graph-Based Approach [HCOC02]

Jede Ebene des Modells besteht aus Knoten, die je nach Ebene in der sie vorkommen einen Benutzer oder ein Dokument darstellen. Die Kanten zwischen den Knoten drücken aus, dass sich die verbundenen Knoten ähnlich sind. Die Gewichtungen der Kanten drücken die Stärke der Ähnlichkeit aus. Auf der Ebene der Dokumente muss erwähnt werden, dass Ähnlichkeiten, die auf Inhalten von Dokumenten basieren, keinesfalls symmetrisch sein müssen. Während bei Attributen wie Autor, Erscheinungsjahr oder Kategorie entweder eine (symmetrische) Übereinstimmung zwischen zwei Dokumenten gegeben ist oder nicht, kann die Gewichtung der Ähnlichkeit auf Basis des Inhalts von Dokument D1 zu D2 anders sein als die Ähnlichkeit von D2 zu D1. Die endgültige Gewichtung zwischen Dokumenten wird aufgrund aller Attribute (Inhalt, Autor, Kategorie,…) ermittelt. Die Gewichtung der Ähnlichkeiten zwischen Benutzern wird auf Basis der demographischen Daten berechnet. Die Beziehungen zwischen den beiden Ebenen ergeben sich durch den Zugriff der Benutzer auf Dokumente.

Die Empfehlungen werden nun auf Basis der Gewichtungen der Verbindungen zwischen den Benutzern und den Dokumenten generiert. Das Dokument, das die stärkste Verbindung mit einem Benutzer aufweisen kann, und das von diesem Benutzer noch nicht gelesen wurde, wird in der Liste der Empfehlungen an oberster Stelle gereiht. Je nachdem über wie viele Kanten man die Ähnlichkeit transitiv ableitet, umso komplexer werden die Berechnungen. Gibt es im oberen Bild zwischen Benutzer B1 und Dokument D1 noch keine direkte Verbindung, ergeben sich, wenn man die Ähnlichkeit über drei Kanten transitiv ableitet, vier Möglichkeiten (B1-D2-D1, B1-B2-D1-D2, B1-D2-D3-D1, und B1-B2-D3-D4). Den Wert der Ähnlichkeit nach diesem Modell errechnet sich durch Multiplikation der Werte der Kanten zwischen den Knoten und anschließender Addition (0,3[=0,5*0,6]+0,21+0,12+0,28=0,91)

Für komplexere Berechnungen eignet sich der Einsatz von Techniken der künstlichen Intelligenz in Form eines Hopfield-Netz Algorithmus3.

Die Stärken dieser Technik der Empfehlungsgenerierung sind vielfältig. Einerseits gilt

dieses Modell als flexibel, da die Gewichte, mit der die einzelnen Attribute gewichtet werden, 3 Zur genaueren Beschreibung darf auf [HCOC02] verwiesen werden.

0,5

0,5 0,5

B1 B2

0,8

0,8

0,8

D1 D2

Dokument-Ebene

0,7

Benutzer-Ebene

D3

- 19 -

je nach Bedeutung einzelner Attribute geändert werden können. Will man Empfehlungen beispielsweise stärker aufgrund von Ähnlichkeiten zwischen Autoren generieren, so muss man lediglich die Gewichtungen des Attributs „Autor“ erhöhen. Weiters können in diesem hybriden Modell neben der hybriden Technik beide zugrunde liegenden Techniken auch einzeln angewandt werden. Beschränkt man sich auf die Ebene der Dokumente und generiert man Empfehlungen lediglich auf Basis von Ähnlichkeiten zwischen Dokumenten, so kann man von Content-Based Filtering sprechen. Basieren die Empfehlungen lediglich auf Grundlage von Ähnlichkeiten auf Benutzerebene, verwendet man reines Collaborative Filtering. Da diese beiden Ebenen außerdem unabhängig voneinander sind und auf beiden Ebenen unterschiedliche Algorithmen angewendet werden können, kann man die Modularität als weitere Stärke bezeichnen.

4.2.2 Interesse

Leider liefern Recommender Systeme, welche ihre Empfehlungen auf Basis der Analyse

von Ähnlichkeiten generieren, nicht immer passende oder sinnvolle Ergebnisse. Folgende Beispiele sollen dies verdeutlichen: [YaLi05]

In einer digitalen Bibliothek besteht die Möglichkeit auf die Datenbanken mehrerer Bibliotheken zuzugreifen. Dadurch besteht die Möglichkeit, dass in dieser digitalen Bibliothek zwei Exemplare des gleichen Dokuments existieren. Logischerweise haben diese beiden Dokumente (D1, D2) die höchste Ähnlichkeit. Es gibt also kein Dokument Dn, das dem Dokument D1 ähnlicher ist als D2. Will sich der Benutzer von einem solchen Recommender System weitere Dokumente empfehlen lassen, wird als Empfehlung D2 (also das idente Dokument) generiert.

Ein ähnliches Problem ergibt sich, wenn in dieser digitalen Bibliothek von einem Dokument unterschiedliche Versionen (V1, V2) vorhanden sind und jeweils spätere Versionen mehr Informationen beinhalten als frühere Versionen. Wiederum ist die Ähnlichkeit zwischen diesen Dokumenten am größten. Das Recommender System würde einem Benutzer, der zusätzliche Informationen zu V2 sucht, das ältere, weniger Information beinhaltende Dokument V1 vorschlagen, was für den Benutzer allerdings keinen Zusatznutzen stiftet.

Weiters werden bei den bisherigen Ansätzen die eigentlichen Interessen der Benutzer in keinster Weise berücksichtigt. Es befinden sich beispielsweise in einer digitalen Bibliothek zwei Dokumente (D1, D2) zum Thema „Kernspaltung“, wobei Dokument D1 dieses Thema für Kinder verständlich aufbereitet und D2 eine wissenschaftliche Abhandlung eines bekannten Professors ist. Der Physikstudent Albert, der Informationen für seine Diplomarbeit sucht, wird vermutlich großes Interesse an D2 haben. Hat D1 allerdings eine größere Ähnlichkeit zu Dokument Dn, das der Physikstudent zuvor betrachtet hat, wird ihm von einem Recommender System, das auf Ähnlichkeiten beruht, D1 empfohlen werden, das ihm allerdings nicht weiterhilft.

4.2.2.1 Degree of Interest

Davon auszugehen, dass Dokumente, die mit einem konkreten Dokument gewisse Ähnlichkeiten haben, dem tatsächlichen Informationsbedürfnis eines Benutzers entsprechen, ist also ein Irrglaube. Daher muss man sich die Frage stellen, welche Eigenschaften ein Dokument zusätzlich zur Ähnlichkeit haben muss, um als eine brauchbare Empfehlung zu gelten. [YaLi05] stellen daher das Konzept des „degree of interest“ vor. Dadurch soll das

- 20 -

wahre Informationsbedürfnis eines Benutzers bezüglich eines Dokuments ausgedrückt und bei der Generierung von Empfehlungen berücksichtigt werden können. Ein Recommender System, das auf diesem Prinzip beruht, wurde in der „Unlimited Digital Library“ des Harbin Institute od Technology“ (HIT) in China implementiert. Dieses Konzept beruht auf drei Säulen: Die erste Säule ist die bereits beschriebene Ähnlichkeit zwischen einem Dokument und anderen bereits betrachteten Dokumenten. Dazu kommen mit dem Informationsgehalt eines Dokuments sowie der Neuigkeit der darin enthaltenen Informationen zwei weitere wichtige Säulen dieses Konzepts.

In Experimenten konnte man deutliche Beziehungen zwischen diesen Faktoren beobachten. Dokumente, deren Ähnlichkeit gleich „1“ (maximale Ähnlichkeit) ist, haben einen Gehalt von Neuigkeit von „0“ (minimale Neuigkeit). Diese Dokumente waren, wie im zuvor geschilderten Beispiel, entweder Duplikate oder unterschiedliche Versionen eines Dokuments. Nimmt die Ähnlichkeit der Dokumente ab, steigt der Neuigkeitsgehalt. Der Informationsgehalt bleibt aber auch bei hoher Ähnlichkeit unverändert. [YaLi05]

Das Interesse eines Benutzers i bezüglich des Dokuments j wird in [YaLi05] formal definiert als: iijjjjij knowledgejnovuInfoRsiminterest ∈′×= >′ ;,}max{ η

Demnach würden nun Dokumente mit größerer Ähnlichkeit (Rsimjj’ ), größerem Informationsgehalt (Infoj) und einem einen Grenzwert (η ) überschreitenden Grad an Neuigkeit (novuij) bei der Empfehlungsgenerierung bevorzugt werden.

Wie können nun der Informationsgehalt und die Neuheit eines Dokuments gemessen werden?

Um den Informationsgehalt eines Dokuments D1 zu ermitteln, sind die Anzahl der unterschiedlichen Worte in D1 sowie die Länge von D1 entscheidende Parameter. Diese werden nämlich mit der Anzahl an unterschiedlichen Worten im Dokumentenbestand sowie mit der Länge des längsten Dokuments Dn in Beziehung gesetzt. Dokumente mit einem sich so ergebenden Informationsgehalt würden somit zuerst empfohlen werden. Sind also in einer digitalen Bibliothek mehrere gleiche Dokumente unterschiedlicher Version, wird die Version empfohlen, welche den größten Informationsgehalt beinhaltet.

Um die Menge an Neuigkeit, die ein Dokument einem Benutzer bieten kann, berechnen zu können, muss man zuerst den bereits vorhandenen Wissensstand des Benutzers kennen. Bei der Ermittlung des Wissensstand eines Benutzers geht man davon aus, dass dieser den Inhalt von Dokument Dn umfasst, wenn er Dn in der Vergangenheit schon aus der digitalen Bibliothek downgeloadet hat, oder in Dn für eine gewisse, einen bestimmten Grenzwert überschreitende Zeit darin gestöbert hat. Weitere wichtige Einflussgrößen bei der Ermittlung der Neuheit eines Dokuments sind die darin vorkommenden Terme bzw. deren Gewichtung im Dokument sowie der Zeitpunkt, wann das Dokument veröffentlicht wurde.

Das System der zuvor erwähnten „Unlimited Digital Library“ beinhaltet unterschiedliche Module um die dafür notwendigen Informationen zu extrahieren.

Somit ist es möglich die generierten Empfehlungen besser auf die einzelnen Benutzer

abzustimmen. Dadurch würden Dokumente, welche dem Benutzer nicht ausreichend neue Information liefern würden, nicht berücksichtigt werden. Dadurch ließe sich vermeiden, dass Dokumente, die wie in den ersten beiden oben beschriebenen Beispielen entweder weniger Information als das Ausgangsdokument haben oder die mit dem Ausgangsdokument sogar ident sind, in der Empfehlungsliste aufscheinen. Die Kinderlektüre hätte somit vermutlich für den Physikstudenten im dritten Beispiel keinerlei Neuheitswert und würde somit ebenfalls in der Empfehlung nicht aufscheinen. Die Priorität der verbleibenden Dokumente ist schließlich

- 21 -

abhängig von deren Ähnlichkeiten mit dem Ausgangsdokument sowie von deren Informationsgehalt. Je größer die Ähnlichkeit sowie der Informationsgehalt von Dokument D1, desto eher wird angenommen, dass D1 dem wahren Informationsbedürfnis eines Benutzers entspricht.

4.2.2.2 Latent Interest Analysis

In [ShDA02] wird auf Grundlage des von Michael Polanyi vorgestellten Konzepts des „tacid knowledge“ die Technik der „Latent Interest Analysis“ (LIA) vorgestellt. Das Konzept des „tacid knowledge“ besagt, dass beispielsweise Benutzer von digitalen Bibliotheken, die nach bestimmten Themen suchen, nicht ihr ganzes vorhandenes Wissen explizit ausdrücken können. Das Ziel der „Latent Interest Analysis“ ist es, aufgrund des „tacid knowledge“ die Interessen bzw. das tatsächliche Informationsbedürfnis des Benutzers herauszufinden. Auf Grundlage dieses Informationsbedürfnisses sollen in weiter Folge geeignete Empfehlungen für diesen Benutzer generiert werden können.

Mit Hilfe welcher Methoden kann nun das implizite Wissen und das implizite Informationsbedürfnis ermittelt werden?

Um das implizite Wissen zu ermitteln, kann man sich der Analyse der Log-Files bedienen. Je nachdem welche Querys der Benutzer formuliert hat, auf welche Dokumente ein Benutzer zugegriffen hat und wie lange dieser Benutzer diese Dokumente gelesen hat oder ob er sie gespeichert, gedruckt, etc. hat, kann man davon ausgehen, ob er Kenntnis von den darin behandelten Themen hat oder nicht, wie intensiv er sich mit diesem Thema beschäftigt hat oder wie wichtig ihm das Thema ist. [ShDA02] rechtfertigt diese Annahme mit Bezug auf empirische Ergebnisse, in welchen eine starke Beziehung zwischen der Lesezeit eines Dokuments und dessen Relevanz für den Benutzer erkennbar ist. Bild 3 zeigt das „User Information Needs Model“ als gewichteten Graphen.

Bild 3 User Information Needs Model [ShDA02] Auch die Annahmen von Cooper, wonach sich Personen nur mit dem Erwerb von

Informationen beschäftigen, die auch ihrem Informationsbedürfnis entsprechen, rechtfertigen diese These. Die Analyse des „tacid knowledge“, das sich in den gelesenen Dokumenten

- 22 -

verbirgt sowie andere Verhaltensweisen wie drucken, speichern, downloaden, etc., sind also wichtig, um das Informationsbedürfnis des Benutzers festzustellen.

Um ausgehend vom impliziten Wissen Dokumente zu finden, die den impliziten Interessen bzw. dem impliziten Informationsbedürfnis entsprechen, wurde in [ShDA02] die „Latente Semantische Analyse“ als Technik für diesen Zweck vorgestellt. Bei der „Latenten Semantischen Analyse“ wird im Gegensatz zu konventionellen Information Retrieval Techniken nicht auf wörtliche Übereinstimmung der Abfragen mit den in den Dokumenten vorkommenden Termen, sondern auf inhaltliche (semantische) Übereinstimmung geachtet. Dadurch kann beispielsweise das Problem von Homographen (das sind Worte mit gleicher Schreibweise, allerdings mit unterschiedlicher Bedeutung) ausgeschaltet werden, das bei Abfragen, die auf wörtliche Übereinstimmungen achten, auftritt. Die „Latente Semantische Analyse“ repräsentiert jedes Wort in einem k-dimensionalen „semantic space“, wobei k sehr hoch ist (z.B.: 50-1500). [LaFL98] Ausgangspunkt der „Latenten Semantischen Analyse“ ist eine Term-Dokument-Matrix. Das Element En,m dieser Matrix repräsentiert dabei die Häufigkeit des Terms Tn in Dokument Dm. Wendet man auf diese Matrix die so genannte „Singular Value Decomposition“ (SVD) Operation4, eine mathematisch-statistische Operation, auf die an dieser Stelle allerdings nicht genauer eingegangen werden soll, an, gelingt es, die im Text verborgenen semantischen Strukturen aufzudecken.

Formal kann der Informationsbedarf Q folgendermaßen ausgedrückt werden:

∑∑==

=+=n

jj

n

j

jj dqQ01

0 1, ωωω

jd ist dabei der j-te Dokumentvektor (k-dimensional) von allen n betrachteten

Dokumenten, jω ist dessen Gewichtung aufgrund der Relevanz für den Benutzer und q ist

der (ebenfalls k-dimensionale) Queryvektor. Die LIA Architektur (siehe Bild 4) besteht aus den beiden eben beschriebenen Modulen

der Analyse der Log-Daten, und der Latenten Semantischen Analyse, welche aufgrund der hohen Rechenaufwände nur periodisch durchgeführt wird. Im Zentrum der Architektur steht die „search/recommendation engine“ die Abfragen von Benutzern verarbeitet und relevante

Dokumente durch paarweise Vergleiche der Vektoren jd und Q ermittelt.

4 Ausführliche Informationen zur „Singular Value Decomposition“ finden Interessierte in [LaFL98]

- 23 -

Bild 4 LIA Architektur [ShDA02]

4.2.3 Vergleich der Techniken

Zum Abschluss dieses Abschnittes sollen die vorgestellten ähnlichkeitsbasierten Ansätze

sowie die beiden hybriden Ansätze („Graph-Based Approach“ und „Degree of Interest“) zur Generierung von Empfehlungen in Bezug auf deren Recall und Precision verglichen werden. Die zu Grunde liegenden Erkenntnisse wurden im Rahmen einer Testphase in der schon zuvor erwähnten „Unlimited Digital Library“ gewonnen. [YaLi05]

Zunächst sollen Recall und Precision kurz definiert werden. [Pann04] Der Recall („Ausbeute“, „Nachweisquote“, „Vollständigkeitsquote“) gibt an, welcher Anteil der als relevant geltenden Dokumente gefunden bzw. im Sinne eines Recommender Systems dem Benutzer empfohlen wurden. Die Precision hingegen gibt an, welchen Anteil an den empfohlenen Dokumenten die tatsächlich relevanten ausmachen. Ein hoher Recall bedeutet demnach eine geringe Auswahl nicht relevanter Dokumente und eine hohe Precision lässt auf einen geringen Ablehnungsgrad relevanter Dokumente schließen. Beides ist für die Qualität eines Recommender Systems in digitalen Bibliotheken wichtig. Formal lassen sich die beiden Größen folgendermaßen beschreiben.

Dokumenterelevantenalle

Dokumente relevante eausgewähltRecall=

Dokumenteenausgewähltalle

Dokumente relevante eausgewähltPrecision=

Bei den in [YaLi05] durchgeführten Studien kam man zu folgenden Ergebnissen: Unabhängig vom Wissensstand der Benutzer konnte das „degree of interest“-Konzept die

best geeigneten Empfehlungen generieren. Die Precision ist bei diesem Ansatz also durchwegs am größten, während sie bei einfachen ähnlichkeitsbasierten Ansätzen vergleichsweise am geringsten ist. Auffallend ist, dass die Precision aller Ansätze der

- 24 -

Empfehlungsgenerierung mit zunehmender Anzahl der Dokumente, auf die ein Benutzer mit Fortdauer der Zeit zugreift, zunimmt. Allerdings wird der Qualitätsunterschied der unterschiedlichen Konzepte hinsichtlich der Precision ebenfalls immer deutlicher. Eine zweite Erkenntnis, die man aus den Untersuchungen gewinnen konnte, war, dass unabhängig von der Anzahl der Empfehlungen, die man den Benutzern vorschlägt, ebenfalls die Precision des „degree of interest“ am höchsten ist. Zwischen 5 und 10 Vorschlägen hat dieses Konzept die höchste Precision, es nimmt mit zunehmender Anzahl allerdings stärker ab als die Precision des „graph-based“ und des „similarity-based“ Konzepts. Grund für die hohe Precision des „degree of interest“ ist, dass durch die Berücksichtigung des Grads an Neuigkeit des Informationgehaltes wiederholte Empfehlungen von gleichen Dokumenten oder Dokumenten unterschiedlicher Versionen vermieden wird. Nicht nur bei den Resultaten der Precision, sondern auch bei denen des Recall konnte das Konzept von IBR die besten Ergebnisse erzielen.

Diese Ergebnisse lassen den Schluss vermuten, dass je mehr ein Recommender System über einen Benutzer weiß, desto geeigneter die generierten Empfehlungen in Hinblick auf Precision und Recall sind.

4.3 Nutzen von Recommender Systemen in digitalen Bibliotheken

Zusammengefasst kann gesagt werden, dass der Nutzen für den Benutzer digitaler Bibliotheken vielfältig ist:

Aufgrund der für den Benutzer möglicherweise zu großen verfügbaren Datenmengen wird es durch Recommender Systeme möglich, diese Informationsüberflutung für den Benutzer einzudämmen. Dadurch wird es für den Benutzer möglich, die große Menge an digitalen Informationsträgern gezielter nach geeigneten Informationen zu durchsuchen. Damit verbunden ist aufgrund der geringeren Zeit, die für einen erfolgreichen Suchvorgang aufgewendet werden muss, eine Senkung der Suchkosten. Dadurch wird die Sucheffektivität gesteigert. Außerdem wird es durch Recommender Systeme, die das wahre Interesse eines Benutzers herauszufinden versuchen, ermöglicht, dass Benutzer, die Dokumente zum gleichen Thema suchen, zu unterschiedlichen, ihren tatsächlichen persönlichen Interessen entsprechenden Suchergebnissen, kommen können. Außerdem konnte gezeigt werden, dass bestimmte Techniken der Empfehlungsgenerierung zu äußerst guten Ergebnissen bei Precision und Recall führen können. Der Nutzen für den Benutzer besteht darin, dass er soweit Sicherheit hat, dass zum einen nur wenige nicht-relevante Dokumente in den Empfehlungen enthalten sind und zum anderen, dass nur wenige relevante Dokumente nicht in der Empfehlungsliste aufscheinen.

Wenn auch Recommender Systeme einen wichtigen Baustein zur Steigerung des Nutzens

in digitalen Bibliotheken darstellen, existieren zahlreiche andere Bausteine, die digitale Bibliotheken für den Benutzer sinnvoll erweitern können. Auf weitere Möglichkeiten wird abschließend in Abschnitt 4.5 kurz eingegangen.

4.4 Probleme

Trotz der breiten Akzeptanz sowie des erfolgreichen Einsatzes von Empfehlungssystemen wie beispielsweise im E-Commerce (siehe Amazon), muss man sich mit der Frage beschäftigen, warum der Einsatz von solchen Systemen in digitalen Bibliotheken noch nicht

- 25 -

in ähnlicher Weise verbreitet ist. Auf der Suche nach Antworten wurden drei Ursachen herausgearbeitet: [GeNT04], [NiTP04]

• Privatsphäre und Datenschutz: In digitalen Bibliotheken fällt aufgrund der zur Generierung der Empfehlungen vielfach erforderlichen Log-Daten sowie der gespeicherten personenbezogenen Daten viel Datenmaterial an, das Schutz erfordert. Im Rahmen der Recherchearbeiten zu dieser Arbeit wurden die Schutzvorschriften offensichtlich, als versucht wurde, Log-Daten der digitalen Bibliothek der Universität Karlsruhe zu erhalten, um die Struktur dieser Bibliotheks-Log-Daten zu studieren. Man kann im Allgemeinen von einem Tradeoff zwischen erweiteter Funktionalität zum Nutzen des Benutzers und Aufgabe eines Teils seiner Privatsphäre sprechen. Es erscheint logisch, dass die Analyse von nicht-anonymen Log-Daten mächtigere Ergebnisse liefern kann, als dies bei anonymisierten Daten der Fall sein kann. An dieser Stelle ist durchaus auch ein Vergleich zu aktuellen Diskussionen bezüglich des Einsatzes der RFID-Technik im stationären Handel angebracht. Auch dort scheint der Einsatz dieser mächtigen Technik am Widerstand von Datenschützern vorerst zu scheitern. Es erfordert also ein gewisses Vertrauen seitens der Benutzer gegenüber den Betreibern der digitalen Bibliothek, dass Daten nicht missbraucht werden. Dieses Vertrauen kann durch Aufklärungsmaßnahmen bezüglich der Art der Verwendung der Daten gewonnen werden. Außerdem kann es ratsam sein, wenn man dem Benutzer eine gewisse Kontrolle über die Verwendungsart der von ihm zur Verfügung gestellten Daten überlässt.

• Budgetbeschränkungen: Vielfach verfügen Bibliotheken lediglich über mangelnde finanzielle Mittel. Dies scheint ein Grund dafür zu sein, warum IT-Investitionen und damit der Aufbau digitaler Bibliotheken, geschweige denn Recommender Systeme, vielfach unterbleiben. Allerdings zeigt das Beispiel des Bibliotheksportals Karlsruhe (siehe Kapitel 5), dass durchaus auch kostengünstige Möglichkeiten vorhanden sind.

• Datenmenge: Die großen Datenmengen in digitalen Bibliotheken erfordern eine geeignete Organisation der Daten, die vielfach nicht in der erforderlichen Struktur vorhanden ist.

4.5 Zusätzliche Value Added Services für digitale Bibliotheken

Recommender Systeme können wie beschrieben den Nutzen für Benutzer digitaler Bibliotheken deutlich steigern. Neben Recommender Systemen existieren in digitalen Bibliotheken an der Schnittstelle zum Benutzer auch andere Maßnahmen und Tools zur Individualisierung und zur Abstimmung digitaler Bibliotheken an individuelle Anforderungen und Präferenzen der Benutzer.

4.5.1 AVANTI Browser

Setzt man sich als Betreiber einer digitalen Bibliothek zum Ziel eine größtmögliche Benutzergruppe anzusprechen, müssen die Funktionen der digitalen Bibliothek für jedermann, beispielsweise ältere oder behinderte Menschen, nutzbar sein. Ein Tool, das für Benutzer

- 26 -

digitaler Bibliotheken sehr nützlich sein kann, ist der im Rahmen des ACTS-AVANTI Projekts entwickelte AVANTI Browser. Folgend dem Prinzip des „Unified User Interface Development“ (U²ID) wurde der AVANTI Browser mit einheitlichem („unified“) User Interface für alle Benutzergruppen entwickelt, verfügt aber über alternative adaptierbare sowie adaptive Komponenten zur Interaktion für unterschiedliche Benutzergruppen. Beispielsweise gibt es nicht-visuelle Hilfsmittel für blinde Benutzer. Für Benutzer digitaler Bibliotheken sind die möglichen kontextbezogenen Adaptionen, die das Finden von relevanter Information erleichtern sollen, interessant. [SAPN99]

4.5.2 MyLibrary

Der Begriff „MyLibrary“ steht für die Möglichkeit, sich in einer digitalen Bibliothek durch

eine Vielzahl von Tools seinen eigenen, individuellen Benutzerbereich - „seine eigene Bibliothek“ - nach individuellen Vorstellungen einzurichten.

Es existieren zahlreiche MyLibrary Projekte (siehe [o.A.c]), wobei auf die Funktionen des MyLibrary Systems, welches am Los Alamos National Laboratory („MyLibrary @LANL“) verwirklicht wurde, genauer eingegangen werden soll. Dort haben Benutzer die Möglichkeit, gefundene Informationen zu kategorisieren sowie Links zu den Ressourcen in diesen Kategorien abzulegen. Dies ist vergleichbar mit Bookmarks in Web-Browsern. Als zusätzliches Feature beinhaltet MyLibrary @LANL einen Mechanismus, der regelmäßig überprüft, ob die Links zu den Ressourcen noch gültig sind. Falls nicht, wird der Benutzer sofort davon unterrichtet. Weiters besteht die Möglichkeit das User Interface individuell zu verändern. Dazu gehören Änderungen der Themes oder Änderungen in der Kategorisierung der Informationsressourcen, etc. Eine weitere Möglichkeit besteht darin, je nach Interessensgebieten Benutzergruppen zu bilden und Ressourcen jedem in der Gruppe zugänglich zu machen. Außerdem werden Benutzer über ein Message-Fenster über Neuigkeiten, die seine Interessen betreffen, verständigt. [GMBMoJ]

- 27 -

5 Umsetzungsbeispiel aus der Praxis

Zum Abschluss der Arbeit soll noch ein Anwendungsbeispiel aus der Praxis den Aufbau einer Architektur eines Empfehlungssystems erläutern. [GeNT04]

Das Recommender System, das auf der Universität Karlsruhe entwickelt wurde, findet nicht nur in der digitalen Universitätsbibliothek Anwendung, sondern versorgt das südwestdeutsche Bibliotheksnetzwerk, welches 25 Bibliotheken umfasst, mit diesem Service.

Die Architektur umfasst drei Ebenen:

Bild 5 Architektur des Recommender Systems des Bibliotheksportals Karlsruhe [GeNT04]

Die unterste Ebene repräsentiert die unterschiedlichen Datenquellen. Dazu zählen die

Daten, welche aus dem ursprünglichen Bibliothekssystem (ohne Empfehlungssystem) stammen, aus den Daten, die für die Empfehlungsgenerierung relevant sind, sowie aus den Daten der Kataloge der externen Bibliotheken.

Die mittlere Ebene ist jene der Agenten. Durch das Zusammenwirken der Agenten wird die Generierung der Empfehlungen ermöglicht. Die Agenten reagieren auf Veränderungen und erfüllen daraufhin ihre jeweiligen Teilaufgaben.

Auf der obersten Ebene findet sich das User Interface. Stellt nun ein Benutzer eine Suchanfrage an das System, wird zunächst der „OPAC-agent“

(Online Public Access Catalog) tätig, sucht nach relevanten Ressourcen und liefert die Ergebnisse zurück an den Benutzer. Gleichzeitig erfolgt ein Eintrag in den Log-Files, um später Analysen durchführen zu können.

Ausgangspunkt im Prozess der Empfehlungsgenerierung ist der „transaction agent“. Dieser sendet in regelmäßigen Abständen die Log-Daten an das „Recommendation System“, wo zunächst der „aggregation agent“ tätig wird, die Log-Daten auswertet und alle relevanten Empfehlungen generiert. Diese Empfehlungen werden in einem Repository gespeichert. Wichtig ist es an dieser Stelle zu erwähnen, dass die Empfehlungen ohne Wissen über den Inhalt der Dokumente generiert werden. Die einzige Information, die im Rahmen der Empfehlungsgenerierung benötigt wird, ist eine eindeutige Identifikation für jedes Dokument, welche sich aus einer Dokument-ID und einer ID der Bibliothek zusammensetzt, aus der das

- 28 -

Dokument stammt. Die Beschreibung der Dokumente erfolgt durch das Standard-Metadatenformat in deutschen Bibliotheken, das so genannte „Maschinelle Austauschformat für Bibliotheken“ (MAB).

Der „pre-generation agent“ hat die Aufgabe, die generierten Empfehlungen auf Übereinstimmung mit dem MAB zu prüfen. Fällt bei der Überprüfung auf, dass die Bibliotheks-ID fehlt, kommuniziert der „pre-generation agent“ mit dem „doc-info agent“ der lokalen Bibliothek, welcher die MAB Daten extrahiert und an den „pre-generation agent“ zurück sendet. Diese aktualisierten Daten werden im Repository wiederum gespeichert. Sind die Empfehlungen korrekt, werden Webseiten mit Empfehlungslisten generiert und im „web page repository“ für mögliche Abrufe bereitgehalten.

Um den Benutzer gleichzeitig zu seiner Abfrage die für ihn relevanten Empfehlungen vorzuschlagen, überprüft der „visualization agent“ das „web page repository“, ob für das gerade abgefragte Dokument relevante Empfehlungswebseiten vorliegen und liefert einen Link zu dieser Seite oder direkt die Liste der Empfehlungen zurück an den Benutzer.

Unabhängig von allen anderen Agenten sammelt schließlich der „evaluation agent“ Beurteilungen von Experten oder anderen Benutzern und speichert diese Beurteilungen für spätere Analysen.

Das Prinzip, das der Generierung der Empfehlungen zu Grunde liegt, ist „Ehrenbergs’s

Repeat-Buying Theorie“. Vorwiegend findet diese Theorie im Marketing Anwendung. Damit kann in digitalen Bibliotheken die Häufigkeitsverteilung von gemeinsam (in einer Session) betrachteten digitalen Dokumenten beschrieben werden. Dokumente, die in einer Session häufiger als erwartet gemeinsam auftreten, werden bei der Empfehlungsgenerierung berücksichtigt. Nicht zufällig gemeinsam auftretende Dokumente bzw. nicht zufällig gemeinsam gekaufte Produkte wie „a six-pack of beer, spare-ribs, potatoes, and barbecue-sauce for dinner“ werden nicht berücksichtigt.

Eine interessante Frage, die beim Einsatz von Recommender Systemen auftritt, ist die

Frage der anfallenden Kosten. Da die Software ausschließlich aus frei verfügbaren Open-Source Quellen stammt, fallen

softwareseitig keine Kosten an. Die Kosten der Hardware halten sich mit $2500 für einen mit einem 1,2 GHz AMD Athlon

Prozessor sowie einem 1,5 GB großen Hauptspeicher ausgestatteten PC auch im Rahmen. Somit sollte die Leistbarkeit des Systems für digitale Bibliotheken keinen allzu großen

Hemmschuh für den Einsatz dieses Empfehlungssystems darstellen. Somit löst diese Variante auch einige Probleme aus Kapitel 4.4 Die Datenmenge ist auf

mehrere Systeme aufgeteilt und die Kosten konnten gering gehalten werden.

- 29 -

6 Konklusio

Recommender Systeme können in digitalen Bibliotheken ein hilfreiches Service darstellen und den Nutzen und die Zufriedenheit der Benutzer der digitalen Bibliothek positiv beeinflussen. Dies allerdings nur dann, wenn die vom Recommender System generierten Empfehlungen dem Benutzer brauchbar erscheinen. Andernfalls wird der Benutzer der digitalen Bibliothek möglicherweise den Rücken kehren.

Festzuhalten bleibt, dass je mehr ein System über einen Benutzer weiß, desto bessere Empfehlungen können generiert werden. Das sieht man auch an den Ergebnissen in Bezug auf Precision und Recall, bei dem hybride Techniken klare Vorteile gegenüber „klassischen“ ähnlichkeitsbasierten Techniken haben. Kann man das wahre Interesse der einzelnen Benutzer ermitteln, können die Empfehlungen noch präziser und individueller gestaltet werden. Es muss also getrachtet werden, so viele Informationen über Benutzer zu gewinnen wie möglich. Um noch individueller auf einzelne Benutzer der digitalen Bibliothek sowie auf deren Anforderungen (beispielsweise aufgrund Behinderungen) einzugehen und deren Nutzen weiter zu steigern, gibt es weitere brauchbare Tools.

Jedoch existieren auch teilweise ernsthafte Probleme bzw. Bedenken, die in digitalen Bibliotheken im Allgemeinen sowie beim Einsatz von Recommender Systemen in digitalen Bibliotheken im Speziellen entstehen können. Diese müssen jedenfalls beachtet und geklärt werden.

Machen Recommender Systeme in digitalen Bibliotheken Sinn? Recommender Systeme in

digitalen Bibliotheken machen jedenfalls Sinn, wenn es gelingt, Empfehlungen mit hoher Precision und hohem Recall zu generieren, da der Nutzen für Benutzer hoch ist und Kosten für das System relativ niedrig gering gehalten werden können (siehe Bibliotheksportal Karlsruhe).

Trotzdem bleibt aus Sicht des Autors festzuhalten: Lieber auf Recommender Systeme in digitalen Bibliotheken verzichten, als eine nicht ausgereifte Entwicklung zum Einsatz bringen.

- 30 -

7 Literaturverzeichnis [BalaoJ] Balabanovic, M.: An Adaptive Web Page Recommendation Service. Stanford. [BaSh97] Balabanovic, M.; Shoham Y.: Fab: Content-Based, Collaborative Recommendation. Stanford. [Chee00] Sonny Hang Seng Chee: Rec Tree: A Linear Collaborative Filtering Algorithm. Toronto 2000. [CrKr02] Barrueco Cruz, J.; Krichel, T.: Co-usage of documents in a large digital library. 2002. [DigB05] DigBib.org: Die freie digitale Bibliothek. http://www.digbib.org, abgerufen am 2005-03-27. [FabroJ] Fabrizcek, S.: Personalisierung und Recommender Systeme - Einführung und Überblick. München. [Fisc03] Fischer, M.: Ein Beitrag zu Ähnlichkeitsmaßen im Kontext von Wissensmanagement-Systemen. Graz. 2003. [GeMG01] Geisler G.; McArthur, D.; Giersch, S.:: Developing Recommendation Services for a Digital Library with Uncertain and Changing Data. Roanoke 2001. [GeNT04] Geyer-Schulz, A; Neumann, A.; Thede, A.: An Architecture for Behavior-Based Library Recommender Systems. http://www.ala.org/ala/lita/litapublications/ital/2204geyer.htm, abgerufen am 2004-03-22. [GMBMoJ] Di Giacomo, M.; Mahoney D.; Bollen J.; Monory-Hernandez, A.; Ruiz Meraz C.M.: MyLibrary, A Personalization Service for Digital Library Environments. Los Alamos. [HCOC02] Huang, Z.; Chung, W.; Ong, T.-H.; Chen,H.: A Graph-based Recommender System for Digital Library. Tucson 2002. [LaFL98] Laundauer T.K.; Flotz, P.W.; Laham, D.: An Introduction to Latent Semantic Analysis. 1998. [Lein98] Leiner B. M.: The Scope of the Digital Library. http://www.diglib.org/metrics/public/papers/dig-lib-scope.html , abgerufen am 2005-03-27. [NiTP04] Nichols, D.M; Twidale, M.B.; Paice, C.D.: Recommendation and Usage in the Digital Library. http://www.comp.lancs.ac.uk/computing/research/cseg/projects/adriane/docs/ recommend.html, abgerufen am 2004-03-22. [o.A.a] o.V.: http://www.worldwideachives.de/i_impressum.htm, abgerufen am 2005-04-02. [o.A.b] o.V.: http://www.software-kompetenz.de/?15854, abgerufen am 2005-03-27.

- 31 -

[o.A.c] o.V.: http://www.library.vcu.edu/mylibrary/cil99.html, abgerufen am 2005-05-10. [Pann04] Panny, W.: Information Retrieval. Wien. 2004. [Raja04] Rajashekar T. B.: Digital Library and Information Services in Enterprises. http://144.16.72.189/is214-2005-01-04/topic-1.htm, abgerufen am 2005-03-27. [SAPN99] Stephanidis, D.; Akoumianakis, D.; Paramythis, A.; Nikolaou, C.: User interaction in digital libraries: coping with diversity through adaptation. Springer-Verlag, 2000. [ShDA02] Shuang, S.; Dong, A.; Agogino, A.: Modeling Information Needs in Engineering Databases Using Tacid Knowlede. Berkeley 2002. [Wiki05a] Wikipedia: Recommender System. http://en.wikipedia.org/wiki/Recommender_system, abgerufen am 2005-03-27. [Wiki05b] Wikipedia: Digitale Bibliothek. http://de.wikipedia.org/wiki/Digitale_Bibliothek, abgerufen am 2005-03-27. [Wiki05c] Wikipedia: Freie Inhalte. http://de.wikipedia.org/wiki/Freie_Inhalte, abgerufen am 2005-03-27. [YaLi05] Yang, Y.; Li J. Z.: Interest-based Recommendation in Digital Library. 2005.

Documents

Bakkalaureatsarbeit - michael.hahsler.net · based on similarities between users or content similarities between documents or they can try to consider what the real individual information