Herausforderungen von Big Data für die Bibliotheks- und …jaeschkr/teaching/files/... ·...

Preview:

Citation preview

Herausforderungen von Big Data für die

Bibliotheks- und Informationswissenschaft

Prof. Dr. Robert JäschkeLeibniz Universität Hannover

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 2

Stand der Vorlesung

Kapitel 10: Big-Data-Technologien● Einführung● LIS und Big Data● Methoden und Technologien

Volume Velocity Variety Veracity

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 3

Thema und Lernziele

● LIS und Big Data– Fokus auf wissenschaftliche Bibliotheken

● Lernziele– verstehen, warum/wie Big Data Bibliotheken betrifft

– den Unterschied zu traditionellen Medien verstehen

– Herausforderungen für Bibliotheken (er)kennen und aus Fallbeispielen ableiten können

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 4

LIS und Big Data

What is the Library's role with “big data”? What is the Library's role

with any information?

(R. Munroe/M. Furlough)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 5

LIS und Big Data

1.Beispiele

2.Ursachen

3.Herausforderungen

4.Fallbeispiel: Web-Archivierung

Sammeln

Erschließen

Vermitteln

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 6

Velocity

In every 24-hour period approximately 20,000,000 words of technical information are being recorded. A reader capable of reading 1,000 words per minute would require 1.5 months, reading 8 hours every day, to get through 1 day’s technical output, and at the end of that period, he would have fallen 5.5 years behind in his reading!

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 7

Velocity

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 8

Velocity

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 9

Volume

(R. Munroe)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 10

Volume

(M.

Laak

so, B

.-C

. B

jörk

)

(R. Munroe)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 11

Volume

(M.

Laak

so, B

.-C

. B

jörk

)

(R. Munroe)

Some scientists claim it takes less time to do an experiment than to find out whether or not it has been done before.

(J. Naisbitt, 1982)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 12

Variety

J. Jansson/norden.org

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 13

Variety

J. Jansson/norden.org

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 14

Variety

J. Jansson/norden.org

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 15

Variety

J. Jansson/norden.org

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 16

Variety

J. Jansson/norden.org

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 17

Variety

J. Jansson/norden.org

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 18

Variety

J. Jansson/norden.org

DLR

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 19

Variety

J. Jansson/norden.org

DLR

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 20

Variety

J. Jansson/norden.org

DLR

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 21

Variety

J. Jansson/norden.org

DLR

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 22

Veracity

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 23

Ursachen

● Wissensgesellschaft● Wachstum und Wohlstand● globaler Wettbewerb● Digitalisierung● Open Science● Anforderungen aus Politik und Gesellschaft● Data-intensive Science● Wandel der Rolle von Bibliotheken

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 24

Herausforderungen

Sammeln

Erschließen

Vermitteln

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 25

Herausforderungen

Volume Velocity Variety Veracity

Sammeln

Erschließen

Vermitteln

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 26

Herausforderungen

Volume Velocity Variety Veracity

Sammeln

Erschließen

Vermitteln

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 27

Herausforderungen

poorly organized collections; poor search tools and lack of accessibility and findability of internal data sets; lack of awareness of available third-party data sets; and copyright and intellectual property issues

(G.-L. Murnane, 2012)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 28

Fallbeispiel: Web-Archivierung

Johannes Jansson/norden.org

DLR

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 29

Fallbeispiel: Web-Archivierung

Johannes Jansson/norden.org

DLR

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 30

Fallbeispiel: Web-Archivierung

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 31

Fallbeispiel: Web-Archivierung

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 32

Fallbeispiel: Web-Archivierung

To do a large-scale social, political, or economic history of periods after the mid 1990s will at the very least be considerably enhanced by an understanding of Web data.

(William J. Turkel, Professor of History, 2015)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 33

Fallbeispiel: Web-Archivierung

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 34

Fallbeispiel: Web-Archivierung

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 35

Fallbeispiel: Web-Archivierung

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 36

Volume

● Google¹: 60 Bill. Seiten

100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets

¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 37

Volume

● Google¹: 60 Bill. Seiten

100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets

¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/

Welche physikalischen Ressourcen stehen

zur Verfügung?

Was ist relevant?

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 38

Volume

● Google¹: 60 Bill. Seiten

100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets

¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/

Welche physikalischen Ressourcen stehen

zur Verfügung?

Was ist relevant? Wie können

automatisch Metadaten extrahiert werden?

Wie kann der Crawlprozess dokumentiert werden?

Was sind geeignete

Sammlungen?

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 39

Volume

● Google¹: 60 Bill. Seiten

100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets

¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/

Welche physikalischen Ressourcen stehen

zur Verfügung?

Was ist relevant? Wie können

automatisch Metadaten extrahiert werden?

Was sind skalierbare Methoden für

Indexierung, Suche und Retrieval?

Wie kann die Infrastruktur vorgehalten

werden?

Wie kann der Crawlprozess dokumentiert werden?

Was sind geeignete

Sammlungen?

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 40

Velocity

● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)

¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 41

Velocity

● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)

Wie schnell kann selektiert

werden?

Wann ist ein Crawl komplett?

Was sind geeignete (Re)Crawl-Strategien?

¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 42

Velocity

● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)

Wie schnell kann selektiert

werden?

Wann ist ein Crawl komplett? Was ist mit

verschiedenen Versionen

einer Seite?

Wie aktuell sind die

Metadaten?

Was sind geeignete (Re)Crawl-Strategien?

¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 43

Velocity

● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)

Wie schnell kann selektiert

werden?

Wann ist ein Crawl komplett? Was ist mit

verschiedenen Versionen

einer Seite?

Welche Änderungen sollen bewahrt werden?

Wie kann die Infrastruktur mitwachsen?

Wie aktuell sind die

Metadaten?

Wie kann die Evolution von

Entitäten beachtet werden?

Wie schnell soll Zugriff möglich sein?

Was sind geeignete (Re)Crawl-Strategien?

Welche Version

einer Seite ist relevant?

¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 44

Variety

● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …

¹ https://en.wikipedia.org/wiki/List_of_file_formats

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 45

Variety

● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …

Was ist handhabbar?

Wie hoch ist der

Aufwand?

¹ https://en.wikipedia.org/wiki/List_of_file_formats

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 46

Variety

● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …

Was ist handhabbar?

Wie hoch ist der

Aufwand?

Wie kann man inhaltlich

zusammenfassen?

Was sind geeignete

Beschreibungen?

¹ https://en.wikipedia.org/wiki/List_of_file_formats

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 47

Variety

● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …

Was ist handhabbar?

Wie hoch ist der

Aufwand?

Wie kann man inhaltlich

zusammenfassen?

Wie sah eine Webseite zu ihrer

Erstellungszeit aus?

Wie können wir Zugang bewahren?

Was sind geeignete

Beschreibungen?

¹ https://en.wikipedia.org/wiki/List_of_file_formats

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 48

Veracity

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 49

Fazit

big data affects libraries directly and tangentially: directly because your library can use big data tools to analyze your big data sets; and tangentially, as the faculty at your school will increasingly incorporate big data into their research

(Mark Bieraugel: Keeping up with... Big Data, 2013)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 50

Fazit

There has probably never been a better time to be a librarian or an information professional. We live in an information society with access to more information than ever before, and librarians have an important role to play if people are going to successfully avoid the much discussed information overload.

(D. Stuart, Centre for e-Research, King’s College London)

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 51

Kontrolle des Lernerfolgs

● Wie sind die LIS-Aufgabenbereiche durch Big Data betroffen?

● Welche Herausforderungen ergeben sich bei der Web-Archivierung?

● Erarbeiten Sie für ein anderes Fallbeispiel die Herausforderungen, die sich für LIS durch die Eigenschaften von Big Data ergeben.

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 52

Literatur

● G.-L. Murnane, 2012: Big Data: A Big Opportunity for Librarians

● M. Bieraugel, 2013: Keeping up with... Big Data

● F. Lohmeier, J. Mittelbach, 2014: Offenheit statt Bündniszwang

● D. Salo, 2010: Who owns our work?

● R. Brugbauer, V. Butz, 2015: Die Bibliothek: Raum im digitalen Wandel

2016-04-12 Robert Jäschke, Leibniz Universität Hannover 53

Stand der Vorlesung

Kapitel 10: Big-Data-Technologien● Einführung● LIS und Big Data● Methoden und Technologien

Volume Velocity Variety Veracity

Recommended