31
Das Webarchiv Österreich Andreas Predikaka Österreichische Nationalbibliothek [email protected] https://webarchiv.onb.ac.at Kulturerbe Web, 29.03.2019 1

Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Das Webarchiv Österreich

Andreas Predikaka

Österreichische Nationalbibliothek

[email protected] https://webarchiv.onb.ac.at

Kulturerbe Web, 29.03.2019 1

Page 2: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

2

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Page 3: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Rechtliche Basis

• 1998 ezines.onb.ac.at 1

• 1999 Pilotprojekt AOLA 2

• 2005 Anregung einer Novelle zum Mediengesetz

• 2007 Machbarkeitsstudie

• 2008 Begutachtungsverfahren abgeschlossen und Projektstart Webarchiv Österreich

• Herbst 2008 Neuwahlen

• 2009 Mediengesetznovelle

3

(1) https://webarchiv.onb.ac.at/web/20120203110731/http://ezines.onb.ac.at:8080/quint/

(2) https://www.ifs.tuwien.ac.at/~aola/

Das Webarchiv Österreich, 16.05.2019

Page 4: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Mediengesetz (Sammlung)

• Novelle 1. März 2009 1

• Ablieferungspflicht für Online-Medien

• Berechtigt 4x jährlich die generelle Sammlung von Medieninhalten unter .at oder Domains mit inhaltlichen Bezug zu Österreich

• Berechtigt auch einzelne Medieninhalte zu sammeln, wenn der Medieninhaber davor schriftlich in Kenntnis gesetzt wird

• Passwort geschützte Seiten, wenn archivierungswürdig

4

(1) https://www.ris.bka.gv.at/Dokument.wxe?Abfrage=BgblAuth&Dokumentnummer=BGBLA_2009_I_8

Das Webarchiv Österreich, 16.05.2019

Page 5: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

5

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Page 6: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Domain Crawl

Domain-Listen von Registrierungsstellen

Top-Level Domain .at (1,3 Mio)

TLD .wien (15.000)

TLD .tirol (4.000)

Andere Domains mit Österreich-Bezug (11.000, manuelle Auswahl)

Durchführung anfangs alle zwei Jahre (2009/11/13/15), seit 2017 jährlich

6 Das Webarchiv Österreich, 16.05.2019

Page 7: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Selektive Crawls

Medieninhaber wird per Email informiert

Medienkollektion (täglich)

Politikkollektion (täglich)

Frau / Gender (mehrmals jährlich)

Demnächst Crawl on demand

7 Das Webarchiv Österreich, 16.05.2019

Page 8: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Event Crawls

EU-Wahl 2009, 2014, 2019

Bundespräsidenten-Wahl 2010, 2016

Olympia 2010, 2014

Gedenkjahr Erster Weltkrieg 2014

Song Contest 2015

Flüchtlingskrise 2015

EU-Ratsvorsitz 2018

100 Jahre Republik 2018

8 Das Webarchiv Österreich, 16.05.2019

Page 9: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

9

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Page 10: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Software

• NetarchiveSuite 5.5

• Heritrix 3.3

• Umbra (dockerized)

• Openwayback 2.3.2

• Elasticsearch 6.5

• Kibana 6.5

10

Betriebssystem

• CentOS

Das Webarchiv Österreich, 16.05.2019

Page 11: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

NetarchiveSuite

• Entwicklung http://netarchive.dk 2004

• Open Source seit 7/2007 (LGPL)

• Kooperation:

• KB Dänemark (Kopenhagen/Aarhus)

• Bibliothèque nationale de France

• Spanische Nationalbibliothek

• KB Schweden

• Österreichische Nationalbibliothek

Das Webarchiv Österreich, 16.05.2019 11

Page 12: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

NetarchiveSuite

• Java 8 (auch OpenJDK)

• Postgresql

• Heritrix 3.3 (eigener Fork) voll integriert

• ARC und WARC Support

• Umbra Support

• Horizontal skalierbar

• Keine Benutzerverwaltung

• Domain steht im Zentrum

• Domains nicht löschbar

12 Das Webarchiv Österreich, 16.05.2019

Page 13: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

NetarchiveSuite

13 Das Webarchiv Österreich, 16.05.2019

Page 14: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

14

NetarchiveSuite

Page 15: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

15

NetarchiveSuite

Page 16: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

16

NetarchiveSuite

Page 17: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

17

NetarchiveSuite

Page 18: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Infrastruktur

• 8 Server für NetarchiveSuite (8 GB, 500 GB)

• 7 Server für Volltext (4-24 GB RAM)

• 4 Server für Tests, Umbra, Reporting und Administration (4-8 GB RAM)

• 3 Server für Zugriff (4 GB RAM) Zur Zeit Infrastrukturänderung: Server mit 16 GB für NetarchiveSuite. Die alten Server werden den Volltextcluster erweitern

• Speicher bis 2017 im Bundesrechenzentrum

• Seit 2017 im ZID (gespiegelt, Kopie ZAS)

• Speicherbudget: 6 TB pro Jahr

18 Das Webarchiv Österreich, 16.05.2019

Page 19: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

19

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Page 20: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Mediengesetz (Benützung)

• Benützung nur am Standort von berechtigten Bibliotheken

• Nur Ausdruck, kein elektronisches Verarbeiten

• Passwortgeschützte Seiten nur Einzeluser

• Sperren bis 1 Jahr möglich

• Regionale Aufteilung bei Selektiven und Event Harvestings (nach Sitz des Medieninhabers)

20

Das Webarchiv Österreich, 16.05.2019

Page 21: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Zugänge

Online Suche https://webarchiv.onb.ac.at

API https://webarchiv.onb.ac.at/api.html

Metadaten (auch kein Vorschautext)

Suche an Uni- und Landesbibliotheken

Daten aus den Domaincrawls

Suche an ÖNB und Administrativer Bibliothek des Bundeskanzleramtes

Alle Daten

21

Das Webarchiv Österreich, 16.05.2019

Page 22: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Berechtigte Bibliotheken

Administrative Bibliothek des Bundeskanzleramtes

Burgenländische Landesbibliothek

Kärntner Landesbibliothek

Niederösterreichische Landesbibliothek

Oberösterreichische Landesbibliothek

Österreichisches Staatsarchiv

Parlamentsbibliothek

Salzburger Landesarchiv (Bibliothek)

Steiermärkische Landesbibliothek

Tiroler Landesarchiv (Bibliothek)

Universitäts- und Landesbibliothek Tirol

Universitätsbibliothek der Universität Klagenfurt

Universitätsbibliothek Graz

Universitätsbibliothek Linz

Universitätsbibliothek Salzburg

Universitätsbibliothek Wien

Vorarlberger Landesbibliothek

Wienbibliothek im Rathaus

22 Das Webarchiv Österreich, 16.05.2019

Page 23: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Zugriff von berechtigten Bibliotheken

VPN (demnächst Zwei-Faktor Authentifizierung)

RDP-Session auf einen Terminalserver ohne Internet

Wayback mit eigenem Domain-Crawl Index

Zwischenablage-Funktion deaktiviert

Keine vertragliche Regeln mit Bibliothek

Bibliothek bestätigt nur, dass Weitergabe der Zugangsdaten ausgeschlossen ist

Elektronische Verarbeitung über Screenshots kann nicht ausgeschlossen werden

23 Das Webarchiv Österreich, 16.05.2019

Page 24: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

webarchiv.onb.ac.at

24 NetarchiveSuite Meeting, Aarhus, 29./30.10.12

Page 25: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

25 Kulturerbe Web, 29.03.2019

Page 26: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

26 Das Webarchiv Österreich, 16.05.2019

Page 27: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

27 Das Webarchiv Österreich, 16.05.2019

Page 28: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

28 Kulturerbe Web, 29.03.2019

Page 29: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Monat Unique Visitors

7/2016 29

7/2017 529

7/2018 556

8/2018 547

9/2018 653

10/2018 776

11/2018 895

12/2018 760

1/2019 911

2/2019 757

3/2019 814

4/2019 734

Page 30: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Kennzahlen

127 TB Speicher (komprimiert & dedupliziert 57,5 TB)

> 2 Mio. Domains

> 3,46 Mrd. Dateien

16 % ohne PUID (541 Mio. Dateien)

> 600.000 Arc Dateien

> 110 Mio. Objekte im Volltext (zur Zeit reduziert auf knapp 8 Mio.)

30 Das Webarchiv Österreich, 16.05.2019

Page 31: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,

Fragen?

Danke!

Kulturerbe Web, 29.03.2019 31

Andreas Predikaka

Österreichische Nationalbibliothek

[email protected] https://webarchiv.onb.ac.at