22
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 8. Workshop - Internetarchivierung 3 . 1 . E r f a s s u n g / B e w e r t u n g / T r a n s f e r 3 . 1 . E r f a s s u n g / B e w e r t u n g / T r a n s f e r Problembereiche bei der Spiegelung der Websites mit Offline Explorer Pro: 2. Teile der Website befinden sich auf einem zweiten Server (häufig css oder Bilddateien) 3. Mouseover-Grafiken müssen nachgeladen werden (JavaSkript-Navigation) 4. Session-Id‘s (schon vorhandene Dateien werden nicht als solche erkannt, da sie eine neue Session-ID haben) 5. Ursprüngliche xml-Dateien werden nicht als html-Dateien erkannt und „geparst“ 6. Dynamisch aufgebaute Webseiten werden in statische html-Seiten umgewandelt (großes Datenaufkommen, Interaktionsmöglichkeiten sind zum Teil auf den gespiegelten Webseiten nicht mehr möglich) 1. Die Website liegt nicht auf dem gedachten Server (es befindet sich dort nur eine Weiterleitung)

8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

Embed Size (px)

Citation preview

Page 1: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Problembereiche bei der Spiegelung der Websites mit Offline Explorer Pro:

2. Teile der Website befinden sich auf einem zweiten Server(häufig css oder Bilddateien)

3. Mouseover-Grafiken müssen nachgeladen werden(JavaSkript-Navigation)

4. Session-Id‘s (schon vorhandene Dateien werden nicht als solche erkannt, da sie eine neue Session-ID haben)

5. Ursprüngliche xml-Dateien werden nicht als html-Dateien erkannt und „geparst“

6. Dynamisch aufgebaute Webseiten werden in statische html-Seiten umgewandelt (großes Datenaufkommen, Interaktionsmöglichkeiten sind zum Teil auf den gespiegelten Webseiten nicht mehr möglich)

1. Die Website liegt nicht auf dem gedachten Server(es befindet sich dort nur eine Weiterleitung)

Page 2: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 2

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

1. Die Website liegt nicht auf dem gedachten Server

Beide URLs werden in das Spiegelungsprogramm eingegeben. Letztere mit der Einschränkung auf den Unterordner „der“.

Die Homepage des SPD-Unterbezirks Dresden-Elbe-Röder

http://www.spd-der.de/

liegt eigentlich auf

http://spdnet.sozi.info/sachsen/der/

Beispiel: Mögliche Lösung:

Page 3: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 3

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

http://spdnet.sozi.info/sachsen/der/

Beispiel zu Punkt 1

Page 4: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 4

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

2. Teile der Website befinden sich auf einem zweiten Server

Homepage des ehemaligen NRW-Landtagsabgeordneten Georg Scholz

http://www.georg-scholz.de/

Css-Dateien und ein Teil der Bilder liegen auf der RuhrOstSPD.

Beispiel:

Das Spiegelungsprogramm „darf“ Css- und Bilddateien auch von anderen Servern holen.

Mögliche Lösung:

Page 5: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 5

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Beispiel zu Punkt 2 (ohne css und Bilder)

Page 6: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 6

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Beispiel zu Punkt 2 (mit css und Bildern von anderem Server)Beispiel zu Punkt 2 (mit css und Bildern von anderem Server)

Page 7: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 7

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

3. Mouseover-Grafiken müssen nachgeladen werden

Homepage des SPD-Ortsvereins Bad Sooden-Allendorf

http://www.badsoodenallendorf.de/

JavaScript-Navigation verwendet Buttons, die beim Mouseover ausgetauscht werden. Die Mouseover-Buttons fehlen nach der Spiegelung.

Beispiel:

Mit Hilfe des „LogWindow“ im Spiegelungsprogramm lassen sich die Namen und Pfade fehlender Dateien ermitteln und nachträglich gezielt nachladen.

Mögliche Lösung:

Page 8: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 8

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Beispiel zu Punkt 3 (ohne Mouseover-Bilder)

Page 9: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 9

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Beispiel zu Punkt 3 (mit Mouseover-Bildern)

Page 10: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 10

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

4. Session-Id‘s

Beispiel:

Der Offline Explorer bietet die Möglichkeit, Teile der URL beim Spiegelungsprozess zu entfernen bzw. auszutauschen (URL Substitutes...).In diesem Falle wurde die Session-ID entfernt.

Mögliche Lösung:

Homepage des SPD-Ortsvereins Wulfen

http://www.spd-wulfen.de/

Schon vorhandene Dateien werden nicht als solche erkannt, da sie eine neue Session-ID haben. Der Spiegelungsprozess kommt nicht zum Ende und die Dateien sind, jeweils unter einem neuen Ordner abgelegt, mehrfach vorhanden.

Page 11: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 11

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

http://www.spd-wulfen.de/.net/DGPPKGPTGPTTVVGQGCPCQC/html/1967/welcome.html

Beispiel zu Punkt 4 (Session-Id in rot)

Page 12: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 12

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Vergleich der Dateistruktur mit (links) und ohne (rechts) Session-ID

Page 13: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 13

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

5. Ursprüngliche xml-Dateien werden nicht als html-Dateien erkannt und „geparst“

Homepage des SPD-Landesverbandes Sachsen-Anhalt

http://www.spd-sachsen-anhalt.de/

Mit Ausnahme der durch das Spiegelungsprogramm angelegten Startseite (default.htm), wird beim Aufruf der Dateien mit dem Browser eine Fehlermeldung ausgegeben, da den Dateien sowohl die Dateiendung .htm als auch ein Starttag <HTML> fehlt.

Beispiel:

Der Offline Explorer bietet die Möglichkeit, ein komplettes „Spiegelungsprojekt“ zu exportieren. Dabei werden die Dateien analysiert und automatisch ein <HTML>Tag an den Anfang des Quelltextes gesetzt. Der Browser erkennt dann die Datei als html.

Mögliche Lösung:

Page 14: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 14

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Beispiel zu Punkt 5 (Fehlermeldung bei den gespiegelten Seiten vor dem Export)

Page 15: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 15

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

<?xml version="1.0" encoding="iso-8859-1"?>

Quelltext vor dem Export

Page 16: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 16

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Webseite nach dem Export

Page 17: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 17

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

<HTML>

<?xml version="1.0" encoding="iso-8859-1"?>

Quelltext nach dem Export

Page 18: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 18

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Homepage der hessischen Landtagsabgeordneten Heike Habermann

http://www.heike-habermann.de/

Durch das Aneinanderreihen verschiedener Übergabeparameter im Dateinamen werden im Laufe der Spiegelung sehr viele Dateien angelegt, welche sich oft nur in Nuancen unterscheiden.

Beispiel:

Durch URL-Substitutes, Ausschluss bestimmter Dateinamen oder auch durch eine Verringerung der Linktiefe lässt sich der Umfang einer solchen Spiegelung verringern. Dennoch bleibt ein hohes Datenaufkommen (eventuell auch mit vielen Redundanzen) bei relativ geringem inhaltlichen Gewinn

Mögliche Lösung:

6. Dynamisch aufgebaute Webseiten werden in statische html-Seiten umgewandelt (großes Datenaufkommen, Interaktionsmöglichkeiten sind zum Teil auf den gespiegelten Webseiten nicht mehr möglich)

Page 19: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 19

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Interaktion ohne Client-Server-Dynamik:

ServerServer

Client 1Client 1 Client 2Client 2 Client 3Client 3

Anfragen

Vorproduzierte statische Inhalte(html-Seiten)

Statische Standard-WebseitenClientseitige Interaktivität (JavaScript, JavaApplets, skriptfähige Animationen wie Flash)

Page 20: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 20

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Interaktion mit Client-Server-DynamikDynamische Webseiten

ServerServer

Client 1Client 1 Client 2Client 2 Client 3Client 3

Anfragen

Dynamische Webseiten (zum Teil datenbankgestützt), die beim Browser des Clients als html-Seiten ankommen

1. Serverseitiges Skripting (ASP, JSP, PHP) 2. Serverseitig installierte Zusatzprogramme

(plugins, cgis)

Page 21: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 21

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

• www.heike-habermann.de\ redsys\pub_content.asp@content=2&menu=01000000&y=2005&c=w&w=4&id=335

• www.heike-habermann.de\• redsys\pub_content.asp@content=2&menu=02000000&y=2005&c=w&w=4&id=335

„ Die Edith-Stein-Schule werde “

Beispiel zu Punkt 6 (zwei Dateien einer dynamischen Webseite)

Page 22: 8. Workshop - Internetarchivierung 3.1. Erfassung/Bewertung/Transfer 07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1 Problembereiche bei der

07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 22

8. Workshop - Internetarchivierung3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r3

.1. E

rfassu

ng/B

ew

ertu

ng/T

ransfe

r

Die Suche in den Dateien der Spiegelung www.heike-habermann.de nach einem bestimmten Artikel ergab 50 Treffer: