17
http://www.zib.de/dalitz [email protected] Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Wolfgang Dalitz Math-Net ein Netzwerk für die Mathematik SuMa Treffen ZIB Berlin 12.11.2005

Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) [email protected] Math-Net ein Netzwerk für die Mathematik

Embed Size (px)

Citation preview

Page 1: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

http://www.zib.de/[email protected]

Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

Wolfgang Dalitz

Math-Netein Netzwerk für die Mathematik

SuMa TreffenZIB Berlin 12.11.2005

Page 2: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Vision (1993)

• "Mathematical information at your fingertips"

• Weltweites elektronisches Informations- und

Kommunikationssystem (für die Mathematik, um die Forschung und Lehre zu verbessern und zu unterstützen)

Page 3: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Lokale Ressourcen

Software

ResearchInformation

Informationen über Personen

Informationen über Institute

PreprintsDissertationen

Jobs

Informations-services

Events

Math-Net

Lehr Material

Page 4: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Idee des Math-Net

• Verteiltes IuK-System• Basis: lokale elektronische

Informationen der beteiligten mathematischen Institutionen

• Dezentrale Organisation mit geringen zentralen Anteilen

• Offen und Qualitätsorientiert

Page 5: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Math-Net Seite Math-Net Seite oderoder Secondary Secondary HomepageHomepage

Einheitliche Struktur Einheitliche Struktur der beteiligten der beteiligten InstitutionenInstitutionen

Page 6: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Math-Net Math-Net SeitenSeitenin Deutschlandin Deutschland

Page 7: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

(MySQL-) Database

RDF RDFRDFRDFRDF

Navigator

PersonaMathematica

MPRESS

SIGMA

Links

Zentrale Datenbank als Basis der Math-Net DiensteZentrale Datenbank als Basis der Math-Net Dienste

Page 8: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Remote Auswertung der Math-Net Seiten

Math-Net Regionalpartner Math-Net Institutionen

Math-Net Database

Page 9: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Harvest: Broker/Gatherer Hierarchie

Broker

German Broker

Gatherer

WWWServer

FTPServer

Summarizer(Index)

European Broker

IMU Broker

Regional broker

Department Broker

EU

Kontj

i

Page 10: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Community-Driven Services

• Das Konzept der freiwilligen, kooperativen und offenen Zusammenarbeit hat objektive und subjektive Grenzen Manpower und Ressourcen Nur bedingt wissenschaftliche Anerkennung Wird nicht als "wichtig genug" angesehen Letztlich gibt es zu wenig Rückhalt "vor Ort"

Page 11: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Neuorientierung

• Suchmaschinen (Testlabor)• automatische Klassifikationsverfahren

Page 12: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Suchmaschinen:Generelle Vorgehensweise

• Phase I: Hole alle relevanten Objekte: Spider, Crawler, Gatherer

• Phase II: Verarbeite die relevante Information zu einem Index Summarizer• Indexer

• Phase III: Liefere ("gute") Ergebnisse Ranking

Page 13: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Kandidaten und Strategien

• Komplettsysteme (Phase I, II, III) harvest (gatherer, broker, glimpse) swish-e (spider.pl und indexierer) nutch (lucene)

• Teilsysteme Phase I: wget und w3mir Phase II: lucene Phase III: ??

Page 14: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

Vorgehensweise

lokal angepasste Kopien zweier unterschiedlicher Sites

www.mathematik-21.de

7371 Dateien, davon

2293 HTML 1160 Images 140 Text 81 PDF 19 PS

Rest: u.a. tmp, harvest

www.zib.de

70126 Dateien, davon

17981 HTML 17147 Images 2024 PDF 991 PS 140 Text

Rest: u.a. test

Faktor 10

Page 15: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

(vorläufiges) Fazit

• Suchmaschinen zu betreiben ist aufwendig erfordert hohes Maß an Kontrolle der einzelnen Phasen ist kein "Job mal so nebenbei"

• Suchmaschinen für eine Community zu betreiben ist ein Projekt bedarf ein koordiniertes Vorgehen sollte auf mehreren Schultern verteilt werden bedarf grösserer Resourcen

Page 16: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

unsere Empfehlung

• harvest ist weiterhin nicht schlecht, bedarf aber sehr hoher

Einarbeitung und Kontrolle der Ergebnisse ist eigentlich ideal für ein verteiltes, dezentrales

Vorgehen

• (wget) nutch/lucene, swish-e laufen relativ problemlos auf überschaubaren Sites Status bei sehr grossen Sites bzw. community

basierten Indexen unklar (Grössenordnung 1 Tbyte Daten)

Page 17: Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) dalitz@zib.de Math-Net ein Netzwerk für die Mathematik

Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz

www.math-net.orgwww.math-net.org