22
www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung“ in Tübingen am 8.-9. Januar 2007 von Dr. Thomas Latka

Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Embed Size (px)

Citation preview

Page 1: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

www.wadoku.deAuf dem Weg vom Wörterbuch

zur Webanwendung

Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung“

in Tübingen am 8.-9. Januar 2007von Dr. Thomas Latka

Page 2: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Vom Wörterbuch zur Webanwendung

Buch DateiWebanwendung mit Datenbank

Ein Autor

100% Einzelleistung

Keine Trennung zwischen Daten und Format

Institutionelle Wissenschaft

Viele Autoren, wenige Organisatoren

50% Qualitätssicherung, 50% Organisation der Community und Technik

Klare Trennung zwischen Daten und Format (Datenbank und Ausgabekanäle)

Wissenschaffung als dauernder, gemeinschaftlicher Prozess

Page 3: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Vom Wörterbuch zur Webanwendung

Ein namentlich bekannter Autor (der berühmt wird)

Einer schreibt, alle anderen lesen.

Ein aktueller Autor, andere können Updates schicken. Einer schreibt, alle anderen lesen.

viele Autoren in einer Community, keine Trennung zwischen Lesern und Autoren

Ergebnis: 100 % Einzelleistung Ergebnis: 90% Community-Leistung

Veröffentlichung: einmalig Veröffentlichung: häufig Veröffentlichung: immer

Medium: Papier Medium: Eine lokale Datei Medium: Internet

Keine Trennung von Daten und Format Nur Daten (teilw. Formatiert und nicht normalisiert, redundant)

Daten sind normalisiert in der Datenbank (ohne Redundanzen), Formatierung je nach Ausgabekanal anders (Web, XML, Print …)

Datenhaltung: Datei Datenhaltung: Datenbank

Umfang: möglichst viele Daten Umfang: möglichst viele Daten Umfang: nur Kerndaten, alle anderen werden gezogen, von dort wo sie am besten gepflegt werden (z.B. Wikipedia, andere Wörterbücher)

Keine Programme Lokale Programme ohne Versionierung und Kollaboration (Word, Excel, Filemaker)

Webbasierte Programme mit intelligenter Suche, Versionierung und Kollaboration: Wikis, GoogleSpreadsheet, Writely

Wissen schaffen, weil man dazu authorisiert ist (Organisation Wissenschaft)

Wissen schaffen, was nützlich ist (Leben fördert), und jeder kann dazu beitragen

Voraussetzung: institutionelle Authorisierung Vorraussetzung: technische Affinität Voraussetzung: Initiative, Spass am gemeinsamen Arbeiten

Technische Voraussetzung zur Erstellung und Nutzung: Schrift (Lesen und Schreiben)

Technische Voraussetzung: lokales Programm (Excel, Filemaker)

Technische Voraussetzung: Webanwendung, die kollaboratives Arbeiten erlaubt, muss programmiert werden

Beispiel: Brockhaus Beispiel: wadoku.csv Beispiel: wadoku.de, wikipedia.de

Wissenschaft als Einzelleistung Wissensschaffung als gemeinschaftlicher Prozess

Anforderung: 100% Manuskript schreiben (einmalig) Anforderung: 90% Dateipflege, 10% Updates integrieren

Anforderung: 80% Erstellen der Anwendung und Organisation der Community, 20% Kontrolle der Datenpflege

Suchlogik: Mensch Suchlogik: liegt außerhalb der Datei, so gut wie lokal installiertes Programm

Suchlogik: über Datenbank und Anwendung anpassbar nach Anforderung

Buch DateiWebanwendung mit Datenbank

Page 4: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

www.wadoku.de

• Seit 2001: www.wadoku.de• Basiert auf Ulrich Apels WaDokuJT-Datei• User können neue Einträge erstellen und kommentieren• Hierarchisierte Suchtreffer

Beste Treffer oben• System:

Dedicated Server JavaServerPages & MySQL Database

Page 5: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Entwicklung: 2001-2006

05000

10000150002000025000300003500040000

2002 2003 2004 2005 2006

Hits per Day Visits per Day

• Vier Jahre lang fast keine Änderungen am User-Interface• Steigende Suchanfragen: von 200 Hits pro Tag bis 35.000 Hits pro Tag• Von 10 Visits bis 4.000 Visits pro Tag

Page 6: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Status: Ende 2006

• über 4.000 Visits pro Tag

• über 40.000 Views pro Tag

Page 7: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Status: Ende 2006

Zugriffe aus:50 % Deutschland40 % Japan 5 % Österreich 3 % Schweiz

Innerhalb Deutschland:25 % NRW12 % Bayern10 % Hessen10 % Berlin 6 % Baden-Würt.

Innerhalb Japan: über 30 % aus Tokio

Page 8: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Status: Ende 2006

70% Wiederkehrende User(Stammkunden)

30% Neue User

60% der User kommen direkt über die URL www.wadoku.de

20 % kommen über Google

Page 9: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Status: Ende 2006

Europäisches Ausland:London ParisMadridGöteburgBudapest Außer Japan:

Peking SeoulShanghaiTaipeiSingapurUSA:

BurlingameMadisonBloomingdaleAmherst

Page 10: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Verbesserungen 2006: Schnellere Suche

Eine einzelne Suche dauert nur wenige Millisekunden:

Aufwendige Komposita-Suche braucht weniger wie eine Sekunde:

Trotz steigender Anfragen konnte die Suche mit optimiertem Index noch schneller gemacht werden:

Page 11: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Verbesserungen 2006: Änderungshistorie

Alle Änderungen der Einträge können nachvollzogen werden. Änderungen werden farblich hervorgehoben.

Page 12: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Verbesserung 2006: Nachschlagen in externe Quellen

Automatisches Nachschlagen aller Einträge in externen Quellen wie: Google, japanischen und englischen Wörterbücher, Wikipedia

http://dictionary.goo.ne.jp

Page 13: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Verbesserung 2006: Bewertung und Löschen von Einträgen

Editoren können Einträge akzeptieren oder zum Löschen markieren

Editoren

Page 14: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Verbesserung 2006: Editierfunktion für Editoren aus dem Forum

• Alle Felder können von den Editoren editiert werden

• Referenzen können per Schnellsuche hinzugefügt werden, und nicht nur per Text

• Kommentare können gelöscht oder bestätigt werden

Page 15: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Beiträge der Community 2006

• Über 4.000 Neueinträge (plus 2.000 Duplikate)

• Über 7.000 Änderungen und Fehlerbeseitigungen

• Bestätigte und gelöschte Kommentare

• Bestätigte oder angezweifelte Einträge

• Neues professionelles Forum:

• 130 registrierte User

• über 900 Beiträge

Page 16: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

Seit Ende 2006: Wadoku Wiki (vorallem für Japanische Grammatik)

• Wiki: jeder kann beitragen, wie bei Wikipedia

• Schon jetzt beachtlicher Inhalt:

Page 17: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

{Biologie} Baum {m}; Strauch {m} (große Pflanze)

<sense dom=„bio“><trans>

<tr>Baum</tr></trans><trans>

<tr>Strauch</tr><def>große Pflanze</def>

</trans></sense>

<DOM: Biologie> Baum {m}; Strauch {m} (<Expl.: große Pflanze>)

Text-Format

Tag-Format

XML-Format

<sense dom=„bio“><trans>

<tr>Baum</tr></trans><trans>

<tr>Strauch</tr></trans><def>große Pflanze</def>

</sense>

Entscheidung

Str

uktu

r2007: Der Prozess der Strukturanreicherung ist nötig und unumkehrbar

Page 18: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

2007: Vom Text zum XML-Format

{Biologie} Baum {m} (große Pflanze)

<sense dom=„bio“><trans>

<tr>Baum</tr><def>große Pflanze</def>

</trans></sense>

<DOM: Biologie> Baum {m} (<Expl.: große Pflanze>)

Baum : m

Text-Format

Tag-Format

XML-Format (+ Tabellen)

bio : Biologie : 生物学

Text2Tag-Converter

Tag2XML-Converter

Page 19: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

An TEI (Text Encoding Initiative) angelehntes XML-Schema (XSD)

• TEI: De-facto Standard für die Kodierung und den Austausch von Texten innerhalb der Geisteswissenschaften (www.tei-c.org)

• TEI-Standard etwas vereinfacht und für Japanisch angepasst

• Echtzeit Umrechnung von Tag zu XML (Preview jederzeit)

Page 20: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

2007: XML-basierter Index

<sense dom=„bio“><trans>

<tr>Baum</tr><def>große Pflanze</def>

</trans></sense>

XML-Format

Domain-Index Usage-Index POS-Index

XML-Inhalt ist Grundlage für alle weitere Indizierungen

Page 21: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

2007: XML basierte Ausgabe in verschiedene Kanäle

<sense dom=„bio“><trans>

<tr>Baum</tr><def>große Pflanze</def>

</trans></sense>

Verschiedene Ausgabekanäle für neutrale XML-Daten möglich

HTML

Verschiedene angepasste Templates für Einsteiger und Profis

Webservice-XML

Verschiedene automatische Dienste

Print

Old School ausgedruckte Wörterbücher

Elektronische Geräte

Denshi-jisho

Page 22: Www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung in Tübingen am 8.-9

2007: Zukunft

Und es geht immer weiter …!