Upload
dongoc
View
216
Download
0
Embed Size (px)
Citation preview
1
Themenbereich Mehrsprachigkeit in
Informationssystemen
GAL Jahrestagung 2007
Marc Ahrens, Marco Blum, Thomas Mandl
Informationswissenschaft, Universität Hildesheim
27. Sept. 2007
Identifikation mehrsprachiger Seiten im Internet
Sprachverteilung im Internet
http://www.internetworldstats.com
Wie multilingual ist das Web?
• Dokumente in zahlreichen Sprachen
• aber ...– gibt es Links zwischen Dokumenten
verschiedener Sprache?
– werden diese benutzt?
– gibt Dokumente mit mehreren Sprachen?
– was sind die Gründe für Mehrsprachigkeit?• Zitate, Parallel-Versionen, ...
Link-Analyse
• Existieren Links zwischen Seiten in verschiedenen Sprachen?– Oder gibt es mehrere parallele Webs in den
einzelnen Sprachen?
• Werden solche Links genutzt?
Empirische Ergebnisse
• Site mit Gesundheitsinformationen– Wenig Links zwischen Seiten verschiedner
Sprachen existieren
– In einem Log-File zeigte sich, dass diese wenig genutzt werden
Kralisch & Mandl (2006)
Empirische Ergebnisse
• Links zwischen Universitätsseiten– in den die meisten europäischen Ländern
liegen 50% aller Universitätsseiten auf Englisch vor
– Ländern zwischen Ländern existieren, vor allem auf Englisch-sprachige Länder
– trotzdem herrschen Links zwischen Ländern
Thelwall (2004)
2
• zunehmend mehr Links auf Versionen von Web-Seite, die automatisch übersetzt sind
Überblick• Sprachidentifikation
– System LangIdent
• Mehrsprachigkeit im Web– Überblick– Web-Korpus
• Identifikation von Seiten mit mehreren Sprachen– LangIdent für Mehrsprachigkeit– Einbindung in Web-Crawler
Sprachidentifikation?Language identification: a solved
problem
Paul McNamee February 2005 Journal of Computing Sciences in Colleges, Volume
20 Issue 3
However ...
hard for many languages
hard for short texts
hard for documents with more languages(that means in the Web)
(and hard under time pressure)
State of the art: Sprachidentifikation
• Wortbasierter Ansatz– „frequent word“ oder „common word“
Methode M. J. Martino & R. C. Paulsen 1996, 1999, 2001C. Souter et al. 1994J.Cowie et al. 1999
– „short word“ Methode J. M. Prager 1999
– Geschlossene WortklassenR. D. Lins & P. Gonçalves 2004
State of the art: Sprachidentifikation
• N-Gramm basierter Ansatz – W. B. Cavnar & J. M. Trenkle 1994– T. Dunning 1994– M. Damashek 1995, u.a.
• N-Grammeine Sequenz von n (n=1,2,3,… Zeichen) aufeinander folgenden Zeichen eines längeren Strings bzw. Wortes
Z.B.: „Information“ wird in folgende Tri-Gramme zerlegt:
inf, nfo, for, orm, rma, mat, ati, tio, ion
LangIdent:
Sprachidentifikation für mono-und multilinguale Dokumente
3
LangIdent: Sprachidentifikation monolingualer Dokumente
• Implementierte Klassifikationsmethoden– Vector Space Modell– Ad Hoc Ranking – Bayes‘sche Entscheidungsregel– Wortbasierte Methode
• Repräsentationen – Tri-Gramme– Wörter
Evaluation Multi-Linguale Dokumente
Korpus
• Reale Internet-Dokumente• Synthetisch erzeugte Dokumente
– Drei Methoden zur Erzeugung von Phänomenen, wie sie in den realen Texten auftreten:
• XY: Zwei Sprachen hintereinander (wie paralleler Text)
• XYX: Ein Textabschnitt in Sprache Y wird eingefügt (wie beim Zitat)
• XYZ: Drei Sprachen hintereinander im Dokument
Ergebnisse: Sprachidentifikation
TypeAll languages in document correctly
identified
Internet 97 %
XY 96 %
XYX 95 %
XYZ 97 %
4
Ergebnisse: Position des Sprachwechsels
Type
Exact position
1
word off
2 words
off
3
words off
4
words off
Cumulative for at most 2 words off
Internet 29 % 26 % 26 % 10 % 3.2 % 81 %
XY 38 % 40 % 16 % 2.0 % - 94 %
XYX 20 % 55 % 10 % 10 % - 85 %
XYZ 39 % 45 % 13 % - - 97 %
Identifikation mehr-sprachiger Dokumente:
LangIdentPP
Screenshot
Screenshot Screenshot
5
Zusätzliche Evidenz für Sprachwechsel: Layout
• Kombination von sprachlichen und Layout-Evidenz• Fünf Stufen von Sicherheit für einen Sprachwechsel abhängig
von HTML Knoten und verschiedene Fenster-Größen– In allen Standardintervall-Auswertungen wurde zu Beginn des
Knotens ein Sprachwechsel gefunden.– In allen Standardintervall-Auswertungen wurde im Knoten, bei
mindestens einem jedoch nicht zu Beginn, ein Sprachwechsel gefunden.
– Ein Sprachwechsel wurde am Anfang des Knotens bei den Intervallen „5“ und „10“ festgestellt, jedoch nicht bei der Intervallgrößen-Auswertung „20“
– Ein Sprachwechsel wurde innerhalb des Knotens bei den Intervallgrößen-Auswertungen „5“ und „10“ festgestellt, jedoch nicht zu Beginn des Knotens
– Ein Sprachwechsel wurde nur bei Intervallgrößen-Auswertung „5“zu Beginn des Knotens gefunden
Screenshot Auswertung
Analyse
• Speichern der Auswertung als XML Datei
• Analysen mit XPath-Query Anfragen möglich– Bsp.:
– //TotalEvaluation/ResourceNodes[@class=“Klasse1“ or @class=“Klasse 3“]
– Liefert alle Knoten die das Attribut class mit dem Wert „Klasse 1“ oder „Klasse 3“ besitzen.
Ausblick
• Analyse mehrsprachiger Seiten
• Aufbau eines Korpus