Identifikation mehrsprachiger Seiten im Internetmandl/events/GAL2007/GAL2007LangIdentCrawler.pdf · 2 • zunehmend mehr Links auf Versionen von Web-Seite, die automatisch übersetzt

1

Themenbereich Mehrsprachigkeit in

Informationssystemen

GAL Jahrestagung 2007

Marc Ahrens, Marco Blum, Thomas Mandl

Informationswissenschaft, Universität Hildesheim

[email protected]

27. Sept. 2007

Identifikation mehrsprachiger Seiten im Internet

Sprachverteilung im Internet

http://www.internetworldstats.com

Wie multilingual ist das Web?

• Dokumente in zahlreichen Sprachen

• aber ...– gibt es Links zwischen Dokumenten

verschiedener Sprache?

– werden diese benutzt?

– gibt Dokumente mit mehreren Sprachen?

– was sind die Gründe für Mehrsprachigkeit?• Zitate, Parallel-Versionen, ...

Link-Analyse

• Existieren Links zwischen Seiten in verschiedenen Sprachen?– Oder gibt es mehrere parallele Webs in den

einzelnen Sprachen?

• Werden solche Links genutzt?

Empirische Ergebnisse

• Site mit Gesundheitsinformationen– Wenig Links zwischen Seiten verschiedner

Sprachen existieren

– In einem Log-File zeigte sich, dass diese wenig genutzt werden

Kralisch & Mandl (2006)

Empirische Ergebnisse

• Links zwischen Universitätsseiten– in den die meisten europäischen Ländern

liegen 50% aller Universitätsseiten auf Englisch vor

– Ländern zwischen Ländern existieren, vor allem auf Englisch-sprachige Länder

– trotzdem herrschen Links zwischen Ländern

Thelwall (2004)

2

• zunehmend mehr Links auf Versionen von Web-Seite, die automatisch übersetzt sind

Überblick• Sprachidentifikation

– System LangIdent

• Mehrsprachigkeit im Web– Überblick– Web-Korpus

• Identifikation von Seiten mit mehreren Sprachen– LangIdent für Mehrsprachigkeit– Einbindung in Web-Crawler

Sprachidentifikation?Language identification: a solved

problem

Paul McNamee February 2005 Journal of Computing Sciences in Colleges, Volume

20 Issue 3

However ...

hard for many languages

hard for short texts

hard for documents with more languages(that means in the Web)

(and hard under time pressure)

State of the art: Sprachidentifikation

• Wortbasierter Ansatz– „frequent word“ oder „common word“

Methode M. J. Martino & R. C. Paulsen 1996, 1999, 2001C. Souter et al. 1994J.Cowie et al. 1999

– „short word“ Methode J. M. Prager 1999

– Geschlossene WortklassenR. D. Lins & P. Gonçalves 2004

State of the art: Sprachidentifikation

• N-Gramm basierter Ansatz – W. B. Cavnar & J. M. Trenkle 1994– T. Dunning 1994– M. Damashek 1995, u.a.

• N-Grammeine Sequenz von n (n=1,2,3,… Zeichen) aufeinander folgenden Zeichen eines längeren Strings bzw. Wortes

Z.B.: „Information“ wird in folgende Tri-Gramme zerlegt:

inf, nfo, for, orm, rma, mat, ati, tio, ion

LangIdent:

Sprachidentifikation für mono-und multilinguale Dokumente

3

LangIdent: Sprachidentifikation monolingualer Dokumente

• Implementierte Klassifikationsmethoden– Vector Space Modell– Ad Hoc Ranking – Bayes‘sche Entscheidungsregel– Wortbasierte Methode

• Repräsentationen – Tri-Gramme– Wörter

Evaluation Multi-Linguale Dokumente

Korpus

• Reale Internet-Dokumente• Synthetisch erzeugte Dokumente

– Drei Methoden zur Erzeugung von Phänomenen, wie sie in den realen Texten auftreten:

• XY: Zwei Sprachen hintereinander (wie paralleler Text)

• XYX: Ein Textabschnitt in Sprache Y wird eingefügt (wie beim Zitat)

• XYZ: Drei Sprachen hintereinander im Dokument

Ergebnisse: Sprachidentifikation

TypeAll languages in document correctly

identified

Internet 97 %

XY 96 %

XYX 95 %

XYZ 97 %

4

Ergebnisse: Position des Sprachwechsels

Type

Exact position

1

word off

2 words

off

3

words off

4

words off

Cumulative for at most 2 words off

Internet 29 % 26 % 26 % 10 % 3.2 % 81 %

XY 38 % 40 % 16 % 2.0 % - 94 %

XYX 20 % 55 % 10 % 10 % - 85 %

XYZ 39 % 45 % 13 % - - 97 %

Identifikation mehr-sprachiger Dokumente:

LangIdentPP

Screenshot

Screenshot Screenshot

5

Zusätzliche Evidenz für Sprachwechsel: Layout

• Kombination von sprachlichen und Layout-Evidenz• Fünf Stufen von Sicherheit für einen Sprachwechsel abhängig

von HTML Knoten und verschiedene Fenster-Größen– In allen Standardintervall-Auswertungen wurde zu Beginn des

Knotens ein Sprachwechsel gefunden.– In allen Standardintervall-Auswertungen wurde im Knoten, bei

mindestens einem jedoch nicht zu Beginn, ein Sprachwechsel gefunden.

– Ein Sprachwechsel wurde am Anfang des Knotens bei den Intervallen „5“ und „10“ festgestellt, jedoch nicht bei der Intervallgrößen-Auswertung „20“

– Ein Sprachwechsel wurde innerhalb des Knotens bei den Intervallgrößen-Auswertungen „5“ und „10“ festgestellt, jedoch nicht zu Beginn des Knotens

– Ein Sprachwechsel wurde nur bei Intervallgrößen-Auswertung „5“zu Beginn des Knotens gefunden

Screenshot Auswertung

Analyse

• Speichern der Auswertung als XML Datei

• Analysen mit XPath-Query Anfragen möglich– Bsp.:

– //TotalEvaluation/ResourceNodes[@class=“Klasse1“ or @class=“Klasse 3“]

– Liefert alle Knoten die das Attribut class mit dem Wert „Klasse 1“ oder „Klasse 3“ besitzen.

Ausblick

• Analyse mehrsprachiger Seiten

• Aufbau eines Korpus

Documents

Identifikation mehrsprachiger Seiten im Internetmandl/events/GAL2007/GAL2007LangIdentCrawler.pdf · 2 • zunehmend mehr Links auf Versionen von Web-Seite, die automatisch übersetzt