Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen

1

Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Encoding Methode

Dozent : Yeong Su LeeReferent : Myoung Ryun Kim

2

Begriff

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Kodierung :

Unter (Zeichen)Kodierung versteht man das Darstellen eines Zeichens, also eines Buchstabens, einer Ziffer oder eines Symbols, mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Computer verarbeitungsfähig zu machen.

http://de.wikipedia.org/wiki/Buchstabe

http://de.wikipedia.org/wiki/Ziffer

http://de.wikipedia.org/wiki/Symbol

http://de.wikipedia.org/wiki/Code

http://de.wikipedia.org/wiki/Computer

3

Kategorien von Kodierung Methoden

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Drei Kategorien von Kodierungsmethoden

• Modal

• Non-Modal

• Fixed-Length

4


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Modal Kodierungsmethode :

fodert Escape Sequence oder irgendein spezell Charakter, um eine Verbindung zwischen Chrakter Sets herzustellen.

• Modal Kodierungsmethode benutzt typisch sieben-bit Bytes. Die Beispiele von Modal Kodierungsmethode sind ISO-2022, UTF-7 usw.

5


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Non-modal Kodierungsmethode :

benutzen die numerischen Werte von Bytes um die Verbindung zwischen ein- und zwei-Byte Module herzustellen. Diese Kodierungsmethode benutzen acht-bit Bytes.

• Die Beispiele sind Big Five, Big Five Plus, EUC, GBK, Jobab, Shift-JIS, UTF-8,UTF-16 usw.

6


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Fixed-length Kodierungsmothode : benutzen die gleiche Nummer von Bytes um zu r

epräsentieren alle Charakters in Charakter Sets. Diese Kodierungsmethode vereinfacht text-intensive Operationen, wie Searching, Indexing und Sorting von Text.

• Die Beispiele von Fixed-length Kodierungsmethde sind ASCII, UCS-2 und UCS-4.

7

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ASCII / CJKV-Roman Kodierungen

• ASCII und CJKV-Roman (GB-Roman, CNS -Roman, JIS-Roman, KS-Roman und TCVN-Roman) werden unterschiedliches Charakter Set betrachtet, aber sie benutzen (oder teilen) die gleiche Encoding.

• Die ASCII / CJKV-Roman Encoding Methode spezifiziert dass, sieben-Bits benutzt wird und sie 128 einzigartige encoded Charakters erlaubt.

8


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen


• 94 Charakters beinhalten das ASCII / CJKV-Roman Charakter Set und sie sind in Bildschirm sichtbar.

• Übrige 34 Charakters sind nicht sichtbar, d.h. sie sind entweder Kontrollcharakter oder Space.

• Nur Japanisch erlaubt die Mischung von ASCII und halbbreite Katakana Charakter Sets.

9


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen


• Die erweiterte von ISO 8859 definierte ASCII Charakter Set Encoding verwendet Acht Bits. Mehr 256 mögliche Charakters sind benutzbar und sie werden als Grafik Charakter encodiert.

10


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ISO-2022 Encoding

• Die äußerst grundlegende Codierungsmethode für CJKV Text

• Es ist modale Kodierung, d.h. Escape-Sequences oder andere speziellcharakters benutzt, um verschiedene Modus zu verbinden (Switching Modes).

11


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ISO-2022 Encoding

• Es bezieht sich auf entweder zwischen Ein- und Zwei-Byte Modus oder unter Charakter Sets.

• Die ISO-2022 Encoding ist eine generische Referenz von ISO-2022-CN, ISO-2022-CN-EXT, ISO-2022-JP, ISO-2022-KR und ähnliche Encodings.

12


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ISO-2022 Encoding

• ISO-2022 Codierung ist nicht ganz effizient für internen Speicher oder Processing in Computer Systeme.

• Es wird ursprünglich als ein Information Austausch Code für bewegenden Text zwischen Computer Systeme, wie E-mail.

13


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• EUC (Extended Unix Code) Encoding ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird.

• EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensätze kodieren können.

14


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme

• wenig verwendet ; da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde.

15


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Alle EUC Kordierungen unterstützen bis zu 4 verschiedene Zeichensätze.

• Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden.

• 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).

16


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Es gibt mehrere reservierte Codepositionen in EUC, die die nicht druckbaren Zeichen zu kodieren verwendet werden können.

• Diese Code-Positionen und -Bereiche bestehen aus das Space-Zeichen, das Delete-Zeichen und zwei unabhängige Bereiche von Control-Zeichen.

17


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• EUC Reserved Code Range and Positions

Decimal Hexadecimal

Ctrl. set 0 0-31 00-1F

Sp. Char. 32 20

Del. Char. 127 7F

Ctrl. set 1 128-159 80-9F

18


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich).

• Diese Repräsentation wird oft als EUC Packed Format bezeichnet und repräsentiert am häufigsten gebrauchte Instanz von EUC Kodierung.

19


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Es gibt zwei fixierte Länge von EUC Repräsentationen : 16- und 32-Bit.

• Die Bedeutung von diese fixierte Länge Repräsentagionen : alle Zeichen wird von gleiche Nummer von Bits oder Bytes repräsentiert

• Obwohl es mehrere Speicherplatz benötigt, macht es die interne Processing effizient.

20


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-CN Encoding : China

• EUC-CN wird in China verwendet und entspricht GB2312.

• Es kodiert die vereinfachten chinesischen Schriftzeichen.

• In EUC-CN Kordierung wird EUC Code Sets 2 und 3 nicht verwendet.

• EUC-CN Kodierung ist nahezu identisch mit EUC-KR.

21


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-CN Encoding : ChinaChar. Set Nr. of Bytes

Code Set 1 ASCII / GB-Roman

1

Code Set 2 BG-2312-80 2

Code Set 3 Unused

Code Set 4 Unused

22


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-TW Encoding : Taiwan

• EUC-TW nur sehr selten verwendet.

• Sehr viel verbreiteter ist dort Big5. (traditionellen chinesischen Schriftzeichen)

• die kompliziertste Instanz von EUC Kordierung.

• EUC Code Set 2 völlig überlastet, aber EUC Code Set 3 kaum verwendet.

23


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-JP Encoding : Japan

• Code Set 0 ist ASCII (genaugenommen JIS-Roman) und wird durch 1 Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert.

• Code Set 1 ist JIS X 0208:1997 und wird durch 2 Zeichen kodiert

• Code Set 2 sind halbbreite Katakana die auch durch 2 Bytes kodiert werden .

http://de.wikipedia.org/wiki/ASCII

http://de.wikipedia.org/wiki/JIS-Roman

http://de.wikipedia.org/w/index.php?title=JIS_X_0208:1997&action=edit

http://de.wikipedia.org/wiki/Katakana

24


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-JP Encoding : Japan

• Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Prefix).

• In Code Set 3 wird JIS X 0212:1990 in der 3 Byte Variante kodiert


http://de.wikipedia.org/w/index.php?title=Escape-Zeichen&action=edit

http://de.wikipedia.org/w/index.php?title=Escape-Zeichen&action=edit

http://de.wikipedia.org/wiki/Prefix


25


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-KR Encoding : Korea

• Es ähnelt ISO-2022-KR (bzw. KS X 1001).

• EUC-KR Kodierung, (wie EUC-CN) verwendet keine Code Sets 2 und 3.

• Deswegen ist es kaum unmöglich, dass EUC-KR Kodierung sich von EUC-CN ohne irgendeine Sorte von Sprache oder lokale Attribute unterscheidet.

http://de.wikipedia.org/w/index.php?title=ISO-2022-KR&action=edit

26

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Alle 4 CJKV Regionen haben mindestens eineeigene lokal spezifische Kodierung Methode.

Char. Set En. Meth. Country

GBK GBK China

Big Five Big Five Taiwan

Big Five Plus

Big Five Plus

Taiwan

JIS X 0208:1997

Shift-JIS Japan

KS X 1001:1992

Johab Korea

27


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen GBK Encoding-GB 2312-80 Extension

• Die GBK (Guojia Biaozhun Kuozhan) Kodierung enthält sowohl die vereinfachten als auch die traditionellen Schriftzeichen. Sie wurde für den Gebrauch auf dem chinesischen Festland entworfen, wenn beide Schriftzeichenvarianten in einem einzigen Font benötigt werden.

• Mit dem Release von Unicode 2.1 im Jahre 1993 wurde ein Standard namens GB 13000.1 veröffentlicht, welcher alle Glyphen von Unicode 2.1 enthält.

28


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen GBK Encoding-GB 2312-80 Extension

• Um alle zusätzlichen Hanzi Schriftzeichen, die in GB 13000.1 spezifiziert wurden, die aber nicht in GB 2312-1980 enthalten sind, unterzubringen, wurde eine neue Spezifikation namens GBK vorgestellt.

• GBK beinhaltet 21886 Schriftzeichen darunter 21003 Hanzi (das sind 101 mehr Zeichen als Unicode 2.1, welches aus 20902 Hanzi Glyphen besteht).

29


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Big Five Encoding

• Die Big5 Kodierung beinhaltet traditionelle chinesische Schriftzeichen und wurde für den Gebrauch in Taiwan und Hongkong entworfen.

• ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

30


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Big Five Encoding

• Im Vergleich zu EUC-TW hat Big Five Kodierung einen zusätzlichen Kodierung Block.

• Big 5 enthält 13463 Glyphen, darunter 13053 Hanzi.

31


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Big Five Plus Encoding-Another Big

Five Extension

• Auf Grund von Unicode und CNS 11643-1992 hat das Big Five Charakter Set mit Einschluss zusätzliche Charakters (meistens Hanzi) expandiert.

• Ex erfordert eine Expansion von Kodierung Space. Diese neue expandierte Version von Big Five heißt Big Five Plus.

32


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Shift-JIS Encoding-JIS X 0208:1997

• Shift-JIS (Abkürzung SJIS) ist eine Zeichencodierung für die japanische Schrift, entwickelt von Microsoft, basierend auf der ISO-2022-JP (JIS), aber mit verschobenen (shifted) Bytewerten, um 64 zusätzliche Katakana-Zeichen im Bereich von 0xA0 bis 0xDF unterzubringen.

33


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac


• Weil die Code Positionen für 2-Byte Charakters rund um die Code Positionen für halbbreite Katakana umgeschaltet (shifted) wird, nennt man Shift-JIS.

• Im Gegensatz zur üblichen JIS-Codierung braucht Shift-JIS ein 8-Bit-Medium für die Übertragung.

34


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac


• Das erste Byte befindet sich im oberen ASCII-Bereich und der dezimale Wertbereich ist 129-159 und 224-239.

• Der dezimale Wertbereich des zweiten Bytes ist 64-126 und 128-252.

• Shift-JIS kodiert auch halbbreite Katakana und ASCII/JIS-Roman. .

35


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac


• Shift-JIS kommt neben EUC vor allem in japanischen Webseiten vor, seltener

ISO-2022-JP, während sonst Unicode (vor allem UTF-8) vorgezogen wird.

36


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Johab Encoding-KS X 1001:1992

• Johab Kodierung ist eine Zeichencodierung für die koreanische Schrift und beinhaltet alle mögliche moderne Hanguel-11172.

• Johab Kodierung ist grundlegend basiert auf drei 5-Bit Segments. 5-Bits wird um drei grundsätzlichen Positionen von Jamo zu präsentieren verwendet.

37


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Johab Encoding-KS X 1001:1992

• Es gibt 19 Initiale Jamo (Konsonanten), 21 Mittel Jamo (Vokale) und 28 Final Jamo (Konsonanten ; mit 'leer' Fall für zwei Jamo Hanguel).

• 5-Bits können leicht die Nummer von unique Jamo von einzelnen drei Positionen repräsentieren

38

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen UCS-4 und UCS-2 Encodings

• Die beiden Kodierungen werden von Charakter Set ISO 10646-1:1993 definiert.

• Die erste Methode ist die 32-Bit Form, betrachtet als UCS-4 (Universal Character Set ; beinhaltet 4 Bytes).

• Die zwiete ist die 16-Bit Form, betrachtet als UCS-2 (Universal Chracater Set ; beinhaltet 2 Bytes).

39


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac


• Für alle praktischen Belange ist dies dasselbe wie Unicode (bes. USC-2).

• Ein 16-Bit Repräsentation kann bis 65.536 einzelnen Code Points kodieren.

• Dagegen kann ein 32-Bit Repräsentation bis 4.294.967.296 einzelne Code Points kodieren.

40


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac


• Die beiden Kodierungen benutzen die gleiche Nummer von Bytes um jeden Charakter zu repräsentieren.

• Alle Charakters haben die gleiche Kodierung Länge. D.h. werden sie als die Gleiche für die bestimmten Processing Operationen behandelt, wie Suche.

41


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• UTF bezieht sich auf die Folge von entwickelten Kodierung Methoden für Unicode und ISO 10646-1:1993.

• UTF (Unicode Transformation Format) beschreibt Methoden, ein Unicode-Zeichen auf eine Folge von Bytes abzubilden.

42


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• Für die Repräsentation der Unicode-Zeichen zum Zweck der elektronischen Datenverarbeitung gibt es verschiedene Transformationsformate (16- oder 32-Bit Repräsentationen).

• Auch lässt sich jedes dieser Formate verlustfrei in ein anderes UTF-Format konvertieren.

43


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• Die verschiedenen Formate unterscheiden sich hinsichtlich deren Platzbedarf auf Speichermedien, dem Kodierungs- und Dekodierungsaufwand sowie in ihrer Kompatibilität zu anderen Kodierungsarten.

• Während beispielsweise einige Formate sehr effizienten Zugriff auf einzelne Zeichen innerhalb einer Zeichenfolge erlauben, gehen andere sparsam mit Speicherplatz um.

44


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• Daher ist bei der Auswahl eines bestimmten Unicode-Transformationsformats das für das vorgesehene Anwendungsgebiet geeignetste zu bestimmen.

45


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• UTF-7 ist eine Kodierung des Unicode-Zeichensatzes. UTF-7 erlaubt die Verwendung von Unicode in nicht 8-bit-festen Umgebungen .

46


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• Es existieren verschiedene Kodierungsverfahren, die beliebige 8-Bit-Binärdaten in 7-bit-ASCII-Text umwandeln.

• UTF-7 wurde entworfen, um diesen Kodierungsoverfarhren bei der Verwendung von Texten, die nur wenige Unicode-Zeichen enthalten, möglichst gering zu halten, und gleichzeitig Textpassagen, die in 7-bit-ASCII darstellbar sind, lesbar zu lassen.

47


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• Bei UTF-7 werden die Zeichen A-Za-z0-9'(),-./:? so übermittelt, wie sie sind.

• Die ASCII-Zeichen !"#$%&*;<=>@[]^_`{|} können direkt übertragen werden, sollten aber ebenfalls kodiert werden, da sie eventuell nicht durch alle e-Mail-Gateways korrekt übertragen werden.

48


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• Alle anderen Zeichen werden speziell kodiert. Hierfür wird eine Folge von zu kodierenden Zeichen als Strom von 2-Byte-Zeichen nach einem modifizierten Base64-Verfahren in einen Strom von ASCII-Zeichen umgewandelt.

• Der Start einer solchen kodierten Zeichensequenz wird durch ein Pluszeichen ("+") angezeigt, das Ende durch ein Minuszeichen ("-") oder durch das erste ASCII-Zeichen.

49


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• UTF-7 hat sich trotz seiner höheren Kodierungseffizienz jedoch nicht durchsetzen können, da andere Verfahren wie Quoted Printable und Base64 von nahezu jedem E-Mail- und News-Programm verstanden werden und der größere Kodierungsüberhang in der Praxis keine Rolle spielt.

50


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-8 Encoding

• UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist die populärste Kodierung für Unicode-Zeichen; dabei wird jedem Unicode-Zeichen eine speziell kodierte Bytekette von variabler Länge zugeordnet.

• UTF-8 unterstützt bis zu 4 Byte, auf die sich wie bei allen UTF-Formaten alle 1.114.112 Unicode-Zeichen abbilden lassen.

51


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-8 Encoding

• Unicode-Zeichen mit den Werten aus dem Bereich von 0 bis 127 (0 bis 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben.

• Alle Daten, die ausschließlich echte ASCII-Zeichen verwenden, sind in beiden Darstellungen identisch.

52


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-8 Encoding

• Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu Byteketten der Länge zwei bis vier kodiert.

• Das erste Byte eines UTF-8-kodierten Zeichens nennt man dabei Start-Byte, weitere Bytes nennt man Folgebytes.

• Startbytes beginnen also mit der Bitfolge 11 oder einem 0-Bit, während Folgebytes immer mit der Bitfolge 10 beginnen.

53


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-16 Encoding

• UTF-16 ist eine Kodierung für Unicode-Zeichen, optimiert auf die häufig gebrauchten Zeichen aus der "Basic multilingual plane" (BMP).

54


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-16 Encoding

• UTF-16 wird sowohl vom Unicode-Konsortium als auch von ISO/IEC 10646 definiert.

• Die BMP enthält die Unicode-Zeichen, deren Code im Bereich U+0000 bis U+FFFF liegt. In diesem Bereiche sind Ersatz-Zeichen (engl. surrogate characters) reserviert, die für UTF-16 reserviert sind.

55


Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-16 Encoding

• Die Zeichen aus der BMP werden dabei direkt auf die 16 Bits einer UTF-16-Code-Unit abgebildet.

• Unicode-Zeichen, deren Code sich nicht mit 16 Bit darstellen lässt, belegen zwei 16-Bit-Wörter (engl: code units).

Documents

Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen