55
1 Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Encoding Methode Dozent : Yeong Su Lee Referent : Myoung Ryun Kim

Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen

  • Upload
    shandi

  • View
    24

  • Download
    0

Embed Size (px)

DESCRIPTION

Computerlinguistische Grundlagen f ü r die Verarbeitung asiatischer Sprachen. Encoding Methode Dozent : Yeong Su Lee Referent : Myoung Ryun Kim. Ludwig Maximilians Unversit ä t Centrum f ü r Informations- und Spracherarbeitung Computerlinguistik. - PowerPoint PPT Presentation

Citation preview

Page 1: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

1

Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Encoding Methode

Dozent : Yeong Su LeeReferent : Myoung Ryun Kim

Page 2: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

2

Begriff

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Kodierung :

Unter (Zeichen)Kodierung versteht man das Darstellen eines Zeichens, also eines Buchstabens, einer Ziffer oder eines Symbols, mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Computer verarbeitungsfähig zu machen.

Page 3: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

3

Kategorien von Kodierung Methoden

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Drei Kategorien von Kodierungsmethoden

• Modal

• Non-Modal

• Fixed-Length

Page 4: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

4

Kategorien von Kodierung Methoden

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Modal Kodierungsmethode :

fodert Escape Sequence oder irgendein spezell Charakter, um eine Verbindung zwischen Chrakter Sets herzustellen.

• Modal Kodierungsmethode benutzt typisch sieben-bit Bytes. Die Beispiele von Modal Kodierungsmethode sind ISO-2022, UTF-7 usw.

Page 5: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

5

Kategorien von Kodierung Methoden

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Non-modal Kodierungsmethode :

benutzen die numerischen Werte von Bytes um die Verbindung zwischen ein- und zwei-Byte Module herzustellen. Diese Kodierungsmethode benutzen acht-bit Bytes.

• Die Beispiele sind Big Five, Big Five Plus, EUC, GBK, Jobab, Shift-JIS, UTF-8,UTF-16 usw.

Page 6: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

6

Kategorien von Kodierung Methoden

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Fixed-length Kodierungsmothode : benutzen die gleiche Nummer von Bytes um zu r

epräsentieren alle Charakters in Charakter Sets. Diese Kodierungsmethode vereinfacht text-intensive Operationen, wie Searching, Indexing und Sorting von Text.

• Die Beispiele von Fixed-length Kodierungsmethde sind ASCII, UCS-2 und UCS-4.

Page 7: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

7

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ASCII / CJKV-Roman Kodierungen

• ASCII und CJKV-Roman (GB-Roman, CNS -Roman, JIS-Roman, KS-Roman und TCVN-Roman) werden unterschiedliches Charakter Set betrachtet, aber sie benutzen (oder teilen) die gleiche Encoding.

• Die ASCII / CJKV-Roman Encoding Methode spezifiziert dass, sieben-Bits benutzt wird und sie 128 einzigartige encoded Charakters erlaubt.

Page 8: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

8

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ASCII / CJKV-Roman Kodierungen

• 94 Charakters beinhalten das ASCII / CJKV-Roman Charakter Set und sie sind in Bildschirm sichtbar.

• Übrige 34 Charakters sind nicht sichtbar, d.h. sie sind entweder Kontrollcharakter oder Space.

• Nur Japanisch erlaubt die Mischung von ASCII und halbbreite Katakana Charakter Sets.

Page 9: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

9

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ASCII / CJKV-Roman Kodierungen

• Die erweiterte von ISO 8859 definierte ASCII Charakter Set Encoding verwendet Acht Bits. Mehr 256 mögliche Charakters sind benutzbar und sie werden als Grafik Charakter encodiert.

Page 10: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

10

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ISO-2022 Encoding

• Die äußerst grundlegende Codierungsmethode für CJKV Text

• Es ist modale Kodierung, d.h. Escape-Sequences oder andere speziellcharakters benutzt, um verschiedene Modus zu verbinden (Switching Modes).

Page 11: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

11

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ISO-2022 Encoding

• Es bezieht sich auf entweder zwischen Ein- und Zwei-Byte Modus oder unter Charakter Sets.

• Die ISO-2022 Encoding ist eine generische Referenz von ISO-2022-CN, ISO-2022-CN-EXT, ISO-2022-JP, ISO-2022-KR und ähnliche Encodings.

Page 12: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

12

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

ISO-2022 Encoding

• ISO-2022 Codierung ist nicht ganz effizient für internen Speicher oder Processing in Computer Systeme.

• Es wird ursprünglich als ein Information Austausch Code für bewegenden Text zwischen Computer Systeme, wie E-mail.

Page 13: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

13

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• EUC (Extended Unix Code) Encoding ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird.

• EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensätze kodieren können.

Page 14: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

14

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme

• wenig verwendet ; da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde.

Page 15: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

15

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Alle EUC Kordierungen unterstützen bis zu 4 verschiedene Zeichensätze.

• Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden.

• 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).

Page 16: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

16

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Es gibt mehrere reservierte Codepositionen in EUC, die die nicht druckbaren Zeichen zu kodieren verwendet werden können.

• Diese Code-Positionen und -Bereiche bestehen aus das Space-Zeichen, das Delete-Zeichen und zwei unabhängige Bereiche von Control-Zeichen.

Page 17: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

17

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• EUC Reserved Code Range and Positions

Decimal Hexadecimal

Ctrl. set 0 0-31 00-1F

Sp. Char. 32 20

Del. Char. 127 7F

Ctrl. set 1 128-159 80-9F

Page 18: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

18

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich).

• Diese Repräsentation wird oft als EUC Packed Format bezeichnet und repräsentiert am häufigsten gebrauchte Instanz von EUC Kodierung.

Page 19: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

19

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC Encoding

• Es gibt zwei fixierte Länge von EUC Repräsentationen : 16- und 32-Bit.

• Die Bedeutung von diese fixierte Länge Repräsentagionen : alle Zeichen wird von gleiche Nummer von Bits oder Bytes repräsentiert

• Obwohl es mehrere Speicherplatz benötigt, macht es die interne Processing effizient.

Page 20: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

20

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-CN Encoding : China

• EUC-CN wird in China verwendet und entspricht GB2312.

• Es kodiert die vereinfachten chinesischen Schriftzeichen.

• In EUC-CN Kordierung wird EUC Code Sets 2 und 3 nicht verwendet.

• EUC-CN Kodierung ist nahezu identisch mit EUC-KR.

Page 21: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

21

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-CN Encoding : ChinaChar. Set Nr. of Bytes

Code Set 1 ASCII / GB-Roman

1

Code Set 2 BG-2312-80 2

Code Set 3 Unused

Code Set 4 Unused

Page 22: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

22

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-TW Encoding : Taiwan

• EUC-TW nur sehr selten verwendet.

• Sehr viel verbreiteter ist dort Big5. (traditionellen chinesischen Schriftzeichen)

• die kompliziertste Instanz von EUC Kordierung.

• EUC Code Set 2 völlig überlastet, aber EUC Code Set 3 kaum verwendet.

Page 23: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

23

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-JP Encoding : Japan

• Code Set 0 ist ASCII (genaugenommen JIS-Roman) und wird durch 1 Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert.

• Code Set 1 ist JIS X 0208:1997 und wird durch 2 Zeichen kodiert

• Code Set 2 sind halbbreite Katakana die auch durch 2 Bytes kodiert werden .

Page 24: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

24

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-JP Encoding : Japan

• Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Prefix).

• In Code Set 3 wird JIS X 0212:1990 in der 3 Byte Variante kodiert

Page 25: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

25

Locale-Independent Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

EUC-KR Encoding : Korea

• Es ähnelt ISO-2022-KR (bzw. KS X 1001).

• EUC-KR Kodierung, (wie EUC-CN) verwendet keine Code Sets 2 und 3.

• Deswegen ist es kaum unmöglich, dass EUC-KR Kodierung sich von EUC-CN ohne irgendeine Sorte von Sprache oder lokale Attribute unterscheidet.

Page 26: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

26

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

Alle 4 CJKV Regionen haben mindestens eineeigene lokal spezifische Kodierung Methode.

Char. Set En. Meth. Country

GBK GBK China

Big Five Big Five Taiwan

Big Five Plus

Big Five Plus

Taiwan

JIS X 0208:1997

Shift-JIS Japan

KS X 1001:1992

Johab Korea

Page 27: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

27

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen GBK Encoding-GB 2312-80 Extension

• Die GBK (Guojia Biaozhun Kuozhan) Kodierung enthält sowohl die vereinfachten als auch die traditionellen Schriftzeichen. Sie wurde für den Gebrauch auf dem chinesischen Festland entworfen, wenn beide Schriftzeichenvarianten in einem einzigen Font benötigt werden.

• Mit dem Release von Unicode 2.1 im Jahre 1993 wurde ein Standard namens GB 13000.1 veröffentlicht, welcher alle Glyphen von Unicode 2.1 enthält.

Page 28: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

28

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen GBK Encoding-GB 2312-80 Extension

• Um alle zusätzlichen Hanzi Schriftzeichen, die in GB 13000.1 spezifiziert wurden, die aber nicht in GB 2312-1980 enthalten sind, unterzubringen, wurde eine neue Spezifikation namens GBK vorgestellt.

• GBK beinhaltet 21886 Schriftzeichen darunter 21003 Hanzi (das sind 101 mehr Zeichen als Unicode 2.1, welches aus 20902 Hanzi Glyphen besteht).

Page 29: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

29

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Big Five Encoding

• Die Big5 Kodierung beinhaltet traditionelle chinesische Schriftzeichen und wurde für den Gebrauch in Taiwan und Hongkong entworfen.

• ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

Page 30: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

30

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Big Five Encoding

• Im Vergleich zu EUC-TW hat Big Five Kodierung einen zusätzlichen Kodierung Block.

• Big 5 enthält 13463 Glyphen, darunter 13053 Hanzi.

Page 31: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

31

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Big Five Plus Encoding-Another Big

Five Extension

• Auf Grund von Unicode und CNS 11643-1992 hat das Big Five Charakter Set mit Einschluss zusätzliche Charakters (meistens Hanzi) expandiert.

• Ex erfordert eine Expansion von Kodierung Space. Diese neue expandierte Version von Big Five heißt Big Five Plus.

Page 32: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

32

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Shift-JIS Encoding-JIS X 0208:1997

• Shift-JIS (Abkürzung SJIS) ist eine Zeichencodierung für die japanische Schrift, entwickelt von Microsoft, basierend auf der ISO-2022-JP (JIS), aber mit verschobenen (shifted) Bytewerten, um 64 zusätzliche Katakana-Zeichen im Bereich von 0xA0 bis 0xDF unterzubringen.

Page 33: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

33

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Shift-JIS Encoding-JIS X 0208:1997

• Weil die Code Positionen für 2-Byte Charakters rund um die Code Positionen für halbbreite Katakana umgeschaltet (shifted) wird, nennt man Shift-JIS.

• Im Gegensatz zur üblichen JIS-Codierung braucht Shift-JIS ein 8-Bit-Medium für die Übertragung.

Page 34: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

34

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Shift-JIS Encoding-JIS X 0208:1997

• Das erste Byte befindet sich im oberen ASCII-Bereich und der dezimale Wertbereich ist 129-159 und 224-239.

• Der dezimale Wertbereich des zweiten Bytes ist 64-126 und 128-252.

• Shift-JIS kodiert auch halbbreite Katakana und ASCII/JIS-Roman. .

Page 35: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

35

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Shift-JIS Encoding-JIS X 0208:1997

• Shift-JIS kommt neben EUC vor allem in japanischen Webseiten vor, seltener

ISO-2022-JP, während sonst Unicode (vor allem UTF-8) vorgezogen wird.

Page 36: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

36

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Johab Encoding-KS X 1001:1992

• Johab Kodierung ist eine Zeichencodierung für die koreanische Schrift und beinhaltet alle mögliche moderne Hanguel-11172.

• Johab Kodierung ist grundlegend basiert auf drei 5-Bit Segments. 5-Bits wird um drei grundsätzlichen Positionen von Jamo zu präsentieren verwendet.

Page 37: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

37

Locale-Specific Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen Johab Encoding-KS X 1001:1992

• Es gibt 19 Initiale Jamo (Konsonanten), 21 Mittel Jamo (Vokale) und 28 Final Jamo (Konsonanten ; mit 'leer' Fall für zwei Jamo Hanguel).

• 5-Bits können leicht die Nummer von unique Jamo von einzelnen drei Positionen repräsentieren

Page 38: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

38

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen UCS-4 und UCS-2 Encodings

• Die beiden Kodierungen werden von Charakter Set ISO 10646-1:1993 definiert.

• Die erste Methode ist die 32-Bit Form, betrachtet als UCS-4 (Universal Character Set ; beinhaltet 4 Bytes).

• Die zwiete ist die 16-Bit Form, betrachtet als UCS-2 (Universal Chracater Set ; beinhaltet 2 Bytes).

Page 39: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

39

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen UCS-4 und UCS-2 Encodings

• Für alle praktischen Belange ist dies dasselbe wie Unicode (bes. USC-2).

• Ein 16-Bit Repräsentation kann bis 65.536 einzelnen Code Points kodieren.

• Dagegen kann ein 32-Bit Repräsentation bis 4.294.967.296 einzelne Code Points kodieren.

Page 40: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

40

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen UCS-4 und UCS-2 Encodings

• Die beiden Kodierungen benutzen die gleiche Nummer von Bytes um jeden Charakter zu repräsentieren.

• Alle Charakters haben die gleiche Kodierung Länge. D.h. werden sie als die Gleiche für die bestimmten Processing Operationen behandelt, wie Suche.

Page 41: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

41

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• UTF bezieht sich auf die Folge von entwickelten Kodierung Methoden für Unicode und ISO 10646-1:1993.

• UTF (Unicode Transformation Format) beschreibt Methoden, ein Unicode-Zeichen auf eine Folge von Bytes abzubilden.

Page 42: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

42

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• Für die Repräsentation der Unicode-Zeichen zum Zweck der elektronischen Datenverarbeitung gibt es verschiedene Transformationsformate (16- oder 32-Bit Repräsentationen).

• Auch lässt sich jedes dieser Formate verlustfrei in ein anderes UTF-Format konvertieren.

Page 43: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

43

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• Die verschiedenen Formate unterscheiden sich hinsichtlich deren Platzbedarf auf Speichermedien, dem Kodierungs- und Dekodierungsaufwand sowie in ihrer Kompatibilität zu anderen Kodierungsarten.

• Während beispielsweise einige Formate sehr effizienten Zugriff auf einzelne Zeichen innerhalb einer Zeichenfolge erlauben, gehen andere sparsam mit Speicherplatz um.

Page 44: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

44

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF Encodings

• Daher ist bei der Auswahl eines bestimmten Unicode-Transformationsformats das für das vorgesehene Anwendungsgebiet geeignetste zu bestimmen.

Page 45: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

45

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• UTF-7 ist eine Kodierung des Unicode-Zeichensatzes. UTF-7 erlaubt die Verwendung von Unicode in nicht 8-bit-festen Umgebungen .

Page 46: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

46

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• Es existieren verschiedene Kodierungsverfahren, die beliebige 8-Bit-Binärdaten in 7-bit-ASCII-Text umwandeln.

• UTF-7 wurde entworfen, um diesen Kodierungsoverfarhren bei der Verwendung von Texten, die nur wenige Unicode-Zeichen enthalten, möglichst gering zu halten, und gleichzeitig Textpassagen, die in 7-bit-ASCII darstellbar sind, lesbar zu lassen.

Page 47: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

47

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• Bei UTF-7 werden die Zeichen A-Za-z0-9'(),-./:? so übermittelt, wie sie sind.

• Die ASCII-Zeichen !"#$%&*;<=>@[]^_`{|} können direkt übertragen werden, sollten aber ebenfalls kodiert werden, da sie eventuell nicht durch alle e-Mail-Gateways korrekt übertragen werden.

Page 48: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

48

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• Alle anderen Zeichen werden speziell kodiert. Hierfür wird eine Folge von zu kodierenden Zeichen als Strom von 2-Byte-Zeichen nach einem modifizierten Base64-Verfahren in einen Strom von ASCII-Zeichen umgewandelt.

• Der Start einer solchen kodierten Zeichensequenz wird durch ein Pluszeichen ("+") angezeigt, das Ende durch ein Minuszeichen ("-") oder durch das erste ASCII-Zeichen.

Page 49: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

49

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-7 Encoding

• UTF-7 hat sich trotz seiner höheren Kodierungseffizienz jedoch nicht durchsetzen können, da andere Verfahren wie Quoted Printable und Base64 von nahezu jedem E-Mail- und News-Programm verstanden werden und der größere Kodierungsüberhang in der Praxis keine Rolle spielt.

Page 50: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

50

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-8 Encoding

• UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist die populärste Kodierung für Unicode-Zeichen; dabei wird jedem Unicode-Zeichen eine speziell kodierte Bytekette von variabler Länge zugeordnet.

• UTF-8 unterstützt bis zu 4 Byte, auf die sich wie bei allen UTF-Formaten alle 1.114.112 Unicode-Zeichen abbilden lassen.

Page 51: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

51

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-8 Encoding

• Unicode-Zeichen mit den Werten aus dem Bereich von 0 bis 127 (0 bis 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben.

• Alle Daten, die ausschließlich echte ASCII-Zeichen verwenden, sind in beiden Darstellungen identisch.

Page 52: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

52

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-8 Encoding

• Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu Byteketten der Länge zwei bis vier kodiert.

• Das erste Byte eines UTF-8-kodierten Zeichens nennt man dabei Start-Byte, weitere Bytes nennt man Folgebytes.

• Startbytes beginnen also mit der Bitfolge 11 oder einem 0-Bit, während Folgebytes immer mit der Bitfolge 10 beginnen.

Page 53: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

53

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-16 Encoding

• UTF-16 ist eine Kodierung für Unicode-Zeichen, optimiert auf die häufig gebrauchten Zeichen aus der "Basic multilingual plane" (BMP).

Page 54: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

54

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-16 Encoding

• UTF-16 wird sowohl vom Unicode-Konsortium als auch von ISO/IEC 10646 definiert.

• Die BMP enthält die Unicode-Zeichen, deren Code im Bereich U+0000 bis U+FFFF liegt. In diesem Bereiche sind Ersatz-Zeichen (engl. surrogate characters) reserviert, die für UTF-16 reserviert sind.

Page 55: Computerlinguistische Grundlagen f ü r  die Verarbeitung asiatischer Sprachen

55

International Encoding Methods

Com

pute

rling

uist

isch

e G

rund

lage

n fü

r di

e Ve

rarb

eitu

ng a

siat

isch

er S

prac

hen

UTF-16 Encoding

• Die Zeichen aus der BMP werden dabei direkt auf die 16 Bits einer UTF-16-Code-Unit abgebildet.

• Unicode-Zeichen, deren Code sich nicht mit 16 Bit darstellen lässt, belegen zwei 16-Bit-Wörter (engl: code units).