32
Computerwerkzeuge für die Linguistik: Computerwerkzeuge für die Linguistik: Probleme der Kodierung Probleme der Kodierung Karl Heinz Wagner Universität Bremen

Computerwerkzeuge für die Linguistik: Probleme der Kodierung

Embed Size (px)

DESCRIPTION

Computerwerkzeuge für die Linguistik: Probleme der Kodierung. Karl Heinz Wagner Universität Bremen. Probleme der Kodierung. - PowerPoint PPT Presentation

Citation preview

Page 1: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Computerwerkzeuge für die Linguistik: Computerwerkzeuge für die Linguistik: Probleme der KodierungProbleme der Kodierung

Karl Heinz Wagner Universität Bremen

Page 2: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Probleme der KodierungProbleme der Kodierung

Damit linguistische Daten (im weitesten Sinne) mit Damit linguistische Daten (im weitesten Sinne) mit Computerprogrammen verarbeitet werden können, müssen sie Computerprogrammen verarbeitet werden können, müssen sie in maschinenlesbarer Form repräsentiert werden. Solche Daten in maschinenlesbarer Form repräsentiert werden. Solche Daten können vorliegen alskönnen vorliegen als Texte in je unterschiedlichen Schriftsystemen, möglicherweise auch Texte in je unterschiedlichen Schriftsystemen, möglicherweise auch

multilingualmultilingual Sprachaufzeichnungen auf Datenträgern oder in einer Sprachaufzeichnungen auf Datenträgern oder in einer

phonetischen Transkriptionphonetischen Transkription Aufzeichnungen über paralinguistische oder non-verbale Aufzeichnungen über paralinguistische oder non-verbale

Phänomene (Gestik, Mimik)Phänomene (Gestik, Mimik)

Page 3: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Probleme der Kodierung: DigitalisierenProbleme der Kodierung: Digitalisieren

Das Problem dabei ist, daß Computerprogramme mit für den Das Problem dabei ist, daß Computerprogramme mit für den Menschen verständlichen Repräsentationsformen wie Bildern, Menschen verständlichen Repräsentationsformen wie Bildern, Buch-staben, Tönen nichts anfangen können. Buch-staben, Tönen nichts anfangen können.

Computer verarbeiten nur Zahlen: linguistische Daten jeglicher Computer verarbeiten nur Zahlen: linguistische Daten jeglicher Art müssen also in ein Zahlenformat transformiert werden. Art müssen also in ein Zahlenformat transformiert werden.

Diesen Vorgang nennt man Digitalisieren.Diesen Vorgang nennt man Digitalisieren.

Page 4: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Digitalisieren: Bits - Bytes - ZeichenDigitalisieren: Bits - Bytes - Zeichen

Die beiden Grundeinheiten in jedem heutigen Computer sind die Die beiden Grundeinheiten in jedem heutigen Computer sind die Einheiten Einheiten BitBit und und ByteByte. .

Die elementarste Informationseinheit, mit der Computer Die elementarste Informationseinheit, mit der Computer arbeiten, ist das arbeiten, ist das BitBit, aus engl. , aus engl. binary digitbinary digit (= Binärziffer).(= Binärziffer).

Computer arbeiten physikalisch mit zwei alternativen Computer arbeiten physikalisch mit zwei alternativen Spannungszuständen: ein relativ hohes Spannungs-potential Spannungszuständen: ein relativ hohes Spannungs-potential oder ein relativ niedriges Spannungspotential. Diese werden mit oder ein relativ niedriges Spannungspotential. Diese werden mit den Ziffern den Ziffern 11 (hohes Potential) und (hohes Potential) und 00 (niedriges Potential) (niedriges Potential) bezeichnet. bezeichnet.

Ein Ein ByteByte ist bei den heute üblichen Systemen als Folge von 8 ist bei den heute üblichen Systemen als Folge von 8 Bit definiert (man spricht auch von Bit definiert (man spricht auch von OctetsOctets), zum Beispiel ), zum Beispiel 1010011010100110

Page 5: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes - ZeichenBits - Bytes - Zeichen

Was bedeutet nun aber eine Bitfolge wie Was bedeutet nun aber eine Bitfolge wie 1010101010101010 oder oder 0110110001101100?

Zunächst kann man feststellen, daß sich mit einer Folge von 8 Zunächst kann man feststellen, daß sich mit einer Folge von 8 Bit genau 256 (= 2 hoch 8) unterschiedliche Zustände Bit genau 256 (= 2 hoch 8) unterschiedliche Zustände realisieren lassen. Ein Byte kann also 256 unterschiedliche realisieren lassen. Ein Byte kann also 256 unterschiedliche Werte haben. Werte haben.

Es bietet sich also an, solche Bitfolgen in systematischer Weise Es bietet sich also an, solche Bitfolgen in systematischer Weise ZahlenZahlen zuzuordnen, und zwar genau den Zahlen zwischen zuzuordnen, und zwar genau den Zahlen zwischen 00 (= (= 0000000000000000) und ) und 255255 (= (= 1111111111111111).).

Page 6: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits, Bytes und ZeichenBits, Bytes und Zeichen

0000000000000000 00

0000000100000001 11

0000001000000010 22

0000001100000011 33

0000010000000100 44

0000010100000101 55

0000011000000110 66

Page 7: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: DezimalzahlenBits - Bytes: Dezimalzahlen

Um deutlich zu machen, was dies eigentlich bedeutet, wollen Um deutlich zu machen, was dies eigentlich bedeutet, wollen wir uns als nächstes Dezimalzahlen ansehen. wir uns als nächstes Dezimalzahlen ansehen.

Dezimalzahlen bestehen aus Folgen der Ziffern Dezimalzahlen bestehen aus Folgen der Ziffern 0, 1, 2 ... 90, 1, 2 ... 9. . Was bedeutet aber beispielsweise die Zahl Was bedeutet aber beispielsweise die Zahl 34953495?? Auf Englisch würde man z.B. lesen: Auf Englisch würde man z.B. lesen:

three thousand four hundred and ninety fivethree thousand four hundred and ninety five..

Page 8: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: DezimalzahlenBits - Bytes: Dezimalzahlen

Ginge es um Geld könnte Ginge es um Geld könnte three thousand four hundred and ninety three thousand four hundred and ninety fivefive stehen für die Summe aus drei Tausendern, vier Hundertern, stehen für die Summe aus drei Tausendern, vier Hundertern, neun Zehnern, und fünf Eurostücken. Etwas abstrakter neun Zehnern, und fünf Eurostücken. Etwas abstrakter ausgedrückt: ausgedrückt: 3 x 1000 + 4 x 100 + 9 x 10 + 5 x 13 x 1000 + 4 x 100 + 9 x 10 + 5 x 1 oder oder3 x 103 x 103 3 + 4 x 10+ 4 x 1022 + 9 x 10 + 9 x 1011 + 5 x 10 + 5 x 100 0 dafür kurz:dafür kurz:3 4 9 5 3 4 9 5 die Zehnerpotenz ist durch die Position in der Zahlenfolge die Zehnerpotenz ist durch die Position in der Zahlenfolge gegeben, von rechts nach links:gegeben, von rechts nach links:3 2 1 03 2 1 0

Page 9: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: DualzahlenBits - Bytes: Dualzahlen

Bitfolgen wie Bitfolgen wie 10101010 lassen sich nun analog interpretieren, allerdings lassen sich nun analog interpretieren, allerdings mit dem Unterschied, daß wir es hier mit Potenzen der Zahl 2 zu mit dem Unterschied, daß wir es hier mit Potenzen der Zahl 2 zu tun haben. tun haben. Ziffernfolge:Ziffernfolge: 1 0 1 01 0 1 0Position:Position: 3 2 1 03 2 1 0Bedeutung:Bedeutung: 1 x 21 x 233 + 0 x 2 + 0 x 222 + 1 x 2 + 1 x 211 + 0 x 2 + 0 x 200

== 1 x 8 + 0 x 4 + 1 x 2 + 0 x 1 1 x 8 + 0 x 4 + 1 x 2 + 0 x 1 = 10= 10Somit ist die Zuordnung von Bitfolgen nicht willkürlich sondern Somit ist die Zuordnung von Bitfolgen nicht willkürlich sondern ergibt sich aus dem ergibt sich aus dem dualendualen Zahlensystem. Zahlensystem.

Page 10: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: Rechnen mit DualzahlenBits - Bytes: Rechnen mit Dualzahlen

Mit Dualzahlen kann man rechnen. Es gelten folgende Mit Dualzahlen kann man rechnen. Es gelten folgende Grundregeln für Addition:Grundregeln für Addition:0 + 0 = 00 + 0 = 01 + 0 = 0 + 1 = 11 + 0 = 0 + 1 = 11 + 1 = 101 + 1 = 10, d.h. , d.h. 00 plus Übertrag plus Übertrag 11

1 0 1 0 11 0 1 0 10 1 0 1 10 1 0 1 1

1 0

1

0

1

0

1

0

1

0

1

Page 11: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: Andere ZahlensystemeBits - Bytes: Andere Zahlensysteme

Andere Zahlensysteme, die in der Computertechnologie eine Andere Zahlensysteme, die in der Computertechnologie eine wichtige Rolle spielen, sindwichtige Rolle spielen, sindOktalzahlenOktalzahlen auf der Basis 8 mit den Ziffern 0 .. 7 und auf der Basis 8 mit den Ziffern 0 .. 7 und HexadezimalzahlenHexadezimalzahlen auf der Basis 16. Dafür reichen dann die auf der Basis 16. Dafür reichen dann die Ziffern 0 .. 9 nicht aus und müssen durch die Buchstaben A .. F Ziffern 0 .. 9 nicht aus und müssen durch die Buchstaben A .. F ergänzt werden. ergänzt werden.

DezimalDezimal BinärBinär OktalOktal HexadezimalHexadezimal245245 1111010111110101 365365 F5F5

Umrechung mit dem Windows-RechnerUmrechung mit dem Windows-Rechner

Page 12: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: Andere ZahlensystemeBits - Bytes: Andere Zahlensysteme

Zahlen können mit einer beliebigen Basis kodiert werden und es Zahlen können mit einer beliebigen Basis kodiert werden und es gibt einen einfachen Algorithmus zur Konvertierung von gibt einen einfachen Algorithmus zur Konvertierung von Dezimalzahlen in ein anderes Zahlensystem. Das funktioniert Dezimalzahlen in ein anderes Zahlensystem. Das funktioniert folgendermassen:folgendermassen:

1.1. Man ermittelt, wie oft die Basis in die Zahl „reinpasst“, notiert sich Man ermittelt, wie oft die Basis in die Zahl „reinpasst“, notiert sich das Ergebnis und den Restdas Ergebnis und den Rest

2.2. Dann macht man mit dem Ergebnis des ersten Schrittes weiter, Dann macht man mit dem Ergebnis des ersten Schrittes weiter, solange bis das Ergebnis solange bis das Ergebnis 00 ist. ist.

3.3. Die Reste von rechts nach links notiert Ergeben die Zahl zur Die Reste von rechts nach links notiert Ergeben die Zahl zur neuen Basisneuen Basis

Page 13: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: Andere ZahlensystemeBits - Bytes: Andere Zahlensysteme

Beispiel: Man stelle die Zahl Beispiel: Man stelle die Zahl 245245 mit der Basis mit der Basis 77 dar: dar:245 : 7 245 : 7 = = 3535 Rest:Rest: 0035 : 7 35 : 7 = = 55 Rest:Rest: 005 : 7 5 : 7 = = 00 Rest:Rest: 55Die Reste von rechts nach links notiert ergeben die Zahl zur Basis Die Reste von rechts nach links notiert ergeben die Zahl zur Basis 7, also 7, also 500500Deren Bedeutung ist Deren Bedeutung ist 5*75*722 + 0*7 + 0*711 +0*7 +0*700

Kontrolle: Kontrolle: 5*75*722 = 5*49 = 245 = 5*49 = 245 (dezimal) (dezimal)

Page 14: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: Andere ZahlensystemeBits - Bytes: Andere Zahlensysteme

Beispiel 2: Man stelle die Zahl Beispiel 2: Man stelle die Zahl 245245 (dezimal) mit der Basis (dezimal) mit der Basis 33 dar: dar:245 : 3 245 : 3 = 81= 81 Rest:Rest: 2281 : 3 81 : 3 = 27= 27 Rest:Rest: 0027 : 3 27 : 3 = = 99 Rest:Rest: 009 : 39 : 3 == 33 Rest:Rest: 003 : 33 : 3 = = 11 Rest:Rest: 001 : 31 : 3 == 00 Rest:Rest: 11Resultat: Resultat: 100002100002

Page 15: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bits - Bytes: Andere ZahlensystemeBits - Bytes: Andere Zahlensysteme

Aufgabe:Aufgabe:Stellen Sie die Zahl Stellen Sie die Zahl 47114711 (dezimal) dar als: (dezimal) dar als:1.1. BinärzahlBinärzahl2.2. OktalzahlOktalzahl3.3. HexadezimalzahlHexadezimalzahl

Überprüfen Sie das Ergebnis mit dem Windows-RechnerÜberprüfen Sie das Ergebnis mit dem Windows-Rechner

Page 16: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und ZeichenBytes und Zeichen

Bei der Kodierung linguistischer Daten geht es im einfachsten Bei der Kodierung linguistischer Daten geht es im einfachsten Fall zunächst einmal darum, Zeichenfolgen in Bytefolgen zu Fall zunächst einmal darum, Zeichenfolgen in Bytefolgen zu transformieren. Dazu ist eine standardisierte systematische transformieren. Dazu ist eine standardisierte systematische Zuordnung von Bytewerten und Buchstaben erforderlich.Zuordnung von Bytewerten und Buchstaben erforderlich.

Solche Solche ZeichenkodesZeichenkodes oder oder ZeichensätzeZeichensätze sind frühzeitig sind frühzeitig entwickelt worden. entwickelt worden.

Page 17: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: ASCIIBytes und Zeichen: ASCII

In früheren Systemen wurden allerdings nur 6 oder 7 Bit In früheren Systemen wurden allerdings nur 6 oder 7 Bit verwendet. Große Bedeutung erlangte der 7- Bit-Code verwendet. Große Bedeutung erlangte der 7- Bit-Code ASCIIASCII. . ASCII steht für ASCII steht für American Standard Code for Information American Standard Code for Information Interchange Interchange (Amerikanischer Standardkode zum (Amerikanischer Standardkode zum Informationsaustausch). Informationsaustausch).

Mit 7 Bit können allerdings nur Werte zwischen 0 und 127 Mit 7 Bit können allerdings nur Werte zwischen 0 und 127 dargestellt werden. Von diesem Wertevorrat war der Bereich dargestellt werden. Von diesem Wertevorrat war der Bereich von 0 bis 31 und 127 für sog. von 0 bis 31 und 127 für sog. SteuerungsaufgabenSteuerungsaufgaben reserviert. reserviert.

Somit verbleiben nur noch die Werte 32 .. 126 für den Somit verbleiben nur noch die Werte 32 .. 126 für den Zeichenkode selbst.Zeichenkode selbst.

Page 18: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: 7-Bit-ASCIIBytes und Zeichen: 7-Bit-ASCII

Page 19: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: SpezialcodesBytes und Zeichen: Spezialcodes

SAMPASAMPAcomputer readable phonetic alphabetcomputer readable phonetic alphabet

SAMPASAMPA (Speech Assessment Methods Phonetic Alphabet)(Speech Assessment Methods Phonetic Alphabet) ist ein ist ein maschinenelesbares phonetisches Alphabet, das im Rahmen maschinenelesbares phonetisches Alphabet, das im Rahmen eines ESPRIT Projektes entwickelt worden ist und ursprünglich auf eines ESPRIT Projektes entwickelt worden ist und ursprünglich auf EU-Sprachen angewandt wurde.EU-Sprachen angewandt wurde.

Page 20: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: SpezialcodesBytes und Zeichen: Spezialcodes

SAMPA basiert auf einer systematischen Zuordnung der Symbole SAMPA basiert auf einer systematischen Zuordnung der Symbole des IPA-Zeichenvorrats auf ASCII-Codes im Bereich 33 .. 127, d.h. des IPA-Zeichenvorrats auf ASCII-Codes im Bereich 33 .. 127, d.h. den druckbaren 7-bit ASCII Zeichen. Diese Zuordnung erfolgt so, den druckbaren 7-bit ASCII Zeichen. Diese Zuordnung erfolgt so, daß die Eingabe über die Tastatur möglichst vereinfacht wird. Das daß die Eingabe über die Tastatur möglichst vereinfacht wird. Das geschieht dadurch, daß z.B. die Großbuchstaben verwandten geschieht dadurch, daß z.B. die Großbuchstaben verwandten Zeichen entsprechen, z.B. wird Zeichen entsprechen, z.B. wird NN zu Kodierung von zu Kodierung von

Page 21: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: SpezialcodesBytes und Zeichen: Spezialcodes

Der deutsche Satz Der deutsche Satz Einst stritten sich Nordwind und Sonne, wer von ihnen beiden Einst stritten sich Nordwind und Sonne, wer von ihnen beiden der Stärkere wäre. der Stärkere wäre.

wird kodiert alswird kodiert als?aInst "StRItn= zIC "nORtvInt ?Unt zOn@, ve:6 fOn ?i:n@n ?aInst "StRItn= zIC "nORtvInt ?Unt zOn@, ve:6 fOn ?i:n@n baIdn= de:6 StERk@R@ vE:R@baIdn= de:6 StERk@R@ vE:R@

wird wie folgt realisiertwird wie folgt realisiert Ɂɪˈʃʀɪ̩ɪ̩ ̩̩̩̩̩̩̩̩̩̩̩ ̩Ɂɪˈʃʀɪ̩ɪ̩ ̩̩̩̩̩̩̩̩̩̩̩ ̩

ˈɔʀɪɁʊɔəɐɔɁəɪ̩ɐʃɛʀəʀəɛʀə̩ ̩̩̩̩̩̩̩̩̩̩̩ ̩ ˈɔʀɪɁʊɔəɐɔɁəɪ̩ɐʃɛʀəʀəɛʀə̩ ̩̩̩̩̩̩̩̩̩̩̩ ̩

Page 22: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: MetazeichenBytes und Zeichen: Metazeichen

Eine Erweiterungsmöglichkeit besteht darin, daß man Eine Erweiterungsmöglichkeit besteht darin, daß man bestimmten Zeichen kontextabhängig eine andere Bedeutung bestimmten Zeichen kontextabhängig eine andere Bedeutung gibt und somit „gibt und somit „MetazeichenMetazeichen“ einführt. “ einführt.

Das Zeichen Das Zeichen ‚\‘‚\‘ z.B. ( z.B. (backslashbackslash) kommt in normalen Texten ) kommt in normalen Texten nicht vor. Es kann daher verwendet werden, um anzudeuten, nicht vor. Es kann daher verwendet werden, um anzudeuten, daß das nachfolgende Zeichen anders als normal gemeint ist. daß das nachfolgende Zeichen anders als normal gemeint ist. Man könnte z.B. mit Man könnte z.B. mit \“a\“a den Umlaut den Umlaut ää notieren. Allerdings notieren. Allerdings sollten diese Metasymbole standardisiert sein.sollten diese Metasymbole standardisiert sein.

Page 23: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: Mark-up CodesBytes und Zeichen: Mark-up Codes

Solche Metasymbole werden sehr extensiv in sogenannten ‚Mark-Solche Metasymbole werden sehr extensiv in sogenannten ‚Mark-up Sprachen‘ wie up Sprachen‘ wie TTEEX X (Tau Epsilon Chi)(Tau Epsilon Chi), , RTF RTF ((Rich Text FormatRich Text Format),), SGMLSGML ((Standard Generalized Markup LanguageStandard Generalized Markup Language)) und darauf und darauf aufbauend aufbauend HTMLHTML ((Hypertext Markup LanguageHypertext Markup Language)) und und XMLXML (Extended Markup Language)(Extended Markup Language) verwendet. Davon wird später noch verwendet. Davon wird später noch ausführlich die Rede sein.ausführlich die Rede sein.

Page 24: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Mark-up SprachenMark-up SprachenHTML HTML (für (für HyperHyperTText ext MMark-up Languageark-up Language))

<html><html><head><head><title>HTML-Fragment</title><title>HTML-Fragment</title></head></head><body><body><h1>HTML</h1><h1>HTML</h1><h2>Was ist HTML?</h2><h2>Was ist HTML?</h2><p><strong>HTML</strong> ist die <u>Standardsprache</u> zur Strukturierung <p><strong>HTML</strong> ist die <u>Standardsprache</u> zur Strukturierung und typographischen Gestaltung von Internet-Dokumenten. In solchen und typographischen Gestaltung von Internet-Dokumenten. In solchen Dokumenten gibt es &auml;hnliche Gestaltungsm&ouml;glichkeiten wie in einem Dokumenten gibt es &auml;hnliche Gestaltungsm&ouml;glichkeiten wie in einem Textverarbeitungsprogramm wie WORD, z.B. <em>Aufz&auml;hlungen</em>:</p>Textverarbeitungsprogramm wie WORD, z.B. <em>Aufz&auml;hlungen</em>:</p><ol><ol> <li>Anton</li><li>Anton</li> <li>Berta</li><li>Berta</li> <li>Clara</li><li>Clara</li> <li>Doris</li><li>Doris</li></ol></ol></body></body></html></html>

Page 25: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: Mark-up SprachenBytes und Zeichen: Mark-up Sprachen

TTEEX X (für (für Tau Epsilon ChiTau Epsilon Chi))

Dies ist eine sehr mächtige Mark-up-Sprache für den Computersatz, Dies ist eine sehr mächtige Mark-up-Sprache für den Computersatz, sozusagen eine Programmiersprache für Textverarbeitung, die sich sozusagen eine Programmiersprache für Textverarbeitung, die sich besonders in den technisch-naturwissenschaftlichen Fächern aber besonders in den technisch-naturwissenschaftlichen Fächern aber auch in der Linguistik großer Verbreitung erfreut. auch in der Linguistik großer Verbreitung erfreut. Die Gestalteigenschaften von Dokumenten werden durch die Die Gestalteigenschaften von Dokumenten werden durch die Sprache „beschrieben“. Wichtig dabei ist, daß der Zeichenvorrat des Sprache „beschrieben“. Wichtig dabei ist, daß der Zeichenvorrat des ASCII Zeichensatzes dafür ausreichend ist.ASCII Zeichensatzes dafür ausreichend ist.

Page 26: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: Mark-up SprachenBytes und Zeichen: Mark-up Sprachen

TTEEX X

Beispiel:Beispiel:$$\left[\matrix{Kategorie & Verb \cr$$\left[\matrix{Kategorie & Verb \cr

Tempus & Praet \crTempus & Praet \cr Kongruenz &Kongruenz &

{\left[\matrix{Person & 3\cr{\left[\matrix{Person & 3\crNumerus & Sg \crNumerus & Sg \cr }\right]} \cr}\right]$$}\right]} \cr}\right]$$

Page 27: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: Mark-up SprachenBytes und Zeichen: Mark-up Sprachen

TTEEX X

Beispiel:Beispiel:$$\left[\matrix{Kategorie & Verb \cr$$\left[\matrix{Kategorie & Verb \cr

Tempus & Praet \crTempus & Praet \cr Kongruenz &Kongruenz &

{\left[\matrix{Person & 3\cr{\left[\matrix{Person & 3\crNumerus & Sg \crNumerus & Sg \cr }\right]} \cr}\right]$$}\right]} \cr}\right]$$

Page 28: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: ASCII & ANSIBytes und Zeichen: ASCII & ANSI

Page 29: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: ASCII & ANSIBytes und Zeichen: ASCII & ANSI

ANSIANSI ( (American National Standard InstituteAmerican National Standard Institute), US-amerikanisches ), US-amerikanisches Institut für Normung, das sich im Prinzip mit dem Institut für Normung, das sich im Prinzip mit dem DINDIN ((Deutsches Deutsches Institut für Normung e.V.Institut für Normung e.V.)) vergleichen lässt. Zu den Hauptaufgaben vergleichen lässt. Zu den Hauptaufgaben des ANSI zählen u. a. die Definition und Genehmigung von Handels- des ANSI zählen u. a. die Definition und Genehmigung von Handels- und Kommunikationsstandards, wie beispielsweise die Festlegung und Kommunikationsstandards, wie beispielsweise die Festlegung von Standards im Bereich Computer und Datenverarbeitung (z. B. von Standards im Bereich Computer und Datenverarbeitung (z. B. ASCII, Zeichensätze). Darüber hinaus fungiert das nichtstaatliche ASCII, Zeichensätze). Darüber hinaus fungiert das nichtstaatliche Institut als eine Art Vermittlungsorganisation für international gültige Institut als eine Art Vermittlungsorganisation für international gültige Normen. Normen.

Page 30: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: ISO-8859Bytes und Zeichen: ISO-8859

ISOISO ist eine Abkürzung für ist eine Abkürzung für International Standards Organization International Standards Organization und bezeichnet eine Standardisierungsinstitution. und bezeichnet eine Standardisierungsinstitution.

ISO-8859ISO-8859

Page 31: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: UnicodeBytes und Zeichen: Unicode

UnicodeUnicode ist ein System, in dem die Zeichen oder Elemente aller ist ein System, in dem die Zeichen oder Elemente aller bekannten Schriftkulturen und Zeichensysteme festgehalten bekannten Schriftkulturen und Zeichensysteme festgehalten werden. werden.

Durch dieses System wird es möglich, einem Computer zu sagen, Durch dieses System wird es möglich, einem Computer zu sagen, welches Zeichen man dargestellt bekommen will. Voraussetzung ist welches Zeichen man dargestellt bekommen will. Voraussetzung ist natürlich, daß der Computer bzw. das ausgeführte Programm das natürlich, daß der Computer bzw. das ausgeführte Programm das Unicode-System kennt. Unicode-System kennt.

So werden beispielsweise bei Windows NT alle Zeichen, egal mit So werden beispielsweise bei Windows NT alle Zeichen, egal mit welcher Software Sie arbeiten, im Arbeitsspeicher intern als welcher Software Sie arbeiten, im Arbeitsspeicher intern als Unicodes gespeichert.Unicodes gespeichert.

Page 32: Computerwerkzeuge für die Linguistik:  Probleme der Kodierung

Bytes und Zeichen: UnicodeBytes und Zeichen: Unicode

Jedes Zeichen oder Element in Unicode wird durch eine zwei Jedes Zeichen oder Element in Unicode wird durch eine zwei Byte lange Zahl ausgedrückt. Auf diese Weise lassen sich bis Byte lange Zahl ausgedrückt. Auf diese Weise lassen sich bis zu 256zu 25622 = 65536 verschiedene Zeichen in dem System = 65536 verschiedene Zeichen in dem System unterbringen. unterbringen.

In Version 2.0 des Unicode-Standards sind 38885 Zeichen In Version 2.0 des Unicode-Standards sind 38885 Zeichen dokumentiert. Es ist also noch Platz genug.dokumentiert. Es ist also noch Platz genug.

Damit es jedoch nicht irgendwann eng wird, gibt es mittlerweile Damit es jedoch nicht irgendwann eng wird, gibt es mittlerweile ein erweitertes Schema, mit dem weit über eine Million ein erweitertes Schema, mit dem weit über eine Million verschiedene Zeichen in das System passen.verschiedene Zeichen in das System passen.