8
Literaturberieht zur Iniormationstheorie 1) Von Leopold Schmetterer (The Adolph C. and Mary Sprague Miller Institute for Basic Research in Science, Berkeley, CaLifornia, USA) Die mathematische Informationstheorie besch~ftigt sich mit der Theorie der Nachrichtenfiber- mittlung. Es handelt sich abet dabei nicht um Probleme der technisehen Realisierung yon Nach- richtensystemen -- wenngleich Wechselbeziehungen zwischen diesen Problemen und der In- formationstheorie bestehen --, sondem um Fragen aUgemeinerer l~atur. Die grundlegende Arbeit stammt von Shannon [1], doeh beschgftigen sich schon einige frfihere Arbeiten mit ~hnlichen Pro- blemen [2] ; [3] ; [4]. Unter einem Nachrichtensystem versteht Shannon nicht nur die fiblichen Ein- richtungen wie Telefon oder Telegraf, sondem jedes System, das etwa in der Form beschrieben werden kann: Nachriehtenquelle -- Sendeanlage (¥erschliisseln) -- Nachrichtenkanal -- Emp- f~nger (Entschlfisseln) -- Bestimmungsort. Darunter fiillt z. B. ein Gesprgch (Gehirn -- Sprach- werkzeug -- Luft -- Ohr -- Gehim) oder eine Statistische Erhebung (Befragte Person -- Er- hebungsbogen -- Weg zur Sammelstelle -- Einlaufstelle -- Sachbearbeiter) usw. Ein zentrales Problem der mathematischen Informationstheorie besteht in der Auffindung eines zweekmM3igen Malles der dureh eine Nachricht gelieferten Information. Dieses wird als Entropie bezeichnet. Tatsgehlich besteht eine starke Analogie zu dem in der Statistisehen Mechanik sehon lange gelgufigen Begriff. (Vgl. z. B. Szilard [5].) Dem Standpunkt yon Wiener [6] folgend, wird die Nachrichteniibermittlungbei Shannon als wahr- scheinlichkeitstheoretisehes Problem betrachtet: Nieht nut die StSrungen hn Nachriehtenkanal, das Ger~useh oder ,,Rausehen", sondem auch die Nachrichtenquelle selbst tragen statistischen Charakter. Im folgenden soll der Kfirze halber nur der sogenannte diskrete Fall, in dem die Quelle nut Zeichen eines gegebenen endiiehen ,,Alphabetes" A zu den Zeiten..., --2, -- 1,0, 1, 2, ... aus- sender, betrachtet werden, obwohl Shannon auch ein- oder mehrdimensionale totalstetige Ver- teilungen behandelt. Eine Nachrichtenquelle ist bei Shannon ein station~rer Markoffscher Prozeil (Xn), wobei Xn den zur Zeit n ausgesendeten ,,Buchstaben" aus A bedeutet. Diesem Modell liegt etwa die Vorstellung zugrunde, der Prozell repr~sentiere die a-priori-Kennmis des Empf~ngers iiber die mathematisehe Struktur der QueUe. Die Entropie einer zuf/illigen Variablen u, die nur endlich viele Werte mit Wahrscheinlichkeiten Pl .... , Pk annimmt, wird durch k H(u) = -- ~. pllog Pi 1=1 mit Logarithmen zur Basis 2 deflniert. Dureh diese Wahl der Basis wird offenbar die Einheit der Information durch die Alternativverteilung definiert, was im Hinblick auf teehnisehe Fragen (Relais) yon Vorteil ist. Shannon untersucht diese Funktion eingehend und motiviert ihre Inter- pretation als ein Mall ffir die Unbestimmtheit des Wertes yon u, oder anders ausgedrfiekt, als ein Mall ffir die Information, die man dureh eine Realisierung yon u erhalten kann. Mit Hilfe dieses Begriffes erklgrt er welter die Entropie H0 der Naehrichtenquelle, d. h. die yon der Queile ,,im Mittel pro Buchstabe" ausgesandte Information, und die wieder auf einen Buchstaben bezogene l~bermittlungsgesehwindigkeit bei gegebener Quelle und gegebenem Nachriehtenkanal. Die Kapazit~t eines Nachriehtenkanals ist definiert als die obere Grenze der bei allen mSglichen Quellen erzielbaren 1J'bermittlungsgesehwindigkeiten fiber den Kanal. Den Schwerpunkt dieser 1) Mein ganz besonderer Dank gilt Herrn Krickeberg, jetzt o. Prof. in Heidelberg, der mir bei der Zusammenstellung der Literatur und Bespreohung zentraler mathematiseher Arbeiten unseh~tz- bare Hilfe geleistet hat. 259

Literaturbericht zur Informationstheorie

Embed Size (px)

Citation preview

Literaturberieht zur I n i o r m a t i o n s t h e o r i e 1)

Von Leopold Schmetterer (The Adolph C. and Mary Sprague Miller Institute for Basic Research in Science, Berkeley, CaLifornia, USA)

Die mathematische Informationstheorie besch~ftigt sich mit der Theorie der Nachrichtenfiber- mittlung. Es handelt sich abet dabei nicht um Probleme der technisehen Realisierung yon Nach- richtensystemen - - wenngleich Wechselbeziehungen zwischen diesen Problemen und der In- formationstheorie bestehen --, sondem um Fragen aUgemeinerer l~atur. Die grundlegende Arbeit stammt von Shannon [1], doeh beschgftigen sich schon einige frfihere Arbeiten mit ~hnlichen Pro- blemen [2] ; [3] ; [4]. Unter einem Nachrichtensystem versteht Shannon nicht nur die fiblichen Ein- richtungen wie Telefon oder Telegraf, sondem jedes System, das etwa in der Form beschrieben werden kann: Nachriehtenquelle -- Sendeanlage (¥erschliisseln) -- Nachrichtenkanal -- Emp- f~nger (Entschlfisseln) -- Bestimmungsort. Darunter fiillt z. B. ein Gesprgch (Gehirn -- Sprach- werkzeug -- Luft -- Ohr -- Gehim) oder eine Statistische Erhebung (Befragte Person -- Er- hebungsbogen -- Weg zur Sammelstelle -- Einlaufstelle -- Sachbearbeiter) usw. Ein zentrales Problem der mathematischen Informationstheorie besteht in der Auffindung eines zweekmM3igen Malles der dureh eine Nachricht gelieferten Information. Dieses wird als Entropie bezeichnet. Tatsgehlich besteht eine starke Analogie zu dem in der Statistisehen Mechanik sehon lange gelgufigen Begriff. (Vgl. z. B. Szilard [5].)

Dem Standpunkt yon Wiener [6] folgend, wird die Nachrichteniibermittlung bei Shannon als wahr- scheinlichkeitstheoretisehes Problem betrachtet: Nieht nut die StSrungen hn Nachriehtenkanal, das Ger~useh oder ,,Rausehen", sondem auch die Nachrichtenquelle selbst tragen statistischen Charakter. Im folgenden soll der Kfirze halber nur der sogenannte diskrete Fall, in dem die Quelle nut Zeichen eines gegebenen endiiehen ,,Alphabetes" A zu den Zeiten. . . , --2, -- 1,0, 1, 2, ... aus- sender, betrachtet werden, obwohl Shannon auch ein- oder mehrdimensionale totalstetige Ver- teilungen behandelt. Eine Nachrichtenquelle ist bei Shannon ein station~rer Markoffscher Prozeil (Xn), wobei Xn den zur Zeit n ausgesendeten ,,Buchstaben" aus A bedeutet. Diesem Modell liegt etwa die Vorstellung zugrunde, der Prozell repr~sentiere die a-priori-Kennmis des Empf~ngers iiber die mathematisehe Struktur der QueUe. Die Entropie einer zuf/illigen Variablen u, die nur endlich viele Werte mit Wahrscheinlichkeiten Pl . . . . , Pk a n n i m m t , w i r d d u r c h

k H ( u ) = - - ~. pllog Pi

1=1

mit Logarithmen zur Basis 2 deflniert. Dureh diese Wahl der Basis wird offenbar die Einheit der Information durch die Alternativverteilung definiert, was im Hinblick auf teehnisehe Fragen (Relais) yon Vorteil ist. Shannon untersucht diese Funktion eingehend und motiviert ihre Inter- pretation als ein Mall ffir die Unbestimmtheit des Wertes yon u, oder anders ausgedrfiekt, als ein Mall ffir die Information, die man dureh eine Realisierung yon u erhalten kann. Mit Hilfe dieses Begriffes erklgrt er welter die Entropie H0 der Naehrichtenquelle, d. h. die yon der Queile ,,im Mittel pro Buchstabe" ausgesandte Information, und die wieder auf einen Buchstaben bezogene l~bermittlungsgesehwindigkeit bei gegebener Quelle und gegebenem Nachriehtenkanal. Die Kapazit~t eines Nachriehtenkanals ist definiert als die obere Grenze der bei allen mSglichen Quellen erzielbaren 1J'bermittlungsgesehwindigkeiten fiber den Kanal. Den Schwerpunkt dieser

1) Mein ganz besonderer Dank gilt Herrn Krickeberg, jetzt o. Prof. in Heidelberg, der mir bei der Zusammenstellung der Literatur und Bespreohung zentraler mathematiseher Arbeiten unseh~tz- bare Hilfe geleistet hat.

259

Arbeit wie such der spgteren Theorie bflden Sgtze fiber die Ausnutzbarkeit eines Kanals bei gegebener QueUe durch passende Versehlfisselung (code). Die AUgemeinheit der Shannonschen Theorie bringt es mit sieh, daft sic viele Anwendungsgehiete hat. Eine Reihe yon Arheiten ist daher bemfiht, die Theorie ffir diese Zweeke dsrzustellen, wobei nicht immer msthemstische Fragen im Vordergrund stehen. So werden bei Bloch und Charkevi~ [7] die Grundgedsnken yon Shannon ffir Ingenieure dargestellt. Diesem Bestreben -- abet doch wesentlieh weiter ffihrend - - dient such das Werk yon Goldman [8]. Weitere hieher geh6rige Dsr- stellungen bei Barnard [9], Bdl [10], Blanc.f_xtpierre [11], Brillouin [12], Brookes [13], •romageot [14], Woodward [15]. Die Beweise der Shsnuonschen Satze fiber die Verschlfisselung und zum Teil such ihre Formulie- rung sind veto streng mathematischen Stsndpunkt ans nicht ganz vollstandig, und sic lsssen sich such, wie sieh sparer ergeben hat, nicht genau in der ursprfinglieh sngedeuteten Gestalt vervoll- st~ndigen. Der mathematischen Prazisierung dieser Ideen sind vor sllem die Arbeiten yon McMillan [16] und C h i t i n [17; 19] gewidmet. In [17] findet sieh eine eingehende Untersuchung des Begriffes der Entropie. Diese Funktion l/~Bt sich, wie schon Shannon zeigte, axiomatisch dureh einfache Forderungen festlegen. Ein anderes Axiomensystem stammt yon Faddejew [20]. MeMillan gibt scharfe Definitionen der Grundbegriffe ,,QueUe", ,,Kanal", usw., d. h. ein mathematisehes Mode[l, dessen sich such Chi~cin in [19] bedient. Der station~re Prozel3, der die :Nachrichtenquelle repr~sentiert, brsucht nicht mehr Markoffsch zu sein und wird dargestellt als Wahrscheinlich- keitsmsll tx im Raum A I aller Folgen x = ( . . . . x - i , x0, xl . . . . ) mit xi e A, der Eingangsnsch- richten (input). Genauer gesagt kann ein aus den Buchstaben x l , . . . , Xn aus A, -- gesendet zu den Zeiten 1 . . . . . n -- bestehendes Signal beschrieben werden dutch den ,,Zylinder" Z (xl . . . . . Xn) = {~ : ~ e A I, ~l = xl . . . . . ~n = xn} und Ix[Z(xl . . . . . xn)] ist eben die Wahrseheinlichkeit daffir, dall ein solches Signal gesendet wird. Dss Hauptergebnis yon MeMillan besteht in dem folgenden Satz, dessen Beweis sich suf einen Ergodensatz und die Doobschen Konvergenzs~tze fiber Mar-

l tingale stiitzt: Die Funktionenfolge fn (x) = -- n log ~ (Z (xl . . . . , xn) ) konvergiert im Mittel ge-

gen eine Funktion f (d. h. f ]fn -- fld~t -+ 0). Setzt man H0 = f f d # = nm f fnd/~,soresultiert AI AI n - - ~ AI

das folgende asymptotische/~.quipartitionstheorem: Bei gegebenem positivem e l~St sich A I bei hinreichend grol~em n zerlegen in Signale aus n Buchstaben (Zylinder) Z1, Z2 . . . . , Zk mit

t log ~ (zi) I t n + H o < e , i = 1 . . . . . k /

und eine Restmenge, deren Wshrseheinlichkeit kleiner als s ist. H0 wird als Entropie der gegebenen Quelle bezeichnet. Sic stellt die Information dar, die ein gesendeter Buchstabe im Mittel gibt. Breiman [18] hat sp~ter auch die Konvergenz von fn(x) mit der Wahrscheinlichkeit 1 bewiesen. Dies entspricht dem individuellen Ergodentheorem, wi~hrend der vorhin zitierte Satz mit dem Mittel-Ergodentheorem in Relation steht.

Zur Definition eines Nachrichtenkanals denkt sich MeMillan neben A ein ,,Ausgsngsalphabet" B und damit den Rsum B der Ausgangsnachrichten (output) y = ( . . . . Y-i, Y0, Yl . . . . ) gegeben. Der Kanal wird dann besehrieben dureh ein System yon WahrscheinlichkeitsmaBen (Vx)xeAI in B I , gedeutet etws folgendermaten: Ist x die gesendete Eingangsnachrieht, dann stellt vx (S) die Wahrscheinlichkeit dsffir dar, dall eine zu S c B I geh6rige Ausgangsnachrieht empfsngen wird.

Aueh McMillan deutet den Beweis des Shannonsehen Satzes nur an und erst C h i t i n ffihrt ihn in [19] in allen Einzelheiten sus fiir den Fall eines Kanals ,,mit endlichem Gedgchtnis re'u), zur Kon- struktion des gewfinschten Schlfissels Ideen von Feinstein [21] verwendend. Ffir einen Kanal mit endlichem Gedi~chtnis m hangt etwss ungenau, aber kurz gesagt, die Wahrscheinlichkeit Vx (Yn) ffir das Xn entsprechende Ausgangssignal yn nur von X n - m . . . . . Xn ab. Der Shsnnonsehe Sstz wird etws folgendermaBen formuliert: Sei H0 die Entropie einer Quelle mit Alphabet A0. Ist H0 < C, wobei C die Kspazit~t des Kanals bedeutet, der dureh die Alphabete A, B und die Wshr- scheinlichkeitsmssse Vx beschrieben wird, dann gibt es bei hinreichend groBem n einen Schlfissel

x) Die Definition des Ged~chtnisses in [19] bedarf naeh Mitteilung yon Herrn Krickeber9 noeh einer kleinen Modiflkation.

260

(yon A0 in A) der Signale aus n Buchstaben vor der l~bermittlung in Signale aus n -4- m Buchstaben derart umformt, dab das ursprfinglieh gesandte Signal an Hand des empfangenen Ausgangssignals mit einer beliebig kleinen Irrtumswahrseheinlichkeit richtig bestimmt werden kann. Dabei liegt die l~bermittlungsgeschwindigkeit beliebig nahe an H0. Chi t in ist jedoch genStigt, die Definition der Kapazit~t C anders zu fassen, als es McMillan tat, indem er nur ergodisehe QueUen zul~Bt. Hierzu bezeiehne man die Entropie von A mit H (x). Unter Hy (x) soll die Entropie von A ver- standen werden, wenn das fibertragene Signal y bekannt ist. Hy (x) steUt also etwa die Entropie dar, welehe naeh Durehgang durch den Kanal verbleibt. Es sei H (x) -- Hy (x) ---- R (x, y), d. h. die Restinformation, welehe man bei der l~bertragung erh~lt. Dann ist nach Chin~cin C ~- sup R (x, y), wobei das Supremum fiber alle ergodisehen Quellen zu nehmen ist. C wird daher aueh ergodisehe Kapaziti~t genannt.

Der Gebraueh der ergodischen Kapazit~t C hat zur l~olge, dab die Umkehrung des Shannonsehen Satzes nach der im Fall H0 > C kein Sehlfissel mit der genannten Eigenschaft existiert, nicht mehr ohne weiteres bewiesen werden kann. Sp~tere Arbeiten verfolgen vor allem das Ziel, aueh diese Umkehrung zu erhalten und auI3erdem, wenn mSglich, eine mehr ,,konstruktive" Definition der Kapazit~t zu geben, die ihre Berechnung erlaubt. Zum Tell wurden dabei etwas andere mathematische Modelle verwendet (Nedoma [24], Wolfowitz [27-30].) Rozenblat-Rot [22]; [23] definiert in naheliegender Weise eine Entropie zum Zeitpunkt t = k, wobei k etwa die ganzen Zahlen durehl~uft und baut die Theorie auf diesem Begriff auf, wobei er auch Resultate ffir nicht- station~re Quellen erh~lt.

Nedoma [24] erkl~rt die Kapazit~t eines Kanals als die obere Grenze der Entropien aUer Quellen, die sieh in gewissem Sinne fiber den Kanal ,,fibertragen" lassen; er ffihrt diesen Gedanken im Falle eines stSrungsfreien Kanals auf Fortet zurfick (vgl. Blanc-Lapierre [25]). Von zwei Systemen yon ,,Risikofunktionen" ausgehend, die Funktionen der Quelle, des Kanals, des Sehlfissels und der Entsehliisselung sind und die Wahrseheinlichkeit bzw. die mittlere Hiiufigkeit eines l~bermitt- lungsfehlers messen (e- bzw. f-Risiken), wird eine (ergodisehe) Quelle als e- bzw. f-fibertragbar fiber den Kanal bezeiehnet, wenn es bei hinreichend groBem n stets einen sogenannten n-Zeichen- sehlfissel gibt, mit dem das e- bzw. f-Risiko beliebig klein wird. Die e- bzw. f-Kapazit~t Ce bzw. CT sei die obere Grenze der Entropien der solchermal3en fibertragbaren Quellen. Nedoma zeigt, dab beide fibereinstimmen und dal~ damit die Shannonschen Si~tze gelten, z .B. der folgende: Ist H0 < Ce, so ist die Quells e-fibertragbar fiber den Kanal, im Fall Ho > Ce dagegen nieht. Ein ithnliehes Resultat trifft auf die f-grbertragbarkeit zu. Ffir die ergodisehe Kapazit~t C gilt Ce --< C und es kann Ce < C sein, so daft also immrhalb des Nedomasehen Modells der mit der Kapazit~t C formulierte Shannonsche Satz im allgemeinen nicht richtig ist. In der Tat ist der Begriff ,,Ka- nal" bei Nedoma und Chin~in verschieden definiert, da den Wahrscheinlichkeitsmal3en (Vx)xeaI nieht dieselben Bedingungen auferlegt werden. Ferner sind auch die verwendeten Schlfissel in beiden FMlen verschieden. Die n-Zeiehensehlfissel Nedomas gew~hrleisten eine gewisse ,,Synehroni- sation" zwisehen Verschliisseln und Entschlfisseln: die Folge x wird in Gruppen von je n Buch- staben zerlegt, die jede ffir sich mit Hflfe ein- und derselben Funktion in ebensolche Gruppen transformiert wird, und analog beim Entsehlfisseln. Perez [26] verallgemeinert den asymptotischen/~quipartitionssatz yon McMillan und einige der S~tze yon Feinstein und Chi t in auf den Fall eines nieht notwendig endlichen Alphabets unter gewissen Totalstetigkeitsvoraussetzungen, die es erlauben, Entropien mit Hilfe von Diehten aus- zudrficken. Ein etwas anderes Modell liegt den Arbeiten yon Wol/owitz [27]; [28]; [29]; [30] zugrunde. Es sei etwa A ---- B = {0,1}. Zu jeder Folge = (cq . . . . . am+l) mit ~i • A, wobei m das ,,Gedi~ehtnis" des Kanals bezeiehne, seien Wahrscheinlichkeiten p(0[a) und p(1 la) mit p(0Ia) -4- p(1 la) = 1 gegeben. Bedeutet x = (Xl . . . . . xn) die zu fibermittelnde Eingangsnachricht und wird ~(J) = = ( x j , . . . , Xj+m) gesetzt, dann ist dieAusgangsnaehriehtdiezufMligeVariable y ~ (yl . . . . . yn-m), wobei yj die Wert~ 0 und 1 mit den Wahrseheinliehkeiten p (0 [ a(J)) und p (11 ~(J)) annimmt und die y voneinander unabhi~ngig sind. Ein Sehlfissel zu gegebener Irrtumswahrscheinlichkeit ist eine Menge yon Paaren (x(k), A(k)), k -~ 1 . . . . , S, so dab jedes x(k) eine Eingangsnachricht und jedes A(k) eine Menge yon Ausgangsnachrichten darsteUt, die A( k} paarweise fremd shad und W {y • A(k) I x(k)} > 1 -- 2. Dieser Definition, die sich am asymptotischen Aquipartitions- theorem orientiert, liegt die folgende Vorstellung zugrunde: GehSrt die Ausgangsnachrieht y zu

261

A(k), so schlieBt der Empfanger, dab die Nachricht x(k) gesendet wurde. Die L~nge S des Schliissels ist also die Anzahl der so iibertragbaren Nachriehten. WoIlowitz beweist nun die Existenz einer in bestimmter Weise berechenbaren Zahl C, eben tier Kapazit~t, mit den folgenden Eigenschaften: Ist e > 0, so gibt es bei hinreiehend grollem n einen Schliissel, dessen L~nge mindestens 2n<C + ~ ist, hingegen keinen, dessert L~nge grSller als 2n ~c + s) ware. Zaregradski [31] beweist sehlieBlieh die Umkehrung des Sharmonschen Satzes irmerhalb des MeMillan-Chin~insehen Modells, indem er zeigt dab die analog zu C e r l d ~ e stationare Kapa- zitat Cs, bei deren Bfldung im AnsehluB an Shannon und McMSllan station~re Quellen zugelas- sen werden, in Wirldiehkeit gleieh tier ergodisehen Kapazitat C ist. Fiir m = 0 (Kanal ohne Ge- di~ehtnis) siehe aueh [27]. Fiir (unzerlegbare) stationare Markoffsehe QueUen mad Kanale {mit endl. vielen Zustanden) mad m = 0 siehe [39]. Die wesentliehe Verallgemeinermag in dieser Arbeit besteht abet in der gleicbzeitigen Betrachtung beliebig vieler Kanale. Neuerdings hat Jaeobs [32] die Satze yon Chi~cin auf fast periodisehe Quellen und Kanale iiber- tragen und damit den fiir viele Anwendungen wichtigen Fall periodischer Signale effaBt.

Die Shannonsche Definition der Entropie einer zuf/flligen Variablen las t sich, wie sehon gesagt wurde, ohne Sehwierigkeiten auf den totalstetigen Fall iibertcagen. Wema -- im einfaehsten ein- dimensionalen Fail -- f(x) die Dicht~ einer zufiflligen Variablen u ist, dama ist

H (u) = f f(x) log f(x) dx, --00

wenn das Integral sinnvoll ist. In letzter Zeit haben sieh nun mehrere Autoren damit beschaftigt, die Definition der Entropie auf allgemeinere Verteilmagen zu iibertragen. Der Grmadgedanke besteht darin, die gegebene Verteflmag dureh diskrete Verteflmagen zu approximieren mad die Entropie durch einen entspreehenden Grenziibergang zu gewinnen. Rgnyi mad Balaton [33] gehen so vor: Sei u eine Zufallsvariable und fiir passendes K > 0, ganz, W([u] > K) = 0. Durch un = kin fiir k/n < u < (k + l)]n, k = 0, q- 1 . . . . . q- K n wird eine Folge yon Zufallsvariablen definiert. Fiir die Entropie H(Un) derdiskret vert~fltenzufalligenVariablenungilt H (un) < log2Kn. Wenn lira H (Un)/log n = d existiert, daun heillt dieser Limes die Dimension der Wahrscheinlieh- keitsverteilung yon u. Es ist 0 < d < I. Falls

lira [ H (Un) -- dlog n I = Hd(u) n - - ~ OO

existiert, heiBt ttd die d-dimensionale Entropie yon u. Fiir diskrete Verteflungen ist d = 0, fiir absolut stetige Verteflungen ist d = 1. Ffir gewisse Klassen zuf/~lliger Variabler 1/~Bt sieh die d-dimensionale Entropie axiomatisoh kennzeiehnen, ~hnlieb wie dies fiir die 0-dimensionale Entropie in [17] und [20] getan wurde. Gel[and und Jaglom [34] gehen yon der friiher definierten GrSlle R(x, y) aus. Wenn (x, y) eine diskrete zuf/~llige Variable ist mit Wahrsehelnliehkeiten ptk, 1 ~ i g n , 1 --< k ~ m mad dureh Pie bzw. pok die Verteilung yon x bzw. y defmiert wird, dann ist

I1 m ptk .

R<=, rl = r log p,opo 1 = 1 k = l

Ist x = x (x'), we x' eine andere diskret verteflte zufalligeVariable ist, danngilt R (x', y) > R (x,y). Ffir eine ahnliehe Aussage vergleiehe man aueh Suzuki [35]. x und y seien nun zwei beliebige zufallige Variable mit den Wahrseheinliehkeitsgesetzen p (x) mad p (y). Die gemeinsame Verteflung yon (x, y) sei dutch p(x, y) gegeben. Man betraehte irgendzwei Zerlegungen Zl, Zg. der reeUen Gernden in endlieh vide fremde endliche oder unendliehe Intervalle. Auf diese Weise werden in natiirlieher Weise x bzw. y diskrete zufallige Variable Xz, bzw. YZ, zugeordnet. Man detlnier~ nun

R (x, y) = sup R (Xz~, YZ,) Z~, Z~

Es wird im wesentliehen gezeigt, dab man im Falle der Totalstetigkeit yon p(x, y) bezfiglieh p(x) p(y)

R(x, y~ = f f g(x, y) log gCx, y) dp(x) @(y)

262

hat, wobei d~p (x, y)

g(x, y) -- dp (x) dp (y)

die nach dem Satz yon Radon-Nikodym existierende verallgemeiner~e Dichte ist. Natfirlieh kann man an Stelle yon Intervallen andere Mengenklassen zur Definition yon R(x, y) benfitzen. Die Relation zwischen einer Reihe solcher Definitionen und die Frage der Integraldarstellung yon R (x, y) wird genau bei Chiang-Tse-Pei [36] untersucht. Die Bedeutung der Arbeit [34] geht aber weir fiber die hier gegebenen Andeutungen hinaus, da diese Definitionen nieht nur auf endlich- dimensionale zuf~llige Variable angewendet werden kSnnen, sondern bei Beibehaltung des Grund- gedankens auch auf stochastische Prozesse oder noch allgemeiner auf zufgllige Distributionen erweitert werden k6nnen. Besonderes Interesse bietet die Untersuchung GauBscher Prozesse. In diesem Zusammenhange sei aueh auf Pinsker [37] verwiesen.

Dieselbe Idee wie in [34] kann man naturgem~B benfitzen, um den R (x, y) entsprechenden Aus- druck ffir WahrseheinlichkeitsmaBe fiber Booleschen Algebren zu definieren, indem man zun~ohst yon zwei beliebigen endlichen Unteralgebren ausgeht. Dies ist genauer ausgefiihrt bei Gel[and, Kolmogorov und Jaglom [38]. Ein Tefl der in [34] und [37] enthaltenen Ergebnisse ist auch in dem lesenswerten Artikel yon Kolmogorov [75] besprochen. Uberdies wird hier der Begriff der ~)ber- tragungsgenauigkeit pr~zisiert und in diesem Zusammenhang die e-Entropie definiert, wobei ~ > 0 in gewissem Sinne die gewiJnschte ~bertragungsgenauigkeit charakterisiert. In der Mathematischen Statistik ist schon lange ein auf R. A. Fisher zuriickgehendes Informations- ma~ bekannt, welches (in bestimmtem Sinne) die in einer Stichprobe enthaltene Information fiber die unbekannte Verteilung der Stichprobe miBt und formale /~hnlichkeit mit dem hier betrachteten InformationsmaB aufweist. Eine Reihe yon Arbeiten wird der Frage nach dem Zusammenhang zwischen diesen Mat3en gewidmet (siehe aueh [9]). Kullback und Leibler [40] betrachten den Fall, dab man eine Entseheidung zwischen zwei Wahrscheinlichkeitsmal]en mit den Dichten fl (x) und f2 (x) beziiglich eines Mafles co (x) zu treffen hat und definieren log [fl (x)/f2 (x)] als InformationsmaB in x ffir eine solche Entscheidung. Im Mittel (bezfigl. des Ma~es mit Dichte

fl (x), erh~lt man so I (1; 2) = f fl (x) log [fl (x)/f2 (x)] dco. GehSren fl (x) und f2 (x) einer Schar von

Verteilungsdichten an und l~Bt man den Scharparameter von f2 gegen fl rficken, dann gelangt man (unter entsprechenden Voraussetzungen) durch Grenziibergang von I(1; 2) zur Fisherschen In- formationsmatrix. Anderseits ist die Sbannonsche Entropie ein Sonderfall. In [41] legt Kullback dar, wie man I (1 ; 2) ~- I (2; 1) in der Diskriminanzanalyse als Entscheidungsmal] beniitzen kann. .~s Fortsetzung dieser Untersuehungen kann man die Arbeit [42] desselben Autors ansehen, in der weitere Anwendungen auf mehrdimensionale statistische Probleme gegeben werden. Insbesondere handelt es sich um Fragen der statistischen Sch/~tzung der Information. Es ist ziemlich natiirlich, dab die Untersuchungen in [40] mit der Frgchet-Cram~r-Rao.Ungleichung in Zusammenhang stehen. Das wird genauer in [43] ausgefiihrt.

-~hnliehe Ziele wie die Arbeit [40] verfolgen aueh die Untersuchungen yon Schiitzenberger [44]; [45]. ~mstatt dem fiber einer ~-Algebra von Mengen definierten WahrscheinlichkeitsmaB ein Unsicher- heitsma6, eben die Entropie zuzuordnen, wird im Rahmen der Bewertungstheorie yon Verb~nden axiomatisch eine (nicht notwendig numerische) GrSl]e definiert, welche nach Spezialisierung das Shannonsche und Fishersche Mal3 enthglt. Die Untersuehungen in [40] und [45] werden von Stare [76] weitergefiihrt.

In den Gedankenkreis yon [40] gehSrt auch die Arbeit [46] yon Suzuki, worin der Ausdruck I (1; 2) -- I (2; 1) studiert und als Abstand zweier Informationen aufgefa~t wird. Weiter kSnnen hier zwei Arbeiten [47]; [48] von Sa~uchi erwghnt werden. Es handelt sieh um das Problem, zwischen zwei Mal~en mittels eines Sequentialschemas zu entseheiden, nachdem in der erstgenann- ten Arbeit die Entropie eines solehen Schemas untersucht wurde. Dieses Problem ergibt sich, wenn man yon den empfangenen Signalen auf die erhaltenen Signale schliel]en soll. Diesem hier an- geschnittenen Problem ist die Arbeit yon Middleton und van Meter [49] gewidmet, welche die Waldsche Entscheidungstheorie heranziehen.

Ein weiterer Versuch, FunktionMe fiber Verteilungen zu definieren, welehe als Informationsma~ angesehen werden kSnnen, stammt yon Fdron [50].

18 Versicherungsm~thematik Iv, 3 263

In neuerer Zeit sind eine Reihe yon Arbeiten publiziert worden, welche den Entropiebegriff als Grundlage statistiseher Schlullweisen beniitzen. Hier kann die Arbeit [51] von Lin]oot erw~hnt werden, der einen Korrelationskoeffizient fiir zwei zufi~tlige Variable mittels der Entropie definiert. Im Falle der Normalverteilung fiillt dieser Ausdruck mit dem Betrag des Bravaissehen Korrela- tionskoeffizienten zusammen. Der Zusammenhang zwisehen Entropie, Regression und Korrelation wird aueh bei Fgron [50]; [52]; [53]; [54] und Fgron und Fourgeaud [55] betraehtet. Die Benfitzung des Entropiebegriffes in der statistischen Versuehsplanung wird yon Lindley [56]; [57] aufgegriffen. In [56] wird angenommen, dal3 fiir die Parameter eines Experiments eine a priori- Verteilung existiert. Fiir diese wird nach Shannon das InformationsmaB gebildet. Nach Durch- fiihrung des Experimentes wird dasselbe fiir die a-posteriori-Verteflung gemacht. Die Differenz gibt ein MaB fiir die im Experiment enthaltene Information. In [57] wird dies insbesondere auf die Binomialverteflung angewendet. Stone [58] beniitzt die Idee yon Lindley, um Probleme des An- legens yon Regressionsexperimenten zu behandein. Die Funktion xlog x ist in 0 < x < ¢¢ konvex. Die Entropie und damit im Zusammenhang stehende GrSBen geniigen daher einer Reihe wiehtiger Ungleiehungen. Unter speziellen Voraus- setzungen hat Hirschmann [59] gezeigt, dab die Entropie einer mit der Diehte f2 stetig verteilten zufMligen Variablen eine obere Schranke besitzt, welche mittels der Fouriertransformierten von f gebildet ist. Genauer sei

lira I f(x) e - 2nixy dx -- g(y)]2 dy = 0 n-~ --n --o0

und ebenso konvergiere / g (y) e - 2~ixy dy im Quadratmittel gegen f(x). Sei / f2 dx = f g2 dy = 1. --00 +~ ~aO --00 +~

Dann ist f f21og f 2 dx < -- f g21og g2 dy. Das ist eine Art additives Analogon zu einer bekannten - -o0 - - ~

Ungleichung yon Weyl, wenn man statt der Entropie die Streuungen betrachtet. Von den vielen Anwendungen der Informationstheorie auf nichtmathematisehe Gebiete kSnnen hier nur mehr einige wenige weitere Literaturangaben ohne Inhaltsangabe gegeben werden. Anwendungen auf Radar: [13] Anwendungen auf Physik und Teehnik: [8], [10], [12], [14], Gabor [60] und speziell auf die Optik: [11], Lin]oot [61], Schober [52]. Anwendungen auf die Psyehometrie und die Theorie des Lernens: Garner und Me. Grill [63], Rapoport [64], Cronbach [65], Wilcox [66]. Fragen der Kodierung: Hamming [67]; [68], Slepian [69], Elias [/0]; [71] Silverman und Balser [72], Beleviteh [73]. SchlieBlich sei erw~hnt, dab Stumpers [74] eine einsehlggige Bibliographie zusammengestellt hat, die aUerdings hinsiehtlieh der neueren mathematisehen Entwicklung notwendig iiberholt ist.

Eingegangen am 1. Juni 1959.

LITERATURVERZEICHNIS

[1] Shannon, C. E.: BSTJ 27 (1948), 379--423 und 623--656 oder Shannon, C. E. and Weaver, W., ,,The Mathematical Theory of Communication", The University of Illinois Press, Urbana, 1949.

[2] Nyquist, H.: BSTJ 3 (1924), 324--346. [3] Hartley, It. V. L.: BSTJ 7 (1928), 535--563. [4] Kotelnikow, W. A.: ,,Materialien zum ersten Sowjetkongrell fiber Fragen der Rekonstruktion

yon Verbindungen." 1933 [Russiseh]. [5] Szilard, L.: Z. Physik 53 (1929), 840--856. [6] Wiener, N.: ,,Extrapolation, Interpolation and Smoothing of Stationary Time Series." John

Wiley and Sons, New York, 1949. [7] Bloeh, E. L. und CharkeviE, A. A.: Izv. Akad. Nauk USSR O. Techn. Nauk (1955), 91--100

[Russiseh]. [8] Goldman, S.: ,,Information Theory." Prentice-Hall, Inc., New York, 1953. [9] Barnard, G. A.: J. Roy. Stat. Soe., Ser. B, 13 (1951).

[I0] Bell, D. A.: ,,Information Theory and its Engineering Applications." Pitman, London, 1953.

264

[11] Blanc-Lapierre, A.: Ann. Inst. H. Poincar6 13 (1953), 245--296. [12] Brillouin, L.: ,,Science and Information Theory." Academic Press, Inc., New York, 1956. [13] Brookes, B. C.: Math. Gaz. 40 (1956), 170--180. [14] Fromageot, A.: Ann. T616commune 7 (1952), 388--396. [15] Woodward, P. M.: ,,Probability and Information Theory with Applications to Radar."

McGraw-HiU Book Co., New York, Pergamon Press, London, 1953. [16] McMillan, B.: AMSt. 24 (1953, 196--219. [17] Chitin, A. J.: Usp. mat. Nauk 8 (1953), 3--20 [Russisch] oder ,,Arbeiten zur Informations-

theorie I." Math. Forsch. Ber., Deutscher Verlag der Wissenschaften, Berlin 1957, 7--25. [18] Breiman, L.: AMSt. 28 (1957), 809--811. [19] Chin~i,, A. J.: Usp. mat. Nauk 11, (1956), 11--75 [Russisch] oder ,,Arbeiten zur Informa-

tionstheorie I". Math. Forsch. Ber., Deutscher Verlag der Wissenschaften, Berlin, 1957, 26--85.

[20] Fadde]ew, D. K.: Usp. mat. Nauk 11 (1956), 227--231 [Russisch] oder ,,Arbeiten zur In- formatioustheorie I". Math. Forsch. Ber., Deutscher Verlag der Wissenschaften, Berlin, 1957, 86--90.

[21] Feinstein, A.: Trans I. R. E. PGIT-4 (1954), 2--22 oder R. Lab. of Electronics, MIT, Tech. Rep. No. 282 (1954).

[22] Rozenblat-Rot, R. M.: DAN 112 (1957), 16--19 [Russisch]. [23] Rozenblat-Rot, R. M.: DAN 112 (1957), 202--205 [Russisch]. [24] Nedoma, J.: Trans. of the First Prague Conference on Inf. Th., Star. Dec. Funct., Random

Proc., Prague, 1957, 143--181. [25] Blanc-Lapierre, A.: L'onde 61ectrique 33 (1953), 182-187 [26] Perez, A.: Trans. of the First Prague Conference on Inf. Th., Stat. Dec. Funct., Random

Proc., Prague, 1957, 209--243. [27] Wol/owitz, J.: Ill. Journal 1 (1957), 591--606. [28] Wol/owitz, J.: IU. Journal 2 (1958), 137--141. [29] Wol/owitz, J.: AMSt. 29 (1958), 351--355. [30] Wol/owitz, J.: Colloque CNRS. [31] Zaregradski, I. P.: ,,Arbeiten zur Informationstheorie II ." Math. Forsch. Bet., Deutscher

Verlag der Wissenschaften, Berlin, 1958, 65--77. [32] Jaeobs, K.: Math. Ann. 137 (1959), 125--135. [33] Renyi, A. und Balaton, J.: ,,Arbeiten zur Informationstheorie I." Math. Forsch. Ber., Deut-

scher Verlag der Wissenschaften, Berlin, 1957, 117--134. [34] Gel/and, I. M. und Jaglom, A. M.: Usp. mat. Nauk 12 (1957), 3--52 [Russisch] oder ,,Arbeiten

zur Informationstheorie II" . Math. Forsch. Ber., Deutscher Verlag der Wissenschaften, Berlin, 1958, 7--56.

[35] Suzuki, K.: Proc. Japan Acad. 32 (1956), 726--730. [36] Chiang, Tse-Pei: ,,Arbeiten zur Informationstheorie I I . " Math. Forsch. Ber. Deutscher Ver-

lag der Wissenschaften, Berlin, 1958, 61--64. [37] Pinsker, M. S.: DAN 99 (1954), 213--216 [Russisch]. [38] Gel~and, I. M., Kolmogorov, A. N., Jaglom, A. M.: DAN 111 (1956), 745--748 [Russisch]

oder ,,Arbeiten zur Informationstheorie II" . Math. Forsch. Ber., Deutscher Verlag der Wissenschaften, Berlin, 1958, 57--60.

[39] Blackwell, D., Breiman, L., Thomasian, A. J.: AMSt. 29 (1958) 1209--1220. [40] KuUback, S. und Leibler, R. A.: AMSt. 22 (1951), 79--86. [41] Kullbaek, S.: AMSt. 23 (1952), 88--102. [42] Kullback, S.: AMSt. 27 (1956), 122--146, 860. [43] Kullback, S.: AMSt. 25 (1954), 745--751. [44] Schiitzenberger, M. P.: CRAS. 232 (1951), 925--927. [45] Schiitzenberger, M. P.: Publ. Inst. Stat. Univ. Paris 3 (1954), No. 1--2, 3--117. [46] Suzuki, K.: Proc. Japan Aead. 33 (1957), 25--28. [47] Sakaguchi, M.: Rp. Stat. Appl. Res. Union Jap. Sci. Eng. 1 (1952), 27--31. [48] Sakaguchi, M.: Rp. Stat. Appl. Res. Union Jap. Sci. Eng. 4 (1955), 57--68. [49] Middleton, D. und van Meter, D.: J. Soc. Indust. Appl. Math. 3 (1955), 192--253.

18" 265

[50] F$ron, R.: Publ. Inst. Star. Univ. Paris 4 (1956), No. 3--4, 113--215. [51] Lin]oot, E. H.: Information and Control 1 (1957), 85--89. [52] F~ron, R.: CRAS. 230 (1950), 1495--1497. [53] Fgron, R.: CRAS. 234 (1952), 1343--1345. [54] Fgron, R.: CRAS. 234 (1952) 1840--1841. [55] Fgron R. et Fourgeaud, C.: CRAS. 232 (1951), 1636--1638. [56] Lindley, D. V.: AMSt. 27 (1956), 986--1005. [57] Lindley, D. V.: Biometrika 44 (1957), 179--186. [58] Stone, M.: AMSt. 30 (1959), 55--70. [59] Hirschmann, I. I., jr. : AJM. 79 (1957), 152--156. [60] Gabor, D.: ,,La th~orie des communications et la physique." La Cybernetiqne, 1950. [61] Lin/oot, E. H.: J. Opt. Soc. Amer. 45 (1955), 808--819. [62] Schober, H.: Optik 13 (1956), 350--364. [63] Garner, W. R. and McGrill, W. J.: Psychometrika 21 (1956), 219--228. [64] Rapoport, A.: Bull. Math. Biophys. 18 (1956), 317--321. [65] Cronbach, L. J.: Technical Report No. 1, Contract N60ri-07146, Urbana, Illinois (1953). [66] Wilcox, R. H.: Psychometrika 22 (1957), 269--274. [67] Hamming, R. W.: BSTJ 29 (1950), 147--160. [68] Hamming, R. W.: R. Lab. of Electronics, MIT, Tech. Rep. 293 (1955), 28 Seiten. [69] Slepian, D.: BSTJ 35 (1956), 203--234. [70] Elias, P.: R. Lab. of Electronics, MIT, Tech. Rep. 285 (1954), 12 Seiten. [71] Elias, P.: Trans. I.R.E. PGIT-4 (1954), 29--37. [72] Silverman, R. A. and Balser, M.: Trans. I.R.E. PGIT-4 (1954), 50--63. [73] Bdevitch, V.: Acad. Roy. Belg. Bull. C1. Sci. (5), 42 (1956), 419--436. [74] Stumpers, F. L.: R. Lab. of Electronics, MIT 1953. [75] Kolmogorov, A. N.: ,,Arbciten zur Informationstheorie I." Math. Forsch. Ber., Deutscher

Verlag der Wissenschaften, Berlin, 1957, 91--116. [76] Siam, A. J.: Nederl. Akad. Wetensch. Prec. Ser. B 60 (1957) 201--211

V E R Z E I C H N I S D E R A B K ~ R Z U N G E N

American Journal of Mathematics The Annals of Mathematical Statistics The Bell System Technical Journal Comptes Rendus hebdomaires des Sdances de l'Acaddmie

des Sciences Doklady Akademii Nauk SSSR Illinois Journal of Mathematics Izvestija Akademii Nauk SSSR Otdelenie Techni~eskich Nauk

Journal of the Royal Statistical Society Journal of the Society for Industrial and Applied Mathematics Journal of the Optical Society of America The Mathematical Gazette Research Laboratory of Electronics, Massachusetts Institute

of Technology Technical Report Reports of Statistical Application Research, Union of Japanese

Scientists and Engineers Transactions of the First Prague Conference on Information

Theory, Statistical Decision Functions, Random Processes

Uspechii matemati~eskii Nauk SSSR Zeitschrift Ftir Physik

A~ AMSt. BSTJ

CRAS DAN Ill. Journal Izv. Akad. Nauk USSR O. Techn. Nauk J. Roy. Stat. Soc. J. Soc. Indnst. Appl. Math. J. Opt. Soc. Amer. Math. Gaz. R. Lab. of Electronics, MIT, Tech. Rep. Rp. Star. Appl. Res. Union Jap. Sci. Eng. Trans. of the First Prague Conference on Inf. Th., Star. Dec. Funct., Random Prec. Usp. mat. Nauk Z. Physik

266