17
KRIEG IM AETHER Vorlesungen an der Eidgenössischen Technischen Hochschule in Zürich im Wintersemester 1977/1978 Leitung: Abteilung für Übermittlungstruppen, Divisionär A. Guisolan LPC Vocoder: Entwicklungsstand und Perspektiven Referent: Dr. S. Horvath Diese Vorlesung wurde durch die Stiftung HAMFU digitalisiert und als PDF Dokument für www.hamfu.ch aufbereitet.

LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

KRIEG IM AETHER

Vorlesungen an der Eidgenössischen Technischen Hochschule in Zürichim Wintersemester 1977/1978

Leitung: Abteilung für Übermittlungstruppen, Divisionär A. Guisolan

LPC Vocoder:Entwicklungsstand und Perspektiven

Referent: Dr. S. Horvath

Diese Vorlesung wurde durch die Stiftung HAMFU digitalisiert und alsPDF Dokument für www.hamfu.ch aufbereitet.

Page 2: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 1

3-1

LPC-VOCODERENTWICKLUNGSSTAND UND PERSPEKTIVEN

Dr. S. Horva th

Zusammenfassung

Auf dem Gebiet der "Linear Predictive Coding"- (LPC-) Vocoder wurde in den letzten Jahren intensiv ge-forscht. Der Beitrag zieht, nach einer kurzen Wiederholung der Grundlagen dieser Vocoder, eine Bilanzder erreichten Resultate und weist auf die noch offenstehenden Probleme hin. Insbesondere werden dieneuen Aspekte der Hardware-Realisierung mit Mikroprozessoren besprochen. Ein am Institut für TechnischePhysik der ETH Zürich im Bau befindlicher LPC-Vocoder wird beschrieben.

1. Einleitung

Der Informationsfluss bei der digitalen Sprachübertragung ohne Redundanzreduktion beträgt, wenneine gute Sprachqualität gefordert wird, 192 kbit/s. Dieser Wert resultiert, wenn man das analogeSprachsignal mit 8 kHz bandbegrerfzt, dem Abtasttheorem entsprechend das bandbegrenzte Sprachsignalmit 16 kHz abtastet und die einzelnen Abtastwerte mit 12 bit linear quantisiert. Falls man das ana-loge Sprachsignal mit 4 kHz bandbegrenzt (Telephonqualität) und dementsprechend das bandbegrenzteSprachsignal mit 8 kHz abtastet, reduziert sich der Informationsfluss beachtlich: In den vom CCITTempfohlenen Pulscodemodulation (PCM)-Systemen, in welchen die Abtastwerte mit 8 bit gemäss einerannähernd logarithmischen 13-Segment-Kennlinie quantisiert werden, beträgt er aber immer noch 64kbit/s. Der beim Sprechen erzeugte Nachrichtenfluss ist gegen diese hohen Datenraten überraschendklein, etwa 55 bit/s. Bei dieser Schätzung wird angenommen, dass der Mensch im Durchschnitt etwa10 Laute/s aussprechen kann, und dass er insgesamt über 40 verschiedene Laute verfügt. Daraus lässtsich schliessen, dass das Sprachsignal einen grossen redundanten Anteil enthält.

Um eine effiziente Ausnützung der Uebertagungskapazität zu erzielen, wird daher versucht, dieDatenrate bei der Uebertragung von Sprachsignalen durch Redundanzreduktion zu vermindern. Dieverschiedenen Verfahren zur Redundanzreduktion lassen sich in 2 Gruppen einteilen (s. Tabelle I).

"Krieg im Aether", Folge XVII

Page 3: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 2

K u r v e n f o r m k o d i e r u n q

o PCM (Telefonqualität) 64kB i t /s

o (A)DPCM 24.. 32kBit/s

(A k B i t / s

Vocoder (Analyse/Synthese-Systeme)

o Phasenvocoder 15k Bit/s

o Kanatvocoder 9,6k Bit/s

o Homomorphic-Vocoder 7,8k Bit/s

o LPC-Vocoder 2,4 kBit/s

o Formanten-Vocoder 1,5kBit /s

Tabelle I: Die verschiedenen Verfahren zur Redundanzreduktion bei der digitalen Sprachübertragung.

Die einen machen eine Signalformcodierung wie Pulscodemodulation (PCM), differenzielle Pulscode-modulation (DPCM) oder Deltamodulation (DM). Diese Verfahren setzen keine Annahmen betreffend derSprachsignale voraus und erlauben daher eine relativ bescheidene Redundanzreduktion. Die zweiteGruppe umfasst die sogenannten Analyse-Synthese-Methoden, welche von den spezifischen Eigenschaftender Sprachsignale Gebrauch machen. Diese Methoden ermöglichen dementsprechend eine wesentliche Re-dundanzreduktion. Es hat sich eingebürgert, Sprachanalyse und -synthese-Systeme als Vocoder, Ab-kürzung von "Voice-Coder", zu bezeichnen. In einem solchen System wird sendeseitig zu bestimmtenZeitpunkten ein Satz relevanter Sprachsignal parameter aus dem Sprachsignal extrahiert, codiert undübertragen. Dieser Parametersatz dient auf der Empfängerseite zur Rekonstruktion des Sprachsignals.

Dieser Beitrag befasst sich mit "Linear Predictive Coding" (LPC)-Vocodern. Auf dem Gebiet der LPC-Vocoder wurde in den letzten Jahren besonders intensiv geforscht. Die mit diesen Vocodern erziel-bare Redundanzreduktion ist beachtlich (s. Tabelle I) und die Sprachqualität wesentlich besser alsbei Formanten-Vocodern.

Der Beitrag gliedert sich wie folgt: Im nächsten Abschnitt werden, nach einer kurzen Wiederholungder Grundlagen, die verschiedenen Typen von LPC-Vocodern vorgestellt und ihre Eigenschaften be-sprochen. Die Probleme ihrer Realisierung werden im Abschnitt 3 diskutiert, insbesondere die neuenAspekte der Hardware-Realisierung mit Mikroprozessoren. In diesem Zusammenhang wird der am Institutfür Technische Physik der ETH Zürich im Bau befindliche LPC-Vocoder beschrieben. Der abschliessendeAbschnitt 4 befasst sich mit den Grenzen und Verbesserungsmöglichkeiten der heutigen LPC-Vocoder.

Page 4: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 3

3-3

Grundlagen und Eigenschaften der verschiedenen Typen von LPC-Vocodern

Alle LPC-Vocoder verwenden die Methode der Sprachanalyse und -synthese durch die sogenannte linearePrädiktion, die Dr. Meier im letzten Kolloquium bereits kurz beschrieben hat (1). Die Methode setztein parametrisches Modell der Spracherzeugung voraus (s. Fig. 1), das den physikalischen Vorgangbeim Sprechen idealisiert.

p

- W t p

Anregung

Gx(n)

x Zeitvariables s(n)J Digitalfilter

Allpol-Filter

Fig- 1 : Das in den heutigen LPC-Vocodern verwendete parametrische Modell der Spracherzeugung

Ein zeitdiskretes Digitalfilter, ein Allpolfilter *), modelliert die Klangformung durch Hals- undMundtrakt. Bei stimmhaften Lauten ist die Anregung dieses Filters eine Pulsfolge, deren Frequenz,die Pitch-Frequenz, die periodische Anregung durch die Stimmbänder idealisiert. Bei stimmlosenLauten ist sie weisses Rauschen, idealisierend für die Luftturbulenz im Hals, wenn die Stimmbän-der nicht angeregt werden. Der Verstärkungsfaktor G schliesslich kontrolliert die Lautstärke.

Zur Sprachsynthese mit Hilfe dieses digitalen Modells der Spracherzeugung werden somit die folgen-den Modell parameter benötigt: Die Information, ob der zu synthetisierende Laut stimmhaft oder stimm-los ist, die Pitch-Frequenz bei stimmhaften Lauten, der Verstärkungsfaktor G und die Koeffizienten{ a ; } des Allpol-Digitalfilters. Ein neuer Abtastwert s ( n ) des Sprachsignals S ( t ) wird imModell dadurch gebildet, dass die früheren Abtastwerte S ( n - i ) mit den Fiìterkoeffizienten {a; } ge-wichtet und aufsummiert und diesem das mit dem Verstärkungsfaktor G multiplizierte Anregungs-signal x C n ) hinzuaddiert:

Ms ( n ) = -I

i = 1ai s ( n - i ) + G x ( n ) C1)

M ist dabei die Ordnung des All pol-Digital fi Iters.

*) So genannt, weil seine Uebertragungsfunktion H(z)ausschliesslich Pole aufweist.

Page 5: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 4

4-4

Bei der Methode der linearen Prädiktion wird die Tatsache, dass laut Gig. (1) sCrOaus den vorhergehenden Abtastwerten S ( r H ) vorausgesagt werden kann, dazu ausgenützt, um die optimalen Filter-koeffizienten {aj } zu bestimmen. Dabei wird der Unterschied zwischen SCrOund seinem SchätzwertS ( n ) , der sogenannte Prädiktionsfehler

M

i = ì(2)

(genauer gesagt, die Prädiktionsfehlerenergie) in Funktion der Filterkoeffizienten {aj} minimalisiert.

Inverses Filter

Fig. 2: Das inverse Filter: seine Eingangsfolge ist die abgetastete Spracheund seine Ausgangsfolge die Prädiktionsfehlerfolge Vergleiche Gig. (2).

Das in Fig. 2 gezeigte System, das Gig. (2) realisiert, wird oft als inverses Filter bezeichnet.Dies weil seine Uebertragungsfunktion F C z ) ein Polynom ist, das gleich ist, rein formal gesehen,der inversen Uebertragungsfunktion H ( z ) des Allpol-Digitalfilters, das im Modell verwendet wird.Bei optimalen Koeffizienten {aj} wird somit die totale Uebertragungsfunktion der Kaskadierungvon Allpol-Digitalfilter des Modells und inversem Filter eins geben (s. Fig. 3).

Gx(n)H (z) s(n)

F(z) e(n)H (z) F(z)

Allpol-Filter Inverses-Filter

Fig. 3: Kaskadenschaltung des All pol-Digital fi Iters des Sprachmodells und des inversen Filters.

In diesem Falle ist der restliche Prädiktionsfehler eCrûdem mit multiplizierten Anregungs-signal x(n)-ähnlich:

Page 6: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 5

4-5

2.1. Bestimmung der Model 1 parameter (Sprachanalyse)

Die digitalisierte Sprache wird wie in Fig. 4 in aequivalente Analyseintervalle von 10 -30 ms eingeteilt. In jedem dieser Analyseintervalle, welche Abtastwerte enthalten, werden dieModell parameter neu ermittelt.

AI

— |J|J|JJlflklf

- m s

Fig. 4: Ein abgetasteter Laut /a/ eingeteilt in 30 ms-Analyseintervalle

2.1.1. Bestimmung der Filterkoeffizienten

Die Filterkoeffizienten {aj} werden dadurch erhalten, indem man, wie bereits erwähnt, diePrädiktionsfehlerenergie im betrachteten Intervall in Funktion d e r minimisiert:

( I I i I a-{

" i-1

Dazu wird Gig. (4) nach den Filterkoeffizienten {aj} abgeleitet und gleich Null gesetzt. So er-hält man ein lineares Gleichungssystem mit M Gleichungen una M Unbekannten, welches nach denFilterkoeffizienten aufgelöst werden kann. Je nach Betrachtungsweise wie das Analyseinterval1entstanden ist, unterscheidet man hierbei zwischen zwei Methoden. In der sog. Autokorrelations-methode wird angenommen, dass das Sprachsignal stationär ist, sodass theoretisch der Summations-index ri in Gig. (4) von bis + » geht; im Analyseintervall ist allerdings nur ein endlicherAusschnitt (n = 0 N-1) davon vorhanden. Bei der sog. Kovarianzmethode wird keine Stationaritätmehr angenommen. Der Summationsindex geht v o n M ( M i s t die Ordnung des Digitalfilters) bis N-1.

Die Kovarianzmethode trägt besser den wirklichen Verhältnissen Rechnung, da das Sprachsignal inder Tat instationär ist. Es wird aber trotzdem die Autokorrelationsmethode meistens bevorzugt,weil die Annahme der Stationarität bedeutende Vorteile mit sich bringt. So z.B. kann man denLevinson - Algorithmus zur Lösung des linearen Gleichungssystems verwenden und hierdurch auf-wendige Matrixinversionen vermeiden. Ferner sind die erhaltenen Filterkoeffizienten immer derartbeschaffen, dass das Al 1 pol fi 1 ter im Modell stabil ist (2).

Bei der Kovarianzmethode kann man den Levinson-Algorithmus zur Auflösung des Gleichungssystemsnicht mehr verwenden. Die gesuchten Filterkoeffizienten müssen entweder durch geschickte Dreiecks-zerlegung oder durch Matrixinversion ermittelt werden. Die Kovarianzmethode besitzt zudem denNachteil, dass sie nicht garantiert, dass das Allpol-Digitalfilter im Modell stabil wird (3).

Page 7: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 6

4-6

2.1.2. Bestimmung des Verstärkungsfaktors G

Die Bestimmung des Verstärkungsfaktors beruht auf der Tatsache, dass bei optimalen Filterkoef-fizienten {ai} , die totale Uebertragungsfunktion des Allpol-Digitalfilters des Modells und desinversen Filters gleich eins ist, und somit der restliche Prädiktionsfehler gleich dem mit multiplizierten Anregungssignal GxCrüist (s. Gig. (3)). Unter der Annahme, dass die Energie

des Anregungssignals x gleich 1 war, erhält man G direkt als Wurzel von , der Energie desrestlichen Prädiktionsfehlers. wird in der Autokorrelationsmethode als Nebenprodukt des Levin-son-Algorithmus automatisch erhalten (2).

2.1.3. Bestimmung der Pitch-Frequenz

Die korrekte Ermittlung der Information, ob ein stimmhafter oder stimmloser Laut im Analyseinter-vall vorliegt, und die exakte Bestimmung der Pitch-Frequenz bei stimmhaften Lauten sind in LPC-Vocodern besonders wichtig, denn diese Sprachparameter haben einen grossen Einfluss auf die Quali-tät der synthetisierten Sprache. So tönt z.B. die synthetisierte Sprache sehr unnatürlich, fallsdie Pitch-Frequenz konstant gehalten wird.

Mehrere Verfahren zur Bestimmung der Pitch-Frequenz wurden vorgeschlagen (4) - (8). Eines der zu-verlässigsten (aber ein etwas aufwendiges) Verfahren beruht darauf, dass, wie bereits erwähnt, beioptimalen Filterkoeffizienten die Uebergangsfunktion des Systems Allpol-Digitalfilter und inversesFilter annähernd eins ist, sodass der restliche Prädiktionsfehler am Ausgang des inversenFilters dem mit Gmultiplizierten Anregungssignal ähnlich ist (8). Insbesondere wirdbei stimmhaften Lauten periodische Pulse aufweisen, bei stimmlosen Lauten jedoch .rauschartig sein.In diesem Verfahren setzt man also die berechneten Filterkoeffizienten im inversen Filter ein,filtriert das im Analyseintervall vorhandene digitalisierte Sprachsignal und detektiert mitHilfe einer Schwelle die Periodizität im Signal (s. Fig. 5a). Oft wird allerdings zuerstnoch die Autokorrelationsfunktion von berechnet (s. Fig. 5b). Damit wird erreicht, dass dieDetektion einfacher wird. Falls die Autokorrelationsfunktion von keine Periodizität auf-weist, wird das im betrachteten Analyseintervall vorhandene Sprachsignal als stimmlos bezeichnet.Das Pitch-Interval1 p , Inverse der Pitch-Frequenz, ist in diesem Falle Null.

Die Pitch-Bestimmung gilt heute noch als unbefriedigend gelöst. Aus diesem Grunde wurde auch ver-sucht, die Pitch-Bestimmung zu umgehen und den Restfehler direkt zu übertragen. Man unterscheidetdeshalb zwischen "Pitch-Excited"-LPC-Vocodern und "Voice-Excited"- oder "Residual-Excited"-LPC-Vocodern. Die Letzteren benötigen im allgemeinen trotz effizienter Restfehlerübertragung einebedeutend grössere Datenrate (3).

Heutige LPC -Vocoder

Anregung : Pitch - Pulse/Rauschen (PELP)

Anregung : Restfehleroder Sprache (VELP)

o Autokorrelationsmethode(2,4 - 4,8 kBit/s)

o Autokorrelationsmethode(9,6 kBit/s)

o Kovarianzmethode(7,2 kBit /s)

Tabelle II: Die heutigen LPC-Vocoder eingeteilt nach verwendeter Anregung und Analysemethodemit der jeweils benötigten Datenrate.

In der Tabelle II wurden die verschiedenen heutigen LPC-Vocoder nach der verwendeten Anregung undder Analysemethode eingeteilt. Realisiert wurden vor allem die "Pitch-Excited" LPC-Vocoder (10) -(12), wobei z.Zt. hauptsächlich die Autokorrelationsmethode verwendet wird.

Page 8: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 7

5 - 7

— ms

Fig. 5: Zur Pitch-Detektion:

a) Verlauf des restlichen Prädiktionsfehlers bei optimalen Filterkoeffizienten

W

b) Verlauf der Autokorrelationsfunktion von . Das Pitch-Intervall ist hiereinfacher zu bestimmen.

Page 9: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 8

5 - 8

2.2. Codierung der Sprachparameter

Die Datenrate in einem LPC-Vocoder wird bestimmt durch:

a) die "Frame-Rate", d.h. die Anzahl Analyseintervalle pro sec.,

b) die Anzahl verwendeter Sprachparameter pro Analyseintervall und

c) die Anzahl Bit, die zur Codierung der Sprachparameter benötigt werden.

Bei der Wahl der "Frame Rate" muss meistens ein Kompromiss geschlossen werden. Man fuhrt normaler-weise zwischen 30 und 100 Analysen pro sec. durch. Die Anzahl Sprachparameter pro Analyseinter-vall wird im wesentlichen durch die Anzahl Filterkoeffizienten {aj} ,d.h. durch die Ordnungdes Allpol-Digitalfilters im Modell bestimmt, wobei von der gewählten Abtastfrequenz ab-hängt. Es gilt die folgende Faustregel:

*A, A =

Niedrige Datenraten sind somit vor allem durch eine effiziente Codierung der Sprachparameter mög-lich. Hier wurde in den letzten Jahren bedeutende Resultate erzielt (13) - (14): In den erstenLPC-Vocodern wurden die Sprachparameter - Verstärkungsfaktor , Pitch-Intervall (Inverse derPitch-Frequenz) und die Filterkoeffizienten {aj} - linear mit 9 bit codiert. Heute erreicht maneine bessere Sprachqualität mit 5-bit codierten Sprachparametern. Dabei werden und loga-rithmisch codiert und anstelle der verwendet man neue Koeffizientensätze, welche wenigerempfindlich auf die Quantisierung sind. Von grosser Bedeutung war in diesem Zusammenhang dasErgebnis, dass die in Fig. 6 gezeigte Kreuzgliedstruktur (15) mit den sogenannten Reflektions-koeffizienten weniger empfindlich auf die Quantisierung ist als die "direkte Struktur",welche die Koeffizienten verwendet. Die Reflektionskoeffizienten besitzen zusätzlichdie schöne Eigenschaft, dass sie bei stabilen Filtern immer kleiner als eins sind, und somitihre Quantisierung nicht zu instabilen Allpol-Digitalfiltern führen kann. Ferner werden d i ebei der Autokorrelationsmethode direkt aus dem Levinson-Algorithmus erhalten, so dass sich eineKoeffizienten-Transformation erübrigt.

Fig. 6: Das Kreuzglieddigitalfilter mit seinen Reflektionskoeffizienten das in denneueren LPC-Vocodern verwendet wird.

Weitere Empfindlichkeitsanalysen ergaben, dass die sogenannten Area-Funktionen

1+ k jA i = Ai+1 kj

urid die sogenannten Log Area-Funktionen,

( 6 )

i+1 1-kj

welche aus den gewonnen werden können, noch weniger empfindlich auf die Quantisierung sindals die Reflektionskoeffizienten (14). Die Reflektionskoeffizienten werden deshalb neuerdingsin die (Log) Area-Funktionen transformiert und erst dann codiert. Man überträgt die letzteren mit und . Auf der Empfängerseite erfolgt die Rücktransformation der (Log) Area-Funktionen in

die Reflexionskoeffizienten. Die Sprachsynthese erfolgt mit der Kreuzgliedstruktur der Fig. 6,in welcher die empfangenen Reflexionskoeffizienten eingesetzt werden (vergi. Fig. 7).

Page 10: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 9

5 - 9

Auf diese Weise lässt sich eine mit 6,7 kHz abgetastete Sprache mit 2,4 kbit/s übertragen (12).

G G

G G

Fig. 7: Blockschema der neueren "Pitch-Excited"-LPC-Vocoder, in denen die Area-Funktionen{Aj}übertragen werden. (P/S = Parallel/Seriewandlung; S/P = Serie/Parallel-Wandlung).

2.3. Zur Sprachsynthese

Die Sprachsynthese erfolgt im Prinzip mit Hilfe des in Fig. 1 dargestellten Modells der Sprach-erzeugung. Das Digitalfilter besitzt, wie bereits erwähnt, in allen neueren LPC-Vocodern eineKreuzgliedstruktur, sodass zur Synthese die Reflektionskoeffizienten {k,} benötigt werden. Nebender in Fig. 6 gezeigten Kreuzgliedstruktur wurden zwei weitere entwickelt, die 1-Multiplikator-Kreuzgliedstruktur (16) und die "normalisierte" Kreuzgliedstruktur (17).

Pro Syntheseintervall (= Analyseintervall A I ) steht normalerweise ein Satz von Model 1 parameternzur Verfügung. Oft wird aber zwischen den einzelnen Model 1parametersätzen Pitch-synchron oderPitch-asynchron linear interpoliert und auf diese Weise neue Sätze von Modellparametern für dieSynthese gewonnen (vergi. Fig. 8). Durch diese "Glättung" der Modellparametersätze wird erreicht,dass die synthetisierte Sprache weniger "körnig" tönt (13).

Interpolation zwischen den Parametersätzen

Fig. 8: Beispiel einer linearen pitch-synchronen Interpolation zwischen den Sprachparameter-sätzen: dick ausgezogen die empfangenen Sprachparameter; gestrichelt die durch dieInterpolation erhaltenen (AI= Analyseintervall, p = Pitch-Interval 1 ).

Page 11: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 10

5 - 10

3. Zur Hardware-Realisierung

3.Ì. Auswirkung der Quantisierung

Bei der Hardware-Realisierung eines LPC-Vocoders müssen sowohl die Sprachanalyse als auch dieSprachsynthese in einer Festkomma-Arithmetik mit begrenzter Wortlänge durchgeführt werden, damitder Aufwand vertretbar bleibt. Durch die beschränkte Genauigkeit (Quantisierung) wird das in derSprachanalyse zu lösende lineare Gleichungssystem numerisch schlechter konditioniert, sodass so-gar bei der Autokorrelationsmethode instabile Filterkoeffizientensätze entstehen können.

Um die numerische Konditionierung des linearen Gleichungssystems zu verbessern, wird oft vor derSprachanalyse eine Anhebung der höheren Frequenzanteile des Sprachsignals durch eine sog. "Preem-phasis"-Operation durchgeführt (3). Die "Preemphasis"-Operation, die im Prinzip einer numerischenDifferentiation gleich kommt, wird durch die sog. "Deemphasis"-Operation nach der Synthese rück-gängig gemacht. Die "Preemphasis"- und "Deemphasis"-Operationen ermöglichen die zur Zahlendar-stellung benötigte Anzahl bit (Wortlänge) um etwa 4 bit zu reduzieren (vergi. Fig. 9).

Fig. 9: Anzahl N j der bei der Autokorrelationsmethode (mit und ohne "Preemphasis") er-haltenen instabilen Filterkoeffizientensätze in Funktion der Wortlänge ß( ß = Anzahl bit), nach (3) :

(A) bei einer Abtastfrequenz = 6,7 kHz(B) bei einer Abtastfrequenz = 10 kHz

Bei der Sprachsynthese äussert sich die Begrenzung der Wortlänge hauptsächlich in Quantisierungs-rauschen, welches die Qualität der synthetisierten Sprache beeinträchtigt. Die benötigte Wort-länge wird aber vor allem mit Rücksicht auf die Sprachanalyse festgelegt. In diesem Zusammenhangspielt auch die gewählte Abtastfrequenz eine wesentliche Rolle: Je höher die Abtastfrequenz,desto grösser muss die Wortlänge sein. Es wird aus diesem Grunde angestrebt, mit möglichst nie-driger Abtastfrequenz zu arbeiten.

3.2. Neue Aspekte der Hardware-Realisierung

LPC-Vocoder wurden vor allem auf Minicomputern implementiert und getestet (18). So wurde festge-stellt, dass bei einer 16-bit Wortlänge die Sprachqualität auch bei sehr niedrigen Datenraten(2,4 kbit/s) akzeptabel ist. Das grösste Hindernis zum praktischen Einsatz von LPC-Vocodern schiender zu ihrer Hardware-Realisierung benötigte Aufwand zu sein.

Page 12: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 11

5 - 11

Der erste hardwaremässig realisierte LPC-Vocoder entstand 1974 und verwendete die KovarianzmethodeDie Datenrate betrug 7,2 kbit/s und es wurden die Filterkoeffizienten {aj} direkt übertragen (10).Ein Jahr später wurde bei den Lincoln Laboratories, einer Annexanstalt der MIT, ein LPC-Vocoderrealisiert, der die Autokorrelationsmethode verwendet (11). Beide LPC-Vocoder waren sehr aufwendigDie erste Mikroprozessor-Realisierung eines LPC-Vocoders entstand 1976 (12). Sie verwendet dieAutokorrelationsmethode; die Datenrate ist wählbar zwischen 2,4 und 4,8 kbit/s. Dank dem Mikro-prozessor-Einsatz wurden dabei nur noch 160 integrierte Schaltkreise benötigt. Einen hohen An-teil davon beansprucht das festverdrahtete 16-bit Multiplizierwerk. Inzwischen sind 16 mal 16-bit Parallel/Parallelmultiplizierwerke, welche in einem Gehäuse untergebracht sind auf dem Markterhältlich. Diese führen eine 16 mal 16-bit Multiplikation in 160 nsec aus.

Dank der bipolaren Mikroprozessoren und dieser schnellen Multiplizierwerke ist der Weg zum prak-tischen Einsatz von LPC-Vocodern nun offen. Aus diesem Grund haben wir uns am Institut für Tech-nische Physik entschlossen, einen LPC-Vocoder**) (genauer ein LPC-Vocoder-Entwicklungssystem)mit dem ganz neuen, schnellen (Ausführungszeit pro Instruktion 55n sec!) ECL-MikroprozessorMOTOROLA 10'800, aufzubauen. Mit diesem LPC-Vocoder-Entwicklungssystem werden wir in der Lagesein, Grundlagen für eine Realisierung mit minimalem Aufwand auszuarbeiten und Vorschläge zurVerbesserung und objektiven Beurteilung der Sprachqualität von LPC-Vocodern in Echtzeit zu testen.Insbesondere soll die Optimierung der Wortlänge direkt auf der Hardware möglich sein.

3.3. Unser LPC-Vocoder-Entwicklungssystem

Unser LPC-Vocoder-Entwicklungssystem besteht im wesentlichen aus einem Vocoder und einem Floppy-Disk-System, auf welchem sowohl die Parameter aus der Sprachanalyse und die Parameter zur Sprach-synthese als auch die Programme der einzelnen LPC-Vocoder, abgespeichert werden (vergi. Fig. 10).

Fig. 10: Blockschema unseres LPC-Vocoder-Entwicklungssystems

Die Programmierung des Geräts erfolgt auf der Mikroprogrammebene in einem Mnemonic-Code. EinCrossassembler wurde entwickelt, der die im Mnemonic-Code geschriebenen Programme ins Binäreübersetzt und binäre Lochstreifen erzeugt. Die binären Programme werden mittels eines Lochstreifenlesers in den Mikroprogramm-Speicher (Lese-Schreib-Speicher) geladen und auf der Hardware ausge-testet. Die interne Organisation des Vocoder-Teils zeigt Fig. 11.

**) Dieser ist unseres Wissens nach der erste mit Mikroprozessor realisierte LPC-Vocoder in Europa.

Page 13: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 12

5 - 12

Fig. 11: Detaillierteres Blockschaltbild des Vocoder-Teils

Die interne Wortlänge beträgt 24 bit. Die einzelnen Hardware-Einheiten des in Fig. 11 gezeigtenBlockschemas arbeiten mehr oder weniger voneinander unabhängig und können auch unabhängig pro-grammiert werden. Der Mikroprogrammspeicher liefert die Steuersignale für sämtliche Einheitenparallel. Eine Mikroinstruktion erfordert deshalb die relativ grosse Wortlänge von 80 bit. Dankder parallelen Verarbeitung können auch komplexe Sprachanalyseverfahren in Echtzeit durchgeführtwerden.

Zur Zeit ist nur der Synthetisator-Teil unseres LPC-Vocoder-Entwicklungssystems im Betrieb. Fig. 12zeigt das /a/ und das /f/ aus dem Wort /afif/, das auf unserem System synthetisiert wurde (K0-Bild). Das ganze Vocoder-Entwicklungssystem soll bis Ende September dieses Jahres fertiggestelltwerden. Der Qualitätsvergleich der verschiedenen LPC-Vocoder kann dann beginnen.

Fig. 12: Das /a/ und das /f/ aus dem Wort /afif/, das auf unserem Sprachsynthetisator synthetisiertwurde (K0-Bild).

Page 14: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 13

5 - 13

Verbesserungsmöglichkeiten der heutigen LPC-Vocoder und Perspektiven

Die auf dem Gebiet der LPC-Vocoder in den letzten Jahren erzielten Fortschritte sind erheblich.LPC-Vocoder ermöglichen heute eine beachtliche Redundanzreduktion (die minimale Datenrate be-trägt 2,4 kbit/s für relativ gute Sprachqualität) und ihre Hardware-Realisierung ist dank derMikroprozessoren mit vertretbarem Aufwand möglich geworden. Die Verbesserungsmöglichkeiten sinddennoch keineswegs erschöpft, wie im folgenden gezeigt wird.

Zu den Verbesserungsmöglichkeiten

Alle hardwaremässig realisierten LPC-Vocoder sind sog. "Pitch-Excited"-Vocoder (s. Tabelle II),da die sog. "Voice-Excited"- oder "Residual-Excited"-Vocoder eine mindestens vier mal höhereDatenrate benötigen. In den "Pitch-Excited"-Vocodern ist die Sprachqualität vor allem vom ge-wählten Pitch-Detektionsalgorithmus abhängig (vergi. Absch. 2.1.3). Wie schon erwähnt, sind dieheute verwendeten Pitch-Detektionsverfahren keineswegs optimal (s. Fig. 13) und müssten verbessertwerden (9).

00 200 300 400 500 600- m s

- m s

Fig. 13: Zur Problematik der Pitch-Bestimmung

a) das abgetastete Wort /afif/ (Original)

b) das synthetisierte Wort /afif/

Man beachte, dass bei den stimmlosen Lauten /f/, sowohl nach dem /a/ als auch nach demIM während der Sprachsynthese falsch angeregt wurde, weil der Pitch-Detektor bei derSprachanalyse fälschlicherweise auf "stimmhaft" detektiert hat.

Page 15: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 14

5 - 14

Um die Sprachqualität von "Pitch-Excited"-Vocodern zu verbessern, wird aber auch untersucht, obman bei der Sprachsynthese anstelle der Einzelimpulse andere periodische Anregungssignale wiez.B. Dreiecksfunktionen verwenden miisste (19). In ähnlicher Richtung geht der Vorschlag, eineandere (nicht-lineare) Parameter-Interpolation zwischen den einzelnen Parametersätzen zu ver-wenden (20).

Parallel zu diesen Arbeiten wird erforscht, z.B. auch an unserem Institut, wie man im Sprach-modell anstelle des Allpol-Digitalfilters ein allgemeineres Digitalfilter, welches auch Null-stellen besitzt, verwenden könnte (21). Es ist erwiesen, dass für nasale Laute wie /m/ und /n/solche Nullstellen notwendig sind. In LPC-Vocodern, welche ein Allpol-Digitalfilter verwenden,müssen solche Nullstellen durch Pole approximiert werden (2).

Forschungsarbeiten sind ferner im Gange, den Einsatz von "Pitch-Excited"-Vocodern auch im Falle,wo eine gestörte Sprache vorliegt, zu ermöglichen (22). Diese Vocoder beruhen bekanntlich aufzwei Annahmen, nämlich

a) dass ein Einzelsprecher vorliegt und

b) dass die Sprache des Einzelsprechers ungestört ist.

Ist eine dieser Annahmen nicht erfüllt, so wird die Sprachqualität dieser Vocoder stark ver-mindert. Um den Einsatz dieser Vocoder auch für den Fall, wo die Sprache des Einzelsprechersdurch rauschartige Geräusche gestört wird, zu ermöglichen, versuchen wir an unserem Institut,die gestörte Sprache vom Rauschen mit Hilfe eines adaptiven Digitalfilters noch vor der Sprach-analyse zu befreien. Unsere ersten Resultate sind vielversprechend.

Für den Fall, wo mehrere Sprecher gleichzeitig reden, sind "Pitch-Excited"-Vocoder nicht mehrgeeignet. Aus diesem Grunde wird auch auf dem Gebiet der "Voice-Excited"- und "Residual-Excited"-LPC-Vocodern weiterhin intensiv geforscht (23) - (24).

Hauptziel dieser Forschungsarbeiten ist die Reduktion der bei diesen Vocodern benötigten Daten-rate.

4.2. Perspektiven

Durch den Beschluss, in den USA die gesamte militärische Kommunikation zu digitalisieren (25),wurden die Forschungsarbeiten auf dem Gebiet der effizienten digitalen Sprachübertragung be-achtlich intensiviert. Die Projekte in Zusammenhang mit der Entwicklung von LPC-Vocodern werdenmit besonderem Interesse verfolgt und entsprechend finanziell unterstützt. Das bedeutende An-wendungsgebiet der LPC-Vocoder wird aber wahrscheinlich die sichere Sprachübertragung über band-begrenzte Kanäle, z.B. Telephonkanäle sein. Die potentielle Nachfrage lässt vermuten, dass inden nächsten fünf Jahren verschiedene LPC-Vocoder auf dem Markt angeboten werden. An der Weiter-entwicklung der heutigen LPC-Vocoder wird intensiv gearbeitet.

Der Verfasser dankt Herrn Divisionär A. Guisolan für die freundliche Einladung diesen Vortrag imRahmen der Kolloquien "Krieg im Aether" zu halten, dem Vorsteher des Institutes für TechnischePhysik der ETH Zürich, Herrn Prof. Dr. E. Baumann, für die grosszügige Unterstützung der in diesemBeitrag erwähnten Arbeiten über LPC-Vocoder, seinen Mitarbeitern, den Herren Dipl.-Ing. D. Dzungund B. Pfister für zahlreiche interessante Diskussionen, und der Stiftung Hasler-Werke Bern fürdie finanzielle Unterstützung.

Page 16: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 15

5 - 15

Li teraturverzei chnis

(1) P. Meier: "Die menschliche Sprache: digital analysiert und optisch dargestellt". In diesemSammelband.

(2) J. Makhoul: "Linear Prediction: A Tutorial Review",Proc IEEE, Vol. 63, pp. 561 - 580, Dec. 1975

(3) J.D. Markel and A.H. Gray: "Linear Prediction of Speech",Springer-Verlag, New York, 1976

(4) A.M. Noll: "Cepstrum Pitch Determination",J. Acoust. Soc. Amer., Vol. 41_, pp. 293 - 309, Feb. 1967 (

(5) B. Gold and L.R. Rabiner, "Parallel Processing Techniques for Estimating Pitch Periodsof Speech in the Time Domain",J. Acoust. Soc. Amer., Vol. 46, pp. 442 - 448, Aug. 1969

(6) J.D. Markel: "Pitch Detection by Data Reduction", IEEE Trans. Audio Electroacoust.,Vol. AU-20, pp. 367 - 377, Dec. 1972

(7) J.D. Markel, "The SHIFT Algorithm for Fundamental Frequency Estimation",IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-23, pp. 72 - 79, Feb. 1972

(8) C.K.Un and S.C. Yang: "A Pitch Extraction Algorithm Based on LPC Inverse Filteringand AMDF", IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-25, pp. 565 - 572,Dec. 1977

(9) C.A. McGonegal et al.: "A Subjective Evaluation of Pitch Detection Methods Using LPCSynthesized Speech". IEEE Trans., Acoust., Speech, Signal Processing, Vol. ASSP-25,pp. 221 - 229, June 1977

10) P.D. Weld: "LONGBRAKE II, Final Report", Philco-Ford Corporation, Willow Grove,Pennsylvania, (1974)

11) P.E. Blankenship et al.: "The Lincoln Digital Voice Terminal System", Lincoln LaboratoryTechnical Note No 1975 - 53, August 1975

12) E.M. Hofstetter et al.: "Microprocessor Realization of a Linear Predictive Vocoder",Lincoln Laboratory Technical Note, 1976 - 37, (September 1976) and IEEE Trans. Acoust.,Speech, Signal Processing, Vol. ASSP-25, pp. 379 - 387, Oct. 1977

13) J.D. Markel and A.H. Gray: "Fixed-Point Implementation of a Linear Prediction Vocoder",IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-22, pp. 273 - 282, August 1974

14) J. Markhoul and R. Viswanathan: "Quantization Properties of Transmission Parameters inLinear Predictive Systems" Bolt Beranek and Newman Inc. Report No. 2800 (April 1974)and IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-23^ pp. 309 - 321, June 1975

15) F. Itakura and S. Saito, "Digital Filtering Techniques for Speech Analysis and Synthesis",7th Int. Congr. Acoust., Paper 25C-1, Budapest 1971

16) A.H. Gray and J.D. Markel: "Digital Lattice and Ladder Filter Synthesis", IEEE Trans.Audio and Electroacoust. Vol. AU-21,pp. 491 - 500, Dec. 1973

17) A.H. Gray and J.D. Markel: "A Normalized Digital Filter Structure", IEEE Trans. Acoust.,Speech and Signal Processing, Vol. ASSP-23, pp. 268 - 277, June 1975

18) J.D. Markel and A.H. Gray: "A Linear Prediction Vocoder Simulation Based Upon the Auto-correlations Method", IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-22, pp.124 - 134, April 1974

19) M.R. Sambur et al.: "On Reducing the Buzz in LPC Synthesis", Proceedings IEEE Int. Conf.on Acoust., Speech Signal Processing, Connecticut, pp. 401 - 404, May 1977

20) R. Viswanathan and J. Makhoul: "Current Issues in Linear Predictive Speech Compression",EASC0N '74, pp. 577 - 585, Dec. 1974

21) K. Steiglitz: "On the Simultaneous Estimation of Poles and Zeros in Speech Analysis",Trans. IEEE Acoust., Speech, Signal Processing, Vol. ASSP-25, pp. 229 - 234, June 1977

22) S.F. Boll: "Improving Linear Prediction Analysis of Noisy Speech by Predictive NoiseCancellation", Proceeding IEEE Int. Conf. on Acoust., Speech, Signal Processing,Connecticut, pp. 10 - 12, May 1977

Page 17: LPC Vocoder Entwicklungsstand und Perspektiven...LPC-VOCODER ENTWICKLUNGSSTAND UND PERSPEKTIVEN Dr. S. Horvath Zusammenfassung Auf dem Gebiet der "Linear Predictive Coding"- (LPC-)

LPC Vocoder: Entwicklungsstand und Perspektiven - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 16

5 - 16

C.K.Un and D.T. Magill: "The Residual-Excited Linear Prediction Vocoder with TransmissionRate Below 9.6 kbit/s", IEEE Trans. Communications, Vol. COM-23, pp. 1466 - 1474, Dec. 1975

B.S. Atal et al.: "Voice-Excited Predictive Coding System for Low-Bit-Rate Transmissionof Speech", Proceedings 1975 International Conf. on Communications, San Francisco, pp.30/37 - 30/40, June 1975

B. Beek et al.: "An Assesment of the Technology of Automatic Speech Recognition forMilitary Applications", IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-25,pp. 310 - 321, August 1977