7
Einzelworterkennung in störgeräuscherfüllter Umgebung Dieter Becker, Institut für Fernmeldetechnik, Technische Universität Berlin 1. Einleitung Spracherkennungssysteme müssen auch unter Einfluß von Störgeräuschen noch zuverlässig arbei- ten. Anderfalls sind sie nicht für den Einsatz unter realistischen Umweltbedingungen geeignet. Es gibt bereits eine Reihe von Untersuchungen zur Reduzierung des Einflusses von Störgeräuschen. Die meisten dieser Untersuchungen haben zum Ziel, die Sprachgüte zu verbessern. Dies ist dann sinnvoll, wenn die Störbefreiung bei der Sprachkommunikation zwischen Menschen eingesetzt wird. Im Fall der Spracherkennung geht es dagegen darum, die Erkennungsrate zu verbessern. Das Sprachsignal kann dabei beliebig verzerrt werden. Leider ist ein mathematisches Kriterium, das die Erkennungsrate im Abhängigkeit von Störreduktions-Strategien optimiert, nicht bekannt. Es lassen sich jedoch zwei Lösungswege beschreiten. Man kann einerseits sicherlich davon ausgehen, daß eine - durch Störbefreiung - verbesserte Sprachgüte auch die Erkennungsrate verbessert; hier gibt es ohne Zweifel eine monotonen Zusam- menhang. Es ist daher sinnvoll, die Verfahren des "speech enhancement" in die Untersuchungen einzubeziehen. Die Umsetzung dieser Strategie führt dann auf ein Erkennungssystem, dem eine Störbefreiung vorgeschaltet ist (Hintereinanderschaltung von Störbefreiung und eigentlicher Erken- nung). Andererseits kann man versuchen, das Störbefreiungssystem in einer Art Rückkopplung in den Erkennungsmodul zu integrieren. Hierbei werden die Einstellparameter des Störbefreiungssystems in Abhängigkeit vom Erkennungsergebnis solange verändert, bis sich eine möglichst gute Erken- nungsrate ergibt. Beide genannten Möglichkeiten werden in dem vorliegenden Konferenzbeitrag diskutiert. 2. Störbefreiungssysteme zur Verbesserung der Sprachgüte Störbefreiungssysteme, die sich an die statistischen Eigenschaften des Sprachsignals adaptieren, benutzen meist den mittleren quadratischen Fehler (Least-Mean-Square =LMS) zwischen geschätz- tem Ausgangssignal und gestörtem Eingangssignal als Abgleichkriterium. Abhängig vom Einsatz- gebiet kommen unterschiedliche Störbefreiungsverfahren zum Einsatz. Im folgenden sollen ein einkanaliger und ein zweikanaliger LMS-Störbefreiungsalgorithmus kurz beschrieben und auf ihre Eignung zur Integration in ein Spracherkennungssystem für isolierte Einzelwörter hin untersucht werden. 2.1. Einkanalige Störbefreiung nach dem Verfahren der Spektralen Subtraktion. [11,[2],[3] Bild 1 zeigt das Blockschaltbild des Algorithmus’. Das gestörte Sprachsignal mit den Abtastwerten sn(k) = s(k) + n(k) wird durch ein Hamming-Fenster im Analyseintervall gewichtet. Es stehen damit die Eingangswerte x(n,i) (n: Anzahl der Analyse- werte, i: zugehöriges Analyseintervall) für die nachfolgende Berechnung des Spektrums X(n,i) zur 191

Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

Einzelworterkennung in störgeräuscherfüllter Umgebung Dieter Becker, Institut für Fernmeldetechnik, Technische Universität Berlin

1. Einleitung Spracherkennungssysteme müssen auch unter Einfluß von Störgeräuschen noch zuverlässig arbei-

ten. Anderfalls sind sie nicht für den Einsatz unter realistischen Umweltbedingungen geeignet.

Es gibt bereits eine Reihe von Untersuchungen zur Reduzierung des Einflusses von Störgeräuschen.

Die meisten dieser Untersuchungen haben zum Ziel, die Sprachgüte zu verbessern.

Dies ist dann sinnvoll, wenn die Störbefreiung bei der Sprachkommunikation zwischen Menschen

eingesetzt wird. Im Fall der Spracherkennung geht es dagegen darum, die Erkennungsrate zu

verbessern. Das Sprachsignal kann dabei beliebig verzerrt werden. Leider ist ein mathematisches

Kriterium, das die Erkennungsrate im Abhängigkeit von Störreduktions-Strategien optimiert, nicht

bekannt. Es lassen sich jedoch zwei Lösungswege beschreiten.

Man kann einerseits sicherlich davon ausgehen, daß eine - durch Störbefreiung - verbesserte

Sprachgüte auch die Erkennungsrate verbessert; hier gibt es ohne Zweifel eine monotonen Zusam-

menhang. Es ist daher sinnvoll, die Verfahren des "speech enhancement" in die Untersuchungen

einzubeziehen. Die Umsetzung dieser Strategie führt dann auf ein Erkennungssystem, dem eine

Störbefreiung vorgeschaltet ist (Hintereinanderschaltung von Störbefreiung und eigentlicher Erken-

nung).

Andererseits kann man versuchen, das Störbefreiungssystem in einer Art Rückkopplung in den

Erkennungsmodul zu integrieren. Hierbei werden die Einstellparameter des Störbefreiungssystems

in Abhängigkeit vom Erkennungsergebnis solange verändert, bis sich eine möglichst gute Erken-

nungsrate ergibt.

Beide genannten Möglichkeiten werden in dem vorliegenden Konferenzbeitrag diskutiert.

2. Störbefreiungssysteme zur Verbesserung der Sprachgüte Störbefreiungssysteme, die sich an die statistischen Eigenschaften des Sprachsignals adaptieren,

benutzen meist den mittleren quadratischen Fehler (Least-Mean-Square =LMS) zwischen geschätz-

tem Ausgangssignal und gestörtem Eingangssignal als Abgleichkriterium. Abhängig vom Einsatz-

gebiet kommen unterschiedliche Störbefreiungsverfahren zum Einsatz.

Im folgenden sollen ein einkanaliger und ein zweikanaliger LMS-Störbefreiungsalgorithmus kurz

beschrieben und auf ihre Eignung zur Integration in ein Spracherkennungssystem für isolierte

Einzelwörter hin untersucht werden.

2.1. Einkanalige Störbefreiung nach dem Verfahren der Spektralen Subtraktion.

[11,[2],[3] Bild 1 zeigt das Blockschaltbild des Algorithmus’.

Das gestörte Sprachsignal mit den Abtastwerten sn(k) = s(k) + n(k) wird durch ein Hamming-Fenster

im Analyseintervall gewichtet. Es stehen damit die Eingangswerte x(n,i) (n: Anzahl der Analyse-

werte, i: zugehöriges Analyseintervall) für die nachfolgende Berechnung des Spektrums X (n,i) zur

191

Page 2: Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

Sprachpausen- Schätzung

detektion des Störspektrums

IX | ENG, | Berechnung äh Berechnung

s(k)+n(k) ——P| Fensterung j des des Leistungs-

an) Spektrums dichtespektrums

arg[X (n,i)]

er Verknüpfung Berechnung Berechnung .

s(k) + der des Zeitsignals des Betrags- k n m © Segmente aus dem Spektrum spektrums ubtraktion

nl N n2

s (ni) IS ai | ISo|

Bild 1: Einkanalige Störbefreiung nach dem Verfahren der Spektralen Subtraktion

Verfügung . Mittels des im j-ten Sprachpausenintervall berechneten Störspektrums N(n,j) erfolgt die Störbefreiung des gestörten Betragsspektrums im Intervall i durch eine Spektrale Subtraktion. Nach Zuführung der Phase des Signalspektrums arg[X(n,i)] zum Betragsspektrum IScn, i)l und einer Rücktransformation in den Zeitbereich werden die Zeitsignalwerte San, i) zum vollständigen Sprach-

signal mit den Abtastwerten s(k) zusammengefügt.

Reich [7] gibt drei Parametersätze zur Steuerung des Algorithmus’ an:

— Schätzung des Störspektrums (im folgenden "Parameter b" genannt).

— Gewichtung des Störspektrums (im folgenden "Parameter a" genannt).

— Art der Spektralen Subtraktion (Wiener-Filter, Schätzung der Teilbandbeträge, Schätzung der Teilbandleistungen).

Abhängig von diesen drei Parametern ist eine Adaption des Störunterdrückungsalgorithmus’ an das Störgeräusch möglich.

2.2. Zweikanalige Störkompensation nach dem Verfahren der adaptiven Filterung

[1]),[2], [31,141,[5], Das Konzept für die adaptive Störkompensation wurden von Widrow et al. 1975 eingeführt [9].

Bild 2 zeigt das Grundprinzip im Blockschaltbild.

Sn(k)=s(k)+ n; (k) ——> Sk)

n,() ——> ADF

Bild2: Zweikanalige Störbefreiung nach dem Verfahren der adaptiven Filterung

112

Page 3: Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

Das digitalisierte gestörte Sprachsignal sn(k) im Primärkanal ist von der Störung nı(k) überlagert.

Das Störgeräusch nı (k) ist anhand des Störgeräusches n2(k) im Referenzkanal durch ein digitales

Sprachsignal

Abtastung Abitastfrequenz: 8 kHz

T Auflösung: 12 bit

Fenst Fensterlänge: 32 ms

ENSKEUNE Überlappung: 75% ] Hamming-Fensterung

EFT 256-Punkte, komplex,

7 Radix 2 \

Endpunkt- Detektion

\ Zusammen- fassung zu Mel-Frequenz-

16 Frequenz- | Darstellung bändern

}

Normalisier- Logarithmische Tabelle ung

} Cosinus- Berechnung von

Trans- Merkmalsvektoren

mon der Länge 8

Trace- . . Segmen- Zeitnormierung auf

tierung 24 Rahmen

Merkmalsextraktion

Merkmalsvektoren V1, ..., V24

i Referenz- DTW a muster

datenbank...

Erkanntes Wort Entscheidungs-

algorithmus

Bild 3: Sprecherabhängiges Sprach-

erkennungssystem

Filter so zu schätzen, daß bei Kompensation von sn(k)

durch y(k) das störverminderte Sprachsignal s(k) dem

ungestörten Sprachsignal s(k) möglichst ähnlich ist.

Das digitale Filter kann als transversales oder rekursi-

ves Filter, in direkter Form oder Kreuzgliedstruktur

realisiert werden. [4], [5].

Der in unseren Untersuchungen verwendete Koeffi-

zientenabgleichsalgorithmus beruht auf der Methode

des stärksten Abstiegs, einer Gradientenmethode. Die

Koeffizientenänderungen werden in entgegengesetzter

Richtung des Gradienten des LMS zwischen sn(k) und

s(k) vorgenommen.

Für den Abgleich kann erstens die Schrittweite und

zweitens die Änderungsgeschwindigkeit des Gradien-

ten verändert werden. Die Änderungsgeschwindigkeit

wird durch eine Glättungsfunktion, die eine Tiefpaß-

charakteristik besitzt (im folgenden Tiefpaß genannt),

variiert.

3. Spracherkennungsysteme [6],[7],[8],[9],[10]

Bild 3 zeigt das implementierte sprecherabhängige

Spracherkennungssystem.

Das abgetastete Eingangssignal wird segmentiert und

' das Spektrum über die FFT berechnet. Es folgt eine

Zusammenfassung der 128 Spektralwerte zu 16 mel-

skalierten Spektralwerten und eine Normalisierung

mittels einer Logarithmus-Tabelle. Eine Cosinus-

Transformation reduziert diese 16 Spektralwerte zu 8

MFCC’s (Mel-Frequency-Cepstrum-Coefficients).

Der resultierende nx8-Vektor (n Analyseintervalle)

wird durch Trace-Segmentierung zu einem 24x8- Vek-

tor zusammengefaßt.

Nach der Merkmalsextraktion wird mittels DTW (Dy-

namic Time Warping) anhand der minimalen Differenz

zwischen Test- und Referenzmuster der beste Kandidat

ermittelt.

113

Page 4: Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

4. Entwurf von störgeräuschunempfindlichen Spracherkennungssystemen

Um unter Einfluß von Störgeräuschen noch eine akzeptable Erkennungsrate zu erzielen, muß sich

ein Spracherkennungssystem an die Störung adaptieren können. Dies kann durch Integration eines

steuerbaren Störbefreiungssystems realisiert werden, das durch das Erkennungsergebnis eingestellt

wird.

Im folgenden wird mit den oben beschriebenen Algorithmen ein einkanaliges und ein zweikanaliges

Spracherkennungssystem mit integrierter Störbefreiung vorgestellt, und die Versuchsergebnisse

werden für jedes Verfahren angegeben. Die beschriebenen Algorithmen wurden in der Simulation

mit Ausnahme der Wortgrenzen-Detektion, die vorgegeben war, untersucht. Die verwendeten

Eingangsdaten setzen sich aus einem Wortschatz von 22 Einzelwörtern (11 Ziffern, 11 Komman-

dowörter) eines männlichen Sprechers zusammen. Mit den ungestörten Sprachproben ergab sich

eine Erkennungsrate von 100%.

4.1. Sprecherabhängige Spracherkennung mit integrierter einkanaliger

Störbefreiung [11], [12], [13]

Bild 4 zeigt einen Spracherkenner, bei dem ein einkanaliges Störbefreiungssystem vollständig in

die Merkmalsextraktion integriert ist.

Nach Signalvorverarbeitung und Wortgrenzendetektion erfolgt in der Merkmalsextraktion eine

Pauseninformation Klassifikationsergebnis Störbefreiung

Eingangs- Signalvor- Endpunkt- |: MFCC- ifikati En — raikkiung dedsktlo |: FFT Berechnung Klassifikation

Bild 4: Sprecherabhängiges Spracherkennungssystem mit integrierter einkanaliger

Störbefreiung

Spektralanalyse mittels FFT. Das gestörte Spektrum ist Eingangssignal für die Spektrale Subtrak-

tion, die ein störbefreites Spektrum zurückliefert. Nach der MFCC-Extraktion steuert die Entschei-

dungsstufe anhand des Klassifikationergebnisses die Störbefreiungsstufe. Die Pauseninformation

der Wortgrenzendetektion wird vom Störbefreiungssystem zur Störschätzung benötigt.

114

Page 5: Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

a) b)

Erkennungsrate [%] en Erkennungsrate [%] 100r .

60r

407

—T7 Wiener Filter 7 Tellbandbeträge 20: 7 Wiener Filter — Tellbandbeträge

Tellbandleistungen sr Teilbandleistungen 207

L L L L i 1 1

0 2 4 6 8 0 0 0.2 0.4 0.8 0.8 1 Parameter a der Störgewichtung Parameter b der Störschätzung

Störung:Weißes Rauschen, b = 0.5 Störung: Weißes Rauschen, a = 2.0

Bild 5: Erkennungsergebnisse für ein Spracherkennungssystem mit integrierter

einkanaliger Störbefreiung a) Erkennungsergebnis abhängig vom Parameter a der Störgewichtung.

b) Erkennungsergebnis abhängig vom Parameter b der Störschätzung.

Bild 5 zeigt die Erkennungsergebnisse für ein solches System bei Veränderung der drei in Abschnitt

2.1 erwähnten Parameter. Den Sprachdaten wurde synthetisch erzeugtes Weißes Rauschen mit

einem SNR von 15dB additiv überlagert.

Bild 5a zeigt, daß bei Variation des Parameters a eine Steigerung der Erkennungsrate von 51,5%

(ohne Störbefreiung) auf maximal 87,8% (mit Störbefreiung) erreicht wird. Außerdem ist gegenüber

den Optimalparametern, die Reich [7] für die Verbesserung der Sprachgüte angab (a=1,0; b=0,5;

Schätzung der Teilbandbeträge), eine Steigerung der Erkennungsrate von 78,4% (a=1,0) auf 87,7%

(a=8,0) bei Integration der Störbefreiung in das Spracherkennungssystem möglich.

Aus Bild 5b) ist zu schließen, daß der Parameter b der Störschätzung keinen wesentlichen Einfluß

auf das Erkennungsergebnis hat.

4.2. Sprecherabhängige Spracherkennung mit integrierter zweikanaliger

Störbefreiung [14] Das zweikanalige Störbefreiungssystem in Bild 6 liefert als Eingangsdaten für das Erkennungssy-

stem ein störbefreites Zeitsignal. Die Adaption erfolgt durch den LMS anhand des Filterausgangs-

signals und durch das Erkennungsergebnis.

Steuerparameter ist die hier die Schrittweite. Zusätzlich wurde die Ordnung des verwendeten

digitalen Transversalfilters variiert.

115

Page 6: Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

| Klassifikationsergebnis

Sen 2 >| Zweikanaliges Sk) Störbefreiungs-

N, (k) — > system

L_ Bild 6: Sprecherabhängiges Spracherkennungssystem mit integrierter

zweikanaliger Störbefreiung

>| Spracherken- nungssystem

In Bild 7 sind die Erkennungsergebnisse für die akustische Überlagerung der Sprachproben mit

einem Bohrmaschinengeräusch dargestellt.

Das SNR betrug ca. 6 dB. Man sieht in Bild 7a) ein deutliches Ansteigen der Erkennungsrate (von

34,3% auf 77%) bis zur Filterordnung 20. Danach ist eine noch höhere Erkennungsrate (93,1% bei

Filterordnung 100) nur mit wesentlich höherem Rechenaufwand erreichbar. Bei Variation der

Schrittweite (Bild 7b) ergibt sich eine Verbesserung von 77,2% auf 85,2 % für die optimale

Schrittweite. Bei zu großer Schrittweite sinkt das Erkennungsergebnis wieder ab (84,9 %).

a) b)

Erkennungsrate [%] Erkennungsrate [%] 100 90

80 85

60

80

40

75 20

0 T T T T T T T T T 1 704 T 0 »? 20 390 40 60 6 70 80 90 100 1.000E-04 3.000E-04 6.000E-04 7.000E-04 9.000E-04

Filterordnung Schrittweite

Schrittwelte = 0.00376 Fiiterordnung = 20 Tiefpass = 0.99 Tietpass = 0.99

Bild 7: Erkennungsergebnisse für ein sprecherabhängiges Spracherkennungssystem

mit integrierter zweikanaliger Störbefreiung a) Erkennungsergebnis in Abhängigkeit von der Filterordnung.

b) Erkennungsergebnis in Abhängigkeit von der Schrittweite.

116

Page 7: Einzelworterkennung in störgeräuscherfüllter UmgebungSegmente aus dem Spektrum spektrums ubtraktion Is (ni) S ai| ISo| n2 Bild 1: Einkanalige Störbefreiung nach dem der Spektralen

5. Zusammenfassung Für Spracherkennungsysteme mit integrierter Störbefreiung ergibt sich eine wesentliche Verbesse-

rung der Erkennungsrate im Vergleich zur Erkennungsrate ohne Störbefreiung. Für das Spracher-

kennungssystem mit einkanaliger Störbefreiung ergaben sich andere Optimalparameter als bei

einem Störbefreiungssystem, das zur Verbesserung der Sprachgüte einsetzbar ist. Beim Spracher-

kennungssystem mit zweikanaliger Störbefreiung zeigte sich eine ausgesprochene Abhängigkeit

des Erkennungsergebnisses von der Raumakustik und der Mikrofonanordnung. Ob Spracherken-

nungsysteme dieses Typs im praktischen Einsatz zur Anwendung kommen können, istanhand eines

Echtzeitsystems zu untersuchen. Diese Echtzeitrealisierung ist jedoch wegen des Rechenaufwandes

und der hohen Anforderung an die Rechengenauigkeit für den Gesamtalgorithmus nur mit einem

schnellen Fließkomma-Signalprozessor (z.B. DSP 32C) mit vertretbarem Aufwand durchführbar.

6. Literaturverzeichnis

[1] Aguar Neto, B.: Signalaufbereitung in digitalen Sprachübertragungsystemen. Disserta- tion an der Technischen Universität Berlin, 1987.

[2] Fellbaum, K.: Sprachverarbeitung und Sprachübertragung. Springer Verlag Berlin ‚Heidelberg New-York, 1984.

[3] Hirsch, H.G.: Spracherkennung in realen Räumen.Vorträge der NTG-Fachtagung Sprachkommunikation, 1986.

[4] Hirsch, H.G.: Automatische Spracherkennung in einer störschallerfüllten Umgebung. Vorträge der ITG Fachtagung Stochastische Modelle und Methoden in der Information- stechnik, 1989.

[5] Kroschel,K.: Noise Cancellation in Speech Transmission. Jordan International electrical

& electronic Engineering Conference, April 1985.

[6] Liu, Jin.: Zur Untersuchung und Optimierung von Spracherkennungssystemen für isoliert gesprochene Wörter. Dissertation an der Technischen Universität Berlin, 1989.

[7] Reich, W.: Adaptive Systeme zur Reduktion von Umgebungsgeräuschen bei der

Sprachübertragung. Dissertation an der Universität Fridericana Karlsruhe, 1985.

[8] Sickert, K.: Automatische Spracheingabe und Sprachausgabe: Analyse, Synthese und Erkennung menschlicher Sprache. Verlag Markt & Technik, 1983.

[9] Widrow et.al.: Adaptive Noise Cancelling, Principles and Applications. Proceedings of the IEEE, Vol 63, Dec. 1975, pp.1692-1716.

[10] Wu, Yung-Shain: Unterdrückung von akustischen Umgebungsgeräuschen mit adapti- ven rekursiven Digitalfiltern. Dissertation an der Eidgenössischen Technischen Hoch- schule Zürich, 1984.

[11] Zwicker, E.; Terhardt, E.: Analytical Expression for Critical-Band Rate and Critical Bandwidth as a Function of Frequency. Journal of the Acoustic Society of America, 1980, pp. 1523-1525.

[12] Zhu, M.; Fellbaum, K.: A Connectionist Modell for Speaker-Independent Isolated Word-Recognition. ICASSP 1990, pp 529-532.

[13] Tielmann, J.: Simulation eines sprecherabhängigen Spracherkennungssystems mit einer integrierten Störunterdrückung nach dem Verfahren der Spekralen Subtraktion. Stu- dienarbeit am Institut für Fernmeldetechnik der TU Berlin, 1989.

[14] Jürgens, C.: Implementierung und Test eines zweikanaligen Störbefreiungsalgorith-

mus’ nach dem Verfahren der adaptiven Filterung. Studienarbeit am Institut für Fernmeldetechnik der TU Berlin, 1990.

117