معيارهاي مبتني بر سيگنال براي تخمين نقاب طيف نگاري در جهت بازشناسي گفتار

سيگنال براي تخمين نقاب معيارهاي مبتني برطيف نگاري

در جهت بازشناسي گفتار

ارائه کننده: وحيد اسماعيل زاده

استاد : دکتر حسين صامتي

87بهار

رئوس مطالب

مقدمه

معرفي رويکرد داده گمشده

نقاب طيف نگاري و جايگاه آن در رويکرد داده گمشده

روشهاي تخمين نقاب طيف نگاري معرفي

رويکردهاي بر اساس تحليل سيگنال و معيارهاي بکار

رفته

نتايج شبيه سازي

از 115

معيارهاي مبتني بر سيگنال براي تخمين نقاب طيف نگاري در جهت بازشناسي گفتار

مقدمه

سيستمهاي بازشناسي گفتار پيشين

تأثير نويز در افت کارايي سيستمهاي بازشناسي گفتار

از 215


رويکرد داده گمشده

دو رويکرد اصلي در تئوري داده گمشده :

Data Marginalization

Data imputation


از 315

نگارينقاب طيف

نگاريتعريف نقاب طيف : نگاريانواع نقاب طيف

- نقاب سخت - نقاب نرم

گمشده بخش تئوري ويژگيحياتي ترين و مهمترين


از 415

روشهاي تخمين نقاب طيف نگاري

روشهاي ( رويكردهاي براساس تحليل سيگنالbottom-up)

روشهاي ( رويکردهاي براساس مدلهاي آماريtop-down)

رويکردهاي براساس تحليل سيگنال و مدلهاي آماري)ترکيب

دو روش باال(

رويكردهاي بر اساسCASA


از 515

رويکردهاي بر اساس تحليل سيگنال

SNRمعيارهاي تخمين مستقيم

الگوريتم هاي تخمين نويزکلي

الگوريتم هاي تخمين نويز محلي و تخمين SNRمحلي

بر اساس ويژگيهاي SNRمعيارهاي تخمين غير مستقيم

سيگنال گفتار


از 615

بر اساس ويژگيهاي SNRمعيارهاي تخمين غير مستقيم سيگنال گفتار

Spectral Entropy Measure

Sparsity Measure

Comb Filter Ratio (CFR)

AutoCorrelation Peak Ratio (ACPR)

Kurtosis

Flatness


از 715

Spectral Entropy Measure

تعريف entropy

enrtropy به عنوان معياري براي peakness

هدف : محاسبه آنتروپي short time fourier transform

spectrum

تبديل spectrum به PMF:

: محاسبه آنتروپي براي هر فريم


از 815

(spectral entropyنتايج)


از 915

Sparsity Measure

proposed Sparsity measure:

If we assume the number of samples of signal is M then:

1

2

i

i

ss

2

1

2

i

i

ssparsity measure

s

1 sparsity measure M

از 1015


Sparsity Measure

از 1115


Comb filter ratio

p

p

comb gz

zzH

1)(

p

p

shiftcomb gz

zzH

1

)(_

2

10 2_

[ , ]

[ , ] 10log[ , ]

i

i

comb in

comb shift in

y n w

CFR i wy n w


از 1215

AutoCorrelation Peak Ratio


از 1315

Kurtosis

سيگنالهاي صوت اطراف ما، شامل گفتار، به عنوان • سيگنالهاي سوپرگاوسين در نظر گرفته مي شوند.

•Kurtosisمعياري براي تعيين تيز بودن نقطه بيشينه مي باشد .

اميدهاي رياضي از ميانگين نمونه ها در هر زير باند از هر فريم بدست آمده است.


از 1415

نتايج


از 1515

منابعMorris, A., Barker, J., Bourlard, H., 2001. “From missing data to maybe

useful data: soft data modelling for noise robust ASR.” In: Proc.WISP-01. Stratford-upon-Avon, England, April, pp. 153–164.

M. L. Seltzer, B. Raj, and R. M. Stern, 2004. “A Bayesian classifier for spectrographic mask estimation for missing-feature speech recognition,” Speech Communication, 43(4), pp. 379-393.

Kim, W., Stern, R. M., May 2006. “Band-independent mask estimation for missing-feature reconstruction in the presence of unknown background noise.” In: ICASSP. vol. 1. Toulouse, France, pp. 305– 308.

Yantorno, R.E., Smolenski, B.Y., Chandra, N., 2003. “Usable speech measures and their fusion.” In: Proc. ISCAS. London. England. pp. 34-51.

H. Misra, S. Ikbal, H. Bourlard, and H. Hermansky, “Spectral entropybased feature for robust asr,” in Proc. ICASSP, May 2004, pp. 193–196.

?

Documents

معيارهاي مبتني بر سيگنال براي تخمين نقاب طيف نگاري در جهت بازشناسي گفتار