سامانه های تصدیق هویت گوینده

بسم الله الرحمن الرحیم

سامانه های تصدیق هویت گوینده

3

فهرست عناوین

مفاهیم اولیه‹معرفی روش های موجود در سامانه های تشخیص گوینده‹نوآوری ها و نتایج بدست آمده‹

4

مراحل کلی تصدیق هویت گوینده

استخراج ویژگی مدل سازی سنجش

LPCC,LSF,MFCCVQ,GMM-UBM,JFA,i-

vector

LikelihoodCosine

SVM

مفاهیم اولیهمعرفی روش های موجود در سامانه های

تشخیص گوینده

نوآوری ها و نتایج بدست آمده

5

MFCCاستخراج ویژگی

24تا MFCC : 12تعداد - همینگ : مثلثی فیلتر نوع

فیلتر : 48تا 24تعداد




6

پارامترهای استخراج ویژگی




7

فرضیات جمالت آموزشی و سنجشپایگاه داده دانشگاه امیرکبیر آزمایشگاه پردازش اطالعات ‹

استفاده شده است. کیلوهرتز16فرکانس نمونه برداری ‹اثرات کانال و نویز پس زمینه بسیار کم ‹ زن در آموزش و سنجش شرکت دارند.)سنجش 20 مرد و 20‹

مرد و زن جدا انجام شده( جمله 690 تلفظ مختلف جمعا 3 جمله آموزشی با 230هر فرد ‹ تلفظ مختلف )تلفظ های مختلف جدا شده اند( 3 جمله با 40‹

جمله120جمعا اثرات کمبود جمله آموزشی بررسی نشده است.‹بدلیل وجود جمالت آموزشی بسیار زیاد از فریم های بی صدا ‹

صرفنظر شدهفریم های بی صدا تمایز کم تری نسبت به فریم های صدادار ‹

ایجاد می کنند




8

(1روش های مدل سازی )

GMM-UBM)2000( JFA )2006( i-vector

)2011(

کم کردن اثر کمبود جمالت آموزشی

کم کردن اثر تغییرات کانال




9

روش سازی مدل کلی GMM-UBMنمای

مدل آموزشUBM

مدل آموزشگوینده گوسی

زمینه پس گویندگان

نظر مورد گوینده

UBMمدل

GMMمدل




10

)UBM )1 استفاده از GMM-UBMروش

›UBMیک مدل گوسی مستقل از گوینده است ›UBMاز روی گویندگان پس زمینه بسیار زیاد ساخته می شود ›UBMمردان و زنان به طور جداگانه ساخته می شود است4096 تا 1024 معموال بین UBMتعداد مخلوط های ‹›UBMباید فضای تمام گویندگان را پوشش دهد




11

)UBM )2 استفاده از GMM-UBMروش ›UBM به علت مستقل بودن از گوینده اثرات متن را در خود می

گنجاند و توسط آن می توان این اثرات را حذف کرد.

در صورتی که داده های آموزشی کم باشد می توان از منطبق ‹سازی برای بدست آوردن مدل قابل اطمینان گوینده از روی

UBM.استفاده کرد




12

(1 منطبق سازی)GMM-UBMروش

عیب منطبق سازی آن است که داده باید به سمت بی نهایت ‹ صفر شود.ubmبرود تا اثر

از مزایای آن می توان به سرعت باالی تخمین مدل گوینده اشاره ‹کرد.

در این رساله به علت وجود داده آموزشی زیاد برای هر گوینده ، ‹مدل هر گوینده به صورت جداگانه آموزش داده شده است.




13

(2 منطبق سازی)GMM-UBMروش

𝜇𝑎𝑑𝑎𝑝𝑡𝑎𝑡𝑖𝑜𝑛= (1−𝑤 )×𝜇𝑢𝑏𝑚+𝑤×𝜇𝑔𝑚𝑚




MAPadaptation

14

نحوه سنجشGMM-UBMروش

استخراج ویژگی و

نرمالیزاسیون

محاسبه درست نمایی مدل گوینده

محاسبه درست نمایی

UBM

مدل UBM

مدل گوینده

- Θ<

رد

قبول




15

GMMنحوه آموزش مدل

تصادفی از روی نمونه های جدا سازی آموزشی

هیستگرام اولیهباینریKmeans ++

kmeans EM




16

UBMنحوه آموزش نمی توان از UBMبه علت وجود داده آموزشی بسیار زیاد برای ‹

kmeans به طور مستقیم استفاده کرد در نتیجه روش زیر پیشنهاد می شود.




17

روش کلی i-vectorنمای




18

(1 )تحلیل مولفه اولیه()i-vectorروش فضای نویز و کانال را JFA می باشد. در JFAاین روش برگرفته از ‹

نشان داد که این Kennyاز فضای گوینده جدا می کرد اما جداسازی به طور کامل نمی باشد.

هر دو روش از ابربردار میانگین استفاده می کنند. ‹ فضای نویز و کانال با فضای گوینده ترکیب i-vectorدر روش ‹

گفته می شود.فضای کل تغییراتشده و به آن رابطه روبرو را در نظر بگیرید. ‹

ابر بردار میانگین مدل

GMMابر بردار گویندهمیانگین مدل

UBM

ماتریس کل

تغییرات

-iبردار vector




19

(2 )تحلیل مولفه اولیه()i-vectorروش را آموزش می UBM توسط داده هایی که Tآموزش ماتریس ‹

دهیم صورت می گیرد. می باشد. Probabilistic PCA بر اساس Tآموزش ماتریس ‹ وظیفه کاهش بعد را به عهده دارد.Tماتریس ‹ 38 و ابعاد ویژگی UBM 1024برای مثال اگر تعداد مخلوط ‹

باشد آنگاه:w 200باشد و ابعاد




20

(3 )تحلیل مولفه اولیه()i-vectorروش JFAاز آنجا که فضای کانال و فضای گوینده در این روش برخالف ‹

از یکدیگر جدا نشده اند، نیاز به جبران سازی کانال می باشد.روش های مطرح جبران سازی کانال‹›LDA›WCCN›NAP›PLDA آموزش داده T وUBMهمگی روش ها از روی داده های آموزش ‹

می شوند.مفاهیم اولیه

معرفی روش های موجود در سامانه های



21

(1نتایج و شبیه سازی ها ) بدون منطبق GMM-UBMدر این رساله بیشتر بر روی روش ‹

سازی کار شده است.این رساله اثر کمبود جمله آموزشی را بررسی نکرده است.‹این رساله اثر کمبود جمله سنجش بررسی شده است.‹ از همان داده های UBMبه علت کمبود داده برای آموزش مدل ‹

گویندگان استفاده کرده و بدلیل آنکه این پایگاه داده جامع وپوشا به خوبی اثر متن را حذف می کند.UBMمی باشد،




22

(2نتایج و شبیه سازی ها )پارامترهای سنجش‹›EER با یکدیگر برابر می شوند. طبق FRR وFARمقدار خطایی است که خطای ‹

تعریف›( ›Min DCF

Min DCF=min)DCF( مفاهیم اولیه




23

(3نتایج و شبیه سازی ها )UBMبررسی اثر تعداد مخلوط گوسی و تعداد ‹

مرد 20 زن 20مفاهیم اولیه




24

(4نتایج و شبیه سازی ها )UBMتعداد EERمردان EERزنان

512 0.42 1.2

نتایج منطبق سازی

جنسیت i-vectorطول UBMتعداد نوع جبران سازی

EER

مردان 100 512 LDA 2.3زنان 100 1024 LDA 1.06

در بهترین i-vectorنتایج حالت

-i بهتر از GMM-UBMبدلیل وجود جمالت آموزشی زیاد برای هر گوینده و نبود اثرات کانال vector !عمل کرده




25

استفاده از میانگین وزن دار مرتب شدهمراحل:‹بعد از محاسبه درست نمایی فریم ها به صورت صعودی مرتب ‹

کرده واز پنجره های مختلف به جای پنجره مستطیلی )میانگین گیری( استفاده می کنیم.




26

استفاده از میانگین وزن دار مرتب شده: نتایج‹میانگین وزن دار مرتب شده بهتر از میانگین گیری عمل می کند‹علت این امر وجود فریم های غلط )عدم تشخیص درست بخش ‹

استخراج ویژگی(به طور کلی فریم های با درست نمایی باال قابل مطمئن تر از ‹

فریم ها با درست نمایی پایین هستند به همین دلیل همینگ چپ نوع پنجرهپیشنهاد می شود حذف از ابتدا حذف از انتها EER Min DCF

مستطیلی 0 0 0.71 0.0075همینگ چپ 10 0 0.55 0.0057همینگ چپ 7.5 2.5 0.57 0.0054




27

سنجش جمله طولتاثیر طول جمله سنجش در مقاالت به طور کامل بررسی نشده ‹

است دقیقه وجود دارد)با در نظر گرفتن 2 ثانیه و 10در مقاالت دو معیار ‹

بی صدا و سکوت(




28

استفاده از فرکانس گامفرکانس گام برای افراد مختلف متمایز است.‹فرکانس گام جزو ویژگی های میانی به حساب آمده و تقلید پذیر ‹

استاز فرکانس گام نرمالیزه شده در سطح جمله استفاده شده‹›




29

برای تخمین پوش STREIGHTاستفاده از (1طیف)




30





31





32

MFCCافزایش تعداد افزایش تعداد فیلترها ممکن است STREIGHTبدون استفاده از ‹

مضر باشد. رسانده 36 و تعداد فیلتر را به 18 به MFCCدر این رساله تعداد ‹

ایم




33

استفاده از توابع غیر خطی تواناز تابع توان به جای لگاریتم استفاده کرده ایم. نتایج بسیار مشابه ‹

لگاریتم است.




34

کل تغییرات

مردان زنانمفاهیم اولیه




35

خطای )EER)1 بررسیبرای ‹ مناسب آستانه سطح تایین فرد EERبرای هر برای توان می

کرد پیدا آستانه سطح یک همه برای یا وبه ‹ خطا کنیم پیدا آستانه سطح یک فرد هر برای که صورتی در

است تر کم مراتبثانیه 2 ثانیه 1.5 ثانیه 1 0.5

ثانیه20 زن

0.53 0.79 1.52 2.98 مجزا آستانه سطحنفر هر برای

1.19 1.63 2.34 4.04 آستانه سطح یک




36

خطای )EER )2بررسیتایین ‹ برای پیشنهادی نهایی و اولیه آورده EERمقدار ضمیمه در

است شدهتعریف ‹ قبل از آستانه سطح آنکه دلیل به کاربردی های سیستم در

خطای از مراتب به خطا شود .EERمی است بیشترآستانه ‹ سطح به آستانه سطح هرچه ها سیستم این نزدیک EERدر

است تر کم خطا باشد ترآستانه ‹ سطح سنجش جمله طول تغییر کرده EERبا تغییر نیزطول ‹ روی از کاربردی های سیستم آستانه سطح شود می پیشنهاد

. شود تعریف سنجش جملهمفاهیم اولیه




37

خطای )EER )3بررسی

درجه یابی سطح 3درونمختلف های طول استانه

زنان سنجش جملهسنجش جمله طول تغییر با نسبت آستانه سطح تغییرات




38

با تشکر

Documents

سامانه های تصدیق هویت گوینده