40
1 - ווווו וwavelets ו"ו: וווו ווו ווווו ווווו ווCorey Cheng

1 אודיו ו - wavelets ע " י : אלכס בלן בעזרת התיזה של Corey Cheng

  • View
    239

  • Download
    2

Embed Size (px)

Citation preview

1

waveletsאודיו ו -

ע"י: אלכס בלן

Corey Chengבעזרת התיזה של

2

מטרת ההרצאה

להקנות ידע באודיו•

להקנות ידע בעיבוד צליל•

באודיו waveletלהראות את יתרונות ה – •ויישומים

ליהנות•

3

נושאי ההרצאה

אודיו•

עיבוד צליל•

•Waveletsלעומת פורייה

נגיעה מתמטית•

יישומים•

4

איך ומה האוזן שומעת?

שערות קטנות הרגישות לשינויים בלחץ, •מעבירות פולסים חשמליים למוח.

כל שערה כזו רגישה לתדר ספציפי.•

.20hz – 20khzתינוק שומע בין •האוזן שומעת תדרים באופן אקספוננציאלי.–

.0dbspl – 140dbspl עוצמת השמע היא •האוזן שומעת עוצמות באופן אקספוננציאלי.–

5

שמיעת תדרים ועוצמות

440hz 880hz 1760hz220hz

0db1Watt

1Pascal

10db10Watt

10 Pascal

20db100Watt

10 Pascal

db = 10log(W1/W2) db = 20log(P1/P2)

W - הספק

Pלחץ -

6

עוצמות של תדרים.

כל התדרים

Low

Mid

High

ככל שהתדר נמוך יותר כך האמפליטודה גדולה יותר.

7

תדרים של עוצמות.3000hzהתדר אותו האוזן שומעת הכי טוב הוא •, 3000hzככל שהעוצמה הכללית יורדת, וככל שתדר מתרחק מ - •

עוצמתו יורדת.

31hz 63hz 125hz 250hz 500hz 1Khz 2Khz 4Khz 8Khz 16Khz

0db

-10db

-20db

-30db

-40db

-50db

-60db

-70db

-80db

-90db

0hz

עוצמה

תדר

8

אודיו – אנלוגי מול דיגיטלי

אנלוגי: סרט מגנטי ותקליט פלסטיק.•יתרונות: תדר דגימה אינסופי, רזולוציה אינסופית.–חסרונות: בלאי, הענות תדר לא מושלמת, עריכה לא –

נוחה.

.A-datדיגיטלי: דיסקים, •יתרונות: בלאי נמוך, הענות תדר מלאה, עריכה קלה.– ביט בלבד לדגימה, סאונד לא 16חסרונות: רזולוציה –

חם.

9

פורמטים דיגיטליים נפוצים

•Cda פורמט של שיר רגיל, בעל – header המכיל אינפורמציה כמו אורך השיר, נקודת התחלה וכולי.

ביט לדגימה.16 דגימות לשניה, 44,100 הוא dataה – –

•WAV מבנה סטנדרטי של – RIFF, (windows).המבנה מחלק את תכולת הקובץ לנתחים.–

משלו, המצביע על סוג המידע בנתח.headerלכל נתח יש יש • עצמו מקומפרס בפורמט שאינו מאבד מידע.dataה – •

10

פורמטים דיגיטליים נפוצים - המשך •Mp3 פורמט כיווץ דיגיטלי המתבסס בעיקרו על –

התופעות הפסיכו-אקוסטיות הבאות:תדרים קרובים נשמעים כמעט אותו הדבר.– מתדר אחר, נשמע על חשבון האחר.3dbתדר הגדול ב – –

אופן הכיווץ – שני כיווצים. •תחילה מחלקים את השיר לפריימים קטנים, ומנתחים כל –

frame.מבחינת תדרים מכווצים אותו לפי טבלה מתמטית המייצגת את התופעות –

הפסיכו-אקוסטיות ( כיווץ עם איבוד מידע ).משתמשים בכיווץ נוסף – הפמן ( כיווץ בלי איבוד מידע ).–

11

ממירים מגברים ורמקולים

– ממיר אות חשמלי רציף לדגימות A/Dממיר: •ברזולוציה סופית.

– ממיר דגימות לאותות חשמליים.D/Aממיר •

מגבר – מגביר אותות חשמליים נמוכים.•

רמקולים – מקבלים אותות חשמליים, והופכים •אותם לתנועה מחזורית, המשנה את לחץ האוויר

וגורמת לנו לשמוע.

12

נושאי ההרצאה

אודיו•

עיבוד צליל•

•Waveletsלעומת פורייה

נגיעה מתמטית•

יישומים•

13

Equalizer (eq)

•Equalizer.מאזן תדרים – שימושים עיקריים:–

מיקס של כלים: אם שני כלים או יותר משמיעים קול • כל אחד מהם בתדר אחר, ואז 3dbבמקביל, נעלה בכ –

כולם ישמעו בבירור במיקס הסופי של הכלים.

איזון סביבות אקוסטיות: עוצמות התדרים של שיר •מושפעות מצורת החדר בו הן נמצאות והאקוסטיקה

הפנימית שלו.

עוזר לאזן תדרים הקופצים החוצה, וליצור סביבה eqה – אקוסטית רצויה.

14

Equalizerהמשך הם בחירת התדר eqהפרמטרים החשובים ב – •

והגברת\הנמכת עוצמתו, רוחב הפס של התדר.

בעולם האנלוגי: קבלים ונגדים משמשים לבחירת •התדר, מגברים ונגדים משמשים לשינוי העוצמה.

בעולם הדיגיטלי: בעזרת פורייה מקבלים את התדר •הרצוי, ובעזרת מקדם התדר משנים את העוצמה.

טובה ולא טובה הם גדולים. eqההבדלים בין עבודת •

BoneyM: 70שנות ה –

Jamiroquai: 90שנות ה –

15

אנאליזה וייצור מחדש

ניתוח תדרים, שינויים ובניית הצליל מחדש.•

טרנספורם פורייה היה כלי נפוץ וידוע.•

פועל לפי עיקרון חוסר הוודאות של הייסנברג.•יש טרייד-אוף בין רזולוציית התדר לרזולוציית הזמן.– מציין מרחק ו xבה k x*p זה נובע מהמשוואה: –

–p מציין מומנט. באודיו הרזולוציה של הזמן מקבילה ), והרזולוציה של התדר xלרזולוציה של המרחק (

מקבילה לרזולוציה של המומנט.

16

פורייה- תדר על חשבון זמןכל גרף מייצג מקדם (משרעת) אחד של טרנספורם פורייה.•צבע שחור יותר מראה מקדם גבוהה יותר של התדר במרובע.•ניתן לראות את השטח השווה של המרובעים בשני הגרפים •

כפירוש של עקרון חוסר הוודאות של הייסנברג.

100

200

300

400

500

600

700

800

00 2 4 6 8 0 2 4 6 81 3 5 7

freq(hz)

freq(hz)

time (msec)time (msec)

רזולוציה טובה יותר בתדר

רזולוציה טובה יותר בזמן

100

200

300

400

500

600

700

800

050

150

250

350

450

550

650

750

17

הקשר בין נייקויסט פורייה והייסנברגנייקויסט – תדר הדגימה כפול מהתדר המקסימלי:•

כתדר דגימה (כפול מתדר השמיעה).44000hzניקח –

דגימות 88 כלומר 2msecאם ניקח רזולוצית זמן של – תדרים שונים.88ונעשה להן טרנספורם פורייה נקבל

.44000…,50,100,150 הם: hzהתדרים שנקבל ב - –

. 50hz (44000/88)הרזולוציה בתדר היא –

דגימות 44כלומר 1msec אם ניקח רזולוצית זמן של – תדרים שונים.44ונעשה להן טרנספורם פורייה נקבל

.44000…,100,200,300 הם: hzהתדרים שנקבל ב - –

. 100hz (44000/44)הרזולוציה בתדר היא –

18

נושאי ההרצאה

אודיו•

עיבוד צליל•

•Waveletsלעומת פורייה

נגיעה מתמטית•

יישומים•

19

החסרונות של טרנספורם פורייה

בין הרזולוציות של הזמן והתדר trade offה – •לפי טרנספורם פורייה גורמות לכך ש:

שהפרמטרים שלו eqאי אפשר תיאורטית לבנות –משתנים במהירות אינסופית, כי הזמן הדרוש לשינוי

כזה הוא אינסופי.קשה למקם בזמן צלילים קצרים כמו כלי הקשה ולכן –

קשה לשנותם באופן יעיל כי הם נמרחים על ציר הזמן.

המריחה משמעותית בתדרים הגבוהים, שם אורכי הגל •הם קצרים אך הם מבוטאים בפרקי זמן ארוכים.

20

החסרונות של טרנספורם פורייה - המשך

BDהחץ שיוצא מ – •מסמן את זמן המכה של

, אך BDתוף ה – האנאליזה עדיין מראה

את המכה הרבה זמן אחרי שקרתה.

קיימים חלונות רבים עם • 0ערך ממוצע גדול מ-

לאורך תקופת זמן ארוכה יחסית.

200

400

600

800

1000

1200

1400

1600

00 20

freq(hz)

time (msec)BD

100

300

500

700

900

1100

1300

1500

חלון עם ערך ממוצע גדול מורח את 0בקצת מ –

המכה

40 60 80

21

BDמכת

מקור

תדרים נמוכים

תדרים גבוהים

22

Waveletטרנספורם ה -

מחלק את מרחב התדר waveletניתוח ה – •והזמן באופן לא אחיד, ככל שעולים בתדר:

(נהיית פחות טובה).2הרזולוציה בתדר מוכפלת פי –הרזולוציה בזמן מוכפלת פי ½ (נהיית יותר טובה).–

לפי waveletsיש שימוש בצורות שונות של •הצליל.

עיקרון חוסר הוודאות של הייסנברג נשמר – כל •המרובעים הם בעלי אותו השטח.

23

Waveletיתרונות טרנספורם ה -

אקספוננציאלי בתדר בדיוק כמו waveletניתוח ה – •גובה הצליל, הניתוח הוא על בסיס אוקטבות.

ניתן לבודד צלילים קצרים בציר הזמן לפי התדרים •הגבוהים.

.BDהניתוח מזכיר את אופי הצליל כמו ב – •תדרים נמוכים ארוכים, תדרים גבוהים קצרים.–

שונות לצלילים שונים waveletניתן להתאים צורות •וכך לייצג באופן קומפקטי יותר בלי איבוד מידע.

24

Waveletיתרונות טרנספורם ה – המשך

כל מרובע מייצג מקדם •.waveletאחד של

ניתן לזהות בקלות את •, BDתזמון מכת ה –

לפי התדרים הגבוהים. 5בניתוח התמונה •

דרגות: הי ממוצע 0דרגה –

המקדמים הסופי.

220

880

1760

0

freq(hz)

time (msec)

110

0 20 40 60 8010 30 50 70

440

BD

דרגות המקדמי4ם

3

2

10

25

נושאי ההרצאה

אודיו•

עיבוד צליל•

•Waveletsלעומת פורייה

נגיעה מתמטית•

יישומים•

26

Waveletפילטרים -

Low pass1

Highpass1

2

Low pass1

2

Highpass1

2

Low pass1

2

Highpass1

2

ממוצע סופי

מקדמים 1רמה

מקדמים 2רמה

מקדמים 3רמה

2

Low pass2

2

Highpass2

2

Low pass2

2

Highpass2

Low pass2

2

Highpass2

קלט

ממוצע סופי

מקדמים 1רמה

מקדמים 2רמה

מקדמים 3רמה

פלט

טרנספורם קדימה - אנאליזה

טרנספורם אחורה - 2רסינטזה

2

27

waveletהמשך פילטרים - בכל רמה מפרקים לתדרים גבוהים ונמוכים, שומרים את •

הגבוהים ועוברים עם הנמוכים לרמה הבאה.המעבר לרמה הבאה היא עם מחצית הדגימות.•ברמה התחתונה שומרים בנוסף את התדרים הנמוכים •

הנקראים ממוצע מקדמים סופי.הדרך חזרה בונה מחדש את הדגימות לפי הפילטרים •

המתאימים בכל רמה, לפילטרים של הפירוק. בכל רמה מוסיפים אפסים בין הדגימות.•את האפקטים של חלונות הדגימה מורידים ע"י השיטות •

,zero padding, symmetric extensionהרגילות:

.circular convolutionו –

28

Waveletים מועדפים–משפחת הפילטרים:•

–Bi-orthogonal, symmetric, binary filters–Binary 2 – מקדמים שלמים מחולקים לחזקות של:

.2פשוטים ויעילים בחלוקה ב-•

–Symmetric:סימטריות ביחס לציר מרכזי – .Phase distortionבעזרת הסימטריות אין •

–Bi-orthogonal הם כמעט אורטוגונלים, הם לא – שומרים על האנרגיה ועל חוסר ההתאמה בקלט.

שהם גם סימטריים וגם wavelets אין haar מלבד •אורטוגונלים ולכן משתמשים בבי-אורטוגונלים.

כל הפילטרים הבונים מחדש בצורה מושלמת הם •ביאורטוגונלים.

29

נושאי ההרצאה

אודיו•

עיבוד צליל•

•Waveletsלעומת פורייה

נגיעה מתמטית•

יישומים•

30

הנחתת רעשיםתחילה עושים פירוק.•

קובעים סף, רך או קשה.•ניתן להשתמש באלגוריתמים לקביעת סף, או ע"י –

האוזן.סף קשה – כל מה שמתחת לסף מתאפס.–סף רך – מכל המקדמים מורידים את ערך הסף.–

עושים רסינטזה.•

באותה שיטה משתמשים גם בטרנספורם פורייה:• בצלילים קצרים.waveletיתרון ל – –

31

ספים

מניחים שהריבועים היותר •שחורים נושאים מידע, ואלה

220שכמעט לבנים הם רעש.

freq(hz)

time (msec)0 20 40 60 8010 30 50 70

440

4

3

2

10

220

freq(hz)

time (msec)0 20 40 60 8010 30 50 70

440

4

3

2

10

מקורי

סף קשה

220

freq(hz)

time (msec)0 20 40 60 8010 30 50 70

440

4

3

2

10

סף רך

880

1760

880

1760

880

1760

32

שיפור תדר דגימה נמוך באודיו

מוטיבציה:•התדרים הגבוהים נותנים חלק מתחושת החלל בו –

נמצאים.עוצמתם חלשה ולכן הם הכי מושפעים משינויי טמפרטורה.•הם נעלמים ככל שהחדר גדול יותר.•הם נעלמים ככל שהחדר יבש יותר מבחינה אקוסטית.•, הקלטה קרובה וכו'.eqבעיות אלה נפתרות בדרכים שונות כמו •

יקרה מבחינת מקום אחסון וזמן העברה ברשת.cdאיכות –.22000, 11000לכן מייצגים אודיו בפחות דגימות: •

נרצה לנסות ולחזות את התדרים הגבוהים החסרים. –

33

אלגוריתם החיזוי

.waveletsפירוק למקדמי ה – • באופן כללי, עוצמת המקדמים ברמה Strangלפי –

מסוימת קטנה אקספוננציאלית מעוצמת המקדמים Vanishingברמה שמתחתיה, כתלות במספר ה –

moments.של הפילטר

הוספת רמה נוספת, וחיזוי המקדמים.• תדרים מהרמה הקודמת.2הרמה הנוספת מכילה פי –חיזוי המקדמים תלוי בעיקר ברמה שמתחתיו. –

דגימות מהמקור.2בניה מחדש לפי •

34

אלגוריתם החיזוי- שלב ראשוןwaveletsשלב ראשון פירוק למקדמי ה – •

באופן כללי, עוצמת המקדמים ברמה מסוימת Strangלפי –קטנה אקספוננציאלית מעוצמת המקדמים בקמה שמתחתיה,

של הפילטר. Vanishing momentsכתלות במספר ה –

220

freq(hz)

time (msec)0 20 40 60 8010 30 50 70

440

880

1760

דוגמא שמקיימת

את הטענה Strangשל

דוגמא שלא שמקיימת

את הטענה Strangשל

35

אלגוריתם החיזוי- שלב שניהוספת רמה נוספת:•

הרמה הנוספת – תדרים 2מכילה פי

מהרמה הקודמת.חיזוי המקדמים קטן –

אקספוננציאלית יחסית לרמות

שמתחתיו., pהחיזוי תלוי ב – –

vanishingכמות ה - moments

688

time (msec)0 20 40 60 8010 30 50 70

1375

2750

5500

11000

344

המקדמים הנחזים ברמה הזאת שווים

ל:

+

+

+

+2-5p הערך

הזה

2-4p הערך הזה

2-3p הערך הזה

2-2p הערך הזה

2-pהערך הזה

=

36

אלגוריתם החיזוי- שלב שני המשך קשורה לכמות vanishing momentsכמות ה – •

.0 חותך את ציר ה – waveletהפעמים שה – –p vanishing moments – נותן פולינום ב p-1.

ככל שמשתמשים ברמות יותר נמוכות לחיזוי יש •.aliasingסיכוי גבוהה יותר ל –

בגלל שהחיזוי פחות טוב.–

דוגמאות:•:441000תדר דגימה – דגימות:11025הורדה ל – דגימות:44100חיזוי ב – –

37

איזון תדרים – רוחב פס רחב

waveletsהצורה הלוגריתמית של פירוק ה – •דומה לאופן שבה אנו שומעים תדרים ועוצמות.

מתאים מבחינת תדרים – פירוק לאוקטבות שלמות.–.strangמתאים מבחינת עוצמה – לפי –

פירוק ע"י רוחב פס רחב יכול לתת:•איזון תדרים בסביבה אקוסטית–זיהוי מרכיבים בסיסיים בצליל–

במיקס.eqאינו טוב (עדיין) ל – •

38

איזון תדרים - אלגוריתםמבצעים פירוק•

מגבירים\מנחיתים את הרצועה הרצויה בעוצמה הרצויה•

עושים רסינטזה•

688

time (msec)0 20 40 60 8010 30 50 70

1375

2750

5500

344688

time (msec)0 20 40 60 8010 30 50 70

1375

2750

5500

344

הגברת רצועת התדרים

39

איזון תדרים - דוגמאהשיר המקורי:•

מנחיתים את כל הרצועות מלבד:•–0 – 689:–689 – 1378:–1378 – 2756:–2756 – 5512:–5512 – 11025:–11025 – 22050:

40

סיכום

באודיו הוא עדיין בחיתוליו.waveletsשימוש ה – •

יש לו הרבה פוטנציאל בגלל התכונות הלוגריתמיות •שלו שדומות לאופן שבה האוזן שומעת.

היום קיימים פתרונות רבים לבעיות אודיו שלא •.waveletsמשתמשים ב-