Andrea Arcella Un Sistema Di Riconoscimento Dei Timbri Musicali

Embed Size (px)

Citation preview

  • Univ ersit degli Studi di Nap oli Federico I Icorso di laurea in sica

    Un sistema di riconoscimento dei tim bridegli strumen ti musicali basato sui

    coecien ti mel-cepstrum

    Relatore : Prof. GianpaoloEvangelistaCorrelatore : Prof. FrancescoCutugno Candidato : Andrea Arcella

    matricola : 07/5532

    anno accademico2003-2004

  • Sommario

    Il riconoscimento automatico di suoni e immagini semprestata unesigen-

    za molto sentita n dagli albori della ricerca informatica. Infatti le ricadute

    di tale ricerca coprono un vasto insieme di discipline che vanno dalla si-

    ca alla medicina,dalle telecomunicazioni alla multimedialit. Questa tesi ha

    comeoggetto il riconoscimento automatico degli strumenti musicali, cio il

    riconoscimento dei loro timbri. Il riconoscimento vieneeettuato tramite un

    sistemain gradodi analizzaredei suonie fornire una rispostasullo strumento

    che li ha generati.La tesi illustra inizialmente le caratteristiche del timbro e

    le problematiche principali legateal suoriconoscimento. Verrannoquindi de-

    lineati i principali passifatti no ad oggi nel riconoscimento timbrico e verr

    presentato quello che attualmente lo stato dellarte. Seguir la discussione

    di un problema parallelo a quello del riconoscimento: la creazionedi spazi

    timbrici; verr propostauna metodologiadi rappresentazionetimbrica basata

    su reti competitiv e con relativa verica sperimentale. Inne vienepresentato

    un progetto di classicatore timbrico confrontando due diversestrategie di

    classicazioneentrambe sottopostea verica sperimentale.

  • Indice

    1 In tro duzione 7

    1.1 Cosil riconoscimento timbrico . . . . . . . . . . . . . . . . . 7

    1.2 A che serve il riconoscimento timbrico . . . . . . . . . . . . . . 8

    1.3 Levento sonorotra evento sico e percezione. . . . . . . . . . 10

    2 Il Tim bro 14

    2.1 Una denizione di timbro . . . . . . . . . . . . . . . . . . . . . 14

    2.2 Timbro e Spettro . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.2.1 Segnali discreti e rappresentazione nel dominio della

    frequenza . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.2.2 Timbri strumentali e rappresentazioni in frequenza . . 17

    2.3 Rappresentazioni del suono. . . . . . . . . . . . . . . . . . . . 20

    2.3.1 Evoluzione temporale del suono: la rappresentazione

    ADSR . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.3.2 Modello di produzionedel suonosorgente-ltro . . . . 23

    2.3.3 Deconvoluzionee Cepstrum . . . . . . . . . . . . . . . 26

    2.4 Timbro, Pitch e Loudness . . . . . . . . . . . . . . . . . . . . 33

    2.5 Denizioni quantitativ e di alcunegrandezzepercettive . . . . . 35

    1

  • 2.6 Il riconoscimento timbrico negli esseriumani . . . . . . . . . . 36

    2.6.1 Riconoscimento di toni isolati e frasi monofoniche . . . 37

    2.6.2 Riconoscimento di insiemi polistrumentali: il modello

    di McAdams . . . . . . . . . . . . . . . . . . . . . . . . 40

    3 Rappresen tazione Tim brica 43

    3.1 Lo SpazioTimbrico . . . . . . . . . . . . . . . . . . . . . . . . 43

    3.1.1 Riconoscereo rappresentare . . . . . . . . . . . . . . . 43

    3.1.2 Comesi creauno spaziotimbrico . . . . . . . . . . . . 44

    3.1.3 Lo spaziotimbrico di Grey . . . . . . . . . . . . . . . . 46

    3.2 Creazionedi uno spaziotimbrico a partire da coecien ti MFCC 49

    3.2.1 Databasesonoroe strumenti utilizzati . . . . . . . . . 49

    3.2.2 Lalgortimo di front end . . . . . . . . . . . . . . . . . 52

    3.2.3 Le Mappe Autoorganizzanti . . . . . . . . . . . . . . . 62

    3.3 Discussionedellesperimento . . . . . . . . . . . . . . . . . . . 67

    4 Sistema di riconoscimen to tim brico a partire da coecien ti

    MF CC 75

    4.1 Struttura di un sistemadi riconoscimento . . . . . . . . . . . . 75

    4.2 Riduzionedei dati: Analisi per Componenti Principali . . . . . 77

    4.3 Algoritmi di riconoscimento . . . . . . . . . . . . . . . . . . . 81

    4.3.1 Approccio classico:criterio MAP . . . . . . . . . . . . 81

    4.3.2 Approccio Data Mining . . . . . . . . . . . . . . . . . . 97

    5 Conclusioni e sviluppi futuri 120

    5.1 Estensionedel Databasedi addestramento . . . . . . . . . . . 120

    2

  • 5.2 Quantit delle Features. . . . . . . . . . . . . . . . . . . . . . 121

    A Il sistema uditiv o 122

    A.1 Struttura dellorecchio . . . . . . . . . . . . . . . . . . . . . . 122

    A.2 Discriminazionedelle frequenze . . . . . . . . . . . . . . . . . 128

    B Schema delle Trasformate di Fourier 131

    3

  • Elenco delle gure

    1.1 Schemasemplicato dellMPEG-7 . . . . . . . . . . . . . . . . 10

    1.2 Rappresentazione temporale di un campionedi violoncello . . 11

    1.3 Spettrogramma di un violoncello. . . . . . . . . . . . . . . . . 12

    2.1 Rappresentazionein frequenzadi un violoncelloin regimequasi

    stazionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.2 Esempiodi ADSR . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.3 Schemadel tratto vocale . . . . . . . . . . . . . . . . . . . . . 25

    2.4 Schemasemplicato di registrazionefonograca . . . . . . . . 29

    2.5 Deconvoluzione in frequenza . . . . . . . . . . . . . . . . . . . 30

    2.6 SchemaAnalisi Cepstrale. . . . . . . . . . . . . . . . . . . . . 32

    2.7 schemaa blocchi del modello di McAdams . . . . . . . . . . . 42

    3.1 schemaa blocchi MFCC . . . . . . . . . . . . . . . . . . . . . 52

    3.2 bancodi ltri mel . . . . . . . . . . . . . . . . . . . . . . . . . 55

    3.3 I primi 26 mfcc del violoncello rappresentati per 12 frames . . 56

    3.4 I primi 26 mfcc della tuba rappresentati per 12 frames . . . . 57

    3.5 Gli inviluppi spettrali del violoncellorappresentati per 12 frames 58

    3.6 Gli inviluppi spettrali della tuba rappresentati per 12 frames . 59

    4

  • 3.7 Esempiodi topologia a griglia rettangolare (in alto) ed esago-

    nale (in basso). . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    3.8 Esempiodi layer bidimensionale:gli intorni sono evidenziati

    con toni di grigio . . . . . . . . . . . . . . . . . . . . . . . . . 65

    3.9 Due esempidi neuroni con relativi intorni rispettivamente di

    raggio d=1 e d=2 . . . . . . . . . . . . . . . . . . . . . . . . . 66

    3.10 Proiezionebidimensionaletramite reti di Kohonen . . . . . . . 70

    3.11 rete di Kohonencon databasedi addestramento 1 . . . . . . . 72

    3.12 rete di Kohonencon databasedi addestramento 2 . . . . . . . 73

    3.13 Inviluppi spettrali semplicati del databasedi addestramento 2 74

    4.1 Proiezionebidimensionaledi 6 timbri tramite PCA . . . . . . 79

    4.2 Sogliae regioni di due funzioni di densit gaussiane . . . . . . 85

    4.3 Esempiodi gaussianabinormale . . . . . . . . . . . . . . . . . 86

    4.4 Esempiodi curve di livello . . . . . . . . . . . . . . . . . . . . 88

    4.5 Gruppo di gaussianebinormali . . . . . . . . . . . . . . . . . . 89

    4.6 Sovrapposizionedi due gaussianebinormali . . . . . . . . . . . 90

    4.7 Proiezionetramite PCA di nove timbri . . . . . . . . . . . . . 94

    4.8 Nove timbri rappresentati da altrettan te gaussianebinormali.

    Vista uno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    4.9 Nove timbri rappresentati da altrettan te gaussianebinormali.

    Vista due . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    4.10 Regioni di classicazionerelative a nove timbri . . . . . . . . . 108

    4.11 Test 1: riconoscimento del timbro di Marimba . . . . . . . . . 109

    4.12 Test 2: riconoscimento del timbro di Tromba . . . . . . . . . . 110

    5

  • 4.13 Test 3: riconoscimento del timbro di Tromba con pitch modi-

    cato (un tono) . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    4.14 Test 4: riconoscimento del timbro di Tromba con pitch modi-

    cato (una quinta) . . . . . . . . . . . . . . . . . . . . . . . . 112

    4.15 Test 5: riconoscimento del timbro di Fagotto con pitch modi-

    cato (un semitono) . . . . . . . . . . . . . . . . . . . . . . . 113

    4.16 Test 6: riconoscimento del timbro di Fagotto con pitch modi-

    cato (un tono inferiore) . . . . . . . . . . . . . . . . . . . . . 114

    4.17 Test 7: riconoscimento del timbro di Fagotto con pitch modi-

    cato (una quinta inferiore) . . . . . . . . . . . . . . . . . . . 115

    4.18 Test 8: riconoscimento del timbro di Fagotto con pitch modi-

    cato (unottava inferiore) . . . . . . . . . . . . . . . . . . . . 116

    4.19 Test9: riconoscimento del timbro di Vibrafono conpitch mod-

    icato (unottava inferiore) e diversafonte di registrazione . . 117

    4.20 Test10:riconoscimento del timbro di Tromba barocca . . . . . 118

    4.21 Test11:riconoscimento del timbro di Chitarra classica. . . . . 119

    A.1 Schemadellorecchio . . . . . . . . . . . . . . . . . . . . . . . 123

    A.2 Graco delle curve di Fletcher . . . . . . . . . . . . . . . . . . 125

    A.3 Caratteristiche di ingresso-uscitadi un compressoree di un

    expanderdi dinamica . . . . . . . . . . . . . . . . . . . . . . . 126

    6

  • Capitolo 1

    In tro duzione

    1.1 Cos il riconoscimen to tim brico

    Riconoscereun timbro vuol dire avere la capacit di riconoscerela sorgente

    che ha dato origine ad un suono.In seguitodeniremo con precisionecosasi

    intende con timbro e sorgente sonorama per rendereintuitiv o il concetto si

    pu pensareallazioneche compiamoquandoascoltiamoun brano musicalee

    riconosciamogli strumenti che lo eseguono.Questoprocessoabbastanzafa-

    miliare per molte persone in realt unattivit estremamente complessache

    coinvolgesia laspetto sico del suonosia le capacit percettivedi chi ascolta.

    Naturalmente il concetto di sorgente sonora molto pi ampio del concetto

    di strumento musicale ma noi faremo esplicito riferimento a questultimo.

    I motivi di tale scelta sono i seguenti: il riconoscimento dei timbri relativi

    agli strumenti musicali di per s un campo interessante di indagine e di

    applicazioneper tutti coloro che si occupanodi musicae multimedialit; gli

    strumenti della tradizione musicaleoccidentale si possonoconsideraresorgen-

    7

  • ti sonorebennote per quelche riguarda il loro funzionamento eddisponibile

    unampia letteratura in merito; data la loro notoriet pi sempliceutiliz-

    zarli per fare esperimenti di riconoscimento con esseriumani e compararei

    risultati con gli esperimenti eseguiticon il computer.

    1.2 A che serve il riconoscimen to tim brico

    Una parte consistente della ricerca informatica rivolta attualmente allob-

    biettiv o di rendere intellegibile e quindi utilizzabile lenorme mole di infor-

    mazionepresente in rete. Una delle esigenzepi sentite quindi quella del-

    lindicizzazionedei documenti multimediali che diventano una componente

    semprepi importante del usso informativo che avvolge il mondo attuale.

    Attualmente abbastanzasempliceeettuare ricerchecontestuali in rete me-

    diante parole chiave per trovare documenti; in realt per non sappiamose

    ci cheabbiamotrovato corrisponderealmente a ci checerchiamo nc hnon

    neprendiamovisione.In altri termini le sempliciricerchecheeettuiamo oggi

    non sonobasatesul contenuto del le ma sul suoformato o su altri parametri

    che non assicuranoche il contenuto di quel le abbia interesseper noi 1. Ci

    a cui puntano i nuovi sistemi di ricerca che potremmo denire in telligenti

    inveceuna ricerca che operi sui contenuti. Il motore di ricerca deve essere

    quindi in grado di capire il contenuto di un oggetto e selezionareci che

    soddisfa le nostre richieste.Se tutti coloro che rendonodisponibile uninfor-

    mazionein rete associasserouna descrizionedi questainformazionechepossa

    1Si pensiallalgoritmo del motore di ricerca Google,che nel presentare la graduatoria dirilevanzadei siti interessanti sfrutta linformazione che viene dalla sceltadegli altri utenti:i siti pi scelti durante le precedenti ricerche sonoquelli che il motore presenter comepiinteressanti per le ricerche successive.

    8

  • essereinterpretata dal motore il problemasarebbe risolto. Il problemastato

    immediatamente sentito nellambito dello sviluppo di paginehtml ed infatti

    hanno fatto subito la loro comparsai famosi tag html che contengono le pa-

    role chiave relative al contenuto del sito; tali tag sonoinvisibili a chi vede la

    paginaweb e vengonosfruttati dai motori di ricercaper le indicizzazioni.Lo

    sviluppo dello standardXML dettato proprio da questotip o di esigenze.Ri-

    tornando ai le multimediali ed audio in particolare, il problemada risolvere

    lo stesso,con la dierenza che la denizione e lestensionedellinformazione

    in essicontenuta meno immediata. Attualmente vengonoinvestite ingenti

    risorseper la ricercadi uno standarddi descrizionedei contenuti multimediali

    e possiamosenzaltrocitare MPEG-7 2 comepunto focaledi questericerche

    (si veda la gura 1.1 tratta dal sito di riferimento dellMPEG-7).

    A questo punto per si pone una domanda:che succedese il materiale

    informativo su cui eettuiamo una ricerca sprovvisto dei metadati che ne

    descrivono il contenuto? La stessadomandapu esseremessasotto unaltra

    forma che ci aiuter a centrare meglio il sensodel nostro lavoro: che succede

    se il materiale sprovvisto di metadati appositamente inseriti da un essere

    umano? La risposta : necessitiamodi un sistemaautomatico che sia in gra-

    do di estrarredei parametri da usaresuccessivamente comemetadati; questi

    parametri dovranno esserequindi legati al modo in cui noi percepiamole

    informazioni sonoree le categorizziamo.Lo scopo di questolavoro di anal-

    izzare le strategie n qui adottate per risolvere questoproblema, valutarne

    i successie i limiti e proporre nuove soluzioninellambito dellindicizzazione

    automatica di una classedi documenti sonori.2http://ipsi.fraunhofer.de/delite/Pro jects/MPEG7/

    9

  • Figura 1.1: Schemasemplicato dellMPEG-7

    1.3 Lev ento sonoro tra evento sico e percezione

    Il suono un evento sico, descrivibilecomevibrazione in un mezzoelastico.

    Comeevento sico pu esseredescritto dalle opportune equazioni,pu essere

    rivelato con ladeguata strumentazione e pu inne essereregistrato abbas-

    tanza fedelmente su un supporto; essopu esserecodicato in forma digitale

    e resocosdisponibile a molti tipi di elaborazione.I computer ci consentono

    10

  • visualizzazionimolto dettagliate del fenomenoe tra le pi comuni troviamo

    la visualizzazionedellandamento dellintensit in funzione del tempo (Fig.

    1.2), lo spettrogramma (Fig. 1.3) che descrive levoluzionespettrale nel tem-

    po, avvalendosidi una terza dimensionedata dai falsi colori, o livelli di grigio,

    dellimmagine.

    0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4-0.1

    -0.08

    -0.06

    -0.04

    -0.02

    0

    0.02

    0.04

    0.06

    0.08

    0.1Rappresentazione temporale del campione campione di cello.wav

    secondi

    inte

    nsit

    nor

    mal

    izza

    ta

    Figura 1.2: Rappresentazione temporale di un campionedi violoncello

    Ci che abbiamo appena descritto qualcosadi oggettivo che esistein-

    dipendentemente da noi e sopratutto indipendentemente dalla sorgente che

    lha generato.Ci che indichiamo con evento sonoro inveceun suonocos

    comevienepercepitoda un essereumanoequindi introduciamola percezione

    11

  • secondi

    freq

    uenz

    a in

    Her

    tz

    Spettrogramma del campione di cello.wav

    0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    1.4

    1.6

    1.8

    2

    2.2x 10

    4

    Figura 1.3: Spettrogramma di un violoncello

    nel nostro discorso.Innanzitutto il cervello non elabora direttamente il suono

    realmente presente nellambiente in prossimit delle nostre orecchie. Lorec-

    chio infatti eettua una serie di modic he del segnalenel trasdurre la vi-

    brazioneacustica in impulsi elettrici (vedi AppendiceA); la coclea si com-

    porta comeun bancodi ltri a larghezzadi bandanon uniforme e tali segnali

    vengonopoi modicati in impulsi dallorganodi Corti. Putroppo, nonostante

    i progressifatti nel campo della siologia per capire il funzionamento del sis-

    tema uditiv o, non esistea tuttoggi un modello universalmente condivisoche

    ci consenta di riprodurre articialmen te il suo funzionamento. Ovviamente

    12

  • dei modelli esistono,e noi ne utilizzeremouno, ma importante sottolineare

    che si tratta di approssimazionivalide in casispecici.

    Anche laspetto psicologicodella percezionerivesteun ruolo signicativ o

    quandoascoltiamoun suono.Quandoun suonoci raggiungenon ci chiediamo

    quale sia lequazioneche lo descriva ncomesi sia propagato no a noi, ma

    ci chiediamo inanzitutto che cosaha generatoquel suono(la sorgente) e dove

    stato generato(lambiente).

    13

  • Capitolo 2

    Il Tim bro

    2.1 Una denizione di tim bro

    Cominciamocol proporreunadenizione di timbro cheprobabilmente trover

    daccordo la maggior parte delle persone:il timbro la qualit del suono,

    la sua coloritura, cio ci che permette di distinguere due suoni prodotti

    da sorgenti diverse,anche se essi hanno rigorosamente lo stessotempo di

    crescita, la stessaintensit e la stessadurata. Dai termini usati emergeche

    abbiamo usato una denizione basatasulla percezioneche le personehanno

    del suono.Limplementazionedi un riconoscitoredi timbri si deveper basare

    su una denizione oggettiva di timbro. Un approccio possibile quello di

    trovare un insiemedi parametri misurabili che nel loro complessoci diano

    una descrizioneoggettiva di questaentit.

    14

  • 2.2 Tim bro e Spettro

    Sappiamoche la qualit che noi percepiamocome timbro dipende in primo

    luogo dal contenuto spettrale del segnale.Chiariamo cosa intendiamo per

    spettro e contenuto spettrale.

    2.2.1 Segnali discreti e rappresentazione nel dominio

    della frequenza

    Il suonointesocomevibrazioneacustica un segnalecontinuo mentre la sua

    registrazionesu un supporto digitale un segnalediscreto rappresentato da

    una sequenzanumerica nita. Si denisce Trasformata di Fourier Discreta

    (DFT) di sequenzenite x[n] di lunghezzaN:

    X[k] =N1X

    n=0

    x[n]ej2kn/N (2.1)

    La quantit jX[k]j chiamata modulo mentre la quantit argX[k] chiamata

    fasee sonoentrambe funzioni reali di k. Tali funzioni ci fornisconouna rapp-

    resentazione del contenuto in frequenzadel segnale.La Trasformata Inversa

    di Fourier Discreta (IDFT) denita come:

    x[n] =1

    N

    N1X

    k=0

    X[k]ej2kn/N (2.2)

    Nel contesto dei segnali audio la coppia di equazioni 2.1 e 2.2 sono dette

    rispettivamente analisi e sintesi. Queste denominazioniderivano dal fatto

    che tramite la prima equazione possibileottenere lanalisi in frequenzadel

    15

  • segnalementre con la seconda possibilesintetizzaredei suonia partire dalla

    descrizionedel loro contenuto in frequenza.Sulla basedi questaidea forte si

    poggianomolti successidellelaborazionedei segnaliaudio ma questedenom-

    inazioni possonoesserecausadi incomprensionenella corretta discussionedei

    fenomeni.Bisogna infatti tener presente che la coppia di equazioni2.1 e 2.2

    corrispondonoallanalisi e alla sintesi nel sensoproprio del termine soloseN

    maggioreo ugualealla durata del segnaleespressain numero di campioni.

    In tal caso,per, lanalisi ci fornisce informazioni solo sul contenuto in fre-

    quenzamedio del segnale.Comevedremoin seguito, i suoni degli strumenti

    musicali sonomegliodescritti da un contenuto in frequenzadinamico ovvero

    in termini di rappresentazioni miste tempo-frequenza.

    Lenergia g della sequenzax[n] denita come

    g =N1X

    n=0

    jx[n]j2 (2.3)

    ed sempreuna quantit nita. Applicando la relazionedi Parseval otteni-

    amo:

    g =N1X

    n=0

    jx[n]j2 =K1X

    k=0

    jX[k]j2 (2.4)

    dove la quantit jX[k]j2 chiamata densit di energia spettrale o semplice-

    mente spettro.

    16

  • 2.2.2 Timbri strumentali e rappresentazioni in frequen-

    za

    In un segnaleperiodico, come la parte stazionariadi un suonostrumentale,

    il contenuto in frequenza dato dalla sovrapposizionedella frequenzapi

    bassa,che generalmente determina il pitch della nota, e dei multipli interi

    di questa.Tali componenti sonochiamati armoniche. I suoni degli strumenti

    musicali non sonogeneralmente periodici. Inoltre, in una vastaclassedi stru-

    menti le frequenzedelle componenti principali non sono in relazionearmon-

    ica. In sensogeneralizzatosi parler allora di parziali del suonoper indicare

    le componenti principali. In gura 2.1 possiamovederela rappresentazione

    spettrale di un campione di violoncello ove vengonoevidenziate le prime

    parziali. Bisognaporre attenzioneal fatto che la gura si riferiscealla DFT

    di un campionein cui non presente lattacco ma solo la parte stazionaria

    del suono,ed per questa ragione che riusciamo a distinguere nettamente

    le armoniche, cio le frequenzedelle parziali che si trovano in rapporto ar-

    monico. Il diversopesodelle parziali nelle rappresentazioni spettrali di due

    suoni diversi in regime quasi-stazionariod origine a quella che deniamo

    dierenza timbrica. Altre importanti dierenze timbriche sonoassociate al-

    linviluppo di ampiezzaed al rumore del sistema di eccitazione.Un altro

    aspetto su cui occorre focalizzare lattenzione levoluzione temporale del

    contenuto in frequenzadei segnaliperiodici; se il suononon ha un cambia-

    mento del contenuto in frequenzanel corsodel tempo 1 la suaDFT fornisce

    1In termini rigorosi solo un suono prodotto articialmen te, come unonda quadra, hauno spettro eettiv amente costante nel tempo; nel casodi strumenti acustici si possonocitare strumenti come lorgano che approssimanoabbastanzabenequestocomportamento

    17

  • eettiv amente il contenuto spettrale del suonoistante per istante; seinveceil

    suonoevolve nel tempo il calcolodella DFT fornisceuna media dei contenuti

    spettrali chesi sonomanifestati. Tale rappresentazionenon ovviamente sig-

    nicativ a per suoni la cui evoluzionespettrale sia rilevante dal punto di vista

    psicoacustico.Per ottenere una rappresentazione spettrale dinamica occorre

    suddividere in segnalein piccoleporzioni chiamate frame in cui il segnalesi

    pu considerarecostante dal punto di vista dello spettro. Tali frame possono

    esserequindi giustapposti in vari modi per ottenere delle rappresentazioni

    tempo-frequenza;una di queste lo spettrogramma illustrato in Fig. 1.3

    0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

    20

    40

    60

    80

    100

    120

    modulo della dft del campione di cello.wav

    prima parziale

    seconda parziale

    terza parziale

    Figura 2.1: Rappresentazione in frequenzadi un violoncello in regimequasistazionario

    18

  • Per costruire un algoritmo che possariconoscerei timbri dobbiamodare

    un criterio di similitudine tra gli spettri. Il problemachea parte casielemen-

    tari, non abbiamo un criterio di similitudine tra spettri che sia abbastanza

    robusto da far funzionareun sistemadi elaborazione.Possiamocertamente

    dire che a due spettri uguali corrispondono timbri uguali ma non semplice

    dire quanto due spettri siano simili tra loro. Potremmo dire che due suoni

    sonosimili quandoil rapporto tra le armoniche simile nei duesuoni,oppure

    segli spettri variano in modo similenel tempo. La realt cheognunodei pos-

    sibili criteri contiene un qualche gradodi verit ma non si riescea trovare un

    insiemedi parametri nito che renda conto di tutte le possibili sfaccettature

    che identicano un timbro. Vediamoun esempiopratico: qualunqueascolta-

    tore percepiscecomesimili i timbri di una tromba in si bemolleequelli di una

    tromba in mi bemolle;per un computer che faccia lanalisi di Fourier i due

    timbri sono irrimediabilmente diversi quanto quelli di un sax e di unarpa.

    Inoltre tutti i timbri naturali hanno unevoluzione temporale e quindi non

    ha sensoparlare del timbro di uno strumento comedi unentit statica. Ev-

    idenziamoora un fatto abbastanzaovvio che rimane spessonascostotra le

    pieghedei ragionamenti: se abbiamo unottima conoscenzadi una sorgente

    sonorapossiamoagevolmente predirequalesar il contenuto spettrale equin-

    di il timbro che sar originato da questa sorgente. Se invecesiamo esposti

    ad un determinato suononon siamonecessariamente in grado di ricostruire

    la sorgente, in altri termini nella realt sica non esisteuna biunivocit tra

    lanalisi e la sintesi.

    19

  • 2.3 Rappresentazioni del suono

    Una soluzioneal problemadellidenticazione dellesorgenti sonorepu essere

    suggeritadallapproccio usato dagli esseriumani. Nellintroduzioneabbiamo

    detto che un essereumano si chiede quale sia la sorgente che ha prodotto

    quel suono.Quindi evidentemente si confronta ci che si ascolta in un dato

    momento condelle informazioni precedentemente memorizzate.Questeinfor-

    mzioni sonoabbastanzapreciseda farci distinguerenettamente un pianoforte

    da una tromba ma sonoabbastanzageneralida farci riconoscerecomesimili

    due trombe in tonalit diverse,o meglio ancorada consentirci di raggrupp-

    paresotto ununica famglia le trombe, i tromboni e i icorni. Noi chiameremo

    questeinformazioni le caratteristiche del suonoe descriveremoil modo in cui

    estrarle. Per poter realizzarequestaoperazioneabbiamobisognodi un mod-

    ello del suono a cui fare riferimento e che riassumadelle informazioni che

    sonogi presenti nellevoluzionespettrale del segnale.

    2.3.1 Evoluzione temporale del suono: la rappresentazione

    ADSR

    Il modello ADSR (A ttack Decay SustainRelease)2 un modello che descrive

    levoluzione dellenergia del suono nel dominio temporale. Secondoquesto

    modello il suono viene descritto in termini dellevoluzione temporale del-

    lampiezzache si pu riassumerein quattro fasi: una fasedi attacco (attack),

    2la terminologia usata derivata da quella usata dai costruttori di sintetizzatori elet-tronici, infatti la parola releasesi riferisce allatto di rilascire il tasto del sintetizzatore; perquestomotivo alcuni autori quando usano il modello a tre parametri impiegano il terminedecay per indicare lultimo parametro che coincide col nostro release(modello ASD)

    20

  • Figura 2.2: Esempiodi ADSR

    una fasein cui lin tensit diminuisce(decay) e che rappresenta la transizione

    tra lattacco e la terza fase,una fasedi evoluzionetemporale(sustain) e inne

    una fase in cui lin tensit sonoradecadeno al silenzio (release).E impor-

    tante osservarechequestequattro fasihannocaratteristichemolto diversetra

    loro; inoltre non sonopresenti in tutti i suonistrumentali con le stessequalit

    e nella stessamisura. La prima fase,lattacco, quella che contraddistingue

    la parte iniziale dellemissionesonora.Lattacco strettamente legatoal mo-

    do in cui viene generatoil suonodello strumento. Nella classicazionedegli

    strumenti lattacco gioca un ruolo essenziale.Infatti le famiglie strumentali

    degli strumenti pizzicati (come la chitarra, il liuto, larpa, il clavicembalo

    21

  • etc.) o degli strumenti a percussionevengonoin prima approssimazioneiden-

    ticati proprio dal modo in cui viene prodotto il suono in attacco anzich

    dal materiale di cui sono composti (come i legni o gli ottoni) o dal modo

    in cui viene eccitato il risuonatore (ance,doppie ance,archi3). Dal punto di

    vista del riconoscimento dello strumento da parte di un ascoltatore(special-

    mente seesperto) lattacco gioca un ruolo fondamentale. Chi usa strumenti

    musicali elettronici sa beneche si pu fare una riproduzionerealistica di un

    timbro acustico anche se la parte stazionaria del suono scadente, mentre

    lelemento fondamentale il realismodellattacco. Purtroppo lattacco an-

    che la parte del suonoche pi dicile da analizzaree classicare. Difatti

    esso essenzialmente costituito da un segnaledi breve durata in cui lonset

    delloscillazioneed il rumore di eccitazionecoesistonoe quindi la maggior

    parte degli strumenti di analisi diventano inutilizzabili. Linformazione cos-

    tituita dalla durata dellattacco pu comunqueesseredi qualche utilit nella

    classicazionetimbrica. Tutti i suoniprodotti dagli strumenti musicali hanno

    una fasedi attacco. La secondafase, il decay4 tiene conto della transizione

    tra la fasenon stazionaria dellattacco e quella stazionaria del sustain ed

    generalmente caratterizzata da una diminuzionedellintensit; abbastanza

    dicile individuare in modo chiaro questa fase negli strumenti acustici in

    quanto essaha una durata breve e si percepiscesolo in pochi casi;un esem-

    pio si pu avere ascoltandogli ottoni quando vengonosuonati con attacco

    molto netto. La terza fase, il sustain, quella in cui la durata del suono

    3si noti che esistonodue tecniche per suonareun arco: quella con larchetto (da cui ilnome della famiglia strumentale) e quella del pizzicato. I due casi corrispondono a duediversi modi di eccitare il risuonatore

    4il decay viene descritto in questasedeper completezzama la sua importanza dovutapi alla sua utilit nella sintesi di suoni elettronici che nella descrizionedi suoni acustici

    22

  • controllata a piaceredallesecutore.Si pensiagli strumenti a ato o ad arco,

    la cui intensit deve esserecontrollata dallesecutore,oppure allorgano, in

    cui invecelin tensit ssata a priori ed costante nc h il tasto abbas-

    sato. In questa fasestazionariaabbiamo un segnaleperiodico e levoluzione

    temporaledello spettro molto contenuta a menoche lesecutorenon ricorra

    ad artici espressivicomeil vibrato. Non tutti gli strumenti hanno una fase

    di sustain,ad esempioil piano e gli strumenti pizzicati passanodirettamente

    dallattaco al release.La quarta fase, il release, caratterizzata dalla pro-

    gressiva diminuzionedi intensit del suono.Anche in questocasoil segnale

    periodico ma levoluzione temporale dello spettro molto pi evidente.

    Non tutti gli strumenti hannoquestafasetemporale,ad esempionellorgano

    il suonocessaistantaneamente non appena viene rilasciato il tasto. Si noti

    comequestomodello pur descrivendoun suonocomeentit indipendente, dia

    la possibilit di crearedelle relazioni forti tra levento sonoroe la sorgente

    che lha generatoconsentendo in parte di tracciare il percorsoa ritroso dal

    suonoalla sorgente.

    2.3.2 Modello di produzione del suono sorgente-filtro

    In questomodello si assumeche lo strumento cheemette il suonosiaschema-

    tizzabile comedueentit dieren ti che interagisconotra di loro: una sorgente5

    ed un ltro. La sorgente viene eccitata al ne di creare un pattern di vi-

    brazioneil qualeverr modicato dal ltro. Il ltro agisceda risuonatorecon

    5la parola sorgente usata in questo contesto non ha il signicato no ad ora adottatodi origine del suono.Come risulta chiaro dalla lettura del paragrafo la sorgente sonora acui facciamoriferimento nei capitoli precedenti rappresentata in questocasodalla coppiasorgente-ltro

    23

  • vari modi di vibrazione.Ciascunmodo altera lo spettro inducendodei picchi

    in corrispondenzadelle frequenzerisonanti. Chiariamo con un esempio:nel

    violino larchetto che sfregala corda fornisce leccitazione,la corda vibrante

    la sorgente mentre il corpo dello strumento il ltro. La vibrazione della

    sorgente determina il contenuto in frequenzadel suono.Lampiezza relati-

    va delle armoniche (parziali) pu esserealterata cambiando il metodo e la

    forza delleccitazione,ad esempiolarchetto pu sfregarela corda in vari mo-

    di che il violinista sfrutta per ottenere suoni pi dolci o pi aspri. Il ltro

    producedue eetti sul suono:esso in gradodi modicare sia lin tensit che

    le relazioni temporali delle singolearmoniche. Ciascun modo di vibrazione

    del risuonatore caratterizzato dalla frequenzadi risonanzae dal fattore di

    qualit Q. La frequenzadi risonanzadi ciascunmodo la frequenzain cui

    massimalampiezzadelle vibrazioni. Il fattore Q denito comeil rapporto

    tra la frequenzadi risonanzadel sistemae la larghezzadi banda dello stes-

    so. Il Q indica la selettivit in frequenzadel modo risonante considerato,in

    altri termini controlla quella che si chiama campanaturadel ltro; maggiore

    il Q e pi stretta la campanache rappresenta il modo. Una risonanza

    con un alto Q causasia un incremento udibile della frequenzadi risonan-

    za allin terno dello spettro del suono,sia un maggior tempo di ritardo nelle

    componenti del segnaleche passanoattraverso il modo. Il suonopu essere

    alterato manipolando le caratteristiche del ltro. Ad esempioin una tromba

    si pu usare la sordina per cambiare le caratteristiche di risonanzadel tubo

    e della campana.

    Questomodellodi produzionesonorapu essereriportato in formamatem-

    atica descrivendolo come un sistema lineare in cui la funzione di trasferi-

    24

  • mento complessiva il prodotto delle funzioni di trasferimento dei singoli

    sottosistemicome illustrato nellequazione2.5:

    Y (z) = X(z)NY

    i=1

    Hi(z) (2.5)

    doveY (z) eX(z) sonole trasformatez delluscita e del segnaledi eccitazione

    eHi(z) sonole trasformatez degliN sottosistemi.Questomodello nato nel

    contesto degli studi di elaborazionedel parlato ed stato ampiamente utiliz-

    zato nel modellizzarelapparato fonatorio. Successivamente stato impiegato

    nella sintesi per modelli sici portando in alcuni casi a buoni risultati come

    nella modellizzazionedegli strumenti a corda ad opera di Karplus e Strong.

    Non bisognatrascurareper che sia nel casodel parlato che nella sintesi per

    modelli sici alla parte linearedescritta dallequazione2.5 sempreassociata

    una parte non lineare che tiene conto del feedback che il segnaleha con la

    sorgente. La gura 2.3 illustra il classicoschemadellapparato fonatorio

    Figura 2.3: Schemadel tratto vocale

    Dalla gura si evincecheesistonoduediversefonti di eccitazione:una per

    i suonivocalici, chesonosuoniarmonici e laltra cheschematizzatacomeun

    25

  • generatoredi rumore, necessariaalla generazionedei suoni consonantici che

    sonosuoni inarmonici o dallo spettro continuo assimilabilea rumorecolorato.

    Nel casodegli strumenti musicali non possiamofornire un sempliceschema

    valido per tutti gli strumenti. Dobbiamo tener presente che generalmente,

    almenonella fasedi attacco, la componente non lineare dovuta al feedback

    generalmente preponderante.

    La tecnica LPC (Linear Prediction Coecien t) la pi nota implemen-

    tazionedel modello sorgente ltro; in sintesi lo spettro vienemodellato come

    una funzione a tutti poli che rispecchiano i picchi spettrali (formanti nel

    parlato). Questa tecnica ci consente di ottenereuna rappresentazione in fre-

    quenzadel sistemache chiameremoinviluppo spettrale. Linviluppo spettrale

    ignora i dettagli delle parziali contenute nello spettro orendo una visione

    dellandamento generaledella risposta in frequenza;essopu esserepensato

    comeuna sorta di impronta spettrale del sistema.Tale impronta caratter-

    istica di un certo sistemae ci si aspetta che a sistemi simili corrispondano

    impronte simili. Rifacendoci allesempioprecedente possiamopensareche le

    trombe in si bemolleed in mi bemolleabbiano inviluppi spettrali molto simili

    e ci aspettiamo che un icorno abbia un inviluppo spettrale molto pi simile

    a quello di una tromba che a quello di un pianoforte.

    2.3.3 Deconvoluzione e Cepstrum

    Nel dominio del tempo loperazionedi convoluzione loperazionematemat-

    ica che caratterizza i sistemi lineari, infatti essadescrive la relazionetra tre

    segnali: il segnaledi ingressox[n], la risposta allimpulso h[m] e il segnale

    26

  • di uscita y[n]. Loperazionedi convoluzione di due segnalisi indica con la

    notazionex[n] h[m] e la sua formulazionematematica 6:

    y(i) =X

    j=

    h[j]x[i j] (2.6)

    Uno degli assunti fondamentali della teoria dei sistemi lineari che suf-

    cien te conoscerela risposta allimpulso del sistemaper conoscereil segnale

    di uscita dallo stesso,qualunquesia lingresso.Loperazionedi convoluzione

    unoperazionemolto dispendiosain termini di potenzacomputazionalerichi-

    estadato che il numero di operazioni (tra addizioni e moltiplicazioni) cresce

    molto velocemente al cresceredel numero di campioni contenuti in x[n] e

    h[m]. Inoltre pu accadereche linformazionecontenuta nei segnalidi ingres-

    so e di uscita nonch il tip o di trasformazionea cui questi sonosottoposti

    dal sistema leggibile molto pi chiaramente nel dominio della frequenza

    che nel dominio temporale; per questi motivi, quando si debba valutare la

    convoluzione tra due segnali,si preferiscemolto spessopassareal dominio

    trasformato della frequenza.Dalle propriet della DFT si vede che la con-

    voluzionenel dominio temporaleequivalead una moltiplicazionenel dominio

    della frequenza:

    Y (f) = H(f)X(f) (2.7)

    doveH(f) la risposta in frequenzadel sistemacio la DTFT della risposta

    6le formule che seguonosono riferite a sequenzediscrete nite dato che i campioniaudio che elaboriamo sonoeettiv amente sequenzedi questo tip o. Per una trattazione pigeneraledei concetti espressisi rimanda ai testi di basesul DSP citati in bibliograa.

    27

  • allimpulso:

    H(f) =X

    k=

    h[k]ej2kf (2.8)

    Quindi per valutare x[n] h[m] si trasformano i duesegnalinel dominio della

    frequenza,si eettua la moltiplicazione, e si antitrasforma il risultato. Pre-

    cisiamoche la diminuzionedi richiestacomputazionaleottenuta valutando la

    convoluzionetramite dominio trasformato dovuta allutilizzo dellalgoritmo

    di calcoloFFT (Fast Fourier Trasform) che abbatte radicalmente il numero

    di calcoli necessariper la trasformazionee lantitrasformazione. Ci possi-

    bile quandosia la risposta impulsiva che il segnalehanno durata nita ed in

    tala casola 2.7 diventa il prodotto delle DFT di x[n] ed h[n].

    Molto spessoci si trova a dover aron tare il seguente problema: nota la

    risposta allimpulso h[n] di un sistemalineareed il segnaley[n] in uscita dal

    sistema si vuole conoscereil segnalein ingressox[n]. Per risolvere questo

    problema si ricorre alla deconvoluzione che appunto loperazioneneces-

    saria a riottenere il segnaleoriginario x[n]. Per un sistemaa risposta nita

    FIR essa denita come:

    x[n] =y[n]

    P nk=1 h[k]x[n k]h[0]

    (2.9)

    dove h[0] 6= 0. Questotip o di problemasi presenta piuttosto frequentemente

    in molti contesti compresoquello dellelaborazione dellaudio digitale. Per

    chiarire il concetto illustriamo brevemente un esempiodi uso della decon-

    voluzione.Agli albori della registrazionefonograca venivano usati apparati

    di incisionecompletamente meccanici;il suonoda registrareveniva convoglia-

    28

  • to tramite un tubo a campanache trasportava londa sonoraversoil sistema

    di incisionesuceralacca.Il tubo una cavit risonante chepu essereschema-

    tizzata comeun sistemalineare la cui risposta in frequenza caratterizzata

    dalla presenzadi picchi di risonanzaparticolarmente evidenti. Il segnalein

    uscita dal sistema, dato dalla convoluzione del segnalein ingressocon la

    risposta allimpulso del ltro, risulta pertanto aetto da una distorsionear-

    monica che viene percepita dallascoltatore comeunalterazionedel timbro.

    Un sempliceschema proposto in gura 2.4.Oltre a questoeetto il sistema

    Figura 2.4: Schemasemplicato di registrazionefonograca

    di registrazioneintroduceuna drastica limitazione della banda passante del

    segnaleoriginario e provoca la comparsadi vari tipi di rumori: sia quelli es-

    29

  • tesi lungo lin tero arco temporale come i fruscii sia quelli di tip o impulsivo7

    che hannouna durata molto breve e si presentano ripetutamente. Concentri-

    amoci momentaneamente sui soli picchi di risonanzaintrodotti dalla tromba

    trascurandoil resto.Seabbiamola fortuna di esserein possessodellapparato

    originale di incisionepossiamomisurarne la risposta in frequenza;a questo

    punto siamoin gradodi progettareun ltro in frequenzacheabbiauna rispos-

    ta tale da annullare leetto dei picchi di risonanzaintrodotti dal tubo. Come

    illustrato in gura 2.5 moltiplichiamo nel dominio della frequenzail segnale

    in uscita con un segnaleche linversodella risposta in frequenzadel tubo

    riottenendo il segnaleprivo delle risonanzeindotte. Il successodella decon-

    Figura 2.5: Deconvoluzione in frequenza

    voluzione legato al fatto che il segnaledi disturb o convoluto col segnale

    originario non opera tagli alla banda del segnaleoriginario (sistemaprivo di

    zeri sullassedelle frequenze).Purtoppo ogni qual volta un sistemaelimina

    completamente un intervallo di frequenzenon c modo di riottenere le fre-

    quenzemancanti per ricostruire il segnaleoriginario e infatti anche i migliori

    7denominati in gergoclick e crackle e dovuti alle imperfezioni della ceralacca

    30

  • restauri fonograci non restituiranno mai lin tera banda udibile di frequenze

    comesi pu udire nelle moderne registrazioni; questa situazione rispecchia

    il dato formale che la convoluzionenon in generaleuna trasformazionein-

    vertibile. Inoltre seun sistemasporca il segnaleoriginario con un segnaledi

    disturbo che copre lin tero range di frequenzedel segnaleoriginario ed in-

    oltre costantemente presente lungo tutto larco temporale non possibile

    in generaleseparareil rumore indotto dal segnaleoriginario. In termini pi

    generali il problema si pone ogni qual volta si devono separaredue segnali

    chesi sovrappongonosianel dominio della frequenzache in quellodel tempo.

    Sebbeneil problemasia destinato a rimanere insoluto seposto in termini

    generali,esistonodiversicasiparticolari in cui il ricorsoa tecnichenon lineari

    ci consente di superare problemi altrimenti non aron tabili con le tecniche

    lineari. Una delle tecniche non lineari impiegatenellelaborazionedei segnali

    lelaborazioneomomorfa. Tramite questa tecnica si cercadi separaredei

    segnalicombinati in modo non lineare(ad esempiotramite una convoluzione)

    trasformando il problema in modo che risulti lineare. Un esempiotipico di

    deconvoluzione omomorfa si ha in problemi di elaborazionedel parlato. Il

    modello sorgente ltro di produzionedel parlato decompone il segnalesn in

    uneccitazioneen eun ltro la cui risposta in frequenzaH(ej). Nel dominio

    della frequenzaabbiamoS(ej) = H(ej)E(ej). Applicando il logaritmo ad

    entrambi i membri otteniamo:

    lg S(ej) = lgH(ej) + lgE(ej) (2.10)

    In questo caso siamo interessati solo allo spettro, che il modulo della

    31

  • trasformata di Fourier, e quindi possiamoriscrivere la relazionecome

    lg jS(ej)j = lg jH(ej)j + lg jE(ej)j (2.11)

    Le componenti lentamente variabili dello spettro e quindi quelledi lg jS(ej)j

    sonorappresentate dalle bassefrequenzee corrispondonoallinviluppo spet-

    trale. Il dettaglio dovuto alla struttura ne delle parziali invece rappre-

    sentato dalle alte frequenzedi lg jS(ej)j. A questo punto possiamoanti-

    trasformare la relazione2.11 e ottenere la separazionedelle bassefrequenze

    dal dettaglio ne, semplicemente separandoi primi coecien ti dai restanti.

    Questoprocesso chiamato analisi cepstraleed schematizzatain gura 2.6.

    Si pu dire quindi che abbiamo applicato al dominio temporale delle proce-

    Figura 2.6: SchemaAnalisi Cepstrale

    32

  • dure tipiche del dominio della frequenza.Questaprassi stata attiv amente

    esploratadagli anni 60, quandoBogert, Healy e Tukey [BB63] pubblicarono

    il loro lavoro introducendouna curiosa terminologia per indicare linsieme

    delle rappresentazioni che si ottengonoseguendoquestastrada; inventarono

    quindi il termine cepstrumche lanagrammadi spectrum.

    Il concetto di inviluppo spettrale si ricollega strettamente a quello in-

    trodotto nel paragrafo 2.3.2 quando si parlato di impronta spettrale. An-

    che in questocasoci si aspetta che a timbri simili corrispondano inviluppi

    spettrali simili ed a timbri diversi corrispondano inviluppi di forma diversa.

    2.4 Tim bro, Pitc h e Loudness

    Introduciamoora le altre duegrandezzepercettive che insiemeal timbro cos-

    tituiscono gli attributi fondamentali di un evento sonoro:pitch e loudness.

    Il primo termine identica laltezza soggettiva di un suonoperiodico; seab-

    biamo a che fare con un suonopuro, cio una sinusoide, laltezza percepita

    ovviamente collegataalla frequenzarealedel suono;questacorrispondenza

    per non linearelungo tutta la bandaudibile per cui il pitch (altezzasogget-

    tiva) e la frequenzadi oscillazione(altezzaoggettiva) non sonosinonimi. Con-

    siderandoinvecesuoni periodici composti, la sensazionedel pitch collegata

    alla frequenzadella fondamentale cio la prima parzialedel suonocomposto.

    Proprio per questomotivo nella teoria musicalele note (indipendentemente

    dallo strumento che le emette) sonoorganizzateconvenzionalmente in mo-

    do da avere una corrispondenzabiunivoca tra il nome della nota (LA440)

    e frequenzaassegnata(440 Hz); infatti tale frequenza proprio quella della

    33

  • fondamentale.

    Il loudness la grandezzapercettiva che d conto dellintensit sonora;

    comeillustrato in appendiceA.1 anche in questocasola relazionetra loudness

    e intensit sonora tuttaltro che biunivoca.

    Se ritorniamo alla denizione di timbro data nel paragrafo 2.1 ci rendi-

    amo conto che le tre grandezzepercettive sonoconsideratecompletamente

    indipendenti tra loro, ma veramente cos?Nel casodegli strumenti acustici

    sicuramente no. Un casoabbastanzaevidente la tromba: quando questo

    strumento viene suonato con espressivit che va da debole a forte non

    solootteniamo un volume sonoropi alto ma il timbro diventa decisamente

    pi squillante; al contrario osserviamoche a volumi minori il suonotende a

    chiudersi. Ma anche il pitch inuenza in maniera determinante il timbro

    e la riprova sta nel fatto che pi dicile riconscereuno strumento quan-

    do vienesuonatonelle gammeestremedei suoi registri. Nelle esperienzeche

    discuteremosi cercher sempredi trattare il timbro comeunentit indipen-

    dente dalle altre ma bisognatener presente che questa unapprossimazione

    eche lanalisi dei risultati dovr tenerneconto. Anc h lapprossimazionesia

    sensatabisogner comunqueadottare alcuni accorgimenti: i campioni sonori

    usati negli esperimenti dovranno essereprodotti in modo che la nota emessa

    corrisponda ad un suono giustamente rappresentativ o dello strumento; in

    termini musicali sarebbe beneche gli strumenti fosserosuonati con dinamica

    pari a mezzoforte. Il discorsoper il pitch pi complicato: lidea pi comune

    nella prassisperimentale quella di compararestrumenti diversi suonati al-

    lo stessopitch; in questo modo si pensadi neutralizzare leetto del pitch

    sulle analisi dei campioni. In realt questascelta pu crearealtri problemi:

    34

  • un dato pitch che rappresenta la nota di un registro medio di un certo stru-

    mento potrebbe caderenel registro estremodi un altro (si pensia strumenti

    con tessiture lontane comecontrabbassoe violino); in questocasoil secondo

    strumento si troverebbe rappresentato nei dati da analizzareda un contenuto

    spettrale meno caratterizzante. Non esisteuna soluzionedenitiv a a questi

    problemi ma sene deve necessariamente tener conto in fasedi progettazione

    dellesperimento.

    2.5 Denizioni quantitativ e di alcune grandezze

    percettiv e

    In questo paragrafo daremo le denizioni quantitativ e di alcune grandezze

    siche strettamente correlate a sensazioniuditiv e rilevanti. Alcuni modelli

    di amplicatori ed equalizzatori per lalta fedelt sono dotati di controlli

    che fanno riferimento a queste grandezzeper consentire allascoltatore di

    intervenire manualmente sulla modica del timbro e migliorare lascolto in

    funzionedel tip o di musicae della qualit della registrazione.

    Brigh tness. Questagrandezzadata dal baricentro delladistribuzione

    spettrale:

    BR =

    RjX()jd

    RjX()jd

    (2.12)

    e per i suoni periodici si pu mostrareche:

    BR =

    Pk kakPk ak

    (2.13)

    35

  • dove k lindice dellarmonicae ak la relativa ampiezza.Questaquan-

    tit collegataalla sensazionedi bril lantezzadel suono.Possiamoquin-

    di dire che i suoni luminosi, aperti etc. hanno tendenzialmente una

    brightnessmaggioredi quella dei suoni scuri.

    Presence . Essa denita come:

    PR = 10 log(

    RjH()X()j2 dR

    jX()j2 d) (2.14)

    dove H() un ltro rettangolare passabandacon guadagnounitario

    tra i 700e i 900Hz. Questaquantit quindi una misura in dB del con-

    tenuto energeticodi una porzione localizzata dello spettro. Questa re-

    gionedellospettro molto signicativ a dal punto di vista percettivo e la

    variazionedi presencevieneassociata ad una variazionedi brillantezza

    del suono.

    2.6 Il riconoscimen to tim brico negli esseriumani

    In questo paragrafo illustreremo i risultati di alcune ricerche condotte su

    esseriumani per vericare la nostra capacit di riconoscimento timbrico.

    Tali ricerchesonoessenzialisiaper capiremeglio la percezioneumanasiaper

    avere un termine di paragonecon i risultati prodotti con il riconoscimento

    articiale. Nellambito del riconoscimento timbrico possiamoschematizzare

    tre situazioni diverse:lascolto di un tono isolato, di una frase monofonica,

    o di un insiemepolistrumentale. Nei primi due casi disponiamo di risultati

    quantitativi mentre per il terzo stato solopropostoqualchemodello; questo

    36

  • dovuto al fatto che la ricerca ancoraai primi passiin questocampo e si

    ancora fermi alla fasedi discussionedi un modello sucien temente robusto.

    Ci si aspetta che in futuro siano progettati esperimenti che possanofornire

    ulteriori dati.

    2.6.1 Riconoscimento di toni isolati e frasi monofoniche

    In questambito possiamocitare dieci ricerche che vannodal 1947al 2001;di

    questele prime cinquehanno indagato il riconoscimento di toni isolati mentre

    le successive si sonoconcentrate su frasi monofoniche. I risulatati complessivi

    sonomostrati nella tabella 2.1

    Esperimento Percentuale riconoscimenti corretti Numero di strumenti

    [Eag47] 56 9[Sal64] 41 10[Ber64] 59 10[Cla64] 90 3[Str67] 85 8[Cam78] 72 6[Ken86] 84 3[Bro99] 89 2[Mar99] - Toni Isolati 46 27[Mar99] - Frasi Monofoniche 10 sec 67 27[Bro01] 85 4

    Tabella 2.1: Risultati degli esperimenti sullaccuratezzadel riconoscimentoumano

    In alcuni esperimenti come quello di Brown [Bro01] stato usato un

    databasedi pochi strumenti e gli ascoltatori non eranoprecedentemente in-

    formati degli strumenti usati. In questi casivienechiesto ai soggettidi com-

    pilare anche la lista totale di strumenti usati indipendentemente dal loro

    37

  • registro8. Con questa informazionesi possonoottenere delle stime sulle ca-

    pacit di clustering9dei soggetti. In tal modo lerrore nellaccuratezzadel

    riconoscimento si pu valutare oltre che nelle risposte sbagliate anche nel-

    linserimento di una classestrumentale non realmente presente nel test. In

    altri esperimenti comequello di Martin [Mar99] stato usato un database

    decisamente pi grandee i soggettieranoa conoscenzadella lista degli stru-

    menti impiegati. Diamo qualche dettaglio sullesperimento di Martin dato

    che limp ostazione stata presacomeriferimento anche in esperimenti suc-

    cessivi[Ero01] e rappresenta il lavoro organicopi recente sul riconoscimento

    timbrico. Hanno partecipato allesperimento quaranta soggetti, tutti a vario

    titolo musicalmente esperti. Nel test con toni isolati sono state impiegate

    137 note di 27 diversi strumenti, ognuno rappresentato con diversi pitch; i

    campioni provengonodalla collezioneMcGill [Opo87]. I 27 strumenti sono

    inoltre stati raggruppati in 5 famiglie strumentali: archi, ottoni, ancedoppie,

    clarinetti e auti. In questotest i riconoscimenti accurati sonostati in media

    del 46 % per i singoli strumenti e del 92 % per le famglie strumentali. Nella

    secondaparte del test sonostati utilizzati 19 strumenti che eseguivano frasi

    monofoniche della durata di circa 10 secondi;laccuratezzain questocaso

    stata del 67 % per gli strumenti e del 97 % per le famiglie strumentali.

    Comparandoi risultati delle ricerche emergonole seguenti osservazioni:

    1. Laccuratezzadel riconosciemento decadeal cresceredelnumerodi stru-

    menti da riconoscere.Taledegradazionenon linearema molto ampia

    8ad esempioil sax sopranoe quello contralto devono esserericonusciuti entrambi comesassofono

    9raggruppamento; in questocasosi intende la capacit di raggruppare strumenti dellastessafamiglia comead esempiogli archi

    38

  • inizialmente (passandoda 3 a 10strumenti) mentre tendead attenuarsi

    successivamente (laccuratezzasembra costante passandoda 10 a quasi

    trenta strumenti)

    2. Laccuratezza molto maggiorenel riconoscimento delle famigle stru-

    mentali che nel riconoscimento di singoli toni; tale divario per si re-

    stringe quando si passaal test con frasi monofoniche. Questo fatto ci

    suggerisceche gli invarianti acustici, pur operandouna discriminazione

    importante tra strumenti, non sono sucien ti per ottenere unaccu-

    ratezza media superiore al 50 %. In pratica lerrore concentrato al-

    lin terno delle famiglie strumentali; questo dato ci induce a pensare

    che per migliorare la discriminazionefra strumenti della stessafamiglia

    abbiamo bisognodi altre informazioni. Dato che laccuratezzacresce

    sensibilmente quandosi passada singoli toni a frasi monofoniche, pos-

    siamo ipotizzare che le informazioni aggiuntiv e di cui ci possiamoav-

    valeresianocontenute nel fraseggiostrumentale, nella tessituradel bra-

    no e nella tecnica esecutiva10. Per vericare questa ipotesi si dovrebbe

    ripetere il test con soggetti con una scarsacompetenza musicale; in

    questomodo si potrebbe separarela capacit percettiva dalle sovras-

    trutture culturali che determinano lincremento di accuratezzache si

    ottiene nel passaggioda singoli toni a frasi monofoniche.

    10per una persona musicalmente competente semplice distiguere un sax alto da unsopranoseha la possibilit di ascoltare i due strumenti che eseguonouna scalasu 2 ottave(tessitura), oppure prestando attenzione alla velocit di certi passaggiche sonosemplici emolto frequenti su uno strumento mentre sonodicili equindi raramente eseguitisullaltro(tecnica strumentale).

    39

  • 2.6.2 Riconoscimento di insiemi polistrumentali: il mod-

    ello di McAdams

    Il modello di McAdams [McA93] fornisceunipotesi sul riconoscimento tim-

    brico eettuato su un insiemepolistrumentale. Tale modello schematizzato

    in gura 2.7. Il primo bloccorappresenta la trasduzionedellavibrazionesono-

    ra in stimolo elettrico coscomestata descritta nel paragrafoA.1. Nella fase

    di auditory grouping il usso di informazioni in ingressoviene quindi elabo-

    rato in rappresentazioni uditiv e separate,una per ciascunasorgente sonora

    presente nellambiente; in altri termini il cervello opera una separazioneal-

    lin terno del usso informativo in ingressoche descrive linsieme dei suoni

    orchestrali miscelati tra loro, e li separain ussi indipendenti che rappresen-

    tano ciascunasorgente sonora.Nella fasesuccessiva inizia lanalisi di ciascuna

    sorgente con la progressiva estrazionedelle caratteristiche percettive rilevan-

    ti. Alla ne di queste tre fasi la rappresentazione uditiva iniziale stata

    trasformata in un gruppo di propriet astratte caratterizzatedagli invarianti

    acustici di ciascunasorgente. Nella fasedi matching with auditory lexicon la

    rappresentazione confrontata con classidi eventi e di sorgenti sonoresim-

    ili gi presenti in memoria; lo stimolo viene quindi riconosciuto in basealla

    classepresente in memoria che gli si adatta meglio. Se presente una sor-

    gente sconosciuta11 lascoltatore reagiscecreandouna nuova voce nella sua

    memoria. A questopunto possibileassociare le classi riconosciutecon un

    dizionario verbale che assegnaun nome a ciascunasorgente riconosciuta. Il

    loop in gura spiegail fatto che lanalisi pu essereripetuta pi volte nellam-

    11cio una sorgente che non confrontabile con nessunodei gruppi presenti in memoria

    40

  • bito dello stessoascoltoqualora le sorgenti sonoresianocorrotte da rumore;

    in altri termini il processoqu descritto vienecompiuto per approssimazioni

    successive.

    41

  • Figura 2.7: schemaa blocchi del modello di McAdams

    42

  • Capitolo 3

    Rappresentazione Tim brica

    3.1 Lo Spazio Tim brico

    3.1.1 Riconoscere o rappresentare

    Nel Capitolo 2 abbiamovisto comesiapossibileapplicaredei criteri di simili-

    tudine agli inviluppi spettrali, ma limitandoci al confronto tra inviluppi non

    stato necessariochiederciqualepropriet percettiva rappresenti esattamente

    la forma di quellinviluppo. Ad esempiopotremmo chiedereciseun inviluppo

    con la forma che ricorda quella di un ltro passabandacorrisponde ad un

    suonoargentino o nasale.La risposta a questedomandeviene da un ramo

    di ricerca che si intersecacol riconoscimento timbrico ma non coicide con

    esso;tale ricercapunta alla creazionedi uno spazio timbrico. Con questoter-

    mine si intendeuno spaziometrico in cui vengonocollocati gli oggetti sonori

    conformemente alla metrica scelta.Possiamoimmaginare lo spaziotimbrico

    come un modo per visualizzaree quanticare la rappresentazione mentale

    43

  • che gli esseriumani hanno dei suoni. Ad esempio,quando ascoltiamo due

    trombe in diversatonalit, immaginiamo i relativi suoni comevicini mentre

    un suonodi pianosar percepitocomelontano da questi.Si noti che in questo

    ragionamento i termini vicino e lontano sonocollegatiai termini simile e dif-

    ferente usati a proposito del riconoscimento ma non sono la stessacosa;nei

    primi due compresoun concetto di metrica che negli altri due assente.

    La dierenza consisteproprio nel fatto che per denire una metrica abbi-

    amo bisognodi dare un signicato percettivo alle quantit che identicano

    un suono:due fagotti sono vicini perch hanno un suononasale.Si tratta

    quindi di individuare quelle qualit percettive che avvicinano o allontanano

    due suoni. Questo contemporaneamente il punto di forza e la debolezza

    di questo approccio; infatti da una parte ci forniscenuovi strumenti per il

    riconoscimento comela possibilit di ricercaper attributi percettivi1 mentre

    dallaltra si presta a crearedelle incongruenzedovute al fatto che lo stesso

    strumento pu avere caratteristiche percettive assaidiverse in funzione del

    registro e della tecnicastrumentale usata.Una parte del lavoro sperimentale

    di questatesi stato dedicatoad aron tare questapproccio per indagarnele

    potenzialit e verr discussonel capitolo 3.2.

    3.1.2 Come si crea uno spazio timbrico

    Se immaginiamo che ciascun timbro sia descrivibile mediante un insieme

    di caratteristiche misurabili possiamorappresentarlo come un punto nello

    spazio.Ad esempio,supponiamo che ciascunsuonosia denito dalla bright-

    1ad esempiosi pu immaginare una query ad un database nella forma: trovami unsuonomolto cupo che evolva nel tempo versoun media nasalit

    44

  • nessedalla presenceentrambemisurabili suuna scala.Allora possiamousare

    questi valori comecomponenti di un vettore in uno spaziobidimensionale.

    Ciascunacoppia di valori individua un punto che pu essererappresentato

    su un piano cartesiano.Una volta stabilita una metrica, per esempioquella

    euclidea, possibilestabilire la distanza tra i punti. Se la rappresentazione

    ottenuta uno specchio fedeledella nostra realt percettiva ci si aspetta chea

    punti vicini corrispondanotimbri simili. Osserviamosubito chenon sappiamo

    nquali siano le caratteristiche percettive rilevanti nquante essesiano,cio

    non possibilestabilire la dimensionalit dello spazio;inoltre non possibile

    stabilire a priori che la metrica euclideasiaquellagiusta.La costruzionedello

    spazio timbrico si avvale di un misto di ipotesi, manipolazioni statistiche e

    successive veric he. Innanzitutto si fanno delle ipotesi sulla dimensionalit

    dello spazio,cio sul numero di caratteristiche percettive principali. Questo

    forse il momento pi delicato dellintero processoin quanto non c nes-

    sun elemento sostanzialea partire dalle nostre conoscenzepregressesulla

    percezioneche ci dia unindicazione in tal senso;in questa scelta entra in

    gioco il maggior desideriodi qualsiasi ricercatore: poter visualizzaregra-

    camente in ununica rappresentazione i dati che analizza.Questoorienta la

    sceltaversodimensionalit limitate, preferibilemente di ordine due o tre, in

    modo da poter rappresentare i timbri suun unico graco. Sar la rispondenza

    tra i graci ottenuti e la realt percettiva a determinare la validit di questa

    ipotesi.Una volta stabilite questepremesse,si sottoponeun databasesonoro

    ad un sistema (umano o automatico) che fornisca in uscita delle risposte

    basatesulla percezioneche indichino il livello di similarit dei suoni. I suoni

    vengonoquindi rappresentati nel nostro spazio.A questopunto possibile

    45

  • valutare la correlazionestatistica tra la grandezza(ignota) misurata sugli

    assicon grandezzenote al ne di stabilire il signicato degli assidel nostro

    spazio.Unaltra operazioneda eettuare la verica del clustering, ossiala

    capacit del sistemadi raggrupparein zonebendenite gruppi di suonisimili

    comei timbri prodotti da strumenti di una stessafamiglia.

    Questo tip o di ricerche ha goduto di unattenzione decisamente minore

    rispetto al riconoscimento veroe proprio. Le motivazioni sonoessenzialmente

    di opportunit: la rappresentazione timbrica un argomento che richiedeun

    insiemedi competenzepi vasto e non ha le ricadute applicative e commer-

    ciali immediate di un software di riconoscimento robusto. Ci nonostante,

    gli sviluppi a lungo termine di questoapproccio possonoportare a risultati

    inattesi in vari campi di ricercacompresoil riconoscimento timbrico. Infatti,

    la comprensionedei fenomenipercettivi potrebbe ricevereun grandeimpulso

    dalla comprensionedel numeroe del signicato delledimensionidello spazio.

    Ai ni del riconoscimento si pu ipotizzare lunione di due framework per

    ottenere risultati migliori: uno basatosugli spazi timbrici e laltro su sistemi

    esperti in grado di valutare le tecniche strumentali ed esecutive in presenza

    di frammenti musicali.

    3.1.3 Lo spazio timbrico di Grey

    Grey [Gre75] stato il primo ad impegnarsi in una verica sperimentale di

    questi concetti. Nellidea iniziale di Gray non cera comescopo nale il ri-

    conoscimento automatico, il suo obbiettivo era quello di vericare se fosse

    stato possibiledare una rappresentazione formaledello spaziomentale in cui

    46

  • gli esseriumani collocano i suoni; la sua impostazioneper stata ripresa

    anche per la costruzionedi spazi tramite analisi automatiche e quindi vale

    la pena di descriverla pi in dettaglio. Inizialmente stato selezionatoun

    databasedi 16 strumenti su cui stata eettuata unelaborazione tesa ad

    eliminare le dierenze non timbriche comeil pitch o il loudness.I suoni sono

    stati quindi somministrati a coppiead un insiemedi ascoltatori. Per ciascuna

    coppia lascoltatoredava un giudizio di similarit espressoin forma numerica.

    A partire da questi dati Grey costru una seriedi matrici che contenevano

    le valutazioni soggettive (subjective ratings). Questi dati furono elaborati

    in due modi indipendenti: con un algoritmo di Multidimensional Scaling2

    (MDS) e con un algoritmo di Hierarchical Clustering3 (HC). Lo scopo del-

    lanalisi MDS era quello di scoprire i rapporti metrici degli stimoli in uno

    spazioEuclideo che tenesseconto delle valutazioni di somiglianzain termini

    di distanze spaziali. Lanalisi HC inveceera usata per raggrupparestimoli

    simili indipendentemente dalla struttura spazialesottostante. Una prova del-

    la bont del modello era data secondoGrey dalla compatibilit dei risultati

    nei due tipi di analisi. In altri termini, se lalgoritmo di clustering tendeva

    a raggruppare punti che gi risultavano vicini in un graco tridimension-

    ale ottenuto tramite lanalisi MDS, si aveva la confermadi aver individuato

    la giusta dimensionalit e la giusta metrica. A questopunto lultimo passo

    2lalgoritmo prende in input una matrice delle distanze e genera in output una con-gurazione di punti (su due o tre dimensioni); la distanza euclidea tra i punti dellacongurazione rappresenta spazialmente la matrice delle distanze.

    3lalgoritmo HC adotta una strategia che si pu riassumere in tre passi: trova unamatrice di similarit (qualora non sia gi disponibile) calcolandole distanze tra gli oggetti.Vengono collegate coppie di oggetti simili per formare dei cluster binari. I cluster cosottenuti vengonoassemblati in cluster pi grandi creando un albero gerarchico. Lalb eroviene esaminatoper trovare dei cluster secondoi criteri scelti

    47

  • sarebbe stato quello di trovare il signicato percettivo delle tre dimensioni

    con tecniche di regressione.Purtroppo Grey non ci riusc e lasci solo delle

    considerazioniqualitativ esuquali potevanoesserele grandezzerappresentate

    dai tre assi;in particolare indic lasseprincipale comerappresentativ o della

    distribuzione spettrale mentre gli altri due assidovevano rappresentare una

    seriedi caratteristiche temporali e spettrali miscelatetra loro secondopesi

    non noti. La giusticazione di questadicolt eradovuta, secondoGrey, alle

    inuenze di natura culturale degli ascoltatori; egli in pratica sosteneva che

    le esperienzeculturali degli ascoltatori (del tutto indipendenti quindi dalla

    oggettivit del timbro) inuenzavano i dati in modo da renderetroppo comp-

    lessa,senon impossibile,lidenticazione di un certo assecon una grandezza

    percettiva misurabile.

    Alla luce della successiva esperienzadi Martin [Mar99] possiamoritenere

    che Grey avessein parte ragione nellindicare lesperienzaculturale dellas-

    coltatore come un limite nella creazionedi uno spazio timbrico. Infatti, i

    risultati di Martin ci dicono che il riconoscimento migliora sensibilmente us-

    ando frasi monofoniche anzich toni isolati e solo con le prime possibile

    sfruttare la conoscenzadel fraseggioe delle tecniche strumentali. Daltra

    parte il numero di dimensioni usate da Grey non necessariamente quello

    corretto ed inoltre il grado di correlazionetra un assee una grandezzanon

    sar mai del cento per cento, dato che il timbro non realmente indipendente

    dal pitch. Ma sopratutto osserviamoche se fosseuna macchina ad operare

    lanalisi e fornire i dati da rappresentare in uno spazio timbrico cadrebbe

    completamente il limite dovuto allesperienzaculturale degli uomini.

    48

  • 3.2 Creazione di uno spazio tim brico a partire

    da coecien ti MF CC

    3.2.1 Database sonoro e strumenti utilizzati

    In questocapitolo descriveremo la nostra esperienzanella creazionedi uno

    spaziotimbrico. Lo strumento usato per limplementazione degli algoritmi

    lambiente di calcoloscientico Matlab ver. 6.5. Comemateriale timbrico da

    analizzareabbiamoutilizzato un gruppo basedi 30strumenti rappresentativ o

    delle principali famiglie strumentali dellorchestra classicaoccidentale come

    mostrato in tabella 3.1

    Sono stati utlizzati esempisonori campionati ad una frequenzadi 44.1

    KHz con una risoluzione di 16 bit. Conviene fare alcune precisazionisulle

    fonti da cui abbiamo attin to i campioni per evidenziare i problemi tipici

    che si incontrano quandosi fanno questotip o di esperimenti. Sul mercatosi

    trovano moltissime librerie commercialidi campioni sonori destinate ai mu-

    sicisti. Molte di questelibrerie sonorealizzateda grandi esecutorie registrate

    in studi con attrezzature allo stato dellarte. Il problemaprincipale che tali

    librerie sonodestinatead essereusatesu hardware proprietario comei cam-

    pionatori: questosignica che vengonousati formati di le non standard e

    comunque i campioni sonotagliati e modicati per ottenere la migliore resa

    musicalesulle macchine cui sonodestinati.

    Nel nostro esperimento i campioni da inserire nel databasedi strumenti

    sono tratti per la maggior parte dalla libreria McGill [Opo87] e in parte

    49

  • Strumento tecnica esecutiva Label Famiglia StrumentaleFlauto contralto vibrato alto ute vibrato ati - legniTromba barocca bach trumpet ati - ottoniClarinetto basso bassclarinet ati - anciaFagotto bassoon ati - ancia doppiaClarinetto in sib b-at-clarinet ati - anciaVioloncello vibrato, con archetto cello arc hiVioloncello pizzicato cello pizzicato arc hiTromba in do c-trumpet ati - ottoniContrabbasso vibrato, con archetto double bass arc hiContrabbasso pizzicato double basspizzicato arc hiClarinetto in mib vibrato e-at-clarinet ati - anciaCorno Inglese English-horn ati - ancia doppiaFlauto vibrato ute-vibrato ati - legniCorno Francese french-horn ati - ottoniChitarra acustica guitar web cordofoni - corde pizzicateClavicembalo harps cordofoni - corde pizzicateMarimba marimba p ercussioni - cromatic heOboe vibrato oboe ati - ancia doppiaOrgano da chiesa suonato su registro di riferimen to 1 organ 2Organo da chiesa suonato su registro di riferimen to 2 organo autoPianoforte piano cordofoni - corde martellateSax Tenore sax tenor ati - anciaTromboneTenore tenor-trombone ati - ottoniTuba tuba ati - ottoniVibrafono vibrafono p ercussioni - cromatic heViola pizzicato viola arc hiViola vibrato, con archetto viola arc hiGruppo di violini vibrato, suonati allunisono violin ensemble arc hiviolino vibrato, con archetto violin arc hiviolino pizzicato violin arc hi

    Tabella 3.1: Strumenti utilizzati per lanalisi timbrica

    50

  • dalla libreria di registrazioni delluniversit dellIowa 4 che si presentano in

    un formato standarde non hannosubito rielaborazioni successive. Gli editori

    delle librerie riportano i seguenti dati sulle condizioni di registrazione:

    libreria McGill: la maggior parte dei campioni sonostati registrati di-

    rettamente in un registratoreSony PCM 3202DASH. Sonostati impie-

    gati microfoni a condensatoredi alta qualit B K collegatiad un stadio

    preamplicatore sempredella B K. Gli archi e il piano sonostati regis-

    trati in una sala da concertocon un tempo di riverberazionevariabile

    tra i 2.5 e i 5 secondi.Gli altri strumenti sonostati registrati in uno

    studio acusticamente neutro con un tempo di riverberazionedi circa

    0.4 secondi.

    Libreria delluniversit di Iowa: le registrazioni sonostate eettuate in

    una cameraanecoicanel Wendell JohnsonSpeech and Hearing Center

    delluniversit dellIowa. Sonostati impiegati microfoni NeumannKM

    84, mixer Mackie 1402-VLZ e registratore DAT PanasonicSV-3800.

    Ciascuno strumento stato registrato con 3 livelli di dinamica non

    normalizzati: piano pianissimo,mezzoforte e forte fortissimo.

    La libreria McGill diventata uno standard nelle pi recenti sperimen-

    tazioni sulla ricerca timbrica dato che ore un ampio ventaglio di strumenti

    e ciascunostrumento viene suonato in tutta la suaestensione.Ma presenta,

    per, anche alcuni difetti di cui occorre tener conto: gli esecutori impiegati

    nelle registrazioni degli strumenti a ato e ad arco impiegano la tecnica del

    4i campioni audio sono liberamente scaricabili allindirizzo internet http://theremin.music.uiowa.edu

    51

  • vibrato5 ed in qualche casosi sente chiaramente un crescendo6. Per quanto

    detto nel paragrafo2.4si deve tenerconto di questi fattori nellaprogettazione

    dellalgoritmo di analisi e nella valutazionedei risultati.

    3.2.2 Lalgortimo di front end

    I coecien ti MF CC

    Figura 3.1: schemaa blocchi MFCC

    MFCC lacronimo di Mel FrequencyCepstrumCoecien t; anchequesta

    tecnica nata nellambito delle ricerche di elaborazione del parlato ed

    stata successivamente adattata ai suoni musicali. Analogamente alla tecnica

    LPC, anchemediante gli MFCC possiamoottenereun inviluppo spettrale ma

    lidea sottostante allalgoritmo diversa. In questoschema il segnaleviene

    5Il vibrato una tecnica esecutiva che consistenel variare rapidamente il pitch dellanota di circa un quarto di tono attorno alla frequenzafondamentale

    6Unaltra tecnica esecutiva che consistenelleettuare un incremento del loudnessdaunintensit molto bassano allin tensit desiderata

    52

  • elaborato da un bancodi ltri pensatoin modo da riettere alcunepropriet

    percettive illustrate in AppendiceA.

    In gura 3.1 viene presentato lo schema a blocchi dellalgoritmo di es-

    trazione dei coecien ti:

    Vediamoora comefunzionano i vari blocchi:

    FrameBlocking: il segnalein ingressovienescomposto in piccoleporzioni

    temporali chiamate frame. Tali frame sono leggermente sovrapposti

    in modo da non perdere eccessive informazioni quando si eettua il

    nestramento.

    Finestramento: Lo scopo del nestramento quello di ottenere in us-

    cita un segnaleprivo di discontinuit allinizio e alla ne del frame.

    Tali discontinuit portano ad una perdita di risoluzione nel dominio

    della frequenzache si manifestacol fenomenodel frequencyleakageche

    consiste in una dispersionedellenergia di una riga spettrale in tut-

    to lassedelle frequenze.La soluzioneconsistenel moltiplicare ciascun

    frame nel dominio temporaleper un altro segnalecon lo stessonumero

    di campioni chiamato nestra. Utilizziamo a tale scopo la nestra di

    Hamming:

    (w(n)=0 .540.46cos 2nN 1 , 0nN1

    0, altrimenti

    )

    (3.1)

    La nestra riduce il frequencyleakagema contribuisce allallargamento

    dei picchi spettrali.

    FFT: ciascunframe in uscita dai blocchi precedenti viene trasformato

    53

  • nel dominio della frequenza.Viene quindi calcolato il modulo della

    trasformata di Fourier discreta mediante algoritmo di trasformata di

    Fourier rapida. In uscita da questoblocco il segnaleviene trattato nel

    dominio della frequenza.

    Mel FrequencyWarping: la risoluzione in frequenzadello spettro del

    sistemauditiv o umano non segueuna scalauniforme (vedi Appendice

    A). Tra le varie scalepercettive disponibili scegliamola scalamel; tale

    scala spaziata uniformemente in frequenzaal di sotto dei 1000 Hz

    ed esponenzialmente al di sopra. Possiamousare la seguente formula

    approssimataper calcolare i mel per una data frequenzaespressain

    Hertz:

    mel(f) = 2595 log10(1 +f

    700) f 1000Hz (3.2)

    mentre mel(f) = f per f 1000. Grazie alla presenzadel logaritmo

    nella scalamel si ha leetto di comprimereil rangedi frequenzedello

    spettro analogamente a quanto accadenellorecchio. A questo punto

    implementiamo un bancodi ltri, spaziatouniformemente sulla scaladi

    mel. Tale banco costituito da ltri triangolari con larghezzadi banda

    costante no ad 1 Khz e Q costante per le frequenzesuccessive. Si noti

    che i triangoli si sovrappongonosimulando leetto dellebandecritiche.

    Il ltraggio viene realizzato nel dominio della frequenzamoltiplicando

    la trasformata di Fourier di ciscun frame per la risposta in frequenza

    di ciascun ltro mel. La risposta in frequenzadel banco ha laspetto

    mostrato in gura 3.2

    Cepstrum: In questo blocco convertiamo il logaritmo dello spettro in

    54

  • 0 1000 2000 3000 4000 5000 6000 7000 80000

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    0.45

    Figura 3.2: bancodi ltri mel

    scala mel nel dominio del tempo. Ci che otteniamo viene chiamato

    coecien te cepstrummel (MFCC). Dato che i coecien ti dello spettro

    mel (ed i loro logaritmi) sono numeri reali, possiamoconvertirli nel

    dominio del tempo usandola TrasfomataCosenoDiscreta (DCT).

    In sintesi la formula utilizzata per il calcolodegli MFCC

    cn =KX

    k=1

    log(fSk)cos[k(n 1

    2)

    K] (3.3)

    dove fSk con k = 1, ..., K sono le energiein uscita dai ltri. Nelle gure

    3.3 e 3.4 possiamoosservare i graci degli MFCC per i campioni di violo-

    55

  • cello e tuba. Entrambi i graci rappresentano 12 frame rispettivamente dei

    due strumenti; confrontandoli emergeche nel casodel violocello le dierenze

    tra i frame sono molto pi marcate che nel casodella tuba. Questo un

    indice abbastanzaevidente delledierenze che si hanno tra le evoluzioni tim-

    briche dei vari strumenti. Putroppo, come evidenziato nel paragrafo 3.2.1,

    questedierenze sonoaccentuate anche dalle tecniche strumentali usatedai

    musicisti.

    0 5 10 15 20 25 304

    3

    2

    1

    0

    1

    2

    3MFCC del Timbro: cello

    Figura 3.3: I primi 26 mfcc del violoncello rappresentati per 12 frames

    56

  • 0 5 10 15 20 25 304

    3

    2

    1

    0

    1

    2

    3MFCC del Timbro: tuba

    Figura 3.4: I primi 26 mfcc della tuba rappresentati per 12 frames

    Eettuando la traformata DCT inversadegli MFCC ritorniamo ad una

    rappresentazione in frequenzadel segnaleche proprio linviluppo spettrale,

    sia pur rappresentato in scala mel, a cui abbiamo fatto riferimento prece-

    dentemente. Osservando le gure 3.5 e 3.6 relative agli stessicampioni di

    violoncello e tuba si ha la confermadi quanto gi indicato dagli MFCC: nel

    casodella tuba gli inviluppi relativi ai vari frame hanno sempre la stessa

    forma mentre si osservano delle variazioni nel casodel violoncello.

    57

  • 0 5 10 15 20 25 302

    1.5

    1

    0.5

    0

    0.5

    1

    1.5

    2

    2.5

    3 Strumento cello

    Figura 3.5: Gli inviluppi spettrali del violoncello rappresentati per 12 frames

    Riassumendo,possiamodire di aver individuato una caratteristica distin-

    tiva del timbro negli MFCC partendo da un modello che prendespunto dal

    funzionamento dellorecchio, ovvero un modello basato sulla percezione.A

    partire da tale descrizionesiamo in grado di percorrerea ritroso il cammino

    dal suonopercepitoalla sorgente in quanto la rappresentazione in frequenza

    che si ottiene dagli MFCC fornisceun inviluppo spettrale che caratteristico

    dello strumento.

    58

  • 0 5 10 15 20 25 302

    1.5

    1

    0.5

    0

    0.5

    1

    1.5

    2

    2.5

    3 Strumento tuba

    Figura 3.6: Gli inviluppi spettrali della tuba rappresentati per 12 frames

    Ne segueda quanto detto che gli MFCC individuano degli invarianti

    acustici. I limiti di questa tecnica si possonoriassumerein due osservazioni

    generali; la prima che lalgoritmo tiene conto solo di alcuni aspetti della

    percezionetracurandonemolti altri, sia per mantenere lalgoritmo ad un liv-

    ello di modestacomplessit, siaperchmolti fenomenipercettivi sonoancora

    poco noti. La secondaosservazione intrinseca al modello stesso:si presup-

    pone che il segnaleda analizzaresia periodico e che levoluzione temporale

    59

  • dello spettro sia contenuta. Da quanto detto nel paragrafo 2.3.1, la fasedi

    attacco del suono non periodica e quindi non si presta a questo tip o di

    analisi; inoltre il contenuto spettrale soggettoad evoluzione,ragion per cui

    ha sensoparlare di impronta spettrale solo per intervalli temporali in cui si

    possanoconsideraretrascurabili tali evoluzioni.

    Formazione dei Vettori A custici

    Dato che il timbro evolve nel tempo, lelaborazionedel segnalein ingresso

    non viene eettuata sullintero segnalema questultimo viene suddiviso in

    tante piccole nestre temporali chiamate frame. La dimensionedel frame si

    scegliein modo tale cheallin terno di questointervallo temporalela variazione

    timbrica si possaconsideraretrascurabile (ipotesi di quasi stazionariet del

    timbro). Ciascunframe vieneelaborato separatamente con lestrazionedegli

    MFCC ed il risultato un vettore acustico per ciascun frame. Inne tut-

    ti i vettori acustici vengonoassemblati in una matrice che rappresenta gli

    invarianti acustici del suonoin tutta la suadurata.

    Il nostro banco formato da 27 ltri equispaziatisu scalamel e ciascun

    ltro ha una larghezzadi banda di circa 100 mel. Complessivamente il nos-

    tro banco copre una larghezzadi banda di 2700mel corrispondenti a circa

    8 KHz (vedi gura 3.2). La scelta di questa larghezza motivata dal fatto

    che la maggiorparte di informazioni sonoretrasportate dagli strumenti mu-

    sicali si trovano in questabanda mentre a frequenzepi elevate il rapporto

    segnale/rumorediventa svantaggioso. Il banco risulta inoltre normalizzato

    rispetto allenergiaper non privilegiare le frequenzepi alte.

    Da ogni campionevengonoestratti i primi 600msece da questi vengono

    60

  • eliminati i primi 80 msec.Alla routine di analisi vengonopassatiquindi circa

    520msecdi audio da analizzare.Questi valori ci sonosembrati ottimali per

    i seguenti motivi:

    Una durata intorno ai 500 msec sucien te a contenere la maggior

    parte delleevoluzioni timbriche di una singolanota su molti strumenti.

    Abbiamo la necessitdi eliminare lattacco da tutti i campioniperch il

    tip o di analisi che ci apprestiamoa fare fornisceinformazioni utili solo

    per suoni quasi periodici (vedi paragrafo 2.3.1). A questo proposito

    osserviamoche per tagliare lattacco sarebbe stato sucien te eliminare

    i primi 20-40msec; la scelta di operare un taglio maggiore dettata

    dalla necessit di moderare il paleseeetto di crescendopresente in

    alcuneregistrazioni.

    Mediante la 3.3 abbiamoche ciascunframe rappresentato da 27 coe-

    cienti che formano il vettore acustico. Il primo coecien te, quello di ordine

    zero, rappresenta lenergia media del segnalee viene quindi esclusoal ne

    di ottenere una normalizzazione.Il vettore acustico cos ottenuto, secondo

    quanto discussonel paragrafo3.2.2, contiene una descrizionepercettiva del

    suono (o meglio del singolo frame), almeno per la sua parte periodica. In-

    ne la trasformata cosenodei 26 coecien ti produce linviluppo spettrale del

    frame.

    In realt possibilevericare che la maggiorparte delle informazioni spet-

    trali rilevanti sonocontenute nei primi coecien ti del vettore, mentre quelli

    di ordine pi elevato contengono la parte pi ne di tale rappresentazione.

    Non esisteuna regola per determinare a priori quali sia il numero giusto

    61

  • di coecien ti da ritenere, ma si valuta in basealle esigenzesperimentali il

    numero pi opportuno. Nel nostro casosi scelto di stabilire tale numero

    pari a 6, che la quantit pi piccolaper conservare le informazioni spettrali

    di maggior rilievo. Questascelta consente di concentrare lanalisi eettuata

    nello stadio successivo sulle caratteristiche pi importanti diminuendoeven-

    tuali correlazioni incrociate sugli assi con caratteristiche minori. Operando

    la trasformata cosenodei 6 coecien ti otteniamo ancoraun inviluppo spet-

    trale, che presenter un andamento pi smussato (cio meno dettagliato)

    del precedente. Chiameremoconvenzionalemente tale inviluppo col termine

    inviluppo semplicato. In stadi successividella ricerca comunque oppor-

    tuno ripetere e/o riprogettare lesperienza tenendo conto di un numero di

    coecien ti maggiore.

    3.2.3 Le Mappe Autoorganizzanti

    Generalit

    Per la costruzionedello spazio timbrico vengono impiegate le mappe neu-

    rali autoorganizzanti o SOM (Self Organizing Map), introdotte da Kohonen

    [Koh90a] [Koh90b]. Si tratta di reti neurali appartenenti alla famiglia delle

    reti competitiv e. Questereti imparano a riconoscerele regolarit e le corre-

    lazioni presenti nel loro input e adattano la loro risposta futura, cio dopo

    laddestramento, in accordocon linput. In questomodo i neuroni delle reti

    competitiv e imparano a riconosceregruppi di vettori di input simili. In par-

    ticolare, le mappe autoorganizzanti rispondono attiv ando neuroni vicini in

    corrispondenzadi ingressisimili. Le SOM sonocaratterizzateda:

    62

  • la forma del pattern reticolare, ad esempiorettangolare o esagonale

    (Figura 3.7)

    Figura 3.7: Esempiodi topologiaa griglia rettangolare (in alto) ed esagonale(in basso)

    la metrica scelta,cio la funzionechecaratterizza la distanza;possiamo

    averedistanzeeuclidee,di Manhattan, etc.

    La rete funzionanel modo seguente: a ciascunneuronevieneassociato un

    vettore pesow i che ha la stessadimensionalit del vettore di ingressox ; in

    questomodo abbiamo una struttura in cui tutti i neuroni sono idealmente

    63

  • connessiin parallelo a tutti i terminali di ingresso.Per ciascunvettore in in-

    gressoviene trovato il neuroneche megliosi accoppiacol vettore producendo

    il pi alto livello di eccitazione;questaccoppiamento produce la corrispon-

    denza tra il vettore in input e una posizionesulla mappa. Il neuroneche si

    ecciter sar quello che minimizza la distanza tra x e w i:

    d = min kx w ik (3.4)

    Le coordinateche individuano il neuroneeccitatorappresentano la proiezione

    del vettore di ingressosulla mappa. La funzione distanza scelta inuenzer

    ovviamente il tip o di proiezioneche otterremo. La particolarit delle SOM

    rispetto alle altre reti competitiv e che insiemeal neuronevincente vengono

    individuati e aggiornati anche i neuroni che si trovano nellintorno di questi

    (vedi Fig 3.8).

    A ddestramen to e Simulazione

    Il funzionamento della rete si basa quindi sulla formazionedei coecien ti

    associati a ciascunneurone.I coecien ti si formano nella fasedi addestra-

    mento della rete. Una rete inizialmente neutra cio i suoi coecien ti sono

    tutti uguali. Laddestramento consistenellesporre la rete ad un insiemedi

    vettori che costituisce il nostro databasedi addestramento. Ogni volta che

    viene presentato un vettore in ingressoviene selezionatoil neuronevincente

    secondola regolagi illustrata. A questopunto vengonoaggiornati i pesidel

    64

  • Figura 3.8: Esempiodi layer bidimensionale:gli intorni sonoevidenziati contoni di grigio