Sistemi Di Elaborazione Per La Musica Dispense del corso
Short Description
Indice Capitolo 1 - Musica informatica e teoria musicale 1.1 - Dalla musica elettronica alla musica informatica 1.2 -...
Description
Sistemi di Elaborazione per la Musica Dispense del corso
Marzo 2000
2
Indice Capitolo 1 - Musica informatica e teoria musicale 1.1 - Dalla musica elettronica alla musica informatica 1.2 - Musica informatica 1.3 - La notazione musicale
Allegati - Capitolo 1 - MIDI - La notazione musicale tradizionale
Capitolo 2 - Elementi di acustica e di psicoacustica 2.1 - Acustica: introduzione 2.2 - Oscillazioni e onde 2.3 - Inviluppo dei suoni 2.4 - Propagazione del suono 2.5 - Intensit del suono 2.6 - Psicoacustica: introduzione 2.7 - Caratteristiche fisiche del suono e sensazioni uditive 2.8 - L’organo dell’udito 2.9 - Sovrapposizione di suoni puri 2.10 - Elaborazione dello stimolo uditivo nel sistema nervoso 2.11 - Misure di intensit acustica 2.12 - Mascheramento dei suoni 2.13 - La percezione del timbro
Capitolo 3 - Modelli dell’interpretazione musicale Allegati - Capitolo 3 - Analisi dell’interpretazione - parte I - Analisi dell’interpretazione - parte II - Analysis by synthesis of the expressive intentions in musical performance
Capitolo 4 - Analisi ed elaborazione del suono 4.1 - Analisi di Fourier 4.2 - Short Time Fourier Transform (STFT) 4.3 - Il modello sinusoidale 4.4 - Fondamenti matematici per l’elaborazione del suono
Allegati - Capitolo 4 - Musical sound modeling with sinusoids plus noise - Elaborazione del suono
3
Capitolo 5 - Sintesi dei segnali audio 5.1 - Introduzione 5.2 - Metodi di generazione diretta 5.3 - Sintesi non lineari 5.4 - Sintesi per modelli fisici 5.5 - Modelli per la sintesi dei segnali di controllo
Capitolo 6 - Effetti audio digitali 6.1 - Introduzione 6.2 - Effetti tradizionali 6.3 - Riverbero 6.4 - Spazializzazione 6.5 - Appendice: percezione di eventi spaziali
Capitolo 7 - Sintesi per modelli fisici 7.1 - Introduzione 7.2 - Elementi concentrati: modelli a tempo continuo 7.3 - Elementi concentrati: metodi numerici 7.4 - Elementi distribuiti: l’approccio waveguide 7.5 - Un esempio completo: il clarinetto
Allegati - Capitolo 7 - Physically based sound modeling - Acoustic modeling using digital waveguides
Capitolo 1
Musica Informatica e Teoria Musicale Alvise Vidolin Copyright c 1999 by Alvise Vidolin. All rights reserved.
1.1 1.1.1
Dalla musica elettronica alla musica informatica Introduzione
Sotto il termine musica elettronica vengono spesso raggruppate esperienze musicali molto diverse fra loro: diverse come linguaggio musicale, metodologia compositiva, concezione estetica, organico di apparecchiature e strumenti impiegati, tecnica esecutiva, scelta di pubblico e funzione sociale della musica, scelta del luogo e dello spazio di ascolto, ecc. Tali esperienze, comunque, trovano un denominatore comune nell’utilizzazione dei mezzi elettroacustici e nell’accettazione del pensiero tecnologico-scientifico come supporto concettuale alla realizzazione dell’ opera per diventare talvolta fonte di stimoli prettamente musicali. La musica elettronica, comunque, non nasce tanto per la spinta egemonica della cultura scientifica rispetto a quella umanistica, quanto per un processo di convergenza che é maturato nel corso della prima metá del novecento e che ha cominciato a dare i primi frutti nel secondo dopoguerra. Giá alla fine del secolo scorso troviamo in maniera sempre piú frequente accavallarsi visioni profetiche, dimostrazioni scientifiche, sperimentazioni musicali, innovazioni tecnologiche, esposizioni di esigenze, azzeramenti e formulazioni di nuove teorie che si possono considerare le premesse all’esperienza elettronica.
1.1.2
Musica concreta e musica elettronica
É dagli anni ’50, comunque, che si comincia a parlare di musica concreta, musica elettronica, tape music. I luoghi di nascita sono Parigi, Colonia, alcuni centri dell’America, seguiti da numerosi altri Studi che, spesso all’interno di emittenti radiofoniche, continuano tale esperienza apportando, com’é il caso dello Studio di Fonologia della Rai di Milano, un contributo originale e determinante. A Parigi, rifacendosi alle proposte di Russolo e di Varese, si elabora elettronicamente qualsiasi materiale sonoro preesistente, sia rumore che musica tradizionale, per costruire, con una tecnica che sa molto del collage, opere musicali definite concrete che segnano un primo momento di rottura con il processo evolutivo della musica occidentale, basata essenzialmente sul controllo dei parametri altezza e durata. 1.1
1.2
CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE
A Colonia viene rivolta l’attenzione esclusivamente ai mezzi elettronici, con un rigore che deriva da un lato da Schoemberg e Webern e dall’altro dalla prassi della ricerca scientifica. Piú che arrivare alla musica attraverso una "selezione" (dal rumore), si é preferito determinarla per mezzo della "costruzione", partendo dall’onda sinusoidale ed agendo con una mentalitá totalmente strutturalista. Queste impostazioni opposte, e in un certo senso complementari di Colonia e Parigi, sono presenti negli studi che sorgono negli anni successivi in Europa e nel mondo, trovando spesso anche un giusto equilibrio e un naturale sviluppo. In questi anni il compositore lavora artigianalmente operando soprattutto con i magnetofoni, mediante tagli di nastro, sovrapposizioni di eventi sonori con successivi missaggi, variazioni di velocita dello scorrimento del nastro, ecc. Gli elettronici puri ottengono il materiale sonoro da pochi generatori di forme d’onda o dal rumore bianco. I concretisti lo ottengono soprattutto mediante registrazione con microfono. In generale manca un sistema di notazione musicale in quanto non é necessario eseguire piú volte l’opera, fissata una volta per tutte su nastro magnetico. Ció che Edgar Varese auspicava nel 1922, "Il compositore ed il tecnico dovranno lavorare insieme", finalmente si realizza. Inizia una ricerca interdisciplinare sia nel campo degli strumenti elettronici che nel campo della percezione e dell’acustica. Gli anni ’50 sono dominati da un clima di entusiamo avvenieristico: il superamento dello strumento meccanico e dei suoi condizionamenti storici; l’apertura di infiniti campi di indagine non piú limitati dalle dodici note del sistema temperato; il contatto diretto del compositore con il materiale sonoro; l’eliminazione - almeno teorica - dell’esecutore e della trasmissione del pensiero musicale attraverso un metalinguaggio quale la partitura; la fiducia nella tecnologia,nella matematica, nella logica e nella scienza in genere. Superato l’entusiasmo iniziale, molti compositori si rendono conto che le infinite possibilitá teoriche offerte dai mezzi elettronici sono notevolmente ridotte in fase di realizzazione pratica e che certe costruzioni formali non sono assolutamente percepite da orecchi viziati da secoli di musica acustica. Le apparecchiature usate sono poco docili alla volontá del musicista in quanto costruite per altre applicazioni, e la mole di lavoro richiesta per la realizzazione dell’opera molto spesso non viene ripagata dal risultato finale. Va aggiunto che il compositore si muove su un terreno a lui sconosciuto, come d’altra parte il pubblico non trova la chiave di lettura delle opere proposte, limitandosi spesso all’ascolto degli aspetti piú eclatanti e marginali.
1.1.3
Dagli automatismi al sintetizzatore
Assistiamo cosí negli anni ’60 ad un lento ma graduale processo di integrazione fra musica elettronica e musica strumentale ed allo sviluppo della cosiddetta musica mista caratterizzata da composizioni per strumenti e nastro magnetico, oppure con elaborazioni dal vivo dei suoni acustici per mezzo di apparecchiature elettroniche. Anche composizioni per un organico tradizionale risultano influenzate dalle esperienze elettroniche e dall’approfondimento teorico sui processi musicali che ne é seguito. Coloro che rifiutano questo ritorno al "meccanico" si dedicano ad uno studio sistematico delle possibilitá offerte dai mezzi elettronici, inventando nuove tecniche compositive e perfezionando quelle giá in uso. Una innovazione tecnologica di enorme importanza si affianca alle possibilitá operative giá esistenti: il voltage control che apre la strada ai processi automatici di generazione dei suoni. Nascono i primi sintetizzatori che tendono a ragruppare le principali apparecchiature di uno Studio in un unico strumento. Se da un lato il sintetizzatore si é rivelato essere riduttivo rispetto agli insiemi di apparecchiature specializzate, dall’altro, per le sue caratteristiche di trasportabilitá ed i costi relativamente contenuti, ha permesso sia il sorgere di laboratori privati sia l’esecuzione dal vivo e quindi un’interazione piú diretta con il pubblico. Grazie a tali peculiaritá, il sintetizzatore viene utilizzato anche dal mondo della musica jazz e pop condizionandone pesantemente l’evoluzione, tanto che la
1.1. DALLA MUSICA ELETTRONICA ALLA MUSICA INFORMATICA
1.3
produzione industriale dei successivi modelli viene sempre piú orientata verso la simulazione degli strumenti tradizionali acustici ovvero integrando nell’organo elettronico i piú eclatanti effetti speciali.
1.1.4
La musica elettroacustica
Negli anni ’60 le vecchie diatribe fra musicisti "concreti" e puristi "elettronici" sono giá abbondantemente superate ed il termine piú appropriato per identificare la musica prodotta utilizzando sia materiali acustici che sintetici sembra essere quello di musica elettroacustica. Quando viene prodotta in studio, ossia in tempo differito, si sopperisce alla mancanza del rapporto esecutore-pubblico inventando altre forme di spettacolo o di applicazione. Pur rimanendo sempre valida l’ideologia che poneva il mezzo radiofonico come veicolo privilegiato per la diffusione di massa della musica creata in laboratorio, aumentano i rapporti con le forme artistiche della visione, quali film e video; con il teatro ed il balletto; si compongono musiche per la sonorizzazione di specifici spazi architettonici, si inventano forme di spettacolo concettuale con i suoni e viene recuperato il vecchio legame fra musica e poesia anche se trasformato completamente sotto l’aspetto fonologico.
1.1.5
L’elaboratore elettronico
Sotto il profilo storico l’elaboratore viene utilizzato in musica ancora negli anni ’50 in un campo che é molto piú vicino all’intelligenza artificiale che alla liuteria elettronica. Le prime ricerche, infatti, non mirano alla produzione dei suoni bensí alla generazione automatica di partiture eseguibili dagli strumenti tradizionali. Infatti il computer, grazie alle sue capacitá logiche di elaborazione dell’informazione, puó immagazzinare regole musicali e "comporre" in maniera automatica seguendo, in genere, metodi aleatori. Nasce cosí la musica stocastica e si sviluppano le ricerche nella direzione della composizione automatica. Parallelamente si studia come rappresentare il suono in forma numerica ed avvalersi dell’elaboratore nella generazione sintetica di fenomeni acustici. Verso la fine degli anni ’60 il computer diventa uno strumento musicale molto versatile in grado di produrre qualsiasi sonoritá che potesse venire descritta in termini formali. Cambia completamente il modo di pensare e di realizzare la musica e si inizia un serio lavoro di ricerca su basi scientifiche coinvolgendo parecchie discipline quali la fisica acustica, la psicoacustica, la matematica, la scienza dell’informazione, l’elettronica digitale, ecc. Se per i pionieri della musica elettronica le sedi di sperimentazione erano gli studi radiofonici, i ricercatori di computer music lavorano nei centri di calcolo e nei laboratori di ricerca universitari. All’approccio artigianale delle prime esecuzioni con i mezzi analogici si contrappone ora la rigorosa metodologia imposta dall’elaboratore, per cui i compositori ricominciano a scrivere la musica attraverso una partitura, anche se completamente diversa da quella tradizionale.
1.1.6
Il live electronics
La musica generata mediante computer con le tecnologie degli anni ’70 doveva essere necessariamente registrata su nastro magnetico per l’ascolto in pubbico, in quanto gli elaboratori utilizzati erano di grosse dimensioni e intrasportabili. Questo entrava in conflitto con le esigenze dello spettacolo musicale e riportava la computer music nella stessa dimensione esecutiva della musica elettronica degli anni ’50. Di conseguenza, se le potenzialitá foniche dei mezzi digitali erano enormemente superiori a quelle della precedente generazione analogica, per molti compositori l’ascolto di lavori per nastro solo non era assolutamente soddisfacente mentre l’esecuzione di musiche miste, per strumenti e nastro, restava vincolata dalla tirannia temporale del supporto magnetico. Il live-electronics, invece, consente all’esecutore tradizionale di interagire con il mezzo elettronico durante l’esecuzione stessa per cui il
CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE
1.4
suono acustico e la sua immediata trasformazione elettroacustica diventano la base della composizione musicale. L’esecutore, o il cantante, si trova a suonare uno strumento completamente nuovo, composto dalla parte tradizionale e dalla estensione elettronica la quale puó variare notevolmente, anche nel corso dell’esecuzione, in dipendenza dal processo di elaborazione effettuato. Viene richiesta quindi una nuova sensibilitá musicale tipicamente basata sull’ascolto e sulla capacitá di trasformare la prassi esecutiva in relazione al contesto elettronico. I sistemi tecnologici utilizzati nel live-electronics sono chiamati sistemi ibridi in quanto utilizzano apparecchiature elettroniche analogiche controllate mediante processori numerici. Generalmente la parte analogica effettua le operazioni di trasformazione, miscelazione, amplificazione e diffusione dei segnali acustici mentre la parte digitale svolge le azioni di collegamento fra le varie apparecchiature e le variazioni automatiche di taluni parametri di controllo dei dispositivi di trattamento del suono. Nelle esecuzioni dal vivo é di fondamentale importanza la regia del suono che sovrintende l’esecuzione e tutti i processi di elaborazione e spazializzazione dei suoni.
1.1.7
Musica informatica in tempo reale
Grazie al progresso della tecnologia digitale, verso la fine degli anni ’70 molte funzioni che potevano essere realizzate con i sistemi ibridi visti in precedenza possono ora essere effettuate per via numerica utilizzando particolari computer appositamente progettati per la composizione e l’esecuzione della musica in tempo reale. Si puó cosí ottenere in tempo reale ció che con gli elaboratori in tempo differito richiedeva un tempo d’attesa piú o meno lungo, e, per di piú, si puó intervenire direttamente sul suono nel momento stesso in cui viene generato ovvero sulla trasformazione di eventi acustici esterni. In altre parole si puó pensare la musica senza l’intermediazione del nastro magnetico e/o le limitazioni del mezzo analogico, sfruttando, parallelamente, le possibilitá del live-electronics, della generazione numerica del suono e della intelligenza artificiale in un ambiente compositivo/esecutivo integrato. Ovviamente questo é il campo di ricerca dei nostri giorni e molti compositori si stanno muovendo in questa direzione. Forse é troppo presto per dire se questa é la strada del futuro, sicuramente é quella dell’oggi.
1.1.8
BIBLIOGRAFIA
Testi in italiano AA.VV., La Musica Mlettronica, a cura di Henri Pousseur, Milano, Feltrinelli, 1976. AA.VV., Musica e Elaboratore, a cura di Alvise Vidolin, Venezia, 1980, ed. La Biennale di Venezia; distribuzione Vallecchi, Firenze. Branchi Walter, Tecnologia della Musica Elettronica, Cosenza, Lerici, 1977. Gentilucci Armando, Introduzione alla Musica Elettronica, Feltrinelli, Milano, 1976. Haus Goffredo, Elementi di Informatica Musicale, Milano, Editoriale Jackson, 1984. Prieberg Fred, Musica ex Machina, Einaudi, Torino, 1963. Raccolte in italiano Atti del II Colloquio di Informatica Musicale, Milano, 1977. Richiedere a: Goffredo Haus, Istituto di Cibernetica, via Viotti 5, 20133 Milano. Atti del III Colloquio di Informatica Musicale, Padova, 1979. Richiedere a: Giovanni De Poli, C.S.C. Universitá di Padova, via San Francesco 11, 35100 Padova. Atti del IV Colloquio di Informatica Musicale, Pisa, 1981. Richiedere a: Libreria del CNUCE via S. Maria 36, 56100 Pisa.
1.2. MUSICA INFORMATICA
1.5
Atti del V Colloquio di Informatica Musicale, Ancona, 1983. Richiedere a: Luciana Martino, Universitá di Ancona, Facoltá di Ingegneria, via della Montagnola, 60100 Ancona. Atti del Convegno "Musical Grammars and Computer Analysis, a cura di M. Baroni e L. Callegari, Firenze, Olschki, 1984. Richiedere a: Edizioni Olschki, viuzza del Pozzetto, 50100, Firenze. Automazione e Strumentazione, rivista mensile dell’ ANIPLA, n.2, 1980; numero interamente dedicato all’informatica musicale. Segreteria: viale Premuda 2, 20129 Milano. Bibliografia nazionale di Informatica Musicale, a cura di Herold Roberto, Notiziario Musicale n.4 del CIDIM, 1984. Richiedere a: CIDIM, Via Vittoria Colonna, 18, Roma. LIMB (Quaderni 1,2,3,4,5), bollettino del Laboratorio per l’Informatica Musicale della Biennale di Venezia, anni 1981,82,83,84,85. Richiedere a: LIMB, c/o ASAC, Cá Corner della Regina, S. Croce 2214, 30125 Venezia. Informatica: Musica/Industria, Quaderni di M/R 1, Milano, UNICOPLI, 1983. Richiedere a: Edizioni UNICOPLI, via Bonghi 4, 20141 Milano. Numero e Suono, catalogo della International Computer Music Conference, Venezia, ed. La Biennale di Venezia, 1982. Distribuito da: ERI - Edizioni RAI, via del Babuino 51, 00187 Roma. Studi Musicali, pubblicazioni della Divisione Musicologica del CNUCE, via S. Maria 36, 56100 Pisa. Testi in lingua straniera Appleton Jhon, Perera Ronald, The Development and Practice of Electronic Music, Prentice Hall, Englewood Cliff, N.J., 1975. Bateman Wayne, Introduction to Computer Music, New York, John Woliey & Sons, 1980. Chamberlain Hal, Musical Applications of Microprocessors, Rochelle Park, New Jersey, Hayden Book Company Inc., 1981. Chion Michael, Reibel Guy, Les Musiques Electroacoustiques, Edisud, Paris, 1976. Eimert Herbert, Humpert Hans Ulrich, Das Lexicon der electronischen Musik, Gustav Bosse Verlag, Resensburg, 1973. Howe Hubert jr., Electronic Music Synthesis: concepts, facilities, and techniques, Dent & sons, London, 1975. Mathews Max V., The Technology of Computer Music, Cambridge, Mass., MIT Press, 1969. Schaeffer Pierre, Traité des Objets Musicaux, Le Seuil, Paris, 1966. Schwartz Elliott, Electronic Music: a listener’s guide, Praeger, New York, 1973. Riviste specializzate Computer Music Journal, MIT Press, Cambridge, Mass., USA. Interface: Journal of New Music Research, Swets Pub., Amsterdam. Cahiers de recherche/musique, INA-GRM, 116 Avenue du President Kennedy, 75016 Paris. Rapports IRCAM, IRCAM, 31 rue Saint Merri, 75004 Paris. La Musica Elettronica, EDICAR, via Ortica 27, 20134 Milano. Quaderni di Informatica Musicale, Studio Edgar Varese, via Caboto 31, 65100 Pescara.
1.2 1.2.1
Musica Informatica Introduzione
Con lo sviluppo delle tecnologie multimediali la musica è diventata una delle fonti d’informazione trattate dall’informatica, al pari dei numeri, dei testi, della grafica e della visione. Ciò ha favorito lo sviluppo di importanti applicazioni in campo musicale e ha portato i sistemi informatici a diventare
1.6
CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE
uno "strumento" musicale di riferimento, come lo fu il pianoforte nel XIX secolo. Il termine strumento non ha qui l’accezione musicale corrente, in quanto il complesso delle funzioni svolte dai sistemi informatici è molto più ampio di quello di uno strumento tradizionale. L’elaboratore non genera solo suoni, ma elabora tutta l’informazione musicale, dal microlivello (il suono) al macrolivello (la forma). Ciò ha comportato una sostanziale trasformazione dei metodi del far m. con il coinvolgimento di tutti i settori: della creazione alla produzione musicale, favorendo la nascita di nuove figure professionali. Un sistema informatico completo di opportuni programmi e periferiche svolge molte funzioni musicali. é strumento musicale polifonico e politimbrico; simula i suoni degli strumenti acustici oppure diventa il mezzo per comporre nuove sonoritá elettroniche; svolge le funzioni di uno studio di registrazione audio per editing, elaborazione, montaggio di suoni e di brani musicali, stampa di CD audio; viene utilizzato nell’editoria musicale, nella ricerca musicologica, nell’archiviazione e nell’esecuzione automatica di partiture. Il compositore, oltre a ciò, dispone di una grande varietá di strumenti di aiuto alla composizione che lo assistono nelle varie fasi del processo creativo e realizzativo dell’opera. Inoltre, con l’evoluzione dei sistemi informatici multimediali, molte di queste funzioni possono essere messe in stretta relazione con il mondo della grafica, del video, dello spettacolo, della realtá virtuale e delle telecomunicazioni per ottenere prodotti artistici e culturali multimediali. Infine, alcuni derivati dei progetti di ricerca o dei programmi professionali trovano un ampio consenso nel vasto mondo dei musicisti dilettanti e dell’intrattenimento informatico, alimentato dall’industria dei personal computer e dal successo di Internet. La musica informatica nasce nella seconda metá degli anni ’50 seguendo all’inizio due differenti linee di ricerca: una orientata al trattamento simbolico dell’informazione musicale, studia la codifica dei testi musicali, la generazione automatica di partiture per la composizione, le tecniche informatiche di analisi musicologica; l’altra (computer music), più attenta all’aspetto acustico e percettivo della m., affronta la codifica numerica dei suoni, la progettazione dei convertitori per dotare l’elaboratore di un’interfaccia audio con l’esterno, e, quindi, le tecniche di analisi, sintesi ed elaborazione dei suoni. Fino alla fine degli anni ’70 le principali ricerche si svolgono in centri di ricerca scientifica utilizzando elaboratori collettivi (mainframe) e programmi che imponevano lunghi tempi di attesa fra la formalizzazione dell’idea musicale e il suo ascolto. Nei concerti si presentavano musiche registrate su nastro che talvolta accompagnavano solisti o piccoli ensemble di esecutori tradizionali o cantanti. La mancanza di un rapporto diretto e immediato con il suono ha in parte ostacolato la produzione musicale mentre al contrario ha favorito lo sviluppo di solide basi teoriche e di alcuni programmi per la sintesi dei suoni ancora oggi utilizzati in campo scientifico e musicale. Con l’avvento degli elaboratori a monoutenza (minicomputer) i tempi di attesa diminuiscono e grazie ad essi si sviluppano i primi prototipi di sintesi e trattamento dei suoni in tempo reale utilizzando periferiche particolari. Grazie a questi nuovi sistemi in tempo reale la m. può rientrare nella tradizione dell’esecuzione dal vivo anche se al mezzo informatico viene assegnato un ruolo più ampio e soprattutto diverso da quello del singolo strumento. Si sviluppano i concerti di live electronics in cui i sistemi in tempo reale generano eventi sonori complessi o trasformano dal vivo i suoni di voci o strumenti tradizionali. Negli anni ’80 due innovazioni contribuiscono alla diffusione dell’i. nel mondo musicale, specialmente nelle sue applicazioni più semplici: l’avvento dell’elaboratore personale (personal computer) e la definizione del codice di comunicazione MIDI. Quest’ultimo segna l’ingresso dell’industria degli strumenti musicali elettronici nel mondo della m.i.: nell’arco di pochi anni i sintetizzatori analogici della m. elettronica diventano obsoleti, nascono i campionatori, i sintetizzatori digitali e un’ampia gamma di dispositivi accessori di ausilio al musicista (sequencer, multiprocessori di effetti). Grazie al MIDI tali strumenti possono essere collegati fra loro creando una rete di apparecchiature digitali in cui l’elaboratore personale è spesso il cuore del sistema. I risultati della ricerca scientifica degli anni ’70 vengono rapidamente trasferiti dall’industria su strumenti a basso costo ed offerti a un’ampia utenza musicale. Nel corso degli anni ’90 aumenta il predominio della tecnologia digitale nella m.,
1.2. MUSICA INFORMATICA
1.7
sia a livello professionale che amatoriale. L’elaboratore personale sempre più potente, amichevole ed economico viene dotato di periferiche e programmi specifici e diventa il nuovo "strumento musicale" in grado di assistere il musicista nello svolgimento delle più svariate attivitá: dalla ricerca astratta alla produzione commerciale. Il termine m.i. che fino alla fine degli anni ’70 identificava un settore della m. contemporanea con precisi ambiti linguistici ed estetici, a partire dagli anni ’80 perde progressivamente questa identitá per assumere un significato di pura connotazione tecnica, data la diffusione del mezzo informatico in tutti i generi musicali.
1.2.2
Rappresentazione dell’informazione musicale
L’informazione tratta la musica con due principali forme di rappresentazione: audio, che codifica il suono in sequenze discrete di numeri; simbolica, che codifica l’informazione percettiva, esecutiva e astratta prendendo come riferimento il sistema tradizionale di notazione musicale. La codifica del suono si realizza convertendo il segnale analogico in segnale digitale, ovvero campionando la forma d’onda del suono. Tale operazione si basa su due fattori caratteristici: la frequenza di campionamento e il numero di bit con cui si rappresentano i campioni. Il primo fattore incide sulla frequenza massima rappresentabile dal segnale digitale, mentre il secondo fissa il rapporto segnale disturbo e quindi il tasso di rumore aggiunto nella fase di conversione. I valori di riferimento sono quelli del CD audio (44100 c/s, 16 bit), anche se si usano valori ridotti per la codifica della voce e per i segnali di allarme, o valori superiori per l’audio professionale di qualitá. Entrambi i fattori incidono sulla quantitá di informazione necessaria a rappresentare il flusso sonoro della m. Per ridurre il volume dei dati musicali si sono sviluppate efficaci forme di compressione che si basano sulle caratteristiche della percezione uditiva umana. La codifica simbolica trova nel codice MIDI il sistema più diffuso per rappresentare i gesti elementari dell’esecuzione musicale. Per la codifica del sistema tradizionale di notazione musicale esistono vari linguaggi simbolici o sistemi grafici di scrittura che si differenziano in base al tipo di applicazione: editoria musicale, analisi musicologica, aiuto alla composizione.
1.2.3
Sintesi dei suoni
La sintesi dei suoni consiste nel generare mediante un procedimento di calcolo un segnale acustico e trova due campi di applicazione musicale: la simulazione dei suoni prodotti dagli strumenti musicali tradizionali e la generazione di suoni soggetta alle scelte estetiche del musicista in quanto atto compositivo. Anche se gli obiettivi sono diversi, in entrambi i campi si utilizzano le stesse tecniche di sintesi poiché queste si fondano su basi teoriche generali. I modelli di sintesi del suono si distinguono in modelli di sorgente e in modelli di segnale. I primi simulano con il mezzo informatico il modello fisico della sorgente sonora mentre i secondi la forma d’onda che raggiunge l’ascoltatore. I modelli di segnale hanno avuto la maggiore diffusione per la loro semplicitá ed efficienza computazionale. Vediamo i principali. Il modello di segnale più semplice è il campionamento, che a rigore non è un metodo di sintesi bensì una tecnica di riproduzione. Tale tecnica sta alla base degli strumenti digitali chiamati campionatori e nella simulazione di strumenti tradizionali di tipo percussivo offre buoni risultati. I suoni di uno strumento vengono campionati nei vari registri e con le principali tecniche esecutive (dinamica e gesto) in modo da creare un repertorio di campioni il più completo possibile per un dato strumento. Durante l’esecuzione viene riprodotto il suono campionato più vicino alla nota suonata, effettuando eventuali trasformazioni, quali trasposizione di altezza, variazioni di durata (looping), inviluppo di ampiezza, filtraggio statico o dinamico, interpolazione fra più campioni. Alla semplicitá computazionale della sintesi per campionamento corrisponde una elevata richiesta di memoria che aumenta in funzione della qualitá richiesta. La sintesi additiva si basa sul teorema di
1.8
CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE
Fourier per generare suoni complessi mediante somma di suoni sinusoidali la cui ampiezza e frequenza sono variabili nel tempo. é un modello molto generale che fornisce i migliori risultati nella sintesi di suoni pseudoarmonici con basso tasso di rumore. Alla generalitá si contrappone un elevato numero di parametri di controllo e una complessitá computazionale che aumenta con la densitá spettrale del suono. La sintesi additiva, per gli evidenti legami con l’armonia musicale, ha trovato molti esempi di applicazione nella composizione astratta di suoni. La sintesi granulare, al pari di quella additiva, utilizza più suoni elementari per costruirne uno complesso. Questo è dato da una successione di suoni di breve durata (qualche centesimo di secondo) chiamati grani. Tale tecnica ricorda il processo cinematografico in cui il movimento è dato da una rapida successione di immagini statiche. I grani possono essere porzioni di suoni acustici campionati oppure suoni astratti generati per via algoritmica. Inoltre si distingue la sintesi granulare sincrona con il periodo del suono, da quella asincrona utilizzata per generare tessiture sonore. La sintesi sottrattiva è prevalentemente una tecnica di trasformazione di un suono dato, il quale ha generalmente uno spettro molto ricco e può essere campionato o generato tramite semplice algoritmo. Nella formulazione più generale si utilizza un banco di filtri per evidenziare o sopprimere precise zone nello spazio della frequenza del suono dato. I filtri possono essere statici o dinamici. Nel primo caso si mantengono le caratteristiche temporali del suono dato, mentre nel secondo si ottiene una combinazione delle due. La sintesi per modulazione di frequenza (FM) rientra nelle tecniche non lineari di trasformazione. Nella formulazione più semplice un oscillatore sinusoidale detto portante con frequenza p viene modulato in frequenza da un oscillatore sinusoidale, detto modulante, di ampiezza d e frequenza m. Lo spettro risultante è composto da frequenze p+k m, con k intero che varia da -I a +I, essendo I=d/m l’indice di modulazione. Quest’ultimo determina il numero di componenti parziali che costituiscono lo spettro risultante; mentre il rapporto p/m determina il tipo di spettro: per rapporti interi e semplici si ottengono spettri armonici. Quindi con due soli oscillatori è possibile generare suoni complessi che possono variare nel tempo il numero di componenti spettrali semplicemente variando il valore di I. Grazie alla semplicitá di calcolo e alla efficienza sonora, la sintesi FM ha avuto moltissime applicazioni musicali ed è stata scelta nei primi sintetizzatori digitali commerciali. La sintesi per distorsione (waveshaping) è anch’essa una tecnica di trasformazione non lineare in cui un suono semplice (spesso una sinusoide) viene arricchito di armonici tramite una funzione distorcente generalmente definita come somma di polinomi di Chebishev. Anche in questo caso, controllando l’indice di distorsione è possibile ottenere spettri variabili nel tempo. Per ottenere spettri inarmonici spesso si moltiplica il suono distorto per una sinusoide (modulazione ad anello ring modulation) ottenendo una traslazione dello spettro attorno alla frequenza portante di modulazione. Vediamo ora i modelli di sorgente che rientrano nella sintesi comunemente chiamata per modelli fisici. La maggior parte di essi si basa sull’interazione fra eccitatore (la causa della vibrazione, con comportamento non lineare) e risonatore (il corpo dello strumento, con comportamento lineare). L’interazione può essere feedforward quando l’eccitatore non riceve informazioni dal risonatore oppure feedback quando i due interagiscono. Tali modelli si classificano in relazione al modo in cui la realtá fisica viene rappresentata, simulata, o discretizzata. Esistono inoltre dei modelli di sorgente chiamati pseudo-fisici i quali traggono solo ispirazione da fenomeni fisici del mondo reale per simulare processi generativi arbitrari. Vediamo i principali modelli di sorgente. I modelli meccanici dividono il sistema fisico in piccoli pezzi (normalmente elementi massa-molla) per ottenere le equazioni differenziali che ne descrivono struttura e interazione. Tali equazioni si risolvono con tecniche numeriche che impongono successive approssimazioni e sono fonte di alti costi computazionali. Una particolare interpretazione della scomposizione del sistema fisico in singoli elementi viene data nella sintesi modale in cui i modi di vibrazione vengono realizzati mediante la somma di oscillatori smorzati. Tale tecnica si basa sulla scomposizione modale studiata dalla teoria dei sistemi. I modelli a guide d’onda (waveguide) sono modelli computazionali che simulano, mediante linee di ritardo, il comportamento ✁
1.2. MUSICA INFORMATICA
1.9
di un’onda che si propaga all’interno di un mezzo (ad esempio un tubo o una corda). Le discontinuitá del mezzo vengono simulate con giunzioni di dispersione mentre altre strutture fisiche possono essere simulate mediante filtri. Data la loro efficienza computazionale questi modelli hanno trovato validi esempi di applicazioni musicali. I modelli della sorgente si sono rivelati particolarmente efficaci nella resa dei gesti musicali tipici delle frasi ricche di spunti agogici. Si differenziano da quelli del segnale perché si avvalgono di parametri di controllo che corrispondono alle azioni che il musicista compie sullo strumento fisico anziché a parametri astratti quali frequenza di un oscillatore o larghezza di banda di un filtro. Ciò inevitabilmente porta a due conseguenze: il modello deve disporre di controlli gestuali potenti e il musicista deve imparare a suonare la sorgente virtuale con le tecniche tradizionali di apprendimento musicale.
1.2.4
Elaborazione dei suoni
La elaborazione numerica dei suoni (Digital Signal Processing) si ottiene mediante un procedimento di calcolo che trasforma il segnale. Vediamo le principali tecniche utilizzate in relazione agli effetti che si ottengono nei parametri musicali di tempo, altezza, dinamica, timbro e spazio. La traslazione di un suono nel tempo si ottiene mediante una linea di ritardo che produce un’eco semplice. L’eco può essere iterato se il ritardo è chiuso in un anello di retroazione. Inserendo in tale anello altri elementi di trasformazione si possono ottenere ripetizioni ogni volta diverse. Se i tempi di ritardo sono dell’ordine di qualche decina di secondo tale schema di ripetizione simula la struttura musicale a canone con variazione. La durata del suono può essere variata in diversi modi e con tecniche analoghe alla variazione di altezza. Rallentando e accelerando un suono, tramite una variazione della frequenza di campionamento, si ottiene rispettivamente un’altezza più grave e una più acuta. Le tecniche di analisi/sintesi quali Phase vocoder (PV), Wavelet e Linear prediction coding (LPC) consentono di modificare la durata in maniera indipendente dall’altezza e viceversa. Il processo di elaborazione è diviso in due fasi: la prima di analisi, dalla quale si estraggono i dati per la fase successiva, la seconda di sintesi. Il PV analizza il suono mediante una successione (con sovrapposizione) di trasformate di Fourier a tempo breve (STFT). Gli spettri risultanti sono utilizzati come dati per sintetizzare il suono in sintesi additiva. Elaborando tali dati si possono ottenere compressioni o stiramenti temporali fino al congelamento di un suono, come pure trasposizioni d’altezza. Combinando opportunamente i dati di analisi di due suoni diversi è possibile creare la cosiddetta sintesi incrociata, ovvero sintetizzare un suono ibrido dei due suoni originali. La tecnica di trasformazione Wavelet è concettualmente simile al PV, ma cambia il metodo di analisi. Diversa è la tecnica LPC, nata per la codifica del parlato nelle comunicazioni a banda limitata. La sintesi LPC non genera perciò una fedele riproduzione dell’originale, ma offre diverse possibilitá nella elaborazione dei suoni. In essa il suono viene considerato come il prodotto di una funzione di eccitazione (corda vocale) il cui segnale viene sottoposto alle trasformazioni di una cavitá risonante (tratto vocale) normalmente realizzata con un filtro a soli poli variabile nel tempo che simula i formanti della voce. Il processo di analisi determina l’andamento nel tempo dei parametri del filtro ed estrae alcune caratteristiche generali per l’eccitazione: individua se il suono è rumoroso (consonanti) oppure ad altezza determinata (vocali), nel qual caso fornisce la frequenza della fondamentale. Nella fase di sintesi è facile alterare l’altezza del segnale di eccitazione come pure accelerare o rallentare la scansione temporale dei parametri del filtro. Anche con LPC è possibile creare suoni ibridi scegliendo in modo arbitrario il suono di eccitazione che viene plasmato dal filtro variabile seguendo i parametri estratti dall’analisi di un altro suono. Le variazioni di altezza e di durata se effettuate su ampi valori di scala provocano rilevanti trasformazioni anche sul piano timbrico. La dinamica del suono si modifica non solo variando l’ampiezza del segnale ma anche trasformandone alcuni tratti timbrici (spettro, tramite filtraggio; transitorio di attacco, mediante
CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE
1.10
inviluppo di ampiezza) in modo da rendere il suono più morbido per dinamiche piano e viceversa più aggressivo per dinamiche forti. Le tecniche più comuni per l’elaborazione del timbro, oltre a quanto si è giá detto, sono: il filtraggio (filtri passa-basso, passa-alto, passa-banda, taglia-banda; banchi di filtri equalizzatori; filtri a pettine ricorsivi che provocano vari effetti variando il tempo di ritardo: effetto coro, flanger, phasing); la modulazione (ad anello, che sposta l’energia del suono attorno alla frequenza della portante sinusoidale soppressa; a banda singola, che trasla il segnale in frequenza rendendo inarmonico un suono armonico); la granulazione (che estrae piccoli grani di suono moltiplicando il segnale per brevi inviluppi d’ampiezza) e la convoluzione che effettua il prodotto spettrale di due suoni. Quest’ultima si è dimostrata efficace nella simulazione di spazi sonori: se si ascolta il prodotto di convoluzione fra un suono registrato in una sala anecoica e la risposta all’impulso di una sala, si ha la sensazione che il suono sia stato registrato in quella sala. Questo è un metodo efficace per realizzare riverberatori che simulino precisi spazi reali. Altre tecniche di riverberazione meno onerose sul piano computazionale prevedono l’utilizzazione di gruppi di filtri a pettine, passa-tutto e la simulazione mediante linee di ritardo delle riflessioni prodotte dalle pareti di una sala. Particolarmente efficaci sono le tecniche di simulazione delle sorgenti sonore in movimento mediante le quali si possono collocare e far muovere i suoni nello spazio seguendo percorsi e variazioni di velocitá. Nella spazializzazione dei suoni si distinguono le tecniche di simulazione per l’ascolto binaurale (in cuffia o con due altoparlanti) dai sistemi multicanale che avvolgono l’ascoltatore con una rete di altoparlanti. Anche nel caso dello spazio, si distinguono i modelli che simulano la collocazione dei suoni in spazi reali e che rientrano nelle tecniche definite di auralizzazione, dai sistemi che utilizzano la tecnologia i. per inventare spazi sintetici frutto di scelte artistiche.
1.2.5
Sistemi MIDI
Il MIDI (Musical Instrument Digital Interface) è un protocollo di comunicazione seriale a 8 bit e velocitá di trasmissione di 31250 bit/s, ideato per codificare i gesti esecutivi che il musicista compie quando suona una tastiera elettronica sensibile al tocco e trasmetterli in tempo reale ad altri dispositivi. Sulla stessa linea di comunicazione possono transitare sedici canali di dati; da un punto di vista musicale significa poter suonare contemporaneamente sedici strumenti polifonici. I principali comandi sono: di nota, in cui viene indicato il tasto e la relativa velocitá di pressione; i controlli continui, per la variazione continua di parametri; il cambio di programma, generalmente usato per la selezione del timbro; i controlli in tempo reale, per la sincronizzazione di più dispositivi; i controlli esclusivi di sistema, la cui sintassi e funzione è definita dal costruttore dello strumento. Un elementare sistema MIDI è costituito da una tastiera elettronica muta (master keyboard) collegata ad uno o più sintetizzatori di suoni (expander) e ad un elaboratore personale nel quale generalmente opera un programma chiamato sequencer. I gesti esecutivi del musicista pilotano la generazione sonora dell’expander e possono essere registrati nell’elaboratore e, in momenti diversi, essere corretti, modificati e integrati da successive esecuzioni sincronizzate fra loro. Il sequencer svolge una funzione analoga al registratore audio multitraccia con la differenza che quest’ultimo registra i suoni mentre il primo registra sequenze di comandi chiamate MIDIfiles. Esistono in Internet ampie banche dati di sequenze MIDI che contengono i principali titoli del repertorio classico e leggero. La maggior parte dei sequencer consente di registrare la m. anche in tempo differito con diverse interfaccie utente: una delle quali utilizza il tradizionale sistema di notazione su pentagramma. Questo consente di passare in modo automatico dalla partitura visualizzata sullo schermo alla sua esecuzione sonora. é possibile anche il contrario, ovvero visualizzare (e stampare) la m. che viene suonata dal vivo e trascritta in tempo reale. Va rilevato che non esiste una corrispondenza biunivoca fra il linguaggio di notazione musicale e il codice MIDI. Pertanto tali trascrizioni non sono una fedele riproduzione dell’originale soprattutto per
1.2. MUSICA INFORMATICA
1.11
quanto riguarda l’aspetto temporale. La necessitá di quantizzare la scansione del tempo porta a grossolane semplificazioni oppure a eccessive suddivisioni se l’interprete modula il tempo a fini espressivi. Infatti, ad esempio, se l’esecuzione non fornisce un riferimento temporale esplicito, cambi di tempo quali accelerandi o rallentandi vengono inevitabilmente riportati in partitura non come variazioni di metronomo, ma come alterazione delle figure ritmiche originali, rendendo complessa la notazione di parti musicali anche molto semplici. Nonostante il MIDI sia molto lento, abbia una codifica dei dati spesso insufficiente, e in molti casi si sia rivelato inadeguato alla trasmissione del massiccio flusso dei dati di una esecuzione musicale, è il protocollo di comunicazione universalmente adottato dall’industria degli strumenti musicali informatici. Grazie alla sua semplicitá e alla vasta diffusione, il MIDI viene utilizzato per il controllo di processi anche molto diversi da quelli per cui era stato ideato tanto che viene adottato anche per applicazioni non prettamente musicali del mondo dello spettacolo.
1.2.6
Sistemi per l’esecuzione
Come è noto, l’esecutore tradizionale suona strumenti codificati e stabili da secoli, impara per imitazione dal maestro e sviluppa una abilitá gestuale che sfrutta lo strumento come fosse una estensione del proprio corpo. Nel mondo della musica informatica, invece, i dispositivi si evolvono seguendo il passo della tecnologia che è in costante accelerazione. Inoltre pochi apparecchi sono autonomi, come invece lo sono gli strumenti musicali acustici. Ognuno di essi fa parte di un insieme di apparecchiature digitali che opportunamente collegate fra loro e programmate, costituiscono l’entitá che può essere assimilata al vecchio concetto di strumento e che nel mondo tecnologico viene chiamata sistema. Generalmente il sistema prende come ingresso i segnali audio da elaborare, è dotato di dispositivi di controllo che consentono di variare i parametri di trattamento o di generazione del suono, di visualizzare vari aspetti del segnale audio e dei parametri di controllo e infine fornisce in uscita i segnali elaborati. Con l’aumento della potenza di calcolo dei processori e la miniaturizzazione dell’hardware, molti elementi del sistema sono stati integrati come componenti software o come schede aggiuntive di un solo elaboratore ottenendo così soluzioni alquanto compatte. Per l’esecuzione di un brano il musicista informatico progetta l’ambiente esecutivo che gli consente di trasformare un sistema tecnologico in strumento musicale, rendendo i controlli del sistema funzionali all’esecuzione, con unitá di misura sonologico-percettive o musicali e un campo di variabilitá predefinito che segue una legge determinata. Molto spesso i controlli sono multifunzionali per ottenere da un singolo gesto una variazione contemporanea e coerente di più parametri del sistema. Questo consente una riduzione dei controlli dell’esecutore, favorisce un accesso immediato alle principali funzioni esecutive e un rapido apprendimento dell’ambiente esecutivo. Per taluni parametri, inoltre, è più efficace l’uso di dispositivi di controllo gestuale con reazione, che estraggono più informazioni da un singolo gesto e che addirittura impongono una fatica fisica all’interprete quando cerca di raggiungere le zone estreme di esecuzione. Infine, la tecnologia degli ambienti multimodali interattivi (AMI) consente di rilevare e analizzare il movimento, la voce, i suoni prodotti da uno o più esecutori per controllare in tempo reale vari dispositivi, quali strumenti per la sintesi dei suoni, algoritmi di composizione automatica, effetti visuali, ecc. Gli AMI sono dei "trasduttori cognitivi" che osservano, reagiscono ed espandono la realtá e pertanto sono efficaci nella costruzione di strumenti musicali virtuali (iper-strumenti).
1.2.7
Ricerche di musicologia
L’informatica ha dato un notevole impulso ad alcuni filoni di ricerca in campo musicologico per la possibilitá di verificare mediante la realizzazione di un modello informatico teorie musicali impossibili da validare con i metodi tradizionali. Il principale metodo analitico è chiamato di analisi mediante
1.12
CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE
sintesi e viene applicato per lo studio delle regole compositive nei diversi periodi storici. Lo stesso metodo si utilizza anche nello studio dell’interpretazione musicale per validare modelli che descrivono teoricamente prassi esecutive dei diversi stili. L’informatica, inoltre, contribuisce in maniera determinante al restauro di materiali audio deteriorati dal tempo e dalla cattiva conservazione. Le principali funzioni svolte dai programmi di restauro audio sono la riduzione del rumore di fondo e l’eliminazione dei disturbi di tipo impulsivo.
1.2.8
Programmi di aiuto alla composizione
I programmi di aiuto alla composizione (CAC, Computer Aided Composition) trasformano l’elaboratore in una sorta di assistente musicale che aiuta il compositore nelle varie fasi di creazione dell’opera. Essendo il processo creativo estremamente libero, tali programmi sono difficilmente di uso generale e pertanto soddisfano solo alcune fra le varie tendenze estetiche o prassi compositive: in alcuni casi, infatti, si è rivelato più efficace ricorrere ad un linguaggio di programmazione di uso generale. Pertanto ci troviamo davanti a un panorama molto vasto e articolato che deve soddisfare le esigenze del compositore tradizionale che scrive per strumenti acustici come pure del musicista informatico che compone m. elettroacustica, ma anche di compositori professionisti che operano con linguaggi e generi musicali molto lontani fra loro, senza contare il più vasto panorama dei musicisti dilettanti che utilizzano l’elaboratore come strumento di intrattenimento musicale personale. Va rilevato che la m. nel corso della sua storia si è spesso prestata alla sperimentazione di teorie astratte nate in campi disciplinari diversi. L’informatica ha particolarmente rafforzato il legame fra m. e scienza per cui sono nati programmi CAC che consentono di tradurre in fatti musicali processi generativi deterministici o stocastici. In particolare troviamo applicazioni derivate da sistemi personali di regole, teorie del caos, grammatiche formali, intelligenza artificiale, automi cellulari, sistemi esperti, reti neurali, ecc. I processi generativi messi in atto possono essere applicati a singoli aspetti della composizione come a parti più ampie per giungere nei casi estremi alla composizione automatica dell’intera opera. La maggior parte dei programmi CAC operano a livello simbolico e consentono l’ascolto dei risultati via MIDI utilizzando campionatori e sintetizzatori. I programmi orientati alla composizione tradizionale trasformano innanzitutto l’elaboratore in un editor di testi musicali mediante il quale viene scritta, corretta, eseguita e stampata la partitura. Oltre alle solite funzioni di editing si possono applicare operatori o processi di trasformazione al testo musicale come pure generare algoritmicamente parti o elementi della partitura. Anche se la m. verrá suonata in concerto da musicisti tradizionali è utile per il compositore poter sperimentare e verificare diverse soluzioni compositive disponendo dei risultati parziali sia in forma di notazione grafica che acustica. Il compositore di m. elettroacustica, invece, ha esigenze diverse in quanto egli lavora direttamente sul suono e utilizza strumenti che gli consentono di registrare, editare, generare, trasformare e montare i suoni. Il montaggio avviene con l’aiuto di una partitura grafica che fa corrispondere alla disposizione dei simboli grafici in uno spazio bidimensionale la collocazione dei corrispondenti segmenti sonori nel tempo. Per quanto riguarda la sintesi e la elaborazione dei suoni esistono programmi di aiuto alla composizione che integrano la maggior parte delle tecniche esposte in precedenza. Alcuni programmi consentono di trattare contemporaneamente l’informazione simbolica e quella acustica offrendo un ambiente integrato di aiuto alla composizione musicale. Infine esistono dei programmi di composizione algoritmica che sono orientati alla composizione in tempo reale. Il musicista anziché suonare delle note controlla dal vivo i parametri che gestiscono uno o più processi di generazione automatica di eventi musicali. Tali processi possono trattare sia l’informazione musicale simbolica che quella acustica e quindi essere utilizzati autonomamente oppure per trasformare dal vivo i suoni prodotti da altri musicisti.
1.3. LA NOTAZIONE MUSICALE
1.2.9
1.13
BIBLIOGRAFIA
M. Mathews, The Technology of Computer Music, MIT Press, Cambridge, 1969 A.V.Oppenheim, R. Schafer, Digital Signal Processing, Prentice-Hall, Englewood Cliffs, 1975 M. Baroni, L. Callegari, Musical Grammars and Computer Analysis, L. Olschki, Firenze, 1984 C. Dodge, T. A. Jerse, Computer Music. Synthesis, Composition, and Performance, Schirmer Books, New York, 1985 J. R. Pierce, La scienza del suono, Zanichelli, Bologna, 1987 C. Ames, Automated composition in retrospect: 1956-1986, in Leonardo 20(2):169-186, 1987 J. B. Barrière, Le timbre, métaphore pour la composition, Bourgois-Ircam, Parigi, 1991 I. Xenakis, Formalized Music, Pendragon Press, Stuyvesant, 1992 C. Roads, The Computer Music Tutorial, Cambridge, 1996 J. Chadabe, Electric Sound. The Past and Promise of Electronic Music, New Jersey, 1997 C. Roads, S. T. Pope, A. Piccialli, G. De Poli, Musical Signal Processing, Swets & Zeitlinger B.V., Lisse, 1997.
1.3 1.3.1
La notazione musicale La notazione classica
Vedi allegato.
1.3.2
La notazione nella musica elettronica
La maggior parte delle composizioni di musica elettronica è priva di partitura in quanto il compositore produce personalmente la musica nella forma acustica definitiva, memorizzata su un supporto di registrazione, che per tradizione è il nastro magnetico. Il nastro quindi contiene l’idea compositiva, l’interpretazione e l’esecuzione musicale dell’opera. Questa regola trova molte eccezioni, e di conseguenza esistono diversi esempi di n., con tecniche di scrittura e funzioni differenti. Si possono individuare quattro tipologie di partitura. Partitura esecutiva - È utilizzata per l’esecuzione dal vivo di parti elettroniche e strumentali. Il riferimento temporale può essere assoluto se l’elettronica (generalmente registrata) guida l’esecuzione, oppure metrico se le parti registrate sono brevi e/o l’elettronica è realizzata in tempo reale (live electronics). La n. delle parti elettroniche, anche se si integra con la n. tradizionale delle parti strumentali, è funzionale alle azioni che l’esecutore deve compiere e non tanto al risultato che si deve ottenere. Ad esempio si veda Omaggio a György Kurtag (1983/86) di L. Nono. Partitura operativa - È finalizzata alla realizzazione sonora dell’opera (o di sue parti) memorizzata su nastro. Il compositore definisce tecniche e processi esecutivi. Per la natura stessa della musica elettronica, tali partiture ricorrono a forme di rappresentazione nate in ambienti scientifici che introducono in maniera implicita il concetto di modello. La partitura è composta dalla definizione di un modello e dei dati, ovvero dalla definizione dei processi di sintesi e/o di elaborazione dei suoni e dai valori che i parametri di controllo del modello assumono nel tempo. Il modello può essere definito in vari modi: testo, diagramma di flusso a blocchi funzionali, formula matematica, linguaggio formale. I dati sono spesso definiti mediante funzioni nel tempo continue o discrete, rappresentabili con un grafico, una sequenza ordinata di valori, la traccia dell’azione gestuale su un dispositivo di controllo, un procedimento algoritmico. Nella maggior parte dei casi i dati si riferiscono a parametri fisici (tensione elettrica, frequenza di filtraggio, ecc.) e pertanto la partitura appare più vicina alle antiche
CAPITOLO 1. MUSICA INFORMATICA E TEORIA MUSICALE
1.14
intavolature per strumenti, che fissavano azioni esecutive, piuttosto che alle partiture tradizionali in cui sono codificati i risultati percettivi dell’esecuzione (altezza, dinamica, ecc). Ad esempio si veda Studie II (1953) di K. Stockhausen in cui il modello è definito nel testo introduttivo mentre i dati sono stabiliti in una partitura grafica. Partitura descrittiva - La realizzazione sonora dell’opera viene indicata dal compositore notando il risultato percettivo desiderato. Poiché la musica elettronica, rispetto a quella tradizionale, utilizza un vocabolario sonoro molto più ampio (che comprende fra l’altro suoni inarmonici e rumori che si evolvono in uno spazio temporale continuo e offre al compositore la possibilitá di creare i propri "strumenti" virtuali e quindi le proprie sonoritá) non esiste un linguaggio di n. che, analogamente a quello tradizionale, metta in corrispondenza univoca il suono percepito con il segno o il simbolo. Tali partiture pertanto sono poco precise e lasciano molto spazio al libero arbitrio del realizzatore. In molti casi la partitura, se accompagna la realizzazione musicale del compositore, può considerarsi alla stregua di una partitura d’ascolto o di appunti sonori utili per mettere in luce l’idea musicale e gli elementi strutturali dell’opera. Ad esempio si veda Traiettoria (1982-84) di M. Stroppa. Partitura d’ascolto - Non è finalizzata all’esecuzione dell’opera bensì serve da supporto visivo e analitico all’ascoltatore. Normalmente è realizzata a posteriori da un musicologo basandosi sull’ascolto del nastro. Un primo significativo esempio è la partitura di Artikulation (1958) di G. Ligeti realizzata da R. Wehinger. Queste quattro tipologie spesso si integrano e convivono in un’unica partitura. é significativo il caso di Kontakte(1959/60) di K. Stockhausen che esiste in due versioni: una elettronica con la relativa partitura operativa e l’altra per pianoforte, percussioni e suoni elettronici con la partitura esecutiva. Quest’ultima può essere utilizzata come partitura d’ascolto della versione elettronica e in taluni punti è anche partitura descrittiva. Nella musica informatica spesso la partitura è l’unico mezzo per ottenere dall’elaboratore il risultato sonoro. é questo il caso dei programmi MUSIC N la cui partitura è un buon esempio di partitura operativa, oppure dei programmi più recenti di aiuto alla composizione basati su sistemi grafici.
1.3.3
BIBLIOGRAFIA
Le partiture delle opere elettroniche di K. Stockhausen: Universal, Vienna,1953-69 e Stockhausen Verlag dal 1970 F. Evangelisti, Incontri di fasce sonore, Universal, 1957 G.M. Koenig, Essay, Universal, 1957 J. Cage, Imaginary Landscape N.5, Henmar, New York, 1961 R. Kayn, Cybernetics II, Suvini Zerboni, Milano, 1968 R. Wehinger, Ligeti, Artikulation, Schott, Mainz, 1970 M. Stroppa, Traiettoria deviata, Ricordi, Milano, 1982 P. Boulez, Dialogue de l’ombre double, Universal, 1985; S. Sciarrino, Perseo e Andromeda, Ricordi, 1990 L. Nono, Omaggio a György Kurtag, Ricordi,1983-96.
Capitolo 2
Elementi di Acustica e Psicoacustica Carlo Drioli
Nicola Orio
c Copyright 1999 by Carlo Drioli and Nicola Orio. All rights reserved. versione 2004
2.1 Acustica: introduzione La percezione sonora e` normalmente legata alle vibrazioni del timpano nell’orecchio. Queste vibrazioni sono provocate da piccole variazioni di pressione nell’aria. La variazione di pressione dell’aria e` quindi l’equivalente fisico del suono. Questo fenomeno pu`o essere visualizzato appoggiando un foglio di carta sopra il cono di un altoparlante: quando viene emesso un suono, il foglio inizia a vibrare. Infatti il movimento verso l’esterno della membrana dell’altoparlante determina un aumento di pressione e quindi spinge in fuori il foglio di carta. Inversamente il movimento verso l’interno della membrana determina una diminuzione di pressione ed attrae il foglio verso l’altoparlante. La membrana del timpano ha un comportamento analogo a quello del foglio di carta: un incremento di pressione spinge la membrana del timpano verso l’interno, mentre una diminuzione di pressione la attrae verso l’esterno. I movimenti del timpano sono quindi trasmessi alla coclea che li trasforma in impulsi elettrici che vengono inviati al cervello attraverso le terminazioni nervose.
2.2 Oscillazioni e onde Dato che il suono corrisponde a variazioni di pressione nell’aria, e` naturale che le propriet`a di queste variazioni determinino le propriet`a del suono percepito. Molti suoni musicali presentano variazioni regolari di pressione. In particolare la regolarit`a implica che un determinato andamento della pressione si ripeta nel tempo. Viene definita forma d’onda la ripetizione di tale andamento. In questo caso il suono e` detto periodico e la durata della singola forma d’onda e` detta periodo, indicato con il simbolo T e misurato in secondi. Se la funzione p(t) indica l’andamento della pressione nel tempo in un punto dello spazio, per un suono periodico si ha la relazione: p(t) = p(t + T ) Nel caso opposto, in cui l’andamento della pressione e` privo di qualsiasi regolarit`a, il segnale associato viene percepito come rumore. Il rumore pu`o essere diviso di due classi principali: 2.1
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.2
• rumore impulsivo: e` determinato da rapide variazioni di pressione circoscritte nell’arco di pochi millisecondi. Un tipico esempio di rumore impulsivo si ha quando un corpo rigido viene percosso. Va notato che il rumore impulsivo viene regolarmente generato durante la produzione di suoni musicali, si pensi ad esempio al suono di chitarra nel quale e` chiaramente percepibile il rumore prodotto dal plettro sulla corda; oppure al suono di pianoforte dove e` fondamentale per il riconoscimento del timbro il rumore prodotto dal martelletto sulla corda. • rumore stazionario: ha generalmente una elevata estensione temporale ma e` comunque privo di regolarit`a. Tipici esempi di rumore stazionario sono il rumore prodotto dal vento o quello proveniente da uno schermo televisivo in assenza di segnale (effetto neve). Per questo genere di segnali audio si ricorre generalmente ad una descrizione statistica dell’andamento della pressione. I suoni periodici1 sono alla base della musica occidentale e di molti altri repertori, per cui a questi verr`a posta particolare attenzione.
2.2.1 Suoni periodici E’ noto, dal teorema di scomposizione in serie di Fourier, che ogni funzione periodica pu`o essere suddivisa nella somma di funzioni elementari. Per segnali reali, come nel caso dell’andamento della pressione in un mezzo trasmissivo, vale la relazione: ∞
p(t) = a0 + ∑ an · sin( n=1
2πnt + φn ) T
Dalla formula risulta quindi che un suono periodico, di periodo T , e` scomponibile nella somma, pesata dai termini an , di sinusoidi di periodo T, T /2, T /3, T /4, . . . Nella formula e` inoltre presente il termine φn che tiene conto della fase iniziale di ognuna delle sinusoidi, che in generale pu`o essere diversa per ogni funzione elementare. Considerando che il suono solitamente si propaga in aria, ove e` gi`a presente un termine costante dato dalla pressione atmosferica e tenendo conto che l’orecchio e` sensibile alle variazioni di pressione, il termine a0 viene usualmente trascurato. In Figura 2.1 vengono riportati gli andamenti delle forme d’onda rispettivamente associate a una sinusoide, ad un segnale periodico costituito da una somma di 16 sinusoidi in rapporto armonico tra loro e ad un segnale rumoroso stazionario. In campo musicale si e` soliti descrivere un suono periodico in termini di frequenza, usualmente indicata con il simbolo f e misurata in Hertz (Hz). Il legame tra periodo T e frequenza f e` descritto dalla formula 1 f= T La scomposizione di un suono periodico di frequenza f in forme d’onda elementari, indica che queste avranno rispettivamente frequenze f , 2 f , 3 f , 4 f , . . . La sinusoide di frequenza f , pari alla frequenza del suono periodico di partenza, e` detta fondamentale mentre le sinusoidi di frequenza multipla intera di f vengono dette parziali. Si fa riferimento alle forme d’onda elementari che costituiscono un suono con il termine armoniche. La frequenza e` associata alla sensazione di altezza (pitch) di un suono: maggiore e` la frequenza, maggiore risulta l’altezza del suono, in altre parole il suono risulta pi`u acuto. Gli esseri umani sono 1 Spesso
viene compiuta dagli autori la distinzione tra suono e rumore in base alla presenza o meno di periodicit`a. In questo contesto si `e preferito usare la terminologia alternativa suono periodico e suono aperiodico.
2.2. OSCILLAZIONI E ONDE
2.3
[a]
0
20
40
60
80
100 120 tempo (ms)
140
160
180
200
0
20
40
60
80
100 120 tempo (ms)
140
160
180
200
0
20
40
60
80
100 120 tempo (ms)
140
160
180
200
[b]
[c]
Figura 2.1: Andamento nel tempo di tre segnali rispettivamente con andamento: [a] sinusoidale, [b] periodico (somma di 15 sinusoidi), [c] aperiodico in grado di percepire suoni nell’intervallo di frequenze da circa 20 Hz a circa 16 kHz, anche se alcuni soggetti sono in grado di percepire suoni in intervalli pi`u ampi, ma comunque contenuti tra i 16 Hz e i 20 kHz. L’estensione di un pianoforte, cos`ı come l’estensione di un’orchestra sinfonica, va da 27.5 Hz a 3729.3 Hz. Al di sotto di 15 Hz, le variazioni di pressione non vengono pi`u percepite come un singolo suono ma come una rapida successione di impulsi. Frequenze al di sopra della soglia di udibilit`a (ultrasuoni) non vengono percepite, quindi il filtraggio del segnale audio al di sopra dei 20 kHz non ne altera la qualit`a percepita. E’ per questa ragione che, ricordando il teorema del campionamento di Shannon, la frequenza di campionamento dei Compact Disc (44.1 kHz) e’ sufficiente per una perfetta ricostruzione del segnale analogico originario dal punto di vista percettivo.
2.2.2 I suoni reali Come si e` visto, la sinusoide e` la pi`u semplice forma d’onda perch´e non e` ulteriormente scomponibile. I suoni prodotti dagli strumenti musicali acustici non hanno per`o mai un andamento cos`ı semplice. I suoni naturali infatti sono sempre costituiti da serie di armoniche, che contribuiscono a dare ricchezza ai suoni musicali. Si prendano come esempio i modi di vibrazione di una corda, fissata ai due estremi, a sezione costante e lunghezza L. Si pu`o dimostrare, ricordando nozioni di fisica sul moto oscillatorio, che la corda vibra alle frequenze: p iπ S/ρL fi = L dove S e` la tensione della corda e ρL e` la massa per unit`a di lunghezza. Quindi la forma d’onda di un suono prodotto da una corda e` la risultante di un insieme di sinusoidi a frequenza multipla di una frequenza fondamentale. Analogamente, considerando i modi di vibrazione di un tubo acustico, si pu`o dimostrare che un tubo aperto da entrambe le estremit`a pu`o vibrare alle frequenze: fi =
iπc L
2.4
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
dove c e` la velocit`a del suono in aria e L e` la lunghezza del tubo. Da entrambi gli esempi proposti risulta chiaro inoltre che una delle tecniche pi`u efficaci per l’analisi dei suoni e` l’analisi di Fourier, ovvero la scomposizione dei suoni prodotti dagli strumenti musicali acustici in elementi fondamentali (le sinusoidi). In realt`a, i suoni prodotti dagli strumenti musicali non hanno mai un comportamento cos`ıi regolare. Innanzitutto le armoniche hanno un rapporto che solo approssimativamente pu`o essere espresso come rapporto tra interi. Ad esempio la corda reale si differenzia dalla corda ideale principalmente a causa di questa inarmonicit`a: le parziali risultano avere dei rapporti leggermente maggiori dei numeri interi previsti dalla teoria (si dice in questo caso, usando il lessico musicale, che le parziali sono crescenti rispetto √ alla fondamentale). Per esempuio nel pianoforte le frequenze delle parziali sono date da fk = k f0 1 + B k2 dove B e` il coefficiente di inarmonicit`a, che dipende dai parametri della corda. Alcuni suoni reali inoltre sono caratterizzati proprio dell’assenza di armonicit`a; e` il caso delle campane, nelle quali non e` nemmeno presente il termine relativo alla fondamentale e le armoniche hanno rapporti solo approssimativamente armonici. Una seconda caratteristica dei suoni reali e` che questi non sono mai esattamente periodici: le forme d’onda si ripetono nel tempo assumendo degli andamenti simili, ma non del tutto uguali. L’orecchio percepisce quindi un andamento approssimativamente periodico, ma percepisce anche le variazioni nella forma d’onda, che contribuiscono a dare dinamicit`a al suono prodotto. Infatti una delle caratteristiche dei suoni di sintesi e` appunto l’eccessiva regolarit`a del loro sviluppo temporale. Questo spesso si traduce nella percezione di un suono che rapidamente diventa poco interessante per l’ascoltatore.
2.3 Inviluppo dei suoni Considerando la musica come una forma di comunicazione ottenuta attraverso l’organizzazione dei suoni, risulta evidente che un suono perfettamente periodico in senso matematico (ovvero un suono che si ripete indefinitamente) non consente alcuna forma di comunicazione. I suoni musicali vengono quindi organizzati nella scala dei tempi; in particolare ogni suono ha un inizio e una fine che vengono percepiti dall’ascoltatore. Grossa importanza nella comunicazione musicale ha l’evoluzione nel tempo della forma d’onda. Come si e` visto un suono e` caratterizzato principalmente da una frequenza, legata alla percezione del pitch, e da una ampiezza delle oscillazioni della pressione, legata alla percezione di intensit`a. Una forma d’onda elementare che evolve nel tempo pu`o quindi essere espressa dalla formula: s(t) = A(t) · sin(2π f t) dove f e` la frequenza del suono e A(t) e` l’inviluppo di ampiezza del segnale. Per meglio chiarire il concetto di inviluppo di ampiezza, prendiamo come esempio la generazione di un suono da una corda di violino eccitata con l’archetto. In condizioni di riposo la corda ha ovviamente vibrazione nulla, e quindi non produce alcun suono. Quando il violinista inizia a sfregare l’archetto sulla corda, questa inizia a vibrare abbandonando la situazione di riposo. Esiste un periodo di tempo nel quale le oscillazioni della corda, da nulle, si fanno sempre pi`u ampie. Questa viene definita fase di attacco e solitamente indicata con il corrispondente termine inglese attack. Questa fase dura solitamente pochi centesimi di secondo, in relazione al tipo di strumento musicale. La fase successiva a quella di attack e` definita con il termine inglese decay: corrisponde ad un rapido assestarsi della ampiezza ad un valore stabile dopo una sovraelongazione a cui e` stata portata dalla fase di attack. Anche il decay e` molto rapido. A questo punto, esaurito il transitorio di attacco, si e` realizzato un accoppiamento tra lo sfregamento dell’archetto e le oscillazioni della corda. Questo corrisponde alla fase di sustain, che pu`o durare anche parecchi secondi, nella quale il suono viene appunto sostenuto dal musicista, che
2.4. PROPAGAZIONE DEL SUONO
2.5
decay sustain
attack
0
50
release
100
150
200 tempo (sec)
250
300
350
400
Figura 2.2: Evoluzione del segnale musicale nel tempo: sono evidenziate le parti di attack, decay, sustain e release continua a fornire l’energia necessaria per mantenere le vibrazioni. L’ultima fase, che ha inizio nel momento in cui il musicista smette di mantenere eccitato il sistema di vibrazione, viene denominata release (ovvero rilascio) e corrisponde al tempo in cui il corpo vibrante (nel nostro esempio la corda di violino) smorza l’entit`a delle vibrazioni, fino a portarsi nuovamente nello stato di quite. In Figura 2.2 sono illustrate le quattro diverse fasi descritte. In questo caso la funzione inviluppo A(t) e` stata approssimata con la successione di quattro segmenti, ma in generale pu`o assumere degli andamenti molto pi`u complessi, solitamente seguendo una curva esponenziale. Va peraltro sottolineato che spesso, in sede di sintesi, si preferisce approssimare l’inviluppo con delle spezzate, poich´e si e` visto che la qualit`a sonora dei risultati non viene compromessa da questa approssimazione.
2.4 Propagazione del suono Come detto, il suono ha natura oscillatoria: lo studio dell’acustica musicale fa quindi riferimento alla teoria delle onde. Il periodo e la frequenza sono quindi le caratteristiche principali a cui si far`a riferimento per l’analisi del comportamento di un’onda acustica. Torniamo a fare riferimento al movimento della membrana di un altoparlante, tenendo conto che considerazioni analoghe possono essere compiute, ad esempio, sul movimento oscillatorio di una colonna d’aria all’interno di un tubo acustico o sulla membrana di uno strumento a percussione. Il movimento della membrana dell’altoparlante causa compressione e rarefazione dell’aria, che appunto corrispondono a variazioni di pressione acustica. Quando la membrana si sta muovendo verso l’esterno, le molecole presenti nell’aria vengono compresse, determinando quindi un incremento della pressione locale. Questa incremento di pressione si propaga agli strati d’aria adiacenti. Inversamente quando la membrana si muove verso l’interno, si crea una diminuzione di pressione che si propaga agli strati adiacenti. Ne risulta che le particelle d’aria sono spinte leggermente in avanti e indietro nella direzione di propagazione del suono. Oscillazioni di questo tipo vengono definite longitudinali, e sono tipiche della trasmissione del suono nell’aria. Le oscillazioni possono anche essere perpendicolari alla direzione di propagazione del suono. Ad esempio in una corda percossa la deformazione, che e’ perpendicolare alla corda, si propaga lungo la corda stessa.
2.6
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
Se andiamo a misurare la pressione dell’aria lungo la direzione di propagazione di un suono periodico, notiamo quindi una successione di aumenti e diminuzioni di pressione. Questa distribuzione viene definita onda sonora. La distanza pi`u piccola tra due punti corrispondenti dell’onda sonora (ad esempio tra due massimi consecutivi) e` detta lunghezza d’onda. Essa e` comunemente indicata con il simbolo λ. La lunghezza d’onda dipende dal periodo e dalla velocit`a di propagazione del suono. La velocit`a del suono in aria viene solitamente indicata con la lettera c e, a temperatura ambiente (20 o C), e` di circa 344 m/sec, ovvero 1238 km/h. La relazione tra periodo T , velocit`a del suono c e lunghezza d’onda λ e` λ = c·T Utilizzando la definizione di frequenza data in precedenza, si ottiene la seguente relazione: f=
c λ
che pone in evidenza come la frequenza sia inversamente proporzionale alla lunghezza d’onda. Si riconosce questa relazione in molti strumenti musicali. Ad esempio le corde corrispondenti alle note gravi del piano sono lunghe, mentre quelle corrispondenti alle note acute sono corte. Negli organi le note basse sono generate dalle canne pi`u lunghe. Ricordando che le frequenze udibili sono contenute nell’intervallo da 20 Hz a 16 kHz, sostituendo i valori numerici nella formula che lega frequenza e lunghezza d’onda, otteniamo che le lunghezze d’onda dei suoni udibili vanno da circa 17 m (suono grave) a 21 cm (suono acuto). La velocit`a del suono nell’aria dipende dalla temperatura, aumenta di circa 0.6 m/sec per grado centigrado, mentre e` indipendente dalla pressione atmosferica e dalla frequenza del suono. La velocit`a dipende inoltre anche dal mezzo in cui si propaga. In Tabella 2.1 vengono riportate le velocit`a di propagazione, a 0o C, per alcuni mezzi trasmissivi. Queste differenze implicano che la lunghezza d’onda di un suono ad una data frequenza vari a seconda del mezzo in cui si propaga. Ad esempio, poich´e la velocit`a di propagazione in acqua e` circa 4.35 volte maggiore di quella in aria, le due lunghezze d’onda in acqua e in aria manterranno la stessa proporzionalit`a. Mezzo trasmissivo Gomma Ossigeno Aria Azoto Idrogeno Acqua marina Acciaio Vetro
Velocita` (m/sec) 70 317 331 337 1270 1440 5050 12000 - 15000
Tabella 2.1: Velocit`a di propagazione del suono a 0o C in alcuni mezzi trasmissivi
2.4.1 Onde sferiche e onde piane La sorgente sonora pi`u semplice da analizzare e` la sfera pulsante. Si tratta evidentemente di una situazione ideale in cui una sfera si contrae e si espande radialmente attorno ad una posizione media. La variazione di pressione causata dalle pulsazioni della sfera si espande con la stessa efficienza in tutte le direzioni, dando luogo ad una onda sferica. Un’altra semplice sorgente sonora pu`o essere
2.4. PROPAGAZIONE DEL SUONO
2.7
considerato un pistone che si muove all’interno di un tubo. Se vengono trascurati gli effetti ai bordi del tubo, il movimento del pistone causer`a una variazione di pressione solamente lungo la direzione del movimento. Avremo in questo caso una onda piana, che si proponga in un’unica direzione. A distanze sufficientemente elevate, il raggio di curvatura di un’onda sferica pu`o essere considerato trascurabile, e anche in questo caso l’onda si considera piana. In situazioni non ideali, la propagazione del suono non ha un andamento cos`ı semplice. In particolare, la propagazione in un mezzo non omogeneo d`a adito ad alcuni fenomeni analoghi a quelli riscontrati nella propagazione della luce. Tra questi i principali sono la diffrazione e la riflessione.
2.4.2 Diffrazione Nel caso di una sorgente reale, come ad esempio il cono di un altoparlante o la campana di una tromba, l’efficienza di irradiamento dipende dalla lunghezza d’onda. Questo effetto viene definito diffrazione. Se la dimensione della sorgente (ad esempio il raggio dell’altoparlante) e` piccola rispetto alla lunghezza d’onda, la sorgente pu`o essere considerata puntiforme e irradiante in tutte le direzioni con la stessa efficienza, generando quindi onde sferiche. Nel caso la lunghezza d’onda sia confrontabile con le dimensioni della sorgente, il suono viene irradiato con efficienza diversa a seconda della direzione. In particolare se la lunghezza d’onda e` minore della dimensione della sorgente vi e` un angolo al di sopra del quale non vi e` praticamente irradiamento. In Figura 2.3 viene illustrata la diversa diffrazione nel caso la dimensione dell’apertura D sia, rispettivamente, minore o maggiore della lunghezza d’onda λ.
Figura 2.3: Effetto della diffrazione nei casi λ > D in [a] e λ < D in [b] Un primo effetto della diffrazione e` la direzionalit`a dei suoni acuti rispetto ai suoni bassi: e` per questo motivo che e` molto pi`u semplice identificare la posizione di una sorgente se questa emette frequenze acute. Di questo fenomeno tengono conto gli apparecchi HiFi, nei quali le basse frequenze non necessitano di diffusione stereofonica. Inoltre e` a causa della diffrazione che le frequenze basse possono essere pi`u facilmente percepite anche in presenza di ostacoli che non consentono la propagazione diretta del suono, come ad esempio nel caso di stanze comunicanti. L’effetto della diffrazione e` inoltre responsabile del tipo di propagazione della voce: essendo l’apertura della bocca sufficientemente piccola rispetto alle frequenze di emissione sonora, le onde sonore hanno propagazione sferica. Inoltre la direzionalit`a della voce e` rinforzata dall’effetto di un secondo fenomeno, legato al comportamento delle onde in presenza di ostacoli (nel caso della voce l’ostacolo e` la testa dello stesso parlante). Infatti quando un’onda incontra un ostacolo di dimensioni piccole rispetto alla lunghezza d’onda (suono grave, ostacolo piccolo), il suono viene diffratto e riesce a superare l’ostacolo. Nel caso contrario (suono acuto, ostacolo grande) il suono non riesce a superare l’ostacolo e si crea una zona d’ombra. Questo avviene perch´e le onde sonore sono maggiormente riflesse che diffratte. Tornando al caso della voce, questo fenomeno spiega perch´e e` difficile capire il parlato ponendosi dietro ad una persona, nonostante si percepisca comunque il suono: sono le basse frequenze quelle che mag-
2.8
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
giormente riescono ad aggirare l’ostacolo, ma queste non sono sufficienti per rendere intelligibile il parlato (in particolare, come si vedr`a, non vengono riconosciuti i formanti).
2.4.3 Riflessione In generale avviene una riflessione ogni volta che cambiano le caratteristiche del mezzo trasmissivo. La causa pi`u comune della riflessione e` la presenza di una discontinuit`a, ad esempio quando un’onda che si propaga in aria incontra un ostacolo. Ponendosi nel caso pi`u semplice, si pu`o supporre l’ostacolo come una parete liscia di dimensioni sufficientemente grandi rispetto alla lunghezza d’onda. In questo caso si ha che l’onda viene parzialmente riflessa e parzialmente assorbita, e che l’angolo di riflessione e` uguale all’angolo di incidenza. La percentuale di onda assorbita dipende dal tipo di materiale. Nel caso l’onda si rifletta su di una superficie irregolare, ove le irregolarit`a abbiano dimensioni paragonabili alla lunghezza d’onda, si ha un tipo di riflessione detta eco diffuso, dove la direzione di propagazione varia a seconda della lunghezza d’onda e della forma dell’ostacolo. L’effetto della riflessione e` estremamente importante nella progettazione di sale da concerto e di teatri, e l’acustica architettonica e` divenuto un ramo molto importante dell’acustica. A causa della riflessione alle pareti, all’ascoltatore infatti non giunge solamente il suono proveniente dagli strumenti musicali (o dalla voce degli attori), ma anche una successione di onde riflesse che, a causa della maggiore distanza percorsa, giungono all’ascoltatore con un dato ritardo. Questo fenomeno e` noto con il nome di riverberazione, il cui controllo e` uno dei principali obiettivi dell’acustica architettonica. Sono state progettate inoltre particolari camere nelle quali la riflessione delle pareti e` resa massima (camere ecoiche) o minima (camere anecoiche). In una camera ecoica, l’elevata riflessione delle pareti, fa si che il suono in un punto giunga con lo stessa intensit`a da tutte le direzioni: le camere ecoiche sono quindi utilizzate per effettuare misure della potenza acustica di un sistema. Al contrario, in una camera anecoica, la riflessione alle pareti e` pressoch´e nulla e quindi il suono che giunge in un determinato punto proviene esclusivamente dalla sorgente: le camere anecoiche sono appunto utilizzate per studiare le caratteristiche delle sorgenti sonore.
2.5 Intensit`a del suono Si e` detto che l’equivalente fisico del suono e` la variazione di pressione nell’aria (la pressione si misura in pascal, simbolo Pa). L’entit`a delle variazioni di pressione e` legata alla percezione di volume sonoro (loudness): maggiore e` la variazione di pressione, maggiore e` il volume sonoro percepito. Spesso, pi`u che non ai picchi nella variazione di pressione, si fa riferimento alla pressione efficace, simbolo p e f f , che e` la media quadratica delle variazioni di pressione. In inglese viene chiamata p rms Essa e` definita come s Z t2 1 p(t)2 dt pe f f = t2 − t1 t1 dove l’integrazione avviene su un periodo per suoni periodici e su un intervallo idealmente infinito per suoni non periodici. Nel caso di un andamento sinusoidale della pressione del tipo p = P0 sin(
2πt ) T
√ si ha pe f f = P0 / 2. La minima pressione efficace che pu`o essere percepita e` di 0.00002 Pa, mentre la soglia del dolore varia intorno ai 20 Pa, in relazione alla frequenza del suono come vedremo in seguito parlando di psicoacustica.
` DEL SUONO 2.5. INTENSITA
2.9
Si consideri di dover determinare il volume sonoro prodotto da una sorgente. L’esperienza comune ci dice che la pressione efficace di un suono varia in relazione alla distanza della sorgente; inoltre, come si e` visto parlando della diffrazione, una sorgente sonora pu`o irradiare in maniera diversa in differenti direzioni. Infine il fenomeno della riflessione pu`o ulteriormente complicare la misurazione, rendendola sensibile, non solo alla distanza e alla posizione rispetto alla sorgente, ma anche alla presenza di ostacoli o elementi riflettenti. E’ per questa ragione che una sorgente sonora viene caratterizzata in base alla propria potenza acustica, ovvero in base al lavoro prodotto nell’unit`a di tempo. Come ogni potenza, anche la potenza acustica si misura in watt (W). In Tabella 2.2 viene riportata la potenza acustica del parlato e di alcuni strumenti musicali. Gli strumenti musicali sono comunque caratterizzati da una bassissima efficienza, ovvero il rapporto tra i watt acustici e i watt spesi si aggira intorno all’1%. Sorgente sonora Parlato (normale) Parlato (litigio) Cantante lirico Clarinetto Tromba Pianoforte Trombone Orchestra
Potenza (W) 10−5 10−3 0.03 0.05 0.3 0.4 6 60
Tabella 2.2: Potenza massima prodotta da alcune sorgenti sonore
Si definisce intensit`a acustica (simbolo I) la potenza media trasmessa per unit`a di superficie nella direzione di propagazione dell’onda. Si pu`o dimostrare che, per onde piane e onde sferiche, vale la relazione: p2e f f I= ρc dove ρ e` la densit`a del mezzo trasmissivo (in aria, a temperatura ambiente e a pressione atmosferica standard ρ = 1.21 kg/m3 ) e, al solito, pe f f e` la pressione efficace e c e` la velocit`a del suono nel mezzo. Considerando l’intervallo di valori assunti dalla pressione efficace, si nota che l’intensit`a acustica assume valori in un range molto elevato, andando da circa 10 −12 W/m2 per la soglia di udibilit`a a circa 1 W/m2 per la soglia del dolore.
2.5.1 Decibel e misure del suono I valori di pressione, potenza e intensit`a acustica dei suoni si distribuiscono in un intervallo di valori molto esteso. Per questa ragione queste grandezze sono comunemente espresse in scala logaritmica. Va inoltre osservato che la scala logaritmica ha un andamento pi`u vicino a quello delle scale percettive che verranno illustrate nel capitolo 2.11. Viene definito come livello di pressione acustica (in inglese pressure level, con simbolo PL) il logaritmo del rapporto tra la pressione misurata e una pressione di riferimento. In formule: p PL = 20 · log10 pre f
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.10
dove si fa implicitamente riferimento alla pressione efficace. Il valore di PL e` adimensionale e viene espresso in decibel (dB). In tabella 2.3 sono riportati alcuni valori in decibel di rapporti usati frequentemente in acustica e in ingegneria. decibel rapporto
0 1/1
6.02 2/1
√10 10
20 10/1
-20 1/10
40 100/1
60 1000/1
Tabella 2.3: Valori in decibel di rapporti usati frequentemente in acustica e in ingegneria.
In generale non e` necessario utilizzare una pressione di riferimento standard. Pu`o risultare comunque conveniente utilizzare come riferimento la minima pressione efficace udibile p 0 = 0.00002 Pa; in questo caso si parla di Sound Pressure Level (SPL) che viene quindi definito come: SPL = 20 · log10
p p = 20 · log10 p0 0.00002
⇒
SPL = 20 · log10 p + 94
Valori di SPL possono essere convertiti in valori di pressione acustica mediante la formula inversa p = p0 · 10L p /20 Analogamente, anche la potenza e l’intensit`a acustica vengono espresse in decibel utilizzando un valore di riferimento. Il livello di potenza acustica (in inglese soundpower level, simbolo L W ) e` definito dalla formula: P LW = 10 · log10 Pre f dove P e` la potenza acustica misurata in watt, e Pre f e` una potenza di riferimento, normalmente assunta Pre f = P0 = 1 · 10−12 [W]. Si noti il fattore 10 invece che 20 dovuto al fatto ceh le potenze sono proporzionali al quadrato delle pressioni. Il livello di intensit a` acustica (in inglese intensity level, simbolo IL) e` definito dalla formula: IL = 10 · log10
I Ire f
Anche in questo caso non e` necessario scegliere un riferimento standard. Spesso si sceglie I re f = I0 = 1 · 10−12 [W /m2 ]. Dalla formula si ricava agevolmente il raddoppiamento dell’intensit`a corrisponde ad un aumento di 10 · log 2 = 3 dB. La scelta di moltiplicare il logaritmo per un coefficiente 10 e` dovuta alla semplicit`a di notazione che ne consegue: utilizzando come riferimento la minima intensit`a udibile, la scala in decibel assume valori da 0 (soglia di udibilit`a) a 120 (soglia del dolore) e risulta quindi pi`u pratica della scala in Bel. Si pone in evidenza che il fattore moltiplicativo e` diverso per la misura di pressione e di intensit`a e rispecchia la relazione di proporzionalit`a tra l’intensit`a e il quadrato della pressione precedentemente espressa (si ricorda che l’elevamento al quadrato nei logaritmi corrisponde alla moltiplicazione per 2). In Tabella 2.4 vengono riportati i valori in dB prodotti da un orchestra a seconda delle indicazioni di volume nella partitura e da diverse sorgenti sonore. Anche se la soglia del dolore e` intorno a 120 dB, una prolungata esposizione a sorgenti sonore di elevata intensit`a pu`o causare danni permanenti all’orecchio. In particolare e` considerata a rischio l’esposizione a 100 dB, mentre le leggi sulla sicurezza obbligano l’uso di apposite cuffie negli ambienti di lavoro nel caso di prolungata esposizione ad un livello di intensit`a superiore a 85 dB.
` DEL SUONO 2.5. INTENSITA Indicazione
ppp pp p mp mf f ff fff
2.11 Sorgente sonora Silenzio Spillo che cade Sussurro a 1m Sala vuota Libreria Interno auto silenziosa Conversazione pacata Traffico Fabbrica Metropolitana Discoteca Concerto rock Jet in partenza a 500m
Intensita` (dB) 0 10 20 30 40 50 60 70 80 90 100 110 120
Tabella 2.4: Livello di intensit`a associato alle indicazioni di partitura (prima colonna) e prodotto da alcune sorgenti sonore (seconda colonna)
I valori riportati in Tabella 2.4 vanno presi come puramente indicativi. In particolare le indicazioni di partitura hanno solo una corrispondenza approssimativa con i valori in dB, poich´e dipendono dalla rumorosit`a della sala, dalla dinamica degli strumenti e dalle diverse scelte esecutive. Inoltre si e` gi`a accennato al fatto che il valore dell’intensit`a e della pressione variano con la distanza. Si prenda ad esempio una sorgente approssimativamente puntiforme, a cui corrisponde la propagazione di un onda sferica. Dalla definizione di intensit`a sappiamo che, a parit`a di potenza della sorgente, questa risulta proporzionale all’inverso della superficie attraversata dall’onda. La dimensione della superficie sferica S dipende dal raggio r e quindi dalla distanza dalla sorgente, secondo la relazione S = 4πr 2 . Nel caso si raddoppi la distanza la superficie risulta quadruplicata. Applicando la formula per il calcolo del livello di intensit`a si ottiene una variazione di −6 dB. Nel caso la sorgente sia, invece, una colonna di traffico la propagazione non e` sferica, ma cilindrica: il raddoppiamento della distanza porta al raddoppiamento della superficie, a cui corrisponde una attenuazione di soli −3 dB. E’ per questo motivo che il rumore causato dal traffico viene percepito a distanza maggiori che non il rumore di sorgenti singole (ad esempio macchinari industriali). Il livello di intensit`a acustica dipende evidentemente anche dal numero di sorgenti presenti. E’ possibile dimostrare che, nel caso di sorgenti tra loro scorrelate, l’incremento massimo del livello di intensit`a dato dalla somma di due sorgenti e` di 3 dB e che questo si verifica quando le due sorgenti hanno pari intensit`a. In Figura 2.4 viene illustrato l’andamento dell’incremento del livello di intensit`a sonora, rispetto la sorgente di intensit`a maggiore, nel caso di due sorgenti scorrelate, in funzione dell’intensit`a di una delle due sorgenti (l’altra e` fissa a 60 dB). Risulta evidente che nel caso di sorgenti con intensit`a molto diverse, l’effetto della sorgente con maggiore intensit`a risulta preponderante; ad esempio nel caso di due sorgenti a 60 dB e 70 dB la risultante e` a 70.4 dB. In generale due suoni non coerenti, con livello di intensit`a IL 1 e IL2 rispettivamente, il livello risultante deriva dalla somma delle potenze ILtot = 10 log10
P1 + P2 = 10 log10 (10IL1 /10 + 10IL2 /10 ) P0
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.12
3.5
3
Incremento di IL (dB)
2.5
2
1.5
1
0.5
0 0
20
40 60 80 IL di una delle sorgenti (dB)
100
120
Figura 2.4: Incremento del livello di intensit`a, rispetto la sorgente di intensit`a maggiore, nel caso di due sorgenti, la prima fissa a 60 dB e la seconda variabile da 0 dB a 120 dB
2.6. PSICOACUSTICA: INTRODUZIONE
2.13
2.6 Psicoacustica: introduzione Con il termine musica si fa generalmente riferimento a un complesso di processi che vanno dalla generazione di pattern sonori fino alla percezione e alla elaborazione del messaggio musicale da parte di un ascoltatore. Il processo di produzione e percezione del suono si pu`o schematizzare come una catena di tre sistemi connessi detti sorgente, mezzo e ricevitore, le cui funzioni sono riportate in Figura 2.5.
Figura 2.5: Le funzioni dei sistemi sorgente, mezzo e ricevitore In queste note si analizza il sistema ricevitore, cio`e come i suoni vengono elaborati ed interpretati dal sistema uditivo e dal cervello.
2.7 Caratteristiche fisiche del suono e sensazioni uditive Sentiamo un suono quando il timpano dell’orecchio viene eccitato da un’onda di pressione avente caratteristiche fisiche ben definite (come intensit`a o periodicit`a). La conseguenza per noi e` una percezione del fenomeno costituita da diverse sensazioni che ci permettono di distinguere quel suono rispetto ad altri. Le tre sensazioni primarie che accompagnano l’ascolto di un suono sono: altezza, intensit`a e timbro (in inglese, rispettivamente pitch, loudness e timbre). Queste sensazioni sono il risultato della elaborazione dell’orecchio e del cervello e non sono grandezze misurabili direttamente (sono, invece, misurabili le quantit`a fisiche del suono che sono principali cause di altezza, intensit`a e timbro). Per suoni periodici (o quasi periodici), il pitch e` determinato principalmente dalla frequenza fondamentale (si ricorda che la frequenza fondamentale di un suono e` il numero di ripetizioni in un secondo del pattern di vibrazione). Tra i suoni periodici si distinguono i suoni puri, formati cio`e da una sola componente sinusoidale. Visto nel dominio della frequenza, un suono puro e` rappresentato con una riga in corrispondenza della frequenza della sinusoide. Per un suono composto da pi`u armoniche (sinusoidi), la frequenza fondamentale e` il massimo comun divisore della serie di frequenze che costituiscono lo spettro.
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.14
L’intensit`a percepita dipende dal flusso di energia che accompagna la vibrazione. Essa e` tuttavia dipendente anche da altri fattori quali pitch, durata e presenza di altri suoni. Il principale elemento che caratterizza il timbro e` lo spettro di energia. Come si avr`a modo di vedere, l’evoluzione temporale dello spettro e` un elemento fondamentale per il riconoscimento e la caratterizzazione dei suoni strumentali. Se un suono viene privato del proprio attacco, viene persa, nella gran parte dei casi, la capacit`a dell’ascoltatore di riconoscere chiaramente lo strumento acustico. Oltre alle sensazioni primarie appena viste, ne esistono altre che rivestono notevole importanza nel processo percettivo. La direzionalit a` e` una sensazione legata alla percezione dei suoni, ed e` legata alla differenza di fase con cui il suono giunge alle orecchie (differenza che e` dovuta alla direzione di incidenza del suono). Consonanza e dissonanza sono infine due sensazioni (indotte, legate cio`e al condizionamento culturale) provocate dalla sovrapposizione di due o pi`u suoni e dai battimenti dovuti alla sovrapposizione (si parler`a nel seguito del fenomeno dei battimenti). Il rapporto fra le frequenze e la frequenza di battimento determinano il grado di consonanza e dissonanza percepito. I messaggi musicali sono composti da suoni che si avvicendano nel tempo e da pattern ritmici che si ripetono nel tempo. Il tempo ha dunque un ruolo determinante nella costruzione di elementi essenziali del messaggio musicale come la melodia ed il ritmo. Nella Tabella 2.7 si mettono a confronto le sensazioni dell’udito con le scale dei tempi relative alla loro elaborazione e con lo stadio del processo uditivo in cui tali sensazioni sono elaborate. SCALA DEI TEMPI (s)
LUOGO DI ELABORAZIONE
SENSAZIONE
6 ∗ 10−5 ÷ 6 ∗ 10−2 ∼ 0.1
orecchio interno
altezza, intensit`a, timbro transitori, timbro, direzionalit`a, identificazione, discriminazione ritmo, messaggio musicale breve termine (sequenzializzazione, parlato) lungo termine (integrazione spaziale (visiva) e temporale (uditiva))
> 0.1
collegamento nervoso tra orecchio e corteccia corteccia cerebrale emisfero sinistro emisfero destro
INFLUENZA (Cultura, Ambiente, Stato) debole
forte
Tabella 2.5: Scala dei tempi e luogo di elaborazione per le sensazioni L’indagine quantitativa sulle sensazioni appena viste e` condotta attraverso misure psicofisiche su soggetti umani. Oggetto delle misure (i cui dati sono trattati solitamente con metodi statistici) sono soglie, soglie differenziali, eguaglianza e scale di valori. Misure di soglia e soglia differenziale mirano a stabilire ad esempio a quale intensit`a un suono inizia ad essere percepito o qual’`e la minima variazione di frequenza per cui la sensazione di pitch cambia; misure di uguaglianza servono a stabilire ad esempio quando due suoni a frequenza diversa hanno uguale intensit`a; misure su scale di valori mirano a stabilire ad esempio quando due suoni sono percepiti con altezza o intensit`a doppia o tripla.
2.8. L’ORGANO DELL’UDITO
2.15
2.8 L’organo dell’udito Il sistema uditivo umano ha una struttura complessa e svolge funzioni notevolmente avanzate. Non solo e` in grado di elaborare un ampio insieme di stimoli, ma pu`o identificare precisamente l’altezza o il timbro di un suono, o la direzione da cui esso proviene. Molte funzioni del sistema uditivo vengono svolte dall’organo che chiamiamo orecchio, ma grande enfasi di recente viene attribuita alla elaborazione che ha luogo nel sistema nervoso centrale. Per semplificarne la descrizione, l’orecchio e` spesso diviso in tre parti principali: orecchio esterno, orecchio medio ed orecchio interno (Figura 2.6). L’orecchio esterno e` formato dalla pinna esterna e dal canale uditivo (meato). L’orecchio medio inizia con la membrana del timpano, alla quale e` attaccato il primo dei tre ossicini (chiamati martello, incudine e staffa) che compongono questo stadio. Il compito di questi ultimi e` quello di amplificare il moto del timpano (essi formano un sistema di leve) e di trasferirlo ad un’altra membrana, la finestra ovale. Con la finestra ovale inizia l’orecchio interno, formato principalmente dalla coclea. La coclea contiene i meccanismi per trasformare le variazioni di pressione in corrispondenza del timpano in impulsi nervosi che vengono interpretati dal cervello come suono.
Figura 2.6: Le funzioni dei sistemi sorgente, mezzo e ricevitore Nel dettaglio, vediamo come la coclea ci aiuta a percepire l’altezza (pitch) di un suono puro. Questo organo e` costituito da una cavit`a divisa in due da una membrana (membrana basilare) e contenente un liquido incomprimibile (perilinfo) che passa da una parte all’altra della membrana attraverso un’apertura (elicotrema). Le vibrazioni trasmesse dall’orecchio medio alla finestra ovale si trasmettono al fluido del dotto cocleare, che a sua volta provoca un moto della membrana basilare simile a quello di una bandiera. Lungo la membrana basilare, circa 30000 recettori nervosi (cellule ciliate) convertono il moto della membrana in segnali che sono a loro volta trasmessi ai neuroni del nervo acustico. E’ importante sottolineare che, a fronte di un suono puro di una data frequenza, il massimo
2.16
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
della ampiezza di oscillazione della membrana basilare e` localizzato in una regione ben delimitata della membrana. La posizione di questa regione dipende dalla frequenza del suono. Per ogni frequenza c’`e dunque una regione di massima sensibilit`a della membrana (regione di risonanza). Pi`u bassa e` la frequenza e pi`u la regione di risonanza e` prossima all’Apex (elicotrema). L’estensione delle frequenza udibili va da 16 Hz a 20 kHz.
Figura 2.7: Posizione della zona di risonanza sulla membrana basilare In Figura 2.7 si pu`o osservare come la posizione x (misurata dalla base, Figura 2.6) della regione di massima risonanza varia al variare della frequenza f di un suono puro. Dalla figura e` possibile trarre alcune considerazioni fondamentali: • L’estensione di frequenze che va approssimativamente da 20 Hz fino a 4000 Hz copre circa i due terzi dell’estensione della membrana basilare (dai 12 ai 35 mm dalla base). La rimanente porzione della scala di frequenze (4000 - 16000 Hz) e` compressa nel rimanente terzo. Il range di frequenze visto corrisponde alle prime 7 ottave musicali, riconosciute come le pi`u importanti in musica. • A fronte di un raddoppio della frequenza (salto di ottava) dello stimolo sinusoidale la regione di risonanza subisce uno spostamento costante di 3.5-4 mm, indipendentemente dalla frequenza di partenza. In altre parole, quando la frequenza f e` moltiplicata per un dato valore, la posizione del massimo di risonanza viene traslata di una certa quantit`a seguendo una legge di tipo logaritmico.
2.8. L’ORGANO DELL’UDITO
2.17
2.8.1 Percezione di altezza dei suoni puri e discriminazione del pitch (JND di frequenza) Il pitch e` una sensazione soggettiva. In molte scale musicali si tende a considerare l’ottava come unit`a fondamentale: note giudicate essere l’una l’ottava dell’altra hanno frequenze l’una il doppio dell’altra, anche se il rapporto di 2:1 non sempre e` esatto. Tuttavia esiste una discordanza, particolarmente evidente al di sopra dei 1000 Hz, fra la frequenza reale del suono puro e l’altezza mediamente percepita dall’ascoltatore (Figura 2.8).
Figura 2.8: Altezza in frequenza (linea tratteggiata) e giudizio medio (linea continua) Allo scopo di avere per il pitch una scala coerente con la curva di percezione dell’altezza, e` stata introdotta la scala mel (Figura 2.9). Per definizione, infatti, a 1000 Hz corrispondono 1000 mel (con pressione sonora 60 db sopra la soglia di udibilit`a a 1000 Hz) e ad ogni ottava i mel si raddoppiano (o si dimezzano). La scala mel e` una scala psicofisica del pitch.
Figura 2.9: Scala mel La capacit`a di distinguere tra due stimoli pressoch´e uguali e` spesso caratterizzata, negli studi
2.18
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
psicofisici, da una misura di minima differenza apprezzabile (just noticeable difference, JND). Due stimoli sono giudicati uguali se differiscono per meno del JND. In psicoacustica si incontrano misure di JND per molte delle sensazioni uditive. Gli studi sulla percezione del pitch hanno mostrato che il JND di frequenza dipende, oltre che dal valore di frequenza iniziale dello stimolo, anche dall’intensit`a sonora, dalla durata e dalla velocit`a di variazione della frequenza (per cambiamenti improvvisi le soglie si abbassano anche di 30 volte). La Figura 2.10 mostra il JND medio per suoni puri al variare della frequenza. Si pu`o notare che la risoluzione di frequenza (definita come JND fc , con f c frequenza centrale) e` massima intorno ai 2000 Hz e raggiunge il suo minimo alle basse frequenze.
Figura 2.10: Soglia differenziale (JND) per la frequenza La descrizione del meccanismo di discriminazione delle frequenze (noto come teoria della localizzazione) cerca di spiegare il fenomeno della percezione del pitch attraverso la conversione di una vibrazione temporale in una vibrazione nello spazio ad opera della coclea. Questa teoria spiega alcuni fenomeni, ma non fornisce una spiegazione completa del funzionamento della percezione dell’altezza. Non spiega, ad esempio, perch`e percepiamo suoni complessi come una sola entit`a avente una altezza ben definita, pur risuonando la membrana basilare in corrispondenza di ogni componente del suono. N´e spiega perch`e percepiamo l’altezza corretta anche in suoni complessi nei quali la componente fondamentale sia stata eliminata (fenomeno noto come ricostruzione della fondamentale). Si vedr`a in seguito come alla teoria spaziale ne venga affiancata un’altra, detta teoria temporale o della periodicit`a, per cercare di spiegare questi fenomeni.
2.9. SOVRAPPOSIZIONE DI SUONI PURI
2.19
2.8.2 Pitch e intensit`a dei suoni puri La frequenza dello stimolo sinusoidale risulta essere il parametro fondamentale nella determinazione della sensazione di altezza. Tuttavia, esso non e` il solo. Gli esperimenti di Stevens (1937) hanno mostrato che al crescere dell’intensit`a dello stimolo da 40 a 90 db, per frequenze al di sopra dei 1000 Hz il pitch percepito subisce un incremento, mentre per frequenza al di sotto dei 1000 Hz esso subisce un decremento rispetto all’intensit`a iniziale. Per frequenze intorno ai 1000 Hz, la variazione e` quasi nulla. Questi dati sono riassunti nel diagramma di Stevens e Wolkmann (Figura 2.11).
Figura 2.11: Diagramma di Stevens e Wolkmann (1937). Variazione del pitch di una sinusoide in fun˙ una sinusoide di 150 Hz passando da 45 a 90 dB scende in pitch del 12%, circa zione dell’intensitEs. di due semitoni. Una curva discendente implica che la frequenza del suono deve essere aumentata per avere la stessa sensazione di pitch.
2.9 Sovrapposizione di suoni puri In tutti gli esperimenti di cui si e` trattato fin ora, si e` fatto implicitamente riferimento a stimoli uditivi composti da una sola componente sinusoidale. Si vuole vedere adesso quali sono gli effetti prodotti dalla sovrapposizione di due suoni puri. Classificheremo gli effetti risultanti in due famiglie: gli effetti del primo ordine e quelli del secondo ordine. Gli effetti del primo ordine sono caratterizzati dall’essere elaborati nell’orecchio interno (elaborazione meccanica), mentre quelli del secondo ordine sono caratterizzati dall’essere elaborati in uno stadio successivo (elaborazione neurale).
2.9.1 Gli effetti del I ordine Effetti del primo ordine emergono quando lo stimolo uditivo e` costituito da due suoni puri con stessa frequenza e fase, e la frequenza di uno dei due stimoli viene fatta crescere (o decrescere) gradualmente.
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.20 2.9.1.1
Battimenti del I ordine
Sia f1 la frequenza del primo suono e f 2 quella del secondo e sia inizialmente f 1 = f2 . Finch´e i due suoni presentano stessa frequenza e stessa fase iniziale, la membrana basilare presenta una eccitazione in corrispondenza della posizione relativa alla frequenza comune, di ampiezza pari alla somma delle ampiezze dei due stimoli. Quando la frequenza di uno dei due stimoli comincia a crescere ( f 2 = f1 + ∆ f ) e fino a quando ∆ f non supera un certo valore ∆ f d , l’ascoltatore percepisce un unico suono a frequenza f = ( f 1 + f2 )/2 e modulato in ampiezza. Questa modulazione di ampiezza e` chiamata battimento del I ordine. La frequenza di battimento del primo ordine e` pari a f b = ( f 2 − f1 ). La spiegazione e` nella formula della somma di due suoni puri: sin ω1t + sin ω2t = 2 sin
(ω1 + ω2 )t (ω1 − ω2 )t cos 2 2
(2.1)
con ωt = 2π f t. Si vede che l’argomento del seno determina l’altezza del suono ( f = f1 +2 f2 = f1 + ∆2f ), mentre l’argomento del coseno determina la frequenza di battimento f b = 2( f2 −2 f1 ) = f2 − f1 = ∆ f (figg. 2.12 e 2.13).
Figura 2.12: Battimenti del I ordine: frequenza di battimento
2.9.1.2
Bande critiche
All’aumentare del modulo di ∆ f oltre i 15Hz, la sensazione di battimento scompare, lasciando il posto a una sensazione sgradevole di ruvidit`a (roughness). Quando ∆ f supera in modulo la grandezza ∆ f D (soglia di discriminazione) i due suoni risultano distinguibili, pur esistendo ancora la sensazione di ruvidit`a del suono. Solo quando il modulo di ∆ f supera una seconda soglia ∆ f CB , la sensazione dei due suoni distinti risulta netta e piacevole. La grandezza 2∆ f CB e` chiamata banda critica (Figura 2.14). La Figura 2.15 mostra come la discriminazione del pitch ∆ f D e la banda critica ∆ fCB dipendono dalla frequenza centrale. Dalla figura si pu`o vedere anche come alcuni intervalli musicali siano consonanti o dissonanti a seconda della frequenza centrale (semitono, tono e terza minore hanno rapporti di frequenza rispettivamente pari a 16/15, 9/8 e 6/5). Si noti come l’intervallo di mezzo tono e` dissonante
2.9. SOVRAPPOSIZIONE DI SUONI PURI
Figura 2.13: Battimenti del I ordine: pitch risultante (τ 1 =
2.21
1 f 1 , τ2
=
1 f2 , τ
= 1f )
su tutta l’estensione delle frequenze, mentre l’intervallo di terza minore risulta dissonante solo al di sotto dei 600 Hz circa. Si pu`o notare, infine, che fra JND e bande critiche vale la relazione approssimata: ∆ fCB = 30JND
(2.2)
Una banda critica corrisponde a circa 1.3 mm di membrana basilare e a circa 1300 ricettori. 2.9.1.3
Consonanza sensoriale
Per evitare il disturbo dei battimenti e della ruvidit`a, i due toni devono essere separati da almeno una banda critica. Questo ci conduce alla conclusione che quando vari toni suonano simultaneamente, il risultato pu`o essere considerato gradevole o sgradevole. Un altro modo di descrivere questa sensazione e` consonante o dissonante. Nel contesto dello studio della percezione umana, il termine consonante fa riferimento alla consonanza tonale o consonanza sensoriale. Questo va distinto dal corrispondente termine usato dai musicisti, che fa invece riferimento al rapporto intervallare e alla teoria musicale. Naturalmente ci sono relazioni tra le due definizioni. In ogni caso si noti che la udibilit`e di questa ruvidit`a non dipende dalla preparazione musicale. Consideriamo ora l’effetto di questi battimenti tra due toni in funzione della loro separazione in frazioni di banda critica. In fig. 2.16 e` riportata la consonanza tra due toni al variare della loro separazione in frazione di larghezza di banda critica. Quando i due toni hanno la stessa frequenza presentano la massima consonanza e quindi minima dissonanza. Quando sono distanti all’incirca un quarto di banda acritica presentano la minima consonanza e quindi massima dissonanza. Con separazione di met`a banda critica abbiamo all’incirca il 60% della consonanza massima; a tre quarti si raggiunge il 80% della consonanza; e si raggiunge completa consonanza quando sono separati da una banda critica. In pratica, toni che differiscono in frequenza nel intervallo dal 5 Un suono musicale ha varie armoniche. Si tende perci`o a considerare dissonante un intervallo tra due suoni musicali, quando ci sia una predominanza di armoniche vicine in frequenza la cui differenza in frequenza sia entro mezza banda critica.
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.22
Figura 2.14: Sensazioni uditive al variare della differenza di frequenza 2.9.1.4
Suoni di combinazione
Tra gli effetti del primo ordine vi e` poi quello dei suoni di combinazione. Questi sono suoni che vengono percepiti anche se non sono originariamente presenti nello stimolo, e sono il risultato di distorsioni non lineari presenti al passaggio del segnale da orecchio esterno a orecchio interno. L’esperimento descritto in precedenza viene condotto in questo caso aumentando l’intensit`a dei due suoni e facendo variare la frequenza f 2 da f1 a 2 f1 . Sia x lo stimolo costituito da due suoni puri e sia y il segnale distorto a causa delle nonlinearit`a del passaggio fra orecchio esterno ed interno. Se esplicitiamo la funzione nonlineare fermandoci al termine del secondo ordine otteniamo le formule: x = k(sin ω1 t + sin ω2 t) 2
y = a0 + a1 x + a2 x
(2.3) (2.4)
= k (sin ω1 t + sin ω2 t + 2 sin ω1t sin ω2 t) 1 (2.5) = k2 [(1 − cos 2ω1 t) + (1 − cos 2ω2 t) + cos(ω2 − ω1 )t − cos(ω2 + ω1 )t] 2 I suoni di combinazione percepiti avranno frequenza f 1 , f2 , f2 − f1 , f1 + f2 , 2 f1 , 2 f2 . Se nello sviluppo in serie di potenze della nonlinearit`a consideriamo termini superiori a quello del secondo ordine, ulteriori suoni di combinazione sono calcolabili. In Figura 2.17 e` mostrato l’andamento dei suoni a frequenza f c1 = f2 − f1 , fc2 = 2 f1 − f2 , fc3 = 3 f1 − 2 f2 , al variare di f 2 da f1 a 2 f1 . Gli effetti dovuti alla nonlinearit`a vengono percepiti anche a fronte dell’ascolto di un solo suono di intensit`a estremamente elevata. In questo caso saranno percepiti suoni a frequenze 2 f 1 , 3 f1 , 4 f1 , ... (armoniche auricolari). 2
x
2
2
2
2.9. SOVRAPPOSIZIONE DI SUONI PURI
2.23
Figura 2.15: Banda critica e discrimazione del pitch al variare della frequenza centrale
2.9.2 Gli effetti del II ordine Gli effetti del II ordine sono il risultato dell’elaborazione degli stimoli da parte del sistema nervoso. Se gli effetti del primo ordine avevano origine gi`a sulla membrana basilare a causa della sovrapposizione di due regioni di risonanza, quelli del secondo ordine hanno la caratteristica di non derivare da simili cause fisiche. Analisi sperimentali hanno dimostrato che non vi sono tracce di essi nei pattern di vibrazione del liquido cocleare e che quindi essi devono avere origine in uno stadio di elaborazione successivo. 2.9.2.1
Battimenti del secondo ordine
Il fenomeno dei battimenti del secondo ordine consiste nella sensazione di modulazione di ampiezza che si avverte quando lo stimolo e` composto da due suoni puri che eccitano la membrana basilare in regioni che non si sovrappongono. La frequenza f 2 sia posta inizialmente ad un valore f 2 = 2 f1 . Si pu`o notare che per diverse differenze di fase iniziale fra le due componenti la forma d’onda cambia notevolmente (Figura 2.19). Se la differenza di fase si mantiene perfettamente costante, tuttavia, l’ascoltatore non percepir`a alcuna differenza. Quando la frequenza f 2 viene leggermente stonata rispetto all’ottava ( f 2 = 2 f1 + ε), la differenza di fase non rimane pi`u costante. Il sistema uditivo percepisce in queste condizioni battimenti a frequenza f b = ε (Figura 2.18). Battimenti del secondo ordine si ottengono anche stonando leggermente intervalli di quarta ( f 2 = 4/3 f1 ) e di quinta (3/2 f 1 ), con frequenze di battimento rispettivamente di f b = 3ε e fb = 2ε Hz. Questo fenomeno mette bene in risalto come il senso dell’udito sia insensibile a differenze di fase costanti nel tempo, ma sensibile alla variazione nel tempo dello sfasamento.
2.24
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
Figura 2.16: Consonanza (e dissonanza) tra due toni al variare della loro separazione in frazione di larghezza di banda critica. Una importante differenza tra battimenti del primo ordine e battimenti del secondo ordine e` la seguente: i primi presentano una modulazione di ampiezza senza mutazione della forma d’onda nel tempo; i secondi, al contrario, presentano un cambiamento ciclico del pattern di vibrazione senza che vi sia mutazione nella ampiezza totale. 2.9.2.2
Rintracciamento della fondamentale
Tra gli effetti del II ordine vi e` ancora quello del rintracciamento della fondamentale (o virtual pitch). Consideriamo in questo caso un suono composto da numerose componenti, esattamente armoniche, con frequenze f 1 , 2 f1 , 3 f1 , ..., n f1 . Il pitch percepito e` naturalmente il massimo comun divisore della serie di armoniche, cio`e f 1 . Se ora viene generato uno stimolo simile al primo, ma da cui sia stata tolta la prima armonica con frequenza f 1 (o le prime l armoniche), la sensazione di pitch risultante dall’ascolto risulta uguale a quella del suono originario. Il sistema uditivo ha dunque ricostruito la componente mancante. Questa sensazione e` pi`u netta se sono presenti le armoniche pi`u prossime alla fondamentale (2 f 1 , 3 f1 , 4 f1 , ...), meno netta se sono presenti quelle a partire da un numero d’armonica superiore al quarto. Il rintracciamento della fondamentale e` un fenomeno che si pu`o osservare anche con stimoli formati da due suoni puri. Ad esempio, se la coppia di suoni puri presenta rapporti di frequenze quali f2 = (3/2) f1 o f2 = (4/3) f1 , il pattern di vibrazione risultante e` caratterizzato da periodo maggiore. In particolare, a livello neurale viene generata la sensazione di un suono a frequenza f 0 = (1/2) f1 e f0 = (1/3) f1 rispettivamente. In Figura 2.20 e` mostrato il pattern di vibrazione risultante nel caso f2 = 32 f1 . Gli effetti del II ordine sono il risultato di una elaborazione da parte del sistema nervoso centrale. Ci`o vuol dire che, al contrario degli effetti del I ordine, essi vengono percepiti anche con ascolto binaurale (quando, cio`e, ciascuno dei due stimoli (contemporanei) e` presentato ad un solo orecchio).
2.10. ELABORAZIONE DELLO STIMOLO UDITIVO NEL SISTEMA NERVOSO
2.25
Figura 2.17: Frequenza dei suoni di combinazione f c1 , fc2 e fc3 evocati dalla sovrapposizione di due suoni a frequenza f 1 e f2
2.10 Elaborazione dello stimolo uditivo nel sistema nervoso Gli effetti del secondo ordine mettono in evidenza l’incompletezza della teoria della localizzazione per spiegare molti fenomeni uditivi. La percezione dei battimenti pu`o essere spiegata se si ipotizza un sistema di analisi dei pattern temporali della vibrazione. Il meccanismo di ricostruzione della fondamentale, d’altra parte, pu`o essere spiegato anche con un sistema di analisi dell’informazione neurale generata dalla particolare configurazione spaziale che l’eccitazione della membrana basilare assume a fronte di un suono complesso. Al fine di capire meglio le teorie proposte negli ultimi anni sul funzionamento del processo uditivo, e` necessario introdurre alcune nozioni sul funzionamento del sistema nervoso uditivo. La prima funzione per il trasferimento dell’informazione localizzata sulla membrana basilare verso il sistema nervoso centrale e` espletata dalle cellule ciliate. Questi ricettori coprono la membrana basilare per tutta la sua estensione e fanno da ponte verso le terminazioni nervose. Essi sono soggetti a una sollecitazione meccanica ogni volta che la membrana e` eccitata nella zona corrispondente e provocano un impulso elettrico nelle terminazioni nervose ogni volta che tale sollecitazione supera una certa soglia. Le cellule che formano le terminazioni nervose, e che sono l’elemento fondamentale di elaborazione e trasmissione nel sistema nervoso, sono chiamate neuroni (fig 2.21). Nel neurone si distinguono il corpo, i dentriti e gli assoni. I dentriti ed il corpo della cellula sono i ricettori dei segnali neurali provenienti da altre cellule, mentre attraverso l’assone il neurone passa l’impulso elettrico ad altri neuroni nei punti di contatto con essi (sinapsi). I segnali neurali consistono in impulsi elettrici (potenziali di azione) dell’ordine delle decine di millivolt e della durata di pochi millisecondi.
2.26
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
Figura 2.18: Esempio di battimenti del II ordine tra 100 e 201 Hz (frequenza di battimento 1 Hz).
Figura 2.19: Sovrapposizione di due suoni puri con diverso sfasamento costante
Vi sono sinapsi di tipo eccitatorio e di tipo inibitorio. Quando, in un certo intervallo di tempo, un neurone riceve un numero di stimolazioni eccitatorie che supera di un certo valore di soglia il numero di stimolazioni inibitorie, esso sar indotto a produrre uno stimolo a sua volta. Questo potenziale (eccitatorio o inibitorio a seconda della natura del neurone) verr`a trasmesso ad altre cellule nervose mediante le sinapsi presenti sull’assone del neurone. E’ importante notare che un neurone emette un impulso elettrico in funzione della distribuzione temporale e spaziale dei segnali presinaptici. Possiamo ora descrivere come il sistema nervoso riceve le informazioni dall’organo della coclea. Quando un suono puro provoca il moto in corrispondenza di una zona di risonanza della membrana basilare le cellule ciliate vengono sollecitate e provocano un treno di impulsi elettrici nelle fibre nervose ad esse collegate. Avviene che la densit`a temporale degli impulsi nervosi dipende dalla velocit`a con cui la posizione della membrana passa dalla Scala Vestibuli alla Scala Timpani (Figura 2.6). L’inibizione della trasmissione si manifesta nel passaggio inverso e attivit`a minore si osserva in situazione di velocit`a minima. La Figura 2.22 mostra l’andamento temporale del treno di impulsi provo-
2.10. ELABORAZIONE DELLO STIMOLO UDITIVO NEL SISTEMA NERVOSO
Figura 2.20: Ricostruzione della fondamentale (τ 1 =
1 f 1 , τ2
=
1 f 2 , τ0
=
2.27
1 f0 )
cati da un’onda periodica a bassa frequenza. Da questa analisi si evince che una fibra nervosa del nervo uditivo e` capace di trasmettere i seguenti tipi di informazioni: a) posizione della risonanza sulla membrana (ogni fibra nervosa e` associata a una zona); b) distribuzione temporale degli impulsi e dunque periodicit`a e configurazione della forma d’onda. Possiamo ora chiederci come le informazioni sulla distribuzione temporale degli impulsi nervosi possa venire usata dal sistema nervoso per elaborare un effetto come i battimenti del secondo tipo. Se due stimoli con frequenze a distanza di un ottava eccitano la coclea, due fibre nervose in corrispondenza delle due zone di massima risonanza saranno attivate (informazione spaziale, che non spiega la sensazione del battimento). Tuttavia, alla particolare forma d’onda corrisponde un particolare pattern periodico di impulsi nervosi. La periodicit`a di tale pattern d`a informazioni sulla frequenza di ripetizione, mentre la particolare conformazione d`a informazioni sul pattern di vibrazione. La figura 2.23 (un esempio di istogramma delle occorrenze di intervalli temporali tra spike un una fibra nervosa) d`a un’informazione statistica legata al pattern di vibrazione. Questo tipo di analisi si ha verosimilmente per suoni a bassa frequenza, mentre alle alte frequenze l’informazione dovuta al pattern diventa confusa. L’analisi dettagliata della distribuzione temporale degli impulsi richiede dunque un ulteriore meccanismo, detto comunemente di autocorrelazione temporale, che mette in rilievo le caratteristiche periodiche del pattern impulsivo e che sopprime le altre, sulla base della comparazione del treno di impulsi attuale con treni di impulsi precedenti. Un simile meccanismo di correlazione temporale e` responsabile della sensazione di spazializzazione del suono. Allo scopo di stabilire dei ritardi temporali e quindi per elaborare informazioni di localizzazione della sorgente sonora, il sistema nervoso si serve della crosscorrelazione fra segnali neurali provenienti dalle due orecchie. Un modello di crosscorrelazione neurale, in cui un neurone e` attivato solo quando sia eccitato simultaneamente dalle due fibre nervose provenienti dalle due orecchie, e` illustrato in figura 2.24. I sistemi di analisi temporale e spaziale ora descritti sono modelli a cui si e` fatto ricorso per spiegare molti fenomeni percettivi, spesso legati a suoni puri o composti da componenti armoniche. Un
2.28
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
Figura 2.21: Neurone ulteriore fenomeno uditivo fondamentale e` quello per cui l’ascolto di un suono spettralmente ricco con componenti in relazione armonica fra loro produce un percetto unico avente pitch determinato dalla componente fondamentale, anzich´e dare luogo alla percezione di tanti suoni separati, ognuno con pitch legato alla frequenza della singola componente. Nessuna delle due teorie viste (temporale e spaziale) e` in realt`a in grado di fornire una spiegazione esauriente. Per spiegare come sia possibile assegnare ad un complesso spettrale un pitch unico, si fa allora l’ipotesi di esistenza di un sistema centrale di elaborazione dell’altezza. Questo sistema agisce ad alto livello riconoscendo che strutture sonore di natura armonica riproducono sulla membrana basilare pattern simili per propriet`a (ad esempio, al crescere dell’ordine della parziale le distanze fra zone di risonanza mantengono una certa relazione definita, si veda figura 2.25). La funzione dell’elaboratore di altezza e` quella di assegnare un pitch unico a eventi di questo tipo. Attraverso criteri di matching con templates di base (sorta di database di pattern spaziali), l’elaboratore e` anche in grado di assegnare un pitch a un suono senza fondamentale, elaborando il matching parziale.
2.10. ELABORAZIONE DELLO STIMOLO UDITIVO NEL SISTEMA NERVOSO
2.29
Figura 2.22: Treno di impulsi generato da un’onda periodica
Figura 2.23: Istogramma del numero di occorrenze di dato tempo di intercorrenza fra spike successivi nel nervo uditivo a fronte di un eccitazione composta da due suoni puri
2.30
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
Figura 2.24: Modello di individuatore di differenze temporali interaurali
Figura 2.25: Pattern spaziale sulla membrana basilare dovuto a un suono armonici
` ACUSTICA 2.11. MISURE DI INTENSITA
2.31
2.11 Misure di intensit`a acustica Si e` visto, quando si sono descritti orecchio medio e orecchio interno, che l’ampiezza dell’oscillazione del timpano dovuta a un suono puro determina l’ampiezza dello scostamento della membrana basilare. Questa, a sua volta, determina la sensazione di intensit`a del suono. L’ampiezza dell’oscillazione del timpano e` in stretta relazione con i parametri fisici di variazione di pressione ∆p e di flusso di potenza acustica, o intensit`a, I. L’orecchio e` sensibile a un range dinamico estremamente ampio (10 −12 ÷ 1 mW2 ) e l’impraticit`a di una scala lineare ha portato all’uso della misura di livello di intensit`a (o IL), espresso in dB. Vi sono degli evidenti vantaggi legati all’uso questa scala: una scala logaritmica offre innanzitutto una notevole compressione dei valori; e` una scala relativa, i valori sono riferiti a un valore di riferimento (soglia dell’udibile); l’unit`a della scala ha un valore che rappresenta approssimativamente la minima variazione percepibile di intensit`a, definita JND di intensit a` . Questo valore e` funzione della frequenza del suono puro, e dell’intensit`a di partenza. Si pu`o comunque dire che il JND di intensit`a assume valori massimi dell’ordine di 1.5 dB e valori minimi intorno ai 0.3 dB (figura 2.26).
Figura 2.26: Valori di JND di intensit`a per valori diversi di IL e frequenza del suono puro Nel paragrafo 2.5.1 e` stata introdotta una seconda scala logaritmica che definisce il livello di intensit`a acustica in funzione della pressione sonora (SPL). Sperimentalmente si osserva che suoni puri continui, caratterizzati da stesso SPL ma a frequenze diverse, producono sensazioni diverse di intensit`a. Questo indica che l’SPL non e` una buona misura dell’intensit`a percepita se confrontiamo suoni puri a frequenza diversa. E’ stato dunque necessario trovare sperimentalmente i valori di eguale intensit`a percepita (curve isofoniche o curves of equal loudness) al variare della frequenza considerando come riferimento l’SPL a 1000 Hz. Il risultato e` riassunto nel diagramma di figura 2.27, dovuto a Fletcher e Munson. Si noti, ad esempio, come un suono puro con SPL di 50 dB a 1000 Hz e` considerato piano mentre e` appena udibile a 60 Hz. In altre parole, per produrre la stessa sensazione di intensit`a alle basse frequenze e` necessaria molta pi`u energia di quella necessaria per produrre la stessa sensazione alla frequenza di riferimento di 1000 Hz. Si pu`o notare ancora, osservando la curva che rappresenta la soglia dell’udibile, che la sensibilit`a dell’orecchio diminuisce notevolmente alle basse frequenze e alle frequenza alte al di sopra dei 6000 Hz. Per avere una misura del livello percepito del suono che sia semplice, ma che tenga anche conto della percezione, e` stato definito il concetto di livello del suono (sound level) Esso e` una misura pesata in frequenza, con curve che tengono conto approssimativamente della differente sensibilit`a dell’udito alle varie frequenze. Sono state definite quattro differenti curve di peso, chiamate curva A, B, C, D illustrate in figura 2.28. La curva A enfatizza leggermente le frequenze centrali e attenua le basse e alte frequenze. Si pu`o vedere che essa e` una stima molto approssimata dell’andamento (invertito)
2.32
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
Figura 2.27: Curve di eguale intensit`a percepita (Fletcher and Munson, 1933) delle curve di egual loudness (fig. 2.27). Le altre curve sono usate raramente. L’unit`a di misura di tutti i sound level e` il decibel come per SPL, ma e` uso chiamare le misure pesate dalla curva a con dB(A). In stretta relazione con le curve isofoniche e` la definizione di Phon (o Loudness Level, LL): il LL di un suono a frequenza f e` dato dal SPL di un suono a 1000 Hz che determina la stessa percezione di intensit`a. Dire dunque che un suono e` a 80 Phon vuol dire fornire i valori della curva di isofonia relativa a 80 SPL per tutte le frequenze. Si noti che la scala dei Phon non e` ancora una scala soggettiva (un raddoppio dei phon non determina un raddoppio dell’intensit`a percepita). Gli studi per la determinazione di una scala soggettiva hanno portato alla definizione della scala dei Son (o subjective loudness, L). In questa nuova scala la sonorit`a soggettiva raddoppia ogni 10 Phon. La relazione fra scala dei Phon e scala dei Son e` illustrata in figura 2.29. La legge che lega i Son e l’intensit` a del p suono ( o la variazione di pressione ∆p) si esprime con √ la formula approssimata L = C1 3 I = C2 3 ∆p2 , dove C1 e C2 sono parametri che dipendono dalla frequenza. E’ possibile valutare questa relazione anche per suoni composti dalla sovrapposizione di pi`u componenti sinusoidali. In questo caso e` importante distinguere i seguenti casi: per suoni le cui frequenze cascano nella stessa banda √ critica, l’intensit`a percepita risultante e` in relazione alla somma del delle intensit`a individuali: L = C1 3 I1 + I2 + I3 + .... Quando le frequenze √ √ suono√complesso superano i limiti della stessa banda critica, la relazione diventa L = C 1 3 I1 +C2 3 I2 +C3 3 I3 + .... Quando, infine, le componenti sono molto diverse per frequenza e intensit`a l’ascoltatore tende a focalizzare l’attenzione su una sola componente (quella a frequenza pi`u elevata o quella a intensit`a maggiore), attribuendo al suono complesso altezza e intensit`a di quella singola componente. I valori di sonorit`a soggettiva visti fanno riferimento a suoni puri di durata superiore al mezzo secondo. Questa assunzione e` necessaria perch`e, per tempi inferiori, la durata del suono influenza la sonorit`a soggettiva: pi`u breve e` il suono, pi`u basso risulta il livello percepito se l’intensit`a del suono e` mantenuta costante. La figura 2.30 illustra la relazione al variare della durata fra l’effettiva sonorit`a soggettiva (r) e la sonorit`a soggettiva (L) di un suono stazionario di eguale frequenza e ampiezza.
` ACUSTICA 2.11. MISURE DI INTENSITA
Figura 2.28: Curve di eguale intensit`a percepita (Fletcher and Munson, 1933)
Figura 2.29: Confronto fra le scale dei Phon e quella dei Son
Figura 2.30: Influenza della durata sulla sonorit`a soggettiva
2.33
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.34
2.12 Mascheramento dei suoni Ascoltando un suono composto da due suoni puri, non sempre l’ascoltatore percepisce le componenti distintamente. Quando, ad esempio, uno dei due suoni e` caratterizzato da un’intensit`a molto maggiore dell’altro, quest’ultimo risulta inudibile o mascherato. Si definisce livello di mascheramento, ML l’intensit`a del suono mascherato alla soglia del mascheramento. In figura 2.31 sono illustrate le curve di mascheramento per diverse coppie di suoni puri. Si noti come in corrispondenza del punto in cui i due suoni assumono stessa frequenza (o l’uno frequenza doppia dell’altro), l’insorgere di battimenti del primo e del secondo ordine abbassa notevolmente la soglia. In alcuni grafici questo effetto e` rimosso estrapolando i dati in corrispondenza dei punti critici (curve tratteggiate).
Figura 2.31: Curve del Livello di Mascheramento per coppie di suoni puri Se I1 e` l’intensit`a del suono mascherante e I2m e` l’intensit`a del suono mascherato alla soglia del mascheramento, le relazioni seguenti definiscono il valore di JND per il mascheramento: It
= I1 + I2m = I1 (1 +
I2m ) I1
ML−IL1 I2m I0 ) = I1 (1 + 10 10 ) I0 I1 ML − IL1 It ) JND = 10 log = 10 log(1 + 10 I1 10
= I1 (1 +
dove It e` l’intensit`a totale del suono risultante, I0 e` la soglia di udibilit`a e ML = 10 log II2m0 e` il livello di mascheramento.
2.13. LA PERCEZIONE DEL TIMBRO
2.35
2.13 La percezione del timbro La parola timbro e` usata per denotare la qualit`a o il colore del suono. La definizione standard di timbro e` quell’attributo che ci permette di giudicare diversi due suoni che abbiano stessa intensit`a, stessa altezza (e stessa durata). Questa e` una definizione in negativo; infatti dice cosa non e` timbro e quindi lascia spazio all’immaginazione. In genere si pu`o considerare che il concetto di timbro faccia riferimento a due differenti propriet`a del suono: • identit`a del suono ad esempio di uno strumento musicale, che differenzia un suono prodotto da uno strumento da quello prodotto da un’altro strumento. Questo concetto e` legato alla identificazione della sorgente. • qualit`a del suono; anche se un suono mantiene la sua identit`a in differenti condizioni, la sua qualit`a pu`o cambiare in molti modi. Ad esempio il suono di un violino in una sala di concerto o sentito al telefono, ha qualit`a molto diversa, ma e` sempre riconosciuto come suono di violino: mantiene cio`e la sua identit`a. Il primo fattore e` legato ad aspetti temporali del suono, mentre il secondo e` pi`u legato ad aspetti spettrali. Nella visione pi`u tradizionale, il timbro e` considerato essere determinato in primo luogo dallo spettro di potenza dello stimolo, in secondo luogo dalla forma d’onda (fase), dall’ intensit`a e dalle caratteristiche temporali. I principali parametri associati allo spettro di un suono sono l’altezza (frequenza fondamentale), l’intensit`a (integrale delle ampiezze delle parziali) e timbro (configurazione spettrale). Studi sperimentali hanno mostrato che il timbro e` determinato dalla distribuzione della potenza acustica nelle bande critiche, non dai rapporti di intensit`a delle varie armoniche con la fondamentale. A questo scopo il range di frequenze udibili e` stato diviso in 24 bande di circa un terzo di ottava (corrispondenti alle bande critiche)(tabella 2.13) ed e` stato poi misurato il grado di variazione timbrica percepita in funzione del cambiamento di potenza distribuita nelle bande. Banda critica Frequenza centrale [Hz] Larghezza banda [Hz] Banda critica Frequenza centrale [Hz] Larghezza banda [Hz] Banda critica Frequenza centrale [Hz] Larghezza banda [Hz]
1 50 100 9 1000 160 17 3400 160
2 150 100 10 1170 190 18 4000 190
3 250 100 11 1370 210 19 4800 210
4 350 100 12 1600 240 20 5800 240
5 450 100 13 1850 280 21 7000 280
6 570 120 14 2150 320 22 8500 320
7 700 140 15 2500 380 23 10500 380
8 840 150 16 2900 450 24 13500 450
Tabella 2.6: Bande critiche Il timbro di un suono non e` tuttavia determinato esclusivamente dalla configurazione statica dello spettro. Qualsiasi suono reale e` caratterizzato da una continua evoluzione temporale dello spettro. La dinamicit`a dello spettro e` particolarmente accentuata nelle fasi di transitorio del suono (attack, decay e release), particolarmente importanti per il riconoscimento timbrico e per l’identificazione dello strumento. La fase sostenuta dei suoni strumentali e` comunque caratterizzata da variazioni spettrali minori che conferiscono naturalezza al suono. La necessit`a di rappresentare l’evoluzione temporale dello spettro di un suono, giustifica l’uso delle rappresentazione tempo-frequenza-ampiezza, di cui un esempio e` dato in figura 2.32.
2.36
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
Figura 2.32: Rappresentazione tempo-frequenza-ampiezza di un suono
Si pu`o osservare che il timbro non e` una attributo mono-dimensionale, come l’altezza o l’intensit`a. Infatti per l’altezza, dati due suoni posso stabilire quale dei due e` pi`u alto e analogamente per l’intensit`a. Ne risulta che li posso ordinare secondo l’attributo altezza o intensit`a. Per il timbro non vale una analoga propriet`a. Non posso infatti determinare quale dei due e` pi`u timbrico. Nei classici studi di Grey e Krumhansl si e` adottato l’approccio dimensionale per definire il timbro (si veda al proposito la definizione dimensionale di emozione nel capitolo su musica ed emozioni). Mediante multidimensional scaling dei giudizi di similarit`a degli ascoltatori, si e` arrivati a definire che gli ascoltatori tendono a basare i loro giudizi di similarit`a secondo tre dimensioni percettive. In fig. 2.33 e` riportato lo spazio timbrico percettivo determinato da Grey. Si e` poi tentato di determinare i parametri acustici correlati a queste dimensioni. • Una dimensione e` legata alla qualit`a dell’attaco del suono, distinguendo suoni pizzicati e percossi dai suoni dei fiati e archi. Risulta correlata con il logaritmo della durata dell’attacco. • La seconda dimensione e` legata alla brillantezza del suono e distingue suoni che presentano molta energia alle alte parziali, da quelli in cui l’energia e` concentrata nelle prime parziali. Risulta correlata al baricentro dello spettro. • la terza e` di pi`u incerta interpretazione. Secondo alcuni sembra dipendere dalla variazione spettrale tra parziali adiacenti, cio`e se lo spettro e` pi`u o meno frastagliato. Secondo altri dal flusso spettrale, cio`e dalla variabilit`a temporale dell’andamento delle parziali. Questa definizione dimensionale costituisce il cosiddetto spazio timbrico e viene usato da vari compositori come mezzo per organizzare la scelta dei timbri nelle loro composizioni.
2.14. CONCETTI PRINCIPALI
2.37
Figura 2.33: Rappresentazione dimensionale del timbro [Grey 1975]. Strumenti rappresentati: BN Bassoon C1 - E flat Clarinet C2 - B flat Bass Clarinet EH - English Horn FH - French Horn FL - Flute O1 - Oboe O2 - Oboe (different instrument and player) S1 - Cello, muted sul ponticello S2 - Cello S3 - Cello, muted sul tasto TM - Muted Trombone TP - B flat Trumpet X1 - Saxophone, played mf X2 Saxophone, played p X3 - Soprano Saxophone. Dimension I: spectral energy distribution, from broad to narrow. Dimension II: timing of the attack and decay, synchronous to asynchronous. Dimension III: amount of inharmonic sound in the attack, from high to none.
2.14 Concetti principali Oscillazioni e onde Suoni periodici e non periodici. Rumore. Rumore impulsivi e rumore stazionario. Frequenza dei suoni periodici. Frequenza ed altezza. Armoniche e parziali.
Inviluppo dei suoni Fasi dell’inviluppo: attack, decay, sustain, release
Propagazione del suono Oscillazioni longitudinali e trasversali. Lunghezza d’onda, frequenza e velocita` del suono. Onde sferiche eonde piane. Diffrazione, riflessione, eco.
Intensita` del suono Pressione acustica e varie misure di livello. Intensita` della somma di due o piu` suoni.
Psicoacustica Caratteristiche fisiche e sensazioni uditive. Sensazioni uditive e scale temporali.
CAPITOLO 2. ELEMENTI DI ACUSTICA E PSICOACUSTICA
2.38 Organo dell’udito
Orecchio esterno, medio e interno. Coclea e membrana basilare. Funzionamento della coclea e sua influenza sulla percezione.
Sensazione di altezza ` Percezione di altezza. JND. Pitch e intensita.
Sovrapposizione di suoni Sovrapposizione di suoni sinusoidali: battimenti del primo e secondo ordine. Bande critiche. Suoni di combinazione. Consonanza percettiva.
Elaborazione dello stimolo acustico nel sistema nervoso Vari tipi di cellule, neuroni e sinapsi. Modelli temporali e spaziali per spiegare i fenomeni percettivi.
Percezione dell’intensita` ` Curve isofoniche e Phon. Intensita` di suoni composti o piu` suoni. JND di intensita.
Mascheramento Mascheramento in frequenza e temporale. Livello di mascheramento. Suono mascherante e suono mascherato.
Timbro Definizione di timbro. Identita` del suono e qualita` del suono. Fattori temporali e fattori spettrali. Le tre dimensioni del timbro e lo spazio timbrico.
2.15 Bibliografia commentata Due classici libri che trattano questi argomenti sono [2] e [1].
Bibliografi a [1] J. R. Pierce. La Scienza del Suono. Zanichelli, 1988. [2] J. G. Roederer. The Physics and Psychophysics of Music. Springer Verlag, 1980.
2.39
2.40
BIBLIOGRAFIA
Indice 2 Elementi di Acustica e Psicoacustica 2.1 Acustica: introduzione . . . . . . . . . . . . . . . . . . . . 2.2 Oscillazioni e onde . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Suoni periodici . . . . . . . . . . . . . . . . . . . . 2.2.2 I suoni reali . . . . . . . . . . . . . . . . . . . . . . 2.3 Inviluppo dei suoni . . . . . . . . . . . . . . . . . . . . . . 2.4 Propagazione del suono . . . . . . . . . . . . . . . . . . . . 2.4.1 Onde sferiche e onde piane . . . . . . . . . . . . . . 2.4.2 Diffrazione . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Riflessione . . . . . . . . . . . . . . . . . . . . . . 2.5 Intensit`a del suono . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Decibel e misure del suono . . . . . . . . . . . . . . 2.6 Psicoacustica: introduzione . . . . . . . . . . . . . . . . . . 2.7 Caratteristiche fisiche del suono e sensazioni uditive . . . . . 2.8 L’organo dell’udito . . . . . . . . . . . . . . . . . . . . . . 2.8.1 Percezione di altezza dei suoni puri e discriminazione 2.8.2 Pitch e intensit`a dei suoni puri . . . . . . . . . . . . 2.9 Sovrapposizione di suoni puri . . . . . . . . . . . . . . . . 2.9.1 Gli effetti del I ordine . . . . . . . . . . . . . . . . 2.9.1.1 Battimenti del I ordine . . . . . . . . . . . 2.9.1.2 Bande critiche . . . . . . . . . . . . . . . 2.9.1.3 Consonanza sensoriale . . . . . . . . . . . 2.9.1.4 Suoni di combinazione . . . . . . . . . . 2.9.2 Gli effetti del II ordine . . . . . . . . . . . . . . . . 2.9.2.1 Battimenti del secondo ordine . . . . . . . 2.9.2.2 Rintracciamento della fondamentale . . . 2.10 Elaborazione dello stimolo uditivo nel sistema nervoso . . . 2.11 Misure di intensit`a acustica . . . . . . . . . . . . . . . . . . 2.12 Mascheramento dei suoni . . . . . . . . . . . . . . . . . . . 2.13 La percezione del timbro . . . . . . . . . . . . . . . . . . . 2.14 Concetti principali . . . . . . . . . . . . . . . . . . . . . . 2.15 Bibliografia commentata . . . . . . . . . . . . . . . . . . .
2.41
2.1 . . . . . . . . . . . . . 2.1 . . . . . . . . . . . . . 2.1 . . . . . . . . . . . . . 2.2 . . . . . . . . . . . . . 2.3 . . . . . . . . . . . . . 2.4 . . . . . . . . . . . . . 2.5 . . . . . . . . . . . . . 2.6 . . . . . . . . . . . . . 2.7 . . . . . . . . . . . . . 2.8 . . . . . . . . . . . . . 2.8 . . . . . . . . . . . . . 2.9 . . . . . . . . . . . . . 2.13 . . . . . . . . . . . . . 2.13 . . . . . . . . . . . . . 2.15 del pitch (JND di frequenza) 2.17 . . . . . . . . . . . . . 2.19 . . . . . . . . . . . . . 2.19 . . . . . . . . . . . . . 2.19 . . . . . . . . . . . . . 2.20 . . . . . . . . . . . . . 2.20 . . . . . . . . . . . . . 2.21 . . . . . . . . . . . . . 2.22 . . . . . . . . . . . . . 2.23 . . . . . . . . . . . . . 2.23 . . . . . . . . . . . . . 2.24 . . . . . . . . . . . . . 2.25 . . . . . . . . . . . . . 2.31 . . . . . . . . . . . . . 2.34 . . . . . . . . . . . . . 2.35 . . . . . . . . . . . . . 2.37 . . . . . . . . . . . . . 2.38
Capitolo 3
Modelli dell’Interpretazione Musicale Antonio Rodà
Sergio Canazza
Copyright c 1999 by Antonio Rodà and Sergio Canazza. All rights reserved.
La Musica può essere vista come un complesso mezzo per comunicare messaggi, emozioni, stati d’animo, sensazioni. Inoltre, data la sua "inafferrabilità", essa si presta ad essere plasmata in modo sempre nuovo ed affascinante arrivando a descrivere gesti e movimenti, emozioni e paesaggi. Kendall & Carterette (1990) hanno proposto un modello per descrivere la trasmissione delle idee musicali. Esso coinvolge tre soggetti: il compositore, l’esecutore, e l’ascoltatore (vedi Fig. 3.1). Tutto parte dall’idea generatrice, che il compositore deve abilmente tradurre in una partitura convenzionale, formata da note e da alcune indicazioni sulle modalità esecutive. Sarà poi compito dell’esecutore "interpretare" tali simboli e tradurli in vibrazioni fisiche (suoni e rumori), che verranno percepiti dall’ascoltatore. Solo quest’ultimo, infine, attribuirà loro un certo significato, il quale non necessariamente corrisponderà all’idea generatrice o a quella interpretata dall’esecutore. Questo modello implica alcune conse-guenze. Per primo c’è da notare che l’operazione di traduzione dell’idea musicale in una partitura eseguibile, non consente di trasmettere tutte le informazioni necessarie per una sua univoca interpretazione. Questo problema, nel corso dei secoli, ha impegnato ed affascinato generazioni di teorici e musicisti. La convinzione che una partitura convenzionale non consentisse di trasmettere compiutamente il senso musicale di un brano, era già nota nel Medioevo, quando ci furono i primi tentativi di tradurre per iscritto qualcosa che, fino ad allora, era tramandato solo per via diretta. Per questo, a complemento delle partiture che venivano stampate, i musicisti erano a conoscenza di una ricca prassi esecutiva, che si trasmettevano prima oralmente e poi tramite dei veri e propri trattati teorici. Ed è solo grazie ad alcuni di questi, di cui abbiamo tuttora testimonianza, che ci è possibile fornire una qualche interpretazione di musiche composte in epoche lontane dalla nostra. Inoltre la conoscenza, anche perfetta, della sola prassi esecutiva non sarebbe sufficiente, in quanto "quando parliamo di note, in effetti, riduciamo ad immagine puntuale una realtà sonora - un microcosmo sonico-articolatorio - che è invece di estrema complessità e, anche se mai teorizzato finora, è stato manipolato con grande competenza, sensibilità e fantasia dai musicisti esecutori e compositori di ogni epoca e tradizione. Un’analisi che non tenesse conto di tutto questo si chiuderebbe alla comprensione di quei meccanismi della musicalità umana, che non sono stati teorizzati e codificati proprio perché agiscono a un livello forse troppo profondo perché il musicista ne abbia piena consapevolezza."(Fugazzotto, 1992) Da quanto detto è facile comprendere come la figura dell’esecutore non possa essere paragonata a quella di un semplice "ripetitore", bensì si può affermare che questa possieda un 3.1
3.2
CAPITOLO 3. MODELLI DELL’INTERPRETAZIONE MUSICALE
Figura 3.1: un modello di comunicazione musicale. C=compositore; E=esecutore; A=ascoltatore. proprio ruolo creativo ed artistico che, in base alla propria esperienza e sensibilità, va sia a completare che talvolta a sovrapporsi all’opera del compositore. Può sembrare assai arduo, allora, il compito di chi si appresti a cercare l’esistenza di regole che consentano, data una partitura generica, di ricavare automaticamente le informazioni necessarie alla sua interpretazione. Recenti studi sulle esecuzioni musicali, però, lasciano intravedere la possibilità di definire un linguaggio che, oltrepassando le inevitabili differenze soggettive, consenta la trasmissione di messaggi espressivi univo-camente interpretabili da esecutore ed ascoltatori. Numerosi sono i modelli e le regole proposti per studiare il problema dell’interpretazione musicale. L’articolo di G.U. Battel "Analisi dell’interpretazione: le nuove metodologie" fornisce una rassegna dei principali lavori pubblicati negli ultimi anni. In particolare, uno dei modelli più interessanti è quello basato sul sistema di regole elaborato presso l’Istituto Reale di Tecnologia (KTH) di Stoccolma, che viene esposto in dettaglio nella seconda parte dell’articolo di Battel "Analisi dell’interpretazione: un sistema di regole quantitative per l’esecuzione musicale". Il sistema di regole del KTH è in grado, partendo da una partitura generica, di fornire le informazioni necessarie a realizzare un’esecuzione musicalmente corretta. Con questo termine si intende un’esecuzione che rispetti le principali regole estetiche del fraseggio e della sintassi musicale. Questo sistema, però, non tiene conto di un altro importante aspetto: oltre ad interpretare correttamente il fraseggio e le strutture musicali, l’esecutore è in grado di agire sui suoni in modo da conferire carattere e colore alla sua interpretazione. E’ questo elemento che conferisce unicità e bellezza ad ogni esecuzione. L’articolo "Analysis by synthesis of the expressive intentions in musical performance" presenta un’accurata analisi delle intenzioni espressive trasmesse dal musicista mediante l’interpretazione musicale.
Capitolo 4
Analisi ed Elaborazione del Suono Riccardo Di Federico Copyright c 1999 by Riccardo Di Federico. All rights reserved.
4.1
Analisi di Fourier
L’analisi spettrale costituisce uno dei più potenti strumenti di indagine in molti campi dell’ingegneria. Il fatto di poter rappresentare segnali complessi come somma di funzioni semplici, tipicamente sinusoidi o esponenziali complessi, permette di evidenziare caratteristiche del segnale altrimenti difficili, se non impossibili, da rilevare. Ad esempio, parametri acustici quali pitch (altezza) e timbro sono generalmente ottenuti mediante algoritmi operanti nel dominio della frequenza. La decomposizione in funzioni semplici è di grande aiuto anche quando si deve modificare il segnale. Poter agire selettivamente su ogni singola componente permette di effettuare manipolazioni di caratteristiche del suono, quali il timbro, impraticabili con semplici interventi sulla forma d’onda. Una trattazione teorica rigorosa dell’analisi spettrale è al di là degli scopi di questi appunti. In questa sede ci concentreremo più sull’interpretazione e l’uso del più comune strumento di indagine spettrale: la Short Time Fourier Transform (STFT), definita come trasformata di Fourier dipendente dal tempo. La STFT è spesso sinonimo di analisi tempo-frequenza, locuzione con cui intendiamo uno studio congiunto delle caratteristiche temporali e spettrali del suono, cioè dell’evoluzione temporale dei parametri spettrali del segnale. Per arrivare a comprendere il significato della STFT verranno richiamati alcuni elementi teorici della trasformata di Fourier. A partire dalla serie di Fourier, definita per segnali analogici, periodici e di lunghezza infinita, verranno introdotte come estensioni l’integrale e la trasformata di Fourier. Rimuovendo quindi l’ipotesi di segnale analogico saranno definite la trasformata per segnali a tempo discreto e la trasformata discreta (cioè a tempi e frequenze discrete). Sulla base delle osservazioni fatte sulla trasformata di Fourier verranno infine discusse le principali problematiche relative all’impiego della Short Time Fourier Transform.
4.1.1
Segnale periodico, a tempo continuo, di estensione infinita - serie di Fourier
Sia x ✁ t ✂ un segnale a tempo continuo, periodico di periodo T e di estensione infinita: x ✁ t ✂☎✄ x ✁ t ✆ mT ✂
✝ 4.1
m
✞✠✟☛✡ t ✞✌☞
(4.1)
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.2
si dimostra allora che x ✁ t ✂ può essere rappresentato da una somma pesata (e in generale infinita) di cosinusoidi le cui frequenze sono multiple intere di 1/T. Si ha cioè’: x ✁ t ✂✍✄
✎
∞
∑ Ck cos ✁ ω0 kt ✆ ✏
φk ✂
ω0
✄
k 0
2π T
(4.2)
in cui il termine φk tiene conto della "posizione" della k ✑ esima cosinusoide. Una forma alternativa, più comoda per introdurre la trasformata di Fourier è la forma complessa della serie di Fourier, che si ottiene dalla (4.2) riscrivendo il coseno come somma di esponenziali complessi e riorganizzando i limiti della sommatoria: ✎ ∞ 2π x ✁ t ✂☎✄ ∑ Fk e ✔ jω0 kt ✕ ω0 ✄ (4.3) T k ✏✓✒ ∞ in cui gli Fk sono legati ai Ck attraverso la relazione: C ✖ k ✖ jsgn k ✕ φ ✗ ✗ e ✔ k 2
✄
Fk
n
✞✌✟
(4.4)
quindi i coefficienti Fk contengono sia l’informazione di fase che quella di modulo relative alla k-esima ✘ ✘ parziale: Fk ✄ Ck ✙ 2 ✡✛✚ Fk ✄ φk ✜ (4.5) la determinazione di Fk si ottiene osservando che dato che tutti gli esponenziali presenti in (4.3) sono combinazioni di seni e coseni di periodo T, il loro integrale sul periodo è nullo; si ha in particolare:
✢
T
e jω0 nt e ✒
jω0 mt
✢ ✄
dt
0
e jω0 ✔ n ✒
T 0
✕
mt
dt
✄✤✣
n ✄✥ m n✄ m
0 T
(4.6)
Se a e jω0 nt sostituiamo x ✁ t ✂ , il valore dell’integrale diventa Fm T , pari cioè al coefficiente dell’unico esponenziale di x a pulsazione ω0 m. È quindi diretta la derivazione della seguente formula per il calcolo dei coefficienti della serie: Fk
✢
1 T
✄
x ✁ t ✂ e✒
T 0
jω0 kt
dt
jω0 kt
dt ✧ e ✔
(4.7)
sostituendo infine la (4.7) nella (4.3) si ottiene l’identità: x ✁ t ✂✍✄
4.1.2
✎
∞
1 ∑ T✦ k ✏✓✒ ∞
✢
x ✁ t ✂ e✒
T 0
jω0 kt
✕
(4.8)
Segnale aperiodico, a tempo continuo, di estensione infinita. Integrale e trasformata di Fourier
Nel caso il segnale non sia perfettamente periodico non è possibile darne una rappresentazione periodica, ottenuta come somma di coseni a frequenze multiple della fondamentale. Tuttavia si può pensare di estendere l’intervallo considerato come periodo fino a comprendere l’intero asse reale. In questa operazione di limite la frequenza fondamentale tende a zero e così anche la distanza fra le armoniche. In pratica la somma nella (4.8) diventa un integrale con la sostituzione formale 1 ✙ T ★ d f ✡ ω ✄ 2π f ✡ dω ✄ 2π f e i limiti di integrazione della (4.7) diventano ✁✩✑ ∞ ✡✪✆ ∞ ✂ : x ✁ t ✂✍✄
1 2π
✢ ✎ ✒
∞ ∞
✢ ✎
✦ ✒
∞ ∞
x ✁ t ✂ e✒
jωt
dt ✧ e ✔
jωt
✕ dω
(4.9)
4.1. ANALISI DI FOURIER
4.3
La (4.9) prende il nome di integrale di Fourier. Il termine entro parentesi quadre svolge il ruolo dei coefficienti complessi della serie di Fourier, e può quindi essere interpretato come l’ampiezza complessa, contenente cioè l’informazione di modulo e fase, alla frequenza ω. La funzione di ω che ne risulta è la trasformata di Fourier:
✢ ✎
F ✁ ω ✂✍✄
✒
∞ ∞
x ✁ t ✂ e✒
jωt
dt
(4.10)
La (4.9) ci fornisce anche la formula di inversione (trasformata inversa di Fourier): x ✁ t ✂☎✄
4.1.3
✢ ✎
1 2π
∞
✒
∞
F ✁ ω ✂ e jωt dω
(4.11)
Segnale aperiodico, a tempo discreto, di estensione infinita. Trasformata di Fourier a tempo discreto (DTFT)
Il calcolo numerico della trasformata di Fourier richiede il campionamento del segnale da analizzare. Questa discretizzazione dei tempi implica la sostituzione del simbolo di integrale nella (4.10) con un simbolo di sommatoria: ✎ ∞
F ✁ ω ✂✍✄ TC
n
oppure, ridefinendo ωr
✄
∑ x ✁ nTC ✂ e ✒
✏✓✒
jωnTC
(4.12)
∞
ωTC (e quindi passando da rad/s a rad) e x ✁ n ✂☎✄ x ✁ nTC ✂ :
✎
F ✁ ωr ✂✍✄ TC n
∞
∑ x ✁ n✂ e✒
✏✓✒
jωr n
(4.13)
∞
è facile osservare che F ✁ ωr ✂✫✄ F ✁ ωr ✆ 2π ✂ come era naturale attendersi dato che il campionamento in un dominio corrisponde alla periodicizzazione nel dominio duale. La trasformata a tempi discreti può quindi essere definita per valori di ωr ✞ 0 ✡ 2π ✂ . Ammesso che siano rispettate le condizioni del ✦ teorema del campionamento (se non lo sono si può pre-processare il segnale con un filtro antialiasing), il segnale può essere recuperato dalla sua trasformata applicando la (4.11) con la sostituzione della variabile di integrazione ω ★ ωr ✁ dω ✄ dωr ✙ Tc ✂ x ✁ n ✂☎✄
4.1.4
1 2π
✢
π
✒
π
F ✁ ωr ✂ e jωr n dω
(4.14)
Segnale aperiodico, a tempo e frequenze discreti. Trasformata discreta di Fourier (DFT)
Come è facile rendersi conto, il calcolo numerico della trasformata inversa (4.14) richiede che, oltre ai tempi, anche le frequenze siano discretizzate. Questo passaggio si può ottenere campionando uniformemente l’asse frequenziale, e sostituendo quindi ωr ★ 2π ✙ N (con k ✞ ✑ N ✙ 2 ✆ 1 ✡ N ✙ 2✧ per N pari e ✦ k ✞ ✑✬✁ N ✑ 1 ✂ ✙ 2 ✡✛✁ N ✑ 1 ✂ ✙ 2✧ per N dispari). Il simbolo di integrale nella (4.14) viene sostituito da una ✦ sommatoria e dωr ★ ∆ωr ✄ 2π ✙ N. Si ha quindi:
✎
F ✁ k ✂✍✄ T n
∞
∑ x ✁ n✂ e✒
✏✓✒
∞
j2π kn N
(4.15)
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.4
1 N ✮ 2✒ 1 F ✁ k ✂ e✒ N k ✏✓✒ ∑ N ✮ 2✒ 1
x ✁ n ✂✭✄
1 ✔ N ✒ 1 ✕✯✮ 2 F ✁ k ✂ e✒ N k ✏✓✒ ∑ N ✒ 1 ✕✯✮ 2
x ✁ n ✂✭✄
j2π kn N
N pari
j2π kn N
N dispari
(4.16)
(4.17)
✔
Il campionamento nel dominio della frequenza induce sul segnale x ✁ n ✂ una periodicizzazione di periodo N. Per evitare aliasing nel tempo, cioè per ricostruire in modo esatto il segnale, x ✁ n ✂ dovrà quindi avere un’estensione inferiore o uguale a N, nel qual caso la somma nella (4.16) sarà limitata a n ✞ ✑ N ✙ 2 ✆ 1 ✡ N ✙ 2✧ e quella in (4.17) a n ✞ ✑✬✁ N ✑ 1 ✂ ✙ 2 ✡✛✁ N ✑ 1 ✂ ✙ 2✧ per N dispari. I noti algo✦ ✦ ritmi di Fast Fourier Transform (FFT) non sono altro che implementazioni veloci della DFT, con la limitazione che la lunghezza del segnale deve essere limitata e pari a una potenza di due.
4.2
Short Time Fourier Transform (STFT)
Nel caso si voglia usare la DTFT per analizzare le proprietà tempo varianti di un segnale è necessario selezionare tratti di segnale sufficientemente corti da poter essere assunti stazionari. Una sequenza di questi spettri a breve termine costituisce la Short Time Fourier Transform.
4.2.1
Definizioni
Sia x un segnale a tempo discreto; definiamo come Short Time Fourier Transform di x: ∞
Xn ✁ e jω ✂✰✄ m
∑
✏✓✒
∞
w ✁ n ✑ m✂ x ✁ m✂ e✒
jωm
(4.18)
in cui w ✁ n ✑ m ✂ è una sequenza reale di estensione finita, detta finestra di analisi, che ha la funzione di limitare, troncandola in modo più o meno brusco, la porzione di segnale sotto analisi. È evidente che la STFT di un segnale è una funzione di due variabili: la pulsazione ω (normalizzata a 0 ✡ 2π ✂ ), e il ✦ campione n a cui essa è valutata. La (4.18) può essere interpretata come una trasformata che "scorre" sul segnale (in effetti è la finestra che scorre sul segnale). Una forma alternativa della (4.18) si può ottenere con il cambio di indice nella somma n ✑ m ★ m: Xn ✁ e jω ✂✍✄ e ✒
∞
jωn m
∑
✏✓✒
∞
w ✁ n ✂ x ✁ n ✑ m ✂ e jωm
(4.19)
In questo caso è il segnale che scorre sotto la finestra centrata intorno all’origine.
4.2.2
Interpretazione della STFT come Trasformata di Fourier e come banco di filtri
Considerando n fissato, la (4.18) si può vedere come la trasformata a tempo discreto di x intorno all’istante n, su un’estensione limitata dalla lunghezza della finestra di analisi. Applicando la formula di trasformata inversa alla (4.18) si può ricostruire x ✁ n ✂ a partire dalla sua STFT: w ✁ n ✑ m ✂ x ✁ n ✂✍✄
1 2π
x ✁ n ✂☎✄
✢
π
✒
π
Xn ✁ e jω ✂ e jωm dω
1 2πw ✁ 0 ✂
✢ ✒
π π
da cui, se w ✁ 0 ✂✱✄ ✥ 0
Xn ✁ e jω ✂ e jωm dω
(4.20) (4.21)
4.2. SHORT TIME FOURIER TRANSFORM (STFT)
4.5
Dal punto di vista della pulsazione, fissato il valore di ω, Xn ✁ e jω ✂ si può interpretare come l’uscita di un filtro con risposta w ✁✪✲ ✂ al cui ingresso viene immesso x ✁ n ✂ demodulato dall’esponenziale e ✒ jω . In altre parole la porzione di spettro intorno alla pulsazione w viene riportata intorno all’origine e quindi ’vista’ attraverso il filtro w ✁ n ✂ ,che ha in genere una risposta di tipo passabasso (figura 4.1).
✴ x(n)
✳w(n) ✶
Xn(exp(jwn))
✵exp(-jwn)
Figura 4.1: Interpretazione della STFT come banco di filtri
4.2.3
Influenza della finestra di analisi - principio di indeterminazione
Gli effetti del troncamento indotto dalla finestra di analisi possono essere evidenziati notando che, per il teorema della convoluzione, la trasformata di Fourier di un prodotto è la convoluzione delle trasformate. La STFT calcolata all’istante n è la convoluzione della trasformata Wn ✁ ω ✂ della finestra w ✁ n ✑ m ✂ e della trasformata del segnale X ✁ ω ✂ : Xn ✁ ω ✂✍✄ Wn ✷ X ✁ ω ✂
(4.22)
in cui, detta W ✁ ω ✂ la trasformata di w ✁ n ✂ e applicando le proprietà sulla✘ traslazione e sull’inversione ✘ ✒ jωn dell’asse ✘ ✘ dei✘ tempi, ✘ si ha Wn ✁ ω ✂☎✄ W ✁✩✑ ω ✂ e . Dato che w ✁✪✲ ✂ è reale W ✁ ω ✂ è pari e quindi anche Wn ✁ ω ✂ ✄ W ✁ ω ✂ . Ogni sinusoide (o esponenziale complesso) componente x dovrebbe essere rappresentato, in assenza della finestra, da un impulso ideale; l’effetto della finestra è di sostituire ad ognuno di questi impulsi la sua trasformata centrata alla frequenza dell’impulso stesso (figura 4.2). La scelta della lunghezza della finestra w va effettuata in base alle esigenze di risoluzione tempo-frequenziale. Prendiamo come esempio la finestra rettangolare (i ragionamenti che seguono si applicano ugualmente a tutte le finestre reali e pari che si usano normalmente nell’analisi spettrale). La trasformata di Fourier della finestra rettangolare è la funzione sinc ✁✪✲ ✂ , la cui estensione in frequenza cresce al diminuire della estensione temporale della finestra. Supponiamo di analizzare un segnale formato da due sinusoidi a frequenza diversa; se vogliamo una buona risoluzione temporale, l’intervallo di analisi deve essere il più corto possibile, in modo che i parametri del segnale si possano ritenere approssimativamente stazionari. La DTFT del segnale è data dalla convoluzione delle trasformate di x e della finestra. Dato che il segnale ha come trasformata una coppia di impulsi ideali e la finestra corrisponde a una fdt approssimativamente passabasso in frequenza, la trasformata globale consiste essenzialmente di due lobi centrati sulle frequenze dei seni. La larghezza di banda di questi lobi aumenta al diminuire della estensione temporale della finestra; se quest’ultima è troppo piccola i lobi sono così sovrapposti che non è più possibile distinguere le due componenti. In altre parole, una maggiore risoluzione temporale (piccola estensione della finestra) si paga con una peggiore risoluzione frequenziale (lobi larghi che si sovrappongono). Questo esempio può essere generalizzato nella definizione di un principio di indeterminazione secondo cui non è possibile stimare con precisione arbitraria e simultaneamente i parametri temporali e frequenziali di un segnale.
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.6 1
50 B
A
dB
0.5
0
0
−0.5
−1
0
2
4 tempo [s]
−50
6
0.5
−3
x 10
1
1 1.5 frequenza [Hz]
2 4
x 10
50 D
C
dB
0.5
0
0
−0.5
−1
0
2
4 tempo [s]
6 −3
x 10
−50
0.5
1 1.5 frequenza [Hz]
2 4
x 10
Figura 4.2: Effetto della finestra sulla trasformata di Fourier: a) segnale sinusoidale non troncato e b) modulo della sua trasformata; c) segnale dopo l’applicazione di una finestra e d) sua trasformata
4.2.4
Scelta del tipo di finestra da utilizzare
La finestra più semplice che si può pensare di utilizzare è quella rettangolare; in questo caso la porzione di segnale da analizzare viene semplicemente estratta mediante troncamento. Ci si può chiedere se non sia meglio in alcuni casi pesare in modo diverso l’inizio e la fine del frame di analisi. In effetti la finestra rettangolare è discontinua ai bordi e questo, come è noto, implica un decadimento delle code laterali della trasformata piuttosto lento. La conseguenza è che l’influenza della trasformata della finestra si sente anche a considerevole distanza sullo spettro. Se consideriamo invece una finestra che va a zero in modo ’dolce’ agli estremi, le code laterali rimangono basse, producendo uno spettro più ’pulito’. Naturalmente questo miglioramento non è gratuito; il prezzo da pagare è in termini di larghezza del lobo principale. In generale una finestra che permette una buona risoluzione frequenziale (lobo principale stretto) ha le code laterali alte, e viceversa. Un esempio di finestre con diverso compromesso fra larghezza del lobo principale e altezza delle code laterali è mostrato in figura 4.3.
4.2.5
Frequenze di campionamento della STFT nel tempo e in frequenza
Se risulta ovvio che il segnale debba essere campionato con una frequenza che rispetti le condizioni del teorema del campionamento, meno banale è la definizione della frequenza di campionamento della SFTF, cioè dell’intervallo che deve intercorrere fra una DTFT e la successiva (hop size) affinché non ci sia perdita di informazione, in modo cioè che il segnale di ingresso possa essere ricostruito esattamente dalla sua STFT. Con riferimento all’interpretazione come banco di filtri (figura 4.1), possiamo osservare che la banda passante della STFT (per qualunque pulsazione ω considerata) è pari a quella della trasformata della finestra di analisi, che definiremo B; sarà quindi sufficiente porre la frequenza di campionamento Fw della STFT a un valore pari o maggiore a due volte la banda della finestra:
4.2. SHORT TIME FOURIER TRANSFORM (STFT)
4.7
Figura 4.3: Confronto fra finestre di analisi con diverso compromesso larghezza del lobo principale/altezza delle code laterali. A)finestra rettangolare e B) modulo della trasformata in dB. C) finestra di Blackman e D) modulo della trasformata in dB. Fw ✸ 2B 1 . Si dimostra che la finestra con banda minima, e quindi che richiede la minima frequenza di campionamento, è quella rettangolare. Finora abbiamo considerato la STFT come sequenza di spettri continui in frequenza; questa ipotesi non può essere rispettata nella realtà degli elaboratori in cui i calcoli devono essere effettuati su insiemi finiti (seppure molto vasti) di elementi. Dovendo quindi campionare l’asse frequenziale, sostituiamo alla DTFT la DFT. Il problema che rimane è capire quale frequenza di campionamento delle frequenze debba essere adottata. Ancora una volta, applicando il teorema del campionamento, ma questa volta scambiando i ruoli dei domini temporale e frequenziale si può affermare che è necessario adottare almeno N ✸ L campioni dell’asse frequenziale, se L è la lunghezza temporale della finestra di analisi. In definitiva, se tutte le condizioni sul campionamento sono soddisfatte, la STFT può essere espressa, in termini di DFT: ∞
Xn ✁ e jω ✂✍✄ m
che con ωk
✄ 2π Nk diventa:
∑
✏✓✒
∞
Xn ✁ k ✂✍✄ m
∑
✏✓✒
∞
∞
w ✁ n ✑ m✂ x ✁ m✂ e✒
w ✁ n ✑ m✂ x ✁ m✂ e✒
jωk m
j2π km N
(4.23)
(4.24)
Esempio: finestra di Hamming Supponiamo di adottare una frequenza di campionamento del segnale pari a Fc come finestra di analisi la finestra di Hamming a 1024 punti (L=1024): w ✁ n ✂✍✄ 1 Le
✣ 0 ✜ 54 ✑ 0 ✜ 46cos ✁ 0
2πn L
✂
0
✹ n✹ L✑ 1 altrove
✄ 44100Hz, e usare (4.25)
finestre che si usano normalmente per la STFT hanno estensione limitata nel tempo e quindi non limitata in frequenza. Ne consegue che qualunque sia la determinazione di B, l’ipotesi del teorema del campionamento è solo approssimata.
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.8
Si può vedere che la banda B della finestra di Hamming rispetta approssimativamente la seguente relazione: Fc B ✺✄ 2 (4.26) L E dovrà quindi essere Fw ✻ ✄ 2B ✺✄ 4Fc ✙ L ✄ 4 ✷ 44100✙ 1024 ✺✄ 173Hz La STFT dovrà essere campionata nel tempo a circa 173 Hz cioè ogni Fc ✙ 173 ✄ 44100✙ 173 ✄ 254 campioni del segnale. Parrebbe a questo punto corretto supporre un uso della STFT per comprimere il segnale (Fw ✼✽✼ Fc ). D’altra parte per le considerazioni sulla frequenza di campionamento dell’asse frequenziale si ha che ogni DFT deve essere rappresentata da almeno L campioni. Ne consegue una frequenza di campionamento totale (quantità di campioni al secondo) SR ✄ Fw ✲ L ✺✄ 2BL
(4.27)
Nel caso della finestra di Hamming SR ✄ 2BL ✄ 4Fc ✙ L ✷ L ✄ 4Fc ! In generale SR uguaglianza vale solo nel caso di finestra rettangolare.
4.2.6
✸
Fc , e il segno di
Esempi di rappresentazione della STFT
La serie delle DFT che costituiscono la STFT può essere visualizzata in modo da fornire un’immagine complessiva dell’evoluzione temporale dello spettro del segnale. Un importante esempio è costituito dal sonogramma (o spettrogramma), nel quale le DFT vengono accostate l’una all’altra in modo che l’asse orizzontale rappresenti il tempo e l’asse verticale le frequenze. Ad ogni punto del grafico viene assegnata una sfumatura di colore legata all’ampiezza dello spettro. In figura 4 è riportato un esempio di sonogramma di un brano cantato. Risultano evidenti le righe corrispondenti alle armoniche delle vocali e la localizzazione dei formanti. Si nota inoltre la distribuzione spettrale delle consonanti sorde ’s’ e ’z’ (con andamento di tipo passa alto) che risultano prive di struttura armonica.
Ques t a s ta n z a f [Hz]
tempo
Figura 4.4: Sonogramma delle parole "...questa stanza..." (cantate).
4.2.7
Sintesi
Posto che la fase di analisi sia condotta con le condizioni di ricostruibilità del segnale, la sintesi del segnale a partire dalla sua STFT può avvenire in due modi: filter bank summation (FBS) e overlap and add (OLA).
4.2. SHORT TIME FOURIER TRANSFORM (STFT)
4.9
1 0.8 0.6 25
0.4 20 0.2 15 0 0
10 10
20
30
5
40
50
60
70
80
tempo (frames)
0
bin index (frequency)
Figura 4.5: Visualizzazione spettrografica di tipo waterfall Filter bank summation (FBS) Nel primo caso si considera l’interpretazione della STFT a banco di filtri; ricordando che alla pulsazione ωk Xn ✁ e jωk ✂✍✄ e ✒
definendo hk ✁ n ✂☎✄ wk ✁ n ✂ e ✒
∞
jωk n m
jωk m
∑ ✏✓✒
∞
wk ✁ m ✂ x ✁ n ✑ m ✂ e ✒
jωk m
(4.28)
la (4.28) può essere espressa come:
Xn ✁ e jωk ✂✍✄ e ✒
∞
jωk n m
∑ ✏✓✒
∞
hk ✁ m ✂ x ✁ n ✑ m ✂
(4.29)
hk ✁ n ✂ rappresenta la risposta all’impulso di un filtro passabanda la cui fdt risulta quella della finestra centrata sulla pulsazione ωk : (4.30) Hk ✁ e jω ✂✍✄ Wk ✁ e j ✔ ω ✒ ωk ✕ ✂ Essa è infatti la risposta della finestra traslata in frequenza (modulazione indotta dell’esponenziale). Definiamo adesso ∞ yk ✁ n ✂✍✄
m
∑ x✁ n ✑
✏✓✒
m ✂ hk ✁ m ✂
∞
(4.31)
l’uscita del filtro passabanda k-esimo; yk ✁ n ✂ può essere ricavata dalla STFT tramite la (4.29), moltiplicando primo e secondo membro per e jωk n (cioè modulando). L’idea è di ricavare x sommando tutti i contributi yk . Posto uguale a N ✁ ✸ L ✂ il numero di filtri definiamo ∞
yk ✁ n ✂✍✄ m
∑
✏✓✒
∞
yk ✁ n ✂
(4.32)
la f.d.t. che lega y ✁ n ✂ a x ✁ n ✂ risulta essere la somma delle f.d.t. di tutti i filtri: H˜ ✁ e jω ✂✰✄
✒
N 1
✒
k 0
k 0
∑ Hk ✁ e jω ✂✰✄ ∑ W ✁ e j ✔ ω ✒ ω ✾✂ ✂
N 1
✏
✏
k
(4.33)
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.10
si può dimostrare che nell’ipotesi di corretto campionamento dell’asse frequenziale Nw ✁ 0 ✂✰✄ costante e quindi
x ✁ n ✂☎✄ y ✁ n ✂
(4.34)
✙ ✦ Nw ✁ 0 ✂✿✧
(4.35)
È da notare che la formula di sintesi non dipende dalla forma della particolare finestra impiegata. Riassumendo, il metodo di sintesi con banco di filtri si può esprimere tramite le seguenti relazioni: y ✁ n ✂✭✄ x ✁ n ✂✭✄
✒
N 1
∑ Xn ✁ e jω ✂ e jω n
(4.36)
y ✁ n✂
(4.37)
✏
k 0
k
k
✙ ✦ Nw ✁ 0 ✂✿✧
Overlap and add Il punto di vista duale sulla sintesi si ha adottando l’interpretazione della STFT come successione di normali DFT. In questo caso la formula di inversione ci dice che i campioni del segnale all’interno della finestra di analisi possono essere recuperati tramite, appunto, una trasformata inversa, che produce yn ✁ m ✂✍✄ w ✁ n ✑ m ✂ x ✁ m ✂ (4.38) e quindi dividendo per la finestra w ✁ n ✑ m ✂ . da ogni singola DFT è possibile estrarre L valori di x, esauriti i quali n può essere incrementato di L e il procedimento viene iterato. In questo modo si avrebbe un hop size pari a L; dalle considerazioni sulla giusta misura dell’hop size è chiaro che questo in modo la STFT è sottocampionata e quindi piuttosto sensibile a problemi di aliasing. Anche se in linea di principio è possibile estrarre i valori di x da una singola DFT, una piccola variazione dello spettro sarebbe in questo caso una potenziale fonte di distorsione della ricostruzione. Dato che in generale la hop size, che da ora in poi chiameremo R, è generalmente inferiore alla lunghezza della finestra, i segmenti analizzati saranno sovrapposti l’uno all’altro. Sia Yr ✁ e jωk ✂ la STFT di x calcolata ogni R campioni: Yr ✁ e jωk ✂✰✄ XrR ✁ e jωk ✂ . L’equazione di sintesi risulta essere: y ✁ n ✂☎✄
∞
✒
∞
N 1
1 ∑ ✦ N ∑ Yr ✁ e jω ✂ e jω n ✧❀✄ ∑ x ✁ n ✂ w ✁ rR ✑ n ☎✂ ✄ r ✏✓✒ ∞ r ✏✓✒ ∞ k✏ 0 k
k
x ✁ n✂
∞
∑ w ✁ rR ✑ n ✂ ✏
(4.39)
r ∞
Se R è sufficientemente piccolo da evitare time aliasing, la sommatoria nell’equazione precedente è circa costante al variare di n, e in particolare circa uguale a W ✁ e j0 ✂ ✙ R 2 . Vale quindi la relazione: y ✁ n✂ x ✁ n ✂☎✄ (4.40) W ✁ e j0 ✂ ✙ R In generale non è necessario sommare infiniti termini nella sommatoria dell’ultimo membro della (34). Infatti, dato che l’estensione della finestra è L, basterà sommare L ✙ R campioni della finestra. Per la finestra di Hamming, ad esempio, servono 4 termini. 2 Per
dimostrare che ∑∞ r❁
∞w
❂ rR ❃ n ❆❄ ❅❇
W ❂ 0 ❄❉❈ R, basta osservare che:
w ❂ rR ❃ n ❄ è una versione sottocampionata di w ❂ n ❄ di un fattore R.
❊
Se R è abbastanza piccolo da rispettare la condizione di campionamento della STFT non c’è aliasing in frequenza.
❊
❊
La somma dei campioni nel tempo non è altro che la componente continua W ❂ 0 ❄ moltiplicata per la lunghezza della finestra R, cioè R ∑∞ r ❁ ∞ w ❂ rR ❃ n ❄❆❇❅ W ❂ 0 ❄
4.2. SHORT TIME FOURIER TRANSFORM (STFT)
4.2.8
4.11
Osservazioni sull’uso pratico della Short Time Fourier Transform
Adattamento della lunghezza della FFT: zero padding Uno dei problemi che si incontra spesso usando la STFT è quello di svincolare la lunghezza della finestra di analisi dal numero di punti sul quale viene calcolata la FFT. L’algoritmo di FFT realizza infatti una mappa di N numeri in N numeri e questo, volendo mantenere costante la granularità in frequenza (2π ✲ f req ✜ di campionamento ✙ N), ci obbliga a usare sempre la stessa lunghezza (N) per la finestra temporale. In certi casi può tuttavia essere comodo poter regolare la quantità di segnale da trasformare in base ad altre considerazioni. Ad esempio, quando si ha a che fare con segnali (quasi) armonici, un buon compromesso fra l’ipotesi stazionarietà del segnale e la risoluzione in frequenza è quello di usare per l’analisi tre o quattro (pseudo) periodi; la lunghezza della finestra risulta quindi funzione di una proprietà tempovariante del segnale, il periodo. Per riuscire a mantenere questo compromesso e non essere costretti a cambiare il numero di punti della FFT si può applicare il procedimento di zero padding. Dapprima si moltiplica il segnale per la finestra prescelta di lunghezza (tempovariante) M, quindi si aggiungono un ugual numero di zeri a sinistra e a destra in modo da formare un frame di lunghezza N, pronto per essere trasformato mediante FFT. Non è difficile vedere che questo procedimento ha come unico effetto quello di interpolare da M a N punti lo spettro del segnale. Infatti, se indichiamo con xM ✁ n ✂ la porzione di segnale selezionata dalla finestra di lunghezza M e con xN ✁ n ✂ la sua versione estesa dallo zero padding: n ✞ ✑✬✁ M ✑ xM ✁ n ✂✍✄ w ✁ n ✂ x ✁ n ✂ 0 ✑✬✁ N✦ ✑ 1 ✂ ✙ ❍■ xN ✁ n ✂✍✄●❋ w ✁ n ✂ x ✁ n ✂❑✑✬✁ M ✑ 1 ✂ ✙ 0 ✁ M ✆ 1✂ ✙
1✂ 2✹ 2✹ 2✹
✙ 2 ✡✛✁ M ✑ 1 ✂ ✙ 2✧ n ✹❏✑✬✁ M ✆ 1 ✂ ✙ 2 n ✹❏✑✬✁ M ✑ 1 ✂ ✙ 2 n ✹▲✁ N ✑ 1 ✂ ✙ 2
(4.41)
la trasformata di xM ✁ n ✂ , XM ✁ k ✂ è uguale a quella di xN ✁ n ✂ , XN ✁ k ✂ : XN ✁ k ✂✭✄
✄
✔ N ✒ 1 ✕✯✮ 2 ∑ xN ✁ m ✂ e ✒ m ✏✓✒ N ✒ 1 ✕✯✮ 2 ✔ ✔ M ✒ 1 ✕✯✮ 2 ∑ xM ✁ m ✂ e ✒ m ✏✓✒ M ✒ 1 ✕✯✮ 2 ✔
j2π km N
j2π km N
(4.42)
k
✞ ✦
✑✬✁ N ✑ 1 ✂ ✁ N ✑ 1 ✂ ✡ ✧ 2
2
(4.43)
L’asse delle frequenza rimane comunque campionato su N punti. È importante notare che il procedimento di zero padding produce un interpolazione dell’asse delle frequenze ma non migliora in alcun modo la capacità di discriminare sinusoidi con frequenze vicine, che dipende esclusivamente dalla larghezza del lobo principale e quindi dal tipo e dalla lunghezza M della finestra di analisi w ✁ n ✂ . Un esempio di trasformata senza e con zero padding è presentato in figura 4.6. Corretta valutazione della fase: finestre a fase nulla In molte applicazioni della STFT interessa conoscere solo la distribuzione spettrale dell’energia di un suono, e quindi principalmente lo spettro di ampiezza. Esistono però situazioni, come ad esempio nel caso del phase vocoder, in cui è necessario stimare con precisione anche la fase delle componenti spettrali. Vedremo in questo paragrafo come questo problema non sia banale quando la stima debba essere ottenuta tramite una STFT i cui frames siano ricavati mediante FFT su un numero pari di punti (che sfortunatamente è il caso più comune). Un generico frame di STFT è una DFT su N punti. La questione della stima della fase può quindi essere ricondotta, senza perdita di generalità,
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.12 1
40 A
B
20
0.5
dB
0 0
−20 −40
−0.5 −60 −1
0
100
200
−80
300
1
5
10 15 20 25 bin index (frequency)
30
40 D
20
C 0.5
dB
0 0
−20 −40
−0.5 −60 −1
0
2000
4000
6000
8000
10000
−80
0
200
400 600 800 bin index (frequency)
1000
Figura 4.6: Illustrazione del procedimento di zero padding. A) sinusoide moltiplicata per la finestra di Blackman a 32 punti. B) FFT del segnale in A). C) frame di 512 punti ottenuto aggiungendo zeri a sinistra e a destra del segnale in A). D) trasformata del segnale in C) alla valutazione della fase di una porzione del segnale x ✁ m ✂ intorno all’origine, ’visto’ attraverso la finestra di analisi w ✁ m ✂ . La DFT di x risulta essere X ✁ k ✂▼✄ X ✁ k ✂▼✄
✮
N 2
∑✎ m ✏✓✒ N ✮ 2
w ✁ m✂ x ✁ m✂ e✒
j2π km N
N pari
(4.44)
1
✔ N ✒ 1 ✕✯✮ 2 ∑ w ✁ m✂ x ✁ m✂ e✒ m ✏✓✒ N ✒ 1 ✕✯✮ 2 ✔
j2π km N
N dispari
(4.45)
Supponiamo per semplicità che x ✁ m ✂ sia un esponenziale complesso a frequenza (normalizzata) k0 e fase φ : x ✁ n ✂☎✄ e j2π
k0 n N
✎
φ
(4.46)
sostituendo la (4.46) nella (4.44) e nella (4.45) si ottiene: X ✁ k ✂◆✄ X ✁ k ✂◆✄
✮
N 2
∑✎ m ✏✓✒ N ✮ 2
w ✁ m ✂ e j ❖ 2π
k0 m N
✎ φP ✒ e
j2π km N
N pari
(4.47)
1
k0 m ✎ ✔ N ✒ 1 ✕✯✮ 2 ∑ w ✁ m ✂ e j ❖ 2π N φP e ✒ m ✏✓✒ N ✒ 1 ✕✯✮ 2 ✔
j2π km N
N dispari
(4.48)
A questo punto è bene evidenziare che w ✁ m ✂ può avere simmetria pari solo se la sua lunghezza è dispari. Infatti, la relazione w ✁ n ✂✱✄ w ✁✩✑ n ✂ impone che esistano un ugual numero di campioni con indice positivo e negativo; aggiungendo quindi il campione nell’origine si ottiene una lunghezza della finestra dispari. Nel caso la lunghezza della finestra sia pari è comunque valida la relazione
4.2. SHORT TIME FOURIER TRANSFORM (STFT)
4.13
w ✁ n ✂✍✄ w ✁✩✑ n ✆ 1 ✂ . Sfruttando la simmetria di w le equazioni diventano X ✁ k ✂◆✄
✮
N 2
e jφ
∑ w ✁ m ✂ ✦ e j2π ◗ ✏
m 1
X ✁ k ✂◆✄
e jφ ❚ w ✁ 0 ✂❯✆
❘ ❙ ✒ e
k0 k m N
j2π
◗ k0 ❘ kN❙ ◗ m ❘ 1❙ ✧
k0 ❘ k ❙ m ✔ N ✒ 1 ✯✕ ✮ 2 ∑ w ✁ m ✂ ✦ e j2π ◗ N e ✒ m✏ 1
N pari j2π
◗ k0 ❘Nk ❙ m ✧✛❱
(4.49) N dispari
(4.50)
N pari
(4.51)
e riorganizzando gli esponenziali X ✁ k ✂◆✄
e jφ e j2π ◗
❘ ❙
k0 k m N
✮
N 2
✁ k0 ✑ k ✂
✏
N
∑ w ✁ m ✂ cos ✦ 2π
m 1
X ✁ k ✂◆✄
e jφ
✔ N ✒ 1 ✯✕ ✮ 2 ✁ k0 ✑ k ✂ ∑ w ✁ m ✂ cos ✦ 2π N ✁ m ✂✿✧ m✏ 0
✁ m ✑ 1 ✙ 2 ✂✿✧ N dispari
(4.52)
Le sommatorie contengono solo addendi reali e producono quindi numeri reali. La fase di X ✁ k ✂ è quindi quella degli esponenziali complessi:
✚ X ✁ k ✂▼✄ ✚ X ✁ k ✂▼✄
φ ✆ 2π φ
✁ k0 ✑ k ✂
N N dispari
N pari
(4.53) (4.54) (4.55)
Entrambe le stime producono il valore corretto di fase φ per k0 ✄ k. Bisogna però notare che nel caso la finestra abbia lunghezza pari è presente anche un termine di fase lineare. Questo termine introduce un errore nella stima della fase quando k0 è non intero (cioè quasi sempre), nel qual caso la valutazione della DFT può essere fatta solo sull’indice appena inferiore o appena superiore a k0 . In figura 4.7 sono riportate le risposte di fase nei due casi di N pari ed N dispari. Il problema che si pone è quindi come usare gli algoritmi di Fast Fourier Transform, che funzionano normalmente con N pari, con finestre di lunghezza dispari. L’idea è di applicare una finestra di lunghezza dispari e quindi eliminare il campione meno significativo prima di effettuare il calcolo della FFT. Usando una delle finestre classiche, che vanno a zero (o almeno decrescono) verso i bordi, basta eliminare il primo o l’ultimo campione. Bisogna inoltre notare che la DFT è definita su intervalli simmetrici intorno all’origine ( ✑✬✁ N ✑ 1 ✂ ✙ 2 ✡✛✁ N ✑ 1 ✂ ✙ 2✧ per N dispari o ✑ N ✙ 2 ✆ 1 ✡ N ✙ 2✧ per N pari), mentre gli ✦ ✦ algoritmi di FFT operano sull’intervallo 0 ✡ N ✑ 1✧ . Occorre quindi applicare una rotazione di N ✙ 2 ✦ punti del frame di analisi (di fatto uno scambio delle due metà del frame) in modo da riportare il campione centrale della finestra w ✁ m ✂ sull’origine (date le ipotesi di stazionarietà e continuità al di fuori del frame, questa operazione è equivalente a uno shift del segnale indietro di mezza finestra). In questo modo i valori di fase calcolati saranno riferiti al centro del frame. Un esempio di analisi con finestra a fase nulla è riportato nelle figure 4.8 e 4.8.
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.14
A
B
60
60
40
40
20
20
dB
dB 0
0
−20 20
25
30
35
−20 20
25
bin
30
35
30
35
bin
2.1
2.1
2.09
2.09
2.08
2.08
2.07 fase [rad]
2.07 fase [rad]
2.06
2.06
2.05
2.05
2.04 20
25
30
35
2.04 20
25
bin
bin
❲
✎
Figura 4.7: Risposte di fase calcolate sul segnale x ✁ m ✂✫✄ 1000e j ❖ 2π N m 2 ❳ 0701P nell’intorno del 26 ❨ bin. A) N=2048, B)N=2049. Si noti l’andamento lineare sovrapposto nel caso di N pari. 26 3256
5000
a 0
−5000
0
0.005
0.01
0.015
0.02
0.025
tempo [s] 5000
b 0
−5000
0
0.005
0.01
0.015
0.02
0.025
tempo [s] 5000
c 0
−5000
0
0.005
0.01
0.015
0.02
0.025
tempo [s]
Figura 4.8: Applicazione di una finestra a fase nulla su un frame di segnale. A)Frame originale (1025 punti). B)frame dopo l’applicazione di una finestra di Blackman a 1025 punti. C) eliminazione del 1025❨ campione e rotazione di 512 campioni.
4.2. SHORT TIME FOURIER TRANSFORM (STFT)
4.15
60
40
dB
a 20
0
−20
0
1000
2000
3000 4000 frequenza [Hz]
5000
6000
7000
4
b
2
0
−2
−4
0
1000
2000
3000 4000 frequenza [Hz]
5000
6000
7000
Figura 4.9: Diagrammi di modulo (a) e fase (b) della FFT calcolata sul segnale della figura precedente. Si noti che mano a mano che il modulo decresce la riposta di fase risulta sempre più disturbata dalle interferenze laterali.
4.16
4.3
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
Il Modello Sinusoidale
E’ noto (vedi capitolo successivo) che la sintesi additiva è uno dei metodi più potenti per la generazione del suono. La possibilità di agire in modo indipendente sui parametri delle singole sinusoidi (parziali) componenti permette di controllare il risultato sonoro in modo semplice e accurato. Lo svantaggio storico di questo tipo di sintesi risiede nella sua complessità computazionale. La rapida evoluzione dell’hardware ha però portato ai personal computer odierni, che permettono di sintetizzare, via software, anche molte centinaia di sinusoidi in tempo reale. Il rinnovato l’interesse per la sintesi additiva ha prodotto una serie di importanti risultati, fra cui l’estensione del metodo anche all’elaborazione del suono. L’idea di fondo è che se si possiede la descrizione del suono in termini di sinusoidi tempovarianti è possibile effettuare una grande quantità di trasformazioni, semplicemente agendo sui parametri di ampiezza frequenza e fase della rappresentazione sinusoidale. Nell’articolo che segue viene presentato uno dei più recenti modelli per rappresentazione del suono mediante sinusoidi.
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.42
4.4
Fondamenti Matematici per l’Elaborazione del Suono
Questi appunti richiamano brevemente alcune nozioni sui segnali numerici, con lo scopo di introdurre gli elementi necessari alla presentazione dei fondamenti dell’elaborazione numerica dei segnali.
4.4.1
Definizioni
Ricordiamo che un segnale può essere definito come una funzione o grandezza, solitamente variabile nel tempo, che comunica informazione. Una classificazione dei segnali può essere la seguente: 1. segnali a tempo continuo: x ✁ t ✂✛✡
t
✞✌☞
e
x ✁ t ✂✫✞✠☞
2. segnali a tempo discreto: x ✁ n ✂✛✡
n
✞✠❩
e
x ✁ n ✂❬✞✠☞
3. segnali numerici: x ✁ n ✂✛✡
n
✞✠❩
x ✁ n ✂❬✞✠❩
e
I segnali a tempo discreto possono essere studiati come treni di impulsi ideali a tempo continuo; è tuttavia più pratico introdurre una rappresentazione ad hoc. Definamo come sequenza un insieme di valori ordinato secondo un indice (che rappresenta l’asse temporale): ❭ x ✁ n ✂❫❪
✑
∞✼ n
✼❴✆
∞
(4.56)
Esempi notevoli di sequenze:
❵
Sequenza sinusoidale: x ✁ n ✂✍✄ A cos ✁ ω0 n ✆ φ ✂
❵ ❵
Sequenza gradino: δ ✒
1
✁ n ✂✍✄ ✣
1✙ T 0
n✄ 0 n ✄✥ 0
1✙ T 0
Sequenza impulso unitario: δ ✁ n ✂✍✄✤✣
✸
n n
✼
0 0
Si dimostra che δ ✒ 1 ✁ n ✂☎✄ ∑nk✏✓✒ ∞ T δ ✁ k ✂ e viceversa δ ✁ n ✂✍✄ δ ✒ 1 ✁ n ✂❛✑ δ ✒ 1 ✁ n ✑ 1 ✂ . Per la trattazione dei segnali numerici si può sottintendere la dipendenza dal quanto temporale di campionamento T, ed assumere una rappresentazione normalizzata (T=1): x ✁ nT ✂✰★
4.4.2
x ✁ n✂
(4.57)
Proprietà dei segnali numerici
Periodicità. Una sequenza x ✁ n ✂ è detta periodica se ❜ N : x ✁ n ✂☎✄ x ✁ n ✆ N ✂❝✝ n ✞✠❩ . Traslazione. La traslazione in avanti di N campioni di un segnale x ✁ n ✂ si esprime mediante la seguente relazione: x ✁ n ✂❬✑✓★
x✁ n ✑ N ✂
(4.58)
Ogni sequenza può essere vista come somma di impulsi unitari scalati e traslati: x ✁ n ✂☎✄
✎
∞
∑ x ✁ n✂ δ ✁ n ✑ k ✂ ✒
∞
(4.59)
4.4. FONDAMENTI MATEMATICI PER L’ELABORAZIONE DEL SUONO
4.4.3
4.43
Sistemi.
Definiamo come sistema una qualunque trasformazione univoca che mappa una sequenza x(n) in un’altra y(n): (4.60) y ✁ n ✂☎✄ T x ✁ n ✂✿✧
✦
Linearità. Una sistema si dice lineare se, per ogni coppia di segnali x1 ✁✪✲ ✂✛✡ x2 ✁✪✲ ✂ e ✝ a1 ✡ a2 trasformazione T ad esso associata verifica la seguente relazione: T a1 x1 ✁ n ✂❯✆ a2 x2 ✁ n ✂✿✧❀✄ a1 T x1 ✁ n ✂✿✧❡✆ a2 T x2 ✁ n ✂✾✂✿✧❀✄ a1 y1 ✁ n ✂❯✆ a2 y2 ✁ n ✂
✦
✦
✦
✞❞☞
, la
(4.61)
Tempo invarianza. Un sistema si dice tempo invariante se la traslazione dell’ingresso induce la medesima traslazione sull’uscita: y ✁ n ✑ k ✂✰✄ T x ✁ n ✑ k ✂✿✧❢✝ k
✦
✞✠❩
(4.62)
Risposta all’impulso. Per i sistemi lineari è possibile definire la risposta all’impulso: hk ✁ n ✂✍✄ T δ ✁ n ✑ k ✂✿✧✿✡
k
✦
✞✠❩
(4.63)
La relazione ingresso/uscita del sistema y ✁ n ✂☎✄ T x ✁ n ✂✿✧
(4.64)
✦
può essere riscritta, applicando l’identità (4.59), come y ✁ n ✂☎✄ T
✎
∞
✦∑ ✒ ∞
x ✁ n ✂ δ ✁ n ✑ k ✂✿✧
(4.65)
che, per la linearità del sistema si può anche esprimere come
✎
✎
∞
∑ x ✁ n ✂ T δ ✁ n ✑ k ✂✿✧❣✄
y ✁ n ✂✍✄
✒
∑ x ✁ n ✂ hk ✁ n ✂
✦
∞
∞
✒
(4.66)
∞
Se il sistema è anche tempo invariante, definita h ✁ n ✂✍✄ T δ ✁ n ✂✿✧ , si ha:
y ✁ n ✂☎✄
✎
∞
hk ✁ n ✂✍✄ h ✁ n ✑ k ✂✛✡
✎
✦
e quindi
∑ x ✁ n ✂ T ✦ δ ✁ n ✑ k ✿✂ ✧❣✄ ∑ x ✁ n ✂ h ✁ n ✑ k ✂ ✒
✒
∞
Convoluzione. La scrittura y ✷ x ✁ n ✂☎✄
✎
(4.67)
∞
(4.68)
∞
∞
∑ x ✁ n✂ y ✁ n ✑ k ✂ ✒
(4.69)
∞
è detta convoluzione dei segnali x ✁ n ✂ e y ✁ n ✂ . Si può verificare che la convoluzione è un’operazione lineare e gode della proprietà commutativa. Stabilità BIBO. Un sistema si dice stabile nel senso Bounded Input Bounded Output (BIBO) se per ogni sequenza di ingresso limitata l’uscita risulta limitata. Si dimostra che la stabilità BIBO equivale ad avere una risposta all’impulso assolutamente sommabile:
✎
Stabilità BIBO ❤ k
∞
∑
✏✓✒
∞
✘
h✁ k✂
✘ ✼
∞
(4.70)
CAPITOLO 4. ANALISI ED ELABORAZIONE DEL SUONO
4.44
ad esempio il sistema caratterizzato dalla risposta a scalino h ✁ n ✂✍✄ δ ✒ 1 ✁ n ✂ (integratore) non è stabile. Causalità. Dicamo che un sistema è causale quando la sua uscita dipende solo da valori passati o presenti dell’ingresso. Si dice anche che il sistema è non anticipatorio. La definizione di causalità può essere espressa in termini di risposta impulsiva affermando che un sistema è causale quando la sua risposta impulsiva è nulla per tempi negativi: h ✁ n ✂✍✄ 0 ✡
4.4.4
✝
✼
n
0
(4.71)
Sistemi lineari tempo invarianti (LIT).
Tra i sistemi lineari e tempo invarianti, la classe di maggior interesse per l’elaborazione numerica dei segnali è costituita dai sistemi razionali, caratterizzati dalla seguente equazione alle differenze a coefficienti costanti, che rappresenta la relazione ingresso uscita: N
M
∑ ak y ✁ n ✑ k ✂✍✄
∑ br x ✁ n ✑ r ✂
(4.72)
✏
✏
r 0
k 0
che può anche essere riscritta come: y ✁ n ✂✍✄✐✑
N
ak ∑ a0 y ✁ n ✑ k ✂❯✆ k✏ 1
M
br ∑ a0 x ✁ n ✑ r ✂
(4.73)
✏
r 0
L’uscita del sistema all’istante n dipende dagli N valori precedenti dell’uscita, da M valori precedenti dell’ingresso e dal valore attuale dell’ingresso. I sistemi razionali possono essere di tipo Infinite Impulse Response (IIR) o di tipo Finite Impulse Response (FIR), a seconda che sia presente o meno la dipendenza da valori precedenti dell’uscita: FIR: y ✁ n ✂☎✄
M
br ∑ a0 x ✁ n ✑ r ✂
(4.74)
✏
r 0
IIR: y ✁ n ✂☎✄✐✑
N
ak ∑ a0 y ✁ n ✑ k ✂❯✆ k✏ 1
M
br ∑ a0 x ✁ n ✑ r ✂
(4.75)
✏
r 0
Risposta in frequenza. La risposta in frequenza di un sistema è definita come trasformata di Fourier della risposta all’impulso: ∆ (4.76) H ✁ ω ✂ ✄❴❥ h ✁ n ✂✿✧❦✁ ω ✂✍✄ ∑ h ✁ k ✂ e ✒ jωk
✦
k
Proprietà della convoluzione. La trasformata di Fourier della convoluzione di due sequenze è il prodotto delle trasformate delle singole sequenze: w ✁ n ✂✍✄ x ✷ y ✁ n ✂♠★ ❧
W ✁ ω ✂✍✄ X ✁ ω ✂ Y ✁ ω ✂
(4.77)
Dimostrazione: w ✁ n ✂✰✄
∑ x ✁ n ✑ i ✂ y ✁ i ✂✛✡ i
per la linearità: ponendo n ✑ i ✄ k :
W ✁ ω ✂✍✄ ∑n ∑i x ✁ n ✑ i ✂ y ✁ i ✂✿✧ e ✒ ✦ W ✁ ω ✂✍✄ ∑i y ✁ i ✂ ∑n x ✁ n ✑ i ✂ e ✒
W ✁ ω ✂✍✄ ∑i y ✁ i ✂ ∑k x ✁ k ✂ e ✒ jω ✔ k W ✁ ω ✂✍✄ ∑i y ✁ i ✂ e ✒ jωi ∑k x ✁ k ✂ e ✒ W ✁ ω ✂✍✄ X ✁ ω ✂ Y ✁ ω ✂
jωn jωn
✎ i✕
jωk
4.4. FONDAMENTI MATEMATICI PER L’ELABORAZIONE DEL SUONO ne viene che:
4.4.5
y ✁ n ✂☎✄ h ✷ x ✁ n ✂♠★ ❧
Y ✁ ω ✂✍✄ H ✁ ω ✂ Y ✁ ω ✂
4.45
(4.78)
La trasformata ♥
Definiamo trasformata ✟ di una sequenza x(n) la quantità X ✁ z✂
✄ ∆ ∑ x ✁ k ✂ z✒
k
z
✞✠♦
(4.79)
k
Questa serie non è in generale convergente per ogni sequenza x(n), né per ogni valore di z. Si può dimostrare che data una sequenza, la regione di convergenza è una corona circolare nel piano complesso. Infatti, se esprimiamo z in forma polare: z ✄ re jω la (4.79) diventa
(4.80)
∑ x ✁ k ✂ r ✒ k e✒
X ✁ z ✂✰✄
jωk
(4.81)
k
che è la trasformata di Fourier del segnale x ✁ k ✂ r ✒ k . La convergenza assoluta della serie si ha quindi se
∑
✘
x ✁ k✂ r✒
k
✘
✼
∞
(4.82)
k
Quindi, se la trasformata zeta converge in un punto z del piano complesso allora converge su tutta la ✘ ✘ circonferenza di raggio pari a z . Notiamo ora che una qualunque sequenza può essere scomposta in una parte causale xc ✁ n ✂ e una parte anticausale xa ✁ n ✂ : x ✁ n ✂☎✄ xc ✁ n ✂❯✆ xa ✁ n ✂ xc ✁ n ✂✍✄✤✣
x ✁ n✂ 0
n✻ n
xa ✁ n ✂✍✄✤✣
0 x ✁ n✂
n✻ n
✄ ✼ ✼
✄
(4.83) 0 0
(4.84)
0 0
(4.85)
✘ ✘ verificare ✘ ✘ che se la trasformata di una sequenza causale esiste per Non è difficile a questo punto se la trasformata di una sequenza anticausale z ✄ z1 allora esiste anche per z ✻ z1 . Analogamente, ✘ ✘ ✘ ✘ esiste per z ✄ z2 allora esiste anche per z ✼ z2 . In generale quindi, la regione di convergenza della trasformata è una corona circolare del tipo rc
✼
✘ ✘ z
✼
ra
(4.86)
in cui rc e ra sono rispettivamente il raggio minimo della regione di esistenza della parte causale e il raggio massimo della regione di esistenza della parte anticausale. Proprietà della trasformata ✟ 1. linearità. La trasfomata ✟ è lineare (la verifica è immediata) 2. teorema dello shift: x ✁ n ✆ N ✂✰★
zN X ✁ z ✂
4.4. FONDAMENTI MATEMATICI PER L’ELABORAZIONE DEL SUONO x y ✁ n ✂✿✧✪✁ z ✂♣✄❴✟ x✧q✲✪✟ y✧✪✁ z ✂ ✦ ✷ ✦ ✦ Funzione di trasferimento Sia data la relazione ingresso/uscita Y ✁ z ✂❀✄
3. trasformata della convoluzione:
4.87
✟
H ✁ z ✂ X ✁ z ✂ . H ✁ z ✂❀✄r✟
✦
h ✁ n ✂✿✧✪✁ z ✂
è detta funzione di trasferimento del sistema. Nel caso di sistema razionale descritto dall’equazione (4.73), trasformando ambo i membri si ha: N
✟ts ∑ ak y ✁ n ✑ k✏ 0
M
∑ ak ✟ ✦ y ✁ n ✑ k ✿✂ ✧①✄ ✏
∑ br ✟ ✦ x ✁ n ✑ r ✿✂ ✧ ✏
r 0 M
k 0
∑ ak z ✒
✏
r 0
N
N
M
∑ br x ✁ n ✑ r ✿✂ ✉
k ✂✿✉✈✄✇✟ts
k
✏
∑ br z ✒
Y ✁ z ✂✭✄
✏
X ✁ z✂
r 0 r ∑M r 0 br z ∑Nk 0 ak z k
k 0
Y ✁ z✂ X ✁ z✂
r
✄
✏
✏
✒
✒
✄
H ✁ z✂
Osservazione Si vede subito che H ✁ e jω ✂☎✄②❥ h ✁ n ✂✿✧✪✁ ω ✂ . Questo è conseguenza del fatto che per z ✄ ✦ e jω la trasformata ✟ coincide con la trasformata di Fourier. Dato un sistema descritto da un’equazione alle differenze è quindi immediato calcolare la trasformata zeta e quindi la risposta in frequenza. Si osserva che ✟ x ✁ n ✂✿✧ è una serie di Laurant. Pertanto, la formula di inversione è data da:
✦
x ✁ n ✂☎✄
1 2π j
③
X ✁ z ✂ zn ✒ 1 dz
(4.87)
C
dove C è interna alla regione di convergenza. Se il sistema è razionale, H ✁ z ✂ può esprimersi come: H ✁ z ✂✰✄
✒ 1 A ∏M r ✏ 1 ✁ 1 ✑ cr z ✂ N ∏k ✏ 1 ✁ 1 ✑ dk z ✒ 1 ✂
(4.88)
dove cr sono gli zeri e dr sono i poli di H ✁ z ✂ . Si dimostra che un sistema caratterizzato da una funzione di trasferimento razionale del tipo (4.88) è stabile se e solo se tutti i poli sono interni alla circonferenza di raggio unitario:
✘ ✘ dk
✼
1✡
k ✄ 1✡ 2✡
✜④✜④✜ N
(4.89)
Per la dimostrazione basta applicare la definizione di stabilità BIBO alla scomposizione in frazioni parziali della (4.88).
Capitolo 5
Sintesi dei segnali audio Giovanni De Poli
Carlo Drioli
Federico Avanzini
Copyright c 1999 by Giovanni De Poli, Carlo Drioli and Federico Avanzini. All rights reserved.
5.1
Introduzione
Negli strumenti musicali tradizionali il suono e’ prodotto dalla vibrazione di parti meccaniche. Negli strumenti sintetici, la vibrazione e’ descritta da funzioni nel tempo, dette segnali, che esprimono la variazione nel tempo della pressione acustica. Per costruire uno strumento musicale tradizionale e’ sufficiente realizzare un dispositivo che sfrutta uno dei tanti meccanismi fisici per la produzione di vibrazioni. Negli strumenti musicali sintetici, invece, l’obiettivo e’ di generare una piu’ astratta funzione nel tempo, detta segnale acustico. Allo scopo e’ necessario implementare una rappresentazione semplificata ed astratta del modo di produzione del suono, detta modello. Il modello del segnale, quindi, gioca il ruolo del fenomeno fisico negli strumenti tradizionali: esso costituisce il nucleo centrale attorno al quale si sviluppa la realizzazione dello strumento musicale. Nel modello l’astrazione ha il significato di inscrivere il meccanismo di produzione in una classe piu’ generale di cui esso rappresenta un caso particolare. La semplificazione tende a focalizzare la descrizione sugli aspetti ritenuti significativi nel caso in esame. Spesso nella descrizione del modello si ricorre a relazioni matematiche per legare le cause con gli effetti; in questo modo, usando il modello si puo’ prevedere il comportamento del fenomeno in condizioni note. Le condizioni note includono i parametri del modello, eventualmente variabili nel tempo, e lo stato iniziale da cui procede l’evoluzione. L’algoritmo e’ il procedimento effettivo che consente di realizzare cio’. L’implementazione dell’algoritmo su un processore consente di calcolare l’evoluzione del fenomeno, eventualmente nella sua forma semplificata. In particolare algoritmi di sintesi dei segnali musicali, basati su modelli del segnale che si focalizzano su diverse e interessanti proprieta’ degli stessi, consentono di ottenere l’evoluzione temporale del segnale. Al variare dei parametri si ottengono tutti i possibili segnali della classe identificata dal modello; e’ cioe’ possibile esplorare l’insieme dei timbri descritto dal modello. In linea di principio qualsiasi variazione dei parametri di controllo di un algoritmo e’ lecita. L’impiego per scopi musicali, tuttavia, impone alcune limitazioni alla liberta’ di scegliere i parametri di controllo. I parametri di controllo a loro volta possono variare nel tempo, divenendo cosi a loro volta 5.1
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.2
dei segnali (di controllo). La variazione dei segnali di controllo acquista un diverso significato secondo la scala dei tempi su cui si attua. Se il controllo si attua sulla scala di tempo della (frazione di) nota, parliamo di controllo della dinamica spettrale. Esso infatti viene spesso interpretato in relazione alla variazione a tempo breve dello spettro. Se il controllo si attua nella scala di tempo dell’organizzazione delle note in frasi o entita’ superiori, parliamo di controllo espressivo. Ad esempio la variazione del pitch delle note rappresenta il controllo espressivo fondamentale nella musica occidentale. La sintesi elettronica dei suoni sembra offrire una grande liberta’ nella costruzione dei suoni, sia nella imitazione di quelli naturali, che nella produzione di sonorita’ originali. Vi sono ormai varie tecniche per riprodurre i suoni desiderati con la fedelta’ voluta. Tuttavia scopo della sintesi del suono non e’ tanto la riproduzione di un segnale voluto, quanto la realizzazione di un generatore suonabile, caratterizzato cioe’ da una articolazione timbrica paragonabile a quella degli strumenti classici. Il problema si sposta quindi alle possibilita’ di controllo dell’algoritmo e dell’articolazione timbrica offerte dagli strumenti sintetici.
5.1.1
Obiettivi della sintesi del suono
Tradizionalmente, nella musica occidentale, il suono e’ caratterizzato da altezza, intensita’, durata metrica, timbro e localizzazione spaziale. Sono questi i parametri che il musicista gestisce. La presenza del pitch presuppone un modello di segnale (quasi) periodico. Il pitch e’ legato alla frequenza del suono e induce nello spettro del segnale una struttura a righe, dove cioe’ l’energia e’ concentrata in bande ristrette (righe) a intervalli regolari sullo spettro. Non tutti i suoni hanno altezza definita; in questi casi si parla di spettri continui, caratterizzati da assenza di regolarita’ nello spettro. Il loudness e’ legato all’energia del segnale, la durata metrica e’ alla base della percezione ritmica. Lo spazio e soprattutto il timbro sono i parametri che offrono maggiori possibilita’ di articolazione nei suoni sintetici o trasformati elettronicamente. L’esigenza di manipolare questi parametri rimane un aspetto centrale anche nella musica elettronica. Lo scopo della sintesi del suono quindi dovrebbe tendere a realizzare strumenti suonabili piu’ che generatori di segnale, in modo da preservare il rapporto di causa ed effetto che sussiste tra l’azione sul controllo ed il risultato sul suono. Si dovrebbe cioe’ offrire al musicista uno strumento a tutti gli effetti, inteso come entita’ caratterizzata da certi requisiti di coerenza interna, che si concretizzano in suonabilita’, qualita’ sonora, utilizzabilita’ all’interno di una partitura. Lo strumento musicale e’ importante anche perche’, oltre a rappresentare il processo di generazione, puo’ essere visto come astrazione di una classe di suoni caratterizzati da un timbro, un comportamento dinamico, e da certe possibilita’ espressive. Questo fatto puo’ applicarsi oltre che agli strumenti tradizionali, anche agli strumenti sintetici. Ne risulta che si possono definire classi astratte di suoni sintetici in base al tipo di modello (e algoritmo) usato per la sintesi e per il tipo di controllo offerto al musicista. Una volta, la scelta dell’algoritmo di sintesi avveniva in base alla efficienza computazionale, anche a spese della sua controllabilita’. Oggi, con lo sviluppo della tecnologia, questo problema e’ sempre meno importante. Acquistano quindi sempre piu’ importanza altri criteri di scelta, tra cui ”migliore” metafora per il musicista e ”migliore” risultato acustico. Al primo criterio corrisponde il grado di suggestione che l’algoritmo opera sul musicista-compositore; ad esempio la sintesi additiva suggerisce una visione armonica. Al secondo criterio corrisponde l’esigenza di un risultato acustico ben preciso, o di una particolare interfaccia verso l’esecutore; ad esempio la sintesi per modulazione di frequenza puo’ riprodurre facilmente suoni percussivi inarmonici (campane). Gli strumenti sintetici, al pari degli strumenti classici, sono caratterizzati dal problema dell’apprendimento della tecnica di esecuzione. Si deve infatti imparare con l’esperienza le relazioni tra i
5.1. INTRODUZIONE
5.3
parametri di controllo e il risultato acustico. Queste relazioni spesso non sono intuitive nel controllo a basso livello degli algoritmi e quindi limitano di fatto la versatilita’ dello strumento. Si puo’ notare d’altra parte che la tendenza attuale e’ quella di incorporare l’esecutore nello strumento; si cerca cioe’ di realizzare uno strumento senza problemi di manualita’ e controllabile con informazioni di alto livello, eventualmente per mezzo di esecutori automatici (sequencer). Nell’ottica di questo approccio devono quindi essere sviluppati sofisticati modelli del controllo timbrico che, a partire da poche e sintetiche informazioni, siano in grado di produrre un ventaglio espressivo paragonabile a quello di un esecutore umano. Di seguito sono presentati i principali algoritmi di sintesi con riferimento ai criteri di scelta sopra esposti. E’ tuttavia possibile procedere ad una classificazione degli algoritmi di sintesi basata sull’analisi della loro struttura. Si puo’ infatti notare che la complessita’ della struttura ha forti riflessi sulla controllabilita’ sia timbrica che espressiva di un algoritmo. Gli algoritmi definiti da una struttura semplice necessitano di un flusso di segnali di controllo molto articolato, in quanto caratterizzazione ed espressivita’ timbrica devono essere garantiti proprio dai segnali di controllo. Invece gli algoritmi con complessita’ strutturale elevata garantiscono di base una buona caratterizzazione timbrica e una buona coerenza interna, consentendo quindi un controllo molto piu’ semplificato. Si possono quindi individuare le seguenti classi di algoritmi: generazione diretta: di questa classe fanno parte campionamento, sintesi additiva, granulare; ✁
feed-forward: sottrattiva, modulazioni, distorsione non lineare; ✁
feed-back: sintesi per modelli fisici ✁
Ad esempio se prendiamo in considerazione uno strumento caratterizzato da un controllo gestuale assai semplice come il pianoforte, si identificano i seguenti requisiti per i segnali di controllo: - sintesi additiva: supponendo di lavorare con 100 parziali la pressione del tasto attiva 100 inviluppi temporali e altrettanti inviluppi frequenziali con andamento in funzione della velocita’ della pressione del tasto. - sintesi FM: supponendo di lavorare con un algoritmo a 6 operatori la pressione del tasto attiva 6 inviluppi temporali e altrettanti inviluppi degli indici di modulazione con andamento funzione della velocita’ della pressione del tasto. - sintesi per modelli fisici: supponendo di lavorare con un algoritmo martelletto corda, la pressione del tasto fornisce l’unico parametro (la velocita’ d’impatto del martelletto) all’algoritmo, che provvede autonomamente a generare la sonorita’ attesa. E’ possibile anche un’altra classificazione degli algoritmi di sintesi in base al tipo di modello con cui viene rappresentato il suono. In questo caso si possono distinguere modelli del segnale che rappresentano il suono che ci arriva all’orecchio, senza far riferimento al meccanismo fisico che sottosta’ alla produzione del suono. La percezione del suono e’ un fenomeno complesso, che analizza il segnale sia nel tempo che nella frequenza. Anche i modelli del segnale possono essere divisi in due classi, secondo se possono essere interpretati dall’utente in termini di caratteristiche temporali o spettrali. Possiamo quindi includere nella prima classe il campionamento e la sintesi granulare, mentre la sintesi additiva e sottrattiva, le modulazioni e la distorsione non lineare sono della seconda classe (meglio interpretabili nel dominio della frequenza). ✁
✁
modelli della sorgente che ottengono il segnale acustico come sottoprodotto di un modello di simulazione del meccanismo fisico di produzione del suono. Appartiene a questa categoria la sintesi per modelli fisici.
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.4
Va infine ricordato che quando si parla di segnali musicali generalmente si intendono i segnali sonori. Come detto pero’ il risultato acustico che si ottiene da un modello dipende dal controllo che si effettua sui parametri del modello stesso. In molti casi questi parametri sono tempo varianti e si evolvono durante lo sviluppo del singolo suono. Sono cioe’ essi stessi dei segnali, chiamati appunto di controllo, che pero’ si differenziano dai segnali audio perche’ si evolvono piu’ lentamente. Inoltre essi vengono percepiti seguendo la loro evoluzione temporale e non analizzandoli in frequenza, come accade per i segnali audio. Nel seguito verranno esposti i principali algoritmi di sintesi dei segnali audio. Talvolta essi sono utili anche per i segnali di controllo. Alla fine verra’ discussa la problematica della generazione dei segnali di controllo.
5.2
Metodi di generazione diretta
In questa categoria troviamo i metodi che generano direttamente il segnale attraverso un’unico modello o piu’ modelli che pero’ non si influenzano reciprocamente, nel senso che al piu’ si somma alla fine il loro risultato.
5.2.1
Generatori di forme d’onda
Oscillatori numerici La caratteristica di molti suoni musicali e’ di essere quasi periodici o armonici. E’ questa proprieta’ che determina la sensazione di altezza di un suono. Il piu’ semplice metodo di sintesi consiste nel produrre un segnale periodico mediante la continua ripetizione di una certa forma d’onda. Un algoritmo che realizza questo metodo si chiama oscillatore. L’oscillatore piu’ diffuso e’ quello a forma d’onda tabulata (table look-up oscillator). In questo caso la forma d’onda e’ memorizzata in una tabella in punti equispaziati. Per generare una forma d’onda periodica, basta leggere ripetutamente la tabella mandando i suoi campioni uno dopo l’altro in uscita. Se Fs e’ la frequenza di campionamento e L e’ la lunghezza della tabella, la frequenza f del suono periodico risulta f Fs L. Se si volesse un suono con la stessa forma d’onda ma di frequenza diversa, occorrerebbe una tabella contenete la stessa forma d’onda ma rappresentata con un numero diverso di valori. Si vorrebbe quindi una forma d’onda continua da cui prelevare di volta in volta il valore all’ascissa desiderata. A questo scopo si ricorre a tabelle contenenti la forma d’onda in (molti) punti equispaziati e poi prelevando di volta in volta il valore piu’ opportuno o mediante interpolazione tra i due punti adiacenti o usando il valore di ascissa piu’ prossima a quella desiderata (interpolazione di ordine zero). Naturalmente piu’ fitti sono i punti, migliore e’ l’approssimazione. Si usano tipicamente tabelle da 256 a 4096 punti. In questo modo l’oscillatore ricampiona la tabella per generare un suono di differente frequenza. La distanza (in numero di campioni della tabella) fra due campioni della tabella prelevati in istanti successivi si chiama SI (sampling increment) ed e’ proporzionale alla frequenza f del suono prodotto. Risulta infatti SI Fs f L L’algoritmo che implementa l’oscillatore digitale e’ ✂
✄
☎
✂
phi = mod(phi + SI, L) s = A * tab[phi] dove phi rappresenta la fase istantanea (ascissa) di lettura nella tabella, A e’ un parametro indicante l’ampiezza del segnale, s e’ il segnale di uscita. La funzione mod(x, L) calcola il resto della
5.2. METODI DI GENERAZIONE DIRETTA
5.5
divisione del primo operando (x) per il secondo (L) e serve per ricominciare la lettura della tabella al punto opportuno, dopo aver scorso tutta la forma d’onda. Se il passo di lettura SI e’ maggiore di uno, puo’ succedere che le frequenze delle componenti piu’ alte siano maggiori della frequenza di Nyquist, dando luogo a foldover. Per evitare questo fenomeno, bisogna limitare la banda del segnale memorizzato. Se invece il passo e’ minore di uno, come avviene spesso per i segnali di controllo, inviluppi di ampiezza etc., allora il problema non si pone in quanto la banda e’ gia’ sufficientemente limitata. Normalmente si richiede che l’ampiezza del suono vari in modo continuo seguendo un inviluppo d’ampiezza. Questo si puo’ ottenere variando istante per istante il parametro A visto precedentemente. Similmente si puo’ variare istantaneamente la frequenza del suono variando il parametro SI. Si ottiene cosi’ l’oscillatore ad ampiezza e frequenza variabile descritto dalle seguenti relazioni:
✆ ✝✟✞✠✆ ✆ ✡ ☞✝ ☛ ✆ ✝ ✝ ✆ ✝✟✞ ✆ ✝✍✌ ✎ ✆ ✝ ✏
φn sn
φn
1
SI n
mod L
A n tab φ n
La prima formula effettua l’integrazione discreta della frequenza, per trovare la fase istantanea. Il controllo dell’ampiezza serve per realizzare un appropriato inviluppo del suono. Inoltre si puo’ ad esempio realizzare l’effetto del tremolo, che consiste in una variazione periodica o quasi periodica dell’ampiezza attorno al valore medio. Il controllo della frequenza dell’oscillatore e’ utile nella produzione di variazioni di pitch come nel portamento, inflessione della frequenza del suono come puo’ avvenire all’inizio di una nota che parte con una frequenza leggermente inferiore raggiungendo poi ed eventualmente sorpassando la frequenza desiderata oppure la diminuzione di frequenza che talvolta si verifica alla fine di una nota. Spesso occorrono opportune traiettorie della frequenza per collegare in modo non brusco note di una stessa frase melodica o per produrre ornamenti come trilli, mordenti e acciaccature. Infine il controllo della frequenza e’ utile per produrre il vibrato ed altre modulazioni di frequenza. In figura 5.1 e’ riportato il simbolo dell’oscillatore a forma d’onda fissa con ampiezza e frequenza variabili.
Figura 5.1: Simbolo dell’oscillatore a forma d’onda fissa con ampiezza e frequenza variabili I suoni ottenibili dall’oscillatore numerico sono piuttosto meccanici e ripetitivi. Esso pertanto viene usato come blocco base per costruire algoritmi piu’ complessi o per produrre segnali di controllo ad andamento voluto. Lo stesso procedimento puo’ essere usato per generare forme d’onda non ripetitive. In questo caso la forma d’onda viene sempre memorizzata in una tabella. Per generare una forma d’onda di durata d si puo’ utilizzare poi l’algoritmo precedente con passo di campionamento SI
✞ ✌
L d Fs
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.6
Si puo’ generalizzare il procedimento generando forme d’onda date per punti (coppie di ascisse e ordinate) e interpolando via via fra i punti adiacenti. Ad esempio un inviluppo d’ampiezza puo’ essere descritto da una spezzata composta da vari punti connessi da linee rette. Se si vuole cambiare la durata dell’inviluppo, e’ bene modificare poco le durate dei tratti corrispondenti all’attacco e decadimento del suono, mentre si puo’ variare di piu’ il tratto di regime. In questo modo si avranno differenti passi di lettura della tabella o distanza tra le ascisse dei punti generati a seconda di quale porzione dell’inviluppo si sta generando. Esempio di sintesi in Matlab Molti linguaggi orientati alla sintesi del suono (come il noto Csound ), adottano degli accorgimenti per ottimizzare il carico computazionale al fine di ridurre i tempi di attesa dell’elaborazione. Attualmente questi tipi di linguaggi sono in grado di rispondere in tempo reale agli ingressi di controllo, attraverso una gestione dei segnali di controllo al frame rate: un frame e’ una finestra temporale di durata prestabilita (valori tipici della durata di un frame vanno dai 5 ai 50 msec). L’ipotesi che generalmente si fa sui segnali di controllo e’ che essi cambino ad una frequenza molto inferiore della frequenza di campionamento audio e possano essere considerati costanti all’interno di un frame. Il linguaggio che si e’ scelto per illustrare i principali algoritmi di sintesi (MATLAB) non e’ un linguaggio orientato alla sintesi audio e non consente il controllo degli algoritmi in tempo reale. Si manterra’ tuttavia la divisione di due assi temporali (frame rate / audio rate), in quanto elemento comune a tutti i linguaggi piu‘ diffusi. Ogni sessione di simulazione necessita della definizione di alcuni parametri globali, come le frequenze di campionamento e di controllo, che saranno visti dalle funzioni che realizzano gli algoritmi. Un esempio di tale sezione di definizione e’ il seguente global Fs; %sample rate Fs=22050 ControlW=0.01 % control window (in sec): 10 ms global SpF; %samples per Frame SpF=round(Fs*ControlW) Fc=Fs/SpF %control rate
Un tipico script MATLAB per l’esecuzione di un algoritmo di sintesi prevede tre fasi: un’intestazione con le definizioni, una fase di generazione dei segnali di controllo e, infine, una fase di generazione del segnale audio. Nello scrivere una funzione di sintesi si segue la convenzione per cui la durata (in secondi) dei segnali di controllo determina la durata del suono generato dall’oscillatore. Supponendo che la funzione sinosc(t0,a,f,ph0) realizzi un oscillatore sinusoidale (con t0 istante di inizio e a, f , e ph0 rispettivamente ampiezza, frequenza e fase iniziale della sinusoide), le istruzioni seguenti generano un sinusoide di durata 2 secondi, ampiezza unitaria e frequenza 50 Hz (con riferimento alle definizioni globali esemplificate). a=ones(1,200); %1secondo, 100 frames f=50*ones(1,200); s=sinosc(0,a,f,0);
Si vuole realizzare ora l’oscillatore sinusoidale controllato in ampiezza e a frequenza imposta al frame rate. Si noti come e’ stata curata la continuita’ della fase per evitare distorsioni della forma d’onda a fronte di variazioni istantanee della frequenza. Si noti inoltre che per variazioni a scalino della frequenza da f i a f i 1 , nel frame di transizione la frequenza e’ interpolata linearmente 1 f i ). (con derivata costante pari a f i Sp f ✑
✒
✑
✓
✒
✔
✕
✖
✗
✔
✖
5.2. METODI DI GENERAZIONE DIRETTA
5.7
function s = sinosc(t0,a,f,phi0); % oscillatore sinusoidale % a e f sono al control rate % t0 istante iniziale in sec; global SpF; %samples per frame global Fs; %sampling rate Fc=Fs/SpF; %control rate nframes=length(a); %numero di frames if (length(f)==1) f=f*ones(1,nframes); end if (length(f)˜=nframes) error(’f e a devono avere lunghezza uguale’); end s=zeros(1,nframes*SpF); t=0:(1/Fs):((nframes*SpF)/Fs); lastfreq=f(1); lastphase=0; for (i=1:nframes) taux=0:(1/Fs):((SpF-1)/Fs); phase=lastphase+lastfreq*2*pi.*taux+(1/SpF)*pi*(f(i)-lastfreq).*(taux.ˆ2); s(((i-1)*SpF+1):i*SpF)=a(i).*cos(phase); lastfreq=f(i); lastphase=phase(SpF); end s=[zeros(1,(t0*Fs-1)) s];
In ogni linguaggio di sintesi subito dopo l’oscillatore sinusoidale si incontra, per importanza, la famiglia dei generatori di funzioni di controllo. Nel seguito e’ riportata la realizzazione di un semplice generatore di inviluppo a segmenti di retta (si noti, tuttavia, che la funzione di interpolazione del MATLAB permette di avere facilmente interpolazioni cubiche o spline). A fronte della descrizione della forma di inviluppo con istanti temporali (in secondi) e la relativa ampiezza, esso genera la funzione al frame rate. function env = envgen(t,a,method); global SpF; %samples per frame global Fs; %sampling rate if (nargin coefficienti, g -> gain freqz([g 0 0],[a]); %plot della risposta del filtro % Generazione dell’eccitazione glottale % mediante filtraggio inverso del segnale vocale u=filter([a],[g 0 0],s); % risintesi snew=filter([g,0,0],[a],u);
La figura 5.14 illustra la risposta in frequenza del filtro A z , l’eccitazione glottale e la forma d’onda ottenuta mediante risintesi LPC. ❹
❺
abs(H)
0 −20 −40 −60
0
100
200
300 freq (bin)
400
500
600
20
amp
10 0 −10
0
500
1000
1500
2000
2500
1500
2000
2500
time 0.4
amp
0.2 0 −0.2 −0.4
0
500
1000 time
Figura 5.14: Analisi e risintesi della voce mediante LPC
5.3. SINTESI NON LINEARI
5.3
5.29
Sintesi non lineari
Le trasformazioni viste sopra non possono cambiare le frequenze delle componenti in ingresso, in quanto sono trasformazioni lineari. Se si usano invece trasformazioni non lineari, le frequenze possono cambiare anche di molto. Ne consegue la possibilita’ di cambiare sostanzialmente la natura del suono in ingresso. Queste possibilita’ vengono anche usate nella sintesi del suono. L’interpretazione della sintesi non lineare non e’ basata sull’acustica fisica, ma piuttosto deriva dalla teoria della modulazione nelle comunicazioni elettriche, applicata ai segnali musicali. Questi metodi sono stati molto usati nella musica elettronica analogica e sono poi stati anche sviluppati nel digitale. Pertanto la sintesi non lineare ne eredita parzialmente l’interpretazione analogica come usata nella musica elettronica e inoltre e’ diventata, specie con la modulazione di frequenza, una nuova metafora per i musicisti informatici. Ci sono due effetti principali legati alla trasformazione non lineari: arricchimento dello spettro e traslazione dello spettro. Il primo effetto deriva dalla distorsione non lineare di un segnale e consente di controllare la brillantezza di un suono, mentre il secondo e’ dovuto alla sua moltiplicazione per una sinusoide (portante) e sposta lo spettro attorno alla frequenza del segnale portante, alterando il rapporto armonico tra le righe del segnale modulante. La possibilita di traslare lo spettro e’ molto efficace nelle applicazioni musicali. A partire da semplici componenti, si possono creare suoni armonici e inarmonici e stabilire differenti relazioni armoniche tra le parziali.
5.3.1
Sintesi per modulazione di frequenza
I due metodi classici per l’arricchimento spettrale e per la traslazione dello spettro, ovverosia distorsione non lineare (vedi par. 5.3.4) e modulazione ad anello (vedi par. 5.3.3) , hanno perso progressivamente di interesse in favore del metodo della modulazione in frequenza, il quale unisce i due effetti ed evita alcuni difetti di questi metodi. Per questa ragione, la sintesi per modulazione di frequenza, proposta da J. Chowining nel 1973 e’ il piu’ usato fra i metodi non lineari. Questo metodo e’ diventato molto popolare da quando fu usato nei sintetizzatori Yamaha tipo DX7 ed e’ tuttora usato anche nelle schede audio. Questa tecnica non deriva da modelli del segnale o di produzione del suono, ma piuttosto dalle proprieta’ matematiche di una formula. In realta’ con questo nome non si intende una sola tecnica, ma tutta una famiglia che e’ costituita dalla modulazione della fase o frequenza istantanea di una sinusoide (portante) secondo l’andamento di un altro segnale (modulante), spesso sinusoidale. Anche se nella computer music si usa far riferimento a questa tecnica con il nome di modulazione di frequenza, in quanto le prime realizzazione erano di questo tipo, conviene sviluppare la teoria facendo riferimento alla formulazione come modulazione di fase. Il modulo di calcolo base e’ dato da: s ❻ t ❼✜❽ sin ❻ 2π fc n ❾ φ ❻ t ❼
❼
(5.11)
dove φ ❻ t ❼ e’ il segnale di ingresso (modulante) e fc e’ la frequenza della portante (carrier). Quando fc ❽ 0 si vede che risulta una distorsione non lineare del segnale modulante ed e’ pertanto da aspettarsi un arricchimento spettrale. Se invece fc ❽ ❿ 0 si puo’ far vedere con le formule di prostaferesi che l’espressione scritta equivale alla modulazione ad anello di una sinusoide per il segnale distorto (traslazione dello spettro di un valore fc ).
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.30 Modulante semplice
Se la modulante e’ una sinusoide di ampiezza I (indice di modulazione) e frequenza fm data quindi da φ ➀ t ➁✜➂ I sin ➀ 2π fm t ➁ la modulazione di frequenza semplice da’: s ➀ t ➁✬➂ sin ➃ 2π fct ➄ I sin ➀ 2π fmt ➁ ➅ ➂ ∑∞k➆⑨➇ ∞ Jk ➀ I ➁ sin ➃ 2π ➀ fc ➄ k fm ➁ t ➅
(5.12)
dove Jk ➀ I ➁ e’ la funzione di Bessel del primo tipo di ordine k. Dall’equazione 5.12 si vede che il segnale prodotto ha uno spettro a righe di frequenza fc ➈ k fm e di ampiezza data da Jk ➀ I ➁ . Pur essendo la sommatoria estesa ad un numero infinito di termini, solo pochi di essi, attorno a k ➂ 0 sono significativi. Infatti solo le funzioni di Bessel di ordine basso sono significative per valori piccoli dell’indice di modulazione. Quando l’indice I cresce, aumenta in corrispondenza anche il numero di funzioni significative. Il numero M di frequenze laterali di ampiezza maggiore di un centesimo e’ dato da M ➂ I ➄ 2 ➉ 4 ➊ I 0 ➋ 27 . In pratica si puo’ considerare M ➂ 1 ➉ 5 ➌ I. In questo modo si controlla la larghezza di banda attorno a fc . Ne risulta un effetto tipo filtro dinamico, analogo a quello che i musicisti sperimentano nell’impiego della sintesi sottrattiva. Inoltre l’ampiezza di ogni funzione varia in modo oscillante al variare dell’indice. Questo fatto produce una caratteristica ondulazione delle ampiezze delle parziali componenti quando l’indice varia in modo continuo e consente di ottenere facilmente spettri dinamici. ➍ Nel caso ➍ base il segnale modulante e’ sinusoidale e ne risulta uno spettro a righe di frequenza fc ➈ k fm caratterizzato quindi dal rapporto tra le frequenze. Si ha quindi la possibilita’ di controllare il grado di inarmonicita’ del segnale mediante il rapporto fc ➎ fm , come verra’ discusso nel paragrafo 5.3.2. Vale inoltre la proprieta’ che l’ampiezza massima e la l’energia non cambiano al variare dell’indice I. Pertanto vengono evitati i problemi di normalizzazione di ampiezza che ci sono nella sintesi per distorsione non lineare. E’ interessante ora vedere l’equivalente formulazione di 5.12 come modulazione di frequenza. La frequenza istantanea di un segnale s ➀ t ➁✥➂ sin ➃ ψ ➀ t ➁ ➅ e data da f ➀ t ➁✤➂➏➃ 1 ➎ 2π➅ ➃ dψ ➀ t ➁ ➎ dt ➅ . Pertanto la frequenza istantanea fi ➀ t ➁ del segnale di eq. 5.12 vale fi ➀ t ➁✜➂
fc ➄ I fm cos ➀ 2π fm t ➁
(5.13)
Essa varia quindi attorno a fc con una deviazione massima d ➂ I ➊ fm . In figura 5.15 e’ riportato il caso di modulazione con portante semplice realizzato mediante oscillatore controllato in frequenza. Si osservi infine che un cambio della differenza di fase tra portante e modulante produce solo un cambiamento delle fasi reciproche delle parziali generate. Questo normalmente non e’ percettualmente significativo. Solo nel caso in cui alcune parziali coincidano in frequenza, bisogna tenere conto della loro relazione di fase per calcolare l’ampiezza risultante.
Figura 5.15: Modulazione di frequenza con modulante semplice
5.3. SINTESI NON LINEARI
5.31
Esempio in Matlab E’ possibile realizzare gli algoritmi per la modulazione di frequenza utilizzando la formula del modulo di calcolo base con modulante sinusoidale (equazione 5.12)1 : Fs=22050; % frequenza di campionamento fc=700; %portante: 700 Hz fm=100; %modulante: 100 Hz I=2; %indice di modulazione t=0:(1/Fs):3; %asse temporale: 3 sec s=sin(2*pi*fc*t+I*sin(2*pi*fm*t));
La figura 5.16 illustra lo spettro del segnale generato per tre valori diversi dell’indice di modulazione. Si puo‘ verificare come al crescere dell’indice di modulazione l’energia della portante si distribuisce progressivamente sulle bande laterali seguendo l’andamento previsto dalle funzioni di Bessel. fc=700 Hz, fm=100 Hz, I=1
fc=700 Hz, fm=100 Hz, I=2
fc=700 Hz, fm=100 Hz, I=3 50
50 45
50 45
40 40 40
35 35 30 db
db
db
30 30
25
20
20
20
15
15
10
0
0
1000 Hz
2000
25
10
10
5
5
0
0
1000 Hz
2000
0
0
1000 Hz
2000
Figura 5.16: Spettro relativo a modulazione di frequenza con portante a 700 Hz, modulante sinusoidale a 100 Hz e indice di modulazione I crescente da 1 a 3
Portante composta Consideriamo ora una portante periodica ma non sinusoidale. s ➐ t ➑✜➒
L
∑ Al sin ➔ 2πl fct →
l➓ 0
φl ➐ t ➑ ➣
noti che la formula s ↔ n↕ ➙ sin ↔ 2π f c n ➛ φ ↔ n↕ ↕ corrisponde in realta’ ad una modulazione di fase in cui la fase istantanea e’ φi ↔ n↕☞➙ φc ➛ φ ↔ n↕ . Nel caso di modulante sinusoidale ( φ ↔ n↕ ➙ I sin ↔ 2π f m n↕ ), e’ possibile verificare l’equivalenza tra modulazione di fase e modulazione di frequenza se in 2π f i ↔ n↕ ➙ 2π ↔ fc ➛ f ↔ n↕ ↕ si pone f ↔ n↕ ➙ I fm cos ↔ 2π fm t ↕ . L’implementazione della modulazione in questa ultima forma richiede pero‘ attenzione al problemi di continuita’ di fase quando la frequenza e’ imposta ad ogni istante 1 Si
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.32
Se essa viene modulata, e’ come se ciascuna sua armonica fosse modulata dalla stessa modulante. Se la modulante e’ sinusoidale, nello spettro attorno ad ogni armonica della portante saranno presenti righe di ampiezza proporzionale all’armonica. Ne risulta uno spettro di righe a frequenza ➜ l fc ➝ k fm ➜ e di ampiezza Al Jk ➞ I ➟ con ➜ l ➜ ➠ L e ➜ k ➜ ➠ M, essendo L il numero di armoniche significative. s ➞ t ➟✜➡
L
M
∑ ∑ ➢
l 1k
➢⑨➤
M
Al Jk ➞ I ➟ sin ➥ 2π ➞ l fc ➦ k fm ➟ t ➧
In generale ci possono essere varie portanti indipendenti modulate dalla stessa modulante o da differenti modulanti (fig. 5.17). Ne risulta una specie di sintesi additiva in cui invece che addendi sinusoidali, si hanno addendi piu’ complessi s ➞ t ➟✜➡
L
∑ Al sin ➥ 2π fc ln ➦ ➢
l 0
φl ➞ t ➟
➧
Per esempio con portanti di frequenza multipla della frequenza della modulante fm si possono creare suoni armonici complessi di frequenza fondamentale f0 ➡ fm controllando le varie regioni dello spettro in modo indipendente. La frequenza di ciascuna portante determina la regione che viene influenzata e in un certo senso la posizione di un formante.
Figura 5.17: Modulazione di frequenza con N portanti modulate dalla stessa modulante
Esempio in Matlab L’esempio precedente puo‘ essere gradualmente arricchito considerando portanti e/o modulanti via via piu‘ complesse. L’uso di una portante composta, ad esempio, puo‘ servire per generare nello spettro dei formanti alle frequenze delle sue componenti. L’istruzione di generazione del segnale audio diventa fc1=300; %portante 1: 300 Hz fc2=1000; %portante 2: 1000 Hz fc3=3000; %portante 3: 3000 Hz
5.3. SINTESI NON LINEARI
5.33
fm=100; %modulante: 100 Hz I1=1; I2=2; I3=3; theta=sin(2*pi*fm*t); s=sin(2*pi*fc1*t+I1*theta) +sin(2*pi*fc2*t+I2*theta) +sin(2*pi*fc3*t+I3*theta);
fc1=300 Hz, fc2=1000 Hz, fc3=3000 Hz, fm=100 Hz, I1=1, I2=2, I3=3
50
db
40
30
20
10
0
0
500
1000
1500
2000
2500 Hz
3000
3500
4000
4500
5000
Figura 5.18: Spettro relativo a modulazione di frequenza con tre portanti e una modulante
Modulante composta Esaminiamo ora il caso di modulante composta da due sinusoidi (fig. 5.19), ciascuna con il suo indice di modulazione φ ➨ t ➩✭➫ I1 sin ➨ 2π f1 t ➩☞➭ I2 sin ➨ 2π f2 t ➩ Sostituendo in (5.11) risulta: s ➨ t ➩✜➫ sin ➯ 2π fc t ➭ I1 sin ➨ 2π f1 t ➩☞➭ I2 sin ➨ 2π f2 t ➲ Sviluppando la prima modulante si ha: s ➨ t ➩✜➫
∑ Jk ➨ I1 ➩
sin ➯ 2π ➨ fc ➭ k f1 ➩ t ➭ I2 sin ➨ 2π f2 t ➩ ➩ ➲
k
e poi la seconda modulante si arriva a: s ➨ t ➩✭➫
∑ ∑ Jk ➨ I1 ➩✍➳ Jn ➨ I2 ➩ k
n
sin ➯ 2π ➨ fc ➭ k f1 ➭ n f2 ➩ t ➲
5.34
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
Figura 5.19: Modulazione di frequenza con due modulanti Lo spettro risultante e’ molto piu’ complicato di quello del caso di una modulante semplice. Sono presenti tutte le parziali a frequenza ➵ fc ➸ k f1 ➸ n f2 ➵ e con ampiezza Jk ➺ I1 ➻✦➼ Jn ➺ I2 ➻ . Per interpretare l’effetto si consideri f1 ➽ f2 . Se fosse presente solo la modulante a frequenza f1 , lo spettro risultante avrebbe un certo numero di componenti di ampiezza Jk ➺ I1 ➻ e frequenza fc ➸ k f1 . Quando viene applicato anche la modulante a frequenza f2 , queste componenti diventano a loro volta portanti con bande laterali prodotte da f2 . Attorno a ciascuna delle componenti prodotte da f1 si avranno cioe’ righe spaziate di f2 . La banda risultante e’ approssimativamente uguale alla somma delle due bande. Se le frequenze hanno rapporti semplici tra loro, lo spettro e’ del tipo ➵ fc ➸ k fm ➵ dove ora fm e’ il massimo comun divisore tra f1 e f2 . Per esempio se fc ➾ 700 Hz, f1 ➾ 300 Hz 2e f2 ➾ 200 Hz, le componenti sono 700 ➸ k100 e la fondamentale 100 Hz. Pertanto scegliendo f1 e f2 multipli di fm si ottengono suoni dello stesso tipo di quelli ottenuti con la modulazione semplice ma con una dinamica spettrale piu’ ricca.
Figura 5.20: Modulazione di frequenza con N modulanti In generale se il segnale modulante e’ composto da N sinusoidi (fig. 5.20) risulteranno componenti
5.3. SINTESI NON LINEARI
➚ ➪
5.35
➚
➪✧➶ ➶ ➶ ➪
di frequenza fc k1 f1 kN fN con ampiezze date dal prodotto di N funzioni di Bessel. Anche qui se i rapporti sono semplici risulta uno spettro del tipo fc k fm dove fm e’ il massimo comun divisore tra le frequenze modulanti. Se i rapporti non sono semplici le righe risultanti saranno sparse dando luogo a suoni inarmonici o anche rumorosi per alti valori degli indici. Ad esempio Schottstaedt usa la doppia modulante per simulare il suono del piano, ponendo f1 fc e f2 4 fc . In questo modo cerca di simulare la leggera inarmonicita’ delle corde del piano. Inoltre fa diminuire gli indici di modulazione al crescere di fc e quindi della fondamentale della nota. In questo modo le note basse sono piu’ ricche di armoniche di quelle alte.
➚ ➪
➚
➹
➹
Esempio in Matlab La modulante puo‘ a sua volta essere composta da piu‘ componenti. Il caso di una portante sinusoidale e modulante composta si realizza ad esempio con fc=700; fm1=700; fm2=2800; I1=1; I2=1; s=sin(2*pi*fc*t+I1*sin(2*pi*fm1*t)+I2*sin(2*pi*fm2*t));
La figura 5.21 illustra due casi di modulazione con una portante sinusoidale a 700 Hz e una modulante composta da due sinusoidi. Si puo‘ osservare nella prima come i rapporti semplici delle frequenze di modulanti e portante determinino uno spettro del tipo fc k fm dove fm 100Hz (massimo comun divisore tra f1 300 e f2 200) e la fondamentale e’ a 100 Hz. Nella seconda, i rapporti di frequenza f1 fc e f2 4 fc sono scelti in modo che la fondamentale coincide con fc e che le parziali superiori siano in rapporto armonico con la fondamentale, essendo proprio f1 fc il massimo comun divisore tra f1 e f2 (piano di Schottstaedt).
➴
➴
➚ ➘
➴
➴
➚
➴
➴
fc1=700 Hz, fm1=300 Hz, fm2=200 Hz, I1=1, I2=1
fc1=700 Hz, fm1=800 Hz, fm2=3200 Hz, I1=1, I2=1
50
50
45 40
40
35 30 db
db
30
25 20
20
15 10
10
5 0
0
1000
2000
3000 Hz
4000
5000
0
0
2000
4000 Hz
6000
Figura 5.21: Due esempi di modulazione con portante semplice e modulante composta
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.36
I rapporti semplici dell’ultimo esempio visto determinano uno spettro esattamente armonico. E’ possibile sperimentare l’effetto dell’inarmonicita’ variando i valori di f1 e f2 in modo che siano solo approssimativamente pari a fc e a 4 fc rispettivamente. La figura 5.22 mostra lo spettro risultante per scostamenti progressivi di f1 e f2 dai valori proporzionali a fc . fc1=700 Hz, fm1=705 Hz, fm2=2805 Hz
fc1=700 Hz, fm1=720 Hz, fm2=2805 Hz
40
40
30
30 db
50
db
50
20
20
10
10
0
0
2000
4000 Hz
6000
0
0
2000
4000 Hz
6000
Figura 5.22: Suoni inarmonici dovuti a rapporti non semplici tra frequenze Anche per gli algoritmi di modulazione di frequenza e’ possibile pensare ad una interfaccia che renda semplice controllare la sintesi con inviluppi di ampiezza e frequenza al frame rate. Un oscillatore FM a portante e modulante composta, ad esempio, avrebbe interfaccia FMoper(t0,a,[fc1 fc2 ... fcN],[fm1 fm2 ... fmM],[I1 I2 ... IM]) in cui tutti i parametri di ingresso possono essere rappresentati con inviluppi temporali. La realizzazione di questo operatore e’ lasciata come esercizio. Modulanti in cascata Consideriamo ora il caso di modulante sinusoidale a sua volta modulata da un’altra sinusoide (fig. 5.23) φ ➷ t ➬✜➮ I1 sin ➷ 2π f1 t ➱ I2 sin ➷ 2π f2 t ➬ ➬ Il segnale e’ quindi definito da: s ➷ t ➬✬➮
➮
sin ✃ 2π fct ➱ I1 sin ➷ 2π f1 t ➱ I2 sin ➷ 2π f2 t ➬ ➬ ❐
∑ Jk ➷ I1 ➬
sin ✃ 2π ➷ fc ➱ k f1 ➬ t ➱ kI2 sin ➷ 2π f2 t ➬ ❐
k
➮
∑ ∑ Jk ➷ I1 ➬✍❒ Jn ➷ kI2 ➬ k
sin ✃ 2π ➷ fc ➱ k f1 ➱ n f2 ➬ t ❐
n
Il risultato puo’ venire interpretato come se ciascuna parziale prodotta dal modulatore f1 sia a sua volta modulata da ❮ ❮ f2 con indice di modulazione kI2 . Pertanto risulteranno le componenti di frequenza fc ❰ k f1 ❰ n f2 con approssimativamente 0 Ï k Ï I1 e 0 Ï n Ï I1 ❒ I2 . La frequenza massima e’
5.3. SINTESI NON LINEARI
5.37
Ð Ñ Ð Ò
Ó Ô Ó
fc I1 f1 I2 f2 . La struttura dello spettro e’ simile a quella prodotta da due modulanti sinusoidali, ma con banda maggiore. Anche qui se i rapporti sono semplici lo spettro sara’ del tipo fc k fm dove fm e’ il massimo comun divisore tra f1 e f2 .
Figura 5.23: Modulazione di frequenza con due modulanti in cascata
Feedback FM Consideriamo infine il caso in cui si usi come modulante il valore precedente del segnale generato. Si ha cosi’ la cosiddetta feedback FM. Essa e’ descritta in termini digitali da queste relazioni:
Ñ Ò✟Õ Ñ Ò✟Õ
φn sn
ÑÖ Ò Ñ Ð Ñ ÒÒ
βs n
1 fc sin 2π n Fs
φn
dove β e’ il fattore di feedback e agisce come fattore di scala o indice di modulazione per il feedback. Al crescere di β il segnale passa da sinusoidale verso la forma d’onda a dente di sega in modo continuo. Lo spettro e’ armonico di frequenza fc con aumento graduale del numero di armoniche. In termini di funzioni di Bessel risulta 2 st ∑ kβ Jk kβ sin 2πk fct k
Ñ Ò✭Õ
Ñ Ò Ñ
Ò
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.38
Esempio di implementazione di modulazione di frequenza in Matlab Per concludere, si vuole ora tornare sull’osservazione fatta all’inizio di questa sezione riguardo l’implementazione dell’oscillatore modulato in frequenza. Si e’ detto che risulta immediato realizzare l’oscillatore trasformando la modulazione di frequenza in modulazione di fase. Tuttavia, in qualche occasione, si puo‘ volere l’imposizione della frequenza istantanea all’audio rate. E’ utile a questo punto chiarire come calcolare la fase della sinusoide da generare se, di volta in volta, la frequenza di controllo e’ costante, imposta al frame rate o imposta all’audio rate.
×
f costante. In questo caso, ad ogni campione successivo, la fase cresce in modo lineare con il tempo ed e’ possibile calcolare il valore di fase ad ogni istante di campionamento a partire dal valore di fase al campione precedente: φ Ø n Ù 1 Ú✜Û φ Ø n Ú☞Ù
×
2π f Fs
f imposta a frame rate. Sia f0 la frequenza imposta al frame K, f1 la frequenza imposta al frame K Ù 1 e sia f Ø n Ú la frequenza istantanea. Si fa l’ipotesi che nel frame la frequenza cambi linearmente nel tempo da f0 a f1 . Se si scrive f Ø n Ú✜Û f0 Ù✧Ø f Ø nÚ✍Ü f0 Ú , si ha φ Ø n Ù 1 Ú✜Û φ Ø n Ú☞Ù
2π f0 2π Ø f1 Ü f0 Ú 1 Ù Ø Ú Fs 2Sp f Fs
2
dove si e’ indicato con SpF il numero di campioni in un frame.
×
f imposta ad audio rate. Sia in questo caso f Ø n Ú la frequenza istantanea. L’aggiornamento della fase al campione successivo e’ allora φ Ø n Ù 1Ú✜Û φ Ø nÚ☞Ù
2π f Ø n Ú 2π Ø f Ø n Ù 1 Ú✍Ü Ù Fs 2
f Ø nÚ Ú 1 Fs
Il corpo della funzione FMosc(t0,a,f,phi0), con frequenza di controllo f ad audio rate, e’ illustrato di seguito: function s=FMosc(t0,a,f,phi0) (...) lastfreq=f(1); lastphase=0; phase=zeros(1,SpF); for (i=1:nframes) for(k=1:SpF) phase(k)=lastphase+2*pi*lastfreq/Fs+pi*(f((i-1)*SpF+k)-lastfreq)*(1/Fs); lastphase=phase(k); lastfreq=f((i-1)*SpF+k); end s(((i-1)*SpF+1):i*SpF)=a(i).*sin(phase); end
Conclusioni sulla modulazione di frequenza In conclusione la sintesi FM e’ un metodo molto versatile per produrre molti tipi di suono. D’altra parte non ci sono metodi chiusi che consentano di derivare in modo preciso i parametri di un modello
5.3. SINTESI NON LINEARI
5.39
FM analizzando un suono dato. Per riprodurre dei suoni di strumenti musicali e’ quindi preferibile usare altre tecniche come la sintesi additiva o la sintesi per modelli fisici. Non evocando questa tecnica di sintesi nessuna esperienza musicale nell’esecutore, il controllo parametrico risulta poco intuitivo e richiede quindi una rilevante dose di esperienza specifica, caratteristica questa degli strumenti innovativi. Il suo principale punto di forza, ossia l’elevata dinamica timbrica legata a pochi parametri e a basso costo computazionale, sta perdendo progressivamente terreno nei confronti di altre tecniche di sintesi, piu’ costose, ma controllabili in maniera piu’ naturale e intuitiva. Il metodo conserva comunque la particolarita’ di definire un suo spazio timbrico peculiare. Esso pur non prestandosi particolarmente alla simulazione di qualita’ di suoni naturali, offre comunque un grande ventaglio di sonorita’ originali di notevole interesse per la computer music.
5.3.2
Spettri di tipo f1
k f2 Ý
Le seguenti considerazioni valgono per i suoni prodotti mediante traslazione di spettri armonici, cioe’ per suoni composti da parziali di frequenza f1 k f2 con k = 0, 1, ... . Questi spettri sono caratterizzati dal rapporto f1 f2 . Nel caso delle modulazioni esso equivale al rapporto fc fm tra frequenza della portante e della modulante. Quando il rapporto puo’ essere rappresentato con una frazione irriducibile f1 f2 N1 N2 con N1 e N2 interi primi tra loro, il suono risultante e’ armonico, nel senso che tutte le componenti sono multiple intere di una fondamentale. La frequenza fondamentale risulta Þ
ß
ß
à
ß
ß
f0
f1 N1 à
f2 N2 à
Si vede che in questo caso f1 coincide con la N1 -esima armonica, infatti f1 f2
N1 f0 à
N2 f0 à
Se N2 1, tutte le armoniche sono presenti e le componenti laterali con k negativo si sovrappongono a quello con k positivo. Se N2 2, sono presenti solo le armoniche dispari e le componenti si sovrappongono ancora. Se N2 3, mancano le armoniche multiple di 3. In generale il rapporto N1 N2 e’ anche un indice dell’armonicita’ dello spettro. Intuitivamente il suono e’ piu’ armonioso, quando il rapporto N1 N2 e semplice ossia quanto piu’ il prodotto N1 N2 e’ piccolo. I rapporti possono essere raggruppati in famiglie. Tutti i rapporti del tipo f1 k f2 f2 possono produrre le stesse componenti del rapporto f1 f2 . Cambia solo quale parziale coincide con f1 . Ad esempio i rapporti 2/3, 5/3, 1/3, 4/3, 7/3 e cosi’ via appartengono alla stessa famiglia. Sono presenti tutte le armoniche ad esclusione di quelle multiple di 3 (essendo N2 3) e f1 coincidera’ rispettivamente con la seconda, quinta, prima, quarta e settima armonica. Il rapporto che distingue la famiglia si dice in forma normalizzata se e’ minore o uguale a 1 2. Nell’ esempio precedente esso e’ uguale a 1 3. Ciascuna famiglia e’ quindi caratterizzata da un rapporto in forma normalizzata. Spettri simili possono essere ottenuti da suoni della stessa famiglia. Si vede quindi che il denominatore N2 e’ caratterizzante lo spettro. In particolare per N2 5 ogni denominatore definisce una sola famiglia. Se il rapporto e’ irrazionale, il suono risultante non e’ piu’ periodico. Questa possibilita’ viene usata per creare facilmente suoni inarmonici. Ad esempio se f1 f2 1 2 la spettro consiste in componenti a frequenza f1 k 2. Non c’e’ quindi nessuna fondamentale implicita. Un comportamento simile si ottiene per rapporti non semplici come f1 f2 5 7. Di particolare interesse e’ il caso in cui il rapporto f1 f2 approssimi un semplice valore, cioe’ à
à
à
ß
ß
á
â
â
Þ
ß
à
ß
ß
ã
ß
Þ
ä
ß
à
ß
ß
f1 f2 à
N1 N2
ε å
æ
à
ß
ä
ß
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.40
In questo caso il suono non e’ piu’ rigorosamente periodico. La fondamentale e’ ancora f0 ç f2 è N2 e le parziali sono spostate dal loro preciso valore di é ε f2 . Pertanto un piccolo spostamento della portante non cambia l’altezza del suono e lo rende molto piu’ vivo grazie ai battimenti tra le componenti vicine. Si noti invece che lo stesso spostamento della modulante f2 cambia la fondamentale.
5.3.3
Sintesi moltiplicativa
La trasformazione non lineare piu’ semplice consiste nella moltiplicazione di due segnali. Nel campo analogico e’ chiamata modulazione ad anello (ring modulation) o RM ed e’ piuttosto difficile da produrre in modo preciso. Nel campo numerico invece consiste in una semplice operazione di moltiplicazione. Se x1 ê t ë e x2 ê t ë sono due segnali il segnale di uscita e’ dato da s ê t ë ç x1 ê t ë✍ì x2 ê t ë
(5.14)
Lo spettro risultante e’ dato dalla convoluzione tra gli spettri dei due segnali. Normalmente uno dei due segnali e’ sinusoidale di frequenza fc ed e’ chiamato portante c ê t ë (carrier) e l’altro e’ un segnale in ingresso alla trasformazione ed e’ chiamato modulante m ê t ë . Si ha pertanto s ê t ë ç m ê t ë✍ì c ê t ë ç m ê t ë cos ê 2π fct í φc ë e lo spettro risultante e’ Sê f ë ç
1 Mê f ï 2î
fc ë e jφc í M ê f í
fc ë e ð
jφc ñ
Lo spettro di s(t) e’ composto da due copie dello spettro di m ê t ë : una banda laterale inferiore (LSB) e la banda laterale superiore (USB). La LSB e’ rovesciata in frequenza e entrambe le bande sono centrate attorno a fc . A seconda della larghezza di banda di m ê t ë e della frequenza della portante fc , le bande laterali possono essere parzialmente riflesse attorno all’origine dell’asse di frequenza. Se la portante ha diverse componenti spettrali, lo stesso effetto si ripete per ogni componente. L’effetto acustico della modulazione ad anello e’ relativamente facile da capire per segnali semplici. Diventa pero’ piuttosto complicato da immaginare per segnali con numerose parziali. Se sia la portante che la modulante sono sinusoidali di frequenza rispettivamente fc e fm , si sente la somma di due differenti parziali a frequenza fc í fm e fc ï fm . Ad esempio se fc ç 500 Hz e fm ç 400 Hz, la modulazione ad anello produce due parziali a frequenza 900 Hz e 100 Hz. Se invece se fc ç 100 Hz e di nuovo fm ç 400 Hz, si producono due parziali a frequenza 500 Hz e -300 Hz. Quest’ultima ha frequenza negativa; si ha quindi una riflessione (foldunder) attorno allo 0 con cambio di segno della fase. Infatti cos ê ï 2π100t í φë ç cos ê 2π100t ï φ ë . In definitiva si sentiranno due componenti a frequenza 500 Hz e 300 Hz. Se la portante e’ sinusoidale e la modulante e’ periodica di frequenza fm con m ê t ë ç ∑Nkò 1 bk cos ê 2πk fm t í φ ë risulta N bk cos 2π ê fc í k fm ë t í φk ô í cos 2π ê fc ï k fm ë t ï φk ô ô (5.15) sê t ë ç ∑ ó ó kò 1 2 ó L’armonica k-esima dara’ luogo a due righe, una nella LSB e l’altra nella USB, a frequenza fc ï k fm e fc í k fm . Lo spettro risultante ha quindi righe a frequenza õ fc é k fm õ con k ç 1 ö 2 ö ÷ ÷ , dove si e’ usato il valore assoluto per tenere conto delle possibili riflessioni attorno allo 0. Valgono per questi spettri le considerazioni fatte sopra sulle famiglie di spettri õ fc é k fm õ .
5.3. SINTESI NON LINEARI
5.41
Modulazione di ampiezza La modulazione di ampiezza era piu’ facile da realizzare nel campo analogico e pertanto e’ stata usata per molto tempo. Essa puo’ essere implementata come s ø t ù✭ú✽û 1 ü δm ø t ù ý c ø t ù
(5.16)
dove si e’ assunto che l’ampiezza di picco di m ø t ù sia 1. Il coefficiente δ determina la profondita’ di modulazione. L’effetto e’ massimo quando δ ú 1 e viene disattivato quando δ ú 0. Tipiche applicazioni sono l’uso di un segnale audio come portante c ø t ù e un oscillatore a bassa frequenza (LFO) come modulatore m ø t ù . L’ampiezza del segnale audio varia seguendo l’ampiezza di m ø t ù e cosi’ verra’ sentita. Se il modulatore e’ un segnale udibile e la portante una sinusoide di frequenza fc , l’effetto e’ simile a quello visto per il modulatore ad anello, solo che in uscita si sentira’ anche la frequenza della portante fc . Si noti che a causa del tempo di integrazione del nostro sistema uditivo, l’effetto e’ percepito differentemente in dipendenza del campo di frequenza dei segnali considerati. Una modulazione con frequenza sotto 20 Hz sara’ sentita nel dominio del tempo (variazione di ampiezza), mentre modulazioni con frequenza superiori verranno sentite come componenti spettrali distinte (banda laterale inferiore, portante, banda laterale superiore).
5.3.4
Sintesi per distorsione non lineare
L’idea fondamentale della sintesi per distorsione non lineare, conosciuta anche sotto il nome di waveshaping e’ quella di passare una sinusoide per un blocco distorcente. E’ noto infatti che se una sinusoide passa per filtro lineare viene modificata la sua ampiezza e fase, ma non la forma d’onda. Se invece l’amplificatore e’ non lineare la forma d’onda del segnale viene modificata e vengono create altre componenti spettrali. Questo fatto e’ ben noto nei segnali analogici, dove si cerca di evitarlo o usarlo per creare effetti tipo amplificazione con tubi elettronici. Nel campo digitale si e’ pensato di sfruttarlo per produrre suoni periodici di spettro variabile. Il blocco distorcente e’ realizzato mediante una funzione non lineare F ø xù chiamata funzione distorcente o shaping function memorizzata su tabella. Piu’ raramente la funzione viene calcolata direttamente. La funzione distorcente dipende solo dal valore istantaneo dell’ingresso. Pertanto in corrispondenza ad un segnale di ingresso x ø t ù il metodo calcola (5.17) s ø t ù✭ú F û x ø t ù ý cercando in tabella ad ogni campione il valore all’ascissa x ø t ù . Questa tecnica puo’ essere usata come effetto audio che’ oer la sintesi. Nel primo caso si usa una leggera distorsione, spesso sotto forma di saturazione, su un segnale qualsiasi per arricchire un po’ lo spettro e simulare l’effetto che si verifica sovente in strumenti meccanici o elettronici analogici. Per la sintesi dei suoni normalmente si usa un ingresso sinusoidale di ampiezza I (che puo’ essere variata) x ø t ù✜ú I þ cos ø 2π f t ù per cui la formula di sintesi diviene: s ø t ù✜ú F û x ø t ù
ý✦ú F û I þ cos ø 2π f t ù ý
In figura 5.24 e’ riportato lo schema a blocchi della sintesi per distorsione non lineare. Con il parallelogramma viene indicato il modulo che effettua la distorsione mediante lettura da tabella del valore di F ø xù .
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.42
Figura 5.24: Sintesi per distorsione non lineare In generale nella sintesi, se F x ✂✁ F1 x☎✄ F2 x , la distorsione prodotta da F ✆ e’ uguale alla somma di quelle prodotte da F1 ✝ e F2 ✝ separatamente. In particolare una funzione pari, cioe’ simmetrica rispetto all’asse y genera solo armoniche pari e una funzione dispari (antisimmetrica) genera solo armoniche dispari. Normalmente una funzione distorcente produce infinite armoniche. Se pero’ la funzione e’ un polinomio p x di grado N, vengono prodotte solo le prime N armoniche. In questo modo si puo’ controllare il foldover. Se la funzione e’ polinomiale e’ anche facile calcolare le ampiezze delle armoniche generate dalla distorsione di una sinusoide. Infatti, tenendo conto che il polinomio di Chebyshev di ordine k e’ definito come Tk cos θ ✞✁ cos k ✝ θ , ne deriva che usandolo come funzione distorcente di una sinusoide di ampiezza unitaria si ha ÿ
ÿ
ÿ
ÿ
ÿ
ÿ
ÿ
ÿ
s t ✟✁ F ✠ I ✝ cos 2π f t ÿ
ÿ
✡☎✁
ÿ
Tk ✠ cos 2π f t ÿ
✡☎✁
cos 2πk f t ÿ
Viene cioe’ generata l’armonica k-esima. Pertanto, sviluppando il polinomio distorcente p x in serie di polinomi di Chebyshev ÿ
F x✞✁ ÿ
p x✞✁ ÿ
N
∑ di xi ☛
i 0
N
✁ ∑ hk Tk k☛ 0 ÿ
x
si ottengono le ampiezze delle armoniche, dove hk sara’ l’ampiezza dell’armonica k-esima. Usando quindi il polinomio p x cosi’ determinato come funzione distorcente di una sinusoide ad ampiezza I ✁ 1, si ottiene ÿ
s t ✟✁ F ✠ cos 2π f t ÿ
ÿ
N
✡☞✁ ∑ hk cos 2πk f t k☛ 0 ÿ
Se varia l’ampiezza dell’ingresso I, varia anche la distorsione e lo spettro prodotto. Questo e’ simile ad un’espansione o contrazione della funzione, in quanto viene usato una parte maggiore o minore della funzione. L’ampiezza e l’intensita’ del suono prodotto varia quindi con l’ampiezza dell’ingresso e deve essere pertanto compensata con un’opportuna funzione di normalizzazione. Nel caso invece che la distorsione sia usata come effetto, questi cambiamenti spesso sono in accordo con il fenomeno acustico che si vuole imitare e quindi non devono essere compensati. Un’altra variazione dinamica del waveshaping che e’ facile implementare consiste nell’aggiungere una costante all’ingresso. In questo caso la funzione viene traslata orizzontalmente. Anche in questo caso lo spettro varia, ma non e’ piu’ separabile l’effetto della parte pari da quella dispari della funzione originaria.
5.4. SINTESI PER MODELLI FISICI
5.4
5.43
Sintesi per modelli fisici
Gli algoritmi visti sopra si basano su modelli del segnale che arriva alle nostre orecchie. Essi appartengono quindi alla categoria dei modelli generativi. La sintesi per modelli fisici segue invece un approccio alternativo, in cui si cerca di rappresentare la dinamica degli oggetti (reali o virtuali) responsabili della produzione del suono. La sintesi e` quindi basata sull’uso di modelli formali di strumenti musicali tradizionali; il suono viene generato simulando numericamente la dinamica dello strumento che lo produce. I modelli del segnale hanno fino ad oggi dominato la scena, in virt`u di algoritmi efficienti e flessibili. I modelli fisici di strumenti musicali, sebbene costituiscano da sempre un campo di indagine vivo e in evoluzione, hanno invece cominciato solo di recente ad essere usati per la sintesi del suono. I motivi sono da ricercarsi principalmente in una maggiore complessit`a degli algoritmi e nello stesso tempo in una pi`u marcata rigidit`a delle strutture di sintesi; la maggior parte dei modelli rappresenta infatti strumenti specifici, e raramente e` possibile trovare delle strutture che descrivano ampie classi di strumenti musicali in maniera efficiente ed efficace. D’altro canto, la sintesi per modelli fisici presenta alcune notevoli potenzialit`a. Innanzitutto, si pu`o osservare che essa impiega algoritmi caratterizzati da pochi parametri di controllo, i quali hanno quasi sempre un significato fisico. Da ci`o segue che poche ed intuitive variazioni sui parametri stessi producono dei risultati sonori coerenti con l’esperienza, anche gestuale, del musicista. In altre tecniche basate su modelli del segnale questo non accade, proprio perch´e tali modelli si disinteressano dei meccanismi di generazione del suono. Questa propriet`a e` particolarmente interessante dal punto di vista musicale; si pu`o infatti pensare al controllo dello strumento simulato in termini degli stessi parametri usati per il controllo del corrispondente strumento reale; tali parametri possono essere forniti dall’esecutore attraverso opportuni trasduttori ed attuatori, che permettano di riprodurre interventi gestuali che fanno parte dell’esperienza del musicista. Per quanto riguarda le sonorit`a prodotte, queste sono caratterizzate da un’evoluzione timbrica naturale, analoga a quella degli strumenti acustici. In particolare, vengono conservate quelle caratteristiche di variet`a e di coerenza timbrica tipiche degli strumenti acustici e gradite all’orecchio umano.
5.4.1
Blocchi funzionali
Nello sviluppo dei modelli e` utile individuare blocchi funzionalmente distinti; ciascuno di essi pu`o essere studiato in maniera indipendente, e la dinamica complessiva del sistema viene data dall’interazione delle parti. Per gli strumenti musicali, un primo livello di scomposizione e` dato dall’identificazione di due blocchi funzionali distinti: l’eccitatore e il risonatore. Il risonatore e` la parte dello strumento in cui la vibrazione ha effettivamente luogo, ed e` correlato a caratteristiche sonore quali altezza ed inviluppo spettrale. L’eccitatore provoca ed eventualmente sostiene la vibrazione nel risonatore, immettendo energia nello strumento; da esso dipendono le propriet`a di attacco del suono, fondamentali nell’identificazione del timbro. Per fare qualche esempio, sono blocchi risonatori la corda nella chitarra, nel pianoforte, nel violino, o il tubo acustico nei legni e negli ottoni. Sono invece eccitatori il plettro nella chitarra, l’archetto nel violino, il martelletto nel pianoforte, l’ancia nel clarinetto. L’interazione pu`o essere semplicemente feedforward, se l’eccitatore non riceve nessuna informazione di ritorno dal risonatore, oppure feedback, se i due blocchi si scambiano informazione in entrambe le direzioni. Nella chitarra il meccanismo di eccitazione e` con buona approssimazione feedforward: il plettro pizzica
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.44
la corda fornendo le condizioni iniziali, poi il risonatore evolve in maniera libera. Strutture di tipo feedback sono invece adatte per modellizzare strumenti persistentemente eccitati, come i fiati. La suddivisione in blocchi pu`o essere estesa a livelli pi`u fini, soprattutto per i risonatori. In una chitarra, il blocco del risonatore comprender`a la corda vibrante e la tavola armonica; in uno strumento a fiato, invece, esso sar`a composto da dal tubo acustico, dalla campana (la parte terminale) e dai fori. Ad ogni stadio ci si trova davanti ad una scelta: continuare nel raffinamento, modellizzando la fisica del sistema fino ai livelli pi`u bassi (modelli white box), oppure considerare solo le propriet`a ingresso-uscita del blocco in esame (modelli black box). E` chiaro che un modello black box risulta pi`u semplice nella progettazione e pi`u efficiente nell’implementazione, riducendo il blocco funzionale ad un semplice filtro. Si rischia tuttavia di introdurre semplificazioni eccessive nel modello, e comunque di produrre strutture i cui parametri non hanno significato fisico e sono quindi difficilmente controllabili. Dalla parte opposta, un approccio completamente white box genera modelli che possono rivelarsi eccessivamente pesanti dal punto di vista computazionale. Passando dalla scomposizione concettuale allo sviluppo dei modelli, i due principali blocchi dello strumento sono rappresentati da altrettanti sistemi dinamici. L’eccitatore contiene nella maggior parte dei casi delle forti nonlinearit`a; i risonatori, descritti tipicamente dall’equazione delle onde, vengono invece modellizzati da sistemi lineari. Nelle implementazioni numeriche si deve prendere in considerazione un terzo elemento, un modulo di interazione tra i due blocchi. Lo schema risultante e` allora quello di figura 5.25.
parametri di controllo
ECCITATORE (non lineare)
Interazione
RISONATORE (lineare)
output
Figura 5.25: Schema di interazione tra eccitatore e risonatore. Il modulo di interazione ha principalmente la funzione di adattatore, converte le variabili in arrivo da eccitatore e risonatore e pemette di ovviare ad anomalie sorte durante il processo di discretizzazione (ad esempio la nascita di anelli senza ritardi e quindi non computabili). Questo blocco pu`o anche essere usato per compensare alcune semplificazioni del modello; ad esempio, nel modello di un clarinetto si pu`o introdurre nel blocco di interazione un rumore fluidodinamico, la cui ampiezza e` modulata dal flusso d’aria.
5.4.2
Elementi concentrati e distribuiti
Nel costruire un modello a tempo continuo per un sistema acustico, due sono le strade che si possono seguire. Spesso e` possibile utilizzare una schematizzazione che rappresenta l’oggetto in esame come costituito da corpi rigidi connessi tra loro attraverso degli ideali elementi concentrati: molle, elementi di attrito, e cos`ı via. Il modello cos`ı ottenuto e` allora descritto da sistemi di equazioni differenziali ordinarie. Alternativamente, l’oggetto in esame pu`o venire trattato come un corpo flessibile, in cui le forze e la materia sono distribuite in uno spazio continuo; si parla allora di elementi distribuiti, come corde, o membrane, o ancora l’aria all’interno di un tubo acustico. In questo caso il modello viene descritto da equazioni alle derivate parziali, nelle quali le quantit`a fisiche sono funzioni anche della posizione, oltre che del tempo.
5.4. SINTESI PER MODELLI FISICI
5.45
In entrambi i casi, le equazioni usate introducono approssimazioni e semplificazioni della realt`a fisica. Un secondo livello di approssimazione viene poi dalla simulazione, dove le equazioni di partenza devono essere risolte numericamente. Per quanto riguarda la simulazione di equazioni differenziali ordinarie, e quindi di modelli ad elementi concentrati, il calcolo numerico mette a disposizione una variet`a di metodi: schemi di Eulero in avanti o all’indietro, trasformazione bilineare, metodi lineari multistep, metodi di Runge-Kutta, solo per nominare i principali. Uno dei metodi pi`u popolari per la risoluzione numerica di equazioni alle derivate parziali e` quello che va sotto il nome di differenze finite; in esso i dominii spaziale e temporale sono ricoperti da griglie, e le derivate vengono sostituite da combinazioni lineari dei valori della variabile sui punti della griglia. I principali problemi introdotti dagli schemi alle differenze finite riguardano innanzitutto la stabilit`a delle soluzioni discrete, ed in secondo luogo l’introduzione di dissipazione e dispersione numeriche. Si pensi ad esempio all’equazione delle onde, valida in una corda o un tubo cilindrico ideali: 2 ∂2 y 2∂ y x ✍ t ✞ ✎ ✏ c x✍ t ✎ ✍ (5.18) ∂t 2 ✌ ∂x2 ✌ in cui c e` la velocit`a di propagazione, t ed x sono rispettivamente le variabili temporale e spaziale, e y e` ad esempio la velocit`a trasversale della corda o la pressione nel tubo. E` ben noto che le soluzioni della (5.18) sono forme d’onda che traslano rigidamente con velocit`a c. La dissipazione numerica introduce allora delle attenuazioni (o delle amplificazioni) artificiali nelle soluzioni approssimate, mentre la dispersione cambia la velocit`a di traslazione. Nell’ambito delle equazioni iperboliche, di cui la (5.18) e` un esempio, esistono metodi standard che permettono di valutare l’efficacia di un metodo alle differenze finite in rapporto a questi problemi. Un primo risultato e` fornito dalla condizione di Courant-Friedrichs-Lewy (CFL), che e` una condizione necessaria (e non sufficiente) per la stabilit`a di uno schema numerico alle differenze finite; nel caso dell’equazione delle onde la condizione assume il seguente aspetto:
∆t ✑ 1 (5.19) ∆x La condizione CFL stabilisce dunque una relazione tra i passi di integrazione in tempo e spazio, ed ha come interessante (e non intuitiva) conseguenza che ∆x troppo piccoli non aumentano l’accuratezza del metodo: al contrario, possono portare ad instabilit`a. Nel caso in cui c non sia una costante ma una funzione di spazio e tempo la condizione rimane valida, a patto di sostituire la costante c con supx ✒ t c ✌ x ✍ t ✎ . Un potente strumento per lo studio delle propriet`a di un metodo alle differenze finite e` fornito dall’analisi di Von Neumann. Questa utilizza gli sviluppi in serie di Fourier per trovare dei coefficienti di amplificazione su ciascuna armonica; lo studio di tali coefficienti permette di imporre condizioni su ∆x e ∆t sufficienti per la stabilit`a del metodo, e mette allo stesso tempo in luce le propriet`a di dispersione e dissipazione del metodo stesso. c
Oltre ai modelli alle differenze finite esaminati fino ad ora, esistono altre tecniche per modellizzare sistemi distribuiti. Un possibile approccio alternativo e` quello di scomporre il sistema in un insieme di particelle interagenti, modellizzando la dinamica delle particelle e definendo le leggi di interazione tra esse. Si parla allora di modelli cellulari. L’esempio pi`u significativo fornito in questa direzione e` il sistema CORDIS-ANIMA, introdotto da Claude Cadoz ed altri all’inizio degli anni ’90. Questo modello fa riferimento ad una sequenza di masse elementari, collegate tra loro da masse ed attriti, e si presta a simulare efficacemente corpi vibranti quali lastre, sbarre, corde o membrane. Per contro,
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.46
presenta almeno due svantaggi: innanzitutto non esistono strumenti analitici (come l’analisi di Von Neumann nei modelli alle differenze finite) per valutare la correttezza della discretizzazione, ed in particolare per individuare dei vincoli di stabilit`a numerica. In secondo luogo, i costi computazionali sono molto elevati; questo perch´e nel modello si prende in considerazione la dinamica di tutti i punti dell’oggetto, fornendo informazione ridondante rispetto a quella musicalmente importante. Un altro importante approccio nella modellizzazione di sistemi vibranti e` quello fornito dai modelli waveguide, sviluppati principalmente da J.O. Smith. Il punto di partenza di tali modelli consiste nel discretizzare le soluzioni dell’equazione delle onde piuttosto che l’equazione stessa. Questo porta a delle strutture estremamente semplici ed efficienti, in grado di simulare efficacemente corde e tubi acustici. Entro certi limiti e` possibile riprodurre anche fenomeni di dissipazione e di dispersione tipici dei sistemi reali.
5.4.3
Il ruolo delle non linearit`a
La presenza di relazioni non lineari gioca un ruolo essenziale nello sviluppo di modelli di sistemi acustici; in assenza di esse, questi si ridurrebbero a schemi di sintesi sottrattiva, in cui un segnale di eccitazione viene sottoposto a filtraggio. Come gi`a detto le non linearit`a sono presenti in particolare negli eccitatori e nei meccanismi di interazione di questi con i risonatori; poich´e l’area in cui l’eccitazione ha luogo e` solitamente piccola, e` naturale utilizzare modelli concentrati per rappresentarle. Ad un primo livello di approssimazione si pu`o supporre che il meccanismo di eccitazione sia rappresentato da una funzione non lineare istantanea, la cui forma viene a volte dedotta da osservazioni sperimentali e direttamente implementata nella simulazione. Un esempio e` dato da un modello di corda strofinata in cui, per diversi valori della pressione e della velocit`a dell’archetto (i parametri di controllo), la velocit`a trasversale della corda e la forza di frizione tra corda ed archetto sono legate da una relazione altamente non lineare. Un’analoga relazione si trova tra pressione e flusso in un modello semplificato di ancia di clarinetto. Per realizzare simulazioni pi`u accurate, e` necessario passare da una rappresentazione mediante non linearit`a istantanee ad una che tenga in considerazione la dinamica dell’eccitatore. Modelli dinamici di questo tipo esistono ad esempio per l’ancia di clarinetto, o per l’interazione martelletto-corda nel pianoforte. Un problema che allora sorge e` come trasportare tali modelli dinamici e non lineari in schemi computazionali efficienti. Una struttura utilizzata con successo in molti casi e` quella illustrata in figura 5.26. al risonatore controllo
NL
L dal risonatore
Figura 5.26: Schema generale per un eccitatore dinamico. Il modello ad elementi concentrati dell’eccitatore viene suddiviso in due blocchi: il primo, contrasseganto con la lettera L, contiene la dinamica del sistema ed e` lineare; il secondo, NL, e` una funzione
5.5. MODELLI PER LA SINTESI DEI SEGNALI DI CONTROLLO
5.47
non lineare istantanea delle variabili provenienti dall blocco L, e dipende anch’esso dai parametri di controllo. Quando si discretizza un tale modello, ad esempio con una tecnica alle differenze finite, l’anello di feedback tra i due blocchi produce tipicamente loop senza ritardi e quindi non computabili. Questo inconveniente pu`o essere superato introducendo nell’anello dei ritardi fittizi, ma in tal modo si introducono errori in molti casi non accettabili. Metodi pi`u raffinati per risolvere le non computabilit`a sono ad esempio il metodo W e il metodo K. Il primo e` un metodo locale, nel senso che mediante l’uso di variabili d’onda permette di “adattare” ciascun elemento, in maniera tale da rendere computabili gli schemi. Il secondo e` invece globale: utilizzando il teorema di funzione implicita, permette di passare a delle nuove variabili che risultano computabili ad ogni passo.
5.5
Modelli per la sintesi dei segnali di controllo
Nei paragrafi precedenti si sono visti alcuni dei piu’ importanti modelli per la sintesi del suono. Essi costituiscono il meccanismo sottostante alla produzione del suono sintetico. Il problema del controllo nella sintesi fa riferimento a tutto quello che e’ necessario per passare dalla descrizione simbolica dei suoni, come espressa nella partitura, al suono, utilizzando i modelli di sintesi. Tradizionalmente la partitura prevede un insieme di note (simboli che descrivono un suono e le sue proprieta’ a livello astratto) ed e’ compito dell’esecutore, con l’aiuto di uno strumento, di tradurle in suono. In generale possono essere distinti due livelli di astrazione nel controllo, cui corrispondono scale dei tempi diverse: controllo dell’espressivita‘ dello strumento ✓
✓
controllo della dinamica spettrale
Il primo, che riguarda l’esecutore inteso come interprete, fa riferimento al passaggio da simboli ad azioni nel tempo per scegliere e rendere gli effetti espressivi voluti. In genere esso non rappresenta una semplice trasformazione di simbolo in simbolo, ma piuttosto determina la variazione continua di un insieme di parametri. Esso consiste quindi nella generazione di segnali che variano sulla scala dei tempi delle frasi. Con queste azioni il musicista dirige e da‘ forma al fluire del suono musicale che costituisce l’opera. Il secondo livello invece controlla la dinamica spettrale di una nota e determina il passaggio dai parametri espressivi all’algoritmo sottostante. In questo caso i segnali variano durante l’evoluzione della nota e operano sulla scala di tempo della sua durata. Al primo livello e‘ associata la proprieta‘ di ”suonabilita’”, ossia la possibilita‘ data all‘esecutore di interagire in maniera soddisfacente con lo strumento; al secondo livello e‘ associata l’idea di qualita‘ del timbro, ossia la capacita‘ dello strumento di produrre ”bei suoni”. In entrambi i casi l’obiettivo e‘ comunque quello di estrarre o sintetizzare un insieme di segnali di controllo piu‘ semplici da gestire. Tra esecutore e strumento tradizionale esiste un’interfaccia, ad esempio tastiera o archetto, che determina e vincola le possibili azioni. Tra l’algoritmo di sintesi e il musicista e’ pure presente un’interfaccia di controllo: essa costituisce cio‘ che il musicista conosce dello strumento e l’oggetto con cui interagisce. L’interfaccia di controllo mappa l’insieme delle possibili azioni dell’esecutore nei parametri dei controllo degli algoritmi sottostanti in maniera tale da presentare una coerenza e una consequenzialita‘ che soddisfi le aspettative del musicista. Negli strumenti commerciali, tale interfaccia e’ determinata dal costruttore. Invece l’uso del computer ha reso le interfaccie programmabili a seconda delle esigenze dell’utente, per cui esse possono essere a diversi livelli di astrazione. Si
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.48
puo‘ andare da un controllo dettagliato dei parametri degli algoritmi di sintesi, come puo’ essere per i musicisti utilizzanti programmi tipo MusicV, all’esecuzione automatica di una partitura, in cui tutto il controllo e’ affidato a processi automatici. I segnali di controllo sono caratterizzati da alcune differenze fondamentali rispetto ai segnali acustici. In particolare, per la maggior parte di essi non appare significativa l’interpretazione in frequenza, mancando il segnale delle caratteristiche di periodicita‘ o formantizzazione tipiche del segnale acustico. Sembra piu‘ adeguata l’interpretazione temporale e quindi le tecniche di analisi, sintesi e manipolazione che fanno riferimento al tempo. Tuttavia, e‘ possibile utilizzare le tecniche viste sopra, opportunamente reinterpretate, per sintetizzare segnali generici, come quelli di controllo.
5.5.1
Riproduzione
Vi sono alcuni modelli di sintesi del suono che hanno degli algoritmi di analisi sufficientemente accurati. Ad esempio i metodi che adottano la rappresentazione tempo-frequenza, visti nella sintesi additiva, possiedono algoritmi come la STFT che consentono di stimare, a partire da un suono reale, i parametri del modello per una riproduzione accurata del suono originale. Questi parametri, come visto, sono i segnali di controllo della frequenza e dell’ampiezza di ogni parziale del suono esaminato. In questo modo si ottengono da un unico segnale a frequenza acustica, vari segnali di controllo che variano lentamente nel tempo. L’interpretazione del loro andamento ora viene fatta essenzialmente nel tempo, come variazione delle caratteristiche timbriche del suono. Questi segnali di controllo vengono quindi spesso elaborati con le tipiche tecniche nel tempo, tipo cut and paste, riscalamenti di ampiezza o cambio della scala temporale etc. In ogni caso il punto di riferimento e’ che essi esprimono in dettaglio la variabilita’ presente nei suoni naturali. In particolare, quando essi derivano dall’analisi del controllo espressivo mantengono caratteristiche della gestualita‘ del performer. Senza un modello piu’ preciso di questa variabilita’ si ricorre alla riproduzione. Questo metodo e’ l’analogo della tecnica di campionamento vista per i segnali audio. Se si controlla lo stesso parametro, si ha la risintesi, eventualmente modificata del suono originale; altrimenti si possono controllare altri parametri del suono, ad esempio con l’inviluppo d’ampiezza controllare la bandwidth. Un uso piu‘ creativo del sampling e‘ l’impiego di segnali rilevati da un timbro per il controllo di un timbro diverso. Ad esempio, le deviazioni di frequenza di una voce possono essere usate per controllare il pitch di un violino; ne risulta quindi un suono con caratteristiche timbriche ibride tra i due strumenti (si percepisce un violino che canta).
5.5.2
Controlli composti
Spesso e’ conveniente ricorrere a sovrapposizione o concatenazione di elementi semplici di controllo. Tipico e’ il caso in cui si genera l’andamento deterministico del segnale e si sovrappongono delle variazioni aleatorie. Ad esempio se pensiamo al controllo della frequenza di un suono, si puo’ sommare un segnale che fornisce l’andamento generale della frequenza al suo stabilirsi, con una modulazione periodica di alcuni Hz piu’ una variazione aleatoria o frattale. In un controllo timbrico inoltre si puo‘ produrre il segnale di controllo come successione di forme d’onda diverse per le diverse parti del suono, e per ogni parte si puo’ scegliere tra un repertorio di andamenti tipici. Ad esempio, l’ADSR e‘ un modello del segnale di controllo comunemente usato per l’inviluppo d’ampiezza, il controllo spettrale ecc. In esso vengono giustapposte quattro ”fasi temporali” di evoluzione del segnale di controllo (Attacco, Decadimento, Sostenuto, Rilascio).
5.5. MODELLI PER LA SINTESI DEI SEGNALI DI CONTROLLO
5.49
Interpolazione Una tecnica di sintesi molto utilizzata nella sintesi di segnali di controllo e‘ quella dell’interpolazione, sia lineare che non lineare. Nell’interpretazione che vede il processo di sintesi come un passaggio da ”poche” informazioni localizzate ad una variazione continua di ”molti” parametri, l’interpolazione offre un quadro concettuale di riferimento molto efficace. Infatti, in base alla specifica di pochi punti significativi nel segnale (ad esempio, il pitch delle note che compongono una frase) il modello consente di ricavare un segnale caratterizzato da zone di transizione ”smooth”. L’attenzione nell’impiego di questo modello va quindi posta nella specifica del modo in cui queste interpolazioni vanno fatte.
5.5.3
Modelli stocastici
La riproduzione dei segnali di controllo soffre degli stessi problemi visti con la riproduzione del suono; in particolare necessita di memorizzare completamente le funzioni e ha poca versatilita’. Solo recentemente si comincia a rivolgere l’attenzione a questo tipo di segnali per vedere di caratterizzarli e porli in relazione con le proprieta’ acustiche dei suoni controllati. Quando queste dipendono da molte cause concomitanti, spesso e’ utile usare un modello che distingue un andamento medio, dalle variazioni che sono modellabili da un processo aleatorio. In quest’ultimo e’ piu’ importante riprodurre alcune proprieta‘ statistiche piu’ che l’esatto andamento. In questi casi si puo’ procedere alla sintesi mediante un rumore bianco filtrato da un opportuno filtro lineare (ARMA); i parametri del filtro possono essere stimati dall’analisi del segnale. Questo e’ applicabile in generale in tutti i casi nei quali non si e’ in grado di fare specifiche ipotesi sulla struttura del controllo, ma e’ possibile stimare i parametri statistici dello stesso. Modelli frattali del segnale In alcuni casi le variazioni sono dovute a caoticita’ nel generatore, come ad esempio nelle canne d’organo eccitate dal getto d’aria. Questa caoticita’ si riflette sulla natura frattale dei segnali di controllo. Si possono quindi usare modelli frattali, stimando la dimensione frattale del segnale, eventualmente tempo variante, e poi utilizzarla nella sintesi, ad esempio controllando un generatore di Fractional Brownian Motion noise. Esistono vari tipi di questi generatori. In genere essi fanno riferimento alle caratteristiche spettrali del segnale che sono del tipo 1 f γ dove γ e’ un opportuno esponente legato alla dimensione frattale e cioe’ alla turbolenza del segnale. Essi sono realizzati o mediante filtraggio di rumore bianco, oppure come somma di rumori filtrati con bande diverse [Voss]. Va detto che un segnale frattale non manifesta le sue caratteristiche se ci limita a tratti di breve durata, in quanto si perdono le relazioni sui tempi lunghi. Questo porta talvolta ad un uso improprio dei generatori di segnali frattali. Sono molto usate anche le mappe iterate per produrre frattali, sull’esempio di quanto si fa nella computer graphics con gli insiemi di Mandelbrot, Julia etc. . I segnali cosi’ prodotti non sono pero‘ altrettanto efficaci per il controllo dei parametri musicali. Altri algoritmi, come mid-point displacement, consentono l’interpolazione frattale fra punti dati, con controllo locale della frattalita‘. L’interesse dato dal modello frattale e’ che questo coglie un’importante aspetto temporale dei segnali naturali e cioe’ della autoaffinita‘, che e’ la somiglianza statistica dell’andamento temporale se visto su scale diverse del tempo. In particolare con un unico generatore si hanno segnali che evolvono su piu’ scale di tempo simultaneamente. Si puo‘ dire che i modelli a filtraggio ARMA risultano piu‘ indicati per modellare l’autocorrelazione sulle scale di tempo brevi, mentre i segnali frattali si possono sfruttare anche sulle scale di tempo lunghe. ✔
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
5.50
5.5.4
Modelli fisici
Una possibilita’ e’ di usare modelli fisici anche per la sintesi dei segnali di controllo. In questo caso il sistema sara’ lentamente variabile e provvedera‘ esso stesso a fornira una dinamica per l’evoluzione del segnale. Questa possibilita‘ e’ pero’ finora scarsamente usata, in vista invece di un controllo diretto. In alcuni casi si usa un approccio di questo tipo, non per modellare qualche meccanismo esistente, ma si usa l’analogia fisica, solo come metafora descrittiva di procedimenti mentali. Ad esempio Todd propone l’analogia delle accelerazioni di una pallina che corre su una superficie con vari buchi, per descrivere le accelerazioni e rallentamenti espressivi del tempo musicale. Oppure Sundberg e Verrillo propongono l’analogia del rallentamento finale di un pezzo musicale con l’arrestarsi del passo di una persona. Questi modelli introdurrebbero qualcosa che viene cognitivamente percepito come plausibile e conosciuto.
5.5.5
Sintesi basata sull’apprendimento
Nel caso si desideri sintetizzare un segnale appartenente ad una classe di cui sono noti esempi rilevanti ma non si desidera ricorrere ai metodi sopra esposti e‘ possibile impiegare modelli generali e stimarne i parametri mediante ”apprendimento” sui segnali campione. Tipico esempio e‘ l’impiego di generatori basati su reti neurali feed-forward che se opportunamente addestrate dimostrano buone proprieta‘ di generalizzazione producendo quindi risultati plausibili anche in casi diversi da quelli previsti nell’addestramento e, in ogni caso, percepiti come appartenenti alla classe modellata. Ad esempio si sono ottenute dinamiche spettrali per mezzo dell’interpolazione di spettri statici, mediante reti neurali opportunamente addestrate.
5.5.6
Sistemi di regole
Fino ad ora si sono presi in esame metodi di sintesi basati sul modello del segnale. E‘ tuttavia possibile ricorrere a modelli del generatore del segnale, ossia a modelli del controllore. Nella situazione specifica, si tenta quindi di modellare il comportamento dell’esecutore umano; una soluzione comunemente impiegata e‘ quella dei generatori di segnali basati su regole. Questi ultimi presuppongono che sia possibile estrarre in forma euristica un complesso di ”regole di comportamento” del generatore in funzione dei simboli di controllo. Queste regole possono essere fornite ad un sistema esperto, in grado di simulare il comportamento desunto dall’analisi delle performances degli esecutori ”campione”. In alcune situazioni l’insieme di regole risulta caratterizzato da un grado di incertezza tale da non consentire l’implementazione di regole binarie; in questi casi, si rivelano utili i controllori basati sulla ”fuzzy logic”. In essi vengono specificati insiemi di regole basati su variabili linguistiche (es. ”se la nota e‘ lunga...”) e vengono specificate le azioni da intraprendere se le condizioni di appartenenza risultano soddisfatte (es. ”... allungala ancora un po’”). Mediante ”defuzzificazione” e‘ poi possibile ottenere i valori numerici necessari al controllo.
5.5.7
Conclusioni sulla sintesi dei segnali di controllo
I metodi visti rappresentano casi limite dei metodi impiegati nella pratica per la sintesi dei segnali di controllo. E‘ infatti assai comune trovare metodi ibridi, ottenuti dalla combinazione dei metodi sopra esposti, cercando di sfruttare le qualita‘ peculiari di ciascuna tecnica. Si puo‘ osservare che la sintesi dei segnali di controllo usa modelli piuttosto semplificati. Per quanto riguarda il controllo espressivo, cio‘ e‘ dovuto al fatto che la problematica del controllo non
5.5. MODELLI PER LA SINTESI DEI SEGNALI DI CONTROLLO
5.51
e‘ stata studiata in modo approfondito, anche per mancanza di adeguati strumenti di analisi. Inoltre, questo tipo di sintesi rappresenta il punto di incontro tra l’aspetto tecnico e l’aspetto artistico nell’informatica musicale, ed e‘ pertanto soggetto alle scelte e alle opinioni personali degli artisti. Per quanto riguarda il controllo della dinamica spettrale, ci sarebbero adeguati strumenti di analisi, ma e‘ mancato lo stimolo alla ricerca nel campo di nuovi modelli, principalmente perche‘ la qualita‘ dei suoni prodotti con i modelli semplificati e’ spesso ritenuta piu‘ che soddisfacente. Cio’ rappresenta un indubbia conferma della validita‘ di tali metodi; tuttavia, si puo‘ osservare che lo sviluppo di modelli piu‘ pertinenti consentirebbe di lavorare ad un livello di astrazione superiore.
5.52
CAPITOLO 5. SINTESI DEI SEGNALI AUDIO
Indice 5 Sintesi dei segnali audio 5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Obiettivi della sintesi del suono . . . . . . . . . 5.2 Metodi di generazione diretta . . . . . . . . . . . . . . . 5.2.1 Generatori di forme d’onda . . . . . . . . . . . . 5.2.2 Campionamento . . . . . . . . . . . . . . . . . 5.2.3 Sintesi additiva . . . . . . . . . . . . . . . . . . 5.2.4 Sintesi granulare . . . . . . . . . . . . . . . . . 5.2.5 Sintesi sottrattiva . . . . . . . . . . . . . . . . . 5.2.6 Sintesi della voce per predizione lineare . . . . . 5.3 Sintesi non lineari . . . . . . . . . . . . . . . . . . . . 5.3.1 Sintesi per modulazione di frequenza . . . . . . 5.3.2 Spettri di tipo f1 k f2 . . . . . . . . . . . . . . 5.3.3 Sintesi moltiplicativa . . . . . . . . . . . . . . . 5.3.4 Sintesi per distorsione non lineare . . . . . . . . 5.4 Sintesi per modelli fisici . . . . . . . . . . . . . . . . . 5.4.1 Blocchi funzionali . . . . . . . . . . . . . . . . 5.4.2 Elementi concentrati e distribuiti . . . . . . . . . 5.4.3 Il ruolo delle non linearit`a . . . . . . . . . . . . 5.5 Modelli per la sintesi dei segnali di controllo . . . . . . . 5.5.1 Riproduzione . . . . . . . . . . . . . . . . . . . 5.5.2 Controlli composti . . . . . . . . . . . . . . . . 5.5.3 Modelli stocastici . . . . . . . . . . . . . . . . . 5.5.4 Modelli fisici . . . . . . . . . . . . . . . . . . . 5.5.5 Sintesi basata sull’apprendimento . . . . . . . . 5.5.6 Sistemi di regole . . . . . . . . . . . . . . . . . 5.5.7 Conclusioni sulla sintesi dei segnali di controllo . ✕
5.53
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 5.1 5.2 5.4 5.4 5.10 5.11 5.14 5.16 5.23 5.29 5.29 5.39 5.40 5.41 5.43 5.43 5.44 5.46 5.47 5.48 5.48 5.49 5.50 5.50 5.50 5.50
Capitolo 6
Effetti nel dominio spazio–temporale Federico Fontana Copyright c 1999 by Federico Fontana. All rights reserved.
6.1
Introduzione
In questo Capitolo vengono analizzati quegli effetti che simulano o che traggono ispirazione da alcuni fenomeni tipicamente avvertibili in normali condizioni d’ascolto, come il riverbero, l’eco, la colorazione del timbro causata dalle risonanze ambientali, la percezione spaziale di una sorgente sonora. Poichè detti fenomeni sono da mettersi in relazione a modificazioni del segnale acustico tipicamente riconducibili a eventi che avvengono nel dominio del tempo e dello spazio, come ad esempio la riflessione delle onde, gli effetti qui presentati sono accomunati da tecniche progettuali decisamente orientate al trattamento del suono come segnale temporale. Questo approccio è tanto più motivato se si pensa che, in origine, l’assenza di metodi rigorosi di analisi del segnale costringeva i progettisti a mettere a punto per via perlopiù empirica i modelli, dai quali non di rado sono ugualmente scaturite delle apparecchiature di successo, gradite dai musicisti, dagli ingegneri del suono e dal pubblico al punto di segnare dei traguardi definitivi nella storia degli effetti. È principalmente per questo motivo che, quantunque i modelli si siano molto evoluti, soprattutto con l’avvento dell’elaborazione in tempo reale del segnale numerico e dei Digital Signal Processor (DSP), il successo di un effetto è ancora oggi principalmente determinato dalle capacità del progettista, che non di rado si affida alla propria intuizione, e soprattutto alla messa a punto definitiva del sistema sulla base dei pareri dell’ascoltatore. Nella prima parte si presentano le versioni digitali di una famiglia di effetti popolari ai musicisti, tra cui il flanger e il chorus, tutti accomunati dal modello che sta alla base delle diverse realizzazioni. Nella seconda parte si affronterà il problema della progettazione di un riverbero. Nella terza parte, infine, si introdurrà il problema della spazializzazione e della binauralizzazione di un segnale musicale, proponendo un modello in grado di svolgere questo compito. Si insiste sul concetto che le tecniche proposte non possono in alcun modo ritenersi esaustive, costituendo esse solamente una base dalla quale il progettista parte per arrivare infine, grazie alla propria esperienza e a una paziente messa a punto dei parametri del sistema, a un prodotto che possa fregiarsi del nome di effetto. Nondimeno, le realizzazioni proposte come esempi, essendo il risultato di tale lavoro, sono da considerarsi a tutti gli effetti come applicazioni efficacemente funzionanti. 6.1
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.2
6.2
Effetti tradizionali
La prerogativa principale degli effetti tradizionali è quella di presentare alla loro uscita il segnale musicale d’ingresso, più un certo numero di ripetizioni di questo. Ciò è sicuramente evidente in un echo, ma è vero anche per un chorus o un flanger. A seconda del tempo che separa le ripetizioni, o echi, le leggi della psicoacustica determineranno come viene percepito l’effetto. Una desiderabile e fondamentale proprietà del sistema progettato è quella di poter modulare il tempo di ritardo, ovvero la separazione temporale tra echi successivi. Accanto a questa prerogativa ve ne sono altre, le quali nel complesso contribuiscono a definire la caratteristica del tipo di effetto. Il cuore del modello, come vedremo, è costituito dalla linea di ritardo modulata, con la quale si può realizzare anche un vibrato o un doubling. Detto dispositivo è un filtro tempo variante e non si presta a una semplice analisi, anche se la comprensione di alcuni suoi aspetti è fondamentale nell’ambito della trattazione.
6.2.1
Un antenato elettromeccanico: Leslie
A titolo introduttivo, si richiama la modalità di funzionamento del Leslie, il quale in un certo senso è l’analogo elettromeccanico della linea di ritardo modulata1 . Esso consiste (vedi Figura 6.1) in una
1 2 3
Figura 6.1: Schema di funzionamento del Leslie. La componente della velocità dell’onda acustica calcolata lungo l’asse che collega l’asse di rotazione al microfono è proporzionale alla lunghezza delle frecce, in corrispondenza delle rispettive posizioni dell’altoparlante. cassa di forma circolare, all’interno della quale gira a una velocità prestabilita un altoparlante, non troppo direttivo ed eccentrico rispetto all’asse di rotazione. 1. L’ascoltatore ode dapprima il suono emesso dall’altoparlante che, ruotando eccentricamente, si sta avvicinando a lui (onda contressagnata con 1); 2. nel momento in cui la componente della velocità misurata lungo l’asse che collega l’ascoltatore al diffusore è nulla, ode l’onda contrassegnata con 2; 3. infine, quando il diffusore si sta allontando, ode l’onda contrassegnata con 3. L’effetto Doppler assicura la percezione di un segnale modulato, il cui periodo di modulazione è determinato dalla velocità di rotazione, e la cui profondità di modulazione deriva dal rapporto di eccentricità del diffusore rispetto all’asse di rotazione. Il successo ottenuto dal Leslie è sicuramente dovuto alla timbrica unica impressa al suono, e al senso di piacevolezza suscitato dalla sensazione del vibrato. 1 Nonostante
un DSP.
ciò, non è consigliabile invitare il possessore di un Leslie a disfarsi del proprio gioiello per sostituirlo con
6.2. EFFETTI TRADIZIONALI
6.3 (a)
z -D(n)
x[n]
x[n-D(n)]
(b)
1
...
2
...
k
M-1 M
x[n] D(n)=k
x[n-k]
Figura 6.2: (a) Linea di ritardo modulata e (b) sua realizzazione mediante coda circolare.
6.2.2
La linea di ritardo modulata
La possibilità di definire una linea di ritardo modulata in un sistema a tempo discreto appare, formalmente, piuttosto semplice. Basta infatti implementare lo schema di Figura 6.2(a), dove il ritardo è regolato dalla funzione di modulazione D, per avere a tutti gli effetti creato l’oggetto che fa al caso nostro. La Figura 6.2(b) evidenzia un possibile schema realizzativo, che sfrutta una coda circolare in cui, all’istante n-esimo, la testa è individuata dalla freccia tratteggiata, mentre l’uscita è posta in corrispondenza della locazione k-esima, da cui esce la freccia a linea continua. La dimensione della coda individua gli estremi oltre i quali la funzione D non può assumere valori; se dunque la coda ha dimensione uguale a M, D ✁ n ✂ dovrà rispettare la condizione 0 ✄ D ✁ n✂☎✄ M ✆
(6.1)
Più complessa appare l’analisi rigorosa dal punto di vista della teoria del segnale discreto. In ogni caso l’oggetto, per come è stato definito, sarebbe di qualche utilità solamente all’interno di un sistema che lavori a frequenze di campionamento ben più elevate di quelle richieste dalla banda audio. Infatti una funzione di modulazione, il cui codominio sia contenuto negli istanti di campionamento di un segnale campionato in banda audio, non è certamente in grado di produrre una modulazione convincente. La cosa appare ancora più evidente dagli esempi seguenti. ✝ Esempio: cambio di pitch. Si ha: D ✁ n✂✟✞✠✁ 1 ✡ pcr ✂ n dove pcr (pitch change ratio) è il rapporto di variazione del pitch tra il segnale processato dalla linea di ritardo modulata e il segnale originale. Per pcr ✞ 2, ad esempio, si ha un raddoppio delle altezze, infatti l’uscita dalla linea di ritardo modulata vale x ☛ n ✡ D ✁ n✂
☞✌✞
x ☛ pcr ✍ n☞
✆
Ovviamente, per mantenere indefinitamente il cambio di pitch occorrerebbe una coda di dimensione illimitata. Altrimenti il tempo massimo per cui l’effetto può essere mantenuto vale
✎
M ✎ T 1 ✡ pcr
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.4
secondi, con T periodo di campionamento del sistema. ✏ Esempio: vibrato. È M M sin ✑ 2π f0 n ✒✕✔ D ✑ n ✒✟✓ 2 2 e dunque M M x ✖ n ✗ D ✑ n✒ ✘✌✓ x ✖ n ✗ sin ✑ 2π f0 n✒ ✘ ✙ ✗ 2 2 Considerando il segnale x, secondo l’analisi di Fourier, come la sovrapposizione lineare di componenti sinusoidali, abbiamo che la componente generica posta alla frequenza fx viene modulata a una frequenza fm , la quale può essere calcolata derivando rispetto al tempo l’argomento relativo alla componente in esame, uguale per esempio Ax sin ✑ 2π fx n ✔ φx ✒ : fm
✓
1 ∂✚ M 2π fx ✖ n ✗ 2π ∂n 2
M sin ✑ 2π f0 n✒ 2
✗
✚ M ✘ ✔ φx ✛ ✓ fx 1 ✗ 2π f0 cos ✑ 2π f0 n ✒ ✛ ✙ 2
Dunque il pcr risulta essere uguale a fm fx
✓ 1 ✗ 2π f0
M cos ✑ 2π f0 n✒✕✜ 2
Si evince che il pcr non dipende dall’altezza del segnale originale; il suo periodo dipende dalla modulante f0 , e infine la profondità di modulazione è determinata da f0 e M. Dagli esempi emerge chiaramente il limite imposto dall’uso di una funzione di modulazione “discretizzata” sul periodo di campionamento. Se nel primo caso un tentativo di pitch change si può fare imponendo un valore intero per il pcr, nel secondo caso la legge che governa il vibrato salta non appena il prodotto ✑ M ✢ 2 ✒ sin ✑ 2π f0 n ✒ sia frazionario per qualche valore di n.
6.2.3
Interpolazione
Se potessimo estendere il codominio di D a un insieme più ampio, diciamo un certo numero di frazioni dell’unità di campionamento, riusciremmo a istituire delle efficaci funzioni di modulazione altrimenti improbabili. La questione equivale a estendere la D a una nuova funzione Dc definita su di un codominio più ampio. In tal caso, si può sempre esprimere un valore assunto da Dc come la somma del valore di D immediatamente inferiore, più un numero α, definito all’interno di un insieme di fissata densità, compreso tra zero e uno: Dc ✑ n ✒✟✓ D ✑ n✒✕✔ α ✜ 0 ✣ α ✤ 1 ✙ Detto questo, nel discreto non ha senso pensare di acquisire il campione intermedio x ✖ n ✗ D ✑ n ✒✌✗ α✘ . Si ricorre di conseguenza all’interpolazione, ovvero al calcolo approssimato del suo valore. Allo scopo, nel nostro sistema sarà presente un interpolatore in grado di produrre un segnale y il cui valore, secondo qualche criterio, imiti quello del campione intermedio. Nel seguito vediamo i modelli di interpolazione più usati. Interpolazione lineare Si pone y ✖ n✘✥✓
✦
L 1
∑ αk ✑ n✒ x ✖ n ✗ ✧
k 0
D ✑ n✒✌✗ Nk ✘
(6.2)
6.2. EFFETTI TRADIZIONALI
6.5
1- α(n)
z -D(n)
x[n]
+
Σ
y[n]
+
z -D(n)-1
α(n)
Figura 6.3: Sistema costituito da linea di ritardo modulata e interpolatore lineare. (a)
(b)
0.9
α =0 α =1
0.8
α =0.125 α =0.875
α =0.125 α =0.150
−0.5
0.7
α =0.375
α =0.150 α =0.750
0.5 0.4
Phase angle
−1
0.6
Magnitude
α =0
0
1
α =0.375 α =0.625
0.3
α =0.5 α =0.625
−1.5
α =0.750 α =0.875 α =1
−2
−2.5
0.2
α =0.5 0.1
−3 0 0
0.05
0.1
0.15
0.2
0.25 Freq
0.3
0.35
0.4
0.45
0
0.5
0.05
0.1
0.15
0.2
0.25 Freq
0.3
0.35
0.4
0.45
0.5
Figura 6.4: (a) moduli della risposta in frequenza e (b) diagrammi di fase del sistema costituito da linea di ritardo modulata più interpolatore lineare. con
0 ★ αk ✩ n✪☎★ 1 ✫ k e Nk
✬✮✭ ✫
k✯
Il campione intermedio dunque è ottenuto come combinazione lineare di L campioni. Il caso αk ✩ n✪✥✰ 1 avviene in particolare quando Dc ✩ n✪✟✰ D ✩ n✪✌✱ Nk , e in tal caso tutti gli altri coefficienti saranno nulli. Ovviamente deve essere sempre rispettata la condizione 0 ✲ Nk ✳ D ✩ n ✪✟✲ M ✯ Il caso più semplice di interpolazione lineare, molto usato nelle applicazioni tempo reale, si ha per L ✰ 2, N0 ✰ 0 e N1 ✰ 1. In tal caso il contributo dei due campioni adiacenti al campione intermedio, distante α dal campione più recente, viene pesato da coefficienti tra loro complementari: y ✴ n✵✌✰✷✶ 1 ✱ α ✩ n✪ ✸ x ✴ n ✱ D ✩ n ✪
✵✳
α ✩ n ✪ x ✴ n ✱ D ✩ n ✪✌✱ 1✵✟✯
L’inerpretazione del modello è piuttosto ovvia e viene lasciata come esercizio. Il sistema complessivo costituito dalla linea di ritardo modulata più l’interpolatore lineare è schematizzato in Figura 6.3, e si realizza in pratica predisponendo due punti d’uscita consecutivi sulla coda circolare. La Funzione di Trasferimento (FdT) del sistema è Y ✩ z✪ X ✩ z✪
✰
z✹
✺ ✻ ✶ 1✱
Dn
α ✩ n✪
✳
α ✩ n✪ z✹
1
✸
(6.3)
Da questa, come noto, si possono ricavare modulo e fase della risposta del sistema. Questi sono visualizzati rispettivamente in Figura 6.4(a) e 6.4(b), al variare del parametro α. Notiamo i seguenti fatti:
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.6
x[n]
z -D(n)
1- α (n) +
Σ
y[n]
+ −
z -D(n)-1
1- α (n)
z -1
Figura 6.5: Diagrammi di fase del sistema costituito da linea di ritardo modulata più interpolatore allpass.
✼ l’interpolatore lineare introduce una distorsione di ampiezza, attenuando le alte frequenze nei casi non banali α ✽ 0 e α ✽ 1; ✼ l’interpolatore lineare introduce una modulazione di ampiezza, e ciò è dovuto alla variazione nel tempo del modulo dello spettro, il quale come detto dipende da α ✾ n✿ ; ✼ l’interpolatore lineare introduce una distorsione di fase, in quanto non è un filtro a fase lineare se non nei casi α ✽ 0, α ✽ 1 e α ✽ 1❀ 2. Si noti comunque la linearità della fase in bassa frequenza dove, in più, la pendenza delle curve è proprio uguale a α;
✼ l’interpolatore lineare introduce una modulazione di fase, e ciò è dovuto alla variazione nel tempo del diagramma di fase. Lo studio rigoroso di un filtro a coefficienti tempo varianti non si esaurisce certo in una analisi della risposta al variare dei parametri2 , e di questo dovremo tenere conto discutendo il prossimo interpolatore. Nel caso dell’interpolatore lineare, comunque, l’analisi fatta è sufficiente a comprendere i limiti del semplice schema presentato. Un miglioramento delle prestazioni si ottiene aumentando la complessità dell’interpolatore, ovvero aumentando il valore di L; questo, a patto di aumentare il costo del sistema. Alternativamente, in alcuni casi si ricorre a una efficiente alternativa, desritta nel seguito. Interpolazione allpass In questo caso il campione in uscita dall’interpolatore viene così calcolato: y ❁ n❂✥✽✷❃ 1 ❄ α ✾ n✿ ❅ x ❁ n ❄ D ✾ n ✿ ❂ ❆ x ❁ n ❄ D ✾ n ✿✌❄ 1❂ ❄❇❃ 1 ❄ α ✾ n✿ ❅ y ❁ n ❄ 1❂❉❈ L’operazione complessiva di modulazione del segnale viene realizzata dallo schema di Figura 6.5, nel quale è evidente la retroazione dell’uscita. La FdT è Y ✾ z✿ ✽ z❊ X ✾ z✿
D ❋ n●
1 ❄ α ✾ n ✿✕❆ z❊ 1 1 ❆❍❃ 1 ❄ α ✾ n✿ ❅ z ❊
1
(6.4)
dalla quale non è difficile ricavare l’unità del modulo della risposta a tutte le frequenze. Diversamente, il diagramma di fase (Figura 6.6) evidenzia ancora la presenza della distorsione e della modulazione di fase. La linearità in bassa frequenza sussiste ancora, ma la pendenza nell’origine della curva associata a α non coincide col valore del parametro. Eventualmente, attraverso una 2 Il
lettore attento avrà notato l’aporia presente nella Zeta trasformata (6.3), nella quale in effetti non sono state trasformate le α ■ n❏ .
6.2. EFFETTI TRADIZIONALI
6.7
0
α =0.125 α =0.150
−0.5
α =0.375 α =0.5
Phase angle
−1
α =0.625 α =0.750
−1.5
α =0.875 α =1
−2
−2.5
−3 0
0.05
0.1
0.15
0.2
0.25 Freq
0.3
0.35
0.4
0.45
0.5
Figura 6.6: Sistema costituito da linea di ritardo modulata e interpolatore allpass. trasformazione, si può associare al parametro il filtro il cui diagramma di fase abbia identica pendenza nell’origine. L’interpolazione allpass quindi, nei limiti dell’analisi condotta, risolve la questioni legate alla distorsione e modulazione di ampiezza, irrisolte dal precedente interpolatore. Distorsione Applicando i due diversi interpolatori su un modello per l’alterazione costante del pitch, implementato su un sistema a 16 bit in aritmetica a virgola fissa, che campiona a 44 1 kHz, si può calcolare la Total Harmonic Distortion plus Noise (THD+N) dell’uscita effettiva rispetto a un’uscita ideale. I risultati compaiono nel diagramma di Figura 6.7, dove la THD+N viene calcolata al variare del pcr imposto. L’interpolatore lineare (a) mantiene le proprie prestazioni pressochè costanti al variare del pcr. Questo risultato è in accordo con l’analisi fatta in precedenza, che nel complesso afferma la costanza della distorsione armonica totale. L’interpolatore allpass, viceversa, mostra una spiccata dipendenza della THD+N dal pcr. Questo fatto evidenzia i limiti dell’analisi condotta sull’interpolatore, la quale in effetti resta valida solamente per piccole variazioni nel tempo della funzione di modulazione3 , cioè di α. Analoghe considerazioni emergono applicando i due diversi interpolatori su un modello per la modulazione del pitch. In più, in questo caso la THD+N varia nel tempo, analogamente al pcr. ❑
6.2.4
Effetti
Quanto illustrato in precedenza ha posto le premesse per comprendere lo schema generale, mostrato in Figura 6.8, sul quale si basano gli effetti tradizionali realizzati nel dominio discreto. In esso riconosciamo 3 Basti
pensare che, in un filtro tempo variante, l’evoluzione dello stato dipende a sua volta dalla variabile temporale; ciò fa sì che, nel nostro caso d’esempio, non sia nemmeno assicurata la caratteristica allpass dell’interpolatore. Piccole variazioni di α in effetti fanno propendere per una maggiore credibilità dell’analisi semplificata fatta in precedenza.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.8
90
(a)
80 70
(b)
dB
60 50 40 30 20 10 0 0.95
0.96
0.97
0.98
0.99
1 pcr
1.01
1.02
1.03
1.04
1.05
Figura 6.7: THD+N in un modello per l’alterazione del pitch usando l’interpolazione lineare (a) e l’interpolazione allpass (b). b
x[n]
+ -
Σ
z-D C(n) ff
+
+
Σ
y[n]
fb
Figura 6.8: Schema generale di effetto tradizionale digitale.
▲ il complesso della linea di ritardo modulata più l’interpolatore, riassunto nel blocco di FdT uguale a z▼ Dc ◆ n❖ ; ▲ un feedback, controllato dal coefficiente fb e scelto in corrispondenza di un fissato punto della coda, dal quale si riconvoglia all’ingresso un segnale avente Zeta trasformata uguale a fbz▼ D X ◗ z❘✕❙ 1 P fbz▼ D con D ritardo scelto per il feedback, tale che 1 ❚ D ❚ M e ❯ fb ❯ ❱ 1. In effetti retroazionare il segnale modulato, ovvero modularlo ricorsivamente, avrebbe come risultato l’impossibilità di controllare la modulazione stessa;
▲ l’uscita modulata, pesata dal coefficiente di feedforward ff; ▲ un segnale non modulato, che viene miscelato a quello modulato ed è controllato mediante il coefficiente di blend b. La scelta dei parametri messi a disposizione dallo schema di Figura 6.8 dà già la possibilità di selezionare un discreto numero di effetti diversi. Requisiti di economia fisseranno di fatto la scelta dell’interpolatore e di tutte le altre componenti critiche.
6.2. EFFETTI TRADIZIONALI
6.9
Vibrato b
❲ 0 ❳ ff ❲ 1 ❳ fb ❲ 0 ❳ 0 ❨
MT
❨
5 ms
Eliminando feedback e blending, acquisendo dunque all’uscita il solo segnale modulato, si ha un effetto vibrato. La linea di ritardo sarà dimensionata per gestire un ritardo approssimativamente inferiore a 5 ms. Un ritardo minimo, anche inferiore a 1 ms, dà i migliori risultati. Flanger b
❲❬❩ 2 ❳ ff ❲ 1❭ ❩ 2 ❳ fb ❲❫❪ 1❭ ❩ 2 ❳ 0 ❨
MT
❨
10ms
Scopo del flanger é sovrapporre al segnale d’origine un segnale ritardato dinamicamente, il cui ritardo resti all’interno del periodo d’integrazione dell’orecchio. Allo scopo, una linea di ritardo di 1 ms va bene per molte applicazioni. Una caratteristica apprezzata nel segnale risultante è il frastagliamento dello spettro. I coefficienti proposti massimizzano l’effetto comb spettrale, ovvero la sagomatura dello spettro a denti di pettine. Per quanto riguarda la scelta dell’interpolatore, essa cadrà sull’allpass, in quanto l’attenuazione di ampiezza imposta dall’interpolatore lineare va a discapito della presenza di denti ben definiti alle frequenze più alte. Chorus standard b
❲ 1 ❳ ff ❲ 1❭ ❩ 2 ❳ fb ❲ 0 ❳ 1 ❨
MT
❨
30 ms
Come dice il nome, il chorus è stato pensato per sovrapporre al suono originale una sua replica ritardata (5 ms vanno generalmente bene), in modo tale da generare un effetto simile a quello di un coro aggiunto al segnale musicale. In questo caso i denti nello spettro sono indesiderabili, sicchè una semplice soluzione consiste nel tagliare il feedback. La trasparenza è un parametro molto apprezzato da chi utilizza assiduamente il chorus, come i chitarristi. L’interpolatore allpass, per le note nonlinearità che induce, non si presta dunque ad essere applicato nel chorus, e tuttavia l’interpolatore lineare presenta la tipica attenuazione. Una soluzione raffinata è quella adottata nei white chorus, dove si retroaziona il segnale, mantenendo il sistema globale il più possibilmente allpass, cioè imponendo fb b. Il sistema in tal modo presenta un’uscita più ricca in alte frequenze, pur avendo rinunciato all’interpolatore allpass. La presenza di picchi residui nello spettro viene ulteriormente attenuata mantenendo ff b. Una scelta per i coefficienti può essere b 1 2 ff 1 fb 1 2
❲
❲ ❭❩ ❳ ❲ ❳ ❲ ❭❩ ❵
❲❴
Doubling b
❲ 1❭ ❩ 2 ❳ ff ❲ 1❭ ❩ 2 ❳ fb ❲ 0 ❳ 10 ❨
MT
❨
100ms
Un effetto usato soprattutto dai cantanti è quello di raddoppiare la traccia del cantato, rieseguendo la parte che va così a sovrapporsi quella già esistente. Qui il margine di ritardo può variare discretamente (20 ms tipicamente vanno bene): una modulazione abbastanza casuale, come quella causata dal doppio cantato, è auspicabile.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.10 Echo
b ❛
1 ff ❜
❝
1 fb ❜
❞
1 MT ❜
❡
50 ms
L’eco si distingue per la lunghezza della linea di ritardo, che dovrebbe assicurare un ritardo di almeno 80 ms, tempo al di sotto del quale non è assicurata la percezione distinta di due suoni identici. I coefficienti vengono perlopiù tarati in base alla timbrica richiesta per il tipo di eco.
6.3
Riverbero
Chi non ha mai visitato una camera anecoica, non può immaginare quanta importanza abbia il riverbero nella percezione degli eventi sonori negli ambienti chiusi. Ci si trovi in una piccola stanza o in una sala da concerto, l’insieme delle risonanze e degli echi che accompagnano il suono puro influiscono in modo fondamentale sulla nostra percezione del timbro e dell’ambiente che ci circonda. Test durante i quali a un ascoltatore, collocato al buio in un piccolo ambiente, veniva fatto ascoltare un evento sonoro caratterizzato da un riverbero da sala da concerto, hanno dimostrato che tale effetto risultava desiderabile e ben riconoscibile fintantochè all’ascoltatore non veniva palesato il fatto di trovarsi all’interno di un piccolo ambiente; a quel punto egli avvertiva quella sensazione chiamata straniamento, secondo la quale l’ascoltatore si trova in una situazione sperimentale “perturbata”, non più riconoscibile. Appurata l’importanza di caratterizzare l’evento sonoro anche mediante un corretto riverbero, bisogna considerare le opposte esigenze di chi affronta il problema della registrazione musicale. Una registrazione condotta all’interno di un ambiente riverberante risulta pessima nella maggioranza dei casi, e questo non solo perchè il tipo di riverbero, legato alle caratteristiche dell’ambiente, quasi certamente non sarà quello desiderato dal musicista4 , ma anche perchè, non appena i musicisti siano più di uno, fenomeni di cross–talk tra uno strumento e l’altro andranno a rimescolare le tracce registrate. Questo obbliga a rendere una sala di registrazione la più anecoica possibile, e a minimizzare l’influenza sulla singola traccia di qualunque segnale esterno. Da queste opposte considerazioni appare evidente l’esigenza di disporre, in sede di elaborazione del segnale musicale, di sistemi in grado di riverberare un suono puro nel modo più naturale possibile. Nel proseguio vedremo dapprima brevemente il riverbero come fenomeno fisico, e alcuni effetti percettivi che esso induce. Poi si spiegheranno le problematiche esistenti nella scelta di un modello di rappresentazione del riverbero, e le risposte fornite dai progettisti. Infine si proporranno alcuni esempi, in ordine di difficoltà crescente. Tale ordine coincide con quello storico, per quelle considerazioni già fatte nell’Introduzione, sulle quali non è il caso di tornare.
6.3.1
Considerazioni fisiche sul riverbero
Si supponga di sollecitare un ambiente riverberante con un segnale impulsivo. Contemporaneamente, si acquisisca il segnale h presente in corrispondenza di un punto nell’ambiente — conseguenza della sollecitazione prodotta — ad esempio mediante un microfono. Assumendo la linearità della catena di misura, è lecito considerare il segnale acquisito come una risposta impulsiva dell’ambiente. La risposta dipende dalle posizioni relative della sorgente di segnale e del ricevitore, ed esistono tecniche precise per l’acquisizione e il calcolo di questo tipo di risposte, delle quali non ci occupiamo. Un tipico esempio dell’andamento nel tempo di una risposta impulsiva ambientale è illustrato in Figura 6.9. L’esempio si riferisce a un piccolo ambiente. Analizziamo il segnale nel dettaglio: 4 Per
un certo tipo di musicista è d’obbligo togliere il quasi.
6.3. RIVERBERO
6.11 1 0.8 0.6
(Normalized amplitude)
0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 0
0.01
0.02
0.03
0.04
0.05 (s)
0.06
0.07
0.08
0.09
0.1
Figura 6.9: Andamento nel tempo di una risposta impulsiva ambientale.
❢ dopo circa 7 ms, prima dei quali viene solamente registrato del rumore di fondo, arriva al punto di ricezione il segnale diretto (direct signal);
❢ successivamente cominciano ad arrivare le prime riflessioni (early reflections), provenienti dalle pareti riflettenti dell’ambiente, non tutte di ampiezza necessariamente minore a quella dell’impulso diretto5 ;
❢ con l’avanzare del tempo, alle prime riflessioni si uniscono le riflessioni di ordine superiore o riflessioni successive (late reflections), che perdurano fintantochè le pareti dell’ambiente e l’attenuazione dell’aria non riducono la potenza del segnale a un valore trascurabile. Si usa anche dire che, cessato l’effetto delle prime riflessioni, il campo acustico diviene diffuso. In generale la legge di decadimento della pressione acustica e dell’energia di un segnale riverberante è di tipo esponenziale. In effetti, a questa legge si attiene l’inviluppo del segnale di Figura 6.9. In questo contesto, una misura particolarmente significativa delle caratteristiche riverberanti di un ambiente è il tempo di riverbero ai 60 dB, denotato con RT60 , ovvero il tempo in secondi che trascorre affinchè l’inviluppo dell’energia della risposta impulsiva ambientale si riduca di 60 dB. Per calcolare con precisione il tempo di riverbero ai 60 dB non è necessario mediare un elevato numero di inviluppi, dedotti rispettivamente da misure eseguite spostando la sorgente e/o il ricevitore in più punti. È stato dimostrato che la curva di decadimento energetico RT ❣ t ❤ del segnale si ottiene calcolando la funzione RT ❣ t ❤✟✐✷❥
∞
t
h2 ❣ τ ❤ dτ ❦
(6.5)
al variare del tempo t. Si noti fin d’ora l’elevato frastagliamento del segnale di Figura 6.9. Un modello statistico per le riflessioni dimostra che il numero di echi Nt misurati dopo un tempo t trascorso dall’emissione di un segnale, che si generano per riflessione all’interno di un ambiente chiuso di volume V dove il segnale 5 Perchè
?
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.12 2
10
1
10
0
(dB)
10
−1
10
−2
10
−3
10
−4
10
0
0.5
1
1.5 (Hz)
2
2.5 4
x 10
Figura 6.10: Modulo della trasformata di Fourier della risposta impulsiva ambientale di Figura 6.9. si propaga a una velocità c, è uguale a 4πc3 3 t (6.6) 3V Dalla formula si vede che il numero di echi cresce nel tempo secondo una legge cubica. L’analisi in frequenza della risposta impulsiva ambientale fornisce delle informazioni altrettanto interessanti. La Figura 6.10 mostra il modulo della trasformata di Fourier del segnale di Figura 6.9. In essa si notano in particolare dei picchi in corrispondenza di determinate frequenze. A ciascun picco è associato un modo di risonanza. La teoria afferma che i modi vanno addensandosi all’aumentare della frequenza. Essi restano distinguibili nello spettro, e dunque entro certi limiti anche a livello percettivo, fino a una certa frequenza che varia con i parametri ambientali. Al di sopra di questa frequenza i modi tendono progressivamente a sovrapporsi, rendendosi di fatto indistinguibili. Si dimostra, sempre sulla base di un modello statistico, che il numero di modi normali N f presenti fino alla frequenza f è uguale a Nt
Nf
♠
❧
❧
4πV 3 f 3c3
(6.7) ♠
Anche la (6.7) dunque, duale rispetto alla (6.6), sancisce la progressione cubica del numero dei modi con la frequenza. In ogni caso sia la (6.7) che la (6.6), avendo validità statistica, non sono utili per conteggiare le prime riflessioni o, dualmente, i modi in bassa frequenza. Infine, vale la pena ricordare la formula che permette di stimare la separazione media ∆ fmax tra i picchi spettrali, misurata (in Hz) in corrispondenza della banda dove la densità dei modi giustifica un loro conteggio su base statistica: 4 (6.8) ∆ fmax RT60 ♠
♥
6.3.2
Percezione del riverbero
Il riverbero contribuisce in modo fondamentale alla caratterizzazione di un evento sonoro. Assumiamo fin d’ora di tralasciare quegli aspetti capaci di influenzare la nostra percezione spaziale, che per un
6.3. RIVERBERO
6.13
discorso di semplicità consequenziale vogliamo accorpare tutti nella Sezione successiva, nonostante su questa scelta si possano avanzare fondate obiezioni. Le caratteristiche dell’evento sonoro che maggiormente risentono del tipo di riverbero sono:
♦ il volume del suono diretto; ♦ il colore del suono; ♦ il timbro; ♦ il tappeto acustico che si sovrappone al suono diretto, ovvero la percezione di uno “sfondo” al suono diretto;
♦ l’insieme degli echi che vanno ad accodarsi al suono diretto. La letteratura sull’argomento è ampia e qualche volta in disaccordo sui risultati. Generalmente, si assume di suddividere la percezione temporale di un evento sonoro basandosi sulla costante di integrazione dell’orecchio, fissata in 80 ms. In base a questo modello, valgono le seguenti considerazioni di principio: 1. a partire dall’istante di percezione del segnale diretto, tutti gli echi che giungono all’orecchio entro 80 ms vanno a caratterizzare volume, colore e timbro del suono; 2. le caratteristiche del tappeto acustico dipendono in larga parte dagli echi attenuati che giungono dopo 80 ms. Di fatto, durante l’ascolto spesso il tappeto è mascherato dal segnale diretto, e viene perlopiù valutato durante le pause; 3. ripetizioni del segnale diretto, che giungono dopo un tempo superiore alla costante di integrazione dell’orecchio, vengono percepite come eventi distinti, o echi veri e propri.
6.3.3
Modelli
La fase più difficile nel processo di messa a punto di un riverbero è costituita dalla scelta di un modello adeguato. I tentativi di conciliare i parametri fisici e quelli percettivi non sono generalmente andati a buon fine, sicchè una scelta decisiva va compiuta già nella fase di approccio al modello. Nondimeno, sono stati scoperti alcuni fondamentali legami tra le caratteristiche spettrali del segnale e la percezione del riverbero, dei quali tratteremo nel seguito. L’approccio “fisico” L’approccio fisico ha il vantaggio di mettere a punto dei modelli dotati di parametri fisici accessibili, come dimensioni e forma dell’ambiente, riflessività delle pareti e attenuazione ambientale, posizioni della sorgente e del punto di ascolto e così via. La soluzione più semplice consiste nel memorizzare a bordo del riverbero tutta l’informazione relativa a un insieme di N risposte impulsive ambientali campionate h1 ♣ q q q ♣ hN , e di calcolare il segnale riverberato y come convoluzione discreta tra il segnale musicale x e una risposta ambientale hi scelta all’interno di un database: y r ns✟t hi ✉ x r n s È ovvio che questa scelta pone dei seri vincoli sulla possibilità di implementare l’effetto in tempo reale, causa l’elevata quantità di memoria e di potenza di calcolo richieste da un simile modello.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.14
In alternativa, sono stati proposti diversi modelli di propagazione del segnale all’interno di un ambiente, con l’intento di semplificarne la descrizione al fine di poter avere un guadagno in termini di efficienza. Di questi vanno ricordati: l’image method, che deduce la direzione e il tempo di arrivo delle prime riflessioni in un punto dell’ambiente, nota la sua topologia; ✈
le tecniche di ray tracing, che modellano le riflessioni successive basandosi sul concetto di campo diffuso; ✈
i metodi statistici, per modellare gli echi che formano il tappeto acustico. ✈
L’approccio “percettivo” L’approccio percettivo presenta teoricamente un numero maggiore di desiderabili proprietà rispetto a quello precedente. Il controllo dei parametri percettivi infatti fa sì che l’effetto possa essere adattato al gusto dell’ascoltatore. In più, intuendo che gran parte dell’informazione presente nella risposta impulsiva ambientale non viene utilizzata dai meccanismi uditivi, si può ragionevolmente affermare che un modello percettivo ha maggiori possibilità di essere realizzato efficientemente: al limite, un modello in grado di controllare tutti i parametri percettivi può sintetizzare qualunque riverbero. Le difficoltà sorgono nel momento in cui si cercano di riconoscere dei parametri indipendenti (o fattori) capaci di caratterizzare la sensazione del riverbero. In questo senso sono stati fatti molti passi avanti; il paragrafo 6.5 riassume alcune scoperte fatte di recente. L’obiettivo dei modelli percettivi dunque è l’efficiente realizzazione di un algoritmo di riverbero innanzitutto piacevole all’ascolto, ovvero naturale. La strada per raggiungere quest’obiettivo è quella di riprodurre la timbrica del suono lavorando entro la costante di integrazione dell’orecchio, e di generare un valido tappeto acustico. Misura dei parametri percettivi Ricondurre i parametri percettivi a dei valori quantitativi è impresa spesso priva di riscontro valido, se le misure di questi valori non vengono comunque confortate dal parere qualitativo fornito dall’ascoltatore. Ciò nonostante, esistono alcune misure cui fanno riscontro definite impressioni percettive. Di esse, forse la più significativa è l’Energy Decay Relief (EDR) relativo a un ambiente. L’EDR individua una funzione che indicheremo come EDR t f , la quale offre l’insieme degli andamenti delle curve di decadimento RT al variare della frequenza. Queste curve si possono grossolanamente ottenere sollecitando l’ambiente di volta in volta usando segnali monofrequenziali, e valutando le curve RT ottenute in corrispondenza di ciascuna sollecitazione. In Figura 6.11 viene riportato l’andamento qualitativo di un diagramma EDR relativo a un’ambiente virtuale. Si noti che EDR 0 f fornisce concettualmente l’inviluppo della risposta in frequenza dell’ambiente, anche se una misura più significativa di questo inviluppo si ha estrapolando funzioni EDR t0 f per valori fissati di t0 , in corrispondenza dei quali le prime riflessioni si siano esaurite. Esperimenti, nei quali si è cercato di mettere in rapporto fattori percettivi indipendenti con grandezze fisicamente misurabili, hanno dimostrato la relazione tra questi fattori e dei corrispondenti rapporti tra pendenze di curve estratte da distinte regioni dell’EDR. Problemi rimasti aperti in questo tipo di esperimenti sono l’individuazione di un numero di fattori percettivi significativi, e la scelta di una risoluzione spazio–temporale per l’EDR in grado di ottimizzare la bontà e l’attendibilità delle relazioni trovate. ✇
✇
✇
①
②
①
②
①
②
6.3. RIVERBERO
6.15
40 20
dB
0 −20 −40 −60 0
2 0.5
1.5 1
1 1.5
4
x 10
0.5 2
0
frequenza (Hz)
tempo (s)
Figura 6.11: Energy Decay Relief: andamento qualitativo.
x[n]
z -d 1
z -d 2 b1
z -d N b2 +
bN-1
+
+
Σ
+
Σ
bN +
+
Σ
y[n]
Figura 6.12: Filtro per la simulazione delle prime riflessioni.
6.3.4
Realizzazioni
Tutte le considerazioni fatte in precedenza sulla scelta di un modello devono comunque trovare riscontro in strutture realizzabili. La natura del problema conduce essenzialmente a sistemi che fanno uso di filtri lineari nel senso tradizionale del termine, ma non mancano in letteratura realizzazioni più articolate, come le |em Feedback Delay Network (FDN), cui accenneremo alla fine di questo paragrafo. Riproduzione delle prime riflessioni Ritornando per un attimo alla Figura 6.9, si può notare che le prime riflessioni possono venire modellate con ottima approssimazione da un filtro FIR. In pratica, la simulazione delle prime riflessioni non scade troppo di qualità se si generano solamente le più significative tra esse, a patto di spaziarle correttamente nell’asse dei tempi. Un risultato didatticamente interessante è rappresentato nella struttura di Figura 6.12. Essa consiste in un filtro di risposta impulsiva avente trasformata Zeta uguale a H ③ z④✟⑤
N
∑ bi z⑦ d ⑧ i
⑥
i 1
e può essere equivalentemente vista come un filtro FIR avente molti coefficienti uguali a 0, tra cui in particolare il primo, o, alternativamente, come una versione generalizzata del FIR, nella quale i ritardi unitari sono sostituiti da linee di ritardo di lunghezza generica di . Non è difficile capire come,
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.16
+
x[n]
Σ
z -m
+
y[n]
g Figura 6.13: Il filtro comb. immettendo un segnale anecoico in questa struttura, si abbia in uscita un segnale formato dal segnale d’ingresso ritardato più un certo numero di sue ripetizioni pesate, simulanti le prime riflessioni. Il ritardo iniziale, uguale a m1 T secondi, modella il tempo di propagazione dalla sorgente al punto di ascolto. In pratica, può essere necessario ritardare una riflessione di un tempo non multiplo del periodo di campionamento. In tal caso si può ricorrere alle tecniche di interpolazione lineare, viste al paragrafo 6.2.3. Riproduzione del campo diffuso Le formula 6.6 afferma l’esistenza di un’elevata densità degli echi nella regione del campo diffuso. Considerazioni di ordine percettivo confermano l’importanza di conservare questa densità, pena una percezione “granulare” (ovvero discreta) di questi echi. Appare ovvio, in questo caso, l’utilizzo di strutture IIR, capaci di reazionare il segnale in uscita dai filtri. In effetti l’idea più semplice per realizzare economicamente un elevato numero di echi consiste nel processare il segnale mediante un filtro comb. Consideriamo dunque un filtro avente trasformata Zeta uguale a z❷
H ⑨ z ⑩✟❶
m
1 ❸ gz ❷
m
❹
con ❺ g ❺ ❻ 1⑩ , come quella di Figura 6.13. La parte iniziale della risposta impulsiva di questo filtro è mostrata in figura 6.14(a), quando è g ❶ 1❼ ❽ 2 e M ❶ 5. In Figura 6.14(b) compare il modulo della (a)
(b)
1
1
10
0.9 0.8 0.7 Magnitude (dB)
Magnitude
0.6 0.5 0.4
0
10
0.3 0.2 0.1 0 0
−1
5
10
15
20 25 30 Time (samples)
35
40
45
50
10 −0.5
−0.4
−0.3
−0.2
−0.1 0 0.1 Normalized frequency
0.2
0.3
0.4
Figura 6.14: (a) risposta impulsiva e (b) risposta in frequenza del filtro comb. risposta in frequenza, avendo adoperato gli stessi valori per i parametri. Le figure rendono conto di due proprietà generali del filtro:
0.5
6.3. RIVERBERO
6.17 0.6
0.4
Magnitude
0.2
0
−0.2
−0.4
−0.6
−0.8 0
5
10
15
20 25 30 Time (samples)
35
40
45
50
Figura 6.15: Risposta impulsiva del filtro allpass. 1. l’i-esimo eco della risposta impulsiva di un filtro comb, di guadagno di feedback g ritardo di feedback M, ha ampiezza uguale a gi e occorre in corrispondenza del campione im; 2. il modulo della risposta in frequenza dello stesso filtro, valutata tra la continua e la frequenza di Nyquist, presenta m punti di estremo di quota uguale a 1 ❾✕❿ 1 ➀ g➁ e 1❾✌❿ 1 ➂ g ➁ , alternativamente. Le posizioni dei punti di estremo superiore, nel modulo della risposta in frequenza, sono individuate dagli argomenti delle posizioni dei poli del filtro, ovvero dalle radici z1 ➃ ➄ ➄ ➄ ➃ zm del denominatore della trasformata Zeta, risultanti dalla soluzione dell’equazione a valori complessi
➆m
z➅
g➄
Tenendo conto della condizione imposta dalla (6.7) non è difficile convincersi del fatto che imporre una sufficiente densità degli echi ha, come controparte, l’eccessiva separazione dei picchi in frequenza, nitidamente udibile come una colorazione del segnale. Vale ovviamente anche il viceversa. Nè risolve il problema adottare, in luogo del comb, un filtro passatutto (o allpass, vedi Capitolo 4, allegato 2, pag. 30) di trasformata Zeta ➀ g ➂ z➇ m H ❿ z ➁❉➅ ➃ 1 ➀ gz ➇ m la cui risposta impulsiva è mostrata in Figura 6.15. Infatti il nostro orecchio è sensibile alle frequenze contenute in brevi finestre di segnale, e da questo punto di vista anche l’allpass, pur contraddistinto dalla piattezza del modulo della risposta in frequenza, colora decisamente il suo ingresso. Si rende dunque necessario un aumento della complessità della struttura. Consideriamo un parallelo di N filtri comb. In questo caso la densità degli echi nel tempo, e parimenti quella dei picchi in frequenza, aumenta linearmente col valore di N. Infatti la risposta impulsiva del parallelo di filtri comb ha trasformata Zeta uguale a H ❿ z➁✟➅
N
∑ 1➀ ➈
i 1
z ➇ mi gi z➇
mi
➃
e dunque i poli della struttura complessiva si ricavano dalla H ❿ z ➁❉➅
N
∏
➈ ➉
i 1
gi ➀ zmi ➊
➅ 0➄
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.18
➋➌➌➌➋
È sufficiente scegliere i ritardi m1 mN in modo tale che il massimo comun divisore di questi sia unitario, per essere sicuri di disporre di un sistema la cui risposta in frequenza contiene
➍
Df
m1
➎➏➌ ➌ ➌ ➎
mN
picchi nella banda assegnata, e
➍ ∑➐ ∏ ➐m m ➍ ∑➐ ➐ ∏➑ ➐ ➒ N k 1
N
Dt
N
k
i
i 1
N
mk
i 1k 1 k i
➐
echi nel periodo T ∏Ni 1 mi . Ricordando la (6.8), si può inizialmente dimensionare il sistema, dal punto di vista della densità dei picchi in frequenza, secondo la
➍
Df
➋
B ∆ fmax
dove B è la banda di utilizzo del filtro. Per quanto riguarda la densità degli echi nel tempo, un dimensionamento di massima va fatto empiricamente. Affinchè i modi associati a ciascun polo decadano con la stessa legge di decadimento, è necessario che tutti i poli del sistema siano equidistanti dall’origine degli assi del piano complesso. Ciò si ottiene semplicemente imponendo la condizione
➓ ➔g ➔
mi
i
➍ K ➋ i ➍ 1➋ ➌ ➌ ➌ ➋ N ➋
con K costante dipendente dal tempo di riverbero ai 60 dB desiderato: K
➍
10
→
3T RT60
➌
Infine, ricordando la Figura 6.15, si noti che applicando P allpass in cascata al sistema appena visto, si aumenta la densità degli echi di un ulteriore fattore proporzionale a P senza generare un decadimento delle prestazioni in termini di densità di picchi in frequenza. Dunque, un sistema relativamente semplice ma già in grado di produrre un apprrezzabile numero di echi e di picchi può essere quello rappresentato in Figura 6.16.
6.3.5
Problemi dei riverberi realizzati con filtri FIR e IIR
Quantunque un riverbero formato dal sistema di Figura 6.12 seguito in cascata da quello di Figura 6.15 presenti già diverse pregevoli caratteristiche, in special modo con riferimento a simulazioni di riverberi di breve durata, diversi artefatti ne limitano la qualità in termini di naturalezza. In particolare:
➣ ➣
la risposta suona inizialmente granulare, in particolare se si devono riverberare suoni brevi e dinamici, ovvero a caratteristica impulsiva; sucessivamente, durante la simulazione delle riflessioni successive, il suono acquista una particolare modulazione (fluttering) e, soprattutto, un timbro colorato, metallico.
In effetti, il sistema visto non tiene conto dell’andamento in frequenza del decadimento del suono, visibile anche in Figura 6.11, principalmente dovuto alla caratteristica di assorbimento dell’aria che è più accentuata in alta frequenza. Un semplice modo per affrontare la questione consiste nel sostituire i guadagni di feedback dei filtri comb con dei filtri passabasso. Questa soluzione riduce gli artefatti
6.3. RIVERBERO
6.19 +
x[n]
Σ
z -m 1
+
+
Σ
+
allpass 1
y[n]
allpass P
g1 +
Σ
z -m 2
+
+
Σ
+
g2 +
Σ
z -m N
+
gN Figura 6.16: Un semplice sistema per la generazione di echi nel tempo e picchi in frequenza.
A x[n]
+
+
Σ
+
+
z -m 1
+
Σ
+
z -m 2 +
+
Σ
Σ
+
y[n]
Σ
+
+
z -m N
Σ
Figura 6.17: Feedback Delay Network. descritti, ma non li elimina del tutto. In particolare, l’uso di questa tecnica non permette di mettere in relazione le caratteristiche dei passabasso con un corrispondente diagramma EDR. Altre soluzioni, sicuramente meno giustificabili dal punto di vista teorico ma spesso efficaci, suggeriscono di sostituire le linee di ritardo con linee di ritardo modulate, da applicarsi nei modi e con le cautele viste al paragrafo 6.2.2. In tal caso il tuning dei parametri segue considerazioni prettamente empiriche, legate al gusto dell’ascoltatore e alle capacità del progettista. Un importante passo avanti è stato compiuto utilizzando le FDN, la cui comprensione offre interessanti spunti di discussione.
6.3.6
Feedback Delay Network
Le FDN implementano con la desiderata generalità un sistema LIT. Il segnale viene fatto circolare all’interno di un sistema formato da un filtro multicanale senza memoria e da un parallelo di linee di ritardo, disposti come in Figura 6.17. Il filtro multicanale è completamente descritto da una matrice quadrata A di dimensione N, i cui elementi sono semplici coefficienti, detta matrice di feedback: sN in ingresso al filtro, in indicato con s z il vettore colonna delle trasformate Zeta dei segnali s1 uscita dallo stesso si hanno N nuovi segnali descritti dal vettore As z . ↔
↕
➙
↔
↕
➛
➛
➛
➙
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.20
La stabilità è assicurata non appena il determinante di A è unitario o minore di uno. Una semplice realizzazione prevede la scelta di una matrice contenenti elementi uguali a 1, 0 e 1, in modo tale che il determinante sia unitario; a questa si antepone un peso g che osserva la condizione di passività g 1. In tal modo si assicura peraltro una notevole efficienza in sede di implementazione su di un processore a tempo reale. Ogni coefficiente di A non nullo fuori dalla diagonale assicura la commutazione del segnale da un canale d’ingresso al filtro a un diverso canale di uscita dallo stesso. Si noti che, nel caso particolare in cui A sia uguale alla matrice identità, la FDN si particolarizza in un parallelo di comb come quello di Figura 6.16 (avendo tolto gli allpass), accomunati dall’avere tutti lo stesso coefficiente di feedback, g. Le proprietà acustiche di questa realizzazione sono molteplici. In particolare: ➜
➝
➝
➞
non occorre realizzare la parte del sistema relativa alle prime riflessioni (vedi par. 6.3.4), potendo sostituire l’azione di questo con un’opportuna inizializzazione dello stato della FDN (cioè applicando dei valori iniziali opportuni sulle linee di ritardo). Con questa tecnica risultano peraltro attenuati gli artefatti presenti all’attacco nel sistema visto in precedenza; ➟
➟
la FDN può prendersi carico di realizzare, oltre al riverbero, delle procedure per la spazializzazione del suono.
Col tempo, le FDN sono state migliorate e rese più efficienti, e sono state spunto per il progetto di modelli generalizzati ancora più evoluti. Di questi argomenti diamo cenno nel seguito. Evoluzioni delle strutture FDN Il principale artefatto indesiderato di cui soffre una FDN come quella in Figura 6.17, e che abbiamo già incontrato nel modello di Figura 6.16, è costituito dalla colorazione e dal fluttering presenti nella coda del segnale d’uscita. Per quanto riguarda il fluttering, una semplice soluzione è quella di sostituire le linee di ritardo della FDN con linee di ritardo modulate tipo quelle del paragrafo 6.2.2 le quali, come sappiamo, richiedono una taratura empirica. Riguardo la colorazione anche qui, come nel caso dei filtri comb, si può pensare di applicare dei filtri passabasso, immediatamente a valle delle linee di ritardo. In queste strutture tuttavia viene elegantemente risolto il problema di progettare le caratteristiche di assorbimento dei filtri passabasso sulla base di un EDR desiderato. La tecnica, di cui diamo qui un brevissimo cenno, consiste nel progettare un prototipo FDN senza perdite (lossless prototype), ovvero una FDN con retroazione a guadagno unitario e la cui risposta all’impulso sia essenzialmente un segnale privo di colorazione — per inciso, una FDN con queste caratteristiche si può progettare adoperando matrici di feedback molto efficienti dal punto di vista del carico computazionale — e, successivamente, nell’applicare a valle delle linee di ritardo dei filtri specificati in base a una funzione EDR t f desiderata. Detti filtri peraltro risultano semplici ed efficienti. Con questa tecnica è possibile raggiungere dei risultati molto buoni in termini di naturalezza del riverbero. I modelli FDN sono stati ulteriormente generalizzati, sostituendo il classico concetto di segnale con quello di segnale d’onda (wave signal): alle linee di trasmissione del segnale (monodirezionali) vengono sostituite delle guide d’onda a tempo discreto (digital waveguides, o DW), nelle quali il segnale s viene modellato, in base alla fisica delle onde, come la sovrapposizione di due segnali d’onda s e s che si propagano in opposte direzioni: le DW, dunque, trasmettono informazioni bidirezionalmente. ➤
➠
➥
➡
➢
6.4. SPAZIALIZZAZIONE
6.21
Σ
Figura 6.18: Propagazione di un segnale secondo l’approccio tradizionale, a sinistra, e interpretazione della propagazione secondo il modello waveguide, facendo uso di DW e di giunzioni di scattering, a destra. Questa posizione permette di generalizzare la matrice di feedback in una matrice di scattering e, più in generale, permette di modellare tutti i punti dove un segnale viene suddiviso in più canali o, viceversa, dove più segnali vengono sommati a formare un’uscita, con delle giunzioni di scattering (vedi Figura 6.18). La struttura risultante dalla generalizzazione della FDN viene chiamata Digital Waveguide Network (DWN), e racchiude una serie di proprietà più generali di quelle proprie della FDN.
6.4
Spazializzazione
L’ascolto binaurale di una sorgente monofonica fornisce all’ascoltatore, oltre all’informazione relativa al messaggio sonoro emesso dalla sorgente, una serie di percezioni legate alle caratteristiche acustiche dell’ambiente d’ascolto. L’ascoltatore, in altre parole, identificherà non solo il suono originale ma anche, possibilmente, la direzione di provenienza del messaggio sonoro, le dimensioni della sorgente, le caratteristiche dell’ambiente d’ascolto. La complessità delle informazioni di cui si arricchisce un suono puro, durante il suo tragitto dalla sorgente alle orecchie dell’ascoltatore, determina la spazializzazione che viene apportata al segnale. In analogia a quanto visto in precedenza, scopo di questa sezione è la ricerca di validi modelli per la spazializzazione. Appare evidente da subito che l’argomento spazializzazione include il riverbero, già trattato alla sezione 6.3. Qui ci si concentrerà sui metodi per creare, da un suono puro, una coppia di segnali che, ascoltati senza ulteriori modifiche, siano in grado di suscitare una convincente impressione di localizzazione e di “presenza” di una sorgente sonora virtuale. I sistemi in grado di assolvere a questo compito prendono il nome di binauralizzatori, e dunque a rigore sarebbe stato più opportuno intitolare la presente sezione col nome di binauralizzazione. Chiarito una volta per tutte che riverbero e binauralizzazione sono entrambi compendiati nella spazializzazione, la terminologia pratica predilige la scelta qui fatta, e comunque una breve trattazione di psicoacustica della spazializzazione viene fatta alla sezione 6.5. Nel proseguio, vedremo dapprima alcuni concetti e strumenti preliminari: il modello HRTF, la KEMAR, le metodologie di approccio ai modelli. Successivamente si presenterà un modello strutturale per la binauralizzazione.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.22
d= 1.4 m θ = 45 left
right
Figura 6.19: Misura di HRTF. Le risposte hl e hr vengono valutate in prossimità dei punti indicati con . ➦
Right 1
0.8
0.8
0.6
0.6
0.4
0.4 normalized amplitude
normalized amplitude
Left 1
0.2 0 −0.2
0.2 0 −0.2
−0.4
−0.4
−0.6
−0.6
−0.8
−0.8
−1 0
0.1
0.2
0.3
0.4
0.5
−1 0
0.6
time (s)
0.1
0.2
0.3
0.4
0.5
0.6
time (s)
Figura 6.20: Andamenti nel tempo delle HRIR misurate nella condizione sperimentale di Figura 6.19.
6.4.1
Il modello HRTF
Si supponga di porsi in un ambiente anecoico, nei pressi di una sorgente sonora posta a una certa distanza dalla testa. L’ascolto binaurale della sorgente monofonica è responsabile delle informazioni spaziali (non legate al riverbero) presenti nel messaggio sonoro udito. Il modello HRTF attribuisce queste informazioni alle due risposte impulsive hl e hr , denominate HRIR (Head Related Impulse Responses), misurate dal punto di emissione del suono verso i punti di ricezione posti all’interno dei padiglioni auricolari, rispettivamente sinistro e destro. Ovviamente la stessa informazione è presente nelle Funzioni di Trasferimento dedotte dalle HRIR rispettivamente, e denominate appunto HRTF (Head Related Transfer Functions). La misura delle HRTF viene schematizzata nella Figura 6.19, dove è presentata una condizione sperimentale nella quale la sorgente è distante d 1 4 m dalla testa, spostata rispetto a questa sul piano orizzontale di un azimuth θ 45 , e sul piano verticale di un’elevazione φ 0 . In Figura 6.20 si presentano gli andamenti delle HRIR misurate nelle condizioni sperimentali relative all’esempio sopra. Alcune interessanti considerazioni, peraltro necessarie per motivare il prossimo paragrafo, sono d’obbligo: ➧
➧
➩
➨
➧
➩
l’attacco del segnale viene mascherato quasi del tutto all’orecchio sinistro. Quest’effetto è noto come l’“ombra della testa” (head shadow), il quale fa da filtro soprattutto per le alte frequenze, di cui appunto è ricco l’attacco; ➫
➫
riflessioni residue del segnale, causate principalmente dal torso e dalle spalle, giungono a entrambe le orecchie;
6.4. SPAZIALIZZAZIONE
6.23
la componente dominante di bassa frequenza, ben visibile tra 0 25 s e 0 4 s, giunge pressochè identica a entrambe le orecchie, a meno di uno sfasamento dipendente dalla distanza interaurale. Questo poichè alle basse frequenze i fenomeni di diffrazione dell’onda prevalgono su quelli di mascheramento. ➭
➯
➯
Test nei quali sono stati fatti ascoltare in cuffia segnali anecoici o pre–riverberati, filtrati adoperando opportune HRTF, attestano la bontà del modello. In perfetta analogia con quanto detto nel caso del riverbero (vedi paragrafo 6.3.3), la realizzazione di un binauralizzatore mediante la costituzione di un database di HRTF, invocate magari sulla base della posizione — rilevata mediante sensori — della testa, solleva problemi di costo del modello. A favore di questo approccio giocano comunque studi recenti che hanno dimostrato la bassa sensibilità del nostro apparato uditivo al dettaglio spettrale delle HRTF: nello specifico è stato osservato come una semplificazione degli spettri, ottenuta imitandone l’andamento solamente macroscopico del modulo e senza imporre alcun vincolo alla fase, produca al più una variazione dell’elevazione della sorgente acustica virtuale.
6.4.2
IID e ITD
Le leggi fisiche dell’interferenza sulla propagazione delle onde acustiche causata da un ostacolo, riassunte per i nostri scopi dalle considerazioni fatte commentando le risposte impulsive di Figura 6.20, unite a evidenze emerse durante esperimenti psicoacustici sulla percezione spaziale, autorizzano a postulare l’esistenza, a livello neurologico, di due apparati deputati rispettivamente alla misura della differenza d’intensità interaurale (interaural intensity difference, IID), nota anche come ILD (interaural level difference), e della differenza di tempo interaurale (interaural time difference, ITD). Il primo apparato registra la differenza delle energie nei segnali che giungono alle orecchie. È specialmente utile quando il messaggio acustico contiene alte frequenze (tipicamente al di sopra di 1500 Hz) le quali, come abbiamo visto, risentono del mascheramento causato dall’effetto di head shadow. ➭
➭
Il secondo apparato valuta le differenze di fase tra i segnali. Poichè tali differenze perdono di significato al di sopra di una certa frequenza, la misura dell’ITD viene eseguita specialmente sulle componenti di bassa frequenza.
Il meccanismo di misura dell’IID e dell’ITD pare essere alla base delle nostre facoltà di discernere la direzione di provenienza di un messaggio sonoro, assieme ad altri importanti parametri illustrati più diffusamente alla sezione 6.5.
6.4.3
La testa KEMAR
Il modo più comodo per misurare le HRIR è quello di adoperare una testa sintetica (dummy head), di solito la KEMAR. In effetti, il padiglione auricolare (o pinna) è altamente responsabile della nostra capacità percettiva spaziale, e dunque il suo contributo va integrato nell’informazione propria delle HRTF. Di fatto, ogni modello per la binauralizzazione, in grado di conservare la morfologia o quantomeno alcune proprietà delle HRTF, non può prescindere dall’esigenza di modellare la pinna. Ciò implica che eventuali microfoni per la misurazione delle HRTF vanno collocati all’interno del condotto uditivo: di qui si comprende l’utilità di disporre di una testa sintetica. Ancora, la testa KEMAR si rende utile quando si vogliano determinare le HRTF private del contributo informativo aggiunto dai padiglioni auricolari che, essendo nel caso della KEMAR rimovibili, permettono di eseguire queste particolari misure.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.24
6.4.4
Modelli
Come già detto, un approccio squisitamente fisico al problema conduce a modelli molto dispendiosi in termini di memoria e potenza di calcolo richieste. Purtroppo, a differenza del caso del riverbero, gli studi condotti nel campo della spazializzazione non sono riusciti a determinare dei parametri percettivi al punto di poter sviluppare, mediante questi, dei modelli efficaci, anche se la natura del problema suggerisce che in realtà pochi parametri (raggio ed eccentricità della testa, diametro della pinna ecc...) determinano il risultato. In tal senso, una complicazione è causata dall’elevato grado di soggettività delle sensazioni spaziali: un sistema ben tarato sui parametri di un singolo ascoltatore in generale non si può esportare a un altro ascoltatore. Disattesa per il momento la speranza di estrarre dei parametri percettivi dall’informazione contenuta nelle HRTF, la scelta del modello deve dunque restare sostanzialmente all’interno dell’approccio fisico. Alcune soluzioni proposte sono elencate di seguito: modelli zero–polo: si cerca con essi di simulare le HRTF sostanzialmente con delle FdT semplificate. Di fatto, funzioni capaci di produrre dei convincenti effetti spaziali sono in genere caratterizzate da un numero di coefficienti che non porta a realizzazioni particolarmente efficienti; ➲
espansioni in serie: le HRTF possono venire matematicamente rappresentate adoperando basi alternative di funzioni ortogonali, pesate da coefficienti dipendenti dalla posizione relativa sorgente–punto d’ascolto. Si ottengono in questo modo modelli più efficienti, non abbastanza tuttavia per realizzare in tempo reale spazi virtuali variabili con la posizione angolare della testa; ➲
➲
modelli strutturali, i quali cercano di simulare pari pari i principali elementi che il segnale acustico incontra durante il suo cammino dall’ambiente fino al condotto auricolare: spalle, testa e pinna. Sono questi i modelli che hanno prodotto i risultati più interessanti, permettendo buone riproduzioni della sensazione spaziale pur rimanendo entro un contenuto costo computazionale.
Nel seguito si presenta uno di questi modelli strutturali, interessante sia per chiarezza didattica che per efficacia.
6.4.5
Un modello strutturale
Un modello strutturale cerca di simulare il contributo informativo introdotto nel segnale da parte di una struttura, che nel nostro caso è composta dalla seguente serie di blocchi (Figura 6.21): 1. spalle (che causano la formazione di echi); 2. testa (che contribuisce con l’head shadow); 3. pinna (che causa ulteriori echi). Il nostro modello dedurrà i singoli blocchi, ne valuterà l’importanza in termini di contributo informativo, infine definirà un sistema capace di implementare efficientemente il modello. Allo scopo sarà utile disporre di una simbologia che definisca i segnali in base ai blocchi — S (spalle), T (testa) e P (pinna) — attraversati: detto x il segnale in ingresso, chiameremo ad esempio xST il segnale che ha attraversato il blocco relativo alle spalle e quello relativo alla testa, e xSP un segnale processato dal blocco delle spalle e da quello relativo alla pinna, privo del contributo informativo dato dall’head shadow.
6.4. SPAZIALIZZAZIONE
x[t]
S
6.25 x S[t]
x ST [t]
T
spalle
P
testa
x STP[t]
pinna
Figura 6.21: Un modello di struttura per la spazializzazione. Deconvoluzione della head shadow La possibilità di modellare il blocco T, ovvero la head shadow, mediante un filtro a tempo continuo HT a fase minima, caratterizzato cioè dall’avere una FdT i cui zeri siano tutti a parte reale negativa, permette di deconvolvere dalle HRTF il contributo — modellato dal filtro — della testa. Ciò si ottiene filtrando le HRTF con l’inverso del filtro head shadow, 1 ➳ HT , che esiste ed è stabile per la proprietà di minimalità della fase. Il contributo di questo filtraggio dunque va a elidersi con il contributo del blocco T. Il modello che analizziamo suppone l’esistenza di tale filtro. Risolvendo il problema della diffrazione di un’onda su un corpo rigido sferico, si può dedurre un semplice filtro a fase minima del primo ordine che, completato ponendo in cascata a esso un ritardo, simula egregiamente la soluzione esatta al problema. Fatti i dovuti calcoli, la FdT del filtro analogico risulta essere uguale a HT ➵ ω ➸ θ ➺✟➻ con α ➵ θ➺☎➻ e con ∆T ➵ θ➺✟➻➹➶
➵ 1➼ ➪
1➼
αmin ➺✕➼ 2
1 θ ω0 cos 180 1 θ 90 ω0 180 π
➱ ➱➚ ➘
➽ ➾
θω j α2ω 0
1➼
➘
➵
ω j 2ω 0
e➚
➽ ➾➸
jω∆T θ
(6.9)
αmin θ π➺ ➺ cos ➵ 2 θmin
➵ 1➪ ➺ ➸ ➘ π➴
0 ➷❫➬ θ ➬ 90➮❐✃
➸
➷
➬ θ➬ ➷
90➮
180➮❮❒
(6.10)
(6.11)
Posto αmin θmin ω0
➻
01
❒
➻
➻
150➮
(6.12)
c➳ a ➸
con a raggio della sfera e c velocità del suono in aria, e rispettate dunque le condizioni ω0 ❰ 0 di stabilità e α ❰ 0 di minimalità della fase, si ottiene un filtro — dipendente dall’azimuth θ relativo alla posizione d’ascolto rispetto alla sorgente — che approssima in maniera soddisfacente la FdT esatta. La dimostrazione della stabilità e della minimalità della fase del filtro HT , privato del contributo dato dal ritardo (6.11), è riportata nel paragrafo 6.4.5. Il modello appena ottenuto viene verificato in un primo momento deconvolvendo le risposte misurate ai due condotti uditivi della testa KEMAR senza le pinne. La somiglianza delle due funzioni, formalmente corrispondenti ai segnali xS relativi al lato sinistro e destro, sancisce l’attendibilità dell’informazione fornita da queste sul contibuto del busto e soprattutto delle spalle. La loro semplicità autorizza a valutarle osservandone solo l’andamento nel tempo: i grafici, che qui non vengono riportati, evidenziano abbastanza chiaramente l’eco dovuto al contributo delle spalle, in buona sostanza unico, che arriva successivamente al primo picco causato dall’arrivo del segnale diretto.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.26
x[n]
HS(ω,θS,φS)
HT (ω,θS)
HP(ω,θS,φS)
HT (ω,θ)
HP(ω,θ,φ)
+
Σ
+
y[n]
Figura 6.22: Modello strutturale per la percezione di eventi spaziali. Contributo della pinna Reinserendo le pinne, si osserva il loro contributo sotto forma di echi supplementari presenti nei segnali xSP . Le pinne hanno interessanti conseguenze sulla percezione dell’elevazione della sorgente acustica. Infatti ruotando la KEMAR in senso verticale si registra uno spostamento degli echi dovuti alle pinne; viceversa, il loro contributo all’informazione relativa all’azimuth non appare determinante. Dall’osservazione diretta dei due segnali xSP si possono apprezzare, mediante confronto con i rispettivi segnali xS , gli echi introdotti dalle pinne. Questi possono essere direttamente modellati attraverso filtri FIR, che tengano almeno conto dei valori di picco dei principali echi, e delle posizioni relative di questi. Il risultato sarà un filtro avente la seguente FdT: HP Ï ω Ð θ Ð φÑ☎Ò 1 Ó
∑ ρi Ï θ Ð φÑ e jωτ Õ θ Ö φ× Ð L
Ô
i
(6.13)
n 1
dipendente dall’azimuth e dall’angolo di elevazione φ della sorgente rispetto alla testa. Si ricorrerà all’interpolazione lineare (vedere paragrafo 6.2.3) quando uno o più ritardi τi non siano multipli del periodo di campionamento del sistema. Struttura completa del modello Accorpando tutte le osservazioni fatte, si può strutturare il modello come appare in Figura 6.22. Il suono diretto viene in primo luogo riflesso dalla spalla; questo fenomeno viene modellato ponendo in parallelo al segnale diretto un singolo eco, descritto dalla FdT HS Ï ω Ð θS Ð φS Ñ✟Ò ρS Ï θS Ð φS Ñ e jωτS Õ θS Ö φS ×
Ð
nella quale il pedice S nei parametri di azimuth ed elevazione tiene conto del diverso angolo di ingresso al padiglione auricolare. Successivamente, i segnali incontrano la head shadow, formalizzata dalla (6.9) che varia in base all’azimuth. Infine, la pinna contribuisce ad un ulteriore processamento del segnale, mediante il modello espresso dalla (6.13). Si rammenta che la struttura vista spazializza il segnale solo se viene applicata, con le opportune variazioni parametriche, a entrambe le orecchie. Dunque, il binauralizzatore complessivo sarà costituito dal parallelo formato da due strutture come quelle di Figura 6.22, aventi un ingresso monofonico comune. Implementazione del modello Ulteriori esperimenti hanno evidenziato la non assoluta necessità di modellare la riflessione dovuta alla spalla. La possibilità di tagliare il canale ove è presente la FdT HS si traduce in una semplificazione del modello.
6.4. SPAZIALIZZAZIONE
6.27 n 1 2 3 4 5
Ù
ρn 0Ø 5 Ù 1 0Ø 5 0 Ø 25 0 Ø 25
An 1 5 5 5 5
Bn 2 4 7 11 13
Dn 0 Ø 85 0 Ø 35 0 Ø 35 0 Ø 35 0 Ø 35
Tabella 6.1: Valori numerici indicativi dei parametri del modello della pinna. Simulazioni soddisfacenti sono state ottenute adoperando, per il calcolo del tempo d’arrivo dell’ n–esimo eco dovuto alla pinna, la seguente funzione: τn Ú θ Û φ Ü✟Ý An cos Ú
θ 90Þ Ù φ π Ü sin ß Dn πà 360Þ 180Þ
á Bn Û n Ý 1 Û Ø Ø Ø Û L Û
peraltro periodica nelle variabili di azimuth ed elevazione, come sarebbe da aspettarsi. Essa dà buoni risultati per Ù 90Þãâ θ â 90Þ e Ù 90Þãâ φ â 90Þ . Si è anche verificata la sostanziale indipendenza dall’azimuth e dall’elevazione dei coefficienti di riflessione ρi . Infine, si è deciso di assegnare una volta per tutte il numero di echi causati dalla pinna: L Ý 5. Fatte queste semplificazioni, la scelta definitiva dei parametri ρn , An , Bn e Dn va fatta soggettivamente. Valori di riferimento, risultati efficaci per alcuni soggetti, sono illustrati in Tabella 6.1.
Risultati e punti di discussione Il modello strutturale visto è stato testato in condizioni tali da concentrare il più possibile l’attenzione sulle sue proprietà di spazializzazione. Adoperando suoni atimbrici (rumore gaussiano nel caso particolare) si è verificato che la capacità di riconoscere spazi acustici virtuali, dall’ascolto di suoni filtrati da HRTF “personalizzate”, statisticamente non si discosta di molto dalla capacità di riconoscere gli stessi spazi quando alle HRTF venga sostituito il modello strutturale, anche questo tarato soggettivamente. Restano aperti alcuni punti:
ä il modello pare evocare esternalizzazione. Ciò non deve sorprendere quando si pensi che le HRTF non portano alcuna informazione — ad esempio sotto forma di riverbero — circa le caratteristiche dell’ambiente (si veda in particolare la sezione 6.5), e questo comporta la difficoltà non già di percepire la direzione di provenienza di un suono, bensì di collocare la sorgente sonora all’interno di un ambiente;
ä gli artefatti sul timbro che il modello eventualmente apporta sono da valutare nelle diverse condizioni d’ascolto;
ä FdT “residue”, come quelle esistenti tra l’altoparlante di una cuffia e l’ingresso all’orecchio, possono in linea di principio introdurre a loro volta degli artefatti dei quali occorre eventualmente tenere conto. Una possibile soluzione a questo punto consiste nell’adottare speciali auricolari che evitano qualunque interferenza tra altoparlanti e orecchio esterno. È chiaro però che una soluzione come questa non appare praticabile specialmente quando il modello persegua degli scopi commerciali.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.28
Deduzione della stabilità e della minimalità della fase del filtro head shadow Si consideri la FdT (6.9), privata della componente data dal ritardo (6.11) e nella quale siano stati sostituiti i parametri dati dalle (6.10) e (6.12). Conduciamo dapprima una verifica di stabilità della (6.9), ovvero stabiliamo se il suo prolungamento analitico al piano complesso definisce una funzione, nella variabile complessa s, i cui poli giacciano nel semipiano sinistro. È:
æ ç
θω j α2ω æ jω 0 é êè ❉ ω 1 å j 2ω 0
1å
s
ç 1å
1å
æ ç
αθ 2ω0 s 1 2ω0 s
ë
la quale possiede evidentemente un polo posto in s ì é 2ω0 . Per la (6.12), la stabilità della (6.9) è assicurata. Per quanto riguarda la minimalità della fase, essa sussiste se e solo se lo zero della funzione prolungata per analiticità giace sul semipiano sinistro del piano complesso. Non è difficile osservare che lo zero verifica la condizione 2ω0 sì é αí θ î da cui, assunta la stabilità, discende la fase minima non appena sia verificata la condizione α ï 0. Ciò è vero quando ci si attiene alla scelta fatta in (6.10).
6.5
Appendice: percezione di eventi spaziali
Ancorchè non indispensabile per la comprensione dei sistemi presentati alle Sezioni precedenti, questa appendice completa tutta la trattazione svolta, cercando di chiarire, pur molto sinteticamente, alcuni aspetti psicoacustici legati alla percezione spaziale. Si è preferito inserire questi concetti dopo i fatti più tecnici in quanto essi, pur non fornendo direttamente dei parametri di progetto, devono tuttavia completare la base di conoscenze proprie del progettista di questo genere di sistemi, siano essi un chorus, un riverbero o un binauralizzatore.
6.5.1
Terminologia
Nel tentativo di definire le sensazioni spaziali legate alla percezione dei suoni, la vasta letteratura esistente in materia presenta diverse terminologie, a cui fanno riscontro almeno un pari numero di tipi di sensazioni avvertibili. Non di rado, i concetti alla base delle terminologie coniate sono entrati in parziale sovrapposizione tra loro, rendendo ardua una definitiva classificazione delle sensazioni spaziali. Del resto, la psicoacustica della percezione spaziale non ha fortunatamente ancora avuto la presunzione di proporsi come una scienza esatta. Ad ogni modo, la ricerca pare orientarsi progressivamente verso l’analisi di quattro aspetti percettivi: 1. l’impressione spaziale (spatial impression, SI), ovvero la capacità di evincere un’informazione spaziale da quella sonora (ad esempio, percepire di trovarsi in una sala da concerto o in una stanza d’ufficio); 2. la spaziosità (spaciousness), conosciuta anche come inviluppo (envelopment), ovvero la percezione dell’ampiezza dell’ambiente acustico (ad esempio, percepire di trovarsi in una sala da concerto e non in una stanza d’ufficio);
6.5. APPENDICE: PERCEZIONE DI EVENTI SPAZIALI
6.29
3. la dimensione apparente della sorgente (apparent source width, ASW), ovvero la percezione delle dimensioni della sorgente sonora (ad esempio la capacità di distinguere un diffusore da una grande orchestra); 4. la posizione relativa della sorgente sonora, ovvero la capacità, propria dell’ascoltatore, di collocare la posizione della sorgente sonora all’interno di uno scenario tridimensionale. Ciò equivale a individuare un angolo orizzontale (o azimuth) e un angolo verticale (o elevazione) in relazione alla direzione di provenienza del suono. Diversi esperimenti sono stati condotti nell’intento di motivare questi aspetti sulla base di considerazioni legate ai parametri architettonici e acustici dell’ambiente d’ascolto, e alle caratteristiche temporali e spettrali della coppia di segnali che giungono alle orecchie; dunque, cosiderazioni di tipo fisico. Se da una parte questi esperimenti hanno spesso successo nelle perlopiù semplificate condizioni sperimentali allestite durante un test, d’altra parte le conclusioni che ne seguono entrano non di rado in contraddizione con i risultati di altri esperimenti, o con evidenze riscontrabili in particolari situazioni d’ascolto. Preso atto dei limiti riscontrati in un approccio di tipo fisico al problema, la ricerca non ha tuttavia trascurato l’approccio percettivo. Nonostante le problematiche legate allo scollamento di quest’approccio da alcuni aspetti tecnico–progettuali, in analogia con quanto illustrato al paragrafo 6.3.3, esso conduce in generale a modelli in grado di interpretare meglio la percezione spaziale del suono.
6.5.2
Ipotesi per un modello percettivo
Uno schema accettato dalla maggior parte degli studiosi prevede che l’informazione sonora, suddivisa in bande critiche (vedi paragrafo 2.9), giunga in particolare alle sedi neurologiche preposte alla valutazione dell’IID e dell’ITD, già definiti al paragrafo 6.4.2. Confrontando diversi studi, pare probabile che queste sedi siano concettualmente distinte, cioè che le informazioni estratte dall’IID e dall’ITD, non necessariamente in accordo tra loro, vengano separatamente valutate. A questo punto, l’informazione appena acquisita (sempre suddivisa in bande) va a quantificare tre parametri: 1. un parametro di direzionalità, legato alla provenienza dell’informazione; 2. un parametro di intensità, legato alle energie del messaggio informativo; 3. un parametro di fluttuazione spaziale, legato alle variazioni di energia e punto di provenienza del messaggio informativo. Questo parametro discende da considerazioni legate alle caratteristiche dei segnali che giungono alle orecchie: si dimostra infatti che la sovrapposizione di un segnale monofrequenziale diretto e di una sua riflessione vanno a formare un nuovo segnale la cui fluttuazione spaziale angolare media attorno a un punto di provenienza (chiamata anche fluttuazione dello pseudoangolo) varia con l’energia e con l’angolo d’incidenza del segnale riflesso rispetto al segnale diretto. Variando la frequenza, cambia la legge che lega la fluttuazione dello pseudoangolo all’energia e all’angolo d’incidenza. Questi parametri vengono utilizzati per riconoscere nel segnale acustico degli “eventi” (phones), che vengono associati alternativamente a un “flusso in primo piano” (foreground stream), corrispondente all’insieme dei messaggi acustici che attribuiamo essere provenienti direttamente dalla sorgente sonora, e a un “flusso di background” (background stream), corrispondente a quello che il nostro senso dell’udito generalmente identifica come riverbero.
CAPITOLO 6. EFFETTI NEL DOMINIO SPAZIO–TEMPORALE
6.30 direzionalita‘
intensita‘
sensore attacchi
sensore eventi
ESI
posizione relativa sorgente
fluttuazione spaziale
sensore rilasci
CSI
ASW
BSI
SI
inviluppo
Figura 6.23: Modello psicoacustico per la percezione degli eventi spaziali. Nel seguito cerchiamo di analizzare il senso di questa classificazione, ovvero le sensazioni spaziali legate ai diversi flussi. La Figura 6.23 schematizza in blocchi il modello, che verrà man mano chiarito durante la trattazione. Le informazioni in ingresso al modello provengono dalle sedi preposte alla valutazione dell’IID e dell’ITD, e sono per quanto già detto funzioni delle bande critiche. Il flusso di background Il flusso di background viene percepito in presenza di riverbero, naturale o artificiale, ed è responsabile delle impressioni spaziali di background (background spatial impression, BSI). In base al modello, le condizioni affinchè un evento sonoro venga associato al flusso di background sono le seguenti: repentino aumento della fluttuazione dello pseudoangolo, coincidente con l’istante durante il quale cessa il segnale diretto; ð
ð
contemporanea diminuzione dell’intensità del segnale udito
Queste condizioni vengono apprezzate dopo un certo tempo di latenza, durante il quale l’udito “commuta” il flusso a cui associare il messaggio (almeno 120 ms dal termine di un evento associato al flusso di primo piano). Se esse non sussistono, per esempio in quei generi musicali ove un riconoscibile tappeto di accompagnamento maschera i riverberi, e comunque ogniqualvolta l’udito non viene messo nelle condizioni di poter commutare il flusso, il BSI di fatto non si verifica. Il ruolo principale del BSI è quello di dare la percezione della distanza della sorgente acustica, che di fatto è un’informazione sulla posizione, e questa implica la sensazione dell’inviluppo, sia l’ambiente di ascolto indifferentemente chiuso o aperto. Il flusso in primo piano Fornisce la maggior parte delle sensazioni, fissate dal modello in impressioni spaziali iniziali (early spatial impression, ESI) e impressioni spaziali continue (continuous spatial impression, CSI).
6.5. APPENDICE: PERCEZIONE DI EVENTI SPAZIALI
6.31
Eventi che vengono attribuiti al flusso in primo piano determinano nei primi istanti di ascolto (fino a circa 50 ms) la localizzazione della direzione di provenienza del suono e l’ASW: tanto più precisa la prima quanto minore la seconda e viceversa, ciò dipendendo dalla precisione di identificazione dell’informazione da parte dei meccanismi di IID e di ITD, dunque dalla coerenza dell’informazione fornita dai due meccanismi nelle diverse bande critiche. Successivamente (dopo circa 50 ms) la fluttuazione dello pseudoangolo fornisce l’informazione per determinare l’impressione spaziale. Il CSI viene evocato da segnali percettivamente continui. Brevi segnali impulsivi creano stimoli coerenti e di semplice decodifica per gli apparati IID e ITD, utili soprattutto per l’identificazione della direzione di provenienza del suono. Passando dal carattere impulsivo a quello continuo, l’aumento progressivo della fluttuazione dello pseudoangolo, dovuta alla presenza delle riflessioni del segnale continuo, abbassa la precisione nell’identificazione della direzione di provenienza e, per quanto detto, aumenta l’ASW e definisce l’impressione spaziale. Si noti tuttavia come l’aumento della fluttuazione non avvenga necessariamente, ciò influendo sul tipo di sensazione evocata. Si noti anche la possibilità per il CSI di assumere caratteristiche “inviluppanti”, non appena inizi ad assomigliare a un segnale riverberante. L’ESI viene evocata in un contesto differente da quello ove prevale il CSI, ovvero in occasione di eventi di breve durata (dell’ordine di 50 ms) costituiti da un segnale e dalle sue prime riflessioni, di ampiezza confrontabile con quella del segnale diretto. I fenomeni che avvengono in una finestra temporale così breve vengono raggruppati dall’orecchio in un unico evento. Questo evento fornisce tipicamente sensazioni di ASW e di SI, ma non di inviluppo, ed è tipico dei piccoli ambienti. Le fluttuazioni dello pseudoangolo legate a questi eventi producono effetti non facilmente predicibili. Solitamente un aumento della fluttuazione produce un allargamento dell’ASW, e modificazioni di timbro, mentre la posizione relativa della sorgente resta di solito legata alla direzione di provenienza del segnale diretto. Piccoli ambienti dotati di pareti altamente riflettenti costituiscono interessanti casi particolari, in grado al limite di evocare anche sensazioni di inviluppo.
Chapter 7
Sound modeling: source-based approaches Federico Avanzini c 2004 by Federico Avanzini. All rights reserved. Copyright °
7.1 Introduction: sounds, sources It was 1971 when Hiller and Ruiz envisioned the possibility of using numerical simulations of the wave equation for sound synthesis applications. [. . . ] This is a completely new approach to electronic sound synthesis insofar as the starting point is the physical description of the vibrating object [. . . ]
A decade later McIntyre, Schumacher, and Woodhouse published their classic study on the use of non-linear maps for modeling the generation of self-sustained oscillations in musical instruments. [. . . ] a fast minicomputer could produce results at a cycle rate in the audible range. The result would perhaps have some novelty: an electronic musical instrument based on a mathematical model of an acoustic instrument [. . . ]
Today the algorithms described by these authors can be easily implemented in real-time on generalpurpose hardware, and it is common practice to use the term physical modeling to refer to sound modeling techniques in which the synthesis algorithms are designed based on a description of the physical phenomena involved in sound generation. Direct sound representations, that are merely based on a description of the sound waveform, do not contain information about the way the sound has been generated and processed by the surrounding environment before arriving to the listener’s ear. Sampling in time the sound signal does not assume any underlying structure, or process, or generative model, in sound representation. The symbolic description is extremely poor, and as a consequence very little interaction with the sound representations is allowed. Although signal processing techniques can provide meaningful modifications (e.g. pitch shift, time stretching), sampling is basically a static, low-level description of sound. 7.1
7.2
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
High level representations of sound signals are necessarily associated with some abstract paradigms that underlie sound production. As we have seen previously, when trying to develop a taxonomy of sound synthesis methods a first distinction can be traced between signal models and source models. Any algorithm which is based on a description of the sound pressure signal and makes no assumptions on the generation mechanisms belongs to the class of signal models. Additive synthesis is a good example of a signal model: as already mentioned, one major drawback of this technique is its enormous number of control parameters: at least one amplitude and one pitch envelopes have to be specified for each partial. Moreover, the sound representation has not a strong semantic interpretation, since these parameters do not have a high-level meaning. Subtractive synthesis with its source-filter structure provides in a sense a more semantic description of sound: in certain cases the two blocks can be given a physical interpretation in terms of an exciting action and a resonating object, respectively. As an example, in the case of LPC based speech synthesis the broadband input signal can be interpreted as a glottal source signal, and the shaping filter represents the action of the vocal tract. However, in many other cases this interpretation does not hold, and the control parameters in the model (e.g., the filter coefficients) do not have a high-level meaning. Source models aim at describing the physical objects and interactions that have generated an acoustic event rather than the acoustic signal itself. This modeling approach often gives rise to rather complex descriptions, that can lead to computationally expensive numerical algorithms. Several modeling paradigms and techniques are available in the literature for deriving efficient implementations of such descriptions, including lumped/distributed modeling, waveguide structures, finite difference methods, and so on. The following sections describe in detail a few of these approaches. Here it is worth discussing another aspect, i.e. that of control. A direct consequence of assuming a source-based approach is that the resulting control parameters have a straightforward physical interpretation: typical parameters in the models are associated with masses, hardness/softness characteristics, blowing pressures, lengths: such a semantic representation can in principle allow more intuitive interaction.
7.2 Structures, functions, models 7.2.1 Functional blocks 7.2.1.1 Excitations and resonators Musical oscillators are often strongly non-linear. A typical example is found in woodwind and brass instruments, where self-sustained oscillations in an acoustical bore can only be explained in terms of a non-linear, persistent excitation mechanism. More precisely, the valve (a single or double-reed, or the player’s lips) at the bore termination acts as a non-linear element that injects energy into the system. A very similar description holds for bowed string instruments, where the bow is the exciting element. In other cases the instrument is non-linearly excited only for a limited amount of time: a struck string or bar interacts with the hammer or mallet through a non-linear contact force. Values for the contact time are typically a few milliseconds, and after this short excitation the system evolution is linear. There are also examples where non-linearities are negligible: plucked string instruments can be conveniently treated as linear systems (strings and instrument body), where the “pluck” is simply described as a non-equilibrium initial condition (i.e., the pluck gives a string a non-zero displacement distribution and a null velocity distribution). In all of these cases, the musical instrument can be schematized by means of two main functional blocks, as depicted in Fig. 7.1. The resonator is the part of the instrument where the oscillations actually take place. Depending on the instrument, this can be the acoustical bore, the string, the bar.
7.2. STRUCTURES, FUNCTIONS, MODELS
Exciting actions
7.3
EXCITER
RESONATOR
Non-linear Dynamic System
Linear Dynamic System
Out
Modulating actions
Figure 7.1: Exciter-resonator interaction scheme for a musical instrument (compare to Fig. 7.2(b)).
It is therefore related to such sound attributes as pitch and spectral envelope, and in general to sound quality. The exciter controls the way energy is injected into the system, thus initiating and possibly sustaining the oscillations. It relates to properties of the transient attack, which is known to have a primary role in defining timbre and sound identity. The interaction between blocks can be feedforward or feedback, depending on the instrument. Persistently excited instruments –such as winds– are described by a feedback structure, while for plucked string instruments a feedforward scheme can be assumed without significant loss in accuracy of the description. A very simple yet striking demonstration of the effectiveness of the exciter/resonator schematization is provided by mounting a clarinet mouthpiece on a flute.1 The bore boundary conditions are changed from open-open to closed-open so that it plays one octave lower, and the resulting instrument is perceived as a bad sounding clarinet. In other words, the excitation mechanism defines sound identity (“it’s a clarinet”), the resonator merely controls sound quality (“it’s a bad clarinet”). Outlining such functional blocks helps the modeling process; each of them can, to a certain extent, be modeled separately and with different representation strategies. Moreover, the block decomposition can be refined, i.e. both the exciter and the resonator can be described by simpler and more elementary constitutive elements. As an example, the resonating block of a wind instrument is made of a bore, a number of tone holes and a radiating bell, and each of these can be described by their own models. Both “white-box” and “black-box” approaches can be taken. The term white-box indicates that the block is modeled by further decompositions in finer physical elements. The black-box approach amounts to describe a given block according to its input-output behavior, without further assumptions on its internal structure. As an example, the radiating bell in a wind instrument is often modeled using a black-box approach: since the bell acts as a filtering element which reflects low frequencies and radiates high frequencies pressure waves, the modeling problem reduces to filter design. 7.2.1.2 Analogies with speech synthesis The functional blocks outlined so far can be defined even when we look at speech synthesis techniques. Consider Linear Prediction Coefficients (LPC) synthesis: As already discussed before, the assumption underlying this method is that the phonatory system can be schematized as a feedforward source-filter model, as depicted in Fig. 7.2(a). According to such a schematization, the source block 1
The author has enjoyed a live demonstration with such a “flarinet”, performed by Joe Wolfe while giving a seminar in Venice, 2000.
7.4
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
EXCITATION GENERATOR
VOCAL TRACT MODEL
RADIATION MODEL
V(s)
R(s)
SPEECH OUTPUT
PARAMETERS
(a)
GLOTTAL MODEL
VOCAL/NASAL SPEECH TRACT MODEL
INTERACTION
NON-LINEAR
LINEAR
GLOTTAL PARAMETERS
TRACT AREAS
(b)
Figure 7.2: Speech synthesizers; (a) feedforward source-filter block scheme associated to LPC based speech synthesis, (b) block scheme of an articulatory speech synthesizer (compare to Fig. 7.1).
represents the airflow at the glottis, while the linear filter accounts for the combined effects of the vocal (and possibly nasal) tract and lip radiation. Under this interpretation, LPC synthesis is to a certain extent a physically-based technique, since the main blocks depicted in Fig. 7.2(a) can be given a physical and physiological interpretation. However its major assumption, i.e. a feedforward interaction between glottal source and vocal tract, holds only as a first order approximation and is imprecise. In a real phonatory system, the vocal tract behaves as an acoustical air column, thus providing feedback to the vocal source through its input impedance. Detailed modeling has to take into account this acoustical interaction in order to allow for more natural sounding output. Speech synthesizers that are based on acoustical models are commonly referred to as articulatory synthesizers. Figure 7.2(b) depicts a typical block scheme of an articulatory synthesizer. When compared to the scheme in Fig. 7.2(a), it appears to have a very similar structure. However in this case the two main blocks interact in a feedback configuration. On the other hand, this scheme exhibits a striking similarity to the exciter-resonator decomposition outlined above for musical instruments (see Fig. 7.1). The modeling approaches adopted in articulatory speech synthesis are indeed very similar to those used for musical instruments. The vocal tract is a non-uniform, time-varying resonator. As a first approximation, it is described by its cross-sectional area function A(x, t) (x being the position along the tract). Several approaches are possible for providing excitation signals to an articulatory vocal tract.
7.2. STRUCTURES, FUNCTIONS, MODELS
7.5
Parametric models are one option. These fit a given glottal flow waveform using piecewise analytical functions, and are therefore signal models. Alternatively, the vocal tract can be excited by a time varying section that represents the glottis, and driving this additional section using synthesized or measured glottal area signals. However a fully physical description has to account for the interaction between the glottal source and the resonating vocal tract. Physical models exists that describe the vocal folds by means of one or more masses and viscoelastic elements. Such lumped models can be easily coupled to an articulatory vocal tract and give rise to “natural” interaction effects, that cannot be obtained using simpler feedforward source-filter schemes.
7.2.2 Modeling approaches As far as modeling paradigms are concerned, these are often grouped into two broad categories, namely lumped and distributed models. Lumped models are used when a physical system can be conveniently described in terms of ideal masses or rigid bodies, connected to each other with spring and dampers, and possibly non-linear elements. The resulting systems are naturally described in the time domain, in terms of Ordinary Differential Equations (ODEs). Pressure-controlled valves, such as single, double or lip reeds, are typically described using the lumped modeling paradigm. Indeed, these systems are quite complicated: a clarinet reed is a non uniform bar clamped at one termination and free at the other one, and has many vibrational modes. Similarly, a lip reed is made of non-homogeneous tissue and exhibits horizontal and vertical modes of vibration. Nonetheless, these systems have been successfully modeled using lumped elements, and it is widely accepted that such a simplified mechanical description captures the basic behavior of pressure controlled valves. Similar remarks hold for hammers and mallets: during collision, they are deformed and subject to internal losses and non-linear restoring forces. However, interactions with strings and bars have been modeled and efficiently implemented in sound synthesis algorithms by assuming the hammer/mallet to be a lumped mass and deriving empirically the corresponding expression for the contact force. Distributed models, as opposed to lumped ones, are more often used for describing vibrating bodies or air volumes where forces and matter depend on both time and space. These bodies are not easily decomposed into systems of discrete masses. One-, two- and three-dimensional resonators (such as strings, bars, acoustical bores, membranes, plates, rooms, etc.) are usually treated as distributed systems and mathematically described by means of Partial Differential Equations (PDEs). Among the sound synthesis community, however, the most popular approach for dealing with many distributed systems is waveguide modeling. Section 7.3 discusses waveguide models in detail. In its simplest form the method exploits the existence of an analytical solution to the D’Alembert wave equation, which can be seen as a superposition of traveling waves (rigidly translating waveforms). Such a solution can be simulated in the discrete space-temporal domain using delay lines, and the resulting numerical algorithms are extremely efficient and accurate. Moreover, physical phenomena such as frequency dependent losses and dispersion can be included in the models by incorporating low-pass and all-pass filters in the delay line scheme. Again, careful design of such filters allows for very accurate and relatively low-cost simulations. Some sound synthesis algorithms based on the waveguide approach have been successfully implemented on commercial integrated circuit. Although waveguides are extremely successful in modeling nearly elastic mediums (where the D’Alembert equation or some of its generalizations hold), they are not equally good in dealing with systems where rigidity has a major role and bending forces are the main source of oscillation. As an example, oscillations in a bar are governed by the so called Euler-Bernoulli equation. No analytical
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.6
general solution is given for this fourth order PDE, and no traveling-waves schematization can be assumed. In order to deal with such systems, finite difference or finite elements methods are the most suitable techniques. These time-domain techniques are sometimes referred to as “brute force” methods, since they are based on direct discretization of the PDEs and have high computational costs. On the other hand, when properly used they provide stable and very accurate numerical systems. Other approaches are available, though less popular, for dealing with distributed systems: cellular models decompose a resonating body into a multitude of interacting particles whose dynamics is discretized and quantized, thus giving rise to a cellular automaton. In the early nineties, Cadoz and his coworkers have introduced CORDIS-ANIMA systems, that describe vibrating bodies as a set of interconnected mass-spring-damper cells. Extremely high computational costs are a major drawback of this approach. Furthermore, no analytical tools are available for assessing stability properties of the discretized systems.
7.3 Distributed models: the waveguide approach This section introduces the basic concepts of waveguide modeling. Discussion is focused on onedimensional resonators. No attention is devoted here to higher dimensional waveguide structures.
7.3.1 The origins: the Karplus-Strong algorithm We start this section on waveguide models with an example which is relevant from many viewpoints. First, the Karplus-Strong (KS hereafter) sound synthesis algorithm is a famous one and deserves to be studied. Second, it contains many of the basic elements that are needed to provide a clear picture of what waveguide modeling is all about, and yet it is structurally simple enough to be discussed in a limited amount of pages. Finally, from a historical perspective it can be regarded as the first prototype of a waveguide approach: it is true that the original formulation of the algorithm did not contain any physical interpretation. What is unquestionable, however, is that the KS algorithm is structurally identical to the simplest waveguide models that we are going to examine in the next sections. 7.3.1.1 The comb filter The basic computational structure underlying the KS algorithm is the comb filter: y(n) = x(n) + RL y(n − L),
⇒
H(z) =
1 1 − RL z −L
(7.1)
The block structure of the filter is given in figure 7.3(a). The poles of H(z) are found from z L = RL . Therefore the filter has L poles z = Rei2lπ/L for l = 0, . . . L − 1, equally spaced around the circle of radius R. The corresponding frequency response is given is figure 7.3(b). Note that the filter produces a harmonic spectrum in which the frequency peaks are integer multiples of the “fundamental” frequency ω0 = 2πF s/L rad. M-7.1 Find the frequency response of the comb filter (7.1) and plot magnitude and phase responses for various values of R and L.
Figure 7.3(a) already provides us with an intuitive proto-physical interpretation: a perturbation (a wave, as we shall see) propagates through a medium, is confined within a length L, bounces back
7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH
7.7
25
x(n)
y(n) RL
Magnitude resp. (dB)
20 15 10 5 0 −5 −10
z −L
−15
0
0.5
1
(a)
1.5
ωd (rad)
2
2.5
3
(b)
Figure 7.3: A comb filter; (a) block scheme and (b) frequency response.
and forth due to some boundary conditions, has some energy dissipated at each bounce through the coefficient RL . Note that if the sign of the wave is inverted at each reflection, the resulting filter spectrum is affected: y(n) = x(n) − RL y(n − L),
⇒
H(z) =
1 1 + RL z −L
(7.2)
In this case the poles are z = Rei(2l+1)π/L for l = 0, . . . L − 1. This means that the corresponding frequency peaks have all been shifted by an angle π/L with respect to the previous case: now the frequency peaks are odd integer multiples of the “fundamental” frequency ω0 = πF s/L rad. Section 7.3.5 will show that choosing a sign or another corresponds to describing two different boundary conditions (e.g., an open termination versus a closed termination in an acoustical bore). 7.3.1.2 Refining the structure The above observations suggest that the comb structure (7.1) may be employed to synthesize harmonic sounds, such as those produces by a plucked guitar string. However, in order to obtain something convincing we still have to add some refinements to the structure. Specifically, what it is missing is a mean to control the spectral tilt of the response and to account for different decay rates for the sound partials. Figure 7.4 shows the spectrogram of a guitar sound, from which a frequency-dependent decay pattern can be clearly observed. In order to account for such a frequency-dependent decay, one can insert a low-pass filter Hlp into the feedback loop, as shown in figure 7.5(a): intuitively, at each passage the high-frequency component are attenuated more strongly than low-frequencies component. The simplest low-pass filter that can be employed is a 1st order FIR: y(n) =
1 [x(n) + x(n − 1)] 2
⇒
Hlp (z) =
¤ 1£ 1 + z −1 . 2
(7.3)
The corresponding frequency response is Hlp (ω) = cos(ω/2)e−iω/2 , from which two remarks can be made: first, the low-pass characteristics of this filter is easily recognized by noting that |Hlp (ω)| =
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.8
4000 3500 3000
f (Hz)
2500 2000 1500 1000 500 0
0
1
2
3
4
5
6
7
8
t (s)
Figure 7.4: . Spectrogram of a plucked A2 guitar string. Note the harmonic structure and the decay rates, which increases with increasing frequency.
cos(ω/2). Second, the filter phase shows that Hlp introduces an additional half-sample delay in the loop. As a consequence, the fundamental frequency generated by this structure is now ω0 = 2πF s/(L + 1/2) rad. Moreover, a closer analysis would also show that the upper partials are not anymore integer multiples of ω0 = 2πF s/(L + 1/2), due to the insertion of Hlp in the loop. These deviations are however very small, especially for the lower partials and for values of R that are close to 1. Figure 7.5(a) shows the frequency response of the comb structure after the insertion of Hlp : the (small) deviations from the harmonic series can also be noticed from this plot. M-7.2 Find the frequency response of the low-pass filter (7.3). Then find the response of the complete system given in figure 7.5 and plot magnitude and phase responses for various values of R and L.
The structure depicted so far is the core of the KS algorithm. On final remark concerns the initial conditions (filter state) to be imposed in order to obtain satisfactory sound output. The choice originally suggested by Karplus and Strong is that of a random initial excitation: although this choice has hardly any physical interpretation,2 it has the benefit of providing significant initial excitation in the high-frequency region, with a consequent perceptual effect of an initial noisy transient followed by a harmonic steady-state signal. M-7.3 Implement the KS algorithm: using the structure given in figure 7.5 and the filter found in M-7.2, write an audio cycle in which the filter is initialized with random excitation and evolves freely. Plot the signal and its spectrogram.
7.3.2 One-dimensional wave propagation In order to provide a physical interpretation to the KS algorithm, and to fully understand the waveguide approach, we need to review some fundamentals of sound wave propagation in an ideal elastic medium. Vibrational phenomena in such a medium are described by the D’Alembert equation, whose 2
It would be like imposing initial random displacements to points of a string, as we shall see in the next sections.
7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH
7.9
25
Hlp
x(n)
y(n)
RL
Magnitude resp. (dB)
20 15 10 5 0 −5 −10 −15
z −L
0
0.5
1
(a)
1.5
ωd (rad)
2
2.5
3
(b)
Figure 7.5: Insertion of a low-pass element into the comb structure; (a) block scheme and (b) frequency response (the triangles mark the harmonic series lπ/L, l ∈ N).
one-dimensional version is written as ∂2y 1 ∂2y (x, t) = (x, t). ∂x2 c2 ∂t2
(7.4)
This equation holds, for instance, in an ideal string of length L, linear mass density µ and tension T . In this case the variable x ∈ [0, L] stands for position alongp string length and y stands for transversal displacement of the string. The constant c has the value T /µ and has the dimensions m/s of a velocity. A full derivation of Eq. (7.4) for the ideal string can be found in many textbooks: roughly speaking, the two main assumptions are that (i) the infinitesimal string segment dx moves only in the vertical direction, so that its acceleration can be computed using only the transverse component of the tension as the acting force; and (ii) the amplitude of the vibrations is very small. 7.3.2.1 Traveling wave solution A fundamental property of Eq. (7.4) is that it describes propagation phenomena. This statement can by proved by factoring the equation as follows: ¶µ ¶ µ 1∂ ∂ 1∂ ∂ − + y = 0. (7.5) ∂x c ∂t ∂x c ∂t From this factorization it is easily seen that generic solutions take the form y(x, t) = y + (ct − x) + y − (ct + x).
(7.6)
The two functions y ± describe waveforms that translate rigidly with velocity c, in the right-going and left-going directions, respectively. Their shape is determined by the boundary conditions (in space) and the initial conditions (in time). Another general solution to equation (7.4) is found by noting that the complex sinusoids ej(ωt±kx) , with k = ω/c, are particular solutions of the D’Alembert equation. Depending on boundary conditions, only certain values are allowed for k (and thus for ω = kc). For fixed boundaries (i.e.
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.10
r r
θ
φ
O
O φ
z
Figure 7.6: Illustration of cylindrical and spherical coordinates.
y(0, t) = y(L, t) = 0) these turn out to be kl = lπ/L with l ∈ N, i.e. the only allowed frequencies form a harmonic series. Then the Fourier theorem tells us that the general solution is a linear combination of these sinusoids. A n-dimensional generalization of Eq. (7.4) is found to be ∇2 y(x, t) = 2
2
1 ∂2y (x, t), c2 ∂t2
(7.7)
2
∂ ∂ ∂ where the symbol ∇2 = ∂x 2 + ∂x2 + . . . + ∂x2 stands for the n-dimensional Laplacian operator. With n 1 2 n = 2, Eq. (7.7) describes for instance mechanical vibrations in an ideal membrane, while n = 3 is well suited for describing acoustic disturbances in an air volume. In this latter case x represents Euclidean coordinates in space and y stands for the acoustic pressure p. As opposed to mechanical vibrations in a string or membrane, acoustic vibrations are longitudinal rather than transversal, i.e. the air particles are displaced in the same direction of the wave propagation. Again, simplifying assumptions have been made for deriving Eq. (7.7) in the acoustic case. Namely, disturbances are considered to be small so that the acoustic pressure p is related to density ρ via a linear relation: p = B(ρ−ρair )/ρair , where B is the linearized adiabatic bulk modulus and ρair is the air equilibrium p density. The constant c is then given the value B/ρair , and again has the dimensions m/s of a velocity.
7.3.2.2 One-dimensional propagation There are interesting cases where acoustic disturbances can be assumed to be one-dimensional up to a reasonable approximation. Propagation in a cylindrical tube of radius r0 is an example: by exploiting boundary conditions and symmetries, and looking for harmonic solutions (those with time dependence exp(jωt)), the acoustic pressure can be written in cylindrical coordinates as p(r, φ, z, t) = exp(jωt) · R(r)Z(z) and the equation is separable (see Fig. 7.6 for an illustration of cylindrical coordinates). This leads to the coupled spatial solutions R(r) = I0 (βr),
Z(z) = e±j (k
2 −β 2 1/2 z
)
,
(7.8)
where I0 is the Bessel function of the first kind and zero order. The boundary condition on the cylindrical surface is d/dr[I0 (βr0 )] = 0, or equivalently I1 (βr0 ) = 0. Therefore, only the β values for which I1 (βr0 ) = 0 are allowed. The first allowed value is obviously β = 0: this corresponds to the zero-th order modes with Z(z) = exp(±jkz) and R(r) ≡ 0, i.e. plane wave propagation
7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH
7.11
along z. The next allowed value corresponds to the first zero of I1 , i.e. βr0 = 3.83171. If r0 = 8 · 10−3 m (the approximate radius of a clarinet bore), then β = 479 m−1 and the first corresponding mode in the z direction has a cutoff frequency fc = βc/2π = 26.15 kHz. Only frequencies higher than fc do propagate, and they are well out of the range of human hearing. Therefore, for audio applications higher order non-planar modes can be neglected and one-dimensional wave propagation in the z direction can be conveniently described using Eq. (7.4). Conical geometries are a second example where one-dimensional propagation can be approximately assumed. Again, by exploiting boundary conditions and symmetries and looking for harmonic solutions, pressure can be written in spherical coordinates as p(r, θ, t) = exp(jωt) · Θ(θ)R(r) and the equation is separable (see Fig. 7.6 for an illustration of spherical coordinates). Without going into details, analysis analogous to that outlined for cylindrical geometries shows that higher-order modes can also be neglected in this case, and propagation in the r direction is conveniently described with zero-th operator is expressed in spherical coordinates ¡ 2 ∂ ¢order modes. ¡Since ∂the ¢ Laplacian ∂ ∂ 1 1 ∂2 , the one-dimensional equation for spherical r ∂r + r2 sin sin θ + as ∇2 = r12 ∂r ∂θ θ ∂θ r 2 sin2 θ ∂φ2 wave propagation is µ ¶ 1 ∂ 1 ∂2R 2 ∂R (r, t). r (r, t) = (7.9) r2 ∂r ∂r c2 ∂t2 ˜ Using the substitution R = R/r, it is easily seen that Eq. (7.9) reduces to the one dimensional ˜ is the sum of two traveling waves R ˜ ± , and the general D’Alembert equation (7.4). Therefore R solution for the zero-th order radial modes is 1 ˜+ ˜ − (ct + r)]. R(r, t) = [R (ct − r) + R r
(7.10)
7.3.2.3 Wave variables So far, only displacement y and acoustic pressure p have been considered in the wave equation. However, alternative wave variables can be used in strings and acoustical bores. As an example, the force acting on a string section dx is defined as · + ¸ ∂y ∂y − T T ∂y f (x, t) = −T (x, t) = −T (ct − x) + (ct + x) = y˙ + (ct − x) − y˙ − (ct + x). ∂x ∂x ∂x c c Therefore, using this equation force waves f ± can be defined as f ± := ∓ Tc y˙ ± . On the other hand, the transversal velocity wave variable in the same string is given by v(x, t) =
∂y (x, t) = y˙ + (ct − x) + y˙ − (ct + x). ∂t
From this, velocity waves v ± are defined as v ± := y˙ ± . The pair of force and velocity variables is sometimes referred to as Kirchhoff variables, in analogy with voltage and current in electrical systems (Sec. 7.4 provides a detailed discussion of Kirchhoff variables and analogies between electrical, mechanical and acoustic systems). From the previous equations it immediately follows that p f ± (ct ∓ x) = ±Z0 v ± (ct ∓ x), with Z0 = T /c = T µ. (7.11) The quantity Z0 takes the name of wave (or characteristic) impedance of the string, and its reciprocal Γ0 = Z0−1 is termed wave admittance. Note that using Z0 both the force f and the velocity v can be
7.12
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
related to the force waves f ± . Namely, the following relations hold: f = f + + f −, f
+
f + Z0 v = , 2
¤ 1 £ + f − f− , Z0 f − Z0 v = , 2
v= f
−
(7.12)
that transform the pair (f, v) into the pair (f + , f − ), and vice versa. Wave impedance can be defined also in a cylindrical bore. In this case the Kirchhoff variables are taken to be pressure p and flow u (volume velocity). These can be related through the wave impedance Z0 : p± (ct ± x) = ±Z0 u± (ct ± x), where Z0 = ρair c/S and S is the constant cross-sectional area of the bore. For conical geometries, the cross-section S is not constant and the definition of Z0 has to be generalized. The wave impedance is then defined as a function Z0 (s) such that the relations P ± (r, s) = ±Z0 (s)U ± (r, s) hold in the Laplace domain. It can be seen that Z0 (s) = ρair c/S · [rs/(rs + c)]. Summarizing, this section has shown that vibrational phenomena in many elastic media can be described as one-dimensional wave propagations. Furthermore, Kirchhoff and wave variables in these media are related through wave impedance. This results provide the basis for developing 1-D waveguide structures.
7.3.3 Basic waveguide structures 7.3.3.1 Delay lines Waveguide models exploit the existence of the solution (7.6) to the D’Alembert equation and discretize this solution instead of the differential equation itself. This remark explains to a large extent why waveguide structures are much more efficient than finite difference methods in simulating vibrations of elastic media, at least in the 1-D case. Consider a pressure distribution p = p+ + p− inside an ideal lossless cylindrical bore. If Ts is the sampling period, a suitable choice for the spatial sampling step is Xs = cTs . Thus, a discretized version of p is obtained through the variable substitution x 7→ mXs and t 7→ nTs (with m, n ∈ N), and leads to p(mXs , nTs ) = p+ (ncTs − mXs ) + p− (ncTs + mXs ) = p+ [(n − m)cTs ] + p− [(n + m)cTs ]. Removing the constant sampling steps yields: p(m, n) = p+ (n − m) + p− (n + m).
(7.13)
The term p+ (n − m) in Eq. (7.13) can be thought of as the output from a digital delay line of length m, whose input is p+ (n). Analogously, the term p− (n + m) can be thought of as the input of a digital delay line with the same lenght, whose output is p− (n). This remark leads to the definition of a waveguide section as a bidirectional delay line, as depicted in Fig. 7.7(a). Note that the horizontal direction of this structure has a straightforward physical interpretation: it corresponds to the position x along the axis of the cylindrical bore. In the example depicted in Fig. 7.7, two “observation points” have been chosen at x = 0 and x = mXs = L. At these points, the pressure signal at time n is reconstructed by summing the corresponding pressure waves p± . A very similar structure can be outlined for numerically simulating a pressure distribution in an ideal lossless conical bore. In this case, propagation is described by the one-dimensional equation (7.9), whose general solution is given by Eq. (7.10). The conical waveguide is therefore defined as in Fig. 7.7(b). Observation points can be chosen analogously to the cylindrical case.
7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH
p+(n)
7.13
p+(n-m) z-m p (0,n)
p (m,n)
z-m L
p- (n)
p- (n+m) (a)
z-m p (0,n)
p (m,n)
r o-1
ro
(L+r o ) -1 z-m
L
(b)
Figure 7.7: Lossless waveguide sections with observation points at position x = 0 and x = mXs = L; (a) cylindrical section; (b) conical section.
7.3.3.2 Boundary conditions Looking at figure 7.7 we immediately realize that we still need a final step in order to come out with a computational structure that describes e.g. a string with fixed ends or a cylindrical section with open ends: boundary conditions. Ideal conditions can be immediately derived by observing equation (7.12). Take as an example a string of length L with fixed end: these boundary conditions mean that v(0) = v(L) = 0, from which the reflection rules f + (0) = f − (0) and f − (L) = f + (L) are derived.3 Analogously, take a cylindrical bore of length L, with a closed end at x = 0 and an open end at x = L: the first condition implies u(0) = 0 (no flow through a closed end), which in turn implies the reflection condition p ∗ (0) = p− (0); the second one implies p(L) = 0 (p matches the atmospheric pressure at the open boundary), which in turn implies the reflection condition p− (L) = p+ (L).
M-7.4 Write the WG filter of a string of length L (in meters), using a sample rate Fs = 44.1 kHz. Assume the string is fixed at both ends. 3
Now go back to figure 7.3(b): the comb filter can be viewed as a pair of waveguide sections of length L/2 samples, with reflection rules that correspond to fixed end conditions.
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.14
7.3.4 Modeling real world phenomena As already mentioned, the waveguide structures introduced above describe ideal systems, i.e. ideally elastic media, where the D’Alembert equation (7.4) or its spherical version (7.9) hold. Real systems exhibit more complex behaviors. 7.3.4.1 Dissipation Energy dissipation occurs in any real vibrating medium. In an acoustical bore this is due to air viscosity, thermal conduction and wall losses. Dissipation in a string comes from internal losses related to elastic properties of the material, energy transfer through terminations, and friction with air. For clarity, consider the pressure distribution in a cylindrical bore. In the simplest approximation, all of the dissipation phenomena can be incorporated in the D’Alembert equation by including an additional term proportional to the first time derivative: 2 ∂2p ∂p 2∂ p (x, t) = c (x, t) − ǫ (x, t). 2 2 ∂t ∂x ∂t
(7.14)
In the limit of small ǫ, Eq. (7.14) still admits a traveling wave solution, which can be digitized with the same procedure described in the ideal case: ǫx
ǫx
p(x, t) = e− 2c p+ (ct − x) + e 2c p− (ct + x),
then (7.15)
p(m, n) =
g m p+ (n
− m) +
g −m p− (n
+ m),
with
− ǫT2s
g=e
< 1.
Thus the traveling waves are exponentially damped along the propagation direction, and this phenomenon can be easily incorporated in the waveguide structure. This is shown in Fig. 7.8(a), where losses have been consolidated, or lumped, in a single multiplier cascaded to the delay line. The loss factor g m summarizes the distributed losses occurring in the spatial interval [0, mXs ]. In most of real phenomena, however, losses increase with frequency. A better approximation of dissipation phenomena can account for this frequency dependence by substituting the constant factor g with a lowpass filter G(z). Moreover, in order to avoid frequency dependent delay, G(z) must be a zero-phase FIR filter. Alternatively, a linear-phase filter can be used; in this case the length of the delay line has to be reduced correspondingly, in order to obtain the desired overall delay.4 M-7.5 Add loss factors g and a low-pass dissipation filter to the WG filter of a string developed in M-7.4 (use e.g. the low-pass FIR (7.3)). Study the frequency response of this system.
7.3.4.2 Dispersion A second important phenomenon in natural wave propagation is that of dispersion. In a string, dispersion is introduced by string stiffness. This is usually modeled in the D’Alembert equation (7.4) by introducing an additional term proportional to the fourth spatial derivative: ∂2p ∂4p 1 ∂2p (x, t) = (x, t) − ǫ (x, t), c2 ∂t2 ∂x2 ∂4x
(7.16)
Now go back to figures 7.3(b) and 7.5(b): the parameter RL plays the role of the loss factor g m , while the linear-phase FIR filter Hlp plays the role of G(z) and introduces frequency-dependent dissipation. 4
7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH
7.15
where the dispersive correction term ǫ is proportional to the string Young’s modulus. If ǫ is small, its first order effect is to increase the wave propagation speed with frequency: ¶ µ ǫω 2 c(ω) = c0 1 + 2 , 2c0
(7.17)
where c0 is now the wave travel velocity in the absence of dispersion. Equation (7.17) states that a traveling wave is no longer a rigid shape that translate at constant speed. Instead, frequencies “disperse” as they propagate with different velocities. As a consequence, the frequencies ωk of the allowed partials are not harmonic, instead they are stretched onto an inharmonic series according to the equation p ωk = kω0 Ik , where Ik ≈ 1 + Bk 2 ,
and where B = π 2 ǫ/L2 . The quantity Ik is usually termed index of inharmonicity. Dispersion is particularly important in piano strings, where the lower tones exhibit significant inharmonicity. Having a non-uniform wave velocity c(ω) implies that it is not possible to define a sampling step as Xs = c0 Ts . Instead, it can be said that a component with frequency ω travels a distance c0 Ts in the time interval c0 Ts /c(ω). As a consequence, the unitary delay z −1 has to be substituted with the all-pass filter Ha (z) = z −c0 /c(ω) , which has a unitary magnitude response but non-constant phase delay. Similarly to dissipative low-pass filters, m all-pass delays can be lumped in a single filter Ham . Moreover, the linear and non-linear parts of the phase response can be treated separately. Ham can thus be written as Ham (z) = z −m · HA (z), where HA (z) is another all-pass filter approximating the non-linear part of the phase response. In summary, a dispersive resonator is modeled as in Fig. 7.8(b).
7.3.4.3 Length tuning One last improvement to the basic waveguide structure of Fig. 7.7 is provided by fractional delay lines. It is easily verified that with a sampling rate Fs = 44.1 kHz and with a wave velocity c = 347 m/s (sound velocity in air at 20 C◦ ), the resulting spatial step is Xs = 7.8 · 10−3 m. This distance produces perceivable pitch variations in a wind instrument. It is therefore necessary to design fractional delays in order to provide fine tuning of the length of a waveguide section. Without going into details, this can be ideally achieved by including an additional filter in the structure, with flat magnitude response (that does not affect the overall magnitude response of the waveguide structure) and linear phase response (that adds the desired fractional delay). Both interpolation filters (FIR) and all-pass filters (IIR) can be used for approximating such characteristics.
7.3.5 Junctions and networks The last section has introduced the main concepts of waveguide modeling for a signal propagating in a uniform medium. When discontinuities are encountered, the wave impedance changes and signal scattering occurs, i.e. a traveling wave is partially reflected and partially transmitted. Examples of non-uniform media are a cylindrical bore where the cross-sectional area changes abruptly, or a string where the value of the linear mass density jumps changes discontinuously. In order to model these discontinuities, appropriate junctions have to be developed, that connect two (or more) waveguide sections. The boundary reflection conditions that we have examined at the end of section 7.3.3 can be regarded as special cases of junctions, as discussed in the following paragraphs.
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.16
p+(n) z-m
gm
p (0,n)
p (m,n)
z-m p- (n)
gm
(a)
p+(n)
HA
z-m
p (m,n)
p (0,n)
HA
z-m
p- (n)
(b)
Figure 7.8: Waveguide simulation of non-ideal media; (a) frequency independent dissipation; (b) dispersion.
7.3.5.1 The Kelly-Lochbaum junction −1 Consider two cylindrical bores, with cross-sectional areas S1,2 and wave admittances Γ1,2 = Z1,2 = S1,2 /ρair c, connected to each other. Analysis of this problem leads to the derivation of the well known Kelly-Lochbaum junction. First of all, physical constraints have to be imposed on the Kirchhoff variables p, u at the junction, namely pressures p1,2 must have the same value pJ and the flows u1,2 from the two sides must sum to zero:
u1 + u2 = 0,
p1 = p2 = pJ .
(7.18)
Using the Kirchhoff analogy p ↔ v (voltage) and u ↔ i (current), Eqs. (7.18) can be regarded as describing a parallel junction. If pressure wave variables are introduced as in Eq. (7.12) (with p+ and p− denoting incoming and outgoing waves, respectively), and the junction pressure pJ is used, then + the relation p− l = pJ − pl (for l = 1, 2) holds. Substitution in the first of Eqs. (7.18) yields − + − + − + − 0 = (u+ 1 + u1 ) + (u2 + u2 ) = Γ1 (p1 − p1 ) + Γ2 (p2 − p2 ) = + = Γ1 (2p+ 1 − pJ ) + Γ2 (2p2 − pJ ).
From this, the junction pressure pJ can be expressed in terms of the incoming pressure waves p+ 1,2 as pJ = 2
+ Γ1 p+ 1 + Γ2 p2 . Γ1 + Γ2
7.3. DISTRIBUTED MODELS: THE WAVEGUIDE APPROACH
7.17 -
p+
p2
1
1−ρ
ρ
−ρ 1+ρ
-
p1
+
p2
Figure 7.9: Kelly-Lochbaum junction for two cylindrical bores with different areas.
Using this latter expression, the outgoing pressure waves p− 1,2 can be written as p− = pJ − p+ 1 1 =−
2Γ2 Γ2 − Γ1 + p + p+ , Γ2 + Γ 1 1 Γ2 + Γ1 2 (7.19)
p− = 2
2Γ1 Γ2 − Γ1 + pJ − p+ p+ p . 2 = 1 + Γ2 + Γ1 Γ2 + Γ1 2
If the reflection coefficient ρ is defined as ρ :=
Γ2 − Γ1 , Γ2 + Γ 1
then Eqs. (7.19) become + p− = −ρ p+ 1 1 + (1 + ρ)p2 , − + + p2 = (1 − ρ)p1 + ρ p2 .
(7.20)
These equations describe the Kelly-Lochbaum junction. A scattering diagram is depicted in Fig. 7.9. This junction has been extensively used in what are often termed “multitube lossless models” of the vocal tract. These are basically articulatory models where the vocal tract shape is approximated as a series of concatenated cylindrical sections. Pressure wave propagation in each section is then described using digital waveguides, and interconnections are treated as Kelly-Lochbaum junctions. Remarkably, the same junction can be used to describe not only acoustic, but also mechanical structures. As an example, consider two strings with different densities, connected at one point: this can be thought of as a series junction, since the physical constraints impose that velocity (i.e., “current”) has to be the same on the left and right sides, and the sum of forces (i.e., “voltages”) from the two sides must be zero. Analogously to the above analysis, a series Kelly-Lochbaum junction can be derived in this case. Terminations of a waveguide model are an interesting particular case of junctions. Consider an ideal cylindrical bore, closed at one end: this boundary condition corresponds to an infinite impedance Z2 = ∞ (i.e., S2 = 0), and thus to a reflection coefficient ρ = −1. In other words, complete + reflection occurs and the relation p− 1 (0, t) = p1 (0, t) holds. Similarly, an ideally open end can be seen to correspond to Z2 = 0 (i.e., S2 = ∞), and thus to ρ = 1: this is a second case where complete + reflection occurs, namely the relation p− 1 (0, t) = −p1 (0, t) holds. These reflection conditions are
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.18
open
closed
z - m1
p+1
p- 2
z - m2
1
-1
ρ z - m1 L1
z - m2 p- 1
L2
p+2
Figure 7.10: Example of an acoustic model implemented with waveguide sections an junctions.
identical to the ones that we have derived in section 7.3.3 (analogous considerations hold for string terminations). Figure 7.10 shows an example where different junctions have been used and combined into a waveguide model. Note that in this example the scattering junction between the two cylindrical sections is not in the Kelly-Lochbaum form; instead, a one-multiply scattering junction is used, which allows more efficient implementation of Eqs. (7.20). Open- and closed-tube terminations are modeled according to the above remarks. M-7.6 Realize the structure of figure 7.10. Add loss factors g and a low-pass dissipation filter to each WG section, as done in M-7.5. Study the frequency response of this system.
7.3.5.2 N-dimensional junctions The result expressed in Eq. (7.20) can be easily extended to higher dimensions. Consider parallel junction of N acoustical bores. In this case a scattering matrix can be found, and Eq. (7.20) is generalized to p− = A · p+ , (7.21) where p± are n-dimensional vectors whose elements are the incoming and outgoing pressure waves in the n bores. The physical constraints expressed in Eq. (7.18) are also generalized in an obvious way, and calculations analogous to those outlined for the Kelly-Lochbaum junction lead to the result 2Γ 2ΓN 2Γ2 1 − 1, , · · · Γ ΓJ ΓJ J N X 2Γ1 2ΓN 2Γ2 , − 1, · · · Γl . where ΓJ = (7.22) A= ΓJ ΓJ ΓJ , .. .. .. l=1 . . . 2Γ1 ΓJ ,
2Γ2 ΓJ ,
···
2ΓN ΓJ
−1
Note that when N = 2 Eq. (7.21) reduces to the Kelly-Lochbaum equations. 7.3.5.3 Non-cylindrical geometries A final remark is concerned with junctions of conical elements. Generalizing the cylindrical case is not straightforward, since the derivation of Kelly-Lochbaum equations is based on the implicit assumption of plane wave propagation. This assumption permits imposition of the constraints (7.18)
7.4. LUMPED MODELS
7.19
Transition volume
S1
S2
S2
(a)
S1
(b)
Figure 7.11: Boundary regions for (a) non-convex and (b) convex conical junctions.
on a flat scattering boundary, which is a wavefront for both p1 and p2 . But wavefronts in conical sections are spherical and this circumstance makes it impossible to define a unique surface on which boundary conditions can be applied: Fig. 7.11(a) shows that there is a region between the two spherical wavefronts which is within neither conical segment. This ambiguity in the definition of the scattering boundary is usually overcome by assuming that the transition volume is small and thus pressure is constant inside the volume. Under this assumption, continuity conditions analogous to (7.18) are imposed and the reflection coefficient ρ is generalized to a first order filter R(s). However, a second and more serious problem arises when one looks at the nature of R(s). This filter turns out to be unstable (non-causal growing exponential) in the case of the convex configuration depicted in Fig. 7.11(b). While this circumstance is physically consistent (in the continuous-time domain the scattered waves can grow exponentially only for a limited time because they are cancelled out by subsequent multiple reflections), in a numerical simulation the system can turn out unstable, due to the approximations introduced by the discretization process and to round-off errors introduced by finite-precision.
7.4 Lumped models 7.4.1 Building blocks and analogies In a large class of systems it is possible to construct pairs of variables (hereafter defined as Kirchoff variables) with the property that their product has the dimensions of power (Kg m2 /s3 ). In electrical systems such a pair of variables is given by (v, i), voltage and current. Integro-differential relations can be found that relate these two variables, in particular three elementary relations define the fundamental quantities resistance R, inductance L and capacitance C. In the Laplace domain, the integro-differential equations are turned into simple algebraic relations: V (s) = R · I(s),
V (s) = sL · I(s),
V (s) =
1 I(s). sC
(7.23)
These are particular examples of a more general relation in linear electric circuits: V (s) = Z(s)I(s),
(7.24)
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.20
where the quantity Z(s) is called impedance of the circuit and is defined as the ratio between the Laplace transforms of voltage and current intensity. The inverse of Z(s) is called admittance, and it is usually denoted as Γ(s) = Z(s)−1 .
7.4.1.1 Mechanical systems An pair of variables analogous to voltage and current are found in mechanical systems: force f (Kg m/s2 ) and velocity v (m/s) satisfy the same condition of voltage and current, i.e. their product is a power. Therefore, f and v are taken as mechanical Kirchhoff variables. Again, the ratio of these two variables in the Laplace domain is defined as (mechanical) impedance, and its inverse is the (mechanical) admittance. Using three notable relations between f and v, it is possible to introduce mechanical equivalents of resistance, capacitance and inductance. The simplest relation is direct proportionality: f (t) = rv(t). This is used to define ideal linear viscous forces, and comparison with the first of Eqs. (7.23) permits r to be regarded as a mechanical resistance. Newton’s second law of classical dynamics provides a second relation: the inertial mass m of a non-relativistic body is defined as the ratio between the total force acting on it and its acceleration, i.e. f (t) = ma(t) = mv(t). ˙ In the Laplace domain this is turned into F (s) = msV (s), and from comparison with the second equation in (7.23) m is seen to be equivalent to an inductance. Finally, Hooke’s law provide an analogy to electrical capacitance: in an ideal R t linear spring the elastic force is proportional to the elongation of the spring: f (t) = kx(t) = k 0 v(τ )dτ . Again, in the Laplace domain this is turned into F (s) = k/s V (s), and comparison with the third of Eqs. (7.23) shows that the stiffness constant k of the spring corresponds to the reciprocal of a capacitance. Summarizing, the analogies between mechanical and electrical elements are as follows: F (s) = r · V (s),
k V (s), s ⇓
F (s) =
⇓ r ∼ R,
F (s) = ms · V (s), ⇓
1 ∼ C, k
(7.25)
m ∼ L.
Figure 7.12(a) shows the simplest example of a “series” junction between these mechanical elements: a mass attached to an ideal linear spring and driven by an external force. The system’s dynamics are described by the equation m¨ x(t) = −kx(t) + f (t),
⇒
F (s) =
µ
k ms + s
¶
V (s).
(7.26)
The second equation (7.26) shows that the aggregate impedance Z(s) of the system is the sum of the two elementary impedances Z1 (s) = ms and Z2 (s) = k/s. The above discussion is the starting point for developing one-port network theory for mechanical systems. The one port is defined as a black-box with a single pair of input/output terminals, as in Fig. 7.12(b). A force is applied at the terminals, analogously to an electrical potential, and velocity “flows” as electrical current. Instantaneous power and energy can be defined and used to characterize passive and lossless one-ports. Connections through ports can be made using Kirchhoff’s Laws, so that series and parallel junctions are defined analogously to circuit theory. In circuit theory terminology, the two one-ports in Fig. 7.12(b) share a common velocity, thus they are connected in series.
7.4. LUMPED MODELS
✂✁ ✂ ✂✁ ✂✂ ✂✁ ✁ ✂✂✁✂✂ ✂✁ ✂ ✂✁ ✂ ✂✂ ✁
7.21
F(s) +
Γ (s)=1/ms 1
-
m
f(t)
V(s) +
k
Γ (s)=s/k 2
-
O
x (a)
(b)
Figure 7.12: A mass pulled by a linear spring; (a) mechanical system and (b) combination of one-ports in series.
7.4.1.2 Acoustic systems Acoustic systems can also be described in terms of lumped elements only, in certain situations. In particular, when the dimensions of an acoustical element are much less than the sound wavelength, then the acoustical pressure, p can be assumed constant. In this case, the acoustic behavior of the element is, at least at low frequencies, very simple. Note that the acoustic pressure p (Kg/ms2 ) and the volume velocity u (m3 /s) are such that their product is a power, and can therefore be used as a pair of Kirchhoff variables. Resistive phenomena are observed during the passage of acoustic airflow through a small opening. In this case the flow behavior is dominated by viscous and thermal losses and it is reasonably assumed to be in phase with the acoustic pressure, therefore the relation p(t) = Ru(t) holds at the opening where the constant R is termed fluid-dynamic resistance. Fluid-dynamic inductance is defined in a short, open tube having cross-sectional area S and length L. The air mass inside the bore is then m = ρair SL (ρair being the air density). Suppose that an acoustic pressure p(t) is applied to one end of the tube; then the enclosed air behaves like a lumped mass driven by the force Sp, and Newton’s law implies ρair L Sp(t) = ρair SL · v(t), ˙ ⇔ P (s) = · sU (s), S where the relation u(t) = Sv(t) has been used, and v(t) indicates particle velocity. Finally, capacitance is associated with air volumes. Consider the volume V (t) of air inside a cavity; the contraction dV (t) caused by an acoustic pressure p(t) is such that −ρair c2 · dV /V = p, where ρair c2 is the bulk modulus of air at atmospheric pressure. As a consequence, a new air volume −dV can enter the cavity. By definition, this equals the integral of u(t) over time, therefore Z t V ρair c2 −dV (t) = u(t′ )dt′ = p(t), ⇔ P (s) = U (s). 2 ρair c Vs 0 Comparison of this relation with the last of Eqs. (7.23) is then straightforward: it is immediately seen that the quantity ρair c2 /V s is the acoustical equivalent of a capacitive impedance.
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.22
u
ρLs/S
R
S u, p
V, p
1
~
ρc 2/Vs
p
1
p
L (a)
(b)
Figure 7.13: A Helmholtz resonator driven by an external acoustic wave; (a) acoustic system and (b) circuit representation.
Electrical
Mechanical
Acoustical
Current i (A)
Velocity v (m/s)
Flow u (m3 /s)
Voltage v (V)
Force f (N)
Pressure p (Pa)
(Resistance) R (Capacitance) (Inductance)
1 sC
s L
(Damping) r ³
Kg·m2 s
´
(Spring)
k s
(Mass) m · s
(Opening) R ³
Kg s
´
(Cavity) (Bore)
ρair c2 Vs
³
Kg m4 · s
´
ρair Ls S
Table 7.1: Summary of analogies in electrical, mechanical and acoustical systems. Analogously to the mechanical case, simple acoustic systems can be described as combinations of these elementary impedances. Consider a Helmholtz resonator driven by an external sound wave, as in Fig. 7.13(a). Both the inductive impedance associated with the tube and the resistance associated with the opening impede the same flow u, and are therefore in series. This flow u enters the cavity, so that the capacitance associated with the volume is in series with the other two. The resulting acoustic circuit is depicted in Fig. 7.13(b). Table 7.1 summarizes the main analogies between electrical, mechanical, and acoustic systems, that we have discussed throughout this section. 7.4.1.3 Non-linearities As mentioned previously, musical oscillators are typically non-linear: non-linearities must be present for a system to reach stable self-sustained oscillations, as in the case of persistently excited instruments (e.g., winds and strings). Non-linear elements may also be present in other systems in order to account
7.4. LUMPED MODELS
7.23
−11
−10
1.6
x 10
x 10
non−linear linearized
25 1.4
20
1.2
15
q [C]
C [F]
1
0.8
10
0.6
5
0.4
0
0.2
−5
0
0
2
4
6
8
10
12
0
2
4
6
8
10
12
v [V]
v [V]
(a)
(b)
Figure 7.14: Non-linear behavior of (a) capacitance C(v) and (b) charge q(v) in the Chua-Felderhoff circuit.
for accurate modeling of interaction mechanisms. As an example, collisions between lumped masses are often described through a non-linear contact force. The previous section has outlined the formal analogies between linear mechanical and electrical systems. It is possible to extend the analogy to the non-linear case. Consider the well known ChuaFelderhoff electrical circuit: this is a RLC circuit, made of a series connection of a resistor R, an inductor L and a capacitor C. The elements R and L are constant, while this is not the case for C. More precisely, the characteristic of the capacitance is a function of the voltage v, so that the system is described as follows: 1 v(q) = 2v0 C0
µ
¶ q 2 2 2 q + q q + 4C0 v0 , 2
v(q) + Rq(t) ˙ + L¨ q (t) = ve (t),
⇔
C(v) = r
C0 v 1+ v0
, (7.27)
(v > v0 ).
The variable q(t) stands for the charge on the capacitor, and ve (t) is an applied voltage. It is easily verified that C(v) ∼ C0 when v → 0, i.e. the system is a linear RLC circuit in the limit of small oscillations. However, for larger voltage v this approximation does not hold, and C(v), q(v) behave as depicted in Fig. 7.14(a) and (b), respectively. Note that there is no easy way to translate the nonlinear relation (7.27) into the Laplace domain, because the definition of impedance given in Sec. 7.4.1 assumes linearity of the circuit elements. The Chua-Felderhoff circuit has been extensively studied and is one of the classical systems used for exemplifying transition to chaotic behavior: when the peak of the voltage generator is increased, the behavior of the charge q(t) on the capacitor undergoes successive bifurcations. The Chua-Felderhoff circuit finds some analogous counterparts in mechanical and acoustic systems. An example of non-linear elements is provided by an idealized contact model. In this model the
7.24
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
contact restoring force is a non-linear5 elastic force of the form
f (x(t)) =
kx(t)α ,
0,
x > 0,
(7.28)
x ≤ 0,
where x is the penetration and k is an elastic constant. This model has been used for describing the compression characteristics of a piano hammer felt. The exponent α depends on the local geometry around the contact surface and typically takes values higher than 1. If the hammer is regarded as a lumped mass m and linear dissipation r is taken into account, then the complete model is described by the equation of motion m¨ x(t) + rx(t) ˙ + kx(t)α = fext (t), (7.29) where fext is any external force acting on the hammer. This is formally identical to Eq. (7.27): the non-linear hammer is a series connection of a mechanical resistance r and inductance m with a nonlinear capacitance. One obvious structural difference with the Chua-Felderhoff circuit is given by the different shape of the non-linearities.
7.4.2 Modal synthesis 7.4.2.1 The second-order mechanical oscillator The simplest possible resonating mechanical system that we can obtain using the lumped elements described in the last section is a second-order linear oscillator of the form h i2 x ¨(r) (t) + g (r) x˙ (r) (t) + ω (r) x(r) (t) =
1 fext (t), m(r)
(7.30)
where x(r) is the oscillator displacement and fext represents any external driving force, while the parameters ω (r) = k/m(r) and g (r) = r/m(r) are the oscillator center frequency and damping coefficient, respectively. With the analogies introduced in section 7.4.1, one can think of Eq. (7.30) as a series connection of the impedances m, r, k. The resonating properties of such a one-dimensional model are summarized by its pitch ω (r) and quality factor q (r) = ω (r) /g (r) . The parameter g (r) relates to the decay properties of the impulse response of system (7.30): specifically, the relation te = 2/g (r) holds, where te is the 1/e decay time of the impulse response. M-7.7 Find the transfer function H(s) between the driving force Fext (s) (input) and the displacement X(s) (output) in equation (7.30). Study the frequency response and the impulse response.
If we want to produce more realistic and spectrally-rich sounds, a slightly more sophisticated model is obtained by parallel connection of N oscillators such as that of equation (7.30). By choosing (r) a different center frequency ωl (l = 1 . . . N ) for each oscillator, it is possible to account for a set (r) {ωl }N l=1 of partials of the resonator spectrum. A set of N decoupled modal resonators excited by 5
Note that the non-linear nature of Eq.(7.28) comes not only from the exponent α, but also from the conditional formulations for x > 0 and x > 0. In other words, f is non-linear even when α = 1.
7.4. LUMPED MODELS
7.25
the same external force can be described by means of a multivariable generalization of Eq. (7.30). In matrix form, this can be written as (r) (r) (r) x1 (t) x˙ 1 (t) x ¨1 (t) £ (r) ¤2 .. .. .. (7.31) = m(r) fext (t), + Ω + G(r) . . . (r) (r) (r) xN (t) x˙ N (t) x ¨N (t) where the matrices are given by
Ω(r) =
(r)
ω1
0
0 ..
. (r)
ωN
,
G(r) =
(r)
g1
0
0 ..
. (r)
gN
(r)
1/m1 .. ( r ) m = .
,
(r)
1/mN
. (7.32)
7.4.2.2 The modal description When a distributed resonating object is modeled as a chain of N masses connected with springs and dampers, the resulting system is composed of N coupled equations. However, the theory of modal analysis shows that it is generally possible find a transformation matrix T = {tjl }N j,l=1 which diagonalizes the system and turns it into a set of decoupled equations. The transformed variables (r) {xl }N l=1 are generally referred to as modal displacements. The displacement xj and velocity vj of the resonating object at a given point j = 1 . . . N are then given by xj =
N X l=1
(r)
tjl xl
and
x˙ j =
N X
(r)
tjl x˙ l
(7.33)
l=1
The modal description given by Eqs. (7.31), (7.33) provides a high degree of controllability. The (r) damping coefficients gl control the decay times of each exponentially-decaying mode of the res(r) onator. The frequencies ωl can be chosen to reproduce spectra corresponding to various geometries of one-, two- and three-dimensional resonators. As an example, the first N resonances of a cavity can be mapped into the modal frequencies of the N oscillators, and morphing between different shapes can be obtained by designing appropriate trajectories for each of these resonances. (r) In this context the quantities ml are often referred to as modal masses, while the quantities (r) 1/ml are referred to as modal weights. Note that by allowing the modal masses to vary for each oscillator, the matrix m(r) can be generalized to give control on the amounts of energy provided to each oscillator. This permits simulation of position-dependent interaction, in that different interaction points excite the resonator modes in different ways. Figure 7.15 shows a membrane which is displaced from its rest position in such a way that only one single mode is set into vibration. The distance of each point of the membrane from the “rest plane” is proportional to the weighting factor 1/m(r) of the mode at this position. Note that the intersections of the mode–shape with the rest plane (i.e., the nodal lines) remain fixed during the entire cycle of the modal vibration. Therefore, the modal weights at these positions are 0 (equivalently, the modal masses tend to infinity). Correspondingly, an external force applied at these node lines does not excite the (r) mode at all. In order for the resonator model (7.31) to account for such a situation, the weights 1/ml must be made position-dependent. In other words, the (N × 1) matrix m(r) must be generalized by defining a (N × N ) matrix M (r) , whose element (l, j) is the modal weight of mode l at interaction point j.
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.26
(1,1)
(1,2)
(a)
(b)
Figure 7.15: A circular membrane displaced from its rest position according to the spatial shape of mode(1,1) (left) and mode(1,2) (right). In the case of a system of N point masses with linear interaction forces, modal parameters are exactly found through standard matrix calculations. Most systems of interest of course do not fit these assumptions. In some cases the differential equations of distributed systems can be solved analytically, giving the modal parameters; this holds for several symmetrical problems as circular or rectangular membranes. Alternatively, either accurate numerical simulations (e.g. wave-guide mesh methods) or “real” physical measurements can be used. Impulse responses computed (or recorded) at various interaction points then form a basis for the extraction of modal parameters. The acoustic “robustness” of the modal description allows convincing approximations on the basis of microphonerecorded signals of e.g. an object struck at different points, despite all the involved inaccuracies: spatially distributed interaction, as well as wave distribution through air, provide signals that are quite far from impulse/frequency responses at single points.
7.4.3 Numerical methods Unlike waveguide structures, the lumped models described so far are developed in the continuous-time domain, and are in general described through sets of ODEs. In order to be implemented as numerical algorithms for sound synthesis, the differential equations have to be discretized in an efficient and effective manner. In most cases, a trade-off has to be found between accuracy of the discretization technique and efficiency of the resulting algorithms. 7.4.3.1 Impulse invariant method When dealing with linear systems, such as the lumped elements of Sec. 7.4.1, the most elementary numerical technique is sampling. Given the admittance Γ(s) of a linear system (in a mechanical lumped system, this corresponds to defining the input as the driving force and the output as the resulting velocity), its inverse Laplace transform γ(t) is the continuous-time impulse response. The linear system
7.4. LUMPED MODELS
7.27
can thus be digitized by defining the discrete response as γd (n) := Ts γ(nTs ), i.e. by sampling γ(t). This technique is widely used in the context of digital filter design, and it is usually termed the Impulse Invariant Method. One quality of the method is that stability is guaranteed at any sampling rate: if pc is a pole of the continuous-time response, the corresponding pole of the discrete-time response is given by pd = epc Ts . This implies that if Re(pc ) < 0, then |pd | < 1, i.e. the discrete-time pole lies inside the unit circle. On the other hand, a drawback of the method is aliasing. It is known that the discrete-time response Γd is obtained as a periodization of the continuous one: jω
Γd (e ) =
+∞ X
k=−∞
Γ
µ
2kπ jω +j Ts Ts
¶
.
(7.34)
As a consequence, any Γ whose bandwidth is wider than Fs /2 introduces spurious components in Γd . 7.4.3.2 Mappings “s-to-z” An approach alternative to sampling amounts to replacing time derivatives with finite differences, thus turning the differential equations directly into difference equations. Since in the Laplace domain the derivation operator is turned to a multiplication by s, and since in the Z domain the unit delay is turned into a multiplication by z −1 , approximating derivatives with finite differences corresponds in the frequency domain to finding appropriate s-to-z mappings. Let s = g(z) be such a mapping, then the discrete-time response is found as Γd (z) = Γ (g(z)). The simplest possible mapping is obtained by replacing the derivative with an incremental ratio. Let x(t) be a smooth function of time, then x(tn ) − x(tn − h) x(tn ) − x(tn−1 ) d := δt x(n), x(tn ) := lim ≈ h→0+ dt h Ts 1 − z −1 ⇒ s≈ := g1 (z). Ts
(7.35)
where tn = nTs . The mapping g1 (z) is known in numerical analysis as the backward Euler method. The adjective “backward” is used because the first derivative of x at time n is estimated through the values of x at time n and n − 1. Note that the method is implicit, since it turns a generic first-order differential equation x(t) ˙ = f (x(t), t) into a difference equation of the form x(n) = fd (x(n), x(n − 1), n), in which x(n) depends implicitly on itself through fd . Higher-order derivatives can be estimated through iterate application of Eq. (7.35). The second derivative is computed as d2 x(tn ) − 2x(tn−1 ) + x(tn−2 ) 1 (7.36) [δt x(n) − δt x(n − 1)] = x(tn ) ≈ . 2 dt Ts Ts2 M-7.8 Take the mechanical oscillator (7.30) and discretize it with the Euler method g1 (z). Study the frequency response and the impulse response, compare them with those found in M-7.7.
A centered estimate is also often used in combination with the backward Euler method. In this case the second derivative is computed as: x(tn+1 ) − 2x(tn ) + x(tn−1 ) d2 x(tn ) ≈ . 2 dt Ts2
(7.37)
7.28
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
One can verify that using this estimate on a second-order ODE leads to an explicit difference equation. A second, widely used s-to-z mapping is provided by the bilinear transform. Like the backward Euler method, it can be seen as a finite approximation of the time derivative, but in this case the incremental ratio is assumed to approximate the mean value of x˙ at time instants tn and tn−1 : x(tn ) − x(tn−1 ) x(t ˙ n ) + x(t ˙ n−1 ) ≈ , Ts 2 1 − z −1 := g2 (z). ⇒ s ≈ 2Fs 1 + z −1
(7.38)
The mapping g2 (z) is known in numerical analysis as the one-step Adams-Moulton method. Like the backward Euler method, it is implicit. M-7.9 Take the mechanical oscillator (7.30) and discretize it with the bilinear transform g2 (z). Study the frequency response and the impulse response, compare them with those found in M-7.7 and M-7.8.
7.4.3.3 Accuracy, stability A comparison between the first estimate in Eq. (7.38) and the first in Eq. (7.35), gives the intuition that the bilinear transform provides a more accurate approximation than the Euler method. A rigorous analysis would show that the order of accuracy of the bilinear transform is two, while that of the backward Euler method is one. Another way of comparing the two techniques consists in studying how the frequency axis s = jω and the left-half plane Im(s) < 0 are mapped by g1,2 into the discrete domain. This gives information on the stability and accuracy properties of g1,2 . Figure 7.16 provides an illustration, from which two remarks can be made. First, both the methods define one-to-one mappings from s = jω, onto the two circles plotted in Fig. 7.16 (solid lines): therefore no frequency aliasing is introduced. Second, both the methods are stable, since the left-half s-plane is mapped inside the unit circle by both g1 and g2 . However we also see that both the mappings introduce frequency warping, i.e. the frequency axis is distorted. One can verify that the bilinear transform g2 maps the s = jω axis exactly onto the unit circle z = ejωd , and the direct mapping ωd = 2 · arctan(ω) can be defined between the continuous frequencies ω and the discrete frequencies ωd . At low frequencies, ωd increases almost linearly with ω, while higher frequencies are progressively compressed (warped) and the Nyquist frequency πFs is mapped to the point z = −1. Warping is the main drawback of the bilinear transform. The Euler method maps the s = jω axis onto the circle of radius 1/2 centered at z = 1/2. Therefore no direct mapping is found from ω to ωd . The function g1 can be said to “doubly” warp the frequency axis: there is a progressive warping in the direction of increasing frequency (similarly to the bilinear transform), but there is also warping normal to the frequency axis. As far as stability is concerned, Fig. 7.16 shows that the poles of the discrete-time system obtained with g1 are more “squeezed” inside the unit circle than the ones obtained with g2 . Furthermore, it can happen that continuous-time poles with positive real-part are turned by g1 into discrete-time poles with modulus less than unity: in other words g1 can turn unstable continuous systems into stable discrete systems. This numerical damping is a second major drawback of the Euler method. An example of such a damping property of the Euler method is provided in Sec. 7.5 (see in particular figure 7.21).
7.4. LUMPED MODELS
7.29
bilinear transform Euler method
1
Im(z)
0.5 ω=0
0
−0.5
−1
−1
−0.5
0 Re(z)
0.5
1
Figure 7.16: Images of the vertical axis s = jω (solid lines) and of the left-half s-plane (gray regions) using the backward Euler method g1 and the bilinear transform g2 .
7.4.3.4 Wave digital filters The bilinear transform finds application in Wave Digital Filters (WDF) theory. These structures are the digital equivalent of the lumped circuits described in Sec. 7.4. Wave digital filters are constructed in two steps. The first step amounts to converting the continuous-time lumped circuits in wave variables. In this context, the definition of wave variables is identical to that used for waveguides models (see Eq. (7.12) in Sec. 7.3), namely: f+ =
f + Z0 v , 2
f− =
f − Z0 v , 2
(7.39)
where the mechanical Kirchhoff variables force f and velocity v have been used for clarity. The only and fundamental difference with Eq. (7.12) is that in this context Z0 is a reference impedance that can be given any value and has no direct physical interpretation. The variables f ± themselves do not have a clear physical interpretation since in a lumped model they cannot be easily interpreted as traveling waves. Therefore in this context the Eqs. (7.39) have to be regarded as a mere change of coordinates. Consider one of the elementary lumped elements analyzed in Sec. 7.4 and its associated impedance Z(s). Then the new continuous-time variables f ± are related to each other through a reflectance R(s): F (s) = Z(s)V (s),
⇒
F − (s) = R(s)F + (s),
with
R(s) :=
Z(s) − Z0 . Z(s) + Z0
(7.40)
The second step in WDF design is the discretization of R(s). The equivalent wave digital filter Rd (z) is then obtained using the bilinear transform: Rd (z) = R(g2 (z)). Note that since the reference impedance Z0 can be given any value, this provides an additional degree of freedom for the design of Rd . In particular, Z0 can be chosen such that Rd has no delay-free paths from input to output. This is an essential requirement for guaranteeing computability when connecting more than one element. A
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.30
u2
w
u2
w
a
y
b
~ x
y
a
u1
b/(1-ab)
u1
x
(a)
(b)
Figure 7.17: A linear system; (a) delay-free path, (b) equivalent realization with no delay-free paths.
simple example will help clarify this concept: consider a mass mass m and its associated impedance Z(s) = ms, as found in Sec. 7.4. Then, from Eq. (7.40) the corresponding reflectance is R(s) = (ms − Z0 )/(ms + Z0 ). Choosing Z0 = 2Fs m leads to the interesting result R(s) =
s − 2Fs , s + 2Fs
⇒
Rd (z) = −z −1 ,
(7.41)
so that no delay-free path is present in the wave digital filter Rd . This simple example gives us the intuition that lumped elements can be described using wave digital filters, and connected to each other by adapting impedances in order to avoid the occurrence of delay-free computational loops.
7.4.4 Computability issues The discussion of wave digital filters in the last section has addressed the problem of non-computable loops in that particular context: wave variables rather than Kirchhoff variables are used to describe the components of the equivalent circuit, every component is treated as a scattering element with a reference impedance, and different components are connected to create the complete computational structure. Wave methods can be said to be local, since non-computable paths are avoided by adapting the reference impedances of each element. However, more severe computability problems can arise when simulating dynamic exciters, since the linear equations used to describe the system dynamics are tightly coupled with some non-linear map. 7.4.4.1 The delay-free loop problem Let us start with a trivial example in order to focus the problem that we want to deal with. Consider the system depicted in Fig. 7.17(a). It is easily verified that the discrete-time system can be written as w(n) = w(n) ˜ + y(n), with w ˜ = u2 , x(n) = x ˜(n) + ay(n), with x ˜ = u1 + au2 , (7.42) y(n) = b[u1 (n) + au2 (n) + ay(n)]. y(n) = f (x(n)) = bx(n), ⇒
7.4. LUMPED MODELS
Exciting actions
u2
7.31 y
NL
to resonator
Exciting actions
EXCITER
RESONATOR
Non-linear Dynamic System
Linear Dynamic System
Out
w Modulating actions
from
L
u1 resonator
Figure 7.18: Typical structure of a non-linear exciter.
where we have defined tilded variables w ˜ and x ˜ than only depend on the external inputs u1,2 , and are therefore known at each time n. The function f is a linear map (scaling by a constant b). Note that a delay-free computational loop connects y to x, in particular the last of Eqs. (7.42) shows that y depends implicitly on itself. It is easy, however, to rearrange the computation in order to solve this problem: the last of Eqs. (7.42) can be inverted, yielding
y(n) = f (x(n)),
7−→
y(n) = h(˜ x(n)) =
b [u1 (n) + au2 (n)]. 1 − ab
(7.43)
The new map h relates y to the computable vector x ˜. Therefore, an equivalent realization of the system is obtained as shown in Fig. 7.17(b). The key point in this example is that f is linear, which allows explicit inversion of the last equation in (7.42). This simple example is an instance of the so-called delay-free loop problem. In the linear case the literature of digital signal processing provides techniques for the restoring computability by rearrangement of the structure. However we are here interested in the non-linear case, since non-linear elements are almost always present in physical models. In section 7.2.1 we have stated that non-linear elements are typically associated to excitation mechanisms. Figure 7.18 depicts a typical structure which is found when “zooming” inside the excitation block of a musical instrument (cfr. Fig. 7.1). The elements denoted by L and NL represent a linear and a non-linear block, respectively. More precisely, L contains a linear filter that accounts for the system dynamics in terms of lumped elements, while NL contains a non-linear multiple-input, multiple-output (MIMO) map f (·). Both of these blocks take exciting actions u2 and the resonator variables u1 as inputs, and they are connected to each other in a feedback loop. This representation does not seem to be restrictive for acoustic models. Without any loss in generality, we assume in the following that the non-linear map f depends on a linear combination x of its inputs (w, u1 , u2 ). Thus, the continuous-time system of Fig. 7.18 is
7.32
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
described through the equations w(t) ˙ = Aw(t) + Bu(t) + Cy(t), x(t) = Dw(t) + Eu(t) + F y(t), y(t) = f (x(t)) ,
(7.44)
where the vector u = [u1 , u2 ]T collects all the external inputs to the exciter. When equations (7.44) are discretized using a linear numerical method (e.g. those described in the previous section), the discrete-time system takes the form ˜ w(n) = w(n) ˜ + Cy(n), x(n) = x ˜(n) + Ky(n), (7.45) x(n) + Ky(n)) , y(n) = f (x(n)) = f (˜
where the vectors w ˜ and x ˜ are computable vectors, i.e. they are linear combinations of u and past values of w and y. Note that this system generalizes the linear example (7.42). Equations (7.45) show that if K is non null, there is a delay-free path connecting y to x with ˜ K “weighing” this path. Note that explicit expressions for the vectors w, ˜ x ˜ and the matrices C, K depend on what discretization method is used, but the overall system structure (7.45) remains the same. In particular, the matrix K is always non null when an implicit linear method is used. 7.4.4.2 Approaches
It should be clear that in the non-linear case one cannot perform a rearrangement such as in (7.42), because the last equation in (7.45) is in general not analytically invertible. The question is then how to deal with the delay-free loop problem in the non-linear case. • One can use an explicit numerical method, that produces a system of difference equations (7.45) ˜ and K are null. This choice solves the computational problem but can introduce in which C more severe artifacts in the numerical system: explicit methods have lower orders of accuracy with respect to implicit methods, and more importantly are not unconditionally stable, i.e. are not stable for any sampling frequency Fs and for any values of the system parameters. A sound synthesis algorithms that explodes can be very unpleasant. M-7.10 Take the mechanical oscillator (7.30) and discretize it with the Euler method g1 (z) in conjunction with the centered estimate (7.37). Verify that the difference equation is explicit, study the frequency response and the impulse response, compare them with those found in M-7.7, M-7.8, and M-7.9. Study the poles of the digital system and veify that it can become unstable.
• A rudimentary solution, that is nonetheless often met in the literature of physical modeling, amounts to inserting a fictitious delay element in the feedback loop, or in other words to assume
7.5. A FULL EXAMPLE: THE CLARINET
7.33
that on the right-hand side of the last equation in (7.45) the approximation y(n) ≈ y(n − 1) holds. In practice this is a variant of the previous approach: instead of using an explicit method from the beginning, one makes the computation explicit a posteriori, throug the insertion of a z −1 element. While this “trick” can be acceptable at significantly high sampling rates, the insertion of such a delay element can again deteriorate the accuracy and stability properties of the numerical system. Even worse, in this case one cannot determine analytically the stability range of the system. • Numerical analysis provides a plethora of iterative methods to find solutions of non-linear systems of algebraic equations: examples of such methods include fixed-point iteration and Newton iteration, and each of them requires specific hypothesis on the non-linear system to hold. These methods can be exploited for our problem: at each time n one knows x ˜(n) and can estimate y(n) by finding a zero of g x˜ (y) = f (˜ x + Ky) − y. In other words, at each time n one can estimate numerically a (non-linear) function y = h(˜ x). If we go back and look at equation (7.43) we see what we are doing here: since we cannot invert f analytically and find h globally (as we did in the linear case) we estimate it locally, around a given value x ˜(n). Using an iterative solver is advantageous over the previous approaches in that we can exploit the accuracy and stability properties of an implicit method without introducing additional numerical errors in the system. One major drawback, however, is that one does not know in advance the number of iterations that are needed for the solver to converge to the solution y(n): this can be a problem for real-time applications, where one wants to know the time needed to compute one sound sample. • Predictor-corrector methods are a class of numerical schemes that are well suited for solving non-linear implicit difference equations. The basic idea is rather simple to understand: if the starting point of the search is close enough to the solution, fixed-point iteration (or any other iterative solver) will converge quickly. Predictor-corrector schemes then use an explicit numerical method (the predictor) to provide an initial guess of the new value; the true new value is found using an implicit method (the corrector) and an iterative solver (typically fixed-point iteration). Numerical analysis shows that normally a very low number of iterations provide acceptable accuracy. These schemes are therefore a valid alternative to the previous approach, especially because the number of iterations (usually 1 or 2) of the corrector are set in advance. Note however that predictor-corrector schemes have been very rarely used in the literature of physical modeling.
7.5 A full example: the clarinet In this last section we apply the modeling approaches discussed so far to a concrete example of musical instrument. There is a number of reasons for choosing the clarinet: it is a widely studied instrument in the literature of musical acoustics, and much is known of its functioning; it provides a paradigmatic example of self-sustained oscillations initiated by a non-linear persistent excitation mechanism; last but not least, it can be modeled with relatively simple structures. All in all, the clarinet constitues an ideal candidate for exemplifying the construction of a non-trivial physical model of a musical instrument. Table 7.2 summarizes the main variables and parameters used throughout this section. The instrument can be decomposed according to the general scheme summarized in figure 7.1. The exciter is represented by the reed-mouthpiece system, that acts as a non-linear pressure-controlled valve, and
7.34
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES quantity Reed tip displ. Tip rest position Max. tip displacement Reed tip opening Reed mass/area Effective reed area Reed resonance freq. Reed damping Mouth pressure Mouthpiece pressure Pressure drop Mouthpiece flow Flow through the slit Sound speed in air Air density Bore cross section Bore wave impedance Bore length Press. wave from the bore Press. wave to the bore
symbol yL (t) y0 ym h(t) = ym − yL (t) µ Sd ω0 g pm p(t) ∆p(t) = pm − p(t) u(t) uf c = 347 ρair = 1.14 S Z0 = ρair c/S Lbore p− (t) p+ (t)
unit m m m m Kg/m2 m2 rad/s 3000 s−1 Pa Pa Pa m3 /s m3 /s m/s Kg/m3 m2 Kg/m4 s m Pa Pa
Table 7.2: Symbols used throughout the section. determines the drop ∆p between the pressure pm inside the player’s mouth and the pressure p inside the mouthpiece. The resonator coincides with the acoustical bore, and can be subdivided into sub-blocks, such as bell and holes.
7.5.1 Functional blocks 7.5.1.1 Resonator: the bore As a first approximation, the clarinet bore can be assumed to be cylindrical. Therefore the most basic model for the bore can be obtained using a single waveguide section, that simulates plane wave propagation, and a perfect reflection at the open end (bell). According to this oversimplified model, the pressure wave p− entering the mouthpiece from the bore is given by p− (n) = −p+ (n − 2mbore )
⇔
P − (z) = −z −2mbore P + (z).
(7.46)
The number 2mbore of unit delays for the waveguide is related to the bore length Lbore and to the sampling frequency Fs through the equation Lbore = c · mbore /Fs . A slightly more accurate model is obtained by taking into account the radiating properties of the bell. The bell itself can be seen as a low-pass filter, that reflects low frequencies back inside the bore, and radiates frequencies above its cutoff. Typical values for the cutoff frequency are around 1500 Hz. Let Rd (z) be the transfer function of such a low-pass filter: then the pressure wave p− that enters the mouthpiece from the bore is given by p− (n) = −(rd ∗ p+ )(n − 2mbore )
⇔
P − (z) = −z −2mbore Rd (z)P + (z).
(7.47)
7.5. A FULL EXAMPLE: THE CLARINET
7.35
y
L
u
.
uf
ym
to bore
Sr y
L
Reed lip h x
L
Figure 7.19: Schematized representation of the reed-mouthpiece system. The portion that is radiated from the bell is instead given by pout (n) = p+ (n−mbore )+(rd ∗p+ )(n−mbore )
⇔
Pout (z) = z −mbore [1+Rd (z)]P + (z). (7.48)
M-7.11 Construct the WG bore model according to equation (7.47), as a function that takes a pressure wave p+ (n) from the mouthpiece and returns a pressure wave p− (n) back to the mouthpiece.
Further refinements to this model should include losses, that can be incorporated in the model according to the techniques described in section 7.3. Fractional-delay filters should also be incorporated in the model in order to allow for fine tuning of the bore length Lbore (note that so far we have assumed that Lbore F s/c = mbore with mbore integer, which clearly implies a crude quantization of Lbore ). Finally, holes can be incorporated into the model through scattering filters connected through 3-port junctions to the main waveguide structure. 7.5.1.2 Excitation: the reed We turn now to the exciter block, which corresponds to the reed-mouthpiece system and is schematically represented in figure 7.19. The reed dimensions are small with respect to typical wavelengths in the resonator, thus pressure can be thought of as constant along the reed internal surface; under normal playing conditions, the first mode of the reed-mouthpiece-lip system is well above the main frequency component of the pressure signal that drives it; oscillations occur mainly in the vertical direction, and as a first approximation a single degree of freedom (i.e. the reed tip vertical displacement yL ) can be assumed. These considerations justify the choice of a lumped modeling approach for the reed. Many authors have approximated the reed as a lumped second-order mechanical oscillator, driven by the pressure drop ∆p between mouth and mouthpiece: m¨ yL (t) + ry˙ L (t) + k[yL (t) − y0 ] = Sd ∆p(t),
(7.49)
7.36
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
where m, r, k are the reed mass, damping, and spring constant, respectively. The parameter Sd is an effective driving surface on which the pressure ∆p acts. In the Laplace domain, Eq. (7.49) can be rewritten as 1 1 . (7.50) YL (s) − y0 = Hr (s)∆P (s), with Hr (s) = 2 µ s + gs + ω02 Therefore, Hr is the transfer function between ∆p and the reed relative displacement. The parameter p µ = m/Sd is the effective mass/area ratio, g = r/m is the damping coefficient and ω0 = k/m is the resonance of the oscillator. The phenomenon of reed beating (i.e. complete closure of the reed) is usually incorporated in the lumped model in a non-physical way, by imposing a “stop” when the reed tip reaches its maximum allowed displacement ym . Equation (7.49) is thus turned into m¨ yL (t) + ry˙ L (t) + k(yL (t) − y0 ) = Sd ∆p(t), for yL < ym , (7.51) yL (t) = ym and y˙ L (t) = 0, for yL ≥ ym . Once the mechanical part has been modeled, the relation between the reed opening and the airflow through the slit uf has to be found. As a first approximation, the pressure drop ∆p can be assumed to obey the equation |uf (t)|α , (7.52) ∆p(t) = f (uf (t), h(t)) = A−α sgn[uf (t)] h(t)2
which is derived from the Bernoulli law.6 Equations (7.51) and (7.52) relate quantities at the reed slit. A third equation relates the flow uf at the slit to the total flow u inside the instrument: ½ uf (t) = Z10 (p+ (t) − p− (t)), (7.53) u(t) = uf (t) + ur (t), with ur (t) = Sr y˙ L (t). This equation states that the total flow inside the instrument is affected by an additional component ur (t), induced by the reed motion and proportional to the reed tip velocity. The quantity Sr is the effective flow surface of the reed, and is not necessarily equal to Sd .
7.5.2 The quasi-static approximation In a single reed instrument the fundamental regime of oscillation is governed by the first resonance frequency of the pipe, and typical values for the reed mechanical resonance ω0 are well above this pipe resonance and the frequency band of p(t). It is therefore reasonable to assume a quasi-static approximation for the reed response, in which the exact relation (YL (s) − y0 ) = Hr (s)∆P (s) is substituted by the simpler (YL (s) − y0 ) = Hr (0)∆P (s) :=
1 ∆P (s) Ka
(7.54)
Since Hr (0) is a scalar rather than a filter, equation (7.54) assumes that the reed motion is in phase and proportional to the pressure drop. The quantity Ka is usually termed reed stiffness per unit area. One can easily verify from equation (7.50) that Ka = muω0 . 6 The Bernoulli law, which holds for incompressible non-viscous fluids and in stationary conditions, states that the relation uf = A · x · ∆p1/2 sgn(∆p) holds through an aperture of width x. Some authors adopt for the single reed the generalized equation uf = [A · x∆p1/2 sgn(∆p)]1/α , with an experimentally determined value α = 3/2.
7.5. A FULL EXAMPLE: THE CLARINET
7.37
−4
3
x 10
2000 1500
2.5
1000
2
p [Pa]
uf [m3/s]
500 0
+
1.5
−500
1
−1000
0.5 −1500
0
0
1000
2000
3000
∆ p [Pa]
4000
5000
6000
−2000 −2000
−1500
−1000
−500
0
500
1000
1500
2000
p− [Pa]
(a)
(b)
Figure 7.20: Quasi-static approximation of a single reed; (a) uf versus ∆p and (b) rotated mapping p+ = Rnl (p− ).
Using Eq. (7.54), the reed opening h is computed as h(t) = ym − y0 −
∆p(t) ∆p(t) = h0 − , Ka Ka
where h0 = ym − y0 is the rest opening of the reed tip. Substituting this relation into equation (7.52) one finds µ ¶2/α A · sgn[∆p(t)] · |∆p|1/α h − ∆p(t) for ∆p < h0 Ka , 0 (7.55) uf (t) = Ka 0, for ∆p ≥ h0 Ka .
Equation (7.55) provides a relation between uf and ∆p in which the reed dynamics has been removed. Figure 7.20(a) shows the plot of this relation. For low ∆p values, uf increases until a maximum at ∆p = h0 Ka /3. Then the flow starts to drop due to reed closure, and reaches the value uf = 0 at ∆p = h0 Ka . Beyond this value the reed is completely closed. The non-linear map (7.55 can be used to construct a quasi-static reed model. If wave variables p± are introduced, the non-linearity can be turned in a new one in which p+ depends on p− through a non-linear reflection function Rnl , i.e. p+ = Rnl (p− ). This is depicted in Fig. 7.20(b). M-7.12 Construct the quasi-static reed model according to equation (7.55), as a function that takes a pressure wave p− (n) from the bore and returns a pressure wave p+ (n) back to the bore.
Despite its simplicity, the quasi-static model is able to capture the basic non-linear mechanisms of self-sustained oscillations in a single reed instrument. Due to its compactness and low number of parameters, this model has been also used for sound synthesis purposes.
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.38 M-7.13
Implement the complete quasi-static clarinet model: using the functions developed in M-7.11 and M7.12, write an audio cycle in which the system is initialized with a certain mouth pressure pm and evolves freely. Plot the signal and its spectrogram.
7.5.3 The dynamic reed model In order to obtain more realistic behavior from the clarinet model we want now to use the dynamic lumped reed formulation described in section 7.5.1. The continuous-time system described by equations (7.51, 7.52, 7.53) can be restated in vector formulation as ˙ w(t) = Aw(t) + Bu(t) + C∆p(t),
(7.56)
x(t) = Dw(t) + Eu(t) + F ∆p(t),
∆p(t) = f (x(t)) ,
where the variables are given by w=
·
h h˙
¸
,
h0 u = pm , p−
x=
·
uf h
¸
,
where w is the state vector of the reed, u collects the incoming pressure wave p− and external control parameters such as mouth pressure pm and the rest opening h0 . The matrices are ¸ ¸ · ¸ · · 0 0 0 0 0 1 , , C= , B= A= −1/µ ω02 0 0 −ω02 −g D=
·
0 −Sr 1 0
¸
,
E=
·
0 1/Z0 −2/Z0 0 0 0
¸
,
F =
·
−1/Z0 0
¸
.
The beating condition in Eq. (7.51) is rewritten as w = 0,
for
h ≤ 0.
Note that system (7.56) is formally identical to the general structure (7.44) that we have studied in section 7.4.4. Its first equation can be discretized with one of the techniques described in section 7.4.3. We choose here the bilinear transform, and the discrete-time system is obtained through applications of the transforms Laplace → Bilinear → Z −1 , where Z −1 is the inverse Z transform: s · W (s) = AW (s) + BU (s) + C∆P (s)
s=h
1 − z −1 , 1 + z −1
h = 2Fs
w(n) = [hI − A]−1 {[hI + A]w(n − 1) + B[u(n) + u(n − 1)] + C[∆p(n) + ∆p(n − 1)]} ¯ = w(n) ˜ + C∆p(n). (7.57) Here the vector w(n) ˜ is a linear combination of all the terms that are computable at time n (namely ¯ weights the dependence of w on ∆p(n). u(n) and past values of w, u and ∆p) while the vector C
7.5. A FULL EXAMPLE: THE CLARINET
7.39
M-7.14 Construct the dynamic reed model according to equation (7.57), as a functions that takes a pressure wave p− (n) from the bore and returns the computable state vector w(n). ˜
The second equation in system (7.56) can thus be written as ¯ + F) K = (D C x ˜(n) = Eu(n) + D[hI − A]−1 {(hI + A)w(n − 1) x(n) = x ˜(n) + K∆p(n), with +B[u(n) + u(n − 1)] + C∆p(n − 1)}, (7.58) ¯ where K = (D C + F ) weights the delay-free loop connecting ∆p to x, while the vector x ˜(n) has no instantaneous dependence on ∆p(n) and is therefore computable at each step. The discrete-time non-linear relation is
∆p(n) = f (˜ x(n) + K∆p(n)) ,
(7.59)
Note that equations (7.57, 7.58, 7.59) are formally identical to the general structure (7.45) that we have studied in section 7.4.4. In particular, equation (7.59) emphasizes the occurrence of a delay-free computational loop in the system, which ultimately causes ∆p(n) to depend on itself through the non-linear map f . We choose to solve equation (7.59) using Newton iteration: at each time n we look for a zero of the function gx˜ (∆p) = f (˜ x + K∆p) − ∆p, using the value ∆p(n − 1) as the starting point for the iteration. M-7.15 Construct the non-linear pressure model according to equation (7.59), as a function that takes the computable input x ˜ from the bore and the reed, and returns the pressure drop ∆p(n).
7.5.4 Properties of the model 7.5.4.1 The numerical reed We are finally able to analyze the results provided by the discrete-time model developed so far. A first evaluation criterion amounts to examine the reed frequency response. Consider the transfer function Hr (s) in Eq. (7.50) and the corresponding frequency response Hr (jω). The transfer function Hdr (z) of the digital reed is obtained by substitution: ¶ µ 1 − z −1 Hdr (z) = Hr h , 1 + z −1
(7.60)
and the corresponding frequency response is given by Hdr (exp(jωd /Fs )). Figure 7.21 shows the two responses Hr and Hdr in the case Fs = 22.05 kHz. The response obtained by applying the Euler method is also plotted as a term of comparison. The Euler method is easily seen to provide poor accuracy. In particular, a noticeable numerical dissipation is introduced, so that the resonance is strongly attenuated. Results for Hdr are in good agreement with theoretical predictions. Both the magnitude and the phase responses exhibit frequency warping (see the discussion in Sec. 7.4.3). The original resonance ω0 has shifted from 23250 rad/s to 21300 rad/s (i.e. from 3700 Hz to 3390 Hz) for Hdr .
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.40
−7
7
x 10
original Euler meth. Bilinear tr.
F =22.05 kHz s
6
original Euler meth. Bilinear tr.
0.5
phase (rad)
amplitude (m/Pa)
0
5 4 3
−0.5 −1 −1.5 −2
2
−2.5
1 −3
0
0
1000
2000
3000
4000
5000
f (Hz)
(a)
6000
7000
0
1000
2000
3000
4000
5000
6000
7000
f (Hz)
(b)
Figure 7.21: Reed response: comparison of the continuous-time system and the discrete-time systems obtained using the bilinear transform and the Euler method, with Fs = 22.05 kHz; (a) magnitude responses and (b) phase responses. 7.5.4.2 Time-domain simulations Besides frequency-domain analyis, we can also study the output of the simulations in the time domain by capturing relevant signals (yL , ∆p, p± , uf , . . .) from each part of the model. M-7.16 Implement the complete dynamic clarinet model: using the functions developed in M-7.11, M-7.14, and M-7.15, write an audio cycle in which the system is initialized with a certain mouth pressure pm and evolves freely. Plot the signal and its spectrogram.
Figure 7.22 shows the signal p(t) when a step mouth pressure pm = 1900 Pa is applied. A rich attack transient can be noticed, which is not obtained using simpler models such as the quasi-static one described previously. At steady state the signal resembles the square wave which is typically associated to the clarinet. Note however that even during steady state the quasi-static approximation does not hold: this is shown in figure 7.23, which has been obtained by applying a step mouth pressure pm = 2265 Pa that causes beating to initiate. The figure shows that uf and ∆p move along a hysteretic path, due to the presence of memory in the equations. Another significant difference between the quasi-static and the dynamic model is concerned with transitions to high regimes of oscillation. Both ω0 and g play a role in helping transition to the second register (clarion register), which can be produced without opening the register hole if the reed resonance matches a low harmonic of the playing frequency and the damping is small enough. Moreover, an extremely low damping causes the reed regime (“squeaks”) to be produced, i.e. the oscillation is governed by the reed resonance. All these effects are seen to be well reproduced by numerical simulations with the digital reed, while on the contrary the quasi-static approximation does not allow control on such effects. Figure 7.24(a) shows an example of transition to the clarion register. This example has been obtained by matching ω0 to the seventh harmonic of the playing frequency and by lowering g down to 1400 rad/s. Figure 7.24(b) shows a transition to the reed regime. This is achieved by giving g a value as low as 300 rad/s. Squeaks are more easily obtained in simulations by driving the reed with low blowing pressures.
7.41
2000
2000
1500
1500
1000
1000
500
500
p (Pa)
p (Pa)
7.6. KEY CONCEPTS
0
0
−500
−500
−1000
−1000
−1500
−1500
−2000 0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
0.05
−2000 0.38
0.385
0.39
0.395
t (s)
(a)
0.4
0.405
0.41
0.415
0.42
0.425
0.43
t (s)
(b)
Figure 7.22: Mouthpiece pressure p(t); (a) attack transient and (b) steady-state signal, with pm = 1900 Pa and Fs = 22.05 kHz.
7.6 Key concepts
à Source models vs. signal models Physical modeling techniques differ drastically from those examined in the previous chapter. Signal-based techniques are derived and characterized by looking at the waveforms produced by the algorithms and their features in the time-domain or in the frequency domain. Sourcebased techniques try to describe sounds in terms of the physical objects and interactions that are responsible for sound generation. We have pointed out the implications of this approach in terms of sound representation: a physical model provides a highly semantic description in which the control parameters of the final synthesis algorithms have most of thes a clear physical interpretation (e.g. the length of a string, the stiffness of a reed, and so on), and the algorithms react in a physically consistent way to changes in such parameters.
à Structural aspects: exciters, resonators, non-linearities In many cases an acoustic system can be represented as composed by resonating structures connected to excitation elements. This distinction is important from the modeling point of view, since the resonating structures (e.g. strings, membranes, bars, plates, acoustic bores, etc.) can be assumed to be linear with good approximation. On the other hand the excitation mechanisms (e.g. impacts, frictions, pressure-controlled valves, air jets, etc.) are typically described by non-linear equations, and determine the way energy is injected into the resonators. Resonating and exciter blocks are typically connected in a feed-back fashion: as an example, when a bow slides onto a violin string both the objects are subject to an interaction (friction) force which is in turn determined by their relaTive velocity (and possibly other variables). Similar consideration apply to the system composed by a resonating bore and a reed. One case where the coupling can be assumed feed-forward to a goof approximation is that of a plucked string: in ideal pluck simply imposed a non-equilibrium initial displacement to the string, which
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.42
−4
2.5
x 10
1.5
f
3
u [m /s]
2
1
0.5
0
0
1000
2000
3000
∆ p [Pa]
4000
5000
6000
Figure 7.23: Quasi-static curve (solid line) and phase diagram obtained from simulations, with pm = 2265 Pa and Fs = 22.05 kHz. subsequently oscillates freely.
à Modeling approaches: distributed, lumped A way of looking at physical modeling techniques is by classifying them into two main categories. Generally speaking, distributed approaches include all the modeling techniques in which the mathematical description takes the spatial distribution of the physical system into account. A description based on a set of partial differential equations (PDEs), simulated through finite difference/elements methods (FDM/FEM), is certainly a distributed modeling approach. Waveguide structures are another example of distributed models: these can in general provide more efficient algorithms with respect to FEM/FDM methods, but are less general. The category of lumped models includes all of those modeling approaches that do not embed a notion of spatial distribution: describing a piano hammer as an ideal point mass is a lumped modeling approach; similarly, describing a single reed as a second order mechanical oscillator, as we did in section 7.5 and in equation (7.49), is a lumped approach since it does not account for the presence of higher modes of oscillation, for non even pressure distributions on the reed surface, for propagation of vibrations inside the reed.
à The Karplus-Strong (KS) algorithm We have examined the KS algorithm as a first elementary example of waveguide structure. Its basic building block is a comb filter, whose block scheme and magnitude response are depicted in figures 7.3(a) and (b), respectively: this show that the comb filter structure is well suited for representing a resonant system with a harmonic spectrum, such as an ideal string with fixed ends. If an additional low-pass filter is inserted into the structure, as in figure 7.5(a), a more realistic response is obtained in which the higher harmonic partials are more damped than the lower ones (see figure 7.5(b)). The original formulation of the KS algorithm assumes that the
7.43
2000
2000
1500
1500
1000
1000
500
500
p (Pa)
p (Pa)
7.6. KEY CONCEPTS
0
0
−500
−500
−1000
−1000
−1500
−1500
−2000 0.08
−2000 0.085
0.09
0.095
0.1
0.105
0.11
0.115
0.12
t (s)
(a)
0.125
0.13
0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
0.05
t (s)
(b)
Figure 7.24: Transitions to high regimes of oscillation; (a) clarion register (ω0 = 2π · 2020 rad/s, g = 1400 rad/s, pm = 1800 Pa); (b) reed regime (ω0 = 2π · 3150 rad/s, g = 300 rad/s, pm = 1900 Pa).
state of the comb filter is initialized with random values, after which the filter evolves freely: the resulting sounds mimic quite closely those of a guitar string. The KS filter can be given the following proto-physical interpretation: a displacement wave travels into the string and is reflected back each time it reaches one of the fixed ends. At each reflection the high-frequency components are smoothed away more strongly than the low-frequency ones, because of dissipation phenomena occurring in the string. The theory of 1-D waveguide structures provides a more formal framework to this interpretation.
à 1-D waveguide (WG) structures We have seen that the starting point in the construction of basic WG structures are the D’Alembert equation and its traveling wave solution. A computational realization of such a solution can be constructed using a pair of delay lines, which simulate wave propagation in the two directions of a 1-D medium. The delay lines are terminated by reflection coefficients that simulate ideal boundary conditions and. Refinements to this basic structures include the modling of dissipation and dispersion, as well as fine tuning elements. All of these are simulated by inserting additional filtering elements into the WG structure: low-pass filters account for frequency-dependent dissipation, while all-pass filters are used to introduce frequency-dependent propagation velocity (an example where dispersion plays a relevant role are piano strings in the low register). Fine tuning is realized through insertion of all-pass linear-phase filters: the phase characteristics of the filter is responsible for an additional fractional delay, which is used to tune the physical length of the modeled resonator (e.g. a string).
à WG networks Waveguide sections can be connected to each other using juctions that account for impedance discontinuities in the propagating medium (e.g., two cylindrical bore sections with different diameters, or two pieces of string with different mass densities). When such discontinuities
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
7.44
are encountered, scattering occurs, i.e. the incoming waves are partly transmitted and partly reflected. The Kelly-Lochbaum junction is used to connect two waveguide section: its equations (7.20) are derived by imposing continuity conditions for the Kirchoff variables at the junction. We have drawn the block scheme of a KL junction in figure 7.9 and we have seen that a reflection coefficient ρ determines the relative amounts of reflected and transmitted waves. We have also seen that the KL junction can be extended to the n-dimensional case.
à Lumped modeling We usually look at electrical systems using a lumped approach: current intensity i and voltage v are measured punctually, withouth looking at propagation effects within the circuit. Circuit elements are also described using punctual input-output relations: voltage and current through an element are related via circuit impedances, as summarized in Eq. (7.24). We have seen that mechanical and acoustic systems can be looked at using the same approach. Specifically, we have defined pair of variables (Kirchoff variables) that are analogous to voltage and current: these are the pairs force-velocity and pressure-flow, in the case of mechanical and acoustic systems, respectively. For the three classes of systems (electrical, mechanical, acoustic) we have examined the basic impedance blocks and have pointed out the analogies between them. These are summarized in the fundamental Table 7.1. We have also introduced the concepts of parallel and series junctions of mechanical and acoustic elements, and have provided examples in figures 7.12 and 7.13. Finally, we have seen through an example (the Chua-Felderhoff circuit and the non-linear hammer felt) that analogies between classes of systems extend to the case of non-linear elements.
à Modal synthesis The second-order oscillator (7.30) is the simplest possible resonating mechanical system that we can construct using basic impedances blocks. Simple equations relate the impedances m, r, k to the resonator parameters: center frequency, quality factor, 1/e decay time. A set of N oscillators driven by the same force can be used to describe a set of N resonances of a mechanical structure: the mass m of each oscillator determines the amount of the excitation provided by the force to the corresponding resonance. Up to this point, modal synthesis seems little more than a variant of additive synthesis. However, we have seen that this technique does have a profound physical foundation. Given a set of N point-masses connected through springs and dampers, there exists in general a modal decomposition of the system, i.e. a linear transformation that turns the system into a set of decoupled second-order equations. The relation between the mass displacements and the new modal displacements are summarized by Eq. (7.33). Finally, we have observed that by giving the modal masses different values at each of the N points of the physical structure, one can simulate position-dependent interaction (in particular, nodal points correspond to infinite modal masses).
à Discretization methods WG are already in the discrete-time domain, but in general a physical model is developed in the continuous-time domain. In particular, lumped modeling approaches describe a system as a
7.7. COMMENTED BIBLIOGRAPHY
7.45
set of ordinary differential equations (ODEs). We have briefly examined various approaches to discretization, namely the impulse invariant method and s-to-z techniques such as the (backward) Euler method and the bilinear transform. Each of these approaches carries its own advantages and drawbacks: some of the features that we have analyzed include frequency aliasing and frequency warping, stability, order of accuracy, and numerical damping. We have also defined the concepts of explicit and implicit numerical methods, and looked at the general form of the difference equations that they produce. Wave digital filters (WDF) can be used to describe a lumped element in the digital domain: first, the impedance of the element is turned into a reflectance through a variable transformation, from Kirchoff to wave (as we did in equation (7.40)). Second, the bilinear transform is used to turn such reflectance filters into their digital counterparts. Third, filtering elements are connected by adapting their reference impedances in order to avoid the occurrence of delay-free computational loops.
à Computational aspects The delay-free loop problem deserves some discussion, due to the fact that sound physical models typically involve the presence of non-linear elements. We have first examined the problem by looking at a simple example of a linear system, in figure 7.17. In this case the computation can be rearranged into an equivalent structure, but it is clear that such a rearrangement can only be performed under the hypothesis of linearity: when a non-linear element is involved in the computation, we do not know in general whether it is invertible or not. We have listed some of the approaches that can be taken to deal with the general non-linear case: use of explicit numerical methods, artificial introduction of delay elements in the computation, use of iterative solvers or predictor-corrector combinations. Again, each of these approaches carries its own advantages and drawbacks.
7.7 Commented bibliography Sound modeling techniques can be classified according to many criteria. Two general references that address these issues are [4, 17]. Specifically, the taxonomy based on signal models and source models, and their subclasses, proposed at the beginning of this chapter is based on [4]. Seminal ideas that eventually lead to the definition of physically-based sound modeling techniques are to be found in research on musical instrument acoustics. Some classic papers in this area are [9, 10, 16, 14]. In particular, the two citations in section 7.2.1 are taken from [9, 14], respectively. A book that covers the topic of musical acoustics exhaustively is [8]. A general overview on approaches and techniques used in physical modeling, with an emphasis on structural and computational aspects, is [5]. Figure 7.1 in this chapter (typical block scheme of a musical instrument model) is based on an analogous scheme in [5]. On the other hand, figure 7.2(b) (typical block scheme of an articulatory synthesizer) is based on an analogous scheme in [19]. About distributed modeling approaches: finite difference schemes applied to PDE descriptions have been used in the literature e.g. for modeling idiophones [3] and single reed systems [20]. The theory of 1-D waveguide models is now well established. An exhaustive introduction to the topic is [18], which provides full derivations of waveguide structures and examples of musical instrument modeling, together with a vast bibliography. The Karplus-Strong algorithm, which we have regarded
7.46
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
as the first step toward the development of digital waveguide structures, was originally presented in [12]. Many textbooks on digital speech processing contain discussion about multitube lossless models of the vocal tract, which are basically cylindrical waveguide sections connected by Kelly-Lochbaum junctions: see e.g. [6]. We have not addressed the topic of higher dimensional (2- and 3-D) waveguide structures: seminal ideas were presented in [21]. About lumped modeling approaches: a discussion of the analogies between electrical systems and their acoustical counterparts is found in [8]. In particular, the circuit representation of a Helmoltz resonator given in section 7.4.1 is based on an analogous discussion in [8]. A classic presentation of modal synthesis techniques is [1]. We have examined in section 7.5 an example of lumped element physical model (the single reed): this model has been used extensively in the literature, see e.g. [16]. A classic example of a lumped physical model applied to voice synthesis is [11], in which the authors describe the vocal folds by means of two lumped masses and viscoelastic elements. About numerical and computational aspects: most of the techniques described in section 7.4.3 are found in DSP textbooks: see e.g. [15]. A classic reference to the theory of Wave Digital Filters (WDF) theory is [7]. In the field of numerical analysis, a comprehensive discussion on numerical methods for ordinary differential equations is given in [13]. The example that we discussed in section 7.4.4 about delay-free computational paths in linear systems (see figure 7.17) is adapted from [15, section 6.1.3, Fig. 6.5]. We have seen that new problems are encountered when non-linear elements are present in the delay-free computational path: reference [2] provides a discussion of these issues, together with a proposed non-iterative solution (in brief, a set of hypotheses and techniques to compute a priori the non-linear function h that we have examined in section 7.4.4), and applications to the simulation of acoustic systems. We have followed the notation given in [2] for the matrices in equation (7.44) and for the K matrix in equation (7.45).
Bibliography [1] J. M. Adrien. The Missing Link: Modal Synthesis. In G. De Poli, A. Piccialli, and C. Roads, editors, Representations of Musical Signals, pages 269–297. MIT Press, 1991. [2] G. Borin, G. De Poli, and D. Rocchesso. Elimination of Delay-free Loops in Discrete-Time Models of Nonlinear Acoustic Systems. IEEE Trans. Speech Audio Process., 8(5):597–606, Sep. 2000. [3] A. Chaigne and V. Doutaut. Numerical Simulations of Xylophones. I. Time-domain Modeling of the Vibrating Bar. J. Acoust. Soc. Am., 101(1):539–557, Jan. 1997. [4] G. De Poli. A Tutorial on Digital Sound Synthesis Techniques. In C. Roads, editor, The Music Machine, pages 429–447. MIT Press, 1991. [5] G. De Poli and D. Rocchesso. Physically Based Sound Modelling. Organized Sound, 3(1):61–76, 1998. [6] J. R. Deller, J. G. Proakis, and J. H. L. Hansen. Discrete-Time Processing of Speech Signals. Macmillan, New York, 1993. [7] A. Fettweis. Wave Digital Filters: Theory and Practice. Proc. IEEE, 74(2):270–327, Feb. 1986.
[16] R. T. Schumacher. Ab Initio Calculations of the Oscillations of a Clarinet. Acustica, 48(2):71–85, 1981. [17] J. O. Smith III. Viewpoints on the History of Digital Synthesis. In Proc. Int. Computer Music Conf. (ICMC’91), pages 1–10, Montreal, Oct. 1991. [18] J. O. Smith III. Principles of Digital Waveguide Models of Musical Instruments. In M. Kahrs and K. Brandenburg, editors, Applications of DSP to Audio and Acoustics, pages 417–466. Kluwer Academic Publishers, 1998. [19] M. M. Sondhi and J. Schroeter. A Hybrid TimeFrequency Domain Articulatory Speech Synthesizer. IEEE Trans. Acoust., Speech, and Sig. Process., 35(7):955–967, July 1987. [20] S. E. Stewart and W. J Strong. Functional Model of a Simplified Clarinet. J. Acoust. Soc. Am., 68(1):109– 120, July 1980. [21] S. A. van Duyne and J. O. Smith III. The 2-D Digital Waveguide Mesh. In Proc. IEEE Workshop on Applications of Sig. Process. to Audio and Acoustics (WASPAA’93), pages 177–180, New Paltz (NY), Oct. 1993.
[8] N. H. Fletcher and T. D. Rossing. The Physics of Musical Instruments. Springer-Verlag, New York, 1991. [9] L. Hiller and P. Ruiz. Synthesizing Musical Sounds by Solving the Wave Equation for Vibrating Objects: Part I. J. Audio Engin. Soc., 19(6):462–470, June 1971. [10] L. Hiller and P. Ruiz. Synthesizing Musical Sounds by Solving the Wave Equation for Vibrating Objects: Part II. J. Audio Engin. Soc., 19(7):542–551, July 1971. [11] K. Ishizaka and J. L. Flanagan. Synthesis of Voiced Sounds from a Two-Mass Model of the Vocal Cords. Bell Syst. Tech. J., 51:1233–1268, 1972. [12] K. Karplus and A. Strong. Digital Synthesis of Plucked String and Drum Timbres. Computer Music J., 7(2):43–55, 1983. [13] J. D. Lambert. Numerical Methods for Ordinary Differential Systems. John Wiley & Sons, 1993. [14] M. E. McIntyre, R. T. Schumacher, and J. Woodhouse. On the Oscillations of Musical Instruments. J. Acoust. Soc. Am., 74(5):1325–1345, Nov. 1983. [15] S. K. Mitra. Digital Signal Processing. A Computer Based Approach. Mc Graw Hill, 1998.
7.47
7.48
CHAPTER 7. SOUND MODELING: SOURCE-BASED APPROACHES
Contents 7 Sound modeling: source-based approaches 7.1 Introduction: sounds, sources . . . . . . . . . . . . . . . 7.2 Structures, functions, models . . . . . . . . . . . . . . . 7.2.1 Functional blocks . . . . . . . . . . . . . . . . . 7.2.1.1 Excitations and resonators . . . . . . . 7.2.1.2 Analogies with speech synthesis . . . 7.2.2 Modeling approaches . . . . . . . . . . . . . . . 7.3 Distributed models: the waveguide approach . . . . . . . 7.3.1 The origins: the Karplus-Strong algorithm . . . . 7.3.1.1 The comb filter . . . . . . . . . . . . 7.3.1.2 Refining the structure . . . . . . . . . 7.3.2 One-dimensional wave propagation . . . . . . . 7.3.2.1 Traveling wave solution . . . . . . . . 7.3.2.2 One-dimensional propagation . . . . . 7.3.2.3 Wave variables . . . . . . . . . . . . . 7.3.3 Basic waveguide structures . . . . . . . . . . . . 7.3.3.1 Delay lines . . . . . . . . . . . . . . . 7.3.3.2 Boundary conditions . . . . . . . . . . 7.3.4 Modeling real world phenomena . . . . . . . . . 7.3.4.1 Dissipation . . . . . . . . . . . . . . . 7.3.4.2 Dispersion . . . . . . . . . . . . . . . 7.3.4.3 Length tuning . . . . . . . . . . . . . 7.3.5 Junctions and networks . . . . . . . . . . . . . . 7.3.5.1 The Kelly-Lochbaum junction . . . . . 7.3.5.2 N-dimensional junctions . . . . . . . . 7.3.5.3 Non-cylindrical geometries . . . . . . 7.4 Lumped models . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Building blocks and analogies . . . . . . . . . . 7.4.1.1 Mechanical systems . . . . . . . . . . 7.4.1.2 Acoustic systems . . . . . . . . . . . 7.4.1.3 Non-linearities . . . . . . . . . . . . . 7.4.2 Modal synthesis . . . . . . . . . . . . . . . . . 7.4.2.1 The second-order mechanical oscillator 7.4.2.2 The modal description . . . . . . . . . 7.4.3 Numerical methods . . . . . . . . . . . . . . . . 7.4.3.1 Impulse invariant method . . . . . . . 7.49
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1 7.1 7.2 7.2 7.2 7.3 7.5 7.6 7.6 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.12 7.13 7.14 7.14 7.14 7.15 7.15 7.16 7.18 7.18 7.19 7.19 7.20 7.21 7.22 7.24 7.24 7.25 7.26 7.26
CONTENTS
7.50
7.5
7.6 7.7
7.4.3.2 Mappings “s-to-z” . . . . . . 7.4.3.3 Accuracy, stability . . . . . . 7.4.3.4 Wave digital filters . . . . . . 7.4.4 Computability issues . . . . . . . . . . 7.4.4.1 The delay-free loop problem 7.4.4.2 Approaches . . . . . . . . . A full example: the clarinet . . . . . . . . . . . 7.5.1 Functional blocks . . . . . . . . . . . . 7.5.1.1 Resonator: the bore . . . . . 7.5.1.2 Excitation: the reed . . . . . 7.5.2 The quasi-static approximation . . . . . 7.5.3 The dynamic reed model . . . . . . . . 7.5.4 Properties of the model . . . . . . . . . 7.5.4.1 The numerical reed . . . . . 7.5.4.2 Time-domain simulations . . Key concepts . . . . . . . . . . . . . . . . . . Commented bibliography . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
7.27 7.28 7.29 7.30 7.30 7.32 7.33 7.34 7.34 7.35 7.36 7.38 7.39 7.39 7.40 7.41 7.45
Capitolo 8
Analisi dei suoni
versione 2004
8.1 Introduzione In questo capitolo si descrivono i principali metodi di analisi del suono con lo scopo di estrarre informazione dal suono. Nei capitoli sui modelli del suono, lo scopo era quello di ottenere delle rappresentazioni che ne consentissero una auspicabilmente completa ricostruzione, almeno dal punto di vista percettivo o operativo. Ai modelli erano quindi associati metodi di analisi, per individuare i parametri dei modelli, che ne consentissero questa descrizione senza perdere, per quanto possibile nessuna caratteristica acustico o timbrica del suono. Spesso infatti i modelli con i parametri individuati, vengono usati per la sintesi o trasformazione dei suoni. Ad esempio dalla rappresentazione mediante modelli spettrale si riesce a ottenere variazioni di durata e altezza molto naturali. Se lo scopo e` invece quello di estrarre informazione dal suono, allora si vuole scartare tutto quello che non e` rilevante al proprio scopo. Si parla allora di estrazione di caratteristiche (feature extraction). I passi principali per la estrazione di informazione sono pre-elaborazione del suono, selezione dei frames mediante finestre, estrazione di caratteristiche, post-elaborazione. • La prima fase di pre-elaborazione consiste nel modificare il segnale, in modo ad facilitare gli algoritmi di estrazione delle caratteristiche. Ad esempio, riduzione del rumore, equalizzazione, filtraggio passa basso. Nei suoni vocali si usa spesso la pre-enfasi mediante un filtro passalto per appiattire lo spettro, cio`e per avere una distribuzione pi`u omogenea dell’energia nelle varie zone dello spettro. Infatti la voce ha un andamento spettrale di tipo passabasso. • Il secondo passo consiste nel dividere il segnale in blocchi (detti frames) parzialmente sovrapposti ed applicare una finestra per ogni blocco, come discusso nei modelli spettrali. • Il terzo passo consiste nel ricavare, per ogni frame un vettore di caratteristiche, con gli algoritmi descritti nelle prossime sezioni. • Infine nella fase di post-elaborazione, si scelgono le caratteristiche pi`u significative dal vettore, eventualmente pesandole diversamente, per dare loro maggiore o minor importanza. Ad esempio si pu`o pesare meno i primi coefficienti mel-cepstrali, se e` presente un rumore a bassa 8.1
CAPITOLO 8. ANALISI DEI SUONI
8.2
frequenza. Infine spesso i vettori delle caratteristiche sono normalizzati rispetto al tempo, in modo ad avere media nulla. questa normalizzazione costringe i vettori ad essere nello stesso ordine di grandezza numerica. I metodi di analisi procedono direttamente dal segnale rappresentato nel tempo oppure derivano una rappresentazione dello spettro. Nel secondo caso si inizia applicando le tecniche viste, quando sono stati descritti i modelli spettrali e i loro derivati come parte armonica + parte stocastica, parte armonica + rumore + transitori si ottiene una rappresentazione a basso livello, che costituisce la premessa per la estrazione di parametri e attributi a livello superiore. In questo capitolo verranno prima presentati alcuni metodi base per la stima di parametri nel dominio temporale, poi verr`a discusso l’importante problema della stima dell’inviluppo spettrale. Verranno quindi presentati vari descrittori di parametri e attributi a vari livelli ricavabili da queste rappresentazioni e utilizzabili per la descrizione dei suoni e per un’ulteriore analisi volta a separare e comprendere i suoni e la loro organizzazione. Infine verranno presentati alcuni algoritmi base per la determinazione dell’inizio (onset) degli eventi musicali,
8.2 Parametri nel dominio del tempo Nell’ambito dell’elaborazione del segnale e` spesso conveniente ricorrere all’uso di parametri che ne descrivano alcune caratteristiche fondamentali; ci`o e` importante in molti casi di archiviazione o trattamento del suono, perch`e elimina le ridondanze presenti nel segnale audio e permette di ottenere una efficiente rappresentazione e quindi una semplificazione nella manipolazione dei dati. Un aspetto importante in molte applicazioni e` la variazione dei valori di questi parametri nel tempo (per esempio nella sintesi del parlato); nel seguito, quindi, tratteremo i metodi applicabili al segnale audio nel dominio del tempo cio`e operando direttamente sulla sua forma d’onda. I risultati che otterremo saranno esemplificati mediante l’uso di procedure specifiche realizzate con M AT L AB e applicate a segnali per lo pi`u vocali, anche se i risultati trovati hanno validit`a del tutto generale. Bisogna dire fin d’ora che questi metodi (usati per esempio per discriminare il rumore di fondo dal parlato, oppure per distinguere i suoni vocalizzati da quelli non vocalizzati) non danno risultati assolutamente certi sull’informazione che il segnale porta con s´e e che sovente vengono usati in combinazione. Il loro vantaggio sta nella facilit`a di implementazione e nelle modeste capacit`a di calcolo richieste. L’ipotesi che ora facciamo e` che le propriet`a del segnale audio cambino lentamente nel tempo (almeno rispetto al periodo di campionamento); questo ci permette di definire una serie di parametri nel dominio del tempo per cui brevi segmenti di segnale (frames) vengono elaborati come se fossero suoni con propriet`a costanti all’interno del frame. Se consideriamo per esempio il segnale vocale, questa assunzione si pu`o giustificare con il fatto che nella generazione delle parole contribuiscono sia le corde vocali sia tutte le modificazioni dell’apparato fonatorio (laringe, lingua, bocca) che avvengono con una rapidit`a non molto elevata tanto da poterle ritenere costanti entro i 100-200ms. Nel seguito per il calcolo dei parametri useremo alcune sequenze di campioni audio che possono essere importate come vettori in M AT L AB direttamente da file audio in formato PCM mono (.WAV) usando i comandi:
[s,fS]=wavread(’finesunn.wav’); %
s
-->
vettore dei campioni del segnale
8.2. PARAMETRI NEL DOMINIO DEL TEMPO %
fS -->
8.3
frequenza di campionamento
% disegna s s1=s/max(abs(s)); % normalizza al valore massimo tempi = (1/fS)*[1:max(size(s1))]; plot(tempi,s1); xlabel(’time (s)’); ylabel(’s(t)’); 8.2.0.0.1 Windowing La finestra temporale stabilisce la durata del singolo frame; la sua scelta e` un compromesso tra tre fattori: (1) deve essere abbastanza breve in modo che le propriet`a del suono non cambino significativamente al suo interno; (2) deve essere abbastanza lunga da poter calcolare il parametro che si vuole stimare (utile anche per ridurre l’effetto di un eventuale rumore sovrapposto al segnale); (3) il susseguirsi delle finestre dovrebbe coprire interamente il segnale (in questo caso il frame rate del parametro che andiamo a calcolare deve essere come minimo l’inverso della durata della finestra). La finestra pi`u semplice e` quella rettangolare: 1 per 0 ≤ n ≤ N − 1 r(n) = (8.1) 0 altrimenti Molte applicazioni usano finestre pi`u lunghe del necessario a soddisfare le ipotesi di stazionariet`a, cambiandone per`o la forma per enfatizzare i campioni centrali (figura 8.1); per esempio, se un segnale vocale e` approssimativamente stazionario su 10ms, si pu`o usare una finestra da 20ms nella quale i campioni dei 10ms centrali pesano maggiormente rispetto ai primi e ultimi 5ms. La ragione per pesare di pi`u i campioni centrali e` relativa all’effetto che la forma della finestra ha sui parametri di uscita. Quando la finestra viene spostata nel tempo per analizzare frames successivi di un segnale, ci possono essere delle grandi oscillazioni dei parametri calcolati se si usa una finestra rettangolare (r(n)); per esempio, una semplice misura dell’energia ottenuta sommando il quadrato dei campioni del segnale e` soggetta a grandi fluttuazioni non appena la finestra si sposta per includere o escludere, all’inizio o alla fine, campioni con grandi ampiezza. Un’alternativa alla finestra rettangolare (8.1) e` la finestra di Hamming: 0.54 − 0.46 cos( N2πn −1 ) per 0 ≤ n ≤ N − 1 (8.2) h(n) = 0 altrimenti Affusolando gli estremi della finestra evito di avere grandi effetti sui parametri anche se ho repentini cambi nel segnale. Alcuni dei parametri nel dominio del tempo possono essere rappresentati matematicamente nella forma: ∞ X T [s(m)]w(n − m) = T [s] ∗ w(n) (8.3) Q(n) = m=−∞
dove T [·] e` una trasformazione, anche non lineare, pesata da una finestra w(n). Prima di essere elaborato, il segnale pu`o venire eventualmente filtrato per isolare la banda di frequenze desiderata. M-8.1 Write a M AT L AB function for a generic time domain processing.
M-8.1 Solution
CAPITOLO 8. ANALISI DEI SUONI
8.4 1
1 Rettangolare Hamming
w(2N−n) w(3N−n) w(4N−n)
s(n)
Triangolare
0
Hanning 0 0
500 campioni (n)
1000
−1 0
500 campioni (n)
1000
Figura 8.1: a sinistra vari tipi di finestre; a destra tre finestre sovrapposte al segnale s(n), spostate rispetto all’origine di 2N , 3N e 4N campioni
function [Q,tempi] = st_processing(s,frame,overlap,fs,finestra) % Q --> convoluzione di s con la finestra w % tempi --> scala dei tempi di Q % % s --> segnale da elaborare % frame --> durata in secondi di un frame % overlap --> percentuale di sovrapposizione dei frames % fs --> frequenza di campionamento di s % finestra --> nome della finestra che si vuole usare Ns = max(size(s)) Nframe = floor(fs * frame) Ndiff = floor(Nframe * (1 - overlap/100)) L = floor((Ns-Nframe)/Ndiff);
% % % %
numero numero numero numero
di di di di
campioni di s campioni per frame campioni tra frames finestre
switch lower(finestra) case ’hamming’ window = hamming(Nframe); case ’hanning’ window = hanning(Nframe); case ’bartlett’ window = bartlett(Nframe); case ’triangolare’ window = triang(Nframe); case ’rettangolare’ window = ones(Nframe,1)/Nframe; otherwise window = ones(Nframe,1)/Nframe; end; for n=1:L inizio = (n-1) * Ndiff + 1;
%
inizio della finestra
8.2. PARAMETRI NEL DOMINIO DEL TEMPO
8.5
tempi(n,1) = n* Ndiff/fs; Q(n,1) = sum(s(inizio:inizio+Nframe-1,1) .* window); end;
Nell’equazione 8.3, w(n) pu`o essere sia un filtro FIR a risposta finita (per es. la finestra rettangolare o quella di Hamming) che ci permette di ridurre il frame rate risparmiando quindi calcoli, sia un filtro IIR; un esempio di finestra a risposta infinita e` n a per n ≥ 0 w(n) = (8.4) 0 per n < 0 con 0 < a < 1; un simile filtro pu`o venire implementato utilizzando una semplice equazione alle differenze, infatti Q(n) = aQ(n − 1) + T [s(n)] (8.5) che deve essere calcolato per ogni campione del segnale di ingresso.
8.2.1 Short-Time Average Energy e Magnitude Per un segnale discreto la Short-Time Average Energy e` definita come: 1 E(n) = N
n X
s(i)2
(8.6)
i=n−N +1
ovvero equivale a Q(n) dell’equazione 8.3 ponendo T [·] = (·)2 . Nel caso particolare dell’analisi della voce le sue grandi variazione temporali in ampiezza tra suoni vocalizzati e non, come pure tra fonemi diversi, permette la segmentazione del parlato nei sistemi automatici di riconoscimento vocale: aiuta per esempio a determinare l’inizio e la fine delle parole isolate (nei sistemi di trasmissione che multiplexano molte conversazioni, delimitare le parole significa evitare di trasmettere le pause). Un inconveniente della Short-Time Average Energy cos`ı come l’abbiamo precedentemente definita e` la sua sensibilit`a a grandi ampiezze di segnale (i campioni compaiono elevati al quadrato); un semplice modo per alleviare questo problema e` quello di introdurre la Short-Time Average Magnitude cos`ı definita n X 1 |s(i)| (8.7) M (n) = N i=n−N +1
equivalente a porre T [·] = | · | nell’equazione 8.3 M-8.2 Write two M AT L AB functions to compute Short-Time Average Energy e Magnitude.
M-8.2 Solution
Nframe=100; % Ns=max(size(s)); %
numero di campioni per frame numero di campioni del segnale
for n=1:Ns; % calcola la Short-Time Average Energy E(n,1)=sum(s(max(1,n-Nframe+1):n).*...
CAPITOLO 8. ANALISI DEI SUONI
8.6
s(t)
1
0
−1 0
0.2
0.4
0.6
0.8
1
1.2
1.4
0.2
0.4
0.6
0.8
1
1.2
1.4
0.2
0.4
0.6
0.8
1
1.2
1.4
E(t)
1
0.5
0 0
M(t)
1
0.5
0 0
time (s)
Figura 8.2: In alto l’espressione (/FINE SUNNY WEATHER/) con sotto le corrispondenti Short-Time Average Energy e Short-Time Average Magnitude normalizzate al valore massimo, calcolate usando finestre rettangolari da N=100 campioni e frame rate pari alla frequenza di campionamento del segnale (8kHz).
s(max(1,n-Nframe+1):n))/Nframe; end; for n=1:Ns; % calcola la Short-Time Average Magnitude M(n,1)=sum(abs(s(max(1,n-Nframe+1):n)))/Nframe; end; % disegna E(t) e M(t) E=E/max(E); % normalizza E(t) tempi = (1/fS)*[1:max(size(E))]; subplot(2,1,1); plot(tempi,E); xlabel(’time (s)’); ylabel(’E(t)’); M=M/max(M); % normalizza M(t) tempi = (1/fS)*[1:max(size(M))]; subplot(2,1,2); plot(tempi,M); xlabel(’time (s)’); ylabel(’M(t)’);
La figura 8.2 mostra un esempio di segnale vocale con l’energia corrispondente, calcolata usando l’algoritmo appena definito, mentre la figura 8.3 mostra come la scelta della finestra influenzi la Short-Time Average Energy del segnale; nelle figure i grafici sono normalizzati al valore massimo ma
8.2. PARAMETRI NEL DOMINIO DEL TEMPO
8.7
s(t)
1
0
−1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Energy(t)
1
lunghezza finestra = 5ms overlap = 50%
0.5
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Energy(t)
1
lunghezza finestra = 10ms overlap = 40%
0.5
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Energy(t)
1
lunghezza finestra = 30ms overlap = 20%
0.5
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
time (s) Figura 8.3: In alto l’espressione /FINE SUNNY WEATHER/ con sotto la Short-Time Average Energy calcolata con finestre di Hamming di diverse lunghezze, usando la funzione st processing(s,frame,overlap,fs,finestra) ; si noti come diventi smussata per finestre pi`u lunghe. bisogna fare attenzione se si vuole confrontare uno stesso parametro applicato a segnali diversi, nel qual caso l’eventuale normalizzazione va fatta rispetto ad un valore comune.
8.2.2 Short-Time Average Zero-Crossing Rate Normalmente per ottenere informazioni sul contenuto spettrale della voce si ricorre alla trasformata di Fourier; per alcune applicazioni un semplice parametro come la Zero-Crossing Rate (ZCR) d`a una adeguata informazione spettrale ad un basso costo elaborativo. La ZCR corrisponde al numero di passaggi per lo zero del segnale che matematicamente si esprime come il cambiamento di segno di due campioni successivi. Per segnali a banda stretta (es. sinusoidi o la singola uscita di un banco di filtri passa-banda), dalla ZCR si ricava la frequenza fondamentale (F0) del segnale: F0 =
ZCR ∗ FS 2
(8.8)
CAPITOLO 8. ANALISI DEI SUONI
8.8 1
s(t)
0.5 0 −0.5 −1 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.1
0.2
0.3
0.4 0.5 time (s)
0.6
0.7
0.8
ZCR/ms(t)
8 6 4 2 0 0
Figura 8.4: Zero-Crossing Rate (zero crossing al ms) dell’espressione /SONO/ calcolata con una finestra rettangolare di N=100 campioni e frame rate pari a quella del segnale (11kHz); si noti come si riesca a discriminare la /S/ iniziale (suono non vocalizzato) dal resto della parola (suono vocalizzato). dove FS e` la frequenza di campionamento del segnale e ZCR e` espressa in zero crossing per campione. Matematicamente ZCR = Q(n) se nell’equazione 8.3 pongo T [s(n)] = |sign(s(n))−sign(s(n− 1))|/2 e scalo la finestra w(n) di un fattore 1/N ; ottengo cos`ı: Z(n) =
1 N
n X
m=n−N +1
|sign[s(m)] − sign[s(m − 1)]| w(n − m) 2
(8.9)
dove il segno di s(n) e` definito come: sign(s(n)) =
1 per s(n) ≥ 0 −1 altrimenti
M-8.3 Write a M AT L AB function for Zero Crossing Rate computation.
M-8.3 Solution
Nframe = 100; Ns = max(size(s));
%
numero di campioni per frame
for n = 1+Nframe:Ns; % calcola la Short-Time Average ZCR Z(n,1) = sum(abs(sign(s(n-Nframe+1:n))- ... sign(s(n-Nframe:n-1)))/2)/Nframe; end;
(8.10)
8.2. PARAMETRI NEL DOMINIO DEL TEMPO
Z=Z*fS/1000;
%
8.9
Zero-Crossing per ms
% disegna Z(t): t = (1/fS)*[1:max(size(Z))]; plot(t,Z); xlabel(’time (s)’); ylabel(’ZCR/ms(t)’);
Nell’analisi vocale la ZCR pu`o aiutare a determinare se il suono e` vocalizzato oppure no (vedi figura 8.4); infatti il modello della generazione della voce suggerisce che l’energia della componente vocalizzata e` concentrata al di sotto dei 3 kHz mentre quella della componente non vocalizzata si trova a frequenze pi`u alte. Poich`e la ZCR e` in stretto rapporto con la distribuzione frequenziale di energia, ad alte ZCR corrispondono suoni non vocalizzati (unvoiced speech) mentre a basse ZCR suoni vocalizzati (voiced speech). Affiancata alla Short-Time Average Energy permette di individuare con precisione l’inizio e la fine delle parole soprattutto nei casi di suoni quali /S/ (vedi l’inizio della parola di figura 8.4), /F/, /N/, /M/, /T/, /P/. M-8.4 Implement a voiced-unvoiced detector as previously explained. Test it on real speech signals. Does it also work for voice - music detection? Why?
A differenza della Short-Time Average Energy la ZCR e` molto sensibile al rumore (per es. quello dei sistemi digitali, degli ADC ma anche dei 60Hz della rete di alimentazione) per cui nel caso di conversione analogico-digitale diventa utile filtrare il segnale con un filtro passa-banda, invece del solo filtro anti-aliasing. M-8.5 Come nel caso della Short-Time Average Energy e della Short-Time Average Magnitude anche la Zero-Crossing Rate puo` essere calcolata con una frequenza molto piu` bassa di quella di campionamento del segnale (vedi figura 8.5). Calcolare Zero-Crossing Rate ricorrendo alla funzione st processing vista prima.
M-8.5 Solution
Ns = max(size(s)); finestra = ’hamming’; % calcola la Short-Time Average Energy [E,tE]=st_processing(s.ˆ2,0.012,50,fS,finestra); % calcola la Short-Time Average Magnitude [M,tM]=st_processing(abs(s),0.012,50,fS,finestra); % calcola la Short-Time Average ZCR (ZC per campione) [Z,tZ]=st_processing([0; 0.5*abs(sign(s(2:Ns))-sign(s(1:Ns-1)))],... 0.012,50,fS,’rettangolare’); % disegna i segnali E=E/max(E)*0.8; % normalizza subplot(3,1,1); plot(tE,E); xlabel(’time (s)’); ylabel(’Energy(t)’); M=M/max(M)*0.8; % normalizza subplot(3,1,2); plot(tM,M); xlabel(’time (s)’); ylabel(’Magnitude(t)’); Z=Z*fS/1000; % ZCR per ms subplot(3,1,3); plot(tZ,Z); xlabel(’time (s)’); ylabel(’ZCR/ms(t)’);
CAPITOLO 8. ANALISI DEI SUONI
8.10
Energy(t)
1
0.5
Magnitude(t)
0 0 1
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.1
0.2
0.3
0.4 0.5 time (s)
0.6
0.7
0.8
0.9
0.5
ZCR/ms(t)
0 0 10
5
0 0
Figura 8.5: Short-Time Average Energy , Short-Time Average Magnitude e Zero-Crossing Rate dell’espressione /SONO/ campionata a 11kHz ed elaborata con frame di 12.5ms e overlap tra i frames del 50%; riducendo l’overlap e allungando le finestre temporali (frame) i parametri nel dominio del tempo perdono in risoluzione temporale ma conservano ugualmente le caratteristiche del segnale (vedere per un confronto la Zero-Crossing Rate della figura 8.4).
8.2.3 Short-Time Autocorrelation Function Il segnale che corrisponde all’anti-trasformata di Fourier della densit`a spettrale di energia (C s (f )) e` l’autocorrelazione del segnale; in formule F[φ(k)] = Cs (f ) = |S(f )|2
(8.11)
Per un segnale discreto e` definita come φ(k) =
∞ X
s(m)s(m + k)
(8.12)
m=−∞
L’autocorrelazione conserva le informazioni che riguardano le armoniche del segnale, l’ampiezza delle formanti e la loro frequenza. Dall’equazione 8.12 si vede che φ(k) misura in un certo senso la somiglianza del segnale con la sua versione traslata; avr`a quindi valori pi`u grandi in corrispondenza dei ritardi k per cui s(m) e s(m + k) hanno forme d’onda simili. Alcune importanti propriet`a di φ(k) sono le seguenti:
8.2. PARAMETRI NEL DOMINIO DEL TEMPO
8.11
1
s(n)
0.5 0 −0.5 −1 0
100
200
300
100
200
300
400 500 campioni(n)
600
700
800
600
700
800
1
R0(k)
0.5
0
−0.5 0
400 k
500
Figura 8.6: Frame da 800 campioni di suono vocalizzato campionato a 8kHz e sua Short-Time Autocorrelation Function 1. e` una funzione pari: φ(k) = φ(−k) 2. per k = 0 assume il suo massimo valore: φ(0) ≥ |φ(k)|∀k 3. φ(0) corrisponde all’energia del segnale (o alla potenza media se i segnali sono periodici o non deterministici) 4. se il segnale e` periodico con periodo P anche l’autocorrelazione e` periodica con lo stesso periodo: φ(k) = φ(k + P ) (propriet`a importante se si vuole stimare la periodicit`a del segnale) La Short-Time Autocorrelation Function e` ottenuta dall’equazione 8.12 filtrando il segnale con delle opportune finestre temporali w(n): Rn (k) =
∞ X
s(m)w(n − m)s(m + k)w(n − k − m)
(8.13)
m=−∞
Con un opportuno cambio di variabili l’equazione precedente pu`o essere riscritta nella forma Rn (k) =
∞ X
[s(n + m)w′ (m)][s(n + m + k)w ′ (k + m)]
(8.14)
m=−∞
dove w′ (n) = w(−n); se ora w ′ (n) ha durata finita N ottengo Rn (k) =
NX −1−k
[s(n + m)w′ (m)][s(n + m + k)w ′ (k + m)]
m=0
M-8.6 Write a M AT L AB function for computing the Short-Time Autocorrelation Function .
(8.15)
CAPITOLO 8. ANALISI DEI SUONI
8.12 1
s(n)
0.5 0 −0.5 −1 0
100
200
300
100
200
300
400 500 campioni(n)
600
700
800
600
700
800
1
R0(k)
0.5 0
−0.5 −1 0
400 k
500
Figura 8.7: Frame di suono non vocalizzato /S/ campionato a 11kHz e sua Short-Time Autocorrelation Function ; si noti come assomigli ad un rumore e come si differenzi da quella di figura 8.6.
M-8.6 Solution
Ns = max(size(s)); window = ones(Ns,1);
% %
numero di campioni finestra rettangolare
s_w = s.*window; for k = 1:Ns-1; % calcola la Short-Time Autocorrelation R0(k) = sum(s_w(1:Ns-k).* ... s_w(k+1:Ns)); end; % disegna R0(k): R0=R0/max(abs(R0)); % normalizza R0(k) plot(1:max(size(R0)),R0); xlabel(’k’); ylabel(’R_0(k)’);
La Short-Time Autocorrelation Function trova applicazione nell’estrazione del pitch e nella discriminazione tra suono vocalizzato (figura 8.6) e non vocalizzato (figura 8.7). Nella determinazione di F0, Rn (k) deve essere calcolata per diversi valori di k prossimi al numero di campioni del periodo di pitch (che dura da un minimo di 3ms per la voce femminile a un massimo di 20ms per quella maschile); se per esempio desidero avere una risoluzione del periodo di pitch di 0.1ms con un segnale campionato a 10kHz devo calcolare Rn (k) per 170 valori di k. In questi casi la finestra w(n) deve avere una durata almeno doppia rispetto al periodo del segnale che si vuole stimare.
8.2. PARAMETRI NEL DOMINIO DEL TEMPO
8.13
1 0.9 0.8
AMDF(k)
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0
100
200
300
400
500
k
Figura 8.8: Short-time Average Magnitude Difference Function del frame di suono vocalizzato di figura 8.6. 1 0.9 0.8 0.7
AMDF(k)
0.6 0.5 0.4 0.3 0.2 0.1 0 0
50
100
150
200
250
k
Figura 8.9: Short-Time AMDF del frame /S/ di figura 8.7.
8.2.4 Short-Time Average Magnitude Difference Function Un’alternativa alla Short-Time Autocorrelation Function per la stima di F0 e` la Short-time Average Magnitude Difference Function (AMDF). Per un segnale periodico di periodo P ho che la successione d(n) = s(n) − s(n − k)
(8.16)
e` uguale a zero per k = 0, ±P, ±2P, . . ., quindi invece di moltiplicare s(m) per s(m − k) posso considerare il valore assoluto della loro differenza: γn (k) =
∞ X
|s(n + m)w(m) − s(n + m − k)w(m − k)|
(8.17)
m=−∞
dalla quale si pu`o ricavarne una pi`u semplice versione prendendo w(n) rettangolare di durata N: AM DF (k) =
N −1 X
|s(m) − s(m − k)|
m=k
M-8.7 Write a M AT L AB function for Short-time Average Magnitude Difference Function computing.
(8.18)
CAPITOLO 8. ANALISI DEI SUONI
8.14 1
s(n)
0.5 0 −0.5 −1 −1.5 0
50
100
150 200 campioni(n)
250
300
350
150
250
300
350
1
R0(k)
0.5 0
−0.5 k =67 M
−1 0
50
100
200 k
Figura 8.10: Frame del fonema /OH/ (350 valori campionati a 8kHz) e sua Short-Time Autocorrelation Function ; il secondo massimo e` posizionato a k M = 67 da cui si pu`o ricavare la periodicit`a della frequenza fondamentale del segnale (F0 ≈ 120Hz).
M-8.7 Solution
Ns=max(size(s));
%
numero di campioni
window=ones(ceil(Ns/2)+1,1);
%
finestra rettangolare
for k=1:floor(Ns/2)-1; % calcola la Short-Time AMDF STAMDF(k) = sum(abs(s(floor(Ns/2):Ns).* window - ... s(floor(Ns/2)-k:Ns-k).* window)); end; % disegna STAMDF(t): STAMDF=STAMDF/max(STAMDF); % normalizza STAMDF(t) plot(1:max(size(STAMDF)),STAMDF); xlabel(’k’); ylabel(’AMDF(k)’);
Le figure 8.8 e 8.9 mostrano l’andamento tipico della Short-Time AMDF per diversi frame: l’informazione che la Short-Time Autocorrelation Function dava sulla spaziatura temporale tra i massimi, corrispondente al reciproco della frequenza fondamentale, pu`o essere ricavata ora considerando i minimi della Short-Time AMDF. Dal punto di vista computazionale se si usa hardware a virgola fissa il calcolo della Short-time Average Magnitude Difference Function e` pi`u veloce di quello della Short-Time Autocorrelation Function .
8.2. PARAMETRI NEL DOMINIO DEL TEMPO
8.15
1
0.9
AMDF(k)
0.8
0.7
0.6
0.5
0.4 k 0.3 0
20
40
60
=66
m
80
100
120
140
160
180
k
Figura 8.11: Short-Time AMDF del frame /OH/ di figura 8.10; qui la periodicit`a si ricava andando a cercare il secondo minimo (km = 66).
8.2.5 Stima del pitch (F0) Determinare la frequenza fondamentale (F0) o il pitch di un segnale e` un problema in molte applicazioni. Il suono vocalizzato viene generato dalla vibrazione delle corde vocali e il pitch si riferisce alla frequenza fondamentale di questa vibrazione. Dalla Short-Time Autocorrelation Function ricavo l’informazione sulla periodicit`a del segnale andando a trovare k M , cio`e il primo massimo dopo quello per k = 0: FS (8.19) F0 = kM dove FS e` la frequenza di campionamento del segnale (vedi figura 8.10). Utilizzando invece la ShortTime AMDF devo considerare il primo minimo dopo quello per k = 0 (k m nella figura 8.11). Tipicamente uno stimatore del pitch effettua tre operazioni: • pre-processing: filtraggio e semplificazione del segnale attraverso la riduzione dei dati; • estrazione del periodo; • post-procesing: correzione di eventuali errori. L’estrazione del periodo mediante l’individuazione dei massimi dell’autocorrelazione fa uso di trasformazioni non lineari del segnale (es. center clipping). M-8.8 Compute the pitch with Short-Time Autocorrelation Function .
M-8.8 Solution
inizio=floor(fS*0.001); % salta il primo massimo [massimo,kM] = max(R0(inizio:max(size(R0)))); kM=kM + inizio -1; F0=fS/kM;
CAPITOLO 8. ANALISI DEI SUONI
8.16 M-8.9
Compute the pitch with Short-time Average Magnitude Difference Function .
M-8.9 Solution
inizio=floor(fS*0.001); % salta il primo minimo [minimo,km] = min(STAMDF(inizio:max(size(STAMDF)))); km=km + inizio -1; F0=fS/km;
Bisogna tenere presente che talvolta il terzo massimo ha ampiezza maggiore del secondo nel qual caso, con le funzioni appena definite, sbaglieremmo la stima (che sarebbe quella di un’armonica della frequenza fondamentale); per questo motivo spesso si affiancano altri metodi per evitare errori grossolani.
8.3 Stima dell’inviluppo spettrale L’inviluppo spettrale e` considerato un elemento molto significativo nella caratterizzazione dei suoni, specie nella voce. Esse infatti sono caratterizzate da uno spettro armonico, cui e` sovrapposto un inviluppo. Le zone in frequenza, in cui si concentra l’energia, sono in corrispondenza con le principali risonanze del tratto vocale (percorso del suono dalle corde vocali fino all’esterno della bocca). Queste risonanze, chiamate formanti, sono peculiari per la differenziazione e il riconoscimento delle vocali stesse (vedi fig. 8.12). Anche le varie famiglie di strumenti musicali sono spesso distinte tra loro da tipici inviluppi spettrali. Spesso, nelle trasformazioni del suono, si parla, anche se impropriamente, di cambiamento dell’altezza (pitch shifting) con preservazione del timbro, quando si preserva l’inviluppo spettrale.
8.3.1 Stima dell’inviluppo spettrale mediante banco di filtri Una prima maniera consiste nel fare una approssimazione, mediante segmenti, dello spettro in ampiezza. Si selezionano i massimi e si congiungono con linee rette, oppure si possono prendere punti equispaziati sull’asse delle frequenze e si congiungono con segmenti. Le ascisse (frequenze) dei punti possono anche essere scelte su una scala logaritmica o altra spaziatura percettivamente significativa. Questo metodo e` abbastanza flessibile, ma non molto preciso. Questi punti si possono ottenere mediante l’uso di un banco di filtri passabanda equispaziati (a banda costante), o distribuiti logaritmicamente sull’asse delle frequenze (cosidetti filtri a Q costante, dove Q e` il rapporto tra la larghezza di banda, e la frequenza centrale del filtro). Un esempio sono i cosidetti filtri di ottava o di terza. In alcuni casi essi sono progettati per riprodurre il comportamento della coclea. dal punto di vista computazionale i filtri possono essere realizzati mediante FFT, calcolando prima lo spettro (in modulo) e poi sommando i contributi di ciascun bin frequenziale pesato dalla risposta in frequenza del r-esimo filtro. Se i filtri sono passabanda rettangolari, basta sommare i contributi dei bin appartenenti alla banda r-esima. Risulta cio`e che l’energia E r (j) per il canale r-esimo del j-esimo frame e` data da Er (j) =
1 X |Xj (k)|2 N k∈Br
8.3. STIMA DELL’INVILUPPO SPETTRALE
(a)
8.17
(b)
Figura 8.12: rappresentazione dei baricentri delle vocali nel piano descritto dalla frequenza F 1 e F 2 delle prime due formanti. Esse formano approssimativamente un triangolo (a). Frequenza delle prime formanti delle vocali inglesi (b).
dove Br indica l’insieme delle componenti spettrali appartenenti al filtro r-esimo e N la dimensione della FFT. Talvolta il risultato e` normalizzato (diviso) per la larghezza di banda; altre volte no. Questo dipende dall’uso che poi ne viene fatto. M-8.10 Write a M AT L AB function for the spectral envelope computing, with the filterbank approach. Try a filterbank of frequency linearly spaced filters and logarithmic spaced filters (e.g. third octave filters).
M-8.11 Write a M AT L AB function for the spectral envelope computing, with the gamma tone filterbank approach. Look in the literature or on the web for gammatone filter definition. gamma tone filters simulate the behaviour of the cochlea.
8.3.2 Stima dell’inviluppo spettrale mediante predizione lineare (LPC) Un’altro metodo consiste nel fare una approssimazione mediante predizione lineare (LPC) come visto nel capitolo sulla sintesi. In questo caso si stima un filtro a soli poli che approssima lo spettro. Quando l’ordine del filtro e` basso, viene solo seguito l’inviluppo spettrale, trascurando la struttura fine dello spettro prodotta dalle periodicit`a del suono. Nella sezione 8.3.2.1 sono riportati alcuni esempi di analisi mediante predizione lineare (LPC). Di seguito sono riportati due metodi non lineari particolarmente efficaci, consistenti nel cosiddetto cepstrum e nella sua variante mel-cepstrum. Quest’ultimo metodo fornisce la parametrizzazione dell’inviluppo spettrale pi`u efficace nel riconoscimento del parlato e degli strumenti musicali.
8.18
CAPITOLO 8. ANALISI DEI SUONI
M-8.12 Write a M AT L AB function for the spectral envelope computing, with the LPC approach. Experiment different filter lengths p and compare with the original signal spectrum. Apply your function to different kinds of sounds: musicals, speech and environmental noises.
M-8.13 In LPC analysis, the position of formants (resonances) is related to the poles of the estimated transfer function. Factorize the denominator of the transfer function and estimate the frequency of the formants. Note that if θk is the argument of zk complex conjugate zero of the denominator, then its corresponding resonant frequency fk derives from θk = 2πfk /Fs ; the formant bandwith Bk is related to the zero modulus by |zk | = exp(−πB/Fs ).
8.3.2.1
Esempi di analisi mediante predizione lineare (LPC)
Figura 8.13: Analisi LPC della vocale /i/ Nella fig. 8.13 e` riportata l’analisi della vocale /i/ mediante predizione lineare (LPC), [tratto da J. D. Markel, Formant Trajectory Estimation from a Linear Least Squares Inverse Filter Formulation, Speech Communications Research Lab Monograph #7, Oct. 1971.] In fig. 8.13 (a) il frame del segnale cui e` stata applicata la finestra di Hamming; (b) lo spettro del segnale; (c) lo spettro del filtro inverso; (d) l’inviluppo spettrale stimato come reciproco dello spettro del filtro inverso; (e) il residuo (eccitazione); (f) spettro del residuo. La frequenza di campionamento e` 10 kHz; lunghezza del frame N = 320 (32 ms); ordine del filtro LPC p = 14. Nella fig. 8.14 e` riportata l’analisi mediante predizione lineare (LPC) di un suono non vocalizzato (non periodico) costituito dalla consonante fricativa /s/. Infine nella fig. 8.15 e` riportata l’analisi della vocale /ae/ al variare dell’ordine del filtro LPC di predizione lineare: (a) il frame del segnale cui e` stata applicata la finestra di Hamming; (b) lo spettro del segnale; (c-f) l’inviluppo stimato con p che varia da 6 a 18. La frequenza di campionamento e` 6 kHz.
8.3.3 Stima dell’inviluppo spettrale mediante cepstrum Il metodo del cepstrum consente la separazione di un segnale y(n) = x(n) ∗ h(n), basato sul modello sorgente-filtro, in cui la sorgente x(n) passa attraverso un filtro descritto dalla risposta all’impulso
8.3. STIMA DELL’INVILUPPO SPETTRALE
8.19
Figura 8.14: Analisi LPC della fricativa /s/ h(n). Lo spettro del segnale y(n) risulta Y (k) = X(k) · H(k), che e` il prodotto di due spettri; k e` l’indice per le frequenze discrete. Il primo corrisponde allo spettro della sorgente e il secondo a quello del filtro. E’ difficile separare questi due spettri; pi`u facile e` separare l’inviluppo (reale) del filtro dal resto dello spettro, attribuendo tutta la fase alla sorgente. L’idea del cesptrum si basa sulla propriet`a del logaritmo log(a · b) = log(a) + log(b). Se prendiamo il logaritmo del modulo dello spettro Y (k), otteniamo log |Y (k)| = log(|X(k) · H(k)|) = log |X(k)| + log |H(k)| Se consideriamo il grafico di log |Y (k)| come un segnale nel tempo (dimenticandoci temporaneamente che in realt`a e` in frequenza), si possono distinguere due componenti: una oscillazione veloce, dovuta alla struttura armonica (righe) dell’eccitazione, e un andamento pi`u lento corrispondente alle risonanze del filtro (inviluppo spettrale). Si pu`o quindi ottenere una separazione delle due componenti, cio`e componente a variazione veloce e quella a variazione lenta, mediante rispettivamente un filtro passa alto e passa-basso, del segnale log |Y (k)| sempre interpretato come segnale nel tempo, vedi fig. 8.16 (sopra). Un metodo per separare le due componenti, consiste nell’usare la trasformata (nel nostro caso inversa) di Fourier. Pertanto DFT−1 (log |Y (k)|) = DFT−1 (log |X(k)|) + DFT−1 (log |H(k)|) La parte di DFT−1 (log |Y (k)|) verso l’origine descrive l’inviluppo spettrale, quella distante l’eccitazione. In particolare si noter`a una specie di riga in corrispondenza della periodicit`a del log |Y (k)| e quindi del periodo del suono , vedi fig. 8.16 (sotto). A questo punto si pu`o capire il gioco di parole che sta alla base del nome cesptrum. Infatti la parola ceps-trum corrisponde a spec-trum con la prima parte letta all’inverso. Analogamente si chiamiamo quefrency la ascissa di DFT −1 (log |Y (k)|) invece che frequency. Normalmente infatti la DFT −1 produce un segnale nel tempo, ma qui invece va
8.20
CAPITOLO 8. ANALISI DEI SUONI
Figura 8.15: Analisi LPC della vocale /ae/ al variare dell’ordine p del filtro di predizione lineare. interpretato come frequenza. In definitiva il cesptrum (reale) e` dato da c(n) = DFT−1 (log |Y (k)|)
(8.20)
Si noti che il cepstrum e` una funzione pari dell indice n, in quanto log |Y (k)| e` una funzione reale e pari. Questa propriet`a consente di usare la trasformata coseno inversa per ottenere c(n) da log |Y (k)|. L’indice n di c(n) e` chiamato quefrency, dove ad alta quefrency (variazioni rapide nello spettro in dB) corrispondono valori di n grandi e viceversa. Pertanto si pu`o assumere che i valori bassi della quefrency descrivano l’inviluppo spettrale, mentre quelli alti corrispondono all’eccitazione o sorgente. La separazione e` ottenuta moltiplicando il cepstrum per una finestra passa basso w LP (n) nel dominio del cepstrum. Ad es. |n| < nc 1 wLP (n) = 0.5 |n| = nc 0 |n| > nc
dove nc e` una opportuna soglia. Ad esempio per i suoni vocalizzati possiamo considerare che il formante pi`u basso F1 di un maschio adulto sia circa F1 = 270 Hz. Le oscillazioni dello spettro corrispondenti all’inviluppo non devono avere componenti sopra la quefrency q p = 3, 7 ms = 1/270 Hz. In definitiva per suoni periodici, n c < np , con np periodo in campioni. Per una frequenza di campionamento fS = 44.1 kHz, risulta np = fS qp = fS /F1 = 163 campioni. In pratica verr`a scelto come soglia un valore leggermente inferiore. Si noti che per la voce femminile la separazione e` pi`u difficile. Infatti l’altezza media della voce femminile e` di circa 256 Hz, mentre il formante pi`u basso e` a 310 Hz. Questi valori sono piuttosto vicini, e quindi meno facilmente separabili. L’inviluppo spettrale, in una scala proporzionale ai decibel, e` dato da log H(k) = DFT[ wLP · c(n) ] = DFT[wLP (n) · DFT−1 (log |Y (k)|) ]
(8.21)
In fig. 8.17 sono riportati esempi di analisi cepstrale per suoni vocalizzati e non vocalizzati, tratti da [Schafer and Rabiner, System for Automatic Formant Analysis of Voiced Speech, JASA, vol. 47, 1970, p. 634] .
8.3. STIMA DELL’INVILUPPO SPETTRALE
8.21
Figura 8.16: Esempio di cepstrum: sopra e` rappresentato log |Y (k)| 2 ; sotto il corrispondente cepstrum c(n) = DFT−1 (log |Y (k)|) M-8.14 Write a M AT L AB function for the spectral envelope computing, with the cepstral approach and experiment it for different kinds of sounds. Develop a pitch estimate function based on cepstral approach.
Si noti inoltre che i massimi dell’inviluppo spettrale corrispondono alle risonanze (formanti) molto caratteristiche per differenziare le varie vocali. Essi possono quindi essere individuati dall’inviluppo spettrale, come mostrato in fig. 8.18. M-8.15 Estimate the formants of a voice in a song and plot their position on the spectrogram.
8.3.4 Analisi mediante mel-cepstrum Studi di psicoacustica hanno mostrato che la percezione umana del contenuto frequenziale del suono non segue una scala lineare, ma all’incirca logaritmica. Infatti per ogni tono di f, misurata in Hz, corrisponde una altezza soggettiva misurata su una scala chiamata scala mel. Come riferimento della scala mel, si ha che 1000 Hz corrispondono a 1000 mel. Si usa una trasformazione non lineare della scala della frequenza per ottenere il corrispondente valore in mel (fig. 8.19), data da ( f if f ≤ 1 kHz mel(f ) = f if f > 1 kHz 2595 log 10 1 + 700 Per applicare la scala mel al cepstrum, si usa un banco di filtri triangolari passabanda con frequenza centrale in K valori equispaziati in mel, vedi fig. 8.20. La larghezza di banda di ciascun filtro e` la distanza dalla frequenza centrale del filtro precedente, moltiplicata per due. Il primo filtro
CAPITOLO 8. ANALISI DEI SUONI
8.22
Figura 8.17: Esempio di analisi cepstrale per suoni vocalizzati e non vocalizzati parte da 0. Pertanto la larghezza di banda dei filtri sotto 1000 Hz sar`a di 200 Hz; poi essa crescer`a esponenzialmente. Pertanto i filtri saranno a banda costante fino a 1000Hz, a Q costante sopra. Il mel-cesptrum vuole stimare l’inviluppo spettrale dell’uscita di questo banco di filtri. Sia quindi Yn il logaritmo dell’energia in uscita dal canale n, attraverso la trasformata coseno discreta (DCT) ottengo i coefficienti mel-cepstrali MFCC (mel frequency cepstral coefficient) mediante l’equazione N X 1 π Yn cos k n − ck = k = 0, . . . , K 2 N n=1 Si ricostruisce un inviluppo spettrale semplificato usando i primi K m coefficienti, con Km < K, analogamente a quanto visto per la stima dell’inviluppo con il cepstrum ˜ C(mel) =
Km X k=1
ck cos(2πk
mel ) Bm
dove Bm = e` la larghezza della banda analizzata, espressa in mel. Un tipico valore di K m usato la caratterizzazione e classificazione della musica e` K m = 20. Si noti che il coefficiente c0 e` il valore medio dei valori (in dB) dell’energia dei canali del banco di filtri. Pertanto esso e` in diretta relazione con l’energia del suono. Esso pu`o servire per la stima dell’energia. Inoltre normalmente viene trascurato, quando si vuole fare un confronto della forma dell’inviluppo, normalizzato in energia, di vari suoni, ad esempio nei problemi di riconoscimento. M-8.16 Write a M AT L AB function for the spectral envelope computing, with the mel-cepstral approach and experiment it for different kinds of sounds. Compare the results obtained with the different spectral envelope algorithms.
In fig. 8.21 e` mostrato un esempio di analisi con mel-cesptrum. In essa sono confrontati spettri in decibel, rappresentati su una scala frequenziale logaritmica. Nel primo quadrante e` rappresentato
8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALL’ANALISI SPETTRALE
8.23
Figura 8.18: Automatically formant estimation from cepstrally smooted log Spectra [from Schaefer Rabiner]. lo spettro del suono. Nel secondo (in alto a destra) l’inviluppo ottenuto mediante mel-cesptrum. Nel terzo (in basso a sinistra) l’inviluppo ottenuto mediante predizione lineare. Infine nell’ultimo grafico, lo spettro ottenuto usando tutti i coefficienti spettrali
8.4 Attributi a medio livello ricavabili dall’analisi spettrale Dall’analisi spettrale del suono vengono ricavati dei parametri che danno una descrizione delle caratteristiche fisiche a basso livello del suono. In particolare si ricava l’ampiezza, fase e frequenza istantanee di ogni parziale. Nel modello sinusoidale pi`u rumore si puo’ anche ricavare una descrizione delle caratteristiche spettrali del rumore. A partire da questi parametri a basso livello, e` possibile ricavare una descrizione ad un livello di astrazione pi`u alto, che possa servire sia per una eventuale trasformazione del suono stesso nella resintesi, sia per riconoscere la sorgente o per ricavare altre informazioni da essa trasmesse. Nel caso questi parametri vengano poi usati per la trasformazione, e` bene che siano di interpretazione intuitiva e che facciano riferimento, in qualche modo, agli attributi percettivi del suono. In altri casi si ricavano dallo spettro ad esempio il grado di armonicit`a, la rumorisit`a, la brillantezza; questi attributi descrivono le caratteristiche del suono e sono utili nei problemi di riconoscimento. Oltre agli attributi istantanei del suono, spesso sono utili le loro derivate. La derivata prima descrive la tendenza dell’evoluzione temporale, in quell’istante; talvolta viene presa in considerazione anche la derivata seconda, che descrive l’accelerazione dell’evoluzione temporale, che risulta spesso pi`u in relazione con le scelte volontarie. Nei segnali discreti, la derivata viene sostituita dal calcolo della differenza tra il valore corrente ed il precedente d(n) = p(n) − p(n − 1). Spesso per`o la stima della derivata cos`ı ottenuta e` abbastanza rumorosa ed e` opportuno smussarla. A questo scopo per ogni istante si calcola la parabola che approssima, ai minimi quadrati, il valore del parametro in tre punti adiacenti. Si usa quindi la derivata (prima o seconda) della parabola nel punto centrale. Dall’analisi di
CAPITOLO 8. ANALISI DEI SUONI
8.24 3500
3000
2500
mel
2000
1500
1000
500
0 0
1000
2000
3000
4000
5000 Hz
6000
7000
8000
9000
10000
Figura 8.19: Trasformazione da Hz a mel 1 0.9 0.8
Transmission
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0
1000
2000
3000
4000 5000 Frequency (Hz)
6000
7000
8000
Figura 8.20: Banco di filtri su scala mel questi parametri e della loro evoluzione, viene aiutata la segmentazione del suono, cio`e la separazione di regioni temporali con andamento omogeneo. M-8.17 Plot the time evolution of the first mel-cesptral coefficient of the analisis of a music fragment. Is it useful for detecting the transients and separating the notes?
M-8.18 Compute the first Km mel cepstrum coefficients of a set of notes of different instruments of the same pitch. Are there similarities among instruments of the same kind? How they vary wth the different dynamics (lodness) of the notes? Repeat the experiment with the sound of the same instrument played at different pitches.
8.4.1 Attributi a basso livello Descriviamo ora pi`u in dettaglio gli attributi pi`u significativi che si ottengono dalla rappresentazione sinusoidale pi`u rumore (o meglio residuo). Sia il suono x(n) scomposto nelle due componenti x S (n)
8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALL’ANALISI SPETTRALE Spectrum
Spectral Shape rebuild from 6 MFCC 20 Rel. Level (dB)
Level (dB)
60
40
20
100
500 1000
0
−20
5000
100
500 1000 5000 Hz Spectral Shape rebuild from 26 MFCC
Spectral Shape rebuild from LPC
20 Rel. Level (dB)
20 Rel. Level (dB)
8.25
0
−20
100
500 1000 Hz
0
−20
5000
100
500 1000 Hz
5000
Figura 8.21: Esempio di analisi del suono di un clarinetto con mel-cesptrum. P sinusoidale e xR (n) residuo: x(n) = xS (n) + xN (n), con xS (n) = Ii=1 ai cos[n2πfi (n)/FS + φi (n)]. In questa espressione ai rappresenta l’ampiezza, in scala lineare, della i-esima armonica e f i la sua frequenza. Essi sono parametri che variano nel tempo. Gli attributi qui descritti si intendono ricavati dall’analisi di un frame e vengono in genere riferiti temporalmente al centro del frame stesso, oppure alla fine quando l’analisi viene fatta in tempo reale. Essi sono quindi attributi istantanei del suono in esame. I pi`u usati sono: • ampiezza totale della componente sinusoidale risultante dalla somma di tutte le parziali di un frame espresse in decibel ! I X AStot = 20 log 10 ai i=1
dove ai e` l’ampiezza della parziale i-esima; • ampiezza della componente residuo, ottenuta dalla somma dei valori assoluti del residuo nel frame ! ! M −1 N −1 X X ARtot = 20 log 10 |xR (n)| = 20 log 10 |XR (k)| n=0
k=0
• ampiezza totale del suono Atot = 20 log 10 = 20 log 10
M −1 X n=0
!
I X
N −1 X
i=1
|x(n)|
ai +
k=0
= 20 log 10
N −1 X k=0
|XR (k)|
!
|X(k)|
!
CAPITOLO 8. ANALISI DEI SUONI
8.26
• peso dell’armonica i-esima rispetto al totale della componente sinusoidale ai wi = PI i=1 ai
• la frequenza fondamentale (pitch), che puo’ essere ottenuta come media pesata delle frequenze normalizzate di tutte le armoniche, F0 =
I X fi i=1
· wi
i
In un suono esattamente periodico, tutte le parziali sono multiple della fondamentale. Cio`e vale fi = iF 0. Nei suoni reali questo vale solo approssimativamente e pertanto la fondamentale deve essere stimata con espressioni del tipo di quella sopra indicata.
8.4.2 Attributi a livello superiore Vengono ora presentati attributi a pi`u alto livello che descrivono le caratteristiche spettrali del suono. Questi attributi sono anch’essi ricavati a livello di frame e sono quindi considerati istantanei, nel senso precisato sopra. I pi`u usati sono: • disarmonicit`a HD =
I X
|fi − iFo | · wi
i=1
• rumorosit`a (noiseness) e` il rapporto tra l’energia della parte rumorosa e l’energia totale PM −1 |xR (n)| N oisiness = Pn=0 M −1 n=0 |x(n)| In Mpeg7 si chiama AudioHarmonicity ed e` un descrittore del segnale.
• brillantezza, determinata come il baricentro dello spettro PN −1 k|X(k)| FS BR = Pk=0 · N −1 N |X(k)| k=0
Nel caso di suono armonici, dotati cio`e di altezza, si definisce anche la brillantezza in relazione alla fondamentale F 0 come PI I i ai X i wi = BRF 0 = Pi=1 I a i i=1 i=1
• pendenza spettrale, ottenuta dalla regressione lineare sui punti (f i , ai ) Stilt = PI
1
2 i=1 ti
dove
1 ti = wi
PI
·
I X ti ai i=1
wi
fi /wi2 fi − Pi=1 I 2 i=1 1/wi
!
8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALL’ANALISI SPETTRALE
8.27
• deviazione spettrale delle armoniche (Harmonic Spectral Deviation) I
HDEV =
1X [ ai − spec env(fi ) ] I i=1
dove spec env(fi ) e` l’inviluppo spettrale stimato con un dei metodi visti sipra, vautato alla frequenza fi della i-esima armonica. Questo parametro fa parte dei descrittori spettrali del timbro in Mpeg7. • rapporto l’energia delle armoniche dispari e pari P OER = P
2 i=pari ai
2 i=dispari ai
Questo parametro e` utile per distinguere i suoni tipo clarinetti, che hanno poca energia nelle armoniche pari, comportandosi come un tubo chiuso ad una estremit`a, da quelli tipo tromba, che hanno energia simile nei due tipi di armoniche. • tristimulus. Questi parametri sono stati pensati per pesare differentemente le armoniche nelle varie zone: fondamentale (T 1), dalla seconda alla quarta (T 2), le rimanenti (T 3). E’ definito da PI ai a2 + a3 + a4 a1 P P T2 = T 3 = Pi=5 = 1 − T 1 − T 2 T1 = a a a i i i i i i In fig. 8.22(a) e` riportata la tipica rappresentazione del tristimulus dove nellasse x e` indicato
(a)
(b)
Figura 8.22: (a) Basic layout of the tristimulus diagram: T 3 vs. T 2. (b) Tristimulus diagram showing the timbral time course of a note played on a clarinet. The numbers alongside the plot represent time in milliseconds after the onset of the note and the white circle represents the steady state timbre, after an initial transient. (Pollard and Jansson, 1982) T 3 e nellasse y e` indicato T2. Pertanto i suoni con alto T1 (fonadmentale forte) sono vicino
CAPITOLO 8. ANALISI DEI SUONI
8.28
allorigine, con alto T2 (alte armniche medie) sono in alto, con alto T3 (alte armoniche superiori) sono a destra. Inoltre il fatto che la somma di T 1 + T 2 + T 3 = 1 implica che i suoni siano rappresentati dentro il triangolo con vertici in (0,0), (0,1) e (1,0). In fig. 8.22(b) e` rappresentata levoluzione del tristimulus di una nota di clarinetto. • bandwidth BW =
PN −1 k=0
• ampiezza (valore efficace del suono) amp =
|X(k)| · |fk − BR| PN −1 k=0 |X(k)| sX
X(k)2
k
• spectral rolloff definito come la frequenza R s sotto la quale e` concentrata 85% della distribuzione di ampiezza Rs N −1 X X |X(k)| |X(k)| = 0.85 · k=1
k=1
Questa e` una altra misura della forma dello spettro.
• flusso spettrale (Spectral Flux) e` definito come la distanza euclidea tra due spettri in ampiezza di frames consecutivi N −1 X SF = [Nt (k) − Nt−1 (k)]2 k=1
dove Nt (k) e Nt (k) sono rispettivamente le ampiezze spettrale della trasformata di Fourier del frame all’istant t e t − 1. Il flusso spettrale e` una misura della quantit`a di variazione locale dello spettro ed e` considerato, da alcuni esperimenti, essere correlato alla terza dimensione percettiva del timbro (vedi la percezione del timbro nel capitolo 2 delle dispense).
M-8.19 Implement the feature descriptors described in this section and compare their effectiveness on different kinds of sounds. Plot their evolution from the attack to the decay of a instrumental tone. Plot their evolution on a singing voice (e.g. Tom’s Dinner by Susan Vega
8.4.3 Attributi di segmento sonoro Quando si considera la successione temporale di un attributo nei frames successivi, si ottiene una funzione del tempo definita negli istanti di riferimento dei vari frames. temporalmente i punti saranno separati del hop size usato nell’analisi. Essi sono quindi sottocampionati rispetto al segnale. Con forme di interpolazione o approssimazione, eventualmente smussando l’andamento, si possono ottenere gli andamenti a frequenza di campionamento. Come detto sopra, e` importante anche caratterizzare l’evoluzione temporale di questi parametri. Inoltre si possono ricavare degli attributi di segmento. Con il termine segmento si intende una porzione di suono di caratteristiche omogenee (ad esempio il regime sostenuto) o funzionalmente simili (ad esempio il transitorio di attacco). L’operazione di segmentazione del suono consiste nel dividerlo in segmenti e viene fatta esaminando gli attributi a livello di segnale. Le traiettoria degli attributi viene descritta calcolando per ogni parametro par
8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALL’ANALISI SPETTRALE
8.29
• la derivata al frame j der(j) =
par(j) − par(j − 1) H/FS
dove H e` l’hop size e FS e` la frequenza di campionamento; • media pesata del parametro su tutti i frames j P mediapar =
j
par(j)amp(j) P j amp(j)
• varianza pesata del parametro su tutti i frames j P 2 j [par(j) − mediapar ] · amp(j) P varpar = j amp(j)
Ci sono alcuni parametri che descrivono le caratteristiche di una nota. Essi si ottengono una volta separata la nota dal contesto. • logaritmo del tempo di attacco (Log-Attack Time) LAT = log10 (attack time) dove attack time e` la durata del tempo di attacco del suono. Questo parametro e` molto importante per il riconoscimento dei timbri. Esso infatti e` correlato ad una delle dimensioni percettive dello spazio timbrico ed e` stato inserito tra i descrittori temporali del timbro in MPEG7. Si noti che la determinazione dell’inizio e fine dell’attacco, e` una operazione difficile: spesso la nota e` preceduta da rumore o altro, che rende incerta la determinazione dell’ effettivo inizio. Inoltre dall’esame dell’inviluppo temporale, non e` neppure facile determinare il termine. Spesso si fa riferimento al massimo dell’inviluppo; questo va bene per suoni percussivi, come il pianoforte. Per suoni ad eccitazione sostenuta, come gli archi o i fiati, il massimo pu`o essere trovato ben in avanti, quando il transitorio di attacco e` terminato; il musicista spesso tende a controllare l’espressivit`a del suono, mediante il controllo dell’inviluppo temporale. Si usa quindi prendere come soglie vaori percentuali dell’ampiezza massima, ad esempio rispettivamente 10 % e 90 % percento del massimo. • rapporto rumore - parte armonica (Noise to Harmonic Ratio - NHR) definito come il rapporto tra l’energia della parte rumorosa e l’energia della parte armonica per la parte del regime (sustain) si definisce la modulazione dell’energia e la modulazione della frequenza fondamentale. na volta separato il regime, si sottrae dall’inviluppo d’energia in dB la sua tendenza (lineare in dB). Poi si calcola lo spettro dell’inviluppo corretto e si seleziona il picco nell’estensione [1 - 10 Hz]. Con lo stesso procedimento si determina la modulazione del periodo, sottraendo la tendenza lineare della fondamentale durante il regime, e poi trovando il massimo nello spettro dell’inviluppo dell’altezza corretto. La frequenza del massimo corrisponder`e alla frequenza del tremolo, normalmente tra 4 e 8 Hz. • baricentro dell’inviluppo temporale (temporal centroid) P t inv(t) · t TC = P t inv(t)
CAPITOLO 8. ANALISI DEI SUONI
8.30
dove inv(t) e` l’inviluppo temporale. Questo parametro e` molto utile per distinguere i suoni percussivi da quelli sostenuti. Anche questo parametro e` inserito tra i descrittori temporali del timbro in Mpeg7. M-8.20 Implement the feature descriptors described in these sections and compare their effectiveness on different kinds of sounds
8.4.4 Onset detection A musical note is considered as composed of a initial attack transient phse, followed by a steadystate phase and a final decay. Attack transients are zones of short duration and fast variations of the signal spectral content (non-stationarity), where resonances are still building up. Their perception is caused by changes in the intensity, pitch or timbre of a sound. Because of the unpredictability of such changes, they are difficult to model. Attack transients precede the steady state of the signal, when the signal is stationary, thus easily predictable. Note onset is defined as the beginning of attack transient of a note. The boundaries between notes and different types of events are often ill-defined. The performer can introduce variations and modulations in a given sound without implying the presence of new notes. This can also occur as a consequence of the processing of the acoustic signal, recording conditions or just as an expressivity feature in the musical performance (i.e. vibratos in woodwind, brass and string instruments). Detection of onsets in polyphonic mixtures is difficult even for human listeners. Attack transients present some typical behaviour: 1 Energy burst: in a note’s energy profile, the highest concentration of energy can be found during the attack (when a steep increase can be observed). After that, energy progressively decreases (Fig. 8.23 (a)). The more impulsive the components of the signal are (percussive sounds as opposed to tonal - more sinusoidal - sounds), the more sudden this increase-decrease energy characteristic becomes. Duration: the attack part of a note is usually very short, introducing significant changes to the signal (Fig. 8.23). This abruptness is a trademark of transients. It is particularly acute for percussive sounds. Surprise: this is also related to the abruptness of transients, but from the statistical point of view. New events are unconnected to previous events, thus cannot be predicted from these. The proliferation of elements whose values are completely unexpected is more likely during transients. Chaotic nature: during transients, the signal includes unstable chaotic elements, which quickly stabilise when entering the steady state (see Fig. 8.23 (b)). These elements are not only highly uncorrelated with previous and future signal values, but also within different signal elements at a given time. Steady-state: although obvious, an important characteristic of transients is that they are followed by the steady-state of the note. Chaotic components followed by chaotic components can account for noise, while a stable follow-up hints at the possible presence of a note. 1
from PhD dissertation of J. Bello 2003
8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALL’ANALISI SPETTRALE
8.31
Figura 8.23: A sequence of two piano notes (a) and the corresponding spectrogram (b). The energy increase, short duration and instability related to transients can be observed as well as the stability of the steady-state part [from Bello 2003]. 8.4.4.1
Onset detection by Local energy
Despite the number of variants, practically all of them are based on the calculation of a first order difference function of the signal amplitude envelopes and taking the maximum rising slope as an onset or an onset component. An example is the algorithm based on the surfboard method of Schloss (1985), which involves smoothing the signal to produce an amplitude envelope and finding peaks in its slope using linear regression. In fig. 8.24 the effect of a simple onset detector based on Local energy is shown. In fig. 8.24(a) the time-domain audio signal; in fig. 8.24(b) its smoothed amplitude envelope drawn in bold over it, computed by a 40ms windowed RMS smoothing with 75% overlap and in fig. 8.24(c) peaks in slope shown by dotted lines tangential to the envelope. This method is lossy, in that it fails to detect the onsets of many notes which are masked by simultaneously sounding notes. Occasional false onsets are detected, such as those caused by amplitude modulation in the signal. The first order difference function reflects well the loudness of an onsetting sound, but its maximum values fail to precisely mark the time of an onset. This is due to two reasons. First, especially low sounds may take some time to come to the point where their amplitude is maximally rising, and thus that point is crucially late from the physical onset of a sound and leads to an incorrect cross-band association with the higher frequencies. Second, the onset track of a sound is most often not monotonically increasing, and thus we would have several local maxima in the first order difference function
CAPITOLO 8. ANALISI DEI SUONI
8.32
(a)
(b)
(c)
Figura 8.24: Example of onset detector based on local energy: time-domain audio signal (a), 40ms windowed RMS smoothing with 75% overlap (b), peaks in slope of envelope (c). near the physical onset. It is possible to handles both of these problems by using the relative difference function. Let E(t) the Short time energy as defined in sec. 8.2.1. The relative difference function is defined as Dr (t) =
1 d d E(t) = log E(t) E(t) dt dt
This function computes the amount of change in relation to the signal level. This is the same as differentiating the logarithm of the energy envelope. This is psycho-acoustically relevant, since perceived increase in signal amplitude is in relation to its level, the same amount of increase being more prominent in a quiet signal. Indeed the just detectable change in intensity is approximately proportional to the intensity of the signal, i.e. δI/I, the Weber fraction, is a constant. This relationship holds for intensities from about 20 dB to about 100 dB above the absolute threshold. Onset components are detected by a simple peak picking operation, which looks for peaks above a global threshold in the relative difference function Dr (t). The relative difference function effectively solves the above mentioned problems by detecting the onset times of low sounds earlier and, more importantly, by handling complicated onset tracks, since oscillations in the onset track of a sound do not matter in relative terms after its amplitude has started rising. In fig. 8.25 the absolute and relative difference functions of the onset of a piano sound, on six different frequency band ,are plotted. Both of the benefits discussed can be seen clearly. To improve the performance of the onset detector, first the overall loudness of the signal is normalized to a reference level using a psychoacoustics model of loudness. Then a filterbank divides the signal into many non-overlapping bands (often critical band are used). At each band, we detect onset components and determine their time and intensity. In final phase, the onset components are combined to yield onsets. Energy-based algorithms are fast and easy to implement, however their effectiveness decreases when dealing with non-percussive signals and when transient energy overlaps in complex mixtures. Energy bursts related to transient information are more noticeable at higher frequencies as the tonal energy is usually concentrated at lower frequencies, masking the effect of these variations on the signal content. More advanced models utilize band-wise processing and a psychoacoustic model of intensity coding to combine the results from the separate frequency bands.
8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALL’ANALISI SPETTRALE
8.33
Figura 8.25: Onset of a piano sound. First order absolute (dashed) and relative (solid) difference functions of the amplitude envelopes of six different frequency bands [from Klapuri 1999]. 8.4.4.2
Onset detection in frequency domain
This attack transient noise is particularly noticeable at high frequency locations, since at low frequencies, high concentrations of energy (in the bins corresponding to the first few harmonics of the played note) mask this effect. The High Frequency Content (HFC) function, is defined, for the jth frame, as DH (j) =
X
k|Xj (k)|
k
where |Xj (.)| is the spectral magnitude of the jth frame. Aim of this function is to emphasize the high frequency content of the sound and it works well for identifying percussive sounds. If compared with energy, this HFC function has greater amplitude during the transient/attack time. 8.4.4.3
Onset detection by complex domain approach
The HFC precisely identifies percussive onsets, but is less responsive to non-percussive components. In the complex domain approach, to cope with harmonic changes of low transient timbres, a target ˆ k is generated as STFT value X ˆ k [n] = |X ˆ k [n]|ej φˆk [n] X φˆk [n] = princarg(2φk [n − 1] − φk [n − 2])
where φk [n] is the estimated phase deviation. The measure of the Euclidean distance, in the complex ˆ k and the observed STFT Xk allows the definition of a domain, between the target STFT value X
CAPITOLO 8. ANALISI DEI SUONI
8.34
Figura 8.26: Piano signal (a), its high frequency content (b), the profile of High Frequency Content function [from Bello 2003]. detection function DC [n] =
1 X ˆ ||Xk [n] − Xk [n]||2 N k
The detection function still contains spurious peaks and some pre-processing and low pass filtering is required before peak picking. M-8.21 Implement the onset detectors described in these sections and compare their performance on different kinds of music
8.4.5 Meter extimation algorithms As a part of a larger project of modeling the cognition of basic musical structures, Temperley and Sleator proposed a meter estimation algorithm for arbitrary MIDI files [Temperley99: D. Temperley and D. Sleator, Modeling Meter and Harmony: A Preference-Rule Approach, Computer Music Journal, 23(1), 1027, Spring 1999]. The algorithm was based on implementing the preference rules verbally described in [Lerdahl 1983], and produced the whole metrical hierarchy as output. Dixon proposed a rule-based system to track the tactus pulse of expressive MIDI performances [S. Dixon, Automatic Extraction of Tempo and Beat from Expressive Performances, J. New Music Research 30 (1), 39-58, 2001]. The method works quite well for MIDI files of all types but has problems with audio files which do not contain sharp attacks. The source codes of both Temperley’s and Dixon’s systems are publicly available for testing. See http://www.link.cs.cmu.edu/music-analysis and http://www.oefai.at/˜simon/beatroot M-8.22 The source codes of both Temperley’s and Dixon’s systems are publicly available for testing. Test and compare their performance on different kinds of music.
Indice 8 Analisi dei suoni 8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Parametri nel dominio del tempo . . . . . . . . . . . . . . . . . . . . . 8.2.1 Short-Time Average Energy e Magnitude . . . . . . . . . . . . 8.2.2 Short-Time Average Zero-Crossing Rate . . . . . . . . . . . . . 8.2.3 Short-Time Autocorrelation Function . . . . . . . . . . . . . . 8.2.4 Short-Time Average Magnitude Difference Function . . . . . . 8.2.5 Stima del pitch (F0) . . . . . . . . . . . . . . . . . . . . . . . 8.3 Stima dell’inviluppo spettrale . . . . . . . . . . . . . . . . . . . . . . . 8.3.1 Stima dell’inviluppo spettrale mediante banco di filtri . . . . . . 8.3.2 Stima dell’inviluppo spettrale mediante predizione lineare (LPC) 8.3.2.1 Esempi di analisi mediante predizione lineare (LPC) . 8.3.3 Stima dell’inviluppo spettrale mediante cepstrum . . . . . . . . 8.3.4 Analisi mediante mel-cepstrum . . . . . . . . . . . . . . . . . 8.4 Attributi a medio livello ricavabili dall’analisi spettrale . . . . . . . . . 8.4.1 Attributi a basso livello . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Attributi a livello superiore . . . . . . . . . . . . . . . . . . . . 8.4.3 Attributi di segmento sonoro . . . . . . . . . . . . . . . . . . . 8.4.4 Onset detection . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.4.1 Onset detection by Local energy . . . . . . . . . . . 8.4.4.2 Onset detection in frequency domain . . . . . . . . . 8.4.4.3 Onset detection by complex domain approach . . . . 8.4.5 Meter extimation algorithms . . . . . . . . . . . . . . . . . . .
8.35
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
8.1 8.1 8.2 8.5 8.7 8.10 8.13 8.15 8.16 8.16 8.17 8.18 8.18 8.21 8.23 8.24 8.26 8.28 8.30 8.31 8.33 8.33 8.34
Chapter 9
Music information processing version 13th December 2004
9.1 Models for musical analysis A simplistic but typical flow diagram of musical information processing in the brain as used by music cognitionists is given in figure 9.1. Here an acoustic signal is processed by the inner ear (cochlea/filterbank) and perceptually grouped via the Gestalt principles (see sect. 9.1.3). From there, low-level music perception detects basic musical features which are passed to high-level cognition mechanisms analyze the structure of the song, which in turn creates the highly personal meaning and emotion.
Figure 9.1: A music cognitionist signal flow diagram [from Scheirer 1996].
9.1.1 Cognitive processing of music information Mc Adams. Audition: Cognitive Psychology of Music 1996 9.1
9.2
CHAPTER 9. MUSIC INFORMATION PROCESSING
When we consider the perception of large scale structures like music, we need to call into play all kinds of relationships over very large time scales on the order of tens of minutes or even hours. It is thus of great interest to try to understand how larger scale temporal structures, such as music, are represented and processed by human listeners. These psychological mechanisms are necessary for the sense of global form that gives rise to expectancies that in turn may be the basis for affective and emotional responses to musical works. One of the main goals of auditory cognitive psychology is to understand how humans can ”think in sound” outside the verbal domain. The cognitive point of view postulates internal (or mental) representations of abstract and specific properties of the musical sound environment, as well as processes that operate on these representations. For example, sensory information related to frequency is transformed into pitch, is then categorized into a note value in a musical scale and then ultimately is transformed into a musical function within a given context.
Figure 9.2: Schema illustrating the various aspects of musical information processing [from McAdams 1996]. The processing of musical information may be conceived globally as involving a number of different ”stages” (Fig. 9.2). Following the spectral analysis and transduction of acoustic vibrations in the auditory nerve, the auditory system appears to employ a number of mechanisms (primitive auditory grouping processes) that organize the acoustic mixture arriving at the ears into mental ”descriptions”. These descriptions represent events produced by sound sources and their behaviour through time. Research has shown that the building of these descriptions is based on a limited number of acoustic cues that may reinforce one another or give conflicting evidence. This state of affairs suggests the existence of some kind of process (grouping decisions) that sorts out all of the available information and arrives at a representation of the events and sound sources that are present in the environment that is as unambiguous as possible. According to theory of auditory scene analysis, the computation
9.1. MODELS FOR MUSICAL ANALYSIS
9.3
of perceptual attributes of events and event sequences depends on how the acoustic information has been organized at an earlier stage. Attributes of individual musical events include pitch, loudness, and timbre, while those of musical event sequences include melodic contour, pitch intervals, and rhythmic pattern. Thus a composer’s control of auditory organization by a judicious arrangement of notes can affect the perceptual result. Once the information is organized into events and event streams, complete with their derived perceptual attributes, what is conventionally considered to be music perception begins. • The auditory attributes activate abstract knowledge structures that represent in long-term memory the relations between events that have been encountered repeatedly through experience in a given cultural environment. That is, they encode various kinds of regularities experienced in the world. Bregman (1993) has described regularities in the physical world and believes that their processing at the level of primitive auditory organization is probably to a large extent innate. There are, however, different kinds of relations that can be perceived among events: at the level of pitches, durations, timbres, and so on. These structures would therefore include knowledge of systems of pitch relations (such as scales and harmonies), temporal relations (such as rhythm and meter), and perhaps even timbre relations (derived from the kinds of instruments usually encountered, as well as their combinations). The sound structures to be found in various occidental cultures are not the same as those found in Korea, Central Africa or Indonesia, for example. Many of the relational systems have been shown to be hierarchical in nature. • A further stage of processing (event structure processing) assembles the events into a structured mental representation of the musical form as understood up to that point by the listener. Particularly in Western tonal/metric music, hierarchical organization plays a strong role in the accumulation of a mental representation of musical form. At this point there is a strong convergence of rhythmic-metric and pitch structures in the elaboration of an event hierarchy in which certain events are perceived to be stronger, more important structurally, and more stable. The functional values that events and groups of events acquire within an event hierarchy generate perceptions of musical tension and relaxation or, in other words, musical movement. They also generate expectancies about where the music should be going in the near future based both on what has already happened and on abstract knowledge of habitual musical forms of the culture– even for pieces that one has never heard before. In a sense, we are oriented–by what has been heard and by what we ”know” about the musical style–to expect a certain type of event to follow at certain pitches and at certain points in time. • The expectancies drive and influence the activation of knowledge structures that affect the way we interpret subsequent sensory information. For example, we start to hear a certain number of pitches, a system of relations is evoked and we infer a certain key; we then expect that future information that comes in is going to conform to that key. A kind of loop of activity is set up, slowly building a mental representation that is limited in its detail by how much knowledge one actually has of the music being heard. It is also limited by one’s ability to represent things over the long term, which itself depends on the kind of acculturation and training one has had. It does not seem too extreme to imagine that a Western musician could build up a mental structure of much larger scale and greater detail when listening to a Mahler symphony that lasts one and half hours, than could a person who just walked out of the bush in Central Africa. The reverse would be true for the perception of complex Pygmy polyphonic forms. However, on the one hand we are capable of hearing and enjoying something new, suggesting that there may be inborn precursors to musical comprehension in all human beings that makes this possible.
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.4
On the other hand, what we do hear and understand the first time we encounter a new musical culture is most likely not what a native of that culture experiences. The expectancies generated by this accumulating representation can also affect the grouping decisions at the basic level of auditory information processing. This is very important because in music composition, by playing around with some of these processes, one can set up perceptual contexts that affect the way the listener will tend to organize new sensory information. This process involves what Bregman (1990) has called schema-driven processes of auditory organization. While the nature and organization of these stages are probably similar across cultures in terms of the underlying perceptual and cognitive processing mechanisms involved, the ”higher level” processes beyond computation of perceptual attributes depend quite strongly on experience and accumulated knowledge that is necessarily culture-specific.
9.1.2 Auditory grouping Sounds and sound changes representing information must be capable of being detected by the listener. A particular configuration of sound parameters should convey consistent percept to the user. Auditory grouping studies the perceptual process by which the listener separates out the information from an acoustic signal into individual meaningful sounds (fig. 9.3).
Figure 9.3: Auditory organization The sounds entering our ears may come from a variety of sources. The auditory system is faced with the complex tasks of: • Segregating those components of the combined sound that come from different sources. • Grouping those components of the combined sound that come from the same source. In hearing, we tend to organise sounds into auditory objects or streams. Bregman (1990) has termed this process Auditory Scene Analysis (fig. 9.4). It includes all the sequential and cross-spectral process which operate to assign relevant components of the signal to perceptual objects denoted auditory streams. The brain needs to group simultaneously (separating out which frequency components that are present at a particular time have come from the same sound source) and also successively(deciding which group of components at one time is a continuation of a previous group). Some processes exclude part of the signal from a particular stream. Others help to bind each stream together. A stream is
9.1. MODELS FOR MUSICAL ANALYSIS
9.5
Figure 9.4: Auditory scene analysis • a psychological organization with perceptual attributes that are not just the sum of the percept of its component but are dependent upon the configuration of the stream. • a sequence of auditory events whose elements are related perceptually to one another, the stream being segregated from other co-occurring auditory events. • A psychological organization whose function is to mentally represent the acoustic activity of a single source. Auditory streaming is the formation of perceptually distinct apparent sound sources. Temporal order judgment is good within a stream but bad between steams. Examples include: • implied polyphony, • noise burst replacing a consonant in a sentence, • click superimposed on a sentence or melody. An auditory scene is the acoustic pressure wave carrying the combined evidence from all the sound sources present. Auditory scene analysis is the process of decoding the auditory scene, which occurs in auditory perception. We may distinguish analytic vs. synthetic listening. In synthetic perception the information is interpreted as generally as possible, e.g. hearing a room full of voices. In analytic perception, the information is used to to identify the components of the scene to finer levels, e.g. listening to a particular utterance in the crowded room. Interpretation of environmental sounds involves combining analytic and synthetic listening, e.g. hearing the message of a particular speaker. Gestalt psychology theory offers an useful perspective for interpreting the auditory scene analysis beaviour.
9.1.3 Gestalt perception Gestalt (pronounced G - e - sh - talt) psychology is a movement in experimental psychology that began just prior to World War I. It made important contributions to the study of visual perception and problem solving. The approach of Gestalt psychology has been extended to research in areas such as thinking, memory, and the nature of aesthetics. The word ’Gestalt’ means ’form’ or ’shape’. The Gestalt approach emphasizes that we perceive objects as well-organized patterns rather than separate component parts. According to this approach, when we open our eyes we do not see fractional
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.6
particles in disorder. Instead, we notice larger areas with defined shapes and patterns. The ”whole” that we see is something that is more structured and cohesive than a group of separate particles. Gestalt theory states that perceptual elements are (in the process of perception) grouped together to form a single perceived whole (a gestalt). The focal point of Gestalt theory is the idea of grouping, or how we tend to interpret a visual field or problem in a certain way. According to the Gestalt psychologists, the way that we perceive objects, both visual and auditory, is determined by certain principles (gestalt principles). These principles function so that our perceptual world is organised into the simplest pattern consistent with the sensory information and with our experience. The things that we see are organised into patterns or figures. In hearing, we tend to organise sounds into auditory objects or streams. Bregman (1990) has termed this process Auditory Scene Analysis.
Figure 9.5: Experiments of Proximity and Good Continuation The most important principles are Proximity: components that are perceptually close to each other are more likely to be grouped together. For example temporal proximity or frequency proximity. The principle of proximity refers to distances between auditory features with respect to their onsets, pitch, and loudness. Features that are grouped together have a small distance between each other, and a long distance to elements of another group. Tones close in frequency will group together, so as to minimize the extent of frequency jumps and the number of streams. Tones with similar timbre will tend to group together. Speech sounds of similar pitch will tend to be heard from the same speaker. Sounds from different locations are harder to group together across time than those from the same location. The importance of pitch proximity in audition is reflected in the fact that melodies all over the world use small pitch intervals from note to note. Violations of proximity have been used in various periods and genres of both Western and non-Western music for a variety of effects. For example, fission based on pitch proximity was used to enrich the texture so that out of a
9.1. MODELS FOR MUSICAL ANALYSIS
9.7
Figure 9.6: Experiments of Closure and Common Fate single succession of notes, two melodic lines could be heard. Temporal and pitch proximity are competitive criteria, e.g. the slow sequence of notes A B A B . . . (figure 9.5, A1), which contains large pitch jumps, is perceived as one stream. The same sequence of notes played very fast (figure 9.5, A2) produces one perceptual stream consisting of As and another one consisting of Bs. A visual example is given in figure 9.7: the arrangement of points is not seen as a set of rows but rather a set of columns. We tend to perceive items that are near each other as groups.
Figure 9.7: Example of proximity gestalt rule Similarity: components which share the same attributes are perceived as related or as a whole. E.g. colour or form, in visual perception or common onset, common offset, common frequency, common frequency modulation, common amplitude modulation in auditory perception. For example one can follow the piano part in a group of instruments by following the sounds that have the timbre consistent with that of a piano. One can perceptually segregate one speaker’s voice from those of others by following the pitch of the voice. Similarity is very similar to proximity, but refers to properties of a sound, which cannot be easily identified with a single physical dimension, like timbre. A visual example is given in figure 9.8: things which share visual characteristics such as shape, size, color, texture, value or orientation will be seen as belonging together. In the example of 9.8(a), the two filled lines gives our eyes the impression of two horizontal lines, even though all
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.8
(a)
(b)
Figure 9.8: Example of similarity gestalt grouping principle. the circles are equidistant from each other. In the example of 9.8(b), the larger circles appear to belong together because of the similiarity in size.
Figure 9.9: Example of similarity gestalt grouping principle. Another visual example is given in figure 9.9: So in the graphic on the left you probably see an X of fir trees against a background of the others; in the graphic on the right you may see a square of the other trees, partly surrounded by fir trees. The fact that in one we see an X and in the other a square is, incidentally, an example of good form or pragnanz principle, stating that psychological organization will always be as ’good’ as prevailing conditions allow. For Gestalt psychologists form is the primitive unit of perception. When we perceive, we will always pick out form. Good continuation: Components that display smooth transitions from one state to another are perceived as related. Examples of smooth transitions are: proximity in time of offset of one component with onset of another; frequency proximity of consecutive components; constant glide trajectory of consecutive components; smooth transition from one state to another state for the same parameter. For example an abrupt change in the pitch of a voice produces the illusion that a different speaker has interrupted the original. The perception appears to depend on whether or not the intonation contour changes in a natural way. Sound that is interrupted by a noise that masks it, can appear to be continuous. Alternations of sound and mask can give the illusion of continuity with the auditory system interpolating across the mask. In figure 9.5, B), high (H) and low (L) tones alternate. If the notes are connected by glissandi (figure 9.5, B1), both tones are grouped to a single stream. If high and low notes remain unconnected (figure 1, B2), Hs and Ls each group to a separate stream.
9.1. MODELS FOR MUSICAL ANALYSIS
(a)
9.9
(b)
Figure 9.10: Examples of good continuation gestalt grouping principle. A visual example is given in figure 9.10. The law of good continuation states that objects arranged in either a straight line or a smooth curve tend to be seen as a unit. In figure 9.10(a) we distinguish two lines, one from a to b and another from c to d, even though this graphic could represent another set of lines, one from a to d and the other from c to b. Nevertheless, we are more likely to identify line a to b, which has better continuation than the line from a to d, which has an obvious turn. In figure 9.10(b) we perceive the figure as two crossed lines instead of 4 lines meeting at the centre. Common Fate Sounds will tend to be grouped together if they vary together over time. Differences in onset and offset in particular are very strong grouping cues. Also, sounds that are modulated together (amplitude or frequency modulation) tend to be grouped together. The principle ’common fate’ groups frequency components together, when similar changes occur synchronously, e.g. synchronous onsets, glides, or vibrato. Chowning (Fig. 9.6, D) made the following experiment: First three pure tones are played. A chord is heard, containing the three pitches. Then the full set of harmonics for three vowels (/oh/, /ah/, and /eh/) is added, with the given frequencies as fundamental frequencies, but without frequency fluctuations. This is not heard as a mixture of voices but as a complex sound in which the three pitches are not clear. Finally, the three sets of harmonics are differentiated from one another by their patterns of fluctuation. We then hear three vocal sounds being sung at three different pitches. Closure This principle is the tendency to perceive things as continuous even though they may be discontinuous. If the gaps in a sound are filled in with another more intense sound, the original sound may be perceived as being continuous. For example, if part of a sentence is replaced by the sound of a door slam, the speaker’s voice may be perceived as being continuous (continuing through the door slam). The principle of closure completes fragmentary features, which already have a ’good Gestalt’. E.g. ascending and descending glissandi are interrupted by rests (Fig. 9.6, C2). Three temporally separated lines are heard one after the other. Then noise is added during the rests (Fig. 9.6 C1). This noise is so loud, that it would mask the glissando, unless it would be interrupted by rests. Amazingly the interrupted glissandi are perceived as being continuous. They have ’good Gestalt’: They are proximate in frequency before and after the rests. So they can easily be completed by a perceived good continuation. This completion can be understood as an auditory compensation for masking.
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.10
(a)
(b)
Figure 9.11: Example of closure. Figure / Ground It is usual to perceive one sound source as the principal sound source to which one is attending, and relegate all other sounds to be background. We may switch our attention from one sound source to another quite easily. What was once figure (the sound to which we were attending) may now become ground (the background sound). An important topics in auditory perception are attention and learning. In a cocktail party environment, we can focus on one speaker. Our attention selects this stream. Also, whenever some aspect of a sound changes, while the rest remains relatively unchanging, then that aspect is drawn to the listener’s attention (’figure ground phenomenon’). Let us give an example for learning: The perceived illusory continuity (see Fig. 9.6, C) of a tune through an interrupting noise is even stronger, when the tune is more familiar.
Figure 9.12: Rubin vase: example of figure/ground principle. The Rubin vase shown in Fig. 9.12 is an example of this tendency to pick out form. We don’t simply see black and white shapes - we see two faces and a vase. The problem here is that we see the two forms of equal importance. If the source of this message wants us to perceive a vase, then the vase is the intended figure and the black background is the ground. The problem here is a confusion of figure and ground. A similar everyday example is: • an attractive presenter appears with a product; she is wearing a ’conservative’ dress; eyetracking studies show substantial attention to the product; three days later, brand-name recall is high; • an attractive presenter appears with a product; she is wearing a ’revealing’ dress; eyetracking shows most attention on the presenter; brand-name recall is low.
9.1. MODELS FOR MUSICAL ANALYSIS
9.11
Figure 9.13: Horses by M. Escher. An artistic example of figure and ground interchange. Escher often designed art which played around with figure and ground in interesting ways. Look at how figure and ground interchange in fig. 9.13. Do you see the white horses and riders? Now look for the black horses and riders. Gestalt grouping laws do not seem to act independently. Instead, they appear to influence each other, so that the final perception is a combination of all of the Gestalt grouping laws acting together. Gestalt theory applies to all aspects of human learning, although it applies most directly to perception and problem-solving. 9.1.3.1
Musical examples of auditory organization
1
Let us consider the notional experience of part of a specific and simple piece of Western tonal music, the first eight bars of El Noy de la Mare, a Catalan folk song arranged by Miguel Llobet (fig. 9.14). How do we understand what we hear? How do we make sense of what we hear as music? One of the most evident features of the piece is that it has a melody - in some respects it is a melody. It seems to exist as a succession of discrete pitches in time, yet it is likely to be heard as one thing, one integrated entity, as pitch moving in time. The fact that a melody can be heard as pitch moving in time when all that a listener is confronted with is a sequence of separate pitches is something that has perplexed philosophers for centuries. Auditory scene analysis suggests that gestalt laws are heuristics or best guesses that we employ in parsing or making sense of our auditory environment. Bregman refers to the processes whereby we make sense of the world of sound as Auditory Scene Analysis, a non-conscious process of guessing about ”what’s making the noise out there”, but guessing in a way that fits consistently with the facts of the world. Auditory Scene Analysis processes operate on sound signals, employing principles that enable the making of valid inferences about the existence and the character of the sources of sounds in the real world, principles that are rarely if ever breached in nature and are highly generalisable. For example if a sound has a particular pitch, a listener will probably infer that any other sounds made by that sound source will be similar in pitch to the first sound, as well as similar in intensity, waveform, etc., and further infer that any sounds similar to the first are likely to come from the same 1
adapted from J. Cross, AISB Quarterly, 1999, 102, pp12-25
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.12
Figure 9.14: The first eight bars of El Noy de la Mare, a Catalan folk song arranged by Miguel Llobet. location as the first sound. This fact can explain why we experience the sequence of pitches in El Noy de la Mare as a melody, pitch moving in time. Consecutive pitches in this melody are very close to each other in pitch-space, so on hearing the second pitch a listener will activate our Auditory Scene Analysis inference mechanisms, and assign it to the same source as the first pitch.
(a)
(b)
Figure 9.15: (a) Pattern where successive notes are separated by large pitch jumps but alternate notes are close together in pitch, is probably heard as two separate and simultaneous melodies. (b) Excerpt from the Courante of Bach’s First ’Cello Suite: two concurrent pitch patterns are heard. If the distance in pitch space had been large, they might have inferred that a second sound source existed, even although they knew that it’s the same instrument that’s making the sound - this inferred sound source would be a virtual rather than a real source. Hence a pattern such as shown in Figure 9.15(a), where successive notes are separated by large pitch jumps but alternate notes are close together in pitch, is probably heard as two separate and simultaneous melodies rather than one melody leaping around. This tendency to group together, to linearise, pitches that are close together in pitchspace and in time provides us with the basis for hearing a melody as a shape, as pitch moving in time,
9.1. MODELS FOR MUSICAL ANALYSIS
9.13
emanating from a single - real or virtual - source. J. S. Bach used them frequently to conjure up the impression of compound, seemingly simultaneous, melodies even though only one single stream of notes is presented. For example, the pattern given in Figure 9.15(b) (from the Courante of Bach’s First ’Cello Suite) can be performed on guitar on one string, yet at least two concurrent pitch patterns or streams will be heard - two auditory streams will be segregated (to use Bregman’s terminology).
9.1.4 Narmour’s implication realization model 2
An intuition shared by many people is that appreciating music has to do with expectation. That is, what we have already heard builds expectations on what is to come. These expectations can be fulfilled or not by what is to come. If fulfilled, the listener feels satisfied. If not, the listener is surprised or even disappointed. Based on this observation, Narmour proposed a theory of perception and cognition of melodies based on a set of basic grouping structures, the Implication/Realization model, or I/R model.
Figure 9.16: Top: Eight of the basic structures of the I/R model. Bottom: First measures of All of Me, annotated with I/R structures. According to this theory, the perception of a melody continuously causes listeners to generate expectations of how the melody will continue. The sources of those expectations are two-fold: both innate and learned. The innate sources are hard-wired into our brain and peripheral nervous system, according to Narmour, whereas learned factors are due to exposure to music as a cultural phenomenon, and familiarity with musical styles and pieces in particular. The innate expectation mechanism is closely related to the gestalt theory for visual perception. Narmour claims that similar principles hold for the perception of melodic sequences. In his theory, these principles take the form of implications: Any two consecutively perceived notes constitute a melodic interval, and if this interval is not conceived as complete, or closed, it is an implicative interval, an interval that implies a subsequent interval with certain characteristics. In other words, some notes are more likely to follow the two heard notes than others. Two main principles concern registral direction and intervallic difference. • The principle of registral direction states that small intervals imply an interval in the same registral direction (a small upward interval implies another upward interval, and analogous for 2
adapted from Mantaras AI Magazine 2001
9.14
CHAPTER 9. MUSIC INFORMATION PROCESSING downward intervals), and large intervals imply a change in registral direction (a large upward interval implies another upward interval and analogous for downward intervals).
• The principle of intervallic difference states that a small (five semitones or less) interval implies a similarly-sized interval (plus or minus 2 semitones), and a large intervals (seven semitones or more) implies a smaller interval. Based on these two principles, melodic patterns can be identified that either satisfy or violate the implication as predicted by the principles. Such patterns are called structures and labelled to denote characteristics in terms of registral direction and intervallic difference. Eight such structures are shown in figure 9.16(top). For example, the P structure (Process) is a small interval followed by another small interval (of similar size), thus satisfying both the registral direction principle and the intervallic difference principle. Similarly the IP (Intervallic Process) structure satisfies intervallic difference, but violates registral direction. Additional principles are assumed to hold, one of which concerns closure, which states that the implication of an interval is inhibited when a melody changes in direction, or when a small interval is followed by a large interval. Other factors also determine closure, like metrical position (strong metrical positions contribute to closure, rhythm (notes with a long duration contribute to closure), and harmony (resolution of dissonance into consonance contributes to closure). These structures characterize patterns of melodic implications (or expectation) that constitute the basic units of the listener perception. Other resources such as duration and rhythmic patterns emphasize or inhibit the perception of these melodic implications. The use of the implication-realization model provides a musical analysis of the melodic surface of the piece. The basic grouping structure are shown in fig. 9.16: P (process) structure a pattern composed of a sequence of at least three notes with similar intervallic distances and the same registral direction; ID (intervallic duplication) structure a pattern composed of a sequence of three notes with the same intervallic distances and different registral direction; D (duplication) structure a repetition of at least three notes; IP (intervallic process) structure a pattern composed of a sequence of three notes with similar intervallic distances and different registral direction; R (reversal) structure a pattern composed of a sequence of three notes with different registral direction; the first interval is a leap, and the second is a step; IR (intervallic reversal) structure a pattern composed of a sequence of three notes with the same registral direction; the first interval is a leap, and the second is a step; VR (registral reversal) structure a pattern composed of a sequence of three notes with different registral direction; both intervals are leaps. In fig. 9.16 (bottom) the first three notes form a P structure, the next three notes an ID, and the last three notes another P. The two P structures in the figure have a descending registral direction, and in both cases, there is a duration cumulation (the last note is significantly longer). Looking at melodic grouping in this way, we can see how each pith interval implies the next. Thus, an interval can be continued with a similar one (such as P or ID or IP or VR) or reversed with a
9.1. MODELS FOR MUSICAL ANALYSIS
9.15
dissimilar one. That is, a step (small interval) is followed by a leap (large interval) between notes in the same direction would be a reversal of the implied interval (another step was expected, but instead, a leap is heard) but not a reversal of direction. Pitch motion can also be continued by moving in the same direction (up or down) or reversed by moving in the opposite direction. The strongest kind of reversal involves both a reversal of intervals and of direction. When several small intervals (steps) move consistently in the same direction, they strongly imply continuation in the same direction with similar intervals. If a leap occurs instead of a step, it creates a continuity gap, which triggers the expectation that the gap should be filled in. To fill it, the next step intervals should move in the opposite direction from the leap, which also tends to limit pitch range and keeps melodies moving back toward a centre. Basically, continuity (satisfying the expectation) is nonclosural and progressive, whereas reversal of implication (not satisfying the expectation) is closural and segmentative. A long note duration after reversal of implication usually confirm phrase closure.
Figure 9.17: Example of Narmour analysis of the first four bars of the second movement of Mozart’s K.311 [from Cross 1998]. Any given melody can be described by a sequence of Narmour structures. Fig. 9.17 Narmour’s analysis of the first four bars of the second movement of K.311 is shows. Letters (IP, P, etc.) within the ”grouping” brackets identify the patterns involved, while the b’s and d’s in parentheses above the top system indicate the influence of, respectively, metre and duration. The three systems show the progressive ”transformation” of pitches to higher hierarchical levels, and it should be noted that the steps involved do not produce a neatly nested hierarchy of the sort that Lerdahl and Jackendoff’s theory provides.
9.16
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.1.5 Local Boundary Detection Model (LBDM) Expressive performance of a musical work relies to a large extent on the underlying musical structure. From traditional music performance theories to contemporary computational models of musical expression a strong link between musical structure and expression is assumed. It is commonly hypothesised that the ending of a musical group, such as a melodic phrase, is marked by a slowing down of tempo, i.e. relative lengthening of the last notes (see sect. 3.7). For musical groups at the lowest level, i.e. small melodic gestures of just a few notes, it is commonly assumed that the final note IOI is lengthened and a small micropause inserted (see sect. 3.8). In this section, a computational model (developed by Emilios Cambouropoulos 2001), that enables the detection of local melodic boundaries will be described. This model is simpler and more general than other models based on a limited set of rules (e.g. implication realization model seen in sect. 9.1.4 ) and can be applied both to quantised score and non-quantised performance data. The Local Boundary Detection Model (LBDM) calculates boundary strength values for each interval of a melodic surface according to the strength of local discontinuities; peaks in the resulting sequence of boundary strengths are taken to be potential local boundaries. The model is based on two rules: the Change rule and the Proximity rule. The Change rule is more elementary than any of the Gestalt principles as it can be applied to a minimum of two entities (i.e. two entities can be judged to be different by a certain degree) whereas the Proximity rule requires at least three entities (i.e. two entities are closer or more similar than two other entities). • Change Rule (CR): Boundary strengths proportional to the degree of change between two consecutive intervals are introduced on either of the two intervals (if both intervals are identical no boundary is suggested). • Proximity Rule (PR): If two consecutive intervals are different, the boundary introduced on the larger interval is proportionally stronger. The Change Rule assigns boundaries to intervals with strength proportional to a degree of change function Si (described below) between neighbouring consecutive interval pairs. Then a Proximity Rule scales the previous boundaries proportionally to the size of the interval and can be implemented simply by multiplying the degree-of-change value with the absolute value of each pitch/time/dynamic interval. This way, not only relatively greater neighbouring intervals get proportionally higher values but also greater intervals get higher values in absolute terms - i.e. if in two cases the degree of change is equal, such as sixteenth/eighth and quarter/half note durations, the boundary value on the (longer) half note will be overall greater than the corresponding eighth note. The aim is to develop a formal theory that may suggest all the possible points for local grouping boundaries on a musical surface with various degrees of prominence attached to them rather than a theory that suggests some prominent boundaries based on a restricted set of heuristic rules. The discovered boundaries are only seen as potential boundaries as one has to bear in mind that musically interesting groups can be defined only in conjunction with higher-level grouping analysis (parallelism, symmetry, etc.). Low-level grouping boundaries may be coupled with higher-level theories so as to produce optimal segmentations (see fig. 9.18). In the description of the algorithm only the pitch, IOI and rest parametric profiles of a melody are mentioned. It is possible, however, to construct profiles for dynamic intervals (e.g. velocity differences) or for harmonic intervals (distances between successive chords) and any other parameter relevant for the description of melodies. Such distances can also be asymmetric; for instance the dynamic interval between p and f should be greater that between f and p.
9.1. MODELS FOR MUSICAL ANALYSIS
9.17
Figure 9.18: Beginning of Fr`ere Jacques. Higher-level grouping principles override some of the local detail grouping boundaries (note that LBDM gives local values at the boundaries suggested by parallelism - without taking in account articulation. 9.1.5.1
Local Boundary Detection algorithm description
A melodic sequence is converted into a number of independent parametric interval profiles P k for the parameters: pitch (pitch intervals), ioi (interonset intervals) and rest (rests - calculated as the interval between current onset with previous offset). Pitch intervals can be measured in semitones, and time intervals (for IOIs and rests) in milliseconds or quantised numerical duration values. Upper thresholds for the maximum allowed intervals should be set, such as the whole note duration for IOIs and rests and the octave for pitch intervals; intervals that exceed the threshold are truncated to the maximum value. A parametric profile Pk is represented as a sequence of n intervals of size x i : Pk = [x1 , x2 , . . . xn ] where: k is pitch, ioi, rest, xi ≥ 0 and i = 1, 2, ..., n. The degree of change r between two successive interval values xi and xi+1 is given by: ri,i+1 =
|xi − xi+1 | xi + xi+1
if xi − xi+1 6= 0 and xi , xi+1 ≥ 0; otherwise ri,i+1 = 0. The strength of the boundary si for interval xi is affected by both the degree of change to the preceding and following intervals, and is given by the function: si = xi · (ri−1,i + ri,i+1 ) For each parameter k, a sequence S k = [s1 , s2 , . . . , sn ] is calculated, and normalised in the range [0, 1]. The overall local boundary strength profile for a given melody is a weighted average of the individual strength sequences S k . The suggested weights for the three different parameters are wpitch = wrest = 0.25 and wioi = 0.50. Local peaks in this overall strength sequence indicate local boundaries.
9.18
CHAPTER 9. MUSIC INFORMATION PROCESSING
Figure 9.19: Local Boundaries by LBDM: Opening Melody from Waltz Op.18 by Chopin
Figure 9.20: Local Boundaries by LBDM: Opening Melody from Etude Op10, No3 by Chopin.
9.1. MODELS FOR MUSICAL ANALYSIS
9.19
Figure 9.21: Examples of boundary strengths (last row) determined by the LBDM.
Figure 9.22: Examples of boundary strengths (last row) determined by the LBDM. These are ambiguous boundaries which may be resolved if higher-level organisational principles are taken into account.
9.20
CHAPTER 9. MUSIC INFORMATION PROCESSING
Figure 9.23: Examples of phenomenal accent strengths derived from the LBDM boundary strengths by merely adding every two adjacent boundary strength values.
9.1. MODELS FOR MUSICAL ANALYSIS
9.21
9.1.6 Generative Theory of Tonal Music of Lerdahl and Jackendorf Lerdahl and Jackendoff (1983) developed a model called Generative Theory of Tonal Music (GTTM). This model offers a complementary approach to understanding melodies, based on a hierarchical structure of musical cognition. According to this theory music is built from an inventory of notes and a set of rules. The rules assemble notes into a sequence and organize them into hierarchical structures of music cognition. To understand a piece of music means to assemble these mental structures as we listen to the piece. It seeks to elucidate a number of perceptual characteristics of tonal music - segmentation, periodicity, differential degrees of importance being accorded to the components of a musical passage or work, the flow of tension and relaxation as a work unfolds - by employing four distinct analytical levels, each with its own more-or-less formal analytical principles, or production rules. These production rules, or Well-Formedness rules, specify which analytical structures may be formed - which analytical structures are possible - in each of the four analytical domains on the basis of a given musical score. Each domain also has a set of Preference Rules, which select between the possible analytical structures so as to achieve a single ”preferred” analysis within each domain.
Figure 9.24: Main components of Lerdahl and Jackendoff’s generative theory of tonal music. GTTM proposes four types of hierarchical structures associated with a piece: the grouping structure, the metrical structure, the time-span reduction structure, and the prolongational reduction structure (fig. 9.24). The grouping structure describes the segmentation units that listeners can establish when hearing a musical surface: motives, phrases, and sections. The metrical structure describes the rhythm hierarchy of the piece. It assign a weight to each note depending on the beat in which is played . In this way notes played on strong (down) beats have higher weight than notes played on week (up) beats. The time-span reduction structure is a hierarchical structure describing the relative structural importance of notes within the audible rhythmic units of a phrase (see Fig. 9.25). It differentiate the essential parts of the melody from the ornaments. The essential parts are further dissected into even more essential parts and ornament on them. The reduction continues until the melody is reduced to a skeleton of the few most prominent notes. The prolongational reduction structure is a hierarchical structure describing tension-relaxation relationships among groups of notes. This structure captures the sense of musical flow across phrases, i.e. the build-up and release of tension within longer and longer passages of the piece, until a feeling of maximum repose at the end of the piece. tension builds up as the melody departs from more stable notes to less stable ones and is discharged when the melody returns
9.22
CHAPTER 9. MUSIC INFORMATION PROCESSING to stable notes. tension and release are also felt as a result of moving from dissonant chords to consonant ones, from non accented notes to accented ones and from higher to lower notes.
The four domains - Metrical, Grouping, Time-Span and Prolongational - are conceived of as partially interdependent and at the same time as modelling different aspects of a listener’s musical intuitions.
Figure 9.25: Example of a time-span tree for the beginning of the All of me ballad [from Arcos 1997]. Each of these four components consists of three sets of rules: Well-formedness Rules which state what sort of structural descriptions are possible. These rules define a class of possible structural descriptions. Preference Rules which try to select from the possible structures the ones that correspond to what an experienced listener would hear. They are designed to work together to isolate those structural descriptions in the set defined by the well-formedness rules that best describe how an expert listener interprets the passage given to the theory as input. Transformational Rules that allow certain distortions of the strict structures prescribed by the wellformedness rules. The application of their theory to the first four bars of the second movement of Mozart’s K.311 is shown in fig. 9.26 and 9.27. The Metrical analysis (shown in the dots below the piece in Figure 9.26) appears self-evident, deriving from Well-Formedness Rules such as those stating that ”Every attack point must be associated with a beat at the smallest metrical level present at that point in the piece” (although the lowest, semiquaver, level is not shown in the figure), ”At each metrical level, strong beats are spaced either two or three beats apart”, etc. These Well-Formedness rules are supplemented by Preference rules, that suggest preference should be given to e.g., ”metrical structures in which the strongest beat in a group appears relatively early in the group”, ”metrical structures in which strong beats coincide with pitch events”, etc. The Grouping structure (shown in the brackets above the piece in Figure 9.26) appears similarly self-evident, being based on seemingly truistic Well-Formedness rules such as ”A piece constitutes a group”, ”If a group contains a smaller group it must contain all of that smaller group” (thus ensuring a strictly nested hierarchy), etc. Preference rules here specify such matters as the criteria for determining group boundaries (which should occur at points of disjunction in the domains of pitch and time), conditions for inferring repetition in the grouping structure, etc. Thus a group boundary is formed between the end of bar two and the beginning of bar three both in order to ensure the symmetrical subdivision of the first four bars (themselves specifiable as a group in part because of the repetition of the opening of bar one in bar five) and because the pitch disjunction occurring between the G and the C is the largest pitch interval that has occurred in the upper voice of the piece up to that moment.
9.1. MODELS FOR MUSICAL ANALYSIS
9.23
Figure 9.26: Example of GTTM analysis of the first four bars of the second movement of Mozart’s K.311: Metrical analysis (dots below the piece ) and Time-Span analysis (tree-structure above the piece) [from Cross 1998].
Perhaps the only point of interest in the Grouping analysis is the boundary between the third quaver of bar three and the last semiquaver of that bar, brought about by the temporal interval between the two events (again, the largest that has occurred in the piece up to that moment). Here, the Grouping structure and the Metrical structure are not congruent, pointing-up a moment of tension at the level of the musical surface that is only resolved by the start of the next group at bar five. The Time-Span analysis (tree-structure above the piece in Figure 9.26) is intended to depict the relative salience or importance of events within and across groups. The Grouping structure serves as the substrate for the Time-Span analysis, the Well-Formedness rules in this domain being largely concerned with formalising the relations between Groups and Time-Spans. The Preference rules suggest that metrically and harmonically stable events should be selected as the ”heads” of TimeSpans, employment of these criteria resulting in the straightforward structure shown in the Figure. This shows clearly the shift in metrical position of the most significant event in each Group or TimeSpan, from downbeat in bar one to upbeat crotchet in bars two and three to upbeat quaver in bar four. A similar structure is evident in the Prolongational analysis (Figure 9.27), which illustrates the building-up and release of tension as a tonal piece unfolds. The Prolongational analysis derives in part from the Time-Span analysis, but is primarily predicated on harmonic relations, which the WellFormedness and Preference rules specify as either prolongations (tension-producing or maintaining) or progressions (tension-releasing). Lerdahl and Jackendoff’s theory however lack of a detailed, formal account of tonal-harmonic relations and tend to neglect of the temporality of musical experience. Moreover it let the analyst to make different choices that are quite difficult to formalize and implement on a computational model. Although the authors attempt to be thorough and formal throughout the theory, they do not resolve much of the ambiguity that exists through the application of the preference rules. There is little or no
9.24
CHAPTER 9. MUSIC INFORMATION PROCESSING
Figure 9.27: Example of GTTM analysis of the first four bars of the second movement of Mozart’s K.311: Prolongational analysis [from Cross 1998]. ranking of these rules to say which should be preferred over others and this detracts from what was presented as a formal theory.
9.1.7 Key finding algorithm All humans perceive a large continuum of pitch. However, the pitch systems of all cultures consist of a limited set of pitch categories that are collected into ordered subsets called scales. In the Western equal-tempered pitch system, all diatonic scales of seven notes (are derived from an alphabet of the 12 chromatic notes within an octave, called pitch class). The pitches of adjacent notes in the chromatic scale are separated by a semitone which corresponds to a frequency difference of approximately 6%. The octave is a special interval (a 2:1 frequency ratio) at which two pitches, though separated along the pitch dimension, seem to have something in common, or are perceived to be equivalent. In all cultures that name the pitches in scales, two pitches separated by an octave are given the same name (e.g. do re mi fa sol la ti do or C D E F G A B C in the Western system, and Sa Re Ga Ma Pa Dha Ni Sa in the Indian system). A given scale is defined by the pattern of intervals between the pitch categories. A major scale has the pattern 2–2–1–2–2–2–1 in numbers of semitones between scale steps (Fig. 9.28, upper panel). One type of minor scale (called natural minor) has the pattern 2–1–2–2–1–2–2 (Fig. 9.28, lower panel). Within a scale there often exists a functional hierarchy among the pitches, as well as among chords that can be formed of the pitches. In the Western tonal pitch system, some pitches and chords, such as those related to the first and fifth degrees of the scale (C and G are the tonic and dominant notes of the key of C major, for example) are structurally more important than others (Fig. 9.28). This hierarchization gives rise to a sense of key. In fact when chords are generated by playing several pitches at once, the chord that is considered to be most stable within a key, and in a certain sense to ”represent” the key, comprises the first, third and fifth degrees of the scale. In tonal music, one can establish a sense of key within a given major or minor scale and then move progressively to a new
9.1. MODELS FOR MUSICAL ANALYSIS
9.25
Figure 9.28: Piano keyboard representation of the scales of C major and C minor. Notes in each scale are shaded. The relative importance of the first (tonic - C), fifth (dominant - G) and third (mediant E) degrees of the scale is illustrated by the length of the vertical bars. The other notes of the scale are more or less equally important followed by the chromatic notes that are not in the scale (unshaded) [from McAdams 1996].
key (a process called modulation) by introducing notes from the new key and no longer playing those from the original key that are not present in the new key. Factors other than the simple logarithmic distance between pitches affect the degree to which they are perceived as being related within a musical system. The probe tone technique developed by Krumhansl has been quite useful in establishing the psychological reality of the hierarchy of relations among pitches at the level of notes, chords, and keys. In this paradigm, some kind of musical context is established by a scale, chord, melody or chord progression, and then a probe stimulus is presented. Listeners are asked to rate numerically either the degree to which a single probe tone or chord fits with the preceding context or the degree to which two notes or chords seem related within the preceding context. This technique explores the listener’s implicit comprehension of the function of the notes, chords, and keys in the context of Western tonal music without requiring them to explicate the nature of the relations. If we present a context, such as a C major or C minor scale, followed by a single probe tone that is varied across the range of chromatic scale notes on a trial-to-trial basis, a rating profile of the degree to which each pitch fits within the context is obtained. This quantitative profile, when derived from ratings by musician listeners, fits very closely to what has been described intuitively and qualitatively by music theorists (Fig. 9.29). Note the importance of the tonic note that gives its name to the scale, followed by the dominant or fifth degree and then the mediant or third degree. These three notes form the principal triad or chord of the diatonic scale. The other notes of the scale are of lesser importance followed by the remaining chromatic notes that are not within the scale. These profiles differ for musicians and non-musicians. In the latter case the hierarchical structure is less rich and can even be reduced to a simple proximity relation between the probe tone and the last note of the context.
9.26
CHAPTER 9. MUSIC INFORMATION PROCESSING
Figure 9.29: C Major and C minor profiles derived with the probe-tone technique from fittingness ratings by musician listeners.
Figure 9.30: Comparison between tonal hierarchies and statistical distribution of tones in tonal works. It is shown the frequency of occurrence of each of the 12 chromatic scale tones in various songs and other vocal works by Schubert, Mendelssohn, Schumann, Mozart, Richard Strauss and J. A. Hasse. and the key profile (scaled). Krumhansl has shown (fig. 9.30) that the hierarchy of tonal importance revealed by these profiles is strongly correlated with the frequency of occurrence of notes within a given tonality (the tonic appears more often than the fifth than the third, and so on). It also correlates with various measures of tonal consonance of notes with the tonic, as well as with statistical measures such as the mean duration given these notes in a piece of music (the tonic often having the longest duration). These correlations are the base of the classic key finding algorithm of Krumhansl-Schmuckler (as explained in Krumhansl’s book Cognitive Foundations of Musical Pitch [Oxford University Press, 1990]). Each key has a key-profile: a vector representing the optimal distribution of pitch-classes for that key. The algorithm works as follows. The input piece is divided into segments, and within each segment, without regard for enharmonic spellings, all pitch-classes in the passage are counted resulting in 12 values. For example, a segment may contain 14 C’s, 2 C#’s, 8 D’s, and so on. These 12 values are then correlated with the major key profile where C is deemed the tonic. Similarly, the 12 values are then correlated with the minor key profile where C is deemed the tonic. The process is repeated for all possible tonics: C-sharp/D-flat, D, D-sharp/E-flat, E, etc. After correlations have been
9.1. MODELS FOR MUSICAL ANALYSIS
9.27
calculated for all 24 major and minor pitch-class keys, the estimated key for the passage is given by the largest positive correlation. It is possible to handle modulation: in considering a key for a segment, a penalty is assigned if the key differs from the key of the previous segment. In this way, it will prefer to remain in the same key, other things being equal, but will change keys if there is sufficient reason to do so. In this method, the input vector for a segment represents the total duration of each pitch-class in the segment. The match between the input vector and each key-profile is calculating using the standard correlation formula.
Figure 9.31: Example of Krumhansl-Schmuckler key fining algorithm: opening bar of Yankee Doodle.
Figure 9.32: Example of Krumhansl-Schmuckler key fining algorithm: duration distribution of Yankee Doodle. For example, if we take opening bar of Yankee Doodle, as shown in fig. 9.31, we find that: the sum of the durations of the G naturals gives .75 of a minim, the durations of the B naturals add up to half a minim, the durations of the A naturals add up to half a minim and there is one quaver D natural. We can then draw a graph showing the durations of the various pitch classes within the passage being analysed, as shown in fig 9.32. The next step in the algorithm is to calculate the correlation between this graph and each of the 24 major and minor key profiles. This table (tab. 9.1) shows the correlation between this graph showing the durations of the various pitches in the Yankee Doodle excerpt and each of the major and minor key profiles. The algorithm then predicts that the perceived key will be the one whose profile best correlates with the graph showing the distribution of tone durations for the passage. So in this case, the algorithm correctly predicts that the key of Yankee Doodle is G major. A variation of the key finding algorithm is proposed in Temperley 2001. In this method, the input vector for a segment simply has 1 for a pitch-class if it is present at all in the segment (the duration and number of occurrences of the pitch-class are ignored) and 0 if it is not; the score for a key is given by the sum of the products of key-profile values and corresponding input vector values (which amounts
9.28
CHAPTER 9. MUSIC INFORMATION PROCESSING
Table 9.1: Correlation between the graph showing the durations of the various pitches in the Yankee Doodle excerpt and each of the major and minor key profiles. Key Score Key Score C major 0.274 C minor -0.013 C sharp major -0.559 C sharp minor -0.332 D major 0.543 D minor 0.149 E flat major -0.130 E flat minor -0.398 E major -0.001 E minor 0.447 F major 0.003 F minor -0.431 F sharp major -0.381 F sharp minor 0.012 G major 0.777 G minor 0.443 A flat major -0.487 A flat minor -0.106 A major 0.177 A minor 0.251 B flat major -0.146 B flat minor -0.513 B major -0.069 B minor 0.491 to summing the key-profile values for all pitch class present in the segment).
9.2 Music Information Retrieval: Issues, Problems, and Methodologies by Nicola Orio
9.2.1 Introduction The core problem of Information Retrieval (IR) is to effectively retrieve documents which convey content being relevant to the users information needs. Effective and efficient techniques have been developed to index, search, and retrieve documents from collections of hundreds of thousands, or millions of textual items. The most consolidated results have been obtained for collection of documents and users queries written in textual form and in English language. Statistical and probabilistic techniques have lead to the most effective results for basic system functions and are currently employed to provide advanced information access functions as well. The content description of media being different from text, and the development of different search functions are necessary steps for content-based access to Digital Libraries (DL). This statement mainly applies to cultural heritage domain, where different media and search functions live together. In order to provide a content-based multimedia access, the development of new techniques for indexing, searching, and retrieving multimedia documents have recently been the focus of many researchers in IR. The research projects in DLs, and specifically those carried out in cultural heritage domain, have shown that the integrated management of diverse media - text, audio, image, video - is necessary. The problem with content-based access to multimedia data is twofold. • On the one hand, each media requires specific techniques that cannot be directly employed for other media.
9.2. MUSIC INFORMATION RETRIEVAL
9.29
• On the other hand, these specific techniques should be integrated whenever different media are present in a individual item. The core IR techniques based on statistics and probability theory may be more generally employed outside the textual case and within specific non-textual application domains. This is because the underlying models, such as the vector-space and the probabilistic models, are likely to describe fundamental characteristics being shared by different media, languages, and application domains. 9.2.1.1
Digital Music and Digital Libraries
There is an increasing interest towards music stored in digital format, which is witnessed by the widespread diffusion on the Web of standards for audio like MP3. There are a number of reasons to explain such a diffusion of digital music. • First of all, music is an art form that can be shared by people with different culture because it crosses the barriers of national languages and cultural backgrounds. For example, tonal Western music has passionate followers also in Japan and many persons in Europe are keen on classical Indian music: all of them can enjoy music without the need of a translation, which is normally required for accessing foreign textual works. • Another reason is that technology for music recording, digitalization, and playback, allows for an access that is almost comparable to the listening of a live performance, at least at the level of audio quality, and the signal to noise ratio is better for digital formats than for many analog formats. This is not the case of other art forms, like painting, sculpture or even photography, for which the digital format is only an approximate representation of the artwork. The access to digitized paintings can be useful for studying the works of a given artist, but cannot substitute the direct interaction with the real world works. • Moreover, music is an art form that can be both cultivated and popular, and sometimes it is impossible to draw a line between the two, as for jazz or for most of ethnic music. These reasons, among others, may explain the increasing number of projects involving the creation of music DLs. A music DL allows for, and benefits from, the access by users from all over the world, it helps the preservation of cultural heritage, and it is not tailored only to scholars or researchers needs. More in general, as music is one of the most important means of expression, the organization, the integration with other media, and the access to the digitized version of music documents becomes an important multimedia DL component. Yet, music has some peculiarities that have to be taken into account when developing a music DL. In figure 9.33 the architecture of a music information retrieval system is shown. 9.2.1.2
Music Information Retrieval
Specific and effective techniques being capable of indexing and retrieving such multimedia documents as the music ones need to be designed and implemented. Current approaches to Music Information Retrieval (MIR) are based either on string matching algorithms or textual bibliographic catalogue. • Sting matching approach makes content-based retrieval very difficult - indeed, retrieving textual files using Unix grep-like commands gives poor results.
9.30
CHAPTER 9. MUSIC INFORMATION PROCESSING
Figure 9.33: Architecture of a music information retrieval system • Textual bibliographic catalogue approach makes content-based retrieval impossible since the music content cannot be described by bibliographic catalogue. The requirement for a content-based MIR has been stressed within the research area of music information systems as well. The developments in the representation of music suggest a need for an information retrieval philosophy directed toward non-text searching and eventual expansion to a system that encompasses the full range of information found in multimedia documents. As IR has dealt with the representation and the disclosure of content from its early days, it is natural to think that IR techniques should be investigated to evaluate their application to music retrieval. According to McLane “what has been left out of this discussion, and will no doubt be a topic for future study, is the potential for applying some of the standard principles of text information retrieval to music representations”. • If we follow the hypothesis that the use of standard principles of text information retrieval to index and retrieve music documents is possible, then the design of ad-hoc segmentation algorithms to produce musical lexical units like words in textual documents is required. The concept of lexical unit may vary depending on the approach. A lexical unit can be: a fixedlength string, the incipit, a complete theme, a melodic phrase, and so on. Music is a continuous flow of events (e.g., notes, chords, and unpitched percussive sounds) without explicit separators, if not those perceived by listeners. Also music representation lacks of separators of lexical units, because it conveys information only about macro-events, like changes in tonality or the presence
9.2. MUSIC INFORMATION RETRIEVAL
9.31
of repetitions. It is therefore necessary to automatically detect the perceived lexical units of a music document to be used like words in textual documents. • Moreover, content-based MIR requires the design of normalization algorithms. Once detected, musical lexical units occur in documents with many variants like textual words do within textual documents. For example, a melodic pattern may occur in many music works, perhaps composed by different authors, with small deviations of note intervals or timing. Despite these deviations, different patterns may be perceptually similar, hence conveying the same music perception. It is therefore necessary to detect these variants and conflate all the similar musical lexical units into a common stem expressing the same music perception. This conflation process is analogous to the one performed in the textual case for detecting word stems through, for example, the Porters stemming algorithm. To allow the integration of automatic music processing techniques with automatic IR techniques, segmentation and normalization algorithms are applied also on music queries. In a content-based music IR system, users may be able to interact with the system by using the same language, that is the music language. This because content-based MIR requires users to be able of expressing the music document content. The most natural way of express music content is singing and playing music. This approach is often referred to as the query by example paradigm. Therefore, users should be provided with interfaces and search functions so that they can play music and send a music query to the system. To make content-based music retrieval possible, query content and document content have to be matched: Describing query content is then necessary. If we regard music queries as music documents, segmentation and normalization can be performed also on music queries using the same algorithms used for disclosing document content.
9.2.2 Issues of Content-based Music Information Retrieval Music, in its different representations, can be considered as another medium together with text, image, video, and speech. Nevertheless, there are some issues that make music different from other multimedia IR application domains. The issues we address are form, instantiation, dimension, content, perception, user profile, and formats. The most relevant issues are describes in the following Sections. 9.2.2.1
Peculiarities of the Music Language
The same entity, i.e. a music work, can be represented in two different main forms: the notated and the acoustic form, respectively corresponding to score and performance. Hence the communication in music is performed at two levels: • the composer translates his intentions in a music structure (music as a composing art), • the musician translates the written score into sounds (music as a performing art). Also users may have different needs, in particular the music scholar may look for a given composition, while the melomane may look for a particular performance. Each music work may have different instantiations. As musicians can interpret scores, the resulting performances may differ and therefore more performances correspond to an individual score. Furthermore, the same music work may be transcribed into different scores, depending on the revisers choices. As a consequence, different performances and scores may rely to the same music work.
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.32
Different dimensions characterize the information conveyed by music. Melody, harmony, rhythm, and structure are dimensions, carried by the written score, that may be all or in part of interest for the final user. In the case of a performance other dimensions should be added, for instance timbre, articulation, and timing. It is likely that the dimensions of interest vary with the level of users expertise and the specific users search task. As described in Section 9.2.2.3, different formats are able to capture only a reduced number of dimensions. Therefore, the choice of a representation format has a direct impact on the degree to which a music retrieval system can describe each dimension. While text, image, video, or speech-based documents in general convey some information that form their content, it is still unclear what type of content, if any, music works do convey. Let us consider an example: the concept of tempest can be described with a textual document, such as the first chapter of Shakespeares The Tempest, a painting, such as the landscape of Giorgiones The Tempest, a video or speech, such as broadcasting news about, for instance, a tornado. All these media are able to convey, among all the other information, the concept of tempest. There are up to forty music works of tonal Western music whose title is related to tempests, among those the most famous probably are Beethovens Sixth Symphony IV Movement, Rossinis Overture of William Tell, and Vivaldis Concerto La Tempesta di Mare. These works differ in music style, form, key and time signature, and above all the user may be not able to recognize that the work is about a tempest and not just pure music. In principle, music language does not convey information as, for instance, text or video do. Many composers wrote music to stir up emotions, and in general they aimed to communicate no specific information to the listener. The final user feels emotions on listening to the music, and he interprets some information independently from the composers and performers thought and differently from the other users. There is a particular kind of music works, called musica a programma, in which the title (like Vivaldis The Spring) or a lyric (like Debussys Prlude laprs-midi dun faune) suggests a meaning to the listener; this sort of textual data would be better managed using a database system rather than a IR system. Moreover in sung music, such as Cantatas, the accompanied text gives the work some meaning, yet that sort of text would require ad-hoc IR techniques to be effectively managed. In general the availability of textual material together with music documents is insufficient. It is then important to consider how music is perceived and processed by listeners, to highlight which kind of content is carried by this medium. A number of different theories was proposed by musicologists, among which the most popular ones are the Generative Theory of Tonal Music (see Sect. 9.1.6) and the Implication-Realization Model (see Sect. 9.1.4). In both cases it is stated that listeners perceive music as structured and consisting of different basic elements. Therefore, even if music notation and performance lack of explicit separators (like blanks or commas in text) musicians and listeners perceive the presence of small elements which constitute the music work: we can consider these elements as the lexical units for a content-based approach to MIR. It is likely that all the dimensions of music language can be segmented in their lexical units and be used to extract a content from a music document. 9.2.2.2
The Role of the User
As always happens in IR, the effectiveness of techniques does strongly depend on the final user. DL systems does indeed interact with final users of very diverse types and with different levels of expertise in the use of the system itself. This is particularly true for music DLs, because there is a great difference in users expertise depending on the practice of a musical instrument, the ability of reading a score, the knowledge of harmony rules, the familiarity with composition styles, and so on. Users may have different needs, for instance a music scholar may look on how a given cadenza is used by different authors, while a melomane may look for a particular performance of a well-known
9.2. MUSIC INFORMATION RETRIEVAL
9.33
musician. This is a key aspect in the design of a methodology for content-based MIR, because it affects the choice of the dimension to be used for describing a music work, that is which kind of content has to be extracted from it. Considering that access to DL is widely spread to users of any type, final users of a music DL may not have a deep knowledge of music language. Therefore, melody seems to be the most suitable dimension. In fact, almost everybody can recognize simple melodies and perform them at least by singing or humming. In this case, lexical units can be considered the musical phrases, which may be defined as short excerpts of the melody which constitute a single musical gesture. Moreover, melody carries also explicit information about rhythm and implicit information about harmony. Melody can be the most suitable evidence for content-based music retrieval, it may however be the case that only a part of the melody can effectively be exploited as useful evidence for music document and query description. This implies that, if phrases can be detected by means of some segmentation algorithms, then it is likely that some of these phrases are good descriptors of the music content from users point of view, while others can be dropped since they give little contribution to the music content description and may negatively affect efficiency. This latter consideration leads us to contemplating the possibility of building lists of stop phrases, that may be dropped from the index of phrases similarly to the textual case. However, it is still unclear if stop phrases exist how users perceive them. While one can identify a word as stop word because it has no, little, or less meaning than keywords, one cannot identify a phrase as stop phrase because it is very difficult to say what phrase meaning does mean, and frequency-based stop phrase list construction may be a difficult task because, for instance, users may recall melody excerpts just because they are very frequent in a musical genre. 9.2.2.3
Formats of Music Documents
As previously mentioned, the communication in music is achieved at two levels, corresponding to two forms: the composer translates his intentions into a musical structure, that is represented by a music score, and the musician translates the written score into a performance, that is represented by a flow of acoustic events. A number of different digital formats correspond to each form. It can be noted that, as musicians can interpret scores, the resulting performances differ and therefore more than one performance correspond to a single score. Even if the two forms can be considered as instantiations of the same object, they substantially differ in the information that can be manually or automatically extracted from their respective formats. The first problem which arises in the automatic processing of music is then that a music work may be digitally stored in different formats. The same music piece can be represented, for example, • by a reproduction of the manuscript, • by a symbolic notation of the score, • by a sequence of time-stamped events corresponding to pitched and unpitched sounds, • or by a digital recording of an acoustic performance. Each format carries different information on the content of the document. For instance, at the stateof-the-art it is impossible to recover informations about the written score from the digital sampling, e.g. stored in a compact disk, of a polyphonic audio signal, and the score carries no information about the timbre, expressive timing and other performing parameters. Hence, the documents format has to be chosen depending on the aims of the DL, which may encompass preservation, displaying,
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.34
listening, indexing, and retrieval for example, preservation requires high quality audio coding and dissemination over the Internet requires lossy compression. Formats for digital music documents can be divided in two classes. • The score is a structured organization of symbols, which correspond to acoustic events; the score is a direct representation of all the dimensions of music (i.e., melody, harmony, and rhythm) and it usually contains all the information that is relevant for classifying and cataloguing: type of movement, time and key signatures, composers notes, and so on. The symbolic nature of the score allows for an easy representation of its content, and many proposed formats represents score in the form of a textual markup language, for instance ABC and GUIDO. • The performance is made of a sequence of gestures performed by musicians on their musical instruments; the result is a continuous flow of acoustic waves, which correspond to the vibration induced on musical instruments. Even if all the dimensions of music are embedded in a performance, it requires high-level information processing to recognize them. In particular, only experienced musicians can recognize all the dimensions of music from listening to a performance and, at the state of the art, there is no automatic system that can recognize them from an acoustic recording, apart from trivial cases. The nature of a performance does not allow for an easy representation of its content. The formats adopted to digitally represent performances, such as AIFF (Audio Interchange File Format, proposed by Apple Computers) or MP3 (MPEG1, Layer3), are a plain digital coding of the acoustic sound waves, with a possible data compression.
(a)
(b)
Figure 9.34: Example of a melody We present now an example of different representations of a melody with reference to fig. 9.34(a). we can represent as absolute or relative values. • Absolute measure: – Absolute pitch: C5 C5 D5 A5 G5 G5 G5 F5 G5 – Absolute duration: 1 1 1 1 1 0.5 0.5 1 1 – Absolute pitch and duration: (C5,1)(C5,1)(D5,1)(A5,1)(G5,1)(G5,0.5)(G5,0.5)(F5,1)(G5,1) • Relative measure: – Contour (in semitones): 0 +2 +7 -2 0 0 -2 +2 – IOI (Inter onset interval) ratio: 1 1 1 1 0.5 1 2 1 – Contour and IOI ratio: (0,1)(+2,1)(+7,1)(-2,1)(0,0.5)(0,1)(-2,2)(+2,1)
9.2. MUSIC INFORMATION RETRIEVAL
9.35
In a polyphonic case (see fig. 9.34(b)) we can represent in different ways. • Keep all information of absolute pitch and duration (start time, pitch, duration) (1,C5,1)(2,C5,1)(3,D5,1)(3,A5,1)(4,F5,4)(5,C6,1)(6,G5,0.5)(6.5,G5,0.5)... • Relative note representation: Record difference of start times and contour (ignore duration) (1,0)(1,+2)(0,+7)(1,-4) ... • Monophonic reduction, e.g. select one note at every time step (main melody selection) (C5,1)(C5,1)(A5,1)(F5,1)(C6,1)... • Homophonic reduction (chord reduction), e.g. select every note at every time step (C5)(C5)(D5,A5)(F5)(C6)(G5)(G5) ... With the aim of taking into account all the variety in which music information can be represented, it has been proposed the Standard Music Description Language (SMDL), as an application of the Standard ISO/IEC Hyper-media/Time-based Structuring Language. In SMDL, a music work is divided into different domains, each one dealing with different aspects, from visual to gestural, and analytical. SMDL provides a linking mechanism to external, pre-existing formats for visual representation or storage of performances. Hence SMDL may be a useful way for music representation standardization, but the solution is just to collect different formats rather that proposing a new one able to deal with all the aspects of the communication in music. A Note on MIDI A format that can be considered as a compromise between the score and the performance forms is MIDI (Musical Instrument Digital Interface), which was proposed in 1982 for data exchange among digital instruments. MIDI carries both information about musical events, from which it is possible to reconstruct an approximate representation of the score, and information for driving a synthesizer, from which it is possible to listen to a simplified automatic performance. It seems then that MIDI draws a link between the two different forms for music representation. This characteristics, together with the fortune of MIDI as an exchange format in the early times of the Internet, can explain why many music DLs and most projects regarding music indexing and retrieval refer to it. Some of the research work on music information retrieval take advantage of the availability of MIDI files of about all the different music genres and styles. MIDI files are parsed in order to extract a representation of the music score, and then indexed after different preprocessing. Nevertheless, MIDI is becoming obsolete and users on the Internet increasingly prefer to exchange digital music stored in other formats such as MP3 or RealAudio, because they allow for a good audio-quality with a considerably small dimension of the documents size. Moreover, if the goal of a music DL is to preserve the cultural heritage, more complete formats for storing both scores and performances are required. Being a compromise between two different needs i.e., to represent symbols and to be playable MIDI turns out to fit neither the needs of users who want to access to a complete digital representation of the score, nor to users who want to listen to high-quality audio performances. 9.2.2.4
Dissemination of Music Documents
The effectiveness of a retrieval session depends also on the ability of users to judge whether retrieved documents are relevant to their information needs. The evaluation step, in a classical presentationevaluation cycle, for an information retrieval session of textual documents usually benefits from tools for browsing the document (e.g., the find function), in particular when the size of documents is large.
9.36
CHAPTER 9. MUSIC INFORMATION PROCESSING
Moreover, a general overview of the textual content may help users to judge the relevance of most of the retrieved documents. Users of a music DL cannot take advantage of these shortcuts for the evaluation of documents relevance, when they are retrieving music performances. This is due to the central role played by time in the listening to music. A music performance is characterized by the organization of music events along the time axis, which concatenates the single sounds that form the whole performance. Changing playback speed of more than a small amount may result in a unrecognizable performance. In other words, it requires about 20 minutes to listen to a performance that lasts 20 minutes. It may be argued that many music works are characterized by their incipit, that is by their first notes, and hence a user could be required to listen only to the first seconds of a performance before judging its relevance to his information needs. Anyway, the relevant passage of a music document e.g., a theme, the refrain may be at any position in the time axis of the performance. A tool that is often offered by playback devices is the skip function, that allows for a fast access to a sequence of random excerpts of the audio files, to help listeners looking for given passages. Everyone who tried to find a particular passage in a long music performance, knows that the aid that the skip function gives when accessing to music documents is not even comparable with the find function for textual documents. This is partially due to the fact that auditory information does not allow a snapshot view of the documents as visual information does. The evaluation of relevance of retrieved music documents may then be highly time-consuming, if tools for a faster access to document content are not provided.
9.2.3 Approaches to Music Information Retrieval There is a variety of approaches to MIR and there are many related disciplines involved. Because of such wide varieties, it is difficult to cite all the relevant work. Current approaches to MIR can broadly be classified into data-based and content-based approaches. For the aims of scientific research on multimedia IR, content-based approaches are more interesting, nevertheless the use of auxiliary textual data structures, or metadata, can frequently be observed in approaches to non-textual, e.g. image or video document indexing. Indeed, textual index terms are often manually assigned to multimedia documents to allow users retrieving documents through textual descriptions. 9.2.3.1
Data-based Music Information Retrieval
Data-based MIR systems allow users for searching databases by specifying exact values for predefined fields, such as composer name, title, date of publication, type of work, etc. we actually speak about exact match retrieval. Data-based approaches to MIR makes content-based retrieval almost impossible since the music content cannot easily be conveyed simply by bibliographic catalogue only. Indeed, music works are usually described with generic terms like Sonata or Concerto which are related only to the music form and not the actual content. From an IR point of view, data-based approaches are quite effective if the user can exhaustively and precisely use the available search fields. However, bibliographic values are not always able to describe exhaustively and precisely the content of music works. For example, the term Sonata as value of the type of work cannot sufficiently discriminate all the existing sonatas. Moreover, many known work titles, such as the Tchaikovskijs Pathetic, are insufficient to express a final users query whenever he would find the title not being a good description of the music work. The use of cataloging number, like K525 for Mozarts Eine Kleine Nachtmusic, will be effective only
9.2. MUSIC INFORMATION RETRIEVAL
9.37
if the user has a complete information on the music work, and in this case a database system will suffice. Searching by composer name can be very effective. However, some less known composers and their works may not be retrieved if only because the authors are little known. Content-based MIR may allow for the retrieval of these pieces since querying by a known melodic pattern, such as a Mozarts one, may retrieve previously not considered or unknown composers. On the other hand, for a prolific composer, just like Mozart, a simple query by composers name will retrieve an extremely high number of documents, unbearable for the final user. 9.2.3.2
Content-based Music Information Retrieval
Content-based approaches take into account the music document content, such as notation or performance, and automatically extract some features, such as incipites or other melody fragments, timing or rhythm, instrumentation, to be used as content descriptors. Typical content-based approaches are based on the extraction of note strings from the full-score music document. If arbitrarily extracted, note strings may be meaningless from a musical point of view because no music information is exploited to detect those strings, yet allows for a good coverage of all the possible features to be extracted. Content-based approaches to MIR can sometimes be oriented to disclosing music document semantic content using some music information, under the hypothesis that music documents can convey some meaning and then some fragments can effectively convey such meaning. In the latter case, some music information is exploited to detect those strings so that the detected strings can musically make sense if, for instance, they were played. The research work on this area of MIR can be roughly divided in two categories: • on-line searching techniques, which compute a match between a representation of the query and a representation of the documents each time a new query is submitted to the system; • indexing techniques, which extract off-line from music documents all the relevant information that is needed at retrieval time and perform the match between query and documents indexes. Both approaches have positive and negative aspects. • From the one hand, on-line search allows for a direct modelling of query errors by using, for instance, approximate pattern matching techniques that deal with possible sources of mismatch, e.g. insertion and/or deletion of notes. This high flexibility is balanced by high computational costs, because the complexity is at least proportional to the size of the document collection (and, depending on the technique, to the documents length). • From the other hand, indexing techniques are more scalable to the document collection, because the index file can be efficiently accessed through hashing and the computational complexity depends only on query length. The high scalability is balanced by a more difficult extraction of document content, with non trivial problems arising in case of query errors that may cause a complete mismatch between query and document indexes. Both approaches had given interesting and promising results. Yet, indexing approaches need to be investigated in more detail because of the intrinsic higher computational efficiency. Previous work on on-line search has been carried out following different strategies. A first approach is based on the use of pattern discovery techniques, taken from computational biology, to
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.38
compute occurrences of a simplified description of the pitch contour of the query inside the collection of documents. Another approach applies pattern matching techniques to documents and queries in GUIDO format, exploiting the advantages of this notation in structuring information. Approximate string matching has been used. Markov chains have been proposed to model a set of themes that has been extracted from music documents, while an extension to hidden Markov models has been presented as a tool to model possible errors in sung queries. An example of research work on off-line document indexing has been presented in[8]. In that work melodies were indexed through the use of N-grams, each N-gram being a sequence of N pitch intervals. Experimental results on a collection of folk songs were presented, testing the effects of system parameters such as N-gram length, showing good results in terms of retrieval effectiveness, though the approach seemed not be robust to decreases in query length. Another approach to document indexing has been presented in[24], where indexing has been carried out by automatically highlighting music lexical units, or musical phrases. Differently than the previous approach, the length of indexes was not fixed but depended on the musical context. That is musical phrases were computed exploiting knowledge on music perception, in order to highlight only phrases that had a musical meaning. Phrases could undergo a number of different normalization, from the complete information of pitch intervals and duration to the simple melodic profile. Most of the approaches are based on melody, while other music dimensions, such as harmony, timbre, or structure, are not taken into account. This choice may become a limitation depending on the way the user is allowed to interact with the system and on his personal knowledge on music language. For instance, if the query-by-example paradigm is used, the effectiveness of a system depends on the way a query is matched with documents: If the user may express his information need through a query-by-humming interface, the melody is the most likely dimension that he will use. Moreover, for non expert users, melody and rhythm (and lyrics) are the more simple dimensions for describing their information needs. Query processing can significantly differ within content-based approaches. After a query has been played, the system can represent it either as a single note string, or as a sequence of smaller note fragments. The latter can be either arbitrary note strings, such as n-grams, or fragments extracted using melody information. Regarding the query as a single note string makes content-based retrieval very difficult since it would be similar to retrieving textual files using Unix grep-like commands which provides very poor results. On the contrary, extracting fragments using melody information can result in a more effective query description. We then speak about partial match retrieval. 9.2.3.3
Music Digital Libraries
Digital library projects have been carried out for designing, implementing, and testing real MIR systems. Some of them implement data-based, content-based, or both approaches to MIR. We cite some of the projects being most relevant to our research aims. The reader can access to the cited papers to have a complete description of methods and systems. The VARIATIONS digital library has been reported in [9], while the MELDEX project is reported in [4]. A project involved the University of Milan and the Teatro alla Scala, Milan [10] to implement a multimedia object-relational database storing the music contents of the archive, as well as catalogue data about the nights at the Teatro alla Scala. The access to the archive is basically based on fragment extraction and approximate string matching. A feasibility study was conducted for the ADMV (Digital Archive for the Venetian Music of the Eighteenth century) digital library project [3]. The feasibility study allowed for defining architecture, technology, and search functions for a data and content-based MIR and database management system. The system complexity is due to the number of inter-relationships of all the aspects being
9.2. MUSIC INFORMATION RETRIEVAL
9.39
typical of a real effective DL distributed databases, preservation, wide area networking, protection, data management, content-based access.
9.2.4 Techniques for Music Information Retrieval Content-based MIR is a quite new research area, at least compared to classical textual IR. For this reason, most of the techniques applied to retrieve music documents derive from IR techniques. In this section, after introducing some terminology typical of content-based description of music documents, techniques for MIR and their relationship with IR techniques are described. A final example is given on how evaluation can be carried out. 9.2.4.1
Terminology
There is a number of terms that have a special meaning for the research community on MIR. A feature is one of the characteristics that describe subsequent notes in a score. A note feature can be: the pitch, the pitch interval with the previous note (PIT), a quantized PIT, the duration, the interonset interval with the subsequent note (IOI), the ratio of IOI with the previous note, and so on. All the features can be normalized or quantized. In the example of sect. 9.2.5.4, features are related to pitch and rhythm that, though usually correlated, can be treated independently. For example, many songs can be guessed only by tapping the rhythm of the melody while other ones can be easily recognized even if played with no tempo or rubato. A string is a sequence of features. Any sequence of notes in a melody can be considered a string. It can be noted that strings can be used as representative of a melody, which is the idea underlying many approaches to MIR, but the effectiveness by which each string represents a document may differ. For instance, it is normally accepted that the first notes of a melody play an important role in recognition, or that strings that are part of the main theme or motif are good descriptors as well. String length is an important issue: Long strings are likely to be effective descriptors, yet they may lead to problems when the user is request to remember long parts of a melody for querying a MIR system. Often, strings shorter than three notes can be discarded, because they can be considered not significant descriptors. A pattern is a string that is repeated at least twice in the score. The repetition can be due to the presence of different choruses in the score or by the use of the same music material (e.g., motifs, rhythmical cells) along the composition. Each pattern is defined by the string of features, by its length n and by the number of times r it is repeated inside the score. All patterns that appear only inside longer patterns have been discarded in the example of sect. 9.2.5.4. The computation of patterns can be done automatically using well known algorithms for pattern discovery. Given a particular feature, patterns can be considered as effective content descriptors of a music document. Depending on the selected feature, patterns carry different information about document content. It can be noted that a music documents may be directly indexed by its strings. In particular, it can be chosen to describe a document with all its strings of a given length, usually from 3 to 5 notes, that are called n-grams. The n-gram approach is a simple, but often effective, alternative to more complex approaches that are based on melodic information. In the following sections, patterns are considered as possible content descriptors, yet the discussion may be generalized to n-grams, musical phrases, and so on. Moreover, in the following discussion, three kinds of features are considered for the pattern selection step – the interonset interval (IOI) normalized to the quarter note, the pitch interval (PIT) in semitones, and both (BTH).
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.40
9.2.5 Document Indexing Document indexing is a mandatory step for textual information retrieval. Through indexing, the relevant information about a collection of documents is computed and stored in a format that allows easy and fast access at retrieval time. Document indexing is carried out only when the collection is created or updated, when users are not yet accessing the documents, and then the problems of computational time and efficiency are usually less restrictive. Indexing speeds up retrieval time because it is faster to search for a match inside the indexes than inside the complete documents. Following the terminology introduced in the previous section, each document may be indexed by a number of patterns of different length and with different multiplicity. If it is assumed that patterns are effective descriptors for document indexing, the first step of document indexing consists in the automatic computation of the patterns of each document. As previously mentioned, relevant features which are usually taken into account are IOI, PIT, and BTH. Pattern computation can be carried out with a ad-hoc algorithms that compute exhaustively all the possible patterns, and store them in a hash table. An exhaustive pattern discovery approach highlights a high number of patterns that have little or no musical meaning; for instance, a pattern that is repeated only two or three times in a document is likely to be computed by chance just because the combination of features is repeated in some notes combinations. Moreover, some patterns related to scales, repeated notes, or similar musical gestures, are likely to appear in almost all documents and hence to be poor discriminants among documents. In general, the degree by which a pattern is a good index may vary depending on the pattern and on the document. This is a typical situation of textual information retrieval, where words may describe a document to a different extent. For this reason it is proposed to apply the classical tf · idf weighting scheme. The extent by which a pattern describes a document is the result of the multiplication of two terms. The term frequency is the number of occurrences of a given pattern inside a document. Hence, the term frequency of pattern p for document d can be computed as tfpd = # occurrences of p ∈ d The inverse document frequency takes into account the number of different documents in which a patters appears. The inverse document frequency of pattern p can be computed as idfp = −log
# documents containing p # documents
Relevant patterns of a document may have a high tf – they are frequent inside the document – and/or a high idf – they are infrequent across the collection. For the aims of indexing, a document is described by a sparse array, where each element is associated to a different pattern in the collection. The value of each element is given by the tf · idf value. The index is built as an inverted file, where each term of the vocabulary is a different pattern in a given notation (i.e., a text string). Each entry in the inverted file corresponds to a different pattern, and can efficiently be computed in an expected time O(1) with an hashing function. Given the different sets of features, three inverted files are built, respectively for features IOI, PIT, and BTH. Inverted files can be efficiently stored in memory, eventually using compression, and fast accessed at retrieval time. The size of the inverted file and the implementation of the hashing function depend on the number of different patterns of the complete collection. It may be useful to fix the maximum allowable pattern length to improve indexing. In fact, it is likely that very long patterns are due to repetitions of complete themes in the score and taking
9.2. MUSIC INFORMATION RETRIEVAL
9.41
into account also them will give a quite sparse inverted file. Moreover, it is unlikely that a user will query the system singing a complete theme. These considerations suggest that long patterns could be truncated when they are over a given threshold. 9.2.5.1
Query Processing
For the query processing step, it can be assumed that users interact with the system according to a query-by-example paradigm. In particular, users should be able to describe their information needs by singing (humming or whistling), playing, or editing with a simple interface a short excerpt of the melody that they have in mind. Pitch tracking can be applied to the user’s query in order to obtain a transcription in a notation format, such as a string of notes. The string representing the translated query needs to undergo further processing, in order to extract a number of descriptors that can be used to match the query with potentially relevant documents. It is normally assumed that a query is likely to contain strings that characterize the searched document, either because they appear very often inside its theme or because they are peculiar of that particular melody. In other words, a query is likely to contain relevant patterns of the searched document, which may have a high tf and/or idf . The automatic detection of relevant strings cannot be carried out through pattern analysis, because normally queries are too short to have repetitions and hence to contain patterns. A simple approach to extract relevant strings, or potential patterns, from a query consists in computing all its possible substrings. That is, from a query of length q notes are automatically extracted q − 2 strings of three notes, plus q − 3 strings of four notes, and so on until the maximum allowable length for a pattern is reached. This approach can be considered similar to query expansion in textual information retrieval, which is known to increase recall at the risk of lowering precision. On the other hand, it is expected that most of the arbitrary strings of a query will never form a relevant pattern inside the collection, and then the negative effects on precision could be bounded. 9.2.5.2
Ranking Relevant Documents
At retrieval time, the strings are automatically extracted from the query and matched with the patterns of each document. The computation of potentially relevant documents can be carried out computing the distance between the vector of strings representing the query and the vector of patterns representing each document. Hence, for each document a Retrieval Status Value (RSV) is calculated, the higher the RSV, the closer the document with the query. A rank list of potentially relevant documents is computed from RSVs, obtaining a different rank lists for each of features used. In general the orderings of documents in the rank lists differ. Differences may be due to many factors, as the diverse importance of rhythm and melodic profile for a the document collection, the effect of errors in the query, the kind of melodic excerpt chosen by the user as a representative of his information needs. It is expected that BTH ranking will give high scoring to the relevant documents when the query is sufficiently long and correctly played, because BTH patterns are a closer representation of the original melody. On the other hand, IOI and PIT are robust to query errors in melodic profile and rhythm, respectively. Moreover, simple representations as IOI and PIT are expected to be less sensitive to query length because of the possible presence of subpatterns of relevant motifs. It is possible to take advantage from the existence of different rank lists by fusing together the results, in order to give the user a single rank list which takes into account the results of the three parallel approaches. This is a typical problem of data fusion, an approach that is usually carried out in the research area of Meta Search Engines, where the results obtained by different indexing and retrieval methodologies are combined – or fused – together according to a predefined weighting
CHAPTER 9. MUSIC INFORMATION PROCESSING
9.42
Figure 9.35: The phases of a methodology for MIR: Indexing, retrieval, and data fusion scheme. Since the RSVs of individual search engines are not known, or not comparable with others, the classical approach to data fusion is based on the information of rank only. In the case of MIR based on parallel features, the fusion can be carried out directly using the RSVs, because they are all based on the same tf · idf scheme. A new RSV can be computed as a weighted sum of RSVs of single features obtaining a new rank list. A complete methodology for MIR shown in Figure 9.35, where steps undertaken at indexing time are shown on the left, while the operations that are performed at retrieval time are shown on the right. From Figure 9.35 and the above discussion, it is clear that the computational complexity depends on the query length – i.e., the number of strings that are computed from the query – while it is scalable on the number of documents. This is an important characteristic given by indexing techniques, because the time needed to reply to a query can be reasonably low also for large collections of documents. 9.2.5.3
Measures for Performances of MIR Systems
The output of almost any information retrieval system, and this applies also to MIR, is a ranked list of potentially relevant documents. It is clear that only the final user can judge if the retrieved documents are really relevant to his information needs. That is, the user should evaluate system performances in terms of retrieval effectiveness. There are two main reasons why the user may not be satisfied by the result of an information retrieval system. • the system does not retrieve documents that are relevant for the user information needs – which is usually called silence effect; • the system retrieves documents that are not relevant for the user information needs – which is usually called noise effect All real systems for MIR try to balance these two negative effects. From the one hand, a high silence effect may result in not retrieving all the music documents that are similar to a given query sung by
9.2. MUSIC INFORMATION RETRIEVAL
9.43
the user. From the other hand, a high noise effect may cause the user to spend great part of a retrieval session in listening to irrelevant documents. Even if user satisfaction plays a central role in the evaluation of performances of a MIR system, and in general of any IR system, user studies are very expensive and time consuming. For this reason, the IR research community usually carries out automatic evaluation of the proposed systems using commonly accepted measures. In particular, there are two measures that are connected to the concepts of silence and noise effects. The first measure is recall, which is related to the ability of a system to retrieve the highest percentage of relevant documents (thus minimizing the silence effect). Recall is defined as # relevant retrieved recall = # total relevant that is the number of relevant documents retrieved by the system divided by the total number of relevant documents in the complete database of documents. The second measure is precision, which is related to the ability of the system of retrieving the lowest percentage of irrelevant documents (thus minimizing the noise effect). Precision is defined as precision =
# relevant retrieved # total retrieved
that is the number of relevant documents retrieved by the system divided by the total number of retrieved documents. An ideal system retrieved only relevant documents, and hence has 100% recall and precision. For real systems, high precision is usually achieved at the cost of low recall and viceversa. Both precision and recall do not take into account that a MIR system may output a rank list of documents. For this reason it is a common practice to compute these measures also for the first N documents (for N ∈ {5, 10, 20, . . .}) and, in particular, to compute the precision at given levels of recall. Another approach is to summarize these measures, and the effect of the documents rank, in a single measure. For instance, the average precision is computed as the mean of the different precisions computed each time a new relevant document is observed in the rank list. The evaluation of MIR systems is usually carried out on a test collection according to the Cranfield model for information retrieval, which is used at the Text REtrieval Conference (TREC). A test collection consists in a set of documents, a set of queries, and a set of relevance judgments that match documents to queries. The creation of a common background for evaluation is still an open issue in the MIR community, hence each research group created its own test collection from scratch. A “good” test collection should be representative of real documents and, in particular, of real user’s queries. The size of the document set, as well as the way queries are collected, may deeply influence the evaluation results. Relevance judgments should be normally given by a pool of experts in the music domain, which is an expensive task, but they can also be automatically constructed when queries are in the form of excerpts of a known tune. In this latter case, only the document from which the query derives is considered as relevant. 9.2.5.4
An Example of Experimental Evaluation
In the following paragraphs, the result of an experimental evaluation of a running MIR system are reported. The system is based on pattern analysis, based on three alternative features (IOI, PIT, and BTH) and data fusion techniques applied to the combination of IOI and PIT, called Fuse2, and the combination of all the three features, called Fuse3.
9.44
CHAPTER 9. MUSIC INFORMATION PROCESSING
The Test Collection A small test collection of popular music has been created using 107 Beatles’ song in MIDI format downloaded from the Web. As for any test collection, documents may contain errors. In a preprocessing step, the channels containing the melody have been extracted automatically and the note durations have been normalized; in case of polyphonic scores, the highest pitch has been chosen as part of the melody. After preprocessing, the collection contained 107 complete melodies with an average length of 244 notes, ranging from 89 of the shortest melody to 564 of the longest. Even if a number of approaches for performing automatic theme extraction has been already proposed in the literature, the methodology relies on indexing of complete melodies, because repetitions of choruses and verses can be taken into account by the tf · idf measure. A set of 40 queries has been created by randomly selecting 20 themes in the dataset and using the first notes of the chorus and of the refrain. The initial note and the length of each query were chosen to have recognizable motifs that could be considered representative of real users’ queries. The queries had an average length of 9.75 notes, ranging from 4 to 21 notes. Only the theme from which the query was taken was considered as relevant. Using this initial set of correct queries, an alternative set has been created by adding errors on pitch, duration, and both, obtaining a new set of 120 queries. A simple error model has been applied, because errors were uniformly distributed along the notes in the queries, with a probability of about 13.3%. As for many approaches to approximate string matching, an error can be considered the result of a deletion and an insertion, thus these alternative sources of errors have not been explicitly modelled. Tests on robustness to query length were carried out by automatically shortening the initial queries by an increasing percentage, disregarding the fact that query would not sound musical. In this way, 160 more queries with decreasing length have been automatically generated. For all the modified queries, only the theme of initial query was considered as relevant. In the following, we will refer to the only relevant document with the term r-doc for all the experiments. Truncation of Patterns All the experimental analyses, whose results are shown in the following sections, have been carried out after truncating patterns longer than a given threshold t. When a pattern [f1 . . . fn ] had a length of n > t, it has been replaced (in the indexing step) by all its subpatterns of exact length t, that is the n − t + 1 subpatterns [f 1 . . . ft ], [f2 . . . ft+1 ], and so on until [fn−t . . . fn ], where some of the subpatterns may be already extracted, because they were part of other motifs. With the aim of computing the optimal threshold for the test collection, five different thresholds have been tested, respectively 5, 7, 10, 15, and 20 notes. The retrieval effectiveness decreased with high values of the threshold, meaning that a compact representation of patterns can be more effective than longer ones. The average precision was approximately constant when thresholds higher than 15 − 20 notes were applied, probably because the number of different patterns longer than 20 notes is less than 8% and with a low value of r. The use of short patterns can be a useful way to control the increase of the index when new documents are added to the collection. Due to simple combinatorial reasons, the number of different patterns is bounded by the pattern length; on the other hand, the use of short patterns has the drawback of a higher number of patterns that are in common among documents, which may lower precision. It is interesting to note that data fusion approaches gave consistently better results than single approaches. This behaviour has been found in all our experiments, which are presented in the following sections, where results are shown only for t = 5. Retrieval Effectiveness The first detailed analysis regarded the retrieval effectiveness with the set of 40 correct queries. Results are shown in Table 9.2, where the average precision (Av.Prec.), the percentage queries that gave the r-doc within the first k positions (with k ∈ {1, 3, 5, 10}), and the
9.2. MUSIC INFORMATION RETRIEVAL
9.45
ones that did not give the r-doc at all (“not found”), are reported as representative measures. As it can be seen, IOI gave the poorest results, even if for 90% of the queries the r-doc were among the first three retrieved. The highest average precision using a single feature was obtained by BTH, with the drawback of an on-off behaviour: either the r-doc is the first retrieved or it is not retrieved at all (2.5% of the queries). PIT gave good results, with all the queries that found the r-doc among the first three documents. Av.Prec. =1 ≤3 ≤5 ≤ 10 not found
IOI 0.74 57.5 90.0 95.0 97.5 0
PIT 0.93 87.5 100 100 100 0
BTH 0.98 97.5 97.5 97.5 97.5 2.5
Fuse2 0.96 92.5 100 100 100 0
Fuse3 0.98 95.0 100 100 100 0
Table 9.2: Retrieval effectiveness for correct queries The best results for Fuse2 and Fuse3 have been obtained assigning equal weights to the single ranks. When the tf · idf scores had different weights an improvement was still observed in respect to single rankings, though to a minor extent. For this reason, results for Fuse2 and Fuse3 are presented only when equal weights are assigned. Robustness to Errors in the Queries Users are likely to express their information needs in an imprecise manner. The query-by-example paradigm is error prone because the example provided by the user is normally an approximation of the real information need. In particular, when the user is asked to sing an excerpt of the searched document, errors can be due to imprecise recall of the melody, problems in tuning, tempo fluctuations, and in general all the problems that untrained singers have. Moreover, transcription algorithms may introduce additional errors in pitch detection and in melody segmentation. The robustness to errors has been tested on an experimental setup. Since indexing is carried out on melodic contour and on rhythm patterns, the errors that may affect the retrieval effectiveness regard the presence of notes with a wrong pitch and a wrong duration. As previously mentioned, a set of queries with automatically added errors has been generated in order to test the robustness of the approach in a controlled environment. As expected, the performances of IOI dropped for queries with errors in rhythm and the same applied to PIT for queries with errors in pitch. The same considerations apply to BTH in both cases, with an even bigger drop in the performances. It is interesting to note that data fusion allowed for compensating the decreases in performances of single ranks, giving for both Fuse2 and Fuse3 an average precision equal to the one obtained without errors. In the case of errors in both pitch and rhythm, also Fuse2 and Fuse3 had a decrease in performances, even if their average precision was consistently higher than the one of single features. The experimental results showed that Fuse3 gave a considerable improvement in respect to the single rankings contribution. A query-by-query analysis showed that this behaviour is due to the fact that the sum of tf · idf scores of the single features gave always a new ranking where the r-doc was at the same level of the best of the three separate ranks; that is, if one of the three gave the r-doc as the most relevant document, also Fuse3 had the r-doc in first position. Moreover, for some queries, the fused rank gave the r-doc at first position even if none of the three single ranks had the r-doc as
9.46
CHAPTER 9. MUSIC INFORMATION PROCESSING
the most relevant document. These improvements can be explained by two factors: First, when the r-doc was retrieved at top position by one of the features, it had a very high tf · idf score that gave an important contribution to the final rank; Second, the r-doc was often retrieved with a high rank by two or three of the features, while in general other documents were not considered as relevant by more than one feature. Similar considerations apply, though at a minor extent, also to Fuse2. Dependency to Query Length A final analysis has been carried out on the effects of query length to the retrieval effectiveness. It is known that users of search engines do not express their information needs using much information. The community of information retrieval had to face the problems of finding relevant information also with vague or short queries. To some extent, a similar problem applies to MIR because users may not remember long excerpts of the music documents they are looking for. Moreover, untrained singers may not like to sing for a long time a song that they probably do not know very well. The effects of query length on a MIR system should then be investigated. Tests on the dependency to query length have been carried out on a set of queries that were obtained from the original set of queries by shortening the number of notes from 90% to 60% of their original lengths. With this approach, queries may become very short, for instance a query of two notes cannot retrieve any document because patterns shorter than three notes are not taken into account. Consistently with previous results, Fuse3 gave the best performances and showed a higher robustness to decrease in query length. Also in this case results showed that the data fusion approach was enough robust to changes in the initial queries. As previously mentioned, each initial query has been created selecting a number of notes that allowed to recognize the theme by a human listener. Moreover, each query was made by one or more musical phrases – or musical gestures or motifs – considering that a user would not stop singing his query at any note, but would end the query in a position that have a “musical sense”. For this reason, tests on query length can give only a general indication on possible changes in retrieval effectiveness.
9.2.6 Conclusions This section present a short overview on some aspects of music IR. In particular, the issues typical of the music language have been discussed, taking into account the problems of formats and the role of the user. A number of approaches that have been proposed in the literature are presented, in particular the ones related to music Digital Libraries. There are a number of aspects that are beyond the scope of this overview. In particular, all the research work related to audio processing that, even if not central to music IR, plays an important role in creating tools for classification of audio files and automatic extraction of low level features, that may be useful for expert users.
9.3 Commented bibliography The reference book for Auditory scene analysis is [4]. The Implication realization model is described in [12]. The Local Boundary Detection algorithm is presented in [5]. The Generative Theory of Tonal Music is described in [9]. Research on automatic metadata extraction for MIR can be classified in two main fields, depending on the two different classes of formats in which a music document can be represented: the automatic extraction of relevant information from a music score, which is typically achieved through melody
9.3. COMMENTED BIBLIOGRAPHY
9.47
segmentation and indexing; the automatic categorization of a music recording, which is typically achieved through audio classification. In this chapter we deal with the first field. In the case of melody segmentation and indexing, the main assumption is that it is not possible to use textual descriptors for music documents, in particular for compositions and for melodies. Since it is not clear what kind of meaning is conveyed by a music document, the common approach is to describe a document using perceptually relevant elements, that may be in the same form of the document itself (that is the only way to describe music is through music). Clearly, the alternative description of a music document should be more compact and summarize the most relevant information, at least from a perceptual point of view. The music language may be characterized by different dimensions, which may regard the score representation e.g., melody, harmony, rhythm the recording of performances e.g., timbre, instrumentation and high level information e.g., structure, musical form. Among the different dimensions, melody seems to be the most suitable for describing music documents. First of all, users are likely to remember and use, in a query-by-example paradigm, parts of the melody of the song they are looking for. Moreover, most of the dimensions require a good knowledge of music theory to be effectively used, reducing the number of potential users to scholars, composers, and musicians. Finally, melody can benefit from tools for string analysis and processing to extract relevant metadata. For these reasons, most of the research work on metadata extraction focused on melody segmentation and processing. The need for automatic melody processing for extracting relevant information to be used as alternative descriptors, arises from the fact that the melody is a continuous flow of events. Even though listeners perceive the presence of elements in the melodic flow, which may be called lexical units, there is no explicit separator to highlight boundaries between them. Moreover, it is well known that there are parts of the melody e.g., the incipit, the theme, the leit-motiv, and so on that are more relevant descriptors of a music document than others. Yet, the automatic labelling of these relevant parts needs ad-hoc techniques. One of the first works, probably the most cited in the early literature on MIR, is [6]. In this paper it is proposed the use of a query-by-example paradigm, with the aim of retrieving the documents that are more similar to the melody excerpts sung by the user: both documents and queries are transformed in a different notation that is related to the melodic profile. An alternative approach to MIR is proposed in [3], where metadata is automatic computed and stored in a parallel database. Metadata is in the form of hyperlinks between documents that are judged similar by the system. Music language is quite different from other media, because it is not clear if music conveys a meaning and how a music document can be effectively described; this mostly because perception plays a crucial role in the way users can describe music. The important issue of perception is faced in [14], where a user study is presented on users melody representation. The knowledge of music structure is exploited in [10] for extracting relevant information, where music documents and queries are described by surrogates made of a textual description of musical lexical units. Experiments on normalization are also reported, in order to cope with variants in musical lexical units that may describe similar documents. In [1] is proposed a multimodal description of music documents, which encompasses the audio, a visual representation of the score, the eventual lyrics, and other metadata that are automatically extracted from files in MIDI format. An alternative approach to automatically compute melodic descriptors of music documents is presented in [1], which is based on the use of N-grams as musical lexical units. Alternatively, musically relevant phrases are proposed in [11], where an hypertextual structure is automatically created among documents and musical phrases. In this case a document is described by a set of links to similar documents and to its most relevant phrases. Musical structure is exploited in [7] for computing a set of relevant features from a music document in a complex notation format. Alternatively to previous works, in [2] it is proposed that a good descriptor of a music document
9.48
CHAPTER 9. MUSIC INFORMATION PROCESSING
is its set of main themes, which are units longer than N-grams or musical phrases. Themes are modelled through the use of Markov chains. An extension to hidden Markov models is presented in [13], where possible mismatches between the representation of the query and of the documents are explicitly modelled by emission probabilities of Hidden Markov Models states. An evaluation of different approaches is presented in [8], where the problem of efficiency is raised and discussed.
Bibliography [1] D. Bainbridge, C.G. Nevill-Manning, I.H. Witten, L.A. Smith, and McNab R.J. Musical information retrieval using melodic surface. In Proc. International Symposium on Music Information Retrieval, pages 161–169, 1999. [2] W.P. Birmingham, R.B. Dannenberg, G.H. Wakefi eld, M. Bartsch, D. Bykowski, D. Mazzoni, C. Meek, M. Mellody, and W. Rand. Musart: Music retrieval via aural queries. In Proc. International Symposium on Music Information Retrieval, pages 73–82, 2001. [3] S. Blackburn and D. DeRoure. A tool for content based navigation of music. In Proc. ACM Multimedia Conference, pages 361–368, 1998. [4] A. S. Bregman. Auditory Scene Analysis. MIT Press, 1990. [5] E. Cambouropoulos. The local boundary detection model (lbdm) and its application in the study of expressive timing. In Proc. Int. Computer Music Conf., 2001. [6] A. Ghias, J. Logan, D. Chamberlin, and B.C. Smith. Query by humming: Musical information retrieval in an audio database. In Proceedings of ACM Digital Libraries (DL) Conference, pages 231–236, 1995. [7] H.H. Hoos, K. Renz, and M. Gorg. GUIDO/MIR - an experimental musical information retrieval system based on guido music notation. In Proc. International Symposium on Music Information Retrieval, pages 41–50, 2001. [8] N. Hu and R.B. Dannenberg. A comparison of melodic database retrieval techniques using sung queries. In Proc. ACM/IEEE Joint Conference on Digital Libraries, pages 301–307, 2002. [9] F. Lerdahl and R. Jackendoff. A Generative Theory of Tonal Music. The MIT Press, 1983. [10] M. Melucci and N. Orio. Musical information retrieval using melodic surface. In Proc. 4th ACM Conference on Digital Libraries, pages 152–160, 1999. [11] M. Melucci and N. Orio. Smile: a system for content-based musical s information retrieval environments. In Proc. Intelligent Multimedia Information Retrieval Systems and Management (RIAO) Conference, pages 1246–1260, 2000. [12] Eugene Narmour. The Analysis and cognition of basic melodic structures : the implication-realization model. University of Chicago Press, 1990. [13] J. Shifrin, B. Pardo, C. Meek, and W. Birmingham. Hmm-based musical query retrieval. In Proc. ACM/IEEE Joint Conference on Digital Libraries, pages 295–300, 2002. [14] A. Uitdenbogerd and J. Zobel. Manipulation of music for melody matching. In Proc. ACM Multimedia Conference, pages 235–240, 1998.
9.49
9.50
BIBLIOGRAPHY
Contents 9 Music information processing 9.1 Models for musical analysis . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Cognitive processing of music information . . . . . . . . . . 9.1.2 Auditory grouping . . . . . . . . . . . . . . . . . . . . . . . 9.1.3 Gestalt perception . . . . . . . . . . . . . . . . . . . . . . . 9.1.3.1 Musical examples of auditory organization . . . . . 9.1.4 Narmour’s implication realization model . . . . . . . . . . . 9.1.5 Local Boundary Detection Model (LBDM) . . . . . . . . . . 9.1.5.1 Local Boundary Detection algorithm description . . 9.1.6 Generative Theory of Tonal Music of Lerdahl and Jackendorf 9.1.7 Key finding algorithm . . . . . . . . . . . . . . . . . . . . . 9.2 Music Information Retrieval . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1.1 Digital Music and Digital Libraries . . . . . . . . . 9.2.1.2 Music Information Retrieval . . . . . . . . . . . . . 9.2.2 Issues of Content-based Music Information Retrieval . . . . . 9.2.2.1 Peculiarities of the Music Language . . . . . . . . 9.2.2.2 The Role of the User . . . . . . . . . . . . . . . . . 9.2.2.3 Formats of Music Documents . . . . . . . . . . . . 9.2.2.4 Dissemination of Music Documents . . . . . . . . 9.2.3 Approaches to Music Information Retrieval . . . . . . . . . . 9.2.3.1 Data-based Music Information Retrieval . . . . . . 9.2.3.2 Content-based Music Information Retrieval . . . . 9.2.3.3 Music Digital Libraries . . . . . . . . . . . . . . . 9.2.4 Techniques for Music Information Retrieval . . . . . . . . . . 9.2.4.1 Terminology . . . . . . . . . . . . . . . . . . . . . 9.2.5 Document Indexing . . . . . . . . . . . . . . . . . . . . . . . 9.2.5.1 Query Processing . . . . . . . . . . . . . . . . . . 9.2.5.2 Ranking Relevant Documents . . . . . . . . . . . . 9.2.5.3 Measures for Performances of MIR Systems . . . . 9.2.5.4 An Example of Experimental Evaluation . . . . . . 9.2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Commented bibliography . . . . . . . . . . . . . . . . . . . . . . . .
9.51
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 9.1 9.1 9.4 9.5 9.11 9.13 9.16 9.17 9.21 9.24 9.28 9.28 9.29 9.29 9.31 9.31 9.32 9.33 9.35 9.36 9.36 9.37 9.38 9.39 9.39 9.40 9.41 9.41 9.42 9.43 9.46 9.46
View more...
Comments