Calcolo delle Probabilità

June 1, 2016 | Author: Iodiventerofamoso | Category: N/A
Share Embed Donate


Short Description

Teoria di calcolo delle probabilità...

Description

Lezione 1 1.1

(Luned`ı, 4 marzo 2013, ore 10:30-12:15)

La probabilit` a per l’Ingegneria dell’Informazione

Iniziamo con la discussione qualitativa di qualche problema pratico che richiede il ricorso a metodi probabilistici. Alcuni di questi esempi verranno ripresi mano a mano che si disporr`a degli strumenti tecnici per un’analisi pi` u approfondita.

ANALISI DEI DATI 2012-13

c L. Finesso (2012)

(a.) Compressione dati senza errore (zip/unzip sul PC) Si tratta di mappare (codificare), in modo invertibile, una sequenza di dati (ad esempio un file di testo o un file eseguibile) in una sequenza di bit di lunghezza minima. La parola chiave qui `e invertibile: ad esempio la compressione di file audio/video in formato .mp3 o .mp4 non `e invertibile. L’algoritmo impiegato da ZIP produce invece una codifica invertibile. Apparentemente il problema `e completamente deterministico, ma il limite teorico di compressibilit` a di una data sequenza di dati dipende da una quantit`a probabilistica, l’entropia della sorgente dei dati. (b.) Analisi di affidabilit` a Componenti di affidabilit` a nota vengono assemblati per produrre sistemi. Qual `e l’affidabilit`a complessiva del sistema? Dove conviene introdurre sistemi di backup per garantire una fissata soglia di affidabilit`a? Oppure, di maggior interesse per l’Informatica, si consideri la piccola rete di calcolatori rappresentata dal grafo qui sotto. C l4

l5 0.8

0.9

D

B

l1

0.7 0.9

0.3

l6

l7

A

E 0.95 l3

0.75 l2 F

I vertici sono i calcolatori, gli archi le connessioni fisiche tra calcolatori. Ogni arco ha due etichette: il nome e la percentuale di uptime della connessione fisica: potete pensare che questo dato sia stato ricavato osservando la rete nelle ultime 24 ore o nell’ultimo mese ecc. Si vuole calcolare la percentuale di uptime della connessione tra A e B. Supponete poi di riuscire a migliorare la connessione tra D ed E. Di quanto migliorer`a la connessione tra A e B? A queste domande, e ad altre simili, sapremo presto dare una risposta utilizzando semplici strumenti probabilistici. (c.) Complessit` a degli algoritmi - worst case analysis ed analisi in media Con la worst case analysis si valuta un parametro di performance dell’algoritmo, ad esempio il tempo di esecuzione, nel caso pi` u sfavorevole. Consideriamo ad esempio un algoritmo di ordinamento. Supponete di dover ordinare alfabeticamente pacchetti di 1000 nomi. I possibili ordini di arrivo dei dati sono 1000! e tipicamente solo uno di questi `e ` molto pessimistico il worst case per l’algoritmo di ordinamento che state impiegando. E 1

basare la valutazione dell’algoritmo sull’analisi della sua performance nel worst case. Se utilizzate l’algoritmo centinaia di volte al giorno, su pacchetti di 1000 dati sempre diversi, vi interessa di pi` u il suo tempo di esecuzione medio. Lo studio del comportamento medio `e un tipico argomento di teoria della probabilit`a. (d.) Integrazione numerica con il metodo di Monte Carlo Si supponga di dover calcolare numericamente Z 1 f (x) dx I := 0

per una complicata funzione f (x), continua nell’intervallo [0, 1], la cui antiderivata non `e nota. Il metodo classico `e l’approssimazione di Riemann che consiste nel suddividere l’intervallo [0, 1] in n sottointervalli di identica lunghezza ∆ := n1 , allora 1

Z

f (x) dx ≈ 0

n X

f (k∆) ∆.

k=1

L’approssimazione `e tanto migliore quanto pi` u grande `e n, come garantito dalla teoria dell’integrale di Riemann. Un metodo alternativo (metodo di Monte Carlo) consiste nello scegliere n punti a caso nell’intervallo [0, 1], diciamoli x1 , x2 , . . . xn , e quindi calcolare Z 0

1

n 1 X f (xk ). f (x) dx ≈ n k=1

Nella figura qui sotto i due metodi sono messi a confronto. f (x)

f (x)

6

6

f (x∗ ) x -



2∆

3∆

x3

1

x∗

x1 x2 1

x -

Il razionale per il metodo di Monte Carlo `e il teorema della media integrale. R 1 Se f (x) ∗ `e una funzione continua sull’intervallo [0, 1] allora esiste x ∈ [0, 1] tale che 0 f (x) dx = f (x∗ ). Scegliendo i punti x1 , x2 , . . . xn a caso alcuni f (xk ) saranno minori di f (x∗ ), altri maggiori; se n `e grande, calcolando la media aritmetica degli f (xk ) ci aspettiamo quindi di ottenere un valore vicino ad f (x∗ ). Un celebre teorema della teoria della probabilit`a, la legge dei grandi numeri, giustifica in modo rigoroso questo ragionamento intuitivo. Ma come si sceglie un punto a caso, diciamo x1 , nell’intervallo [0, 1]? Lanciamo ripetutamente una moneta. Scriviamo il punto decimale e poi accodiamo un 1 ogni volta che esce Testa, ed uno 0 ogni volta che esce Croce. I lanci successivi produrranno in questo modo una sequenza binaria che interpreteremo come rappresentazione, in base 2, del numero reale x1 ∈ [0, 1]. Ad esempio la sequenza CCT T CT . . . produce il punto x1 = .001101 . . . 2

All’aumentare del numero di lanci aumenta la precisione di x1 . Con n lanci si ottiene x1 con precisione 21n . Con il metodo di Monte Carlo si calcola un integrale, problema squisitamente deterministico, facendo ricorso al fenomeno casuale per eccellenza: i lanci ripetuti di una moneta.

1.2

La teoria assiomatica della probabilit` a

La teoria della probabilit` a `e uno dei possibili strumenti matematici per modellare esper` in realt`a lo strumento che ha avuto, e continua ad avere, imenti il cui esito `e incerto. E maggior successo nelle applicazioni. Lo sviluppo matematico della teoria della probabilit`a procede per via assiomatica. Una volta definite le nozioni di base si derivano Lemmi, Proposizioni, e Teoremi, si introducono nuove definizioni e cos`ı via, senza bisogno di fare riferimento a monete, giochi di carte, esperimenti dall’esito incerto ecc. Poich´e questo `e un corso di base per` o, per motivare lo studio e per sviluppare l’intuizione, cercheremo di presentare le idee astratte e dare contemporaneamente la loro interpretazione in vari contesti applicativi. Lo svantaggio di questo approccio `e che il livello matematico sar`a troppo basso per chi cerca una trattazione completa, rigorosa e concisa e troppo alto per chi invece vorrebbe solo imparare a risolvere semplici problemi applicativi. Il pi` u importante oggetto matematico in teoria della probabilit`a `e lo spazio di probabilit`a. Molto all’ingrosso, vedremo successivamente i dettagli, uno spazio di probabilit`a S `e una terna S = (Ω, F, P ), dove Ω `e un insieme (lo spazio campionario) , F una famiglia di sottoinsiemi di Ω (la σalgebra degli eventi misurabili) e P una mappa P : F → [0, 1], (la misura di probabilit`a). In questa lezione ci concentriamo sul primo elemento della terna, lo spazio campionario Ω.

1.3

Lo spazio campionario Ω

Nella teoria astratta Ω `e un insieme, detto spazio campionario, senza altre specificazioni. Quando la teoria della probabilit` a viene applicata a problemi concreti gli elementi di Ω rappresentano i possibili risultati d’interesse di un esperimento aleatorio. La natura di Ω pu`o quindi essere estremamente varia a seconda dello specifico esperimento. Vediamo alcuni esempi. (1.) Esperimento: lancio una moneta. Osservazione: faccia uscita Ω := { C, T } molto spesso si preferisce identificare C = 0, T = 1. (2.) Esperimento: lancio una moneta 3 volte. Osservazione: numero di Teste uscite Ω := { 0, 1, 2, 3 } (2b.) Esperimento: lancio una moneta 3 volte. Osservazione: sequenza delle facce uscite Ω := { T T T, T T C, T CT, T CC, CT T, CT C, CCT, CCC } (3.) Esperimento: lancio una moneta ripetutamente. Osservazione: numero del lancio in cui si verifica la prima Testa Ω = N := { 1, 2, 3, . . . } 3

(4.) Esperimento: misurazione della durata di un hard disk. Osservazione: intervallo di tempo Ω = R+ := [0, ∞) Nota. Introducendo un’approssimazione si potrebbe misurare la durata in numero intero di ore. Il motivo per cui non conviene farlo `e che il tempo, come la lunghezza e la massa per nominarne tre, `e una grandezza fisica che, almeno a livello macroscopico, si modella pi` u semplicemente usando un numero reale. La legge di Newton F = ma `e un’equazione differenziale, non un’equazione alle differenze! (5.) Esperimento: registrazione della temperatura al suolo a Porta Portello. Osservazione: il tracciato termografico nell’arco di 24 ore. Ω := {f : [0, 24] → R;

f `e continua }

In questo esempio gli elementi di Ω sono funzioni continue. rappresenta un possibile tracciato osservato.

Ogni funzione continua

(6.) Esperimento: registrazione di temperatura e pressione al suolo a Porta Portello. Osservazione: il tracciato termografico e barometrico nell’arco di 24 ore. Ω := {f : [0, 24] → R2 ;

f `e continua }

In questo caso ogni osservazione `e una funzione a valori vettoriali, in R2 . (7.) Esperimento: studio socio-sanitario. Osservazione: sesso, et`a, peso, degli individui partecipanti Ω := {F, M } × N × R+ In questo caso gli elementi sono vettori a tre componenti disomogenee, la prima a valori in un insieme a due valori, la seconda a valori in N, la terza a valori reali positivi. Questo `e solo un modesto campionario di casi molto semplici. Una differenza fondamentale tra i diversi spazi campionari `e la cardinalit`a. In alcuni esempi, (1.), (2.), (2b.), la cardinalit` a `e finita, in altri, (3.), infinita numerabile cio`e pari alla cardinalit`a di N, in altri, (4.), (7.), infinita non numerabile cio`e pari alla cardinalit`a di R, in altri, (5.), (6.), superiore alla cardinalit` a di R. Nella prima parte del corso ci concentreremo su spazi campionari finiti ed infiniti numerabili. Nella seconda parte tratteremo gli spazi campionari con la cardinalit`a di R. Non tratteremo esempi del tipo (5.), (6.). ` interessante confrontare gli esempi (2.) e (2b.). Si noti che sullo spazio campionario di E (2b.) si possono rappresentare i risultati d’interesse dell’esempio (2.). Se so che `e uscita la sequenza T T C posso dire che il numero di Teste `e 2. Quindi lo spazio campionario che ` importante rappresenta i possibili risultati di un esperimento `e inerentemente non unico. E prendere sempre uno spazio campionario sufficientemente ricco da contenere tutti i risultati d’interesse. Se poi Ω contiene pi` u elementi di quanti strettamente necessari si pu`o gestire la situazione, mentre il caso opposto porta a problemi. Non si possono rappresentare i risultati d’interesse del caso (2b.) usando lo spazio campionario di (2.)

1.4

Terminologia relativa allo spazio campionario

La terminologia probabilistica `e ormai consolidata. L’insieme Ω `e detto spazio campionario (sample space). Gli elementi ω ∈ Ω sono detti esiti (outcomes) o eventi elementari, i sottoinsiemi di Ω sono detti eventi (events).1 Nelle applicazioni gli elementi dello spazio campionario rappresentano i possibili esiti di un esperimento i cui risultati sono incerti. 1

In realt` a, come vedremo, sono detti eventi solo i sottoinsiemi di Ω che appartengono a F.

4

Se l’esecuzione dell’esperimento produce il risultato ω ∈ Ω, si dice che si `e verificato ω e, per ogni E tale che ω ∈ E, si dice che si `e verificato E. Esempio 1. Con l’usuale convenzione, 0=croce, 1=testa, sia Ω := { 000, 001, 010, 011, 100, 101, 110, 111 } lo spazio campionario che rappresenta i possibili risultati di tre lanci di una moneta. Esempi di eventi di Ω sono i sottoinsiemi di esiti Ek := ”escono k teste su 3 lanci”,

k = 0, 1, 2, 3.

Ad esempio E0 = {000}, mentre E1 = {001, 010, 100} ecc. Se si esegue l’esperimento e, lanciando 3 volte la moneta, escono le facce 001 diremo che ω = 001 si `e verificato. Analogamente diremo che si `e verificato E1 , mentre non si `e verificato E2 . 

1.5

Operazioni elementari sugli eventi

Quando si disponga di certi eventi E, F , G ecc. `e naturale utilizzzare gli eventi dati per formare nuovi eventi d’interesse applicando le usuali operazioni insiemistiche sugli eventi dati. Qui per usuali operazioni, di cui si considerano note la definizioni, si intendono l’unione, l’intersezione, e la complementazione2 . Utilizzando la terminologia probabilistica appena introdotta, se E ed F sono eventi, E c = si verifica se e solo se non si verifica E E ∪ F = si verifica se e solo se si verificano E o F E ∩ F = si verifica se e solo se si verificano E e F Esempio 2. Riprendendo l’Esempio 1, si considerino i seguenti eventi che sono descritti sia verbalmente che utilizzando operazioni insiemistiche sugli eventi Ek . E := ”si verifica almeno 1 testa” = E0c F := ”si verifica al pi` u 1 testa” = E0 ∪ E1 G := ”si verifica almeno 1 testa e almeno 1 croce” = E1 ∪ E2



Due eventi speciali, banali e onnipresenti, sono Ω e ∅ detti, per ovvie ragioni, evento certo ed impossibile rispettivamente. Tornando all’Esempio 2, ”si verificano almeno 2 teste e 2 croci” = ∅, mentre ”si verifica almeno 1 testa o una croce” = Ω. 2

Ha senso parlare di complemento di un evento poich´e tutti gli eventi sono sottoinsiemi di Ω.

5

Le propriet` a di complementazione, unione ed intersezione si suppongono note. A titolo di promemoria, non necessariamente esaustivo, per ogni E, F , G ecc. eventi, E∩F =F ∩E E∪F =F ∪G E∩E =E∪E =E E ∩ ∅ = ∅,

E∪∅=E

E ∩ Ω = E,

E∪Ω=Ω

E ∩ (F ∩ G) = (E ∩ F ) ∩ G E ∪ (F ∪ G) = (E ∪ F ) ∪ G E ∩ (F ∪ G) = (E ∩ F ) ∪ (E ∩ G) E ∪ (F ∩ G) = (E ∪ F ) ∩ (E ∪ G) (E ∩ F )c = E c ∪ F c (E ∪ F )c = E c ∩ F c

6

Attenzione. Si tenga ben presente che la scrittura E ∩ F ∪ G `e priva di senso, poich´e mancando le parentesi non `e chiaro in che ordine si debbano effettuare le operazioni e, in generale (E ∩ F ) ∪ G e E ∩ (F ∪ G) sono diversi [Micro-esercizio. Costruire esempi dell’ultima affermazione.] Morale: ogni volta che si scrive una espressione che contiene unioni, intersezioni e complementazioni si deve specificare univocamente l’ordine di esecuzione delle operazioni con abbondante uso di parentesi.

1.6

Decomposizioni di eventi in unioni di eventi mutuamente esclusivi

(a.) Partizione di Ω Una partizione di Ω `e una famiglia {En }n≥1 di eventi mutuamente esclusivi, la cui unione `e Ω, ovvero tale che Ei ∩ Ej

= ∅, i 6= j [ Ω = Ei i

Esempi. (i.) Dato un evento E, una semplice partizione di Ω `e {E, E c }. In effetti E ∩ E c = ∅ e E ∪ E c = Ω. ` evidente che gli eventi Ek , per k = 0, 1, 2, 3, (ii.) Si consideri Ω come nell’Esempio 1. E formano una partizione di Ω. In questo caso E0 = {000}, E1 = {001, 010, 100}, E2 = {011, 101, 110}, E3 = {111} ed Ω = ∪3k=0 Ek . (iii.) Lancio due dadi e osservo le facce uscite, Ω = {(1, 1), (1, 2), . . . (6, 6)} contiene 36 coppie ordinate. Una partizione `e fornita dagli eventi Ek := ”la somma delle facce `e k”,

k = 2, 3, . . . 12.

(b.) Decomposizione rispetto ad una partizione. Nel caso elementare si considera la partizione (E, E c ) dove E ⊂ Ω. Poich´e per ogni F ⊂ Ω `e F = F ∩ Ω = F ∩ (E ∪ E c ) = (F ∩ E) ∪ (F ∩ E c ) otteniamo la rappresentazione F = (F ∩ E) ∪ (F ∩ E c ). I due eventi dell’unione sono incompatibili: questo, vedremo, `e particolarmente conveniente in TdP. Per un dato F la rappresentazione vale qualunque sia E: nella pratica sar`a importante scegliere E in modo che la rappresentazione semplifichi i conti probabilistici. In generale se (En ) `e una partizione di Ω allora vale la rappresentazione [ F = (F ∩ Ei ) i

e gli eventi dell’unione sono mutuamente esclusivi. Anche qui, in pratica, sar`a fondamentale scegliere opportunamente la partizione. (c.) Decomposizione dell’unione In TdP la decomposizione di eventi complessi in unione di eventi incompatibili (cio`e digiunti) `e uno dei trucchi standard per semplificare i calcoli. La seguente decomposizione, valida qualunque siano gli eventi E ed F , si dimostrer`a spesso utile E ∪ F = (E ∩ F c ) ∪ (E ∩ F ) ∪ (E c ∩ F ) 7

(d.) Decomposizione alternativa dell’unione e generalizzazione Le decomposizioni in unioni di eventi incompatibili si possono normalmente effettuare in molti modi. Quale sia la decomposizione pi` u conveniente lo si stabilir`a, caso per caso, nell’applicazione al calcolo delle probabilit`a. Ad esempio per l’unione di due eventi vale anche la decomposizione E ∪ F = E ∪ (F \ E) Questa decomposizione si generalizza immediatamente al caso di tre eventi E ∪ F ∪ G = E ∪ (F \ E) ∪ (G \ (E ∪ F )) e pi` u in generale, per n eventi n [

   n k−1 [ [ [ Ek \ Ek = E1  Ej 

k=1

1.7

k=2

j=1

Altre operazioni tra eventi

Operazioni del tipo E ∩ F c intervengono abbastanza spesso da meritare un nome. Differenza di eventi. E \ F := E ∩ F c . Differenza simmetrica di eventi. E 4 F := (E ∩ F c ) ∪ (E c ∩ F ). Usando le nuove definizioni la decomposizione dell’unione si pu`o riscrivere come E ∪ F = (E \ F ) ∪ (E ∩ F ) ∪ (F \ E) = (E 4 F ) ∪ (E ∩ F ).

1.8

Osservazione sulle operazioni tra eventi

Nota bene. Qualunque espressione che consista di complementazioni, intersezioni, unioni, differenze, e differenze simmetriche di eventi dati si pu`o sempre esprimere, a partire dagli eventi dati, utilizzando esclusivamente le operazioni di complementazione ed intersezione (oppure unione). A titolo d’esempio, usando le leggi di De Morgan si pu`o esprimere la differenza simmetrica facendo ricorso solo a complementazioni e unioni, oppure solo a complementazioni e intersezioni E 4 F = (E ∩ F c ) ∪ (E c ∩ F ) = (E c ∪ F )c ∪ (E ∪ F c )c h ic = (E ∩ F c )c ∩ (E c ∩ F )c Questo risultato `e interessante negli sviluppi teorici, ma le espressioni contenenti, ad esempio, solo complementazioni e unioni diventano rapidamente molto complesse e di difficile leggibilit` a.

8

Lezione 2 2.1

(Marted`ı, 5 marzo 2013, ore 16:25-18:10)

La σ-algebra degli eventi F

(a.) Motivazione Nelle applicazioni lo spazio di probabilit`a S = (Ω, F, P ) modella un esperimento il cui esito `e incerto. Gli elementi di Ω sono i possibili risultati dell’esperimento, mentre F `e una famiglia di sottoinsiemi di Ω per i quali `e definita la misura di probabilit`a P . Idealmente si vorrebbe definire la probabilit` a per tutti gli eventi d’interesse dell’esperimento. In linea di principio si potrebbe pensare di definire P per tutti i sottoinsiemi di Ω, di fatto assumendo che la famiglia F coincida con la famiglia di tutti i sottoinsiemi di Ω, nota come potenza di Ω e denotata P(Ω). La scelta F = P(Ω) `e sempre possibile, e la adotteremo, se |Ω| ≤ |N| (qui e altrove |E| denota la cardinalit`a dell’insieme E). Quando invece |Ω| = |R| non `e possibile scegliere F = P(Ω) e definire in modo consistente la misura di probabilit`a P . In ogni caso `e necessario che F abbia la struttura, specificata qui sotto, di σ-algebra affinch´e la teoria risulti ben posta. (b.) Definizione Sia Ω un insieme assegnato. Una famiglia F di sottoinsiemi di Ω `e detta σ-algebra se soddisfa agli assiomi: (i) F non `e vuota (ii) F `e chiusa rispetto alla complementazione (significa che se E ∈ F, allora E c ∈ F). (iii) F `e chiusa rispetto all’unione numerabile (significa che se Ei ∈ F per ogni i ≥ 1, allora ∪i Ei ∈ F. Gli elementi di F sono detti eventi misurabili o semplicemente eventi. (c.) Conseguenze elementari degli assiomi (dimostrate a lezione) (i.) ∅ e Ω appartengono ad F. (dagli assiomi) (ii.) F `e chiusa rispetto alle intersezioni numerabili. (assiomi+De Morgan) (iii.) F `e chiusa rispetto a qualunque sequenza numerabile di complementazioni, intersezioni, unioni, differenze, differenze simmetriche di eventi di F. (assiomi+osservazione 1.8). (d.) Esercizio. F `e chiusa rispetto alle unioni finite ed alle intersezioni finite.

2.2

La misura di probabilit` aP

(a.) Definizione P : F → R+ `e una mappa E 7→ P (E) che ad ogni evento misurabile E ∈ F associa il numero reale P (E), detto la misura di probabilit`a di E o semplicemente la probabilit`a di E, e che soddisfa i seguenti assiomi (0) (positivit` a) P (E) ≥ 0 per ogni E ∈ F, (i) (normalizzazione) P (Ω) = 1, (ii) (σ-addittivit` a) Se {Ei } `e una famiglia numerabile di eventi mutuamente esclusivi X P (∪i Ei ) = P (Ei ). i

(b.) Conseguenze elementari degli assiomi (dimostrate in classe) (1.)

P (E c ) = 1 − P (E).

9

(2.)

P (∅) = 0, (corollario di (1.)).

(3.)

E ⊂ F implica P (E) ≤ P (F ), (monotonia della misura P ).

(4.)

P (E) ∈ [0, 1] per ogni E ∈ F, (corollario di (3.)).

(5.)

P (E ∪ F ) = P (E) + P (F ) − P (E ∩ F ), (formula di inclusione/esclusione).

(6.) (7.)

P (E ∪ F ) ≤ P (E) + P (F ), (subaddittivit`a di P ). P P (∪i Ei ) ≤ i P (Ei ), (subaddittivit`a numerabile).

(8.)

P (E ∪ F ∪ G) = P (E) + P (F \ E) + P (G \ (E ∪ F )), (decomposizione disgiunta).

(9.)

P (E ∪ F ∪ G) = P (E) + P (F ) + P (G) − P (E ∩ F ) − P (E ∩ G) − P (F ∩ G) + P (E ∩ F ∩ G).

(alternativa alla (7.) – questa `e la formula di inclusione /esclusione, dimostrata scrivendo P (E ∪ F ∪ G) = P ((E ∪ F ) ∪ G) ed usando la (4.)). (10.)

P (E ∪ F ∪ G ∪ H) = P (E) + P (F ) + P (G) + P (H) − P (E ∩ F ) − P (E ∩ G) − P (E ∩ H) − P (F ∩ G) − P (F ∩ H) − P (G ∩ H) + P (E ∩ F ∩ G) + P (E ∩ F ∩ H) + P (E ∩ G ∩ H) + P (F ∩ G ∩ H) − P (E ∩ F ∩ G ∩ H),

(formula di inclusione /esclusione per pi` u di tre eventi - senza dimostrazione). (11.)

P (E4F ) = P (E) + P (F ) − 2P (E ∩ F ), (esercizio).

(c.) Non unicit`a di P L’osservazione chiave `e che gli assiomi non determinano P univocamente. Abbiamo visto l’esempio della moneta, con Ω = {C, T }, F = P(Ω). La misura di probabilit`a P non `e univocamente determinata: ce ne sono infinite compatibili con gli assiomi, ognuna di esse `e completamente specificata dal numero p ∈ [0, 1] dove P ({T }) = p. Ben lungi dall’essere una limitazione, la libert` a di scelta di p consente, nell’esempio concreto, di modellare qualunque moneta.

10

Lezione 3 3.1

(Mercoled`ı, 6 marzo 2013, ore 16:25-18:10)

Possibili scelte di P – Misura empirica

Quando si costruisce uno spazio di probabilit`a S = (Ω, F, P ) per modellare un esperimento, la scelta di Ω e di F di solito non pone problemi, ma come visto nell’esempio della moneta, gli assiomi non specificano P univocamente. La Statistica si occupa della scelta ottimale di P allo scopo di modellare un dato esperimento. Tempo permettendo daremo qualche cenno di Statistica verso la fine del corso. Qui diamo alcuni esempi di possibili scelte di P , iniziando dalla cosiddetta misura empirica. Si supponga che l’esperimento che si vuole modellare sia ripetibile pi` u volte in condizioni analoghe. La misura empirica si costruisce come segue. Si effettua l’esperimento n volte, registrando la sequenza ω1 , ω2 , . . . ωn degli esiti osservati. Per ogni evento E ∈ F sia nE , la frequenza di E, il numero di volte che si verifica E nelle n prove, ovvero il numero di esiti ωi tali che ωi ∈ E per i = 1, 2, . . . n. Definizione (misura empirica). Pn (E) :=

nE , n

per ogni E ∈ F

Pn (E) `e la frequenza relativa di E, ovvero la percentuale di volte in cui E si verifica. Lemma. Pn `e una misura di probabilit`a. Dimostrazione. L’assioma (0) `e soddisfatto banalmente. L’assioma (i) `e soddisfatto poich´e nΩ = n. L’assioma (ii) richiede che se E ∩ F = ∅ allora Pn (E ∪ F ) = Pn (E) + Pn (F ), ma per eventi E ed F disgiunti, nE∪F = nE + nF , da cui discende l’addittivit` a di Pn . P Allo stesso modo, per famiglie numerabili {Ei } di eventi disgiunti, n∪i Ei = i nEi , da cui discende la σ-addittivit` a di Pn . Esempio 1. Lancio di una moneta. Ω = {C, T }, F = P(Ω). La misura di probabilit`a `e completamente specificata assegnando p = P ({T }). Per costruire la misura empirica lanciamo la moneta ad esempio n = 12 volte e siano T, T, C, C, C, T, T, T, T, T, T, T gli 9 esiti. Allora p := P12 ({T }) = 12 = 0.75. Peraltro limitandosi alle prime 10 prove P10 (T ) = 7 e equilibrata, limn→∞ Pn ({T }) = 0.5. 10 = 0.7. Intuitivamente, se la moneta ` Esempio 2. Lancio di un dado. Ω = {1, 2, 3, 4, 5, 6}, F = P(Ω). Si lancia il dado n = 15 volte e gli esiti osservati sono 1, 3, 2, 3, 5, 4, 3, 4, 3, 5, 3, 2, 1, 5, 2. In questo caso P15 ({3}) = 5 15 . Si determinino P15 (”esce faccia pari”) e P15 ({6}). Esempio 3. Scelta casuale di un punto in [0, 1]. Per costruire la misura empirica si pu`o pensare che il tenente Colombo si rechi al poligono di tiro e spari n volte al bersaglio, l’intervallo [0, 1], ogni volta chiudendo gli occhi. Se E ⊂ [0, 1] la misura empirica `e Pn (E) := nnE , dove nE `e il numero di volte che Colombo colpisce un punto in E. Intuitivamente, se Colombo spara a caso, limn→∞ Pn ([a, b]) = b − a per ogni [a, b] ⊂ [0, 1]. Esercizio. I dati di un’indagine di mercato sono: al 70% dei ragazzi piace la Coca, al 50% piace la Pepsi, al 20% non piacciono n´e Coca n´e Pepsi. Calcolare la percentuale di ragazzi a cui piace almeno una delle due bevande e quella dei ragazzi a cui piacciono entrambe. Soluzione. Interpretando le percentuali come probabilit`a empiriche i dati sono P (Coca) = 0.7, P (Pepsi) = 0.5, P (Cocac ∩ Pepsic ) = 0.2. Le probabilit`a richieste sono P (Coca ∪ Pepsi) = P ((Cocac ∩ Pepsic )c ) = 1 − 0.2 = 0.8 P (Coca ∩ Pepsi) = P (Coca) + P (Pepsi) − P (Coca ∪ Pepsi) = 0.7 + 0.5 − 0.8 = 0.4

11

Interpretazione frequentista della probabilit`a. L’interpretazione delle probabilit` a di eventi come frequenze relative, o percentuali, `e molto comune negli studi osservazionali di tipo economico, epidemiologico, sociale, biologico, ecc. La misura empirica Pn presenta per`o evidenti difetti. In particolare, per un fissato evento E, la probabilit` a empirica Pn (E) dipende da n e dalla specifica sequenza di esiti osservati, ω1 , ω2 , . . . ωn . La dipendenza di Pn dai risultati delle prove ripetute `e giusto che ci sia visto che Pn deve modellare l’esperimento, ma la dipendenza da n `e molto scomoda. Nell’esempio 1, la dipendenza da n comporta che non si riesca ad associare un unico valore a p, la probabilit` a di Testa della moneta. Per ovviare a questo inconveniente i frequentisti si arrampicano sugli specchi nel tentativo di sostituire Pn (E) con limn→∞ Pn (E), ma si tratta di discorsi piuttosto vaghi, solo apparentemente supportati da un teorema fondamentale del calcolo della probabilit` a, la legge dei grandi numeri, che vedremo pi` u avanti.

3.2

Possibili scelte di P – Caso di Ω discreto

Consideriamo ora il caso di spazi di probabilit`a S = (Ω, F, P ) dove |Ω| ≤ |N|. (ricordo che |E| denota la cardinalit` a di E). Questo `e il cosiddetto caso discreto a cui ci atterremo nela prima parte del corso. Si possono presentare due casi: Ω = {ω1 , ω2 , . . . ωN } ovvero di cardinalit` a |Ω| = N finita, oppure Ω = {ω1 , ω2 . . . } con |Ω| = |N|. In entrambi questi casi, senza perdita di generalit` a, prenderemo sempre F := P(Ω). Negli spazi di probabilit`a discreti la misura P `e completamente specificata dai valori sui singleton: conoscere P ({ωi }) per ogni ωi ∈ Ω permette di calcolare P (E) per ogni E ∈ F. Infatti la σ-addittivit`a comporta che X P (E) = P ({ωi }) (1) ωi ∈E

Osservazione 1. La numerabilit` a di Ω `e fondamentale per la validit`a dell’equazione 1. Osservazione 2. Diciamo pi := P ({ωi }). Allora, se |Ω| = N basta assegnare N − 1 dei valori p1 , . . . pN (perch´e?). P Osservazione 3. Se |Ω| = |N|, il vincolo ∞ i=1 pi = 1 impone la convergenza della serie. Quindi, ad esempio, `e impossibile per Ω = N avere misure di probabilit`a del tipo P ({i}) = c ` necessario e possibile avere P ({i}) = ic2 . Quanto deve valere in questo caso? (E i mentre ` conoscere la teoria della convergenza della serie di Fourier per rispondere).

3.3

Possibili scelte di P – Caso di Ω finito con esiti equiprobabili

Se Ω = {ω1 , ω2 , . . . ωN } ha cardinalit`a finita N , allora `e possibile scegliere la misura P che 1 assegna la stessa probabilit` a a tutti gli esiti elementari, ovvero P ({ωi }) = |Ω| = N1 per ogni i = 1, 2, . . . N (caso equiprobabile). Se P `e equiprobabile allora, per ogni E ∈ F, P (E) =

X

P ({ωi }) =

ωi ∈E

|E| , |Ω|

formula che nei testi elementari `e spesso scritta come P (E) =

numero dei casi favorevoli . numero dei casi totali

Bench´e sia tecnicamente sempre possibile prendere P equiprobabile quando Ω ha cardinalit`a finita, non `e detto che si tratti di una buona scelta per modellare un dato esperimento. Controesempio. Sia Ω = {0, 1, 2, 3} dove gli esiti elementari rappresentano il numero di Teste in tre lanci consecutivi di una moneta. In questo caso la misura equiprobabile urta 12

contro la nostra intuizione. Su tre lanci di una moneta `e pi` u facile osservare una Testa piuttosto che tre Teste o nessuna Testa. Se si vuole usare P come modello dell’esperimento che consiste in tre lanci consecutivi di una normale moneta l’assegnazione equiprobabile P ({i}) = 41 per i = 0, 1, 2, 3 non ha molto senso. Esempio. Sia Ω = {T T T, T T C, T CT, CT T, T CC, CT C, CCT, CCC} dove gli esiti elementari rappresentano le possibili sequenze di risultati di tre lanci di una moneta. In questo caso `e ragionevole prendere la P equiprobabile: P (ωi ) = 81 per ogni i = 1, . . . 8 (sono 8 gli esiti elementari). Se Ek = ”escono k teste in 3 lanci” per k = 0, 1, 2, 3 abbiamo calcolato P (E0 ) = P (E3 ) = 81 e P (E1 ) = P (E2 ) = 83 . Lo stesso si pu`o fare se si considera lo spazio Ω relativo a diciamo 50 lanci di una moneta. Sia E34 l’evento ”escono 34 teste su 50 lanci della moneta”. Quanto vale P (E34 )? In teoria `e facile P (E34 ) =

|E34 | , |Ω|

ma il calcolo delle cardinalit` a di insiemi finiti non `e sempre agevole. Questo motiva la breve digressione sulla combinatoria elementare.

3.4

Combinatoria elementare – I

Principio fondamentale del conteggio. Motivazione. Ricordate l’esempio fatto in classe dell’armadio con dentro 4 camicie, 3 pantaloni e 2 paia di scarpe. In quanti modi diversi posso vestirmi? Se gli abbinamenti di vestiario non hanno rilevanza (maschi) 4 · 3 · 2 = 24 modi. Se gli abbinamenti di vestiario limitano le scelte (femmine) allora il principio fondamentale non si applica. Pi` u in generale si conta come segue. Il principio. Si effettuano r esperimenti. Il primo ha n1 risultati possibili. Qualunque sia l’esito del primo esperimento il secondo esperimento ha sempre lo stesso numero n2 di possibili risultati, e cos`ı via fino alla condizione che, qualunque sia il risultato dell’(r − 1)esimo esperimento, l’r-esimo esperimento ha sempre nr esiti possibili. Si supponga anche che esiti diversi degli r esperimenti producano sequenze distinguibili. Sotto queste ipotesi il numero di possibili esiti degli r esperimenti condotti in sequenza `e n 1 · n 2 · . . . nr Esempi elementari di conteggio. In classe abbiamo visto alcuni esempi: targhe automobilistiche, schedine del totocalcio, corsa campestre. Problemi di conteggio I Discussione dei due paradigmi: del campionamento e dell’allocazione. Tutta la terminologia ed i possibili problemi di conteggio che ho elencato a lezione li potete rivedere con calma nell’appendice a queste note. Esempio 1. Numero delle schedine del totocalcio. Si tratta di contare le disposizioni con ripetizione di n = 3 oggetti (i simboli 1, X, 2), presi k = 13 alla volta (le 13 partite). Il numero di schedine `e nk = 313 , applicando il principio fondamentale del conteggio. Abbiamo visto le due interpretazioni, come problema di campionamento e come problema di allocazione. Esempio 2. Numero di possibili terne di vincitori di medaglia ad una corsa campestre cui partecipano 10 corridori. Si tratta di contare le disposizioni senza ripetizione di n = 10 oggetti (i corridori) presi k = 3 alla volta (oro, argento, bronzo). Usando il principio fondamentale del conteggio, il numero di possibili ”podii” `e n × (n − 1) × (n − 2) × · · · × (n − k + 1) = 10 × 9 × 8. Abbiamo visto le due interpretazioni, come problema di campionamento e di allocazione. 13

Appendice alla Lezione 3 Problemi di campionamento e di allocazione A3.1

Introduzione

I problemi di conteggio sono difficilmente categorizzabili in tipologie standard ed ognuno di essi va trattato nella sua peculiarit`a. Esistono tuttavia alcuni punti di vista generali che possono aiutare nell’impostazione delle soluzioni. In questa sezione presentiamo due elementari paradigmi del conteggio, campionamento ed allocazione. Un problema di campionamento si modella con un’urna contenente n palline, distinguibili (ad esempio numerate da 1 a n) o distinguibili a gruppi (ad esempio n palline di m < n colori diversi). Vengono effettuate k estrazioni, ed annotato il risultato di ogni estrazione. Le estrazioni possono essere con o senza reinserimento nell’urna della pallina appena estratta, prima di passare all’estrazione successiva. Interessa contare quante sono le possibili sequenze di estrazioni. Si pu`o contare in due modi. Se si tiene in considerazione l’ordine di estrazione si dice che si stanno contando le disposizioni : 1, 2 e 2, 1 sono due disposizioni diverse. Se non si tiene in considerazione l’ordine si dice che si stanno contando le combinazioni : 1, 2 e 2, 1 sono la stessa combinazione. Nei problemi di allocazione il modello consiste in un insieme di scatole (celle) distinte ed in un certo numero di gettoni, che possono essere distinguibili o identici tra loro. I gettoni vanno inseriti (allocati) nelle scatole. Il riempimento delle scatole pu`o essere libero, o soggetto a vincoli. Nel caso libero ogni scatola pu`o contenere qualunque numero di gettoni, 0 compreso. Vincoli tipici sono: al pi` u 1 gettone (cio`e 0 o 1) per scatola, oppure un numero preassegnato di gettoni in ogni scatola. Interessa contare il numero di possibili allocazioni di gettoni nelle scatole. La nota `e organizzata in modo da mettere in evidenza, attraverso un numero romano, la corrispondenza tra problemi di campionamento e di allocazione. Per mostrare come passare da un paradigma all’altro nell’impostazione di un problema di conteggio illustreremo i due punti di vista con lo stesso esempio. Nei problemi di conteggio concreti, solitamente pi` u complessi, `e per` o spesso naturale impostare il conteggio usando sfecificamente uno dei due paradigmi, quindi `e utile conoscerli entrambi. In realt`a il paradigma dell’allocazione permette di trattare, in modo abbastanza semplice, anche complicati vincoli di riempimento delle scatole che si tradurrebbero in problemi di campionamento molto artificiali. La nota `e in buona parte basata sul capitolo 3 dell’ottimo libro di K.L. Chung, Elementary probability theory with stochastic processes, Springer 1974.

A3.2

Problemi di campionamento

Elenchiamo di seguito i quattro tipici problemi di campionamento, ed alcune varianti. Campionamento I • n palline distinte nell’urna (ad esempio numerate da 1 a n) • k estrazioni con reinserimento (n e k liberi) • Problema: contare le disposizioni • Soluzione.

nk 14

Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto il risultato e reinserisco la pallina nell’urna. Alla seconda estrazione ho ancora n possibili risultati dell’estrazione e cos`ı via fino alla k-esima estrazione. Per il principio del conteggio il numero di disposizioni `e nk . Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni con ripetizione di n oggetti distinti presi k alla volta. Esempio. Totocalcio 3 : contare il numero di schedine giocabili. Una giocata si modella con un’urna contenente n = 3 palline 1, X, 2, dalla quale si estrae k = 13 volte, con reinserimento. Ad ogni disposizione delle palline estratte corrisponde una schedina giocabile. Soluzione: nk = 313 . Campionamento II • n palline distinte nell’urna (ad esempio numerate da 1 a n) • k estrazioni senza reinserimento (quindi k ≤ n) • Problema: contare le disposizioni • Soluzione.

D(n, k) := n × (n − 1) · · · × (n − k + 1)

Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annoto il risultato e butto la pallina. Rimangono n − 1 palline nell’urna, vi sono quindi n − 1 risultati possibili per la seconda estrazione, cos`ı via fino alla k-esima estrazione per la quale sono possibili n − k + 1 (attenzione al +1) risultati. Per il principio del conteggio il numero di disposizioni `e n(n − 1) . . . (n − k + 1), per comodit`a denotato D(n, k). Terminologia. Questo problema viene anche presentato come conteggio delle disposizioni senza ripetizione di n oggetti distinti presi k alla volta. Esempio. Corsa campestre, partecipano 10 atleti. In quanti modi diversi possono essere assegnate le 3 medaglie d’oro, d’argento e di bronzo? L’urna contiene n = 10 palline distinguibili (gli atleti), e si effettuano k = 3 estrazioni senza reinserimento. Contare le risultanti disposizioni significa contare i possibili ordini di arrivo dei primi 3. Soluzione: n × (n − 1) · · · × (n − k + 1) = 10 × 9 × 8.

Campionamento IIa ` il caso II con k = n. Le disposizioni con k = n si dicono permutazioni. • E • Soluzione.

n! := D(n, n) = n × (n − 1) × · · · × 2 × 1

Spiegazione. Come per il caso II, procedendo fino ad k = n. Si noti che n! = D(n, n). Esempio. Anagrammi della parola MILANO. L’urna contiene n = 6 palline distinguibili (le lettere A, I, L, M, N, O) che vengono estratte, senza reinserimento, fino a vuotare l’urna. Ad ogni disposizione delle palline corrisponde uno dei possibili anagrammi. Soluzione: n! = 6!. Questo conteggio degli anagrammi `e corretto solo se la parola da anagrammare contiene lettere distinte, vedi il caso IIIa. 3

Il Totocalcio `e un gioco a scommessa legalizzato in cui si devono pronosticare i risultati di un certo numero di partite di calcio, classicamente 13. Le 13 partite sono stampate su una schedina e il giocatore indica il suo pronostico, per ognuna delle partite, usando tre simboli 1, X, 2. Ad esempio, per la partita Milan-Inter, il simbolo 1 pronostica la vittoria del Milan, X il pareggio, 2 la vittoria dell’Inter.

15

Campionamento III • n palline distinte nell’urna (ad esempio numerate da 1 a n) • k estrazioni senza reinserimento (quindi k ≤ n) • Problema: contare le combinazioni   n D(n, k) n × (n − 1) · · · × (n − k + 1) • Soluzione. := = k k! k! Spiegazione. Analogo al caso II, ma si devono contare le combinazioni. Per contare il numero di combinazioni, diciamolo C(n, k), basta osservare che le k! permutazioni di ogni fissata disposizione producono tutte la stessa combinazione, quindi C(n, k) × D(k, k) = D(n, k). Si ricava C(n, k) = D(n, k)/D(k, k). Il numero C(n, k) si dice coefficiente  binomiale n su k, pi` u spesso denotato nk . Terminologia. Questo problema viene anche presentato come conteggio delle combinazioni senza ripetizione di n oggetti distinti presi k alla volta. Esempio. Gioco del lotto. Ogni settimana a Venezia vengono estratte k = 5 palline, una cinquina, da un’urna contenente n = 90 palline distinguibili, numerate da 1 a 90. Nel gioco del lotto si scommette sulla estratta. Contare quante sono le possibili   combinazione n 90 90×89×88×87×86 cinquine. Soluzione: k = 5 = 5×4×3×2×1 .

Campionamento IIIa • n palline nell’urna, di m colori diversi, k1 di colore 1, . . . , km di colore m, con k1 + k2 + · · · + km = n. Le palline dello stesso colore sono identiche. • k = n estrazioni senza reinserimento (si estraggono tutte le palline) • Problema: contare le disposizioni distinguibili   n n! • Soluzione. := k1 , k2 , . . . , km k1 ! × k2 ! · · · × km ! ` una miscela dei casi IIa e III. Per capire la soluzione si pensi, inizialmente, Spiegazione E di numerare da 1 a ki le palline di colore i-esimo, 1 ≤ i ≤ m. Le palline sono ora tutte distinguibili, grazie a colore e numero, quindi, caso IIa, le disposizioni sono (k1 +· · ·+km )! = n!. Poich`e nella formulazione del problema le palline dello stesso colore sono indistinguibili, per ogni colore i le ki ! permutazioni delle palline di quel colore danno luogo alla stessa disposizione. Per il principio di conteggio, il numero totale di permutazioni che danno luogo alla stessa disposizione, una volta cancellati i numeri dalle palline, `e k1 ! × k2 ! × . . . km !. Il numero di disposizioni distinguibili si ottiene dividendo n! per k1 ! × k2 ! × . . . km !. Il n numero k1 !×k2n! !···×km ! si dice coefficiente multinomiale n su k1 , . . . km , denotato k1 ,k2 ,...,km . Verificare che il caso m = 2 si riduce, notazione a parte, all’usuale coefficiente binomiale. Esempio. Anagrammi della parola MISSISSIPPI. L’urna contiene n = 11 palline di m = 4 colori, M,I,S,P, con kM = 1, kI = 4, kS = 4, kP = 2. Il numero degli anagrammi non `e 11!, come per il caso II, poich`e la presenza di lettere ripetute rende alcune parole  indistinguibili tra loro. Per quanto visto il numero degli anagrammi `e: kM ,kIn,kS ,kP =  11 11! 1,4,4,2 = 1!×4!×4!×2! .

16

Campionamento IV • n palline distinte nell’urna (ad esempio numerate da 1 a n) • k estrazioni con reinserimento (n e k liberi) • Problema: contare le combinazioni   n+k−1 • Soluzione. k Spiegazione. Si potrebbe (s)ragionare come segue. La situazione `e analoga a quella del caso I, ma invece che alle disposizioni siamo ora interessati alle combinazioni. Applicando il trucco gi` a usato nel caso III per passare dalle disposizioni alle combinazioni, la soluzione `e nk /k!. Questo ragionamento `e sbagliato. Per n = 3, k = 2 fornisce 32 /2! = 4.5, che `e imbarazzante come numero di combinazioni! Quando non si viene a capo di un problema di conteggio pu` o essere utile analizzare esaustivamente un caso con n ed k piccoli e poi generalizzare. Proviamo dunque con n = 3, k = 4. Nell’urna ci sono 3 palline numerate 1, 2, 3. Elenchiamo tutti i possibili risultati di k = 4 estrazioni, eliminando manualmente tutte le disposizioni che danno luogo alla stessa combinazione. Le 15 combinazioni possibili sono riportate, in ordine lessicografico, nella prima colonna della seguente tabella.

1111 1112 1113 1122 1123 1133 1222 1223 1233 1333 2222 2223 2233 2333 3333

1 XXXX XXX XXX XX XX XX X X X X

2

3

X X XX X XXX XX X XXXX XXX XX X

X XX X XX XXX X XX XXX XXXX

XXXX|| XXX|X| XXX||X XX|XX| XX|X|X XX||XX X|XXX| X|XX|X X|X|XX X||XXX |XXXX| |XXX|X |XX|XX |X|XXX ||XXXX

Le tre colonne successive contengono segni di spunta che forniscono la stessa informazione della prima colonna, indicando il numero di palline 1, 2 e 3 presenti in ogni possibile combinazione. La quinta colonna contiene, in forma simbolica, le stesse informazioni delle tre colonne precedenti. Le barre verticali servono ad individuare a quale pallina si riferiscono i segni di spunta. Poich`e ci sono 3 palline, sono necessarie 2 barre verticali. I segni di spunta a sinistra della prima barra verticale dicono il numero di palline 1 nella combinazione. I segni di spunta tra le due barre verticali dicono il numero di palline 2 e quelli a destra della seconda barra indicano il numero di palline 3. Ad esempio il simbolo X|XX|Xcorrisponde alla combinazione 1223, il simbolo |XX|XXalla 2233, mentre X||XXXcorrisponde alla 1333. Il caso IV si pu`o allora ridurre al caso IIIa, ovvero abbiamo una nuova urna contenente 4 + 2 palline, di cui 4 sono marcate X e 2 sono marcate 6! |. Il numero di possibili permutazioni distinguibili vale allora 3!2! . Nel caso generale di n palline ed r estrazioni saranno necessari r segni di spunta ed n − 1 barre verticali per rappresentare simbolicamente tutte le possibili combinazioni, e la soluzione sar`a (n−1+r)! r!(n−1)! . ` banale verificare che questo numero coincide con quello dato nell’enunciato. E 17

Terminologia. Questo problema viene anche presentato come conteggio delle combinazioni con ripetizione di n oggetti distinti presi k alla volta. Esempio. Lancio 3 dadi identici. Quante sono le possibili combinazioni osservabili? In questo caso modelliamo con un’urna contenente n = 6 palline (numerate da 1 a 6) e contiamo le possibili combinazioni di k = 3 estrazioni con reinserimento, poich`e ogni dado pu` o mostrare una qualunque faccia,  indipendente dal risultato degli altri due. Le 8 combinazioni osservabili sono n+k−1 = k 3 .

A3.3

Problemi di allocazione

Elenchiamo di seguito i quattro tipici problemi di allocazione, ed alcune varianti. Gli esempi sono gli stessi del paragrafo precedente per mettere in evidenza la corrispondenza con l’analogo modello di campionamento. In ognuno dei problemi di allocazione si dispone di un certo numero di scatole distinte e di voler contare il numero di allocazioni dei gettoni nelle scatole, secondo le specifiche fornite caso per caso.

Allocazione I • n scatole distinte e k gettoni distinguibili da allocare • nessun vincolo di riempimento (ogni scatola pu`o contenere da 0 a k gettoni) • Soluzione.

nk

Spiegazione. Il primo gettone si pu`o inserire in una qualunque delle n scatole. Lo stesso vale per il secondo e per tutti gli altri gettoni poich`e non vi sono vincoli di riempimento. Applicando il principio di moltiplicazione si ottiene il risultato. Esempio. Totocalcio, come per Campionamento I. Si modella con n = 3 scatole (contrassegnate 1, X, 2), e k = 13 gettoni distinguibili, numerati da 1 a 13, le partite di cui si deve pronosticare il risultato. Ogni allocazione dei gettoni nelle scatole corrisponde ad una giocata possibile.

Allocazione II • n scatole distinte ed k gettoni distinguibili da allocare • ogni scatola pu` o contenere 0 o 1 gettoni • Soluzione.

n × (n − 1) · · · × (n − k + 1) := P (n, k)

Spiegazione. Il primo gettone si pu`o collocare in una qualunque delle n scatole, il secondo in una delle rimanenti n − 1 ecc. fino al k-esimo gettone che pu`o essere collocato in una qualunque delle rimanenti n − k + 1 scatole. Per il principio di moltiplicazione il numero totale di allocazioni `e n(n − 1) . . . (n − k + 1). Esempio. Corsa campestre, come per Campionamento II. Questo caso si modella con n = 10 scatole, contrassegnate con i nomi dei 10 atleti, e k = 3 gettoni (contrassegnati 1, 2, 3). Ogni allocazione dei gettoni nelle scatole rappresenta una possibile terna ordinata di vincitori.

18

Allocazione IIa ` il caso precedente per n = k. In questo caso, terminata l’allocazione, ogni scatola • E conterr` a esattamente 1 gettone. • Soluzione.

n!

Spiegazione. Come per il caso precedente. Esempio. Anagrammi della parola MILANO, come per campionamento IIa. Le scatole sono n = 6, contrassegnate 1, 2, 3, 4, 5, 6, e rappresentano le posizioni delle lettere nella parola che si andr` a a comporre. I gettoni sono k = n = 6, contrassegnati A, I, L, M, N, O e rappresentano le lettere a disposizione. Allocazione III • n scatole disitinte e k gettoni identici da allocare • ogni scatola pu` o contenere 0 o 1 gettoni • Soluzione.

n × (n − 1) · · · × (n − k + 1) = k!

  n k

Spiegazione. Analogo al caso II appena visto. Poich`e i gettoni sono indistinguibili si devono contare le combinazioni, ovvero dividere P (n, k) per P (k, k) come si era fatto per il corrispondente caso del campionamento. Esempio. Gioco del Lotto, come per campionamento III. Il modello di allocazione consiste di n = 90 scatole (contrassegnate da 1 a 90) e di k = 5 gettoni identici, con vincolo di allocazione 0 or 1 gettoni in ogni scatola. Chiaramente questo `e un caso per il quale il modello del campionamento `e molto pi` u naturale. Allocazione IIIa • m scatole distinte ed n gettoni distinguibili da allocare • la scatola i deve contenere esattamente ki gettoni, con   n! n • Soluzione. =: k1 !k2 ! . . . km ! k1 , k2 , . . . km

Pm

i=1 ki

= n.

Spiegazione. Si tratta di una miscela dei casi IIa e III appena visti. Per riempire la prima scatola si devono scegliere k1 gettoni da n, cosa che si pu`o fare in kn1 modi (perch`e?), per riempire la seonda scatola dairimanenti n − k1 gettoni, cosa  si devono scegliere k2 gettoni n−k1 n−k1 −k2 che si pu` o fare in k2 modi, per la terza ci sono possibili scelte di gettoni ecc. k3 Per il principio di moltiplicazione il numero di modi possibili `e         n n − k1 n − k1 − k2 n − k1 − k2 − . . . km−1 n ... = k1 k2 k3 km k1 , k2 , . . . km Verificate algebricamente questa identit`a, ad esempio per m = 3. Esempio. Anagrammi della parola MISSISSIPPI, come per campionamento IIIa. Il modello di allocazione consiste di m = 4 scatole, contrassegnate M,I,S,P, e di n = 11 gettoni, contrassegnati 1, 2, . . . 11. I gettoni corrispondono alle posizioni delle lettere nella parola che si andr` a a comporre. Ad ogni allocazione corrisponde uno degli anagrammi distinguibuibili. 19

Allocazione IV • n scatole distinte e k gettoni identitici da allocare • nessun vincolo di riempimento (ogni scatola pu`o contenere da 0 a k gettoni)   n+k−1 • Soluzione. k Spiegazione. Guardate con attenzione l’ultima colonna della tabella del Campionamento ` una vivida rappresentazione delle possibili allocazioni dei gettoni nelle scatole: le IV. E barre verticali consentono di individuare le scatole distinte, i segni di spunta sono i gettoni. In effetti questo `e un problema che `e pi` u naturale impostare usando il modello della allocazione. Esempio. Lancio 3 dadi identici, come per campionamento IV. Quante sono le possibili combinazioni osservabili? Nel paradigma della allocazione modelliamo con n = 6 scatole, contrassegnate 1, 2, 3, 4, 5, 6, e con r = 3 gettoni contrassegnati Lancio1, Lancio2, Lancio3.

Nota finale. Dovrebbe essere a questo punto chiaro il meccanismo di passaggio tra i paradigmi del campionamento e dell’allocazione. Il numero di palline distinte, n, o il numero di gruppi distinti di palline m corrisponde al numero di scatole. Il numero di estrazioni corrisponde al numero di gettoni. Le estrazioni senza reinserimento si traducono nel vincolo di riempimento 0 o 1 gettone per scatola, mentre se si reinseriscono le palline nell’urna nel campionamento allora non ci sono vincoli di riempimento nelle scatole. Ordine di estrazione rilevante nel campionamento corrisponde a gettoni distinguibili nell’allocazione. Viceversa, ordine di estrazione irrilevante corrisponde a gettoni identici nel paradigma dell’allocazione.

20

Lezione 4 4.1

(Luned`ı, 11 marzo 2013, ore 10:30-13:15)

Combinatoria elementare – II

Qui sotto rivediamo la terminologia tradizionalmente associata ai problemi di conteggio elementari. (a.) le disposizioni con ripetizione di n oggetti distinti presi k alla volta sono nk . Esempio 1. Scrivere una schedina del totocalcio consiste nel prendere n = 3 oggetti (1, X, 2), a gruppo di k = 13. Allora 31 3 `e il numero di possibili schedine. Esempio 2. Il numero di sottoinsiemi di un insieme di n elementi `e 2n . Infatti per individuare un sottoinsieme possiamo usare una stringa di n bit, associando ad ogni bit della stringa un elemento dell’insieme. Gli 1 della stringa indicano gli elementi che appartengono al sottoinsieme, gli 0 indicano gli elementi esclusi. Il numero totale di stringhe binarie di n bit `e 2n . (b.) le disposizioni senza ripetizione di n oggetti distinti presi k alla volta sono n(n − 1) · · · (n − k + 1). Esempio. In una corsa campestre con n = 10 atleti, il numero di ordini di arrivo dei primi k = 3 (cio`e quanti podii sono possibili) `e 10 · 9 · 8. (b1.) nel caso particolare n = k le disposizioni senza ripetizione vengono dette permutazioni Esempio. Gli anagrammi della parola BRENTA sono 6!. Attenzione per`o, questo conteggio `e corretto perch´e le lettere di BRENTA sono distinte.  (c.) le combinazioni senza ripetizione di n oggetti distinti presi k alla volta sono nk =  n(n−1)···(n−k+1) . Esempio. Numero delle cinquine nel gioco del lotto 90 5 . (vedi appendice k! ` importante capire questo conteggio sia dal punto di alla Lezione 3 per la descrizione). E vista del campionamento che  dell’allocazione. Di seguito diamo un esempio di problema la cui soluzione `e ancora nk , e che si imposta naturalmente come problema di allocazione. Esempio. Il numero di sottoinsiemi di cardinalit`a k di un insieme di cardinalit`a n `e pari  a nk . Pensate di avere n celle (gli elementi dell’insieme) e di dover disporre k gettoni indistinguibili nelle celle al pi` u uno in ogni cella. Ogniconfigurazione di gettoni individua univocamente un sottoinsieme e le allocazioni sono nk . (d.) un esempio misto `e quello delle permutazioni con elementi ripetuti che illustriamo con due esempi. Esempio 1. Un’urna contiene n palline, di m colori diversi, k1 del colore 1, . . . km del colore m, con k! + k2 + . . . km = n. Si estraggono, senza reinserimento, tutte le palline dall’urna. Il numero di disposizioni distinguibili `e k1 ,k2n,...km := k1 !k2n! !...km ! . Esempio 2. Contare gli anagrammi della parola MISSISSIPPI. Le lettere sono 11, di 4 tipi 11! ` interessante osservare che diversi, 1 M , 4 I, 4 S, 2P , gli anagrammi sono 4!4!2! . E        n n n − k1 n − k1 − k2 − · · · − km−1 = ... k1 , k2 , . . . km k1 k2 km come appare chiaro impostando il conteggio come problema di allocazione. Come caso  n n particolare, se m = 2, ponendo k1 = k, k2 = n − k, risulta k1 ,k2 = k . (e.) le combinazioni con ripetizione di n oggetti distinti presi k alla volta. Non trattato a lezione, si veda l’appendice alla Lezione 3.

4.2

Propriet` a dei coefficienti binomiali

  n! , per n ≥ 0 e k = 0, 1, . . . n sono detti coefficienti binomiali. nk si I numeri nk := k!(n−k)!   legge n su k, oppure n binomiale k. Per convenzione 0! = 1 quindi n0 = nn = 1 per ogni n ≥ 0.

21

(a.) Il coefficiente binomiale `e cos`ı detto poich´e interviene nello sviluppo della potenza del binomio n   X n k n−k (a + b)n = a b . (1) k k=0

La dimostrazione combinatoria `e immediata: (a + b)n = (a + b)(a + b) · · · (a + b) . {z } | n volte

Il prodotto degli n fattori (a + b) consiste di addendi del tipo ak bn−k , per k = 0, 1, . . . n, ognuno dei quali corrisponde a scegliere k volte a ed n − k volte b negli n fattori (a + b). Per un dato k = 0, 1, . . . n il numero di modi in cui si pu`o scegliere k volte a `e nk quindi  il numero di addendi del tipo ak bn−k `e nk , il che dimostra la formula (1). (b.) Ponendo a = b = 1 nello sviluppo della potenza del binomio si ha n   X n 2 = . k n

k=0

Questa identit` a ha una semplice interpretazione combinatoria. Il numero totale di sottoinsiemi di un insieme di n elementi, 2n , `e la somma del numero di sottoinsiemi a k elementi, k = 0, 1, . . . n.   n (c.) nk = n−k , infatti ogni sottoinsieme `e in corrispondenza biunivoca con il suo complementare.    (d.) nk = n−1 + n−1 k k−1 , per n ≥ 2 e k = 0, 1, . . . n. Per dimostrare combinatorialmente la validit` a di questa relazione di ricorrenza (in Segnali e Sistemi la chiamerete ”equazione alle differenze”) si pu` o ragionare cos`ı: il numero di sottoinsiemi di k elementi di un insieme datoΩ di n elementi si pu` o trovare fissando un elemento arbitrario ω1 ∈ Ω e poi  sommando n−1 n−1 , numero di sottoinsiemi di k elementi di Ω che contengono ω , a 1 k−1 k , numero di sottoinsiemi di k elementi di Ω che non contengono ω1 . Valgono inoltre le condizioni al contorno n0 = 1, per n ≥ 0. L’equazione alle differenze, insieme alle condizioni al contorno, definiscono un algoritmo per generare i coefficienti binomiali, comunemente noto come triangolo di Tartaglia, nel resto del mondo noto come triangolo di Pascal. Come esercizio, verificate algebricamente che i coefficienti binomiali verificano l’equazione alle differenze e le condizioni al contorno. (e.) Interpretazione di Gy¨ orgy P´ olya dei coefficienti binomiali. Si consideri il grafo di figura. Ogni nodo del grafo `e individuato dalle coordinate (generazione, shift), in figura sono ad esempio evidenziati i punti (4, 1), (4, 2), (5, 2). Il grafo si pu`o percorrere ma i cammini permessi sono solo quelli che partono dalla radice (0, 0) e ad ogni passo si spostano di una generazione in basso sul grafo, verso destra o verso sinistra. Dal punto (n, k) ci si pu` o cio`e spostare solo verso i punti (n + 1, k) ed (n + 1, k + 1), con le ovvie attenzioni agli indici quando si `e vicini al bordo. Indicando con #(n, k) il numero di cammini che dall’orogine (0, 0) conducono al nodo (n, k) `e facile dimostrare, vedi figura, che vale la relazione di ricorrenza (equazione alle differenze) #(n, k) = #(n − 1, k − 1) + #(n − 1, k) con condizione al contorno #(n, 0) = 1 Ma questa, a parte i simboli usati, `e esattamente  la relazione (d.), con la medesima condizione al contorno, quindi #(n, k) = nk . Questa `e l’interpretazione di P´ olya dei coefficienti binomiali come numero di cammini.

22

0 1 2 3 u (4, 1)

4

u (5, 2)

5 n ?

-

0

4.3

u (4, 2)

1

2

3

4

5

k

Formula di Stirling

Fornisce l’ordine di grandezza di n! con grande precisione. La versione semplice della formula di Stirling `e √ n! ∼ 2πn nn e−n o fare usando le dove a(n) ∼ b(n) significa che limn a(n) b(n) = 1. La dimostrazione si pu` propriet`a della densit` a di probabilit`a gaussiana e la tecnica di approssimazione di Laplace degli integrali dipendenti da un parametro. I pi` u curiosi troveranno, pi` u avanti, una nota su moodle. In modo sporco e veloce si pu`o per`o ottenere la parte pi` u cospicua dello sviluppo asintotico: log n! =

n X k=1

Z log k ≈ 1

n

n log x dx = x log x − x = n log n − n + 1. 1

Prendendo l’esponenziale di entrambi i membri, e trascurando il +1, si trova n! ≈ nn e−n che `e un’approssimazione niente male, vista la poca fatica che ci `e costata.

4.4

Applicazione al calcolo della probabilit` a

Calcolo della probabilit` a su spazi finiti equiprobabili. Per ritrovarvi sugli appunti i titoli che avevo dato agli esercizi erano: squadre di calcio e trenino.

23

Lezione 5 5.1

(Marted`ı, 12 marzo 2013, ore 16:25-17:05)

Esercitazione sulla combinatoria e la probabilit` a negli spazi finiti uniformi

Esercizio 1. Un’urna contiene 5 palline rosse, 6 blu e 8 verdi. L’esperimento consiste nell’estrazione, senza reinserimento, di tre palline dall’urna. Interessano le probabilit`a degli eventi E := ”le tre palline estratte sono di colori diversi”, F := ”le tre palline estratte sono dello stesso colore”. Attenzione a non prendere una cantonata: E c 6= F . N´e l’evento E, n´e l’evento F dipendono dall’ordine di estrazione delle palline, `e quindi sufficiente contare combinazioni. Il numero di combinazioni diverse corrispondenti all’estrazione senza reinserimento di 3 delle 19  palline contenute nell’urna `e 19 . L’evento E si verifica quando si estrae esattamente 1 3 pallina rossa, 1 blu ed 1 verde   (l’ordine non conta). Per il principio di moltiplicazione questo si pu` o fare in 51 61 81 = 5 · 6 · 8 modi. La probabilit`a cercata `e    5 6 8 P (E) =

1

1 1  19 3

Per quanto riguarda F si osservi che F = ”3 palline rosse” o ”3 palline blu” o ”3 palline verdi”, e poich´e i tre eventi a destra sono disgiunti P (F ) = P (”3 palline rosse”) + P (”3 palline blu”) + P (”3 palline verdi”)          5 6 8 5 6 8 5 6 8 3 0 0 + 0 3 0 + 0 0 3  = 19 3

Soluzione formale dell’esercizio 1. La soluzione formalmente rigorosa di questo, e di tutti gli altri esercizi del corso, richiede la costruzione di un opportuno spazio di probabilit`a S = (Ω, F, P ) che modella l’esperimento di interesse. Normalmente S `e sottaciuto, ma `e importante, almeno all’inizio, capire come si dovrebbe procedere. Qui sotto proponiamo due possibili spazi di probabilit` a, S1 e S2 , per modellare l’esperimento fisico descritto nell’esercizio 1. Questo servir` a ad illustrare il fatto che il modello probabilistico non `e unico. Spazio S1 . Cominciamo con la scelta dello spazio campionario Ω1 . L’unico vincolo che la teoria impone su Ω `e che esso sia sufficientemente ricco: gli esiti devono permettere di rappresentare tutti i risultati dell’esperimento. Numeriamo fittiziamente le palline presenti nell’urna: le rosse da 1 a 5, le blu da 6 a 11 e le verdi da 12 a 19. In tal modo le palline sono distinguibili e si pu` o prendere4 Ω1 := {disposizioni senza ripetizione di 19 palline 3 alla volta} 4

Nota bene. Come si elencano le disposizioni? Consideriamo, per brevit` a, le disposizioni di 4 oggetti 1, 2, 3, 4 presi 3 alla volta, che sono in totale 4 · 3 · 2 = 24. L’introduzione di un ordinamento aiuta a scrivere l’elenco delle disposizioni, ad esempio in ordine crescente 1, 2, 3;

1, 2, 4;

1, 3, 2;

1, 3, 4;

1, 4, 2;

1, 4, 3;

2, 1, 3;

2, 1, 4;

2, 3, 1;

3, 1, 2;

3, 1, 4;

3, 2, 1;

2, 3, 4;

2, 4, 1;

2, 4, 3;

3, 2, 4;

3, 4, 1;

3, 4, 2;

4, 1, 2;

4, 1, 3;

4, 2, 1;

4, 2, 3;

4, 3, 1;

4, 3, 2.

24

Prendiamo inoltre (possibile poich´e Ω1 `e finito) F1 = P(Ω1 ). Chiaramente |Ω1 | = 19 · ` ragionevole assegnare su F1 la misura equiprobabile, dato che gli esiti di Ω1 18 · 17. E sono ”fisicamente” equivalenti dal punto di vista delle operazioni di estrazione. Poich´e gli esiti sono disposizioni, Ω1 `e particolarmente adatto a rappresentare eventi che dipendono dall’ordine di estrazione delle palline. Ad esempio si consideri l’evento E1 = {e1 = rossa, e2 = blu, e3 = verde}, dove e1 , e2 e e3 indicano rispettivamente la prima, la seconda e la terza pallina estratta e le virgole sottintendono intersezioni, ovvero E1 consiste delle disposizioni con prima pallina rossa e seconda blu e terza verde. Gli esiti di Ω1 che appartengono ad E1 sono tutte e sole le terne (p1 , p2 , p3 ) con p1 ∈ {1, 2, 3, 4, 5}, p2 ∈ {6, 7, 8, 9, 10, 11} e p3 ∈ {12, 13, 14, 15, 16, 17, 18, 19}. Il numero degli esiti di questo tipo `e 5 · 6 · 8, quindi P (E1 ) =

|E| 5·6·8 = . |Ω1 | 19 · 18 · 17

Gli eventi che si ricavano da E1 per permutazione dei colori rosso, verde, blu, ovvero E2 = {e1 = blu, e2 = rossa, e3 = verde}, E3 = {e1 = blu, e2 = verde, e3 = rossa}, eccetera (in totale sono 3! = 6) sono equiprobabili (`e immediato, ma meditate se neces` ovvio che sario). E E := ”le tre palline estratte sono di colori diversi” =

6 [

Ei ,

i=1

quindi 5·6·8 = P (E) = 3! 19 · 18 · 17

5 1

 6 8 1 1  19 3

,

dove si lascia come banale esercizio la verifica dell’ultima identit`a che dimostra che il risultato trovato coincide con quello derivato inizialmente. Spazio S2 . Questa `e la formalizzazione dell’approccio intuitivo seguito all’inizio. Si prenda come spazio campionario Ω2 := {combinazioni senza ripetizione} ed F2 = P(Ω2 ). La cardinalit` a di Ω2 `e   19 |Ω2 | = . 3 ` ragionevole prendere la misura equiprobabile su F2 ? La risposta `e s`ı, perch´e ogni esito E ω ∈ Ω2 si ottiene come unione dello stesso numero 3! di esiti di Ω1 . e su Ω1 la misura equiprobabile `e fisicamente naturale. Ad esempio, all’esito (1, 7, 9) ∈ Ω2 corrispondono gli esiti (1, 7, 9), (1, 9, 7), (7, 1, 9), (7, 9, 1), (9, 1, 7), (9, 7, 1) di Ω1 . Lo spazio campionario Ω2 `e pi` u piccolo di Ω1 , ma `e sufficiente per descrivere qualunque evento che non dipenda dall’ordine delle estrazioni. Consideriamo l’evento E ⊂ Ω2 definito all’inizio: E = ”tre palline di colori diversi” = ”una rossa” e ”una blu” e ”una verde”.

25

La cardinalit` a di E vale quindi     5 6 8 |E| = 1 1 1 e la probabilit` a `e, come ci aspettavamo, |E| = P (E) = |Ω2 |

5 1

 6 8 1 1  19 3

.

Micro-esercizio. Calcolare P (”2 rosse e 1 verde”). Esercizio 2. Calcolo delle probabilit`a delle combinazioni del poker. Vedi appendice alla lezione. Esercizio 3. Per un certo gioco di carte si usa il mazzo da poker ed una mano consiste di 13 carte scelte a caso dal mazzo. Calcolare la probabilit`a che una mano contenga almeno due carte di picche. Soluzione. Si impiega la locuzione ”scelta a caso” per intendere che tutte le possibili scelte sono equiprobabili. Si consideri l’evento 13 [

E = ”almeno due picche” =

Ek ,

k=2

dove Ek :=”esattamente k picche”. La probabilit`a di E si pu`o calcolare direttamente oppure passando all’evento complementare. Per il calcolo diretto, osservando che gli Ek sono disgiunti, vale   13 13 52−13 13 13 X X |Ek | X k 13−k  P (E) = P (Ek ) = = 52 |Ω| 13 k=2

k=2

k=2

Passando per il complementare, E c = ”al pi` u 1 picca” = ”0 picche” o 1 picca” e, osservando che ”0 picche” e ”1 picca” sono eventi disgiunti,   P (E) = 1 − P (E c ) = 1 − P (”0 picche”) + P (”1 picca”)     39 13 39 13 =1−

13

0 −

52 13

12

1 ,

52 13

un’espressione computazionalmente molto pi` u semplice di P (E). Esercizio 4. Corsa campestre di n atleti della stessa abilit`a, quindi gli ordini di arrivo sono casuali (un’altra locuzione comunemente impiegata per dire equiprobabili). Calcolare la probabilit` a che Marco arrivi in k-esima posizione per k = 1, 2, . . . n. pk = P (”Marco arriva k−esimo”) =

(n − 1)! 1 = n! n

La soluzione non dipende da k. Si pu`o reinterpretare in vari modi, mazzo di chiavi, forlorn hope mission, estrazione da urna ecc. 26

Esercizio 5. Comitato formato scegliendo a caso 6 persone da un gruppo di 10 americani, 7 russi e 5 tedeschi. Calcolare la probabilit`a che il comitato contenga almeno un rappresentante di ognuno dei due paesi europei. L’evento d’interesse `e ”almeno 1 russo e almeno 1 tedesco”. Siamo passati al complementare che, per De Morgan, `e ”nessun russo o nessun tedesco” che ha probabilit` a    10 17 15 6 + 6 − 6  P (”0 russi”) + P (”0 tedeschi”) − P (”0 russi e 0 tedeschi”) = 22 6

Esercizio proposto. Si consideri un mazzo di carte da briscola (4 semi, 10 valori per ogni seme, per un totale di 40 carte). In un certo gioco una mano consiste di 4 carte estratte a caso dal mazzo. Calcolare la probabilit`a dell’evento E =”la mano contiene almeno 1 asso”. Calcolate la probabilit` a sia direttamente sia passando all’evento complementare verificando che le due espressioni ottenute coincidono (`e un esercizio di pura manipolazione dei coefficienti binomiali).

5.2

Problema del compleanno

Il ”birthday problem” consiste nel calcolo della probabilit`a dell’evento En = ”in una classe di n bambini almeno 2 hanno lo stesso compleanno” Non ripeto qui il calcolo della probabilit`a di En che trovate sui vostri appunti: c

P (E) = 1 − P (E ) = 1 −

n−1 Y k=1

k 1− 365



Riporto brevemente probabilit`a P (En ). utile per trovare un limite superiore alla−x Q il conticino k . Usando la disuguaglianza 1 − x ≤ e , valida per ogni Poich´e P (Enc ) = n−1 1 − k=1 365 x ∈ R, troviamo che P (Enc ) ≤

n−1 Y

k

e− 365 = e−

Pn−1

k k=1 365

= e−

n(n−1) 2·365

k=1

Volendo trovare n tale che P (En ) > 0.5 sar`a sufficiente imporre che P (Enc ) < 0.5. Con poca algebra si trova che la condizione equivale a n2 − n > 2 · 365 log 2 ≈ 505.997. Per n = 23 il membro sinistro vale n2 − n = 506, quindi n = 23 `e sufficiente. Per dimostrare che n = 23 `e il minimo valore di n che soddisfa alla condizione P (Enc ) < 0.5, si prende n = 22 ci si arma di pazienza e si valuta, meglio farlo scrivendo due righe di codice su un c ) che risulta essere maggiore di 0.5. Il ”paradosso dei calcolatore, il valore esatto P (E22 compleanni” si riferisce al fatto che, in un gruppo di appena 23 persone, la probabilit`a che almeno due di esse abbiano lo stesso compleanno `e maggiore di 0.5. ` una tecnica di hacking, di tipo brute force, basata sul paradosso del Birthday attack. E compleanno. Guardate la voce birthday attack sulla wikipedia inglese o chiedete ad un vostro professore d’informatica.

5.3

Probabilit` a condizionata: motivazione della definizione

L’idea di probabilit` a condizionata consente di incorporare informazione a priori nel calcolo della probabilit` a di eventi di interesse. L’informazione a priori riguarda tipicamente

27

il verificarsi o il non verificarsi di certi eventi che sono collegati all’evento di cui interessa calcolare la probabilit` a. Grazie alla probabilit`a condizionata `e possibile rappresentare situazioni sperimentali che evolvono dinamicamente nel tempo. Abbiamo illustrato questo discorso fumoso con un semplice esempio che indica un modo ragionevole di incorporare l’informazione a priori nel calcolo della probabilit`a di un evento. Si supponga di avere un’urna contenente 80 palline nere e 20 rosse. Effettuiamo 2 estrazioni senza reinserimento. Vogliamo calcolare probabilit`a del tipo P (e1 = ”rossa”), P (e2 = ”rossa”), P (e1 = ”rossa”, e2 = ”rossa”), dove e1 e e2 sono rispettivamente la prima e la seconda estratta e la virgola tra eventi si deve intendere come segno d’intersezione. Cominciamo a calcolare queste probabilit` a applicando diligentemente quanto visto finora. Dovendo trattare eventi per i quali l’ordine delle estrazioni `e rilevante sar`a opportuno prendere come spazio campionario Ω = {disposizioni senza ripetizione di 2 oggetti scelti da 100} ` allora immediato calcolare dove |Ω| = 100 · 99, e dotarlo della misura equiprobabile. E P (e1 = ”rossa”, e2 = ”rossa”) =

20 · 19 . 100 · 99

Per il calcolo di P (e1 = ”rossa”) rappresentiamo dapprima l’evento {e1 = ”rossa”} come unione di eventi incompatibili di Ω: {e1 = ”rossa”} = {e1 = ”rossa”, e2 = ”rossa”} ∪ {e1 = ”rossa”, e2 = ”nera”} da cui si ricava immediatamente P (e1 = ”rossa”) =

20 · 19 20 · 80 20 · 99 20 + = = . 100 · 99 100 · 99 100 · 99 100

Tutto questo `e istruttivo, ma poco illuminante. Un approccio meno formale consente di dire immediatamente che 20 P (e1 = ”rossa”) = 100 perch´e nell’urna ci sono 20 palline rosse su un totale di 100. Quello che stiamo facendo, in 20 modo automatico, nel produrre immediatamente la risposta 100 , `e di costruire mentalmente un modello probabilistico diverso ovvero Ω1 = {i naturali da 1 a 100 di cui 20 sono rossi e 80 neri} e di dotarlo di una misura equiprobabile. Quando tentate di calcolare P (e2 = ”rossa”) usando lo stesso approccio intuitivo vi bloccate perch´e la composizione dell’urna dipende dal risultato, non noto, della prima estrazione. Supponete che qualcuno vi informi del risultato della prima estrazione e che vi sia consentito tenerne conto. Per denotare il fatto che state usando quest’informazione extra la mettete in evidenza quando scrivete le probabilit` a. Scrivete ad esempio P (e2 = ”rossa” | e1 = ”rossa”) =

19 99

che leggerete: la probabilit` a che la seconda estratta sia rossa, sapendo che la prima estratta 19 . In effetti se la prima estrazione ha prodotto una rossa rimangono era rossa, vale 99 nell’urna 99 palline, di cui 19 rosse. Confrontiamo questa probabilit`a, che tiene conto in modo intuitivo dell’informazione a priori sulla prima estrazione, con quelle calcolate pi` u sopra. Con una semplice manipolazione P (e2 = ”rossa” | e1 = ”rossa”) =

19 99

= =

28

20 · 19 100 100 · 99 20 P (e1 = ”rossa”, e2 = ”rossa”) P (e1 = ”rossa”)

Diciamo E = {e2 = ”rossa”} ed F = {e1 = ”rossa”}, allora le considerazioni fatte sopra suggeriscono di definire la probabilit`a di E sapendo che si `e verificato F come: P (E|F ) =

P (E ∩ F ) . P (F )

Nella prossima lezione erigeremo questa formula a definizione formale della probabilit`a condizionata, in spazi di probabilit`a qualunque. Vedremo inoltre come calcolare P (e2 = ”rossa) usando le probabilit` a condizionate.

29

Appendice alla Lezione 5 Combinazioni del poker Lo scopo della nota `e di calcolare le probabilit`a delle mani nel gioco del poker. Consideriamo il mazzo da 52 carte. Le carte si distinguono per seme e valore (chiamato anche rango). I semi sono 4, denominati Cuori, Quadri, Fiori, Picche. Per ogni seme ci sono 13 carte i cui ranghi crescenti sono A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K. Si considera in scala crescente anche la sequenza 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, A. Una mano di poker consiste in un sottoinsieme di 5 carte scelte a caso dal mazzo di 52. Il numero di mani possibili `e quindi   52 . 5 Tipi di mani nel poker. 1. coppia – (x, x, w, y, z) dove x, x sono due carte dello stesso rango (di semi ovviamente diversi) mentre w, y, z sono tre carte, di ranghi distinti tra loro, e diversi da quello di x. 2. doppia coppia – (x, x, y, y, z) 3. tris – (x, x, x, y, z) 4. scala – 5 carte con ranghi in ordine crescente, non dello stesso seme. 5. full – (x, x, x, y, y) 6. colore – 5 carte dello stesso seme 7. colore in scala – 5 carte dello stesso seme in scala, la pi` u alta non `e l’asso. 8. poker – (x, x, x, x, y) 9. scala reale – colore in scala con carta pi` u alta l’asso. 10. scartine – nessuna delle precedenti. Calcolo delle combinazioni. Per 1. 2. 3. 5. 8. il conteggio si pu`o fare come segue. 1.

    13 4 12 4 3 1 2 3 1   13 4 Dove 1 `e il numero di scelte del rango w, 2 il numero di scelte della coppia tra  le 4 carte di rango w, 12 il numero di scelte dei ranghi x, y, z tra i 12 rimasti dopo 3  4 aver eliminato w, 1 il numero di scelte della carta tra le 4 carte di rango x, ed   analogamente 41 le possibili scelte della carta tra le 4 di rango y, e 41 le scelte della carta tra le 4 di rango z. 

2. 

     13 4 2 11 4 2 2 1 1

  4 2 Dove 13 ` e il numero di possibili coppie di ranghi x, y, il numero di scelte della 2 2  4 carta di rango x moltiplicato il numero di scelte della carta di rango y, 11 1 1 il numero di scelte del rango z per il numero di scelte della carta di rango z. 30

3. 

    13 4 12 4 2 1 3 2 1

spiegazione analoga a sopra. 5.

     13 4 12 4 1 3 1 2 spiegazione analoga a sopra.

8.

     13 4 12 4 1 4 1 1 spiegazione analoga a sopra.

4. Una scala pu` o partire da uno qualunque dei ranghi A, 2, 3, 4, 5, 6, 7, 8, 9, 10. Se parte da 10 terminer` a con A. Le scale possibili sono quindi 10×45 poich`e scelta la carta di partenza si deve poi scegliere, per ognuno dei 5 ranghi consecutivi, il seme della carta. Vanno per`o sottratte le 10 × 4 scale formate da 5 carte dello stesso seme perch`e queste combinazioni hanno valore diverso (caso 7. colore in scala). Il numero di scale semplici vale dunque 10 × 45 − 10 × 4 7. Si devono contare tutte le scale dello stesso seme che non terminano in asso, poich`e quelle che terminano in asso sono scale reali. Quindi abbiamo 10 × 4 − 4 9. Le scale reali sono ovviamente 4 6. Per la combinazione colore il seme pu`o essere scelto in 4 modi, quindi si devono scegliere 5 carte delle 13 di quel seme, e infine sottrarre i colori in scala e le scale reali   13 4× − 10 × 4 5 Esercizio: I casi da 1. a 10. sono ovviamente mutuamente esclusivi. Calcolate direttamente il numero di mani del caso 10. – scartine (basta contare quante sono le mani con 5 carte di rango diverso e sottrarre .....) e verificate che la somma dei casi da 1. a 10. vale  52 effettivamente 5 .

31

Lezione 6 6.1

(Mercoled`ı, 13 marzo 2013, ore 16:25-17:05)

Probabilit` a condizionata

Definizione. Sia (Ω, F, P ) uno spazio di probabilit`a, ed F ∈ F un evento tale che P (F ) > 0, allora per ogni E ∈ F `e ben definita la quantit`a P (E|F ) :=

P (E ∩ F ) , P (F )

detta probabilit` a condizionata di E dato F , o semplicemente probabilit`a di E dato F . Nota bene. Battezzare una quantit`a ”probabilit`a” non basta a garantire che essa si comporti come tale. Sar` a dunque necessario giustificare la scelta del nome. Cominiciano con lo studio delle propriet` a pi` u elementari di P (E|F ). Propriet`a elementari di P (E|F ). (a.) 0 ≤ P (E|F ) ≤ 1 per ogni E, F . Dimostrazione. Poich´e E∩F ⊂ F , per la monotonia della probabilit`a 0 ≤ P (E∩F ) ≤ P (F ) da cui discende la propriet` a dividendo per P (F ). (b.) E ∩ F = ∅ −→ P (E|F ) = 0. Dimostrazione. Banale dalla definizione. (c.) P (E) = 0 −→ P (E|F ) = 0. Dimostrazione. Infatti E ∩ F ⊂ E implica P (E ∩ F ) ≤ P ((F ) e dividendo per P (F ) si conclude. (d.) P (E) = 1 −→ P (E|F ) = 1. ` sempre P (E ∩ F ) ≥ P (E) + P (F ) − 1, e poich´e P (E) = 1 per ipotesi, Dimostrazione. E ) P (E ∩ F ) ≥ P (F ). Dividendo per P (F ) si trova P (E|F ) = P P(E∩F (F ) ≥ 1 e per la (a.) si conclude che P (E|F ) = 1. Osservazione. P (E|F ) T P (E), a seconda degli eventi E, F e della misura P . Commento. Si noti che `e naturale voler confrontare P (E) con P (E|F ). Intuitivamente, se E `e l’evento d’interesse e P la misura nota, P (E) `e la probabilit`a di E in assenza di ulteriori informazioni, mentre P (E|F ) `e la rivalutazione della probabilit`a di E tenendo conto dell’informazione ”si `e verificato l’evento F ”. Esempio. E =”il paziente guarisce”, F =”il paziente ha assunto il farmaco”. La CUF (Commissione Unica del Farmaco) mette il farmaco in fascia A se P (E|F ) > P (E), in fascia B se P (E|F ) = P (E) o ne proibisce la vendita se P (E|F ) < P (E). Esercizio svolto in aula. Lancio due dadi distinguibili, ad esempio uno rosso ed uno blu. Tutti i risultati sono equiprobabili. Calcolare le probabilit`a condizionate P (esce 6 sul dado rosso | la somma dei dadi `e i),

i = 2, 3, . . . 12.

Interpretazione empirica della probabilit`a condizionata Nell’interpretazione empirica (frequentista) della probabilit`a si suppone di poter effettuare un esperimento in condizioni identiche un certo numero di volte n. Per ogni evento E ∈ F si definisce la probabilit` a empirica Pn (E) = nnE , dove nE `e il numero di volte che si `e

32

verificato E nelle n prove. Ragionando allo stesso modo `e naturale definire la probabilit`a condizionata empirica come Pn (E|F ) =

Pn (E ∩ F ) nE∩F . = Pn (F ) nF

Esempio (trial clinico). Negli studi osservazionali (sociali, biomedici, ecc.) i modelli probabilistici si costruiscono utilizzando probabilit` a empiriche. Ad esempio per valutare l’efficacia di un farmaco, detto G =”malato guarisce” e F =”malato assume farmaco” (e per convenienza tipografica G = Gc , F = F c ), interessa confrontare P (G|F ) con P (G). Allo scopo si organizzano esperimenti, detti trial clinici, per valutare le probabilit`a empiriche. Una versione molto rozza di trial clinico `e la seguente. Ad ogni individuo di una popolazione di n malati si associano due bit (g, f ), con l’ovvia interpretazione f = 1 l’individuo assume farmaco, f = 0 l’individuo non assume il farmaco ed analogamente g = 1 l’individuo guarisce, g = 0 l’individuo non guarisce. Dopo avere rilevato i valori (g, f ) di ogni individuo, si riassumono i dati dell’intera popolazione in una cosiddetta tabella di contingenza 2 × 2 della forma F

F

G

nGF

nGF

nG

G

nGF

nGF

nG

nF

nF

n

dove nGF `e il numero di malati che guariscono e assummono il farmaco, nGF il numero di quelli che guariscono e non assumono il farmaco ed analogamente si interpretano nGF , nGF , nF , nF , nG , nG . Per definizione, la colonna pi` u a destra (colonna marginale) ha per elementi le somme delle righe e la riga pi` u in basso (riga marginale) ha per elementi la somma delle colonne. Convincetevi della correttezza dei valori indicati nella colonna e nella riga marginali, ovvero nGF + nGF = nG , eccetera. Per definizione l’elemento in basso a destra `e la somma degli elementi della colonna marginale, che coincide (convincetevene) con la somma degli elementi della riga marginale, ovvero n (convincetevene), la cardinalit`a della popolazione. I quattro numeri nGF , nGF , nGF e nGF contengono le informazioni necessarie per il calcolo di tutte le probabilit`a empiriche d’interesse, ad esempio: Pn (G|F ) = e anche Pn (G) =

nGF nGF = nF nGF + nGF

nGF + nGF nG = n nGF + nGF + nGF + nGF

Esercizio. Verificare che vale la relazione Pn (G|F ) > Pn (G) tra le probabilit`a empiriche (farmaco utile) se e solo se il determinante della matrice di contingenza 2 × 2 `e positivo.

33

La probabilit`a condizionata come misura di probabilit`a Teorema. Sia F ∈ F con P (F ) > 0 fissato, allora la mappa P (·|F ) : F → R che assegna E 7→ P (E|F ) `e una misura di probabilit`a. Dimostrazione. Consiste nella verifica degli assiomi. Vedi appunti di lezione! Dal teorema appena dimostrato segue che P (·|F ) gode di tutte le propriet`a di una misura di probabilit` a. In particolare (a.) P (E c |F ) = 1 − P (E|F ), per ogni E ∈ F. (b.) P (E ∪ G|F ) = P (E|F ) + P (G|F ) − P (E ∩ G|F ) per ogni E, G.

ATTENZIONE La mappa P (E|·) : F → R che assegna F 7→ P (E|F ) non `e una misura di probabilit`a. Esercizio. Costruire un esempio dove P (E|F c ) 6= 1 − P (E|F ).

6.2

Formula di moltiplicazione e applicazioni

Se sia E che F hanno probabilit` a strettamente positiva sono ben definite entrambe le probabilit` a condizionate P (E|F ) =

P (E ∩ F ) , P (F )

P (F |E) =

P (E ∩ F ) P (E)

da cui si ricavano le identit` a (formule di moltiplicazione) P (E ∩ F ) = P (E|F )P (F ) = P (F |E)P (E) Le formule di moltiplicazione sono spesso utili nel calcolo della probabilit`a di eventi d’interesse. Sebbene equivalenti dal punto di vista teorico, dal punto di vista operativo non sempre una vale l’altra. Esempio. Tornando all’esempio motivazionale dell’ultima lezione, abbiamo P (e1 = ”rossa”e2 = ”nera”) = P (e2 = ”nera” | e1 = ”rossa”)P (e1 = ”rossa”) = P (e1 = ”rossa” | e2 = ”nera”)P (e2 = ”nera”) dove la prima identit` a consente un calcolo immediato, mentre la seconda `e inservibile, poich´e non sappiamo ancora come calcolare P (e2 = ”nera”). Le identit` a viste sopra sono le pi` u semplici formule di moltiplicazione. L’idea pu`o si per`o iterare per ottenere formule di moltiplicazione di pi` u vaste proporzioni. Ad esempio, per qualunque terna E, F, G ∈ F, usando la definizione di probabilit`a condizionata, `e immediato verificare che P (E ∩ F ∩ G) = P (E ∩ (F ∩ G)) = P (E|F ∩ G)P (F |G)P (G). Se si ha a che fare con una famiglia finita {Ei }ni=1 di eventi, vale ad esempio ! ! ! n n−1 n−2 \ \ \ P Ei = P En Ei P En−1 Ei . . . P (E2 |E1 )P (E1 ). i=1

i=1

i=1

34

Naturalmente di formule di questo tipo se ne possono scrivere parecchie, permutando gli eventi Ei . Sono tutte corrette, ma operativamente alcune saranno pi` u comode di altre nelle specifiche applicazioni. Esempio 1. Da un mazzo di carte da poker estraggo 3 carte senza reinserimento. Calcolare la probabilit` a che nessuna delle 3 carte sia di Cuori. Svolto in aula sia con calcolo diretto sia con la formula di moltiplicazione. Esempio 2 (urna di P´ olya). In un’urna ci sono inizialmente 3 palline Bianche e 5 Rosse. Effettuo le estrazioni con la seguente regola: ad ogni estrazione reinserisco nell’urna la pallina appena estratta e ne aggiungo 2 dello stesso colore di quella appena estratta. Abbiamo calcolato la probabilit` a dell’evento P (e1 = B, e2 = B, e3 = R) = P (e3 = R|e1 = B, e2 = B)P (e2 = B|e1 = B)P (e1 = B) 5 5 3 = . 12 10 8 Pi` u in generale l’urna di P´ olya `e definita come segue: in un’urna sono inizialmente presenti b palline Bianche ed r palline Rosse. Ad ogni estrazione si reinserisce nell’urna la pallina appena estratta e se ne aggiungono c dello stesso colore di quella appena estratta, dove c ∈ Z `e un intero fissato. Si noti che c = −1 corrisponde al caso standard di campionamento senza reinserimento, c = 0 al caso standard di campionamento con reinserimento, c = 2 al caso particolare visto sopra. Come in precedenza calcoliamo ad esempio P (e1 = B, e2 = B, e3 = R) =

r b+c b . b + r + 2c b + r + c b + r

Osservazione. Abbiamo rapidamente visto che tutte le permutazioni di e1 = B, e2 = B, e3 = R (ad esempio e1 = B, e2 = R, e3 = B, e cos`ı via per tutte le altre) hanno la stessa probabilit` a. In effetti, nella precedente formula, i denominatori sono invarianti, mentre i numeratori permutano. Lo stesso vale se invece di 3 estrazioni se ne eseguono n. Tecnicamente si dice che gli eventi {e1 = B}, {e2 = B}, {e3 = R} sono scambiabili. La nozione di scambiabilit` a per eventi `e di fondamentale importanza in Statistica, ed `e dovuta a Bruno de Finetti (1937). L’urna di P´olya `e un modello probabilistico estremamente flessibile, utile in svariati campi applicativi. Avevo menzionato lo studio della propagazione di un’infezione virale in una popolazione umana o in una rete di calcolatori.

6.3

Formule della probabilit` a totale e di Bayes

Formula della probabilit`a totale Teorema. Sia {F, F c } una partizione di Ω, con 0 < P (F ) < 1, allora per ogni E ∈ F vale la formula della probabilit` a totale: P (E) = P (E|F )P (F ) + P (E|F c )P (F c ). ` sufficiente scrivere la decomposizione disgiunta E = (E ∩ F ) ∪ (E ∩ F c ), Dimostrazione. E applicare l’addittivit` a della misura P (E) = P (E ∩ F ) + P (E ∩ F c ) ed infine utilizzare la formula di moltiplicazione per sviluppare entrambi gli addendi che compaiono a destra. In generale, se {Fi }ni=1 `e una partizione di Ω, con P (Fi ) > 0 per ogni i, la formula della probabilit` a totale `e n X P (E) = P (E|Fj )P (Fj ). j=1

35

Esempio 1. Tornando all’esempio motivazionale introdotto alla fine della scorsa lezione, la formula della probabilit` a totale fornisce P (e2 = R) = P (e2 = R|e1 = R)P (e1 = R) + P (e2 = R|e1 = N )P (e1 = N ) 19 20 20 80 20 = + = . 99 100 99 100 100 Osservazione. Nonostante le palline siano estratte senza reinserimento P (e2 = R) = P (e1 = R). Questo risultato non `e del tutto intuitivo. In forma pi` u estrema, se nell’urna ci sono 99 palline Nere ed 1 Rossa, e si effettuano estrazioni senza reinserimento, vale 1 P (e1 = R) = P (e2 = R) = · · · = P (e100 = R) = 100 . Si confronti con l’esercizio 4 della sezione 5.1. Esempio 2. Un’azienda di assemblaggio PC acquista chip di memoria da tre diversi fornitori. Il fornitore A garantisce che la percentuale di chip difettosi `e inferiore al 2%, il fornitore B garantisce meno del 2%, mentre il fornitore C garantisce meno del 4%. L’ufficio acquisti ordina il 50% dei chip da A, il 25% da B ed il 25% da C. I chip vengono immagazzinati in modo casuale. Il tecnico addetto prende un chip a caso dal magazzino e lo inserisce sulla scheda madre. Aiutate l’ufficio vendite a calcolare la percentuale di chip di memoria difettosi che pu` o garantire ai clienti che acquistano partite di PC assemblati. ` Soluzione. E fondamentale interpretare correttamente i dati del problema. Detto D l’evento ”chip difettoso”, con ovvio significato degli altri simboli, i dati sono P (D|A) = 0.02, P (D|B) = 0.02, P (D|C) = 0.04, inoltre P (A) = 0.5, P (B) = 0.25, P (C) = 0.25. Gli eventi A, B, C formano una partizione poich´e ogni chip del magazzino proviene da uno, ed uno solo, dei produttori A, B o C. Ci sono le condizioni per applicare la formula della probabilit` a totale che fornisce P (D) = P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C) = 0.02 · 0.5 + 0.02 · 0.25 + 0.04 · 0.25.

Formula di Bayes Spesso `e di interesse calcolare le probabilit`a P (Fi |E), dette probabilit`a a posteriori (le probabilit` a P (Fi ) sono invece dette probabilit`a a priori). Utilizzando la definizione di probabilit` a condizionata e la formula della probabilit`a totale si trova la formula di Bayes: P (Fi |E) =

P (E ∩ Fi ) P (E|Fi )P (Fi ) = Pn P (E) j=1 P (E|Fj )P (Fj )

valida per i = 1, 2, . . . n. In alcuni casi, si veda l’esempio qui sotto, il calcolo delle probabilit`a a posteriori `e di fondamentale importanza applicativa. L’enorme utilit`a della formula di Bayes deriva dal fatto che le probabilit`a a posteriori sono espresse in termini di probabilit` a note, usualmente dati del problema.

Test diagnostici (signal detection) Un test diagnostico `e un metodo per rilevare la presenza di una certa condizione di interesse. Test diagnostici si possono effettuare nei pi` u disparati contesti. Ad esempio, un’antenna radar esplora i cieli per rilevare la presenza o l’assenza di aerei amici o nemici. Il principio di funzionamento del radar `e quello della riflessione delle onde elettromagnetiche ed `e soggetto a numerose fonti di rumore e quindi di errore. Riflessioni multiple, presenza di stormi di uccelli o di astronavi aliene, condizioni meteo, queste ed altre ragioni comportano che la rilevazione radar non `e mai completamente affidabile. Oppure si pensi ad un test di gravidanza. Un kit acquistato in farmacia per pochi euro fornisce un risultato 36

che `e soggetto a varie fonti d’errore legate alla variazione dei livelli ormonali normali in donne diverse. Diciamo T+ e T− gli eventi ”il test d`a risultato positivo”, ”il test d`a risultato negativo” rispettivamente. Analogamente diciamo D+ e D− gli eventi la condizione `e presente e la condizione `e assente (si suppone che esistano metodi certi per rilevare il verificarsi di D+ o D− , ad esempio ci si pu` o accertare visualmente della presenza o meno di un aereo in una no-fly zone con un volo di ricognizione, il ginecologo effettua accurati esami di laboratorio per accertare la gravidanza della sua paziente ecc.) Per un test ideale si deve avere P (T+ |D+ ) = 1 e P (T− |D− ) = 1, ma nel mondo reale i test diagnostici non sono perfetti. In generale il test `e caratterizzato da due probabilit`a condizionate: P (T+ |D+ ) = a < 1

specificit`a

P (T− |D− ) = b < 1

sensibilit`a

In gergo le probabilit` a di errore vengono dette: P (T− |D+ ) = 1 − a probabilit`a di falso negativo (”miss”) e P (T+ |D− ) = 1 − b probabilit`a di falso positivo (”false alarm”). Nota bene. P (T− |D+ ) = 1 − a ed analogamente P (T+ |D− ) = 1 − b poich´e la probabilit`a condizionata `e una misura di probabilit`a, quando l’evento condizionante `e fissato. Inoltre T+ e T− sono eventi complementari, quindi P (T− |D+ ) = 1 − P (T+ |D+ ) = 1 − a ecc. Esempio di uso della formula di Bayes (disclaimer: i dati numerici di questo esempio sono di pura fantasia, al solo scopo di mostrare l’utilit` a della formula di Bayes, fate voi il googling se vi interessano i dati reali) Si supponga di disporre di un test di sieropositivit`a per il virus HIV con le seguenti caratteristiche fornite dal produttore (l’azienda produttrice determina le probabilit`a empiriche, effettuando un trial clinico, come visto all’inizio della lezione) a = 0.99,

b = 0.98.

Dalle statistiche ISTAT, un individuo preso a caso dalla popolazione generale ha probabilit`a di essere sieropositivo P (D+ ) = 0.0002. In realt`a la tabella dell’ISTAT riporta il dato empirico, e tipicamente dir` a 2 persone su 10,000 sono sieropositive, ma nell’interpretazione frequentista della probabilit` a questo equivale a P (D+ ) = 0.0002. Supponete di sottoporvi al test e che il risultato sia T+ . La domanda `e: dovete andare in panico o no? Questo `e esattamente il caso in cui le probabilit`a d’interesse sono le probabilit` a a posteriori. Prima di fare il test voi siete un individuo della popolazione generale ed avete probabilit` a P (D+ ) = 0.0002 di essere sieropositivo. Dopo aver effettuato il test, che ha dato esito T+ , voi avete una nuova informazione, e siete interessati a ricalcolare la vostra probabilit` a di essere sieropositivo tenendo in considerazione questa nuova informazione. Volete cio`e calcolare la probabilit`a condizionata P (D+ |T+ ). Questa `e esattamente la domanda a cui la formula di Bayes d`a la risposta. P (D+ |T+ ) =

P (T+ |D+ )P (D+ ) P (T+ |D+ )P (D+ ) + P (T+ |D− )P (D− )

fatti i conti troverete che P (D+ |T+ ) ≈ 0.01. Non `e il caso di allarmarsi troppo: anche se la vostra probabilit` a `e aumentata di circa 50 volte rispetto alla popolazione generale `e comunque ancora troppo bassa per giustificare una reazione di panico. Come mai si verifica questo apparentemente strano fenomeno? Tutto dipende dal fatto che la condizione che si vuole rilevare ha probabilit` a molto bassa, P (D+ ) = 0.0002. In questa situazione un test con a = 0.99 e b = 0.98, che sono specificit`a e sensibilit`a vicine a 1, non `e sufficientemente affidabile. Se fosse a = 0.9999 e b = 0.9999 la P (D+ |T+ ) sarebbe molto pi` u alta (non ho fatto il conto - provate voi). 37

Lezione 7 7.1

(Luned`ı, 18 marzo 2013, ore 10:30-12:15)

Eventi indipendenti

Nel definire la probabilit` a condizionata avevamo osservato che, in generale, P (E|F ) pu`o essere maggiore uguale o minore di P (E). Il caso di uguaglianza `e particolarmente importante in teoria della probabilit`a e la lezione `e ad esso dedicata. Definizione. Gli eventi E, F ∈ F si dicono indipendenti se P (E ∩ F ) = P (E)P (F ), nel qual caso scriveremo E ⊥ ⊥ F. Osservazioni ed esempi (a.) La definizione di indipendenza `e simmetrica in E ed F quindi non ha senso dire che E `e indipendente da F o che F `e indipendente da E. Poich´e l’indipendenza `e una propriet`a della coppia non ordinata di eventi E, F , idealmente si dovrebbe dire che l’insieme {E, F } `e/non `e indipendente. (b.) E ⊥ ⊥ F `e una nozione probabilistica in quanto coinvolge E, F e la misura P . Non confondete questa nozione con quella di eventi mutuamente esclusivi, E ∩ F = ∅, che `e puramente insiemistica e che nulla ha a che vedere con la misura P . Le seguenti banali proposizioni mettono in parziale relazione le due nozioni. (i.)

Se E ⊥ ⊥ F allora E ∩ F = ∅ ⇒ P (E) = 0 o P (F ) = 0.

(ii.) Se P (E ∩ F ) = 0 allora E ⊥ ⊥ F ⇒ P (E) = 0 o P (F ) = 0. Ad esempio, come conseguenza della (ii.), due eventi incompatibili, ed entrambi di probabilit`a strettamente positiva, non possono essere indipendenti (convincetevene!). Esempio 1. Lancio contemporaneamente una moneta ed un dado. Sullo spazio campionario naturale Ω = {(T, 1), . . . (T, 6), (C, 1) . . . (C, 6)} consideriamo la misura equiproba1 bile P ({ω}) = 12 , per ogni esito elementare ω ∈ Ω. Gli eventi E =”esce Testa sulla moneta” ed F =”esce 4 sul dado” sono indipendenti. Infatti P (E) = P ({(T, 1) . . . (T, 6)}) = 12 , 1 e P (F ) = P ({(T, 4), (C, 4)}) = 16 ed infine P (E ∩ F ) = P ({(T, 4)}) = 12 . Esempio 2. Urna di P´ olya con b Bianche ed r Rosse, c = −1 ovvero estrazioni senza reinserimento da un’urna. Indichiamo con ei = R l’evento la i-esima pallina estratta `e r−1 r r rossa. Allora P (e1 = R, e2 = R) = b+r−1 b+r , mentre P (e1 = R) = P (e2 = R) = b+r , quindi P (e1 = R, e2 = R) 6= P (e1 = R)P (e2 = R): gli eventi {e1 = R} ed {e2 = R} non sono indipendenti. Esempio 3. Urna di P´ olya con b Bianche ed r Rosse, c = 0 ovvero estrazioni con reinser 2 r imento. In questo caso P (e1 = R, e2 = R) = P (e2 = R|e1 = R)P (e1 = R) = b+r = P (e1 = R)P (e2 = R): gli eventi {e1 = R} ed {e2 = R} sono indipendenti. Esempio 4. Si consideri il lancio di due dadi e gli eventi E=”la prima faccia `e 4” ed F =”la somma dei punti `e 7”. Gli eventi E e F sono indipendenti. Si osservi che invece gli eventi E e G=”la somma dei punti `e 9” non sono indipendenti. Banale, vedi comunque gli appunti. Morale: bisogna stare molto attenti. Gli eventi F e G sembrano della stessa natura, ma mentre la coppia E, F `e indipendente, la coppia E, G non lo `e.

38

Esempio 5. A lezione avevo accennato allo spazio di probabilit`a con Ω = [0, 1] × [0, 1], F la σ-algebra generata dagli insiemi aperti, e P misura di probabilit`a che ad ogni evento E ⊂ F associa P (E) = area(E). In questo spazio ogni coppia di eventi E, F della forma E = [a, b]×[0, 1] e F = [0, 1]×[c, d] sono indipendenti. Infatti P (E∩F ) = P ([a, b]×[c, d]) = (b − a)(d − c), mentre P (E) = P ([a, b] × [0, 1]) = b − a e P (F ) = P ([0, 1] × [b, c]) = d − c. Conseguenze elementari dell’indipendenza (a.) Gli eventi {∅, F } e {Ω, F } sono indipendenti qualunque sia l’evento F . La dimostrazione `e banale. (b.) Se E ⊥ ⊥ E allora P (E) = [P (E)]2 , ovvero P (E) = 0 oppure P (E) = 1. Banale. (c.) Lemma 1. Se P (E) > 0, e P (F ) > 0, le seguenti affermazioni sono equivalenti (i.)

E⊥ ⊥ F,

(ii.) P (E|F ) = P (E),

(iii.)

P (F |E) = P (F ).

Dimostrazione. P (E∩F ) P (E)P (F ) = P (E). P (F ) = P (F ) P (E|F )P (F ) (F ) ) = P (E)P = P P(E∩F (E) = P (E) P (E)

(i.) ⇒ (ii.).

P (E|F ) =

(ii.) ⇒ (iii.).

P (F |E)

(iii.) ⇒ (i.).

P (E ∩ F ) = P (F |E)P (E) = P (F )P (E).

= P (F ).

Il lemma evidenzia che il caso particolare P (E|F ) = P (E) nella definizione di probabilit`a condizionata corrisponde esattamente ad eventi E, F indipendenti. (d.) Lemma 2. Le seguenti affermazioni sono equivalenti (i.)

E⊥ ⊥ F,

(ii.) E c ⊥ ⊥ F,

(iii.) E ⊥ ⊥ F c,

(iv.) E c ⊥ ⊥ F c.

Dimostrazione. Utilizziamo la definizione originale di indipendenza che non richiede ipotesi di stretta positivit` a sulle probabilit`a degli eventi. (i.) ⇒ (ii.). P (E c ∩ F ) = P (F ) − P (E ∩ F ) = P (F ) − P (E)P (F ) = P (F )(1 − P (E)) = P (F )P (E c ). (ii.) ⇒ (iii.).

Dalle due decomposizioni disgiunte dell’unione E ∪ F = E ∪ (E c ∩ F ) = F ∪ (F c ∩ E)

si ricava la relazione P (E) + P (E c ∩ F ) = P (F ) + P (F c ∩ E) quindi P (E ∩ F c ) = P (E) + P (E c ∩ F ) − P (F ) = P (E) + P (E c )P (F ) − P (F ) = P (E) + (1 − P (E))P (F ) − P (F ) = P (E) − P (E)P (F ) = P (E)P (F c ) (iii.) ⇒ (iv.). h i P (E c ∩ F c ) = 1 − P (E ∪ F ) = 1 − P (F ) + P (F c ∩ E) = 1 − P (F ) + P (F c )P (E) = 1 − P (F ) + (1 − P (F ))P (E) = = (1 − P (F ))(1 − P (E) = P (E c )P (F c ) (iv.) ⇒ (i.). Esercizio. 39

Interpretazione empirica dell’indipendenza di due eventi. Verificare l’indipendenza di due eventi, sotto una data misura P , `e spesso un problema di interesse pratico. Come si pu` o, in pratica, valutare se E ⊥ ⊥ F ? Una prima, rozza, risposta si pu`o dare valutando le probabilit`a empiriche. Ricordando la definizione della misura empirica Pn , e per il Lemma 1, la relazione di indipendenza E ⊥ ⊥ F rispetto alla misura Pn equivale a nE∩F nE nF Pn (E|F ) = Pn (E) ovvero = n n n Facendo riferimento all’esempio del trial clinico, nella sezione 6.1, la condizione di indipendenza per la misura empirica equivale alla condizione di determinante nullo della matrice di contingenza 2 × 2. Rimangono molti punti da approfondire. (a.) Come si collega l’indipendenza rispetto alla Pn con l’indipendenza rispetto alla P ? Sperabilmente quando n `e grande Pn `e vicino a P e quindi anche le relazioni di indipendenza si manterranno, ma questo `e da approfondire. (b.) Nella pratica la relazione nE∩F = nnE nnF `e soddisfatta solo approssimativamente. n Entro che tolleranza `e ragionevole dichiarare che E ⊥ ⊥ F ? (c.) Non sempre `e possibile usare un’impostazione frequentista. Pensate ad esempio agli eventi E =”domani cadr`a un meteorite su Mosca” ed F =”domani piover`a a Milano” di un ipotetico spazio proba` molto comune, specialmente tra fisici ed ingegneri, bilistico che modella eventi celesti. E considerare E ⊥ ⊥ F se non esiste un’evidente relazione di causa/effetto tra i due eventi. In realt`a esiste un’estesa letteratura dai pi` u disparati campi, filosofico, logico, matematico, informatico e statistico, dedicata a chiarire la relazione causa/effetto ed il legame con la relazione d’indipendenza stocastica. Non ci occuperemo di questi argomenti.

7.2

Indipendenza per famiglie di eventi

Definizione. La famiglia di tre eventi {E1 , E2 , E3 } `e indipendente se le seguenti due condizioni sono entrambe soddisfatte: (i.)

Ei ⊥ ⊥ Ej per ogni i 6= j,

(ii.)

P (E1 ∩ E2 ∩ E3 ) = P (E1 )P (E2 )P (E3 ).

Discussione ` facile costruire esempi di terne di eventi {E1 , E2 , E3 } per cui vale la condizione (i.), ma E non la condizione (ii.) o viceversa. Esempio 1 (dado tetraedrale di Bernstein). Il dado ha quattro facce equiprobabili: b bianca, r rossa, v verde, e t tricolore (bianca rossa e verde). Si lancia il dado e si considera come faccia uscita quella su cui esso cade. Sia B l’evento B =”esce una faccia che contiene il colore bianco”={b, t}, e analogamente sono definiti gli eventi R e V . Fatto. Gli eventi B, R e V sono indipendenti a coppie, ma non sono indipendenti. Dimostrazione. Cominiciamo con il dimostrare che B ⊥ ⊥ R: P (B ∩ R) = P (t) =

1 2 2 = P (B)P (R) = · . 4 4 4

Analogamente si dimostra che B ⊥ ⊥V eR⊥ ⊥ V . Peraltro: P (B ∩ R ∩ V ) = P (t) =

1 6= P (B)P (R)P (V ) = 4

 3 1 2

Esempio 2. Si lancia due volte un dado a sei facce. Sia A = {1, 2, 3 al primo lancio}, B = {3, 4, 5 al primo lancio}, C = {somma dei due lanci `e 9}. Allora P (A ∩ B ∩ C) = P (A)P (B)P (C), mentre A, B, C non sono indipendenti a coppie. 40

Gli esempi 1 e 2 dimostrano che le condizioni (i.), e (ii.) nella definizione di indipendenza per una terna di eventi sono logicamente indipendenti. Il motivo per cui `e importante imporle entrambe `e che solo in questo caso vale, per la terna di eventi, un risultato simile al Lemma 2, ovvero se {E1 , E2 , E3 } sono indipendenti allora anche le terne che si ottengono sostituendo ad uno, a due, o a tutti e tre gli eventi i loro complementari, sono a loro volta indipendenti. Lemma 3. Le seguenti terne o sono tutte indipendenti o non lo `e nessuna {E1 , E2 , E3 }, {E1 , E2 , E3c },{E1 , E2c , E3 }, {E1 , E2c , E3c }, {E1c , E2 , E3 }, {E1c , E2 , E3c },{E1c , E2c , E3 }, {E1c , E2c , E3c }. Osservazione. Nonostante le formulazione lievemente diversa il Lemma 3 ha la stessa struttura logica del Lemma 2, affermando l’equivalenza dell’indipendenza per le otto terne. Dimostrazione. Per simmetria `e sufficiente dimostrare che se la prima terna `e indipendente allora tutte le altre lo sono. Per oguna delle sette terne bisogna verificare che valgono le condizioni (i.) e (ii.) della definizione d’indipendenza per tre eventi. La (i.) discende immediatamente dall’ipotesi che {E1 , E2 , E3 } `e una terna indipendente e dal Lemma 2. Verifichiamo la condizione (ii.). Se la terna in considerazione ha un solo evento complementato, ad esempio se la terna `e {E1 , E2 , E3c }, allora si ha P (E1 ∩ E2 ∩ E3c ) = P (E1 ∩ E2 ) − P (E1 ∩ E2 ∩ E3 ) = P (E1 )P (E2 ) − P (E1 )P (E2 )P (E3 ) = P (E1 )P (E2 )P (E3c ) Si noti che `e stato necessario utilizzare sia la condizione (i.) che la condizione (ii.) per la verifica! Per simmetria lo stesso vale per dimostrare l’indipendenza delle terne {E1 , E2c , E3 }, {E1c , E2 , E3 }. Se la terna ha due eventi complementati, ad esempio la terna {E1 , E2c , E3c }, avremo P (E1 ∩ E2c ∩ E3c ) = P (E1 ) − P (E1 ∩ (E2c ∩ E3c )c ) = P (E1 ) − P (E1 ∩ (E2 ∪ E3 ))   = P (E1 ) − P (E1 ∩ E2 ) + P (E1 ∩ E3 ) − P (E1 ∩ E2 ∩ E3 )   = P (E1 ) 1 − P (E2 ) − P (E3 ) + P (E2 ∩ E3 ) = P (E1 )P ((E2 ∪ E3 )c ) = P (E1 )P (E2c )P (E3c ) Lo stesso ragionamento si applica a tutte le terne con due eventi complementati. Analogamente (esercizio) si ragiona per l’unica terna con tutti gli eventi complementati {E1c , E2c , E3c }. Esercizio proposto. Se {E1 , E2 , E3 } sono indipendenti allora E1 ⊥ ⊥ E2 ∪ E3 . Estensione alle famiglie finite e numerabili. Definizione. La famiglia di n eventi {E1 , E2 , . . . En } `e indipendente se per ogni r, con 2 ≤ r ≤ n, scelti r eventi distinti qualunque della famiglia la probabilit`a della loro intersezione `e pari al prodotto delle probabilit` a dei singoli eventi scelti. Si osservi che questa versione compatta della condizione di indipendenza riassume entrambe le condizioni (1) e (2) imposte nel caso di una terna. La nozione di famiglia indipendente di eventi si pu` o estendere alle famiglie numerabili. Definizione. La famiglia numerabile di eventi {E1 , E2 , . . . } `e indipendente se ogni sua sottofamiglia finita `e indipendente. 41

7.3

Applicazioni dell’indipendenza I – semplificazione di calcoli probabilistici

L’indipendenza di certi eventi semplifica molti calcoli probabilistici e, in alcuni casi, rende possibili calcoli altrimenti impossibili. Esempio 1. P (E) = 0.2, P (F ) = 0.3, calcolare P (E ∪ F ). Questo calcolo `e impossibile. Si pu`o in effetti scrivere P (E ∪ F ) = P (E) + P (F ) − P (E ∩ F ), ma non conoscendo P (E ∩ F ) il calcolo `e impossibile da eseguire. Peraltro, se E ⊥ ⊥ F allora P (E ∪ F ) = P (E) + P (F ) − P (E)P (F ) = 0.2 + 0.3 − 0.2 · 0.3. Esercizio 2. (freccette). Siano a, b e c tre giocatori di freccette. Indichiamo rispettivamente con A, B e C gli eventi a, b, c fa centro. Sia P (A) = 12 , P (B) = 14 e P (C) = 15 . Si supponga che gli eventi A, B e C sono indipendenti. Calcolare la probabilit` a dell’evento E =”uno solo dei giocatori fa centro”. Si scrive la decomposizione disgiunta  [ [  E = A \ (B ∪ C) B \ (C ∪ A) C \ (A ∪ B) Il primo addendo `e P (A \ (B ∪ C)) = P (A ∩ B c ∩ C c ) = P (A)P (B c )P (C c ) = ecc. (Individuare tutte le applicazioni dei Lemmi.) Calcolare anche P (A|E).

42

1 1 1 · · 2 4 5

Lezione 8 8.1

(Marted`ı, 19 marzo 2013, ore 16:25-18:05)

Applicazioni dell’indipendenza II – costruzione di misure di probabilit` a

Finora abbiamo usato la nozione d’indipendenza in modo analitico, in accordo con uno o l’altro dei seguenti schemi. • Dati gli eventi E ed F di uno spazio di probabilit`a governato dalla misura P , determinare se E e F sono/non sono indipendenti. • Noto che sotto la misura P gli eventi E e F sono indipendenti, calcolare la probabilit`a di altri eventi definiti a partire da E ed F . La nozione di indipendenza si pu` o anche utilizzare, e molto proficuamente, in modo sintetico, ovvero per costruire misure di probabilit`a. A titolo illustrativo presentiamo qui un caso semplice, ma non banale, e di fondamentale importanza applicativa: la costruzione di misure non equiprobabili sullo spazio Ω degli esiti di n lanci di una moneta. Motivazione: reinterpretazione della misura equiprobabile Si consideri l’esperimento che consiste nel lanciare n volte una moneta, i cui esiti sono n o Ω := (b1 , b2 , . . . , bn ), bi ∈ {T, C}, i = 1, . . . n La cardinalit` a |Ω| = 2n e quindi, per ogni ω ∈ Ω, la misura equiprobabile (detta anche uniforme) e qui denotata Pu , assegna Pu ({ω}) = 21n . Denotando con il simbolo [ek = T ] l’evento ”esce Testa al k-esimo lancio”, si ha n o [ek = T ] = (b1 , b2 , . . . , bn ), bk = T, bi ∈ {T, C}, i ∈ {1, . . . n} \ {k} e quindi la cardinalit` a dell’evento (il numero di esiti ω ∈ Ω che vi appartengono) `e |[ek = n−1 T ]| = 2 , quindi Pu ([ek = T ]) =

|[ek = T ]| 2n−1 1 = n = , |Ω| 2 2

k = 1, 2 . . . n

(1)

Si osservi che, poich´e [ek = T ]c = [ek = C] risulta parimenti P ([ek = C]) = 12 . Si consideri ora la coppia di eventi [eh = T ] e [ek = T ] con h 6= k. Poich´e n o [eh = T ] ∩ [ek = T ] = (b1 , b2 , . . . , bn ), bh = bk = T, bi ∈ {T, C}, i ∈ {1, . . . n} \ {h, k} la cardinalit` a dell’intersezione `e |[eh = T ] ∩ [ek = T ]| = 2n−2 e quindi la probabilit`a vale Pu ([eh = T ] ∩ [ek = T ]) =

2n−2 1 = 2 n 2 2

Analogamente si trova che, per ogni r ∈ {1, . . . n} e per ogni r-pla k1 , k2 , . . . kr , con ki ∈ {1, 2, . . . n} e distinti, ! r \ 2n−r 1 Pu [eki = T ] = n = r (2) 2 2 i=1

Poich´e valgono le due identit` a (1) e (2) si conclude che, sotto la misura equiprobabile Pu , gli eventi della famiglia {[ek = t], k = 1, . . . n} sono equiprobabili, di probabilit`a 12 , ed indipendenti. Passiamo ora dall’analisi della misura Pu alla costruzione di una nuova misura di probabilit`a P su Ω in accordo con le seguenti prescrizioni. 43

Ricetta per la costruzione di P • assegna P ([ek = T ]) := 12 , per ogni k = 1, 2, . . . n; • imponi l’indipendenza degli eventi { [ek = T ], k = 1, . . . n}. Per verificare che la ricetta produce una misura di probabilit`a P compatibile con gli assiomi `e sufficiente calcolare le probabilit` a di tutti gli esiti ω ∈ Ω e verificare che esse sommano a 1. Per l’esito generico ω = (b1 , b2 , . . . bn ) si ha che n \

{ω} =

[ek = bk ]

k=1

e seguendo la ricetta dovr` a essere P ({ω}) = P

n \

! [ek = bk ]

=

k=1

n Y

P ([ek = bk ]) =

k=1

1 = Pu ({ω}). 2n

Poich´e P ({ω}) = Pu ({ω}) per ogni ω ∈ Ω, le due misure coincidono. Ci`o rende ovvia la consistenza di P , ma soprattutto consente di reinterpretare Pu come misura prodotta dalla ricetta. Costruzione di misure non equiprobabili sullo spazio di n lanci di una moneta. L’analisi appena conclusa fornisce il razionale per la costruzione di una misura non equiprobabile sullo spazio Ω degli esiti di n lanci di una moneta. Allo scopo definiamo la seguente Ricetta generalizzata per la costruzione di P • assegna P ([ek = T ]) := p ∈ [0, 1], per ogni k = 1, 2, . . . n (e quindi automaticamente P ([ek = C]) = 1 − p); • imponi l’indipendenza degli eventi { [ek = T ], k = 1, . . . n}. Rispetto alla ricetta precedente `e stato introdotto il parametro p ∈ [0, 1], che intuitivamente rappresenta la probabilit` a di Testa della moneta, costante negli n lanci. Il caso 1 p = 2 corrisponde alla misura equiprobabile Pu . Se p 6= 12 la misura generata dalla ricetta generalizzata non `e equiprobabile. Per caratterizzare completamente P `e sufficiente calcolarla sugli esiti. Se ω = (b1 , b2 . . . , bn ) sia nT il numero di Teste tra gli n esiti di ω, ed nC il numero di Croci, con nT + nC = n. Seguendo la ricetta generalizzata sar`a ! n n \ Y P ({ω}) = P [ek = bk ] = P ([ek = bk ]) = pnT (1 − p)n−nT . (3) k=1

k−1

` evidente che questa misura non `e equiprobabile, ma si noti che gli esiti ω con lo stesso E numero di Teste nT sono equiprobabili. In particolare, detto Ek l’evento ”k Teste negli n lanci”, gli eventi {Ek }nk=0 formano una partizione di Ω e, poich´e tutti gli esiti in Ek hanno la medesima probabilit` a (3) con nT = k,   n k k n−k P (Ek ) = |Ek | p (1 − p) = p (1 − p)n−k k Microesercizio. Dimostrare algebricamente che quest’identit` a.

44

Pn

k=0 P (Ek )

= 1 e spiegare perch´e vale

8.2

Il modello binomiale per eventi

Il paradigma degli n lanci di una moneta pu`o essere applicato in molti casi d’interesse pratico. Il modello probabilistico corrispondente viene a volte detto modello binomiale per eventi. Ogni volta che un contesto sperimentale prevede: (i.) un certo numero n ≥ 1 prove identiche effettuate in sequenza, (ii.) che i possibili esiti di ogni prova sono due, (a seconda del contesto sono detti {1, 0}, {T, C}, { successo, insuccesso }, {funziona, non funziona}, ecc.) e per comodit`a noi adotteremo la rappresentazione {1, 0}; (iii.) che per ogni k = 1, . . . n, il risultato della k-esima prova non influenza i risultati di nessun altra prova, `e possibile definire una misura di probabilit`a P sullo spazio campionario (Ω, F), i cui esiti sono le 2n sequenze di n risultati delle n prove, assumendo che (a.) gli eventi [ek = 1], successo alla prova k-esima, sono equiprobabili di probabilit`a p ∈ [0, 1], (b.) gli eventi { [ek = 1] }nk=1 sono indipendenti. Esempio. Un ISP (Internet Service Provider) dispone di 20 linee di accesso e vende 24 ` noto che (o si assume che) (a) la probabilit`a abbonamenti ADSL ad altrettanti utenti. E che, in un dato istante, l’utente i−esimo sia collegato `e p = 0.8 per ogni i = 1, 2, . . . 24, (b) le connessioni degli utenti sono indipendenti. Calcolare la probabilit`a che l’ISP vada in saturazione. Calcoli di questo tipo sono usati per decidere quanti abbonamenti vendere. Per i voli aerei c’`e la pratica commerciale dell’overbooking, che richiede gli stessi calcoli. Qui si pu` o applicare il modello binomiale per eventi. Le identificazioni sono le seguenti: (a) Le n = 24 prove ripetute sono: testare lo stato di connessione dei 24 abbonati (b) Gli esiti di ogni prova sono due {connesso, non connesso} (c) p = 0.8 L’evento ”ISP in saturazione” si verifica se 21, 22, 23 o 24 degli abbonati sono connessi contemporaneamente, quindi 24   X 24 P (”ISP in saturazione”) = 0.8k · 0.224−k k k=21

Il problema dell’overbooking `e il seguente. L’ufficio vendite dell’ISP propone contratti ai clienti garantendo che, con probabilit`a almeno 0.95, egli sar`a in grado di connettersi alla rete in ogni dato momento. Come si calcola il numero di abbonamenti che `e possibile vendere rispettando l’impegno contrattuale con il cliente? La soluzione del problema (che richiede un calcolatore e due righe di programma per essere calcolata) `e il massimo valore di M tale che M   X M 0.8k · 0.2M −k ≤ 0.05. k

k=21

45

8.3

Applicazioni dell’indipendenza III – analisi di affidabilit` a C l4

l5 0.8

0.9

D

B

l1

0.7 0.9

0.3

l6

l7

A

E 0.95 l3

0.75 l2 F

Il grafo rappresenta una piccola rete di calcolatori. I nodi sono i calcolatori, gli archi le connessioni fisiche tra calcolatori. Ogni arco ha due etichette: il nome e la probabilit`a di funzionamento della connessione. Potete pensare che le probabilit`a siano state ricavate come percentuale del tempo in cui la connessione fisica ha funzionato nell’ultimo mese o anno. Ci interessa calcolare la probabilit`a dell’evento E =”esiste una connessione tra A e B”. Per effettuare questo calcolo `e necessario costruire una misura di probabilit`a sul grafo. Per farlo utilizzeremo ancora una volta un’ipotesi di indipendenza tra certi eventi. Con modesto abuso di notazione denotiamo li =”la connessione i funziona” per i = 1, 2 . . . 7. ` L’ipotesi fondamentale `e che la famiglia di eventi {li , i = 1, . . . 7} sia indipendente. E evidente dalla topologia del grafo che l’evento E si pu`o scrivere come h i E = l1 ∩ [(l4 ∩ l5 ) ∪ (l6 ∩ l7 )] ∪ [l2 ∩ l3 ] Avendo assunto l’indipendenza di {li , i = 1, . . . 7} la probabilit`a di E `e certamente calcolabile, infatti E pu` o essere riscritto utilizzando solo intersezioni e complementazioni di eventi li . Questa via `e scomoda e non illuminante. Si pu`o invece effettuare il calcolo riducendosi all’analisi di due casi elementari. Connessione in serie. Si consideri il grafo C1

l1 p1

C2

l2 p2

C3

Sia Es =”esiste una connessione tra C1 e C3 ”. Chiaramente Es = l1 ∩ l2 , quindi P (Es ) = p1 p2 Connessione in parallelo. Si consideri il grafo

C1

l1 p1 p2 l2

46

C2

Sia Ep =”esiste una connessione tra C1 e C2 ”. Chiaramente Ep = l1 ∪ l2 , la connessione esiste se almeno una delle due connessioni esiste, quindi P (Ep ) = P (l1 ∪ l2 ) = 1 − P ((l1 ∪ l2 )c ) = 1 − P (l1c ∩ l2c ) = 1 − (1 − p1 )(1 − p2 ) Osservazione. La connessione in serie degrada l’affidabilit`a del collegamento poich´e p1 p2 ≤ min{p1 , p2 }, mentre la connessione in parallelo migliora l’affidabilit`a del collegamento poich´e 1 − (1 − p1 )(1 − p2 ) ≥ max{p1 , p2 } (dimostratelo!). Con questo principio si pu`o costruire una connessione ad alta affidabilit`a mettendo in parallelo un numero sufficiente di connessioni scadenti. Esercizio. Se metto in parallelo n canali di affidabilit`a p l’affidabilit`a della connessione `e 1 − (1 − p)n che, scegliendo n sufficientemente grande, pu`o essere portato tanto vicino ad 1 quanto si vuole. Calcolo dell’affidabilit`a della rete di calcolatori. Per il calcolo di P (E) analizziamo separatamente le sottoreti. La serie (l4 , l5 ) ha affidabilit`a 0.8·0.9 = 0.72 , la serie (l6 , l7 ) affidabilit`a 0.7 · 0.3 = 0.21. Il parallelo di queste due ha affidabilit`a 1 − (1 − 0.72)(1 − 0.21) ≈ 0.78 e mettendo in serie il collegamento l1 l’affidabilit`a diventa 0.9 · 0.78 = 0.7: questa `e l’affidabilit`a della sottorete (l1 , l4 , l5 , l6 , l7 ). La sottorete (l2 , l3 ) `e una serie di affidabilit`a 0.75 · 0.95 = 0.7125. La rete complessiva `e il parallelo delle sottoreti (l1 , l4 , l5 , l6 , l7 ) e (l2 , l3 ), quindi ricaviamo che P (E) = 1 − (1 − 0.7)(1 − 0.7125) = 0.91.

8.4

Estensioni

Formula della probabilit`a totale condizionata. La formula in questione `e P (E|G) = P (E|F ∩ G)P (F |G) + P (E|F c ∩ G)P (F c |G), dimostratela a partire dalla definizione di probabilit`a condizionata. Osservate che la formula della probabilit` a totale usuale corrisponde al caso G = Ω. Esercizio. (Charles Dodgson, alias Lewis Carroll) Nel cilindro di un mago c’`e un coniglio di colore non noto, ma equiprobabilmente Bianco o Nero. Inserisco un coniglio Bianco nel cilindro, mescolo bene, ed estraggo a caso uno dei due conigli. Il coniglio estratto `e Bianco. Tenendo conto del risultato dell’estrazione, qual `e la probabilit`a che il coniglio rimasto nel cilindro sia Bianco? Carroll scrive due soluzioni, la prima volutamente errata, ma ”convincente”, che fornisce soluzione 21 , la seconda corretta che fornisce 32 (conviene usare la formula della probabilit` a totale condizionata). Prima soluzione. Ho inserito un coniglio bianco ed ho estratto un coniglio bianco, quindi lo stato all’interno del cilindro non si `e modificato rispetto alla situazione iniziale. La probabilit`a che nell’urna sia rimasto un coniglio bianco `e uguale alla probabilit`a che inizialmente il coniglio fosse bianco ovvero 12 . Dov’`e l’errore? Qual `e la soluzione corretta? Esercizio. (versione generalizzata del precedente) Un’urna contiene n palline, in parte Bianche ed in parte Nere. Non sappiamo quante sono le Bianche, ma tutte le possibilit`a (Bianche, Nere) = (0, n), (1, n − 1), ..., (n, 0) sono equiprobabili. Inseriamo una pallina Bianca nell’urna, mescoliamo bene, ed estraiamo a caso una pallina che risulta essere Bianca. Qual `e, tenendo conto dell’informazione ottenuta dall’estrazione, la probabilit`a che tutte le palline nell’urna siano Bianche? 2 (soluzione n+2 ).

47

Appendice alla Lezione 8 Indipendenza condizionata e applicazioni (in preparazione – argomento non in programma nell’a.a. 2012-2013)

48

Lezione 9 9.1

(Mercoled`ı, 20 marzo 2013, ore 16:25-18:05)

Variabili aleatorie discrete

Spesso interessa estrarre, e sintetizzare in forma quantitativa, informazioni contenute negli esiti elementari dello spazio campionario Ω. Esempio 1. Sia Ω lo spazio che rappresenta le risposte fornite dagli studenti di Ingegneria dell’Informazione a un questionario. Sia ω = ( nome, cognome, et`a, anno di corso, numero di esami superati . . . ). Per una certa indagine anagrafica interessa l’et`a degli studenti. In questo caso, per estrarre da ω l’informazione d’interesse, si associa ad ogni ω ∈ Ω il numero E(ω) :=”terza coordinata di ω”. Esempio 2. Consideriamo lo spazio Ω che rappresenta gli esiti di n lanci di un moneta. Per comodit`a rappresentiamo gli esiti Croce e Testa con i bit 0 e 1 rispettivamente, quindi Ω = { (b1 , . . . bn ), bi ∈ {0, 1} } Ogni esito ω ∈ Ω contiene molte informazioni quantitative. Ad esempio, nella lezione 8 avevamo definito nT = nT (ω) il numero di Teste nella sequenza ω. In questo caso l’informazione o estrarre associando ad ogni ω = (b1 , b2 , . . . bn ) ∈ Ω il numero Pn nT (ω) la si pu` nT (ω) = k=1 bk . Dagli ω ∈ Ω si possono estrarre altre informazioni quantitative, ad esempio (a.) qual `e il bit relativo al k-esimo lancio per k = 1, . . . n? (b.) Qual `e il numero di Teste nei primi n2 lanci? (c.) Qual `e la differenza tra il numero di Teste e di Croci negli n lanci? ecc. ` evidente che ”estrarre informazione quantitativa da ω” corrisponde a ”definire una E funzione di ω a valori in R”, ed `e proprio quest’idea che formalizziamo nella seguente definizione. Definizione. Sia (Ω, P(Ω), P ) uno spazio di probabilit`a discreto. Ogni mappa X : Ω → R, `e detta variabile aleatoria (v.a.) discreta su Ω.

Ω ω X

X(ω)

R

Terminologia. L’immagine di X, ovvero il sottoinsieme del codominio R costituito dai valori assunti da X, in simboli X := X(Ω) = { x ∈ R | X(ω) = x per qualche ω ∈ Ω }, 49

viene talora detto alfabeto della v.a. X. Poich´e Ω `e discreto per ipotesi, ed X `e una funzione, anche X `e discreto, essendo in generale |X | = |X(Ω)| ≤ |Ω|. Si noti che, senza perdita di generalit`a, si pu`o sempre restringere il codominio di X da R ad X ⊂ R, in tal modo rendendo la v.a. X : Ω −→ X sempre suriettiva, ossia con codominio coincidente con l’insieme dei valori. Peraltro le variabili aleatorie iniettive, cio`e quelle che per ogni coppia di esiti ω1 6= ω2 prendono valori X(ω1 ) 6= X(ω2 ) non sono interessanti, trattandosi di mappe che si limitano a rietichettare gli elementi di Ω. Ad esempio per Ω := {C, T }, la variabile aleatoria X : Ω −→ {0, 1} definita come X(C) = 0, X(T ) = 1 `e iniettiva e semplicemente ribattezza gli esiti C → 0 e T → 1. Esempi di variabili aleatorie Esempio 1. Sia Ω := { (d1 , d2 ) | 1 ≤ d1 , d2 ≤ 6 }, lo spazio campionario degli esiti del lancio di due dadi distinti, uno Rosso ed uno Verde. Per fissare le idee, se ω = (d1 , d2 ), allora d1 `e la faccia uscita sul dado Rosso e d2 sul Verde. La mappa ω = (d1 , d2 ) 7→ X1 (ω) = d1 definisce la variabile aleatoria X1 , il cui valore indica la faccia uscita sul dado Rosso. L’alfabeto di X1 `e X1 = {1, 2, 3, 4, 5, 6}. La mappa ω = (d1 , d2 ) 7→ X2 (ω) = d2 definisce la variabile aleatoria X2 , il cui valore indica la faccia uscita sul dado Verde. L’alfabeto X2 = X1 . La mappa ω = (d1 , d2 ) 7→ W (ω) = min{d1 , d2 } definisce la variabile aleatoria W , il cui valore indica il minimo tra la faccia Rossa e quella Verde. L’alfabeto W = X1 . La mappa ω = (d1 , d2 ) 7→ Z(ω) = max{d1 , d2 } definisce la variabile aleatoria Z, il cui valore indica il massimo tra la faccia Rossa e quella Verde. L’alfabeto Z = X1 . La mappa ω = (d1 , d2 ) 7→ X(ω) = d1 + d2 definisce la variabile aleatoria X, il cui valore indica la somma delle facce Rossa e Verde. L’alfabeto di X `e X = {2, 3, 4, . . . , 12}. Esempio 2. Sia Ω = { (b1 , b2 , . . . bn ) | bi ∈ {0, 1} } e si considerino le seguenti mappe ω = (b1 , b2 . . . , bn ) 7→ Xk (ω) = bk ,

k = 1, 2 . . . n.

Le v.a. Xk , k = 1, . . . n, hanno alfabeto comune X = {0, 1} e, per ogni k, rappresentano l’esito del k-esimo lancio della moneta. Le variabili aleatorie sono mappe, si pu`o quindi operare con esse come si opera con le mappe. Ad esempio tra variabili aleatorie si possono definire le abituali operazioni di somma, differenza, prodotto e quoziente tra mappe. Esempi 1, 2 – segue. Con riferimento alle variabili aleatorie definite nell’Esempio 1, `e immediato verificare che X = X1 + X2 , inoltre W = min{X1 , X2 }, e Z = max{X1 , X2 }. Con riferimento all’Esempio 2, sullo stesso Ω `e definita la somma X=

n X k=1

50

Xk ,

che nel punto ω = (b1 , . . . , bn ), vale X(ω) = Teste presenti in ω.

Pn

k=1 Xk (ω)

=

Pn

k=1 bk ,

ossia il numero di

Osservazione sulla terminologia. Terminologia e notazione probabilistica sono sottosopra ` rispetto all’analisi matematica. In teoria della probabilit`a la mappa detta variabile aleatoria e denotata X, mentre in analisi matematica la mappa `e detta funzione e denotata f , mentre la variabile, tradizionamente denotata x, `e l’argomento della funzione. Si noti inoltre che la mappa X, bench´e sia detta variabile aleatoria non ha nulla di aleatorio, associando deterministicamente ad ogni ω ∈ Ω il valore X(ω). La variabile X `e detta aleatoria in riferimento all’incertezzza dei valori X(ω), incertezza ereditata da quella dell’esito ω ∈ Ω. Prima di effettuare l’esperimento ω `e incerto e quest’incertezza si trasferisce ai valori X(ω) di ogni variabile aleatoria X definita su Ω. Probabilizzare l’insieme dei valori X L’incertezza intrinseca sull’esito ω ∈ Ω comporta che i valori X(ω) assunti dalla v.a. X siano a loro volta incerti. Interessa quindi probabilizzare lo spazio campionario dei valori assunti da X, ovvero X . Naturalmente su X si possono definire infinite misure di probabilit` a, ma interessa costruirne una, diciamola P 0 , che sia compatibile con la misura P definita sul dominio Ω della v.a. X. Poich´e X `e discreto sar`a sufficiente assegnare P 0 sui singleton di X . Nel caso di alfabeto finito scriviamo X := { x1 , x2 , . . . , xN }, e quindi si deve assegnare P 0 ({xk }) per ogni k = 1, 2 . . . N . Avremo bisogno di alcuni risultati preliminari. Definizione. Per ogni B ⊂ X , si definisce l’antiimmagine di B X −1 (B) := { ω ∈ Ω | X(ω) ∈ B }. La figura qui sotto illustra l’antiimmagine di un singleton di X .

Ω X-1(x)

X

x

R

Le anti-immagini dei singleton di X formano una partizione di Ω come specificato dal seguente Lemma, la cui banale dimostrazione si basa sulla definizione di anti-immagine e sul fatto che X `e una mappa. Lemma. (a.) Se xh 6= xk allora X −1 ({xh }) ∩ X −1 ({xk }) = ∅.

51

(b.)

SN

k=1 X

−1

 {xk } = Ω.

Esiste dunque una corrispondenza biunivoca tra gli esiti xk ∈ X e gli eventi X −1 ({xk }) ∈ Ω (si veda anche la Figura successiva) ed `e naturale definire la misura P 0 assegnando  P 0 ({xk }) := P X −1 ({xk }) , k = 1, 2, . . . N. Notazione. Per l’evento X −1 ({xk }) useremo indifferentemente le notazioni { ω ∈ Ω | X(ω) = xk }, [X = xk ] e anche, pi` u sinteticamente, X = xk , specialmente come argomento della misura di probabilit` a. Scriveremo quindi indifferentemente  P ({ ω; X(ω) = xk }) = P X −1 ({xk }) = P ([X = xk ]) = P (X = xk ). Lemma. P 0 `e una misura di probabilit`a. Dimostrazione. definizione P 0 ({xk }) ≥ 0 per ogni k. Rimane solo da verificare che PN Per 0 la somma k=1 P ({xk }) = 1, ma questa `e un’immediata conseguenza del fatto che gli  N eventi X −1 ({xi }) k=1 formano una partizione di Ω. La misura P 0 `e detta misura indotta su X dalla variabile aleatoria X. Esempio. Consideriamo la v.a. Z definita nell’Esempio 1. La Figura mette in evidenza tutti gli eventi d’interesse.

1 2 3 4 5 6 6 5 4 3 2 1

Ω Z 1 2 3 4 5 6

Z

Supponendo che su Ω sia stata definita la misura P equiprobabile, la misura P 0 su Z = {1, 2, . . . , 6} `e (usiamo varie notazioni solo per esercizio)  1 P 0 ({1}) = P Z −1 ({1}) = P (Z = 1) = , 36  3 P 0 ({2}) = P Z −1 ({2}) = P (Z = 2) = , 36  5 0 −1 P ({3}) = P Z ({3}) = P (Z = 3) = , 36  7 P 0 ({4}) = P Z −1 ({4}) = P (Z = 4) = , 36  9 0 −1 P ({5}) = P Z ({5}) = P (Z = 5) = , 36  11 P 0 ({6}) = P Z −1 ({6}) = P (Z = 6) = . 36 52

Densit` a di probabilit` a discreta Definizione. Data la v.a. X a valori in X , la sequenza pX : X −→ [0, 1], xk 7→ pX (xk ) := P (X = xk ) = P 0 ({xk }), `e detta densit` a (o funzione di massa di probabilit`a) della variabile aleatoria X. Propriet`a. Poich´e P 0 `e una misura di probabilit`a, la densit`a di una v.a. discreta X `e una sequenza tale che (i.) pX (xk ) ≥ 0, per ogni xk ∈ X . X (ii.) pX (xk ) = 1.

(1) (2)

k

Osservazioni critiche sulla densit`a Si noti che le informazioni contenute nella densit`a pX sono tutte relative all’insieme dei valori X della v.a. X. Conoscere (oppure assegnare) la densit`a pX della v.a. X significa conoscere (oppure assegnare) l’alfabeto X , che `e il dominio di pX , e la misura di probabilit`a su X . La densit` a pX non conserva traccia n´e dello spazio di probabilit`a (ΩF, P ) su cui X `e definita, n´e tantomeno della forma funzionale di X.5 Data la densit` a pX di una v.a. X, si possono calcolare le probabilit`a degli eventi nello spazio dei valori X , X P 0 (B) = P (X ∈ B) = pX (xk ), per ogni B ⊂ X . k ; xk ∈X

Dal punto di vista delle applicazioni questa `e, quasi sempre, la sola informazione d’interesse sulla v.a. X, mentre la descrizione analitica della mappa X : Ω −→ R `e irrilevante. In virt` u della precedente osservazione `e naturale identificare tutte le variabili aleatorie che hanno la stessa densit` a. Bisogna per`o prestare la massima attenzione su questo punto, per evitare errori grossolani. Esempio 3 (v.a. diverse con la medesima densit`a). Si consideri il modello binomiale della Lezione 8, con n = 2 e parametro p ∈ [0, 1]. Allora Ω = {00, 01, 10, 11}, e P ({00}) = (1 − p)2 , P ({01}) = P ({10}) = p(1 − p), P ({11}) = p2 . Si considerino le due variabili aleatorie X1 e X2 , definite su Ω come nell’Esempio 1, e che rappresentano rispettivamente il risultato del primo e del secondo lancio. Le v.a. X1 e X2 hanno lo stesso alfabeto, X = X1 = X2 = {0, 1}. La densit`a di X1 `e  pX1 (1) = P X1−1 ({1}) = P ({10, 11}) = p(1 − p) + p2 = p, e poich´e gli elementi della densit` a sommano ad 1 pX1 (0) = 1 − p. 5

Al proposito `e interessante osservare che le propriet` a (1) e (2) caratterizzano le densit` a di probabilit` a, come dimostrato dal seguente Lemma. Lemma. Assegnato un insieme finito X ed una sequenza p(·) : X −→ [0, 1] tale che la mappa x 7→ p(x) soddisfa le propriet` a (1) e (2) esiste una variabile aleatoria X la cui densit` a pX (·) = p(·). Dimostrazione. Basta prendere (Ω, F, P ) = (X , P(F), P 0 ) dove P 0 ({x}) := p(x) per ogni x ∈ X e come variabile aleatoria la mappa identit` a X : X −→ X che associa x 7→ X(x) = x.

53

Analogamente, per pX2 (·), troviamo  pX2 (1) = P X2−1 ({1}) = P ({01, 11}) = p(1 − p) + p2 = p,

pX2 (0) = 1 − p.

Concludiamo che le v.a. X1 e X2 hanno la stessa densit`a, pX1 (·) = pX2 (·), quindi dal punto di vista probabilistico le due v.a. X1 ed X2 si possono considerare equivalenti. Ci`o non significa per` o che, in virt` u dell’equivalenza probabilistica, si possa scrivere X1 + X2 = 2X1 ,

STRAFALCIONE

Commette questo grossolano errore chi non ricorda che, dal punto di vista funzionale, X1 ed X2 sono mappe diverse, ad esempio X1 ((01)) = 0 6= X2 ((01)) = 1, quindi X1 + X2 6= 2X1 (vedi Figura). Microesercizio. Calcolare le mappe X1 + X2 e 2X1 per ogni ω ∈ Ω.

10

11

00

01

1 0 X1

9.2

10

11

00

01

1 0

X2

Famiglie di v.a. discrete notevoli

Dal punto di vista applicativo le variabili aleatorie sono quasi sempre specificate solo probabilisticamente, fornendone cio`e l’insieme dei valori (alfabeto) e i valori della densit`a. Ci`o `e dovuto al fatto che tipicamente queste sono le uniche informazioni a disposizione dello sperimentatore, ed `e quindi naturale considerare come probabilisticamente indistinguibili variabili aleatorie con lo stesso alfabeto X e la stessa densit`a di probabilit`a pX (·). Attenzione: Ci` o significa che, nelle applicazioni, non `e nota la funzione ω 7→ X(ω). Per ribadire quanto discusso nella precedente sezione, due v.a. con la stessa stessa densit`a non assumono necessariamente lo stesso valore in corrispondenza ad ogni ω: NON `e cio`e vero che X1 = X2 , ma solo che P (X1 = xk ) = P (X2 = xk ) per ogni xk ∈ X . Nel seguito considereremo tutte le v.a. con la stessa densit`a come formanti una famiglia di v.a. probabilisticamente equivalenti. Alcune di queste famiglie sono talmente ricorrenti nelle applicazioni da meritare un nome. (a.)

Bernoulli6

La v.a. X `e detta di Bernoulli di parametro p, e si denota X ∼ b(p), se essa ha albabeto X = {0, 1} e densit` a pX (1) = p, pX (0) = 1 − p. Esempio 1. Se X `e la v.a. che modella l’esito del lancio di una moneta con P (T ) = p, allora X ∼ b(p). Esempio 2. Se X `e la v.a. aleatoria che assume valore X = 1 se l’esito di un dado equilibrato `e un numero pari, e valore X = 0 se l’esito `e dispari, allora X ∼ b 12 . 6 Per ribadire una terza volta le precedenti osservazioni, a questo punto dovrebbe essere chiarissimo che le v.a. di Bernoulli b(p) costituiscono non una, ma infinite famiglie di v.a., una per ogni fissato p ∈ [0, 1].

54

Esempio 3. Se (Ω, F, P ) `e uno spazio di probabilit`a (non necessariamente discreto) ed E ∈ F un evento, la v.a. χE definita come  / E, χE (ω) = 0, se ω ∈ 1, se ω ∈ E `e una v.a. di Bernoulli, χE ∼ b (P (E)). La v.a. aleatoria χE `e detta funzione indicatrice dell’evento E. (b.)

Binomiali

La v.a. X `e detta di binomiale di parametri n e p, e si denota X ∼ Bin(n, p), se essa ha albabeto X = { 0, 1 . . . n } e densit` a   n k pX (k) = p (1 − p)n−k , k = 0, 1, . . . , n (3) k Esempio 4. Se X `e la v.a. che modella il numero di Teste su n lanci di una moneta di probabilit` a di Testa P (T ) = p, ed i lanci sono indipendenti come descritto nella Lezione 8, allora X ∼ Bin(n, p). P Esempio 5. Se Xk ∼ b(p), per k = 1, . . . n, ci aspettiamo che X := nk=1 Xk ∼ Bin(n, p), poich´e Xk si pu` o interpretare come risultato del k-esimo lancio di una moneta P (T ) = p, ed X `e il numero di Teste in n lanci. Questa interpretazione `e corretta solo sotto un’ipotesi d’indipendenza per le v.a. Xk che rifletta l’ipotesi d’indipendenza di certi eventi usata nella Lezione 8 per derivare la misura (3). Riprenderemo l’esempio pi` u avanti. (c.)

Uniformi

La v.a. X `e detta uniforme di alfabeto X , e si denota X ∼ U(X ), se essa ha albabeto X = { x1 , x2 , . . . xn } , di cardinalit`a finita, e densit`a uniforme pX (xk ) = N1 , per ogni k = 1, 2, . . . N .

55

Lezione 10 10.1

(Luned`ı, 25 marzo 2013, ore 10:30-12:15)

Funzione di distribuzione

Abbiamo visto nella Lezione 9 che la densit`a discreta pX (·) fornisce una descrizione probabilistica completa della variabile aleatoria X. In questa sezione introduciamo la funzione di distribuzione, uno strumento alternativo per la descrizione probabilistica di X, molto pi` u generale e flessibile della densit`a discreta. Definizione. Data la variabile aleatoria X : Ω −→ R, la funzione FX : R −→ R definita come FX (x) := P (X ≤ x) `e detta funzione di distribuzione (FdD) della v.a. X. Osservazioni sulla definizione. (a.) Nella definizione della funzione di distribuzione si fa riferimento alla probabilit`a P sul dominio (Ω, F, P ) della v.a. X. Rivediamo le varie forme di scrittura equivalente, introdotte in precedenza ed equivalenti tra loro, che si possono utilizzare per la definizione appena introdotta   FX (x) := P (X ≤ x) = P X −1 ( − ∞, x] = P ({ ω ∈ Ω | X(ω) ∈ (−∞, x] }) = P ({ ω ∈ Ω | X(ω) ≤ x }) (b.) Si noti che peraltro non `e necessario disporre della mappa X(ω) e della misura originale P . Per calcolare la funzione di distribuzione in ogni x ∈ R `e sufficiente disporre della densit` a discreta pX (·) della v.a. X. Infatti poich´e l’insieme dei valori X `e discreto, vale la seguente decomposizione disgiunta [ { ω ∈ Ω | X(ω) ∈ B } = { ω ∈ Ω | X(ω) = xk }, per ogni B ⊂ R xk ∈B

dove l’unione `e al pi` u numerabile, poich´e |{xk ∈ B}| ≤ X |. In particolare per B = (−∞, x] vale [ { ω ∈ Ω | X(ω) ∈ (−∞, x] } = { ω ∈ Ω | X(ω) = xk }, per ogni B ⊂ R xk ≤x

da cui segue l’espressione alternativa per la FdD FX (x) = P ({ ω ∈ Ω | X(ω) ∈ (−∞, x] }) X X = P ({ ω ∈ Ω | X(ω) = xk }) = pX (xk ) xk ≤x

xk ≤x

Quest’espressione dimostra che la funzione di distribuzione si pu`o ricavare a partire dalla densit`a. Esempio. Si consideri la variabile aleatoria X ad insieme di valori X = {−1, 0, 2, 3} e densit`a su X pX (−1) = 0.5,

pX (0) = 0.125, pX (2) = 0.25, pX (3) = 0.125. P Usando l’espressione FX (x) = xk ≤x pX (xk ) si traccia immediatamente il seguente grafico 56

FX (x) 1 6 .875 t

t

t

.625 t .5

-

-1

0

1

2

3

x

Si osservi che la funzione di distribuzione `e costante a tratti, con discontinuit`a di prima specie (salti: ovvero esistono finiti i limiti da sinistra e da destra) in corrispondenza dei valori assunti dalla variabile aleatoria (in figura i punti x = −1, 0, 2, 3). L’ampiezza dei salti coincide con il valore della densit`a nel punto di salto. Si noti inoltre che la funzione FX (x) `e nulla per x → −∞ ed `e 1 per x → ∞, ed `e continua a destra ovunque. Queste sono propriet` a generali della funzione di distribuzione che discuteremo in dettaglio qui sotto. Come ultima osservazione `e ovvio che a partire dalla conoscenza di FX (x) `e immediatamente possibile scrivere la densit`a di probabilit`a di X. Poich´e `e possibile passare da pX (·) ad FX (·) e viceversa le due descrizioni della v.a. X contengono la medesima informazione. Rappresentazione della FdD come somma di gradini traslati Sia 1l(x) il gradino unitario continuo a destra,  0, se x < 0, 1l(x) = 1, se x ≥ 0. Si riconosce immediatamente la validit`a della seguente rappresentazione della FdD come somma di gradini unitari traslati X X FX (x) = P (X ≤ x) = pX (xk ) = pX (xk )1l(x − xk ). (1) xk ≤x

xk ∈X

Nota bene. L’ultima somma si estende su tutti i possibili valori di xk ∈ X . Usando la regola per il calcolo delle derivate generalizzate si ottiene la funzione generalizzata X dF (x) fX (x) := = pX (xk )δ(x − xk ), (2) dx xk ∈X

dove δ(x) `e la delta di Dirac. La (2) `e una rappresentazione alternativa dell’informazione contenuta nella densit` a discreta pX (·) e vedremo a breve in quali contesti `e conveniente utilizzarla. Propriet`a della funzione di distribuzione (a.)

FX (−∞) := limx→−∞ FX (x) = 0.

Dimostrazione. Se |X | < ∞ esiste minimo x∗ ∈ X , e per ogni x < x∗ vale FX (x) = 0, da cui segue la propriet` a. (b.)

FX (∞) := limx→∞ FX (x) = 1.

Dimostrazione. Se |X | < ∞ esiste massimo x∗ ∈ X , e per ogni x > x∗ vale FX (x) = 1, da cui segue la propriet` a. 57

(c.) FX `e non decrescente: se u ≤ v allora FX (u) ≤ FX (v). ` una propriet` Dimostrazione. E a generale dell’anti-immagine che se A ⊂ B allora X −1 (A) ⊂ X −1 (B). Prendendo A = (−∞, u] e B = (−∞, v], e ricordando la monotonia della misura di probabilit` a, si conclude che FX (u) = P (X −1 (−∞, u]) ≤ P (X −1 (−∞, v]) = FX (v). (d.) P (u < X ≤ v) = FX (v) − FX (u), per ogni −∞ ≤ u < v < ∞. Dimostrazione. In generale X −1 (A ∪ B) = X −1 (A) ∪ X −1 (B). Per ogni u < v si consideri l’unione disgiunta (−∞, v] = (−∞, u] ∪ (u, v], quindi X −1 (−∞, v] = X −1 (−∞, u] ∪ X −1 (u, v], `e ancora unione disgiunta. Prendendo la P di entrambi i membri si conclude Questa propriet` a `e utile per la valutazione della probabilit`a di intervalli di valori di X. (d’.) P (u ≤ X ≤ v) = FX (v) − FX (u) + P (X = u) = FX (v) − FX (u−), per ogni −∞ < u ≤ v < ∞. (e.) FX `e continua a destra: lim↓0 FX (x + ) = FX (x), Dimostrazione. Nel caso |X | < ∞ si pu`o ricorrere alla rappresentazione (1). Essendo somma di un numero finito di funzioni continue a destra FX (·) `e continua a destra.

10.2

Valore atteso

Motivazione della definizione Interpretazione frequentista della funzione di massa di probabilit` a. Vogliamo modellare con una variabile aleatoria X il voto conseguito agli esami dallo studente Mario Rossi. Mario ha finora registrato i seguenti voti sul libretto: 21, 24, 21, 27, 27, 24, 27, 27, 27, 24, 24, 27. I voti registrati sono gli esiti di n = 12 ripetizioni dell’esperimento. Basandoci sulle n = 12 osservazioni, l’alfabeto della v.a. X `e X = {21, 24, 27}. La densit`a della v.a. X non `e nota a priori, ma adottando il punto di vista frequentista usiamo le osservazioni per assegnarla empiricamente. Denoteremo la densit`a empirica pbX (·). Ricordando che la probabilit`a empirica dell’evento E `e nnE , con i dati a disposizione la densit`a empirica `e: 2 n21 = , n 12 n24 4 pbX (24) = P ([X = 24]) = = , n 12 n27 6 = . pbX (27) = P ([X = 27]) = n 12 pbX (21) = P ([X = 21]) =

Il classico parametro riassuntivo dei voti di Mario `e la media aritmetica, che interpretiamo come valore intorno al quale varia il voto nelle diverse prove. La media aritmetica dei voti di Mario `e 21 + 24 + 21 + 27 + 27 + 24 + 27 + 27 + 27 + 24 + 24 + 27 2 · 21 + 4 · 24 + 6 · 27 = = 25, 12 12 ` interessante osservare che dove, per effettuare il calcolo, abbiamo raggruppato i voti. E questa formula si pu` o riscrivere in termini dei valori assunti dalla v.a. X, ovvero 21, 24, e 27 e dei valori della densit` a empirica, come X 2 4 6 xi pbX (xi ) = 21 + 24 + 27 = 25. 12 12 12 i

Questa espressione alternativa della media aritmetica dei valori osservati ispirer`a la definizione del pi` u importante parametro riassuntivo del comportamento di una variabile aleatoria: il valore atteso. 58

Valore atteso: definizione e teorema fondamentale ` un ”parametro riassuntivo” del comportamento di una v.a. La terminologia `e molto E varia: valore atteso, valore medio, media, aspettazione, speranza matematica. Definizione. E(X) :=

X

xk pX (xk ).

xk ∈X

Attenzione. Se l’alfabeto X `e finito il valore atteso `e una somma finita quindi esiste sempre. Se |X | = ∞ il valore atteso, definito come somma di una serie, non sempre esiste. Esercizio obbligatorio. Utilizzare la densit`a generalizzata fX (x) definita in (2) per riscrivere il valore atteso come Z ∞ X xfX (x) dx E(X) = xk pX (xk ) = −∞

xk ∈X

Esempi Esempio 1. Sia X = χE , la funzione indicatrice di E ⊂ Ω. Allora E(χE ) = P (E). Esempio 2. Sia X ∼ b(p) allora E(X) = 0 · (1 − p) + 1 · p = p. P P Esempio 3. Sia X ∼ U({x1 , x2 , . . . xN }) allora E(X) = ni=1 xi N1 = N1 ni=1 xi . Questo esempio mostra che il valore atteso `e la generalizzazione della media aritmetica al caso di v.a. non uniformi. 2 3

Esempio 4. Sia X una v.a. con X = {1, 3, 9} con pX (1) = E(X) = 1 · 32 + 3 · 61 + 9 · 16 . Teorema fondamentale. E(X) =

pX (3) = 16 , pX (9) = 16 . Allora

P

ω∈Ω X(ω)P ({ω}).

Dimostrazione. E(X) :=

X

xk pX (xk )

k

=

X

xk P (X = xk ) =

k

=

=

X

k

ω

X

xk

k

X

X

X

xk P ({ω}) =

X(ω)=xk

P ({ω})

ω

X(ω)=xk

X

X

k

ω

X(ω)P ({ω})

X(ω)=xk

X(ω)P ({ω})

ω∈Ω

Questo risultato `e molto importante dal punto di vista teorico - vedi ad esempio la dimostrazione della linearit` a del valore atteso qui sotto. Come strumento di calcolo `e utile solo nelle (rare) occasioni in cui si dispone dello spazio Ω e della mappa X : Ω → R. Normalmente si dispone solo di X e della densit`a pX o della FdD FX . Valore atteso: propriet`a di linearit`a Omogeneit` a. Per ogni a ∈ R vale E(aX) = a E(X). Addittivit` a. Per ogni coppia di v.a. X, Y vale E(X + Y ) = E(X) P + E(Y ). Questa `e un’immediata conseguenza P Pdel teorema fondamentale. E(X +Y ) = ω (X(ω)+Y (ω))P ({ω}) = X(ω)P ({ω}) + ω ω Y (ω)P ({ω}). 59

Quando omegeneit` a ed addittivit` a valgono entrambe allora si parla di di linearit`a. Il valore atteso `e lineare. L’estensione a pi` u di due v.a. `e immediata. Si ha che ! n n X X at E(Xt ) E at Xt = t=1

t=1

Osservazione sulle v.a. costanti. Ogni numero reale b ∈ R pu`o essere interpretato come una v.a. costante (degenere) ovvero come mappa ω 7→ X(ω) = b per ogni ω ∈ Ω. L’alfabeto `e {b}, la densit` a `e p(b) = 1 e la funzione di distribuzione F (x) = 1l(x − b). Il valore atteso `e chiaramente E(b) = b. La propriet`a di linearit`a vista sopra continua quindi a valere quando una delle v.a. `e una costante. Esempio. Se Y = aX + b allora E(Y ) = aE(X) + b. Esempio. Se X ∼ b(0.5) ed Y = 2X − 1 allora E(Y ) = 0. Valore atteso: ulteriori propriet`a (a.) Positivit`a. Se XP`e una v.a. positiva (cio`e X ⊂ R+ ) allora E(X) ≥ 0. La dimostrazione `e banale: E(X) = i xi pX (xi ) ≥ 0 se tutti gli xi ≥ 0. (b.) Monotonia. Se X ≤ Y (cio`e X(ω) ≤ Y (ω) per ogni ω ∈ Ω), allora E(X) ≤ E(Y P `e immediata ricorrendo al teorema fondamentale: E(X) = P ). La dimostrazione X(ω)P ({ω}) ≤ ω∈Ω Y (ω)P ({ω}). Esempio. Se X rappresenta il numero di lanci ω∈Ω di una moneta fino ad ottenere la prima Testa, ed Y il numero di lanci fino ad ottenere la seconda Testa, allora X < Y ed E(X) < E(Y ). Vedremo in seguito come si calcolano questi valori attesi. (c.) Limite inferiore e superiore. mink {xk } ≤ E(X) ≤ maxk {xk }. Dimostrazione immediata: X X X E(X) = xk pX (xk ) ≤ max{xk }pX (xk ) = max{xk } pX (xk ) = max{xk }; k

k

k

k

k

k

analoga dimostrazione per il limite inferiore. Interpretazione meccanica del valore atteso Si consideri una distribuzione di N masse (m1 , m2 , . . . mN ) sull’asse reale, dislocate rispettivamente nei punti (x1 , x2 , . . . xN ). m1

m2

x1

x2

t

t

m3

m4

x3

x4

t

6

t

-

a Per determinare il baricentro a si impone che la risultante delle coppie sia nulla, il che fornisce la seguente equazione per a N X (xk − a)mk = 0 k=1

da cui si ricava

PN

i=k a= P N

xk mk

k=1 mk

.

Si consideri ora una v.a. di alfabeto X = {x1 , . . . xN } e densit`a pX (x1 ), . . . pX (x PN ). Identificando le masse mi con i valori pX (xk ) `e evidente che il valore atteso E(X) = xk pX (xk ) coincide con il baricentro del sistema di N masse pX (xk ), dislocate nei punti P xk . L’unica peculiarit` a del caso probabilistico `e che la massa totale `e sempre pari a k mk = 1 kg. 60

Lezione 11 11.1

(Marted`ı, 26 marzo 2013, ore 16:25-18:05)

Funzioni di una variabile aleatoria

Le variabili aleatorie sono mappe, si pu`o quindi operare con esse come si opera con le mappe. In particolare, se X : Ω → R `e una variabile aleatoria e g : R → R una funzione reale di variabile reale, si pu` o definire la mappa composta Y := g ◦ X, Y := g ◦ X : Ω → R,

ω 7→ Y (ω) := g(X(ω))

che `e a sua volta una variabile aleatoria. Sia Y l’alfabeto della v.a. Y . Poich´e Ω `e discreto e |Y| = |g(X )| ≤ |X | ≤ |Ω|, si conclude che anche Y `e una v.a. discreta. Il problema fondamentale nello studio delle funzioni di v.a. `e la determinazione della densit`a pY (·) indotta, a partire dai dati pX (·) e g. Esempi Negli Esempi 1 e 2 la v.a. X `e completamente nota come mappa X : Ω −→ R, l’Esempio 3 si riferisce al caso, molto pi` u frequente, in cui della v.a. X `e solo nota la densit`a pX (·). Esempio 1. Sia Ω := {00, 01, 10, 11} lo spazio campionario di 2 lanci di una moneta. Per ω = (b1 , b2 ) sia X(ω) = b1 + b2 , ovvero X rappresenta il numero di Teste in 2 lanci. Sia inoltre g : R −→ R la funzione x 7→ g(x) = x2 . Allora Y := g(X) `e la v.a. ω 7→ Y (ω) := g(X(ω)) = X(ω)2 . Si veda la Figura qui sotto. Si noti in particolare che l’alfabeto X = {0, 1, 2} viene mappato in Y = {0, 1, 4}. Questo `e un esempio banale poich´e la mappa g : X −→ Y `e iniettiva. Se ad esempio nello spazio (Ω, F, P ) la misura P `e equiprobabile allora X ∼ Bin(2, 0.5) con pX (0) = 0.25, pX (1) = 0.5 e pX (2) = 0.25, e poich´e g `e iniettiva `e evidente dalla Figura che la misura indotta su Y `e pY (0) = pX (0) = 0.25, pY (1) = pX (1) = 0.5 e pY (4) = pX (2) = 0.25 (nonostante g sia iniettiva, la v.a. Y non `e binomiale – perch´e?)

g

X Ω

R

11 10 01 00

R 2

4

1

1

0

0

X

Ω

Y R

Y=g(X)=X2 Esempio 2. Sia Ω come sopra e per ω = (b1 , b2 ) sia X(ω) = 2(b1 + b2 ) − 1. Sia inoltre g : R −→ R la funzione x 7→ g(x) = x2 . Allora Y := g(X) `e la v.a. ω 7→ Y (ω) := g(X(ω)) = X(ω)2 . Si veda la Figura seguente. Si noti in particolare che l’alfabeto X = {−1, 1, 3} viene mappato in Y = {1, 9}. In questo esempio la mappa g : X −→ Y non `e iniettiva. Se 61

nello spazio (Ω, F, P ) la misura P `e equiprobabile, inducendo P su X si trova la densit`a della v.a. X che vale pX (−1) = 0.25, pX (1) = 0.5 e pX (3) = 0.25. Inducendo la misura da X a Y si trova poi la densit` a di Y , che vale pY (1) = pX (−1) + pX (1) = 0.25 + 0.50 = 0.75, e pY (9) = pX (3) = 0.25.

g

X Ω

R

11

R 3

9

01

1

1

00

-1

10

Y X

Ω

R

Y=g(X)=X2 Esempio 3. Sia X = {−1, 0, 1} ed X ∼ U(X ) una v.a. uniforme, ovvero con pX (−1) = pX (0) = pX (1) = 31 . Sia inoltre g(x) = x2 , come nei precedenti esempi. La variabile 2 aleatoria Y = X 2 ha alfabeto Y = {0, 1}, inoltre pY (1) = pX (−1)+p X (1) = 3 e ovviamente  1 2 pY (0) = pX (0) = 3 = 1 − pY (1). Si noti che la v.a. Y ∼ b 3 .

1

1

0

0

-1

X

Y Y=g(X)=X2

Formula generale per la densit`a di Y = g(X) La densit` a indotta pY (·) si ricava in generale facendo uso della decomposizione disgiunta [ [Y = y` ] = [X = xk ]. k

g(xk )=y`

La formula generale si scrive pY (y` ) = P (Y = y` ) =

X

pX (xk ),

k

g(xk )=y`

62

per ogni y` ∈ Y.

Valore atteso di funzioni di una variabile aleatoria Y = g(X) Se Y = g(X) il valore atteso di Y si pu`o calcolare in vari modi. Il seguente teorema, nella sostanza equivalente al teorema fondamentale del valore atteso della Lezione 10, `e di fondamentale importanza nelle applicazioni. Teorema. E(Y ) =

X

y` pY (y` ) =

y` ∈Y

X

g(xk ) pX (xk ).

xk ∈X

Dimostrazione. E(Y ) :=

X

y` pY (y` ) =

`



 =

X `

 X pX (xk ) =

 X y`  

`

k

=

g(xk )pX (xk )

k

g(xk )=y`

g(xk )=y`

X

X

g(xk )pX (xk ).

k

P Questo teorema `e formalmente identico al teorema fondamentale E(X) = ω X(ω)P ({ω}). In entrambi i casi si tratta di calcolare il valore atteso usando la misura sullo spazio di partenza invece di quella sullo spazio di arrivo della funzione. A differenza del teorema fondamentale, il teorema appena dimostrato `e utilissimo in pratica poich´e consente il calcolo di valori attesi di funzioni di v.a. senza obbligare al calcolo preliminare della densit`a pY (y` ). Esempio 4. Siano X ed Y come nell’Esempio 3 qui sopra. Il valore atteso E(Y ) `e E(Y ) =

X

y` pY (y` ) = 0 · pY (0) + 1 · pY (1) = 0 ·

y` ∈Y

E(Y ) = E(X 2 ) =

X

1 2 2 +1· = 3 3 3

x2k pX (xk ) = (−1)2 · pX (−1) + 02 · pX (0) + 12 · pX (1) =

xk ∈X

2 3

Micro-esercizio. Spiegare perch´e in generale il valore atteso di una funzione di variabile aleatoria Y = g(X) si pu` o calcolare anche nei seguenti modi. X E(Y ) = Y (ω)P ({ω}) ω∈Ω

=

X

g(X(ω))P ({ω})

ω∈Ω

Attenzione. Attenzione. Attenzione. In generale E(g(X)) 6= g(E(X)), ad esempio in generale E(X 2 ) 6= [E(X)]2 , ed analoga1 mente E( X1 ) 6= E(X) . Nel caso speciale g(X) = aX + b vale invece E(g(X)) = g(E(X)), ovvero E(aX + b) = aE(X) + b, manifestazione della linearit`a del valore atteso. Qui sotto consideriamo un altro caso speciale in cui esiste una relazione ben definita tra E(g(X)) e g(E(X)).

63

Teorema (disuguaglianza di Jensen). Se g `e una funzione convessa allora g(E(X)) ≤ E(g(X)). Pn Dimostrazione. Ricordiamo che la funzione g ` e convessa se e solo se g ( k=1 αk xk ) ≤ Pn k=1 αk g(xk ), per ogni n e per ogni n-pla (α1 , . . . αn ) di coefficienti nonnegativi che sommano ad 1. Allora, prendendo n = |X | e αk = pX (xk ) si ha ! X X g(xk )pX (xk ) = E(g(X)). g(E(X)) = g xk pX (xk ) ≤ k

k

Due utili corollari (a.)

|E(X)| ≤ E(|X|),

infatti g(x) = |x| `e convessa.

Applicazione. Se |X | = ∞, condizione sufficiente per l’esistenza di E(X) `e che E(|X|) < ∞ (b.)

11.2

[E(X)]2 ≤ E(X 2 ),

infatti g(x) = x2 `e convessa. La rivedremo presto.

Varianza

Motivazione della definizione Si considerino due studenti, i cui voti sono rispettivamente descritti dalle v.a. X con X = {18, 24, 30}, e pX uniforme, Y con Y = {23, 24, 25}, e pY uniforme. ` immediato verificare che E E(X) = E(Y ) = 24, le v.a. X ed Y hanno lo stesso ”valore atteso”, ma i due studenti sono innegabilmente tipi umani assai diversi: X `e genio e sregolatezza, Y aurea mediocritas. Matematicamente questa differenza si riflette nella diversa variabilit`a dei valori delle v.a. X ed Y attorno al valore atteso. Ci proponiamo di trovare un parametro riassuntivo che fornisca un’indicazione della variabilit` a dei valori assunti da una v.a. intorno al valore atteso. Ecco alcuni esempi di indici numerici che si potrebbero adottare. P (a) k (xk − E(X)): si sommano gli scarti tra i possibili valori e il valore atteso. Questo non va bene perch´e non tiene in conto le diverse probabilit`a dei valori xi . P (b) k (xk − E(X))pX (xk ): questo tiene in conto le probabilit`a dei valori, ma `e facile verificare che `e sempre nullo. Usando l’analogia meccanica: la somma dei momenti calcolati rispetto al baricentro `e nulla. P (c) k |xk − E(X)|pX (xk ) questo va bene, gli scarti sono tutti positivi e si sommano. Si potrebbe usare come misura della variabilit`a, ma ha il difetto di essere matematicamente poco trattabile per via del valore assoluto, che `e un funzione non derivabile nell’origine. P (d) k (xk − E(X))2 pX (xk ) pesa le probabilit`a, conta tutti gli scarti positivamente ed `e matematicamente trattabile. Questo `e il parametro che useremo, e lo chiameremo varianza della v.a. X. Se, nell’interpretazione meccanica, il valore atteso `e il baricentro della distribuzione di massa pX (xk ), la varianza ne `e il momento d’inerzia per le rotazioni intorno al baricentro.

64

Varianza: definizione, esempi di calcolo, propriet`a Definizione. La varianza della v.a. X `e   X var(X) := (xk − E(X))2 pX (xk ) = E (X − E(X))2 k

Attenzione: anche la varianza, come il valore atteso, non sempre esiste se la v.a. X ha alfabeto di cardinalit` a infinita.  P Micro-esercizio. Convincersi della validit`a dell’identit`a k (xk −E(X))2 pX (xk ) = E (X −  E(X))2 . Esempio: Sia X ∼ b(p) allora var(X) = p(1 − p) Infatti E(X) = p, quindi var(X) = (0 − p)2 (1 − p) + (1 − p)2 p = p2 (1 − p) + (1 − p)2 p = p(1 − p) Propriet`a della varianza (a.) var(X) ≥ 0 con uguaglianza se e solo se X = b (v.a. costante). P Dimostrazione. Dalla definizione var(X) = i (xi −E(X))2 pX (xi ) `e una somma di termini non-negativi. Se var(X) = 0 allora (xi − E(X))2 = 0 per ogni xi con pX (xi ) > 0. Se, senza perdita di generalit` a, assumiamo che pX (xi ) > 0 per ogni xi ∈ X concludiamo che xi = E(X) per ogni xi ∈ X , cio`e X `e una v.a. costante. Nota bene. Scrivere varianze negative `e peccato mortale che non andr`a impunito. (b.) var(aX) = a2 var(X), per ogni a ∈ R.     Dimostrazione. var(aX) = E (aX − E(aX))2 = E a2 (X − E(X))2 = a2 var(X). Un’immediata conseguenza di questa propriet`a `e che var(−X) = var(X). Pensate all’interpretazione meccanica. (c.) var(X + c) = var(X). Questa si dimostra immediatamente algebricamente, ma ancora una volta, `e l’interpretazione meccanica che ci fa veramente capire perch´e deve essere cos`ı. Se si traslano tutte le masse della stessa costante c cambia il baricentro, ma non il momento d’inerzia. Probabilisticamente: cambia il valore atteso ma non la varianza. (d.) var(X) = E(X 2 ) − [E(X)]2 . Utilissima per i calcoli. Facile da dimostrare per via algebrica, ma ri-convincetevi di tutti i passaggi visti a lezione! var(X) = E((X − E(X))2 ) = E(X 2 − 2XE(X) + (E(X))2 ) = E(X 2 ) − [E(X)]2 . Combinandola con la propriet` a (a.) si trova la disuguaglianza E(X 2 ) ≥ [E(X)]2 , che avevamo gi` a visto come esempio di disuguaglianza di Jensen. Esercizi Esercizio 1. Soluzione del Monty Hall Esercizio 2 (proposto). Avete tre monete a disposizione. La moneta 1 ha due Teste, la moneta 2 `e regolare, la moneta 3 ha due Croci. Scegliete una moneta a caso, la lanciate ed osservate Testa. Data questa informazione, qual `e la probabilit`a che l’altra faccia sia Testa? Nota Bene. Si verifichi che l’impostazione ed i conti sono identici a quelli del Monty Hall. 65

Lezione 12

(Mercoled`ı, 27 marzo 2013, ore 16:25-18:05)

La lezione `e dedicata a due variabili aleatorie discrete notevoli, il cui alfabeto ha cardinalit`a infinita.

12.1

Variabile aleatoria geometrica

Abbiamo analizzato in precedenza lo schema binomiale per eventi consistente in una sequenza di n ≥ 1 prove binarie (esito in {0, 1} = {insuccesso, successo} ecc.), indipendenti, con probabilit` a di successo p ∈ [0, 1] costante nelle n prove. In questo contesto, il numero di successi nelle n prove `e modellabile con una variabile aleatoria, diciamola X, di tipo binomiale, X ∼ Bin(n, p). Uno schema simile a quello binomiale per eventi prevede prove binarie, ripetute, indipendenti, con probabilit` a di successo p ∈ [0, 1] costante nelle varie prove. Il numero di prove non `e fissato a priori, e l’esperimento prosegue fino all’osservazione del primo successo (la prima Testa, il primo 1 ecc.). Sia X la variabile aleatoria che rappresenta il numero di prove necessarie per ottenere il primo successo. L’alfabeto di X `e X = {1, 2, . . . } = N. La densit` a discreta di X si ricava osservando che l’evento [X = k] :=”primo successo alla k-esima prova”, corrisponde ad ottenere k − 1 insuccessi nelle prime k − 1 prove e successo alla k-esima prova, quindi pX (k) = P (CC . . . C} T ) = (1 − p)k−1 p, | {z

k ∈ N.

(1)

k−1

Definizione. La v.a. X `e detta geometrica di parametro p ∈ (0, 1], e si denota X ∼ G(p), se essa ha alfabeto N e densit` a discreta (1). ` istruttivo verificare che (1) `e una densit`a discreta. I valori pX (k) sono tutti non-negativi, E inoltre ∞ X

pX (k) =

∞ X

(1 − p)k−1 p

k=1 ∞ X

k=1

= p

(1 − p)k−1 = p

k=1

=

∞ X (1 − p)k k=0

p = 1. 1 − (1 − p)

Si noti che poich´e P (X < ∞) =

∞ X

P (X = k),

k=1

la condizione di normalizzazione ad 1 della densit`a equivale al fatto che la probabilit`a di ottenere il primo successo in un numero finito di lanci `e pari ad 1. Osservazione sui casi limite. Si noti che la serie geometrica converge per |1 − p| < 1, che si traduce nel vincolo 0 < p < 2 ma, essendo p una probabilit`a, il vincolo `e 0 < p ≤ 1. Intuitivamente se p = 0 non si verifica mai Testa, quindi la v.a. X non `e ben definita (si potrebbe assegnare X = +∞ con probabilit`a 1, ma avere variabili aleatorie a valori nella retta reale estesa crea pi` u problemi di quanti ne risolva). Il caso p = 1 corrisponde invece ad una v.a. degenere costante, X = 1 con probabilit`a 1. In questo caso infatti si ottiene sempre Testa al primo lancio. La densit`a della v.a. X ∼ G(1) `e pX (k) = δ(k − 1).

66

Probabilit`a di attesa lunga. Nelle applicazioni `e interessante conoscere la probabilit`a di dover attendere per pi` u di k lanci il primo successo. P (X > k) =

∞ X

pX (i) =

i=k+1

∞ X

(1 − p)i−1 p

i=k+1

= p(1 − p)k

∞ X

(1 − p)i

i=0 k

= (1 − p)

(2)

Esempio 1. La probabilit` a di superare l’esame di Splancnologia `e p = 0.4. Qual `e la probabilit` a di dover ripetere l’esame pi` u di 2 volte per superarlo? Soluzione. Bisogna aggiungere un po’ di ipotesi per poter rispondere a questa domanda. In particolare supporremo che la probabilit`a di superare l’esame sia p = 0.4 ad ogni tentativo, inoltre assumeremo che gli esiti dell’esame in appelli diversi siano indipendenti. Sotto queste ipotesi possiamo modellare il numero di prove fino al superamento dell’esame con una v.a. X ∼ G(0.4). Usando la formula (2) P (X > 2) = (1 − 0.4)2 . Si sarebbe anche potuto svolgere il calcolo direttamente ottenendo P (X > 2) = 1−P (X ≤ 2) = 1−P (X = 1)−P (X = 2) = 1−0.4−0.4(1−0.4) = (1−0.4)2 . Esempio 2. Nel gioco del lotto un’estrazione consiste nell’estrarre, senza reinserimento, 5 palline da un’urna che contiene 90 palline numerate da 1 a 90. La giocata pi` u semplice `e l’ambata, ovvero si punta del denaro sull’uscita di un numero specifico, ad esempio il (1)(89) 5 1 = 18 . Sia 53. La probabilit` a che ad ogni estrazione esca il numero giocato `e 1 90 4 = 90 (5) X il numero di estrazioni che `e necessario attendere fino ad ottenere per la prima volta l’uscita delnumero giocato. Sono soddisfatte tutte le condizioni della definizione, quindi 1 X ∼ G 18 . Nota bene: il risultato `e valido anche se ad ogni estrazione si gioca un numero diverso, purch´e sempre solo un numero, ad ogni estrazione (perch´e?). Funzione di distribuzione. A partire dall’espressione (2) si pu`o ricavare, in forma chiusa, la funzione di distribuzione di X. Per k ∈ Z si ha che  0, se k < 1, FX (k) = P (X ≤ k) = 1 − (1 − p)k , se k ≥ 1. Ricordando che la funzione di distribuzione di una variabile aleatoria discreta `e costante a tratti, per ogni x ∈ R vale  0, se x < 0, FX (x) = bxc 1 − (1 − p) , se x ≥ 0,

Valore atteso di una v.a. geometrica. Se X ∼ G(p) allora E(X) =

∞ X

kpX (k) =

k=1

∞ X

k(1 − p)k−1 p = p

k=1

∞ X

k(1 − p)k−1 =

k=0

Analogamente si trova che var(X) = 67

1−p . p2

p 1 = . 2 (1 − (1 − p)) p

Il valore atteso l’abbiamo calcolato a lezione. Per la varianza abbiamo impostato i calcoli a lezione, si veda la nota in appendice per i dettagli. ` molto intuitivo che se una moneta ha probabilit`a di Testa P (T ) = p il valore Nota. E 1 atteso del numero di lanci per ottenere Testa per la prima volta sia p1 . Se P (T ) = 100 in media la si deve lanciare 100 volte per ottenere la prima Testa. Versione alternativa della v.a. geometrica A volte le v.a. geometriche sono definite in modo lievemente diverso. Sia X 0 la v.a. aleatoria che rappresenta il numero di insuccessi prima del primo successo. Chiaramente X 0 = X − 1, quindi X 0 = {0, 1, . . . }, mentre la densit`a vale pX 0 (k) = (1 − p)k p, infatti X 0 = k significa k insuccessi nelle prime k prove e successo alla k + 1-esima. Naturalmente 0 E(X 0 ) = E(X) − 1 = 1−p p , mentre var(X ) = var(X).

12.2

Variabile aleatoria di Poisson

A lezione abbiamo dedicato un po’ di tempo a rivedere la definizione della funzione esponenziale e a ricavarne lo sviluppo in serie di Taylor, giustificando le seguenti identit`a ex := lim



n→∞

1+

∞ X x n xk = . n k! k=0

Il metodo sporco e veloce per capire questa identit`a `e di sviluppare 

n   x n X n  x  k = 1+ k n n k=0

n k



e poi di calcolare, per k fissato, limn→∞

 x k n

=

xk k! .

Definizione. La v.a. Y `e detta Poisson di parametro λ > 0, e si denota Y ∼ P(λ), se Y ha alfabeto Y = N0 := {0, 1, 2, . . . } e densit`a discreta pY (k) = e−λ

λk , k!

per ogni k ≥ 0

` immediato verificare che pY (k) > 0 per ogni k ≥ 0 e che E ∞ X k=0

pY (k) =

∞ X k=0



e

−λ

X λk λk = e−λ = 1, k! k! k=0

il che dimostra che la densit` a `e valida. Derivazione della densit`a di Poisson come limite di una densit`a binomiale Il motivo per cui le v.a. di Poisson sono di grande interesse applicativo `e che, sotto opportune condizioni, esse consentono di approssimare molto bene il comportamento di variabili aleatorie binomiali. Non ci preoccuperemo per ora di valutare quale sia la bont`a dell’approssimazione. Sia Xn ∼ Bin(n, nλ ).7 Conviene introdurre il simbolo   λ Bin n, (k) := pXn (k) n 7

Ad esempio se W ∼ Bin(800, 0.005) allora W `e interpretabile come una v.a. Xn con n = 800 e λ = 4.

68

che mette in evidenza sia i parametri della binomiale, che il punto k dove si valuta la densit`a. Allora `e     k    n λ λ n−k λ (k) = 1− Bin n, n k n n n n! λk 1 − nλ = k!(n − k)! nk 1 − λ k n n n(n − 1) . . . (n − k + 1) λk 1 − nλ = k! 1 − λ k nk n

 Fissato un valore di k ∈ {0, 1, . . . n} calcoliamo ora il limite limn→∞ Bin n, nλ (k). Osservando che     n(n − 1) . . . (n − k + 1) λ k λ n lim = 1, lim 1 − = 1, lim 1 − = e−λ , n→∞ n→∞ n→∞ n n nk si trova immediatamente che   λk λ (k) = e−λ lim Bin n, = P(λ)(k), n→∞ n k! Volendo a tutti i costi dare un’interpretazione probabilistica al precedente risultato puramente analitico si pu` o procedere come segue. Sia, per n molto grande, Xn ∼ Bin(n, nλ ) ed Y ∼ P(λ) (si notino i legami tra i parametri n, p, e λ). Allora per ogni k ≥ 0 sar`a P (Xn = k) ≈ P (Y = k). Questa interpretazione `e meno naturale del risultato analitico. Dal punto di vista pratico se si vuole approssimare una densit`a Bin(n, p) con una P(λ) devono essere rispettati i seguenti vincoli n  1,

p  1,

λ = np

L’approssimazione `e buona se λ `e dell’ordine di qualche unit`a e fino a λ ≈ 30, ma non `e questo il contesto per discutere della bont`a dell’approssimazione. Il vantaggio nell’uso della densit` a di Poisson, rispetto a quella binomiale, consiste nell’evitare calcoli di coefficienti binomiali con n elevato che sono complessi da effettuare. Media e varianza di v.a. Y ∼ P(λ). Poich´e, per n → ∞, la densit`a di una v.a. Xn ∼ Bin(n, nλ ) tende a quella di una v.a. Y ∼ P(λ) un’azzardatissima intuizione vuole che, se le densit` a sono vicine, i valori attesi siano vicini e che quindi λ =λ n→∞ n→∞ n   λ λ var(Y ) = lim var(Xn ) = lim n 1− =λ n→∞ n→∞ n n E(Y ) =

lim E(Xn ) = lim n

Pi` u avanti potremo rapidissimamente verificare la correttezza di quest’intuizione calcolando media e varianza di Y ∼ P(λ) a partire dalle trasformata di Fourier discreta della densit`a di Poisson pY (·). Il conto diretto richiede la verifica delle somme delle serie E(Y ) =

∞ X k=0

kpY (k) =

∞ X

ke−λ

k=0

var(X) = E(X 2 ) − [E(X)]2 =

λk = λ, k!

∞ X k=0

69

k 2 e−λ

λk − [E(X)]2 = λ. k!

Uso pratico dell’approssimazione di Poisson alla binomiale. Nella pratica si incontrano spesso situazioni sperimentali modellabili con variabili aleatorie binomiali. Il paradigma `e quello delle prove binarie, ripetute, indipendenti, con probabilit`a di successo costante nelle diverse prove. Il numero, tra le 12:00:00 e le 12:01:00 di domani, di accessi al sito unipd.it, di telefonate in arrivo al DEI, di tamponamenti a Padova, di nati in Europa, di morti in Europa, ecc. sono tutti modellabili come variabili aleatorie binomiali. I parametri n e p di queste variabili aleatorie non sono misurabili direttamente, ma `e ragionevole supporre che siano noti i valori attesi8 . Ci sono allora i presupposti per l’uso dell’approssimazione di Poisson. Se X ∼ Bin(n, p) ed `e nota la media E(X) = λX , poich´e E(X) = λX = np, si ricava p = nλ . Si tratta allora di stabilire per quali valori di n  e λ `e ragionevole approssimare la densit`a binomiale Bin n, nλ con la Poisson P(λ). Regola pratica. In generale l’approssimazione `e buona se n `e grande e p = nλ `e piccolo. Ad esempio, se n ≥ 100 per λ dell’ordine di alcune unit`a l’approssimazione `e molto buona. Regole pi` u precise sono disponibili in letteratura. Esercizio. Al sito web unipd.it si collegano in media 10 persone al minuto. Qual `e la probabilit` a che, nel prossimo minuto, ci sia almeno un visitatore?  Soluzione. La v.a. X ∼ Bin n, 10 si pu`o approssimare con una v.a. di Poisson Y ∼ n P(10) quindi P (X ≥ 1) ≈ P (Y ≥ 1) = 1 − P (Y = 0) = 1 − e−10 . Attenzione all’unit` a di tempo. Quando si impiega l’approssimazione di Poisson `e fondamentale prestare attenzione all’unit`a di tempo. Esercizio. Il sensore di un certo rivelatore di particelle `e colpito in media da 2 particelle al secondo. Qual `e la probabilit` a che nei prossimi 5 secondi sia colpito al pi` u da 3 particelle? Soluzione. L’idea sottostante `e che, indipendentemente una dall’altra, un numero n, grande e non noto, di particelle possono colpire il sensore ad ogni secondo, la proba` importante solo conoscere il bilit`a pn che una di esse lo colpisca `e non nota e bassa. E numero medio di particelle che colpiscono il sensore. In questo caso la domanda si riferisce a quello che avverr` a in un intervallo di 5 secondi, durante il quale il numero medio di particelle che colpisce in sensore `e 2 · 5 = 10. La variabile aleatoria che modella il numero di particelle cheP colpisce il sensore nei prossimi 5 secondo `e allora Y ∼ P(10). La risposta  1000 `e: P (Y ≤ 3) = 3k=0 P (Y = k) = e−10 1 + 10 + 100 . 2 + 6

8

Qui assumiamo che i valori attesi siano noti, ma stime empiriche degli stessi sono facili da ottenere. Ad esempio, sia X ∼ Bin(n, p) la v.a. che modella il numero di accessi al sito unipd.it. Per stimare E(X) si osservano x1 , x2 . . . x100 , il numero P100di accessi al sito, tra le 12:00 e le 12:01, per 100 giorni consecutivi. 1 e lo stimatore empirico di E(X). In generale, disponendo di n La media aritmetica m bP X := 100 i=1 xi ` osservazioni, m b X := n1 n x ≈ E(X), e l’approssimazione migliora al crescere di n. Riprenderemo pi` u i i=1 avanti lo studio delle propriet` a dello stimatore empirico.

70

Appendice alla Lezione 12 Richiami sulle serie di potenze e applicazioni A12.1

Richiami sulle serie di potenze

Illustriamo il calcolo diretto del valore atteso e della varianza per le v.a. geometriche. Un breve richiamo sulle serie di potenze fornir`a gli strumenti di calcolo. Le serie di potenze sono state trattate nel corso di Analisi II. Mi limito a ricordare il seguente risultato. Se la serie di potenze f (x) :=

∞ X

ak xk

k=0

ha intervallo di convergenza |x| < R, con R > 0, la sua derivata esiste, `e una serie di potenze, ha lo stesso intervallo di convergenza, e si pu` o calcolare derivando la serie termine a termine: ∞ X f 0 (x) = kak xk−1 . k=0

Iterando il precedente risultato, una serie di potenze che converge per |x| < R, con R > 0, `e di classe C ∞ nell’intervallo di convergenza e la sua derivata n-esima vale f (n) (x) =

∞ X

k(k − 1) . . . (k − n + 1)ak xk−n .

k=0

In questa serie i termini con k = 0, 1, . . . , n − 1 sono tutti nulli. Il coefficiente an di f (x) `e la derivate n-esima di f (x) valtata nell’origine, infatti ponendo x = 0 nell’ultima formula si trova f (n) (0) , an = n! ovvero: la serie di potenze, nell’intervallo di convergenza, coincide con la serie di Taylor9 della sua somma f (x). La piu’ semplice serie di potenze `e la serie geometrica ∞ X k=0

xk =

1 1−x

per |x| < 1.

(1)

1 Si osservi che, bench´e la funzione 1−x abbia dominio R \ {1}, la serie geometrica la rappresenta solo nell’intervallo (−1, 1). Il calcolo della derivata termine a termine fornisce, per |x| < 1, ∞ X 1 1 d kxk−1 = = . (2) dx 1 − x (1 − x)2 k=0

Per la derivata seconda si ottiene ∞ X k=0

k(k − 1)xk−2 =

1 2 d2 = . dx2 1 − x (1 − x)3

(3)

Attenzione: anche se f ∈ C ∞ in un intorno dell’origine, f non `e necessariamente sviluppabile in serie −2 di Taylor. Esempio: f (x) = e−x ∈ C ∞ , ma f (n) (0) = 0 per ogni n, quindi gli an sono tutti nulli e la serie di potenze corrispondente ha raggio di convergenza R = 0. 9

71

A12.2

Media della v.a. geometrica

Se X ∼ G(p) con p ∈ (0, 1), la densit`a di probabilit`a discreta `e pX (k) = (1 − p)k−1 p, k = 1, 2, . . . La media si calcola utilizzando la (2) E(X) =

∞ X

kpX (k) =

k−1

k(1 − p)

p=p

k=1

k=1

A12.3

∞ X

∞ X

k(1 − p)k−1 =

k=0

1 p = (1 − (1 − p))2 p

(4)

Varianza della v.a. geometrica

Per calcolare la varianza usiamo la formula var(X) = EX 2 − [EX]2 . Calcoliamo il primo addendo ∞ ∞ X X E(X 2 ) = k 2 pX (k) = p k 2 (1 − p)k−1 (5) k=1

k=1

k2 ,

Questa serie `e simile alla (3), per via del ma bisogna massaggiarla un po’ per calcolarne la somma. Il termine k-esimo in (3) ha la forma k(k − 1)xk−2 mentre qui abbiamo k 2 (1 − p)k−1 , che scriviamo (1 − p)k 2 (1 − p)k−2 . La costante (1 − p) non `e un problema perch`e esce dalla somma. Per aggiustare il termine polinomiale si osservi che k 2 = k(k − 1) + k, il che suggerisce di calcolare come segue  E(X 2 ) = E X(X − 1) + E(X) (6) Ora `e possibile usare la (3) per il primo addendo: ∞ ∞ X X  k(k − 1)(1 − p)k−2 k(k − 1)(1 − p)k−1 p = p(1 − p) E X(X − 1) = k=0

k=1

=

2p(1 − p) 2(1 − p) = . 3 (1 − (1 − p)) p2

Si noti che nella prima somma il coefficiente corrispondente a k = 1 `e nullo, mentre nella seconda sono nulli i coefficienti per k = 0 e k = 1, quindi le due somme coincidono ed `e la seconda che si calcola immediatemente usando con la (3). Dalla (6) si ottiene  2(1 − p) 1 2−p + = . E(X 2 ) = E X(X − 1) + E(X) = p2 p p2 In conclusione la varianza della geometrica vale 2 2 − p 1 1−p var(X) = E(X 2 ) − E(X) = − 2 = . 2 p p p2

72

Lezione 13 13.1

(Luned`ı, 8 aprile 2013, ore 10:30-12:15)

Esercizi

Ripassone sulle variabili aleatorie Adattato da: M. Bramanti, Calcolo delle Probabilit` a e Statistica: Teoria ed esercizi, Progetto Leonardo, Bologna, 2000. Il libro era diretto agli allievi del vecchio Diploma in Ingegneria. Contiene solo parte degli argomenti di Analisi dei Dati ma lo consiglio ugualmente, per la scelta degli argomenti trattati, la chiarezza espositiva e la ricchezza degli esempi.

Esercizio. Ad un casello transitano in media 200 veicoli all’ora, di cui in media 2 sono T.I.R. (a.) Qual `e il tipo di variabile aleatoria da utilizzare per calcolare la probabilit`a che su 100 veicoli in transito esattamente 5 siano T.I.R.? Calcolare questa probabilit`a. Soluzione. Possiamo pensare al transito di un veicolo come ad un esperimento in cui il 2 successo `e il transito di un T.I.R. ed ha probabilit`a p = 100 = 0.01. La v.a. adatta a descrivere il problema in questione `e una v.a. X ∼ Bin(n, p) con n = 100 e p = 0.01. La probabilit` a cercata `e quindi     n 5 100 pX (5) = p (1 − p)95 = (0.01)5 (0.99)95 ≈ 0.0029. 5 5

(b.) Con che tipo di variabile aleatoria si pu`o approssimare la variabile aleatoria in (a.)? Ricalcolare la probabilit` a che 5 veicoli su 100 siano T.I.R. usando l’approssimazione. Soluzione. Quando n  1 ed np `e dell’ordine delle unit`a la densit`a binomiale Bin(n, p) si pu`o approssimare con la densit` a di Poisson P(λ), di parametro λ = np. In questo caso siamo, pi` u o meno, nella zona di buona approssimazione. Verifichiamo: Bin(100, 0.01)(5) ≈ P(1)(5) = e−1

15 15 = e−1 ≈ 0.0031. 5! 5!

(c.) Qual `e la variabile aleatoria da utilizzare per calcolare la probabilit`a che il prossimo T.I.R. sia il 100-esimo veicolo che passa? Calcolare la probabilit`a in questione. Calcolare anche la probabilit` a che il prossimo T.I.R. non passi prima del 100-esimo veicolo in transito. ` come chiedere qual `e la probabilit`a che, lanciando una moneta con probabilit`a Soluzione. E di Testa p = 0.01, la prima Testa si verifichi al 100-esimo lancio. In questo caso si deve utilizzare una v.a. geometrica Z ∼ G(p) di parametro p = 0.01. Le probabilit`a richieste sono allora P (Z = 100) = pZ (100) = p(1 − p)99 = 0.01(0.99)99 ≈ 0.0037; e ricordando la probabilit` a delle attese lunghe per una geometrica P (Z ≥ 100) = P (Z > 99) = (1 − p)99 = 0.9999 ≈ 0.37.

73

(d.) Qual `e la variabile aleatoria da utilizzare per calcolare la probabilit`a che il secondo T.I.R. sia esattamente il 100-esimo veicolo che passa? Calcolare la probabilit`a in questione. Soluzione. Cominciamo con il determinare la v.a. da utilizzare. Ragionando con il paradigma dei lanci indipendenti di una moneta con probabilit`a di Testa p, ci chiediamo qual `e la densit`a della v.a. Y :=” lancio al quale si verifica la seconda Testa”. Tenendo conto che al k-esimo lancio deve verificarsi il secondo successo, la probabilit`a cercata `e data dalla somma di tutte le probabilit` a di avere esattamente un successo nei primi k − 1 lanci e successo al k−esimo lancio. Queste probabilit`a sono in totale k − 1, potendosi verificare il primo successo al lancio 1, 2, . . . k − 1 e sono tutte uguali, quindi pY (k) = P (Y = k) = (k − 1)p2 (1 − p)k−2 La risposta alla domanda `e quindi P (Y = 100) = 99(1 − p)98 p2 = 99 · (0.99)98 · (0.01)2 ≈ 0.003697. (e.) Qual `e il numero atteso di T.I.R. su 100 veicoli in transito? Soluzione. La risposta si ottiene considerando il valore atteso della v.a. X del punto (a.), ovvero E(X) = np = 100 · 0.01 = 1. In alternativa, molto banalmente, il dato iniziale del testo indica che l’1% dei veicoli sono T.I.R., quindi su 100 veicoli mediamente 1 sar`a un T.I.R. (f.) Qual `e il numero atteso di veicoli in transito fino al passaggio di un T.I.R.? Soluzione. La risposta `e data dal valore atteso della v.a. Z del punto (c.) e quindi E(Z) = 1/p = 1/0.01 = 100. (g.) Qual `e il numero di veicoli in transito necessari affinch´e la probabilit`a di osservare almeno un T.I.R. sia maggiore di 0.5? Soluzione. Il numero di T.I.R. osservati su n veicoli in transito `e una v.a. binomiale W ∼ Bin(n, p) con p = 0.01 ed n che va determinato in modo da soddisfare il vicolo imposto dal testo della domanda. La probabilit`a di osservare almeno un T.I.R. `e P (W ≥ 1) = 1 − P (X = 0) = 1 − 0.99n ed il vincolo `e che P (W ≥ 1) > 0.5, da cui .99n < 0.5 ovvero n ln(.99) < ln(0.5) e quindi n > 68.968. Dovendo essere n un intero, il numero di veicoli necessari sar`a almeno 69. Esercizio classico del coupon collector Volete fare la raccolta delle figurine Panini. La raccolta completa consiste di n figurine. Ogni mattina, andando a scuola, vi fermate in edicola e comprate una bustina di figurine. Facciamo le seguenti ipotesi semplificative. In ogni bustina c’`e una figurina. La Panini distribuisce le figurine in modo casuale nelle bustine – a quest’ipotesi io non credo molto. Quando avevo sui 10 anni, Pizzaballa, il portiere dell’Atalanta, era assolutamente introvabile. Quante bustine `e necessario comprare in media per completare la collezione? Soluzione. Con la prima bustina acquistata otteniamo la prima figurina della nostra collezione. Si ponga T1 = 1. Indichiamo con T2 la v.a. che rappresenta quante bustine `e necessario acquistare per trovare una figurina distinta dalla prima (la seconda figurina della mia collezione). Poich´e mi mancano n−1 figurine e ce ne sono n in commercio la probabilit`  a n−1 n−1 di successo (trovare una figurina che mi manca) `e p2 = n , quindi T2 ∼ G n . In 74

generale, se ho gi` a i − 1 figurine distinte nella mia collezione ed indico con Ti il numero di bustine daacquistare  per trovare una figurina distinta dalle i − 1 in mio possesso, n−(i−1) allora Ti ∼ G . Il numero totale di bustine da acquistare per completare la mia n collezione `e T := T1 + T2 + · · · + Tn Per il calcolo del valore atteso di T si usa la linearit`a E(T ) = E(T1 ) + E(T2 ) + E(T3 ) · · · + E(Tn−1 ) + E(Tn ) n n n n n = + + + ··· + + n n − 1 n − 2 2  1 1 1 1 1 = n 1 + + + ··· + + 2 3 n−1 n ≈ n ln(n) P di grandezza finale si ottiene con una rozza approssimazione di Riemann nk=1 k1 ≈ RL’ordine n 1 1 x dx = log n. Ad esempio, se la collezione completa consiste di n = 100 figurine, in media si devono comprare approssimativamente 100 ln 100 ≈ 460 bustine, se ogni bustina contiene 1 figurina.

13.2

Disuguaglianze fondamentali per il valore atteso

Teorema (disuguaglianza di Markov). Se X `e una v.a. non-negativa, per ogni a > 0 P (X ≥ a) ≤

E(X) a

Dimostrazione. Se X ≥ 0 allora E(X) =

X

xi pX (xi )

i

=

X

xi pX (xi ) +



xi pX (xi )

i;xi ≥a

i;xi 36). 1 Abbiamo visto che X ∼ G 18 , quindi E(X) = 18. Usando la disuguaglianza di Markov  E(X) 18 1 1 36 P (X > 36) ≤ 36 = 36 = 2 . Il calcolo esatto fornisce P (X > 36) = 1 − 18 ≈ 0.127. La morale `e che la disuguaglianza non fornisce un’approssimazione particolarmente buona della probabilit` a desiderata, ma solo un limite superiore.  Esempio 2. Sia X ∼ Bin(n, p). Si vuole calcolare un limite superiore alla P X ≥ n2 . Poich´e E(X) = np l’applicazione della disuguaglianza di Markov fornisce  n  E(X) ≤ n = 2p P X≥ 2 2 75

Si supponga ad esempio che X ∼ Bin(100, 0.7), allora la disuguaglianza di Markov fornisce P (X ≥ 50) ≤

100 · 0.7) 100 2

= 2 · 0.7 = 1.4

Non era necessario scomodare il luminare russo. A volte la disuguaglianza di Markov fornisce limiti superiori inutili. Allora a che serve ? Esempio 3. (In negozio) ”La vita media dichiarata dal costruttore di queste lampadine `e di 8.000 ore, ma in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del doppio.” Perch´e non vi conviene acquistare nulla in questo negozio? La disuguaglianza di Markov dice che il venditore `e, quanto meno, un millantatore infatti detta X la v.a. che rappresenta la vita media di una lampadina `e noto che E(X) = 8.000, ma allora E(X) 8.000 1 = = 16.000 16.000 2 l’affermazione ”in media almeno il 75% dei nostri clienti ci dice che esse durano pi` u del doppio” `e quindi una millanteria. Ecco la forza della disuguaglianza di Markov! Della v.a. X nulla `e noto se non il valore atteso, pure `e stato possibile determinare un limite superiore alla probabilit` a dell’evento d’interesse. P (X ≥ 16.000) ≤

Pubblicit`a. La disuguaglianza di Markov si pu`o ricavare, in modo alternativo, a partire da alcuni risultati sulle variabili aleatorie positive che quest’anno non avremo il tempo di vedere. I curiosi possono consultare l’appendice alla lezione (non in programma). Teorema (disuguaglianza di Chebyshev). Per ogni v.a. X, e per ogni  > 0,   var(X) P |X − E(X)| ≥  ≤ 2 h i h i Dimostrazione. Si noti che |X − E(X)| ≥  = |X − E(X)|2 ≥ 2 . Poich´e la v.a. |X − E(X)|2 `e positiva si pu` o applicare la disuguaglianza di Markov che fornisce     P |X − E(X)| ≥  = P |X − E(X)|2 ≥ 2   E |X − E(X)|2 var(X) ≤ = 2  2 Forma alternativa della disuguaglianza di Chebyshev.   var(X) P |X − E(X)| <  ≥ 1 − 2 Esempio Si effettuano 100 lanci indipendenti di una moneta con P (T ) = 0.5. Sia X la v.a. che conta il numero di Teste su 100 lanci. Determinare un limite inferiore alla probabilit`a dell’evento [41 ≤ X ≤ 59]. Usando la versione alternativa della disuguaglianza di Chebyshev 25 3 P (41 ≤ X ≤ 59) = P (|X − 50| < 10) ≥ 1 − = 100 4 dove abbiamo ricordato che per la v.a. X ∼ Bin(100, 0.5) vale E(X) = np = 100 12 = 50 e var(X) = np(1 − p) = 100 21 1 − 12 = 25. In questo caso l’espressione esatta della probabilit` a `e  49  X 100 1 P (41 ≤ X ≤ 59) = . k 2100 k=41

76

13.3

Motivazione all’introduzione delle densit` a congiunte

Varianza della somma di due v.a. Date due v.a. X ed Y , definite sullo stesso spazio di probabilit`a, si consideri la v.a. Z = X + Y . Vogliamo calcolare la varianza di Z. Cominciamo con il calcolo algebrico, usando la linearit` a del valore atteso.   var(X + Y ) = E (X + Y − E(X + Y ))2   = E (X − E(X) + Y − E(Y ))2       = E (X − E(X))2 + E (Y − E(Y ))2 + 2E (X − E(X))(Y − E(Y ))   = var(X) + var(Y ) + 2E (X − E(X))(Y − E(Y )) Il termine misto `e, come vedremo, molto interessante e merita un nome. Definizione. La covarianza delle v.a. X ed Y `e   cov(X, Y ) := E (X − E(X))(Y − E(Y ) Propriet`a della covarianza. (a.) cov(X, X) = var(X) (b.) cov(X, Y ) = E(XY ) − E(X)E(Y ). Immediato ed analogo a var(X) = E(X 2 ) − [E(X)]2 . (c.) A seconda della relazione tra le v.a. X ed Y la covarianza pu`o assumere qualunque valore in R. Ad esempio, per Y = −X si ha cov(X, −X) = −var(X) < 0, per Y = b, costante, cov(X, b) = E(Xb) − E(X)E(b) = 0 Calcolo della covarianza. Come si calcola cov(X, Y )? Dall’espressione cov(X, Y ) = E(XY )− E(X)E(Y ) si capisce che la difficolt`a consiste nel calcolo di E(XY ). A tal fine conoscere le densit`a di probabilit` a di X e di Y non `e sufficiente. In effetti se X = xi ed Y = yj il prodotto XY = xi yj , ma P (XY = xi yj ) non `e calcolabile sulla base di pX e pY . Una scappatoia `e usare il teorema fondamentale, trasportando il calcolo sullo spazio campionario: X E(XY ) = X(ω)Y (ω)P ({ω}). ω∈Ω

Ottimo! Ma solo quando si conoscono Ω, la misura P e le mappe X(ω) ed Y (ω). Purtroppo solo raramente si dispone di tutte queste informazioni. Esempio. Consideriamo un caso molto semplice: X ed Y entrambe v.a. b(p), quindi pX (1) = pY (1) = p. Come abbiamo gi`a visto, esistono infiniti spazi di probabilit`a (Ω, F, P ), e variabili aleatorie X(ω) ed Y (ω) compatibili con il fatto che X ed Y siano entrambe b(p). Peraltro, in questo caso, il prodotto XY pu`o assumere solo due valori: 0, se X = 0 o Y = 0 , e 1 se X = Y = 1. Il valore atteso si pu`o quindi calcolare come    E(XY ) = 0 · P [X = 0] ∪ [Y = 0] + 1 · P [X = 1] ∩ [Y = 1] = P [X = 1] ∩ [Y = 1] A partire da pX (1) := P ([X = 1]) = p e pY (1) := P ([Y = 1]) = p non `e possibile calcolare P [X = 1] ∩ [Y = 1] , poich´e, in generale, gli eventi [X = 1] ed [Y = 1] non sono indipendenti. Per calcolare agevolmente la covarianza, e per molto altro ancora, `e necessario estendere la nozione di densit` a discreta di probabilit`a, che per ora abbiamo definito sullo spazio dei valori di una singola v.a., allo spazio dei valori di una coppia di v.a. (X, Y ). 77

Appendice alla Lezione 13 Disuguaglianza di Markov A13.1

Valore atteso e variabili aleatorie non-negative

Teorema. Sia X `e una v.a. a valori non-negativi, ovvero tale che X ⊂ R+ allora Z ∞ E(X) = [1 − FX (x)] dx 0

Dimostrazione. Ricordo che la funzione di distribuzione si pu`o scrivere X FX (x) = pX (xi )1l(x − xi ), i

quindi Z



∞h

Z [1 − FX (x)] dx =

1−

X

0

0

i ∞X

Z =

i pX (xi )1l(x − xi ) dx

0

  pX (xi ) 1 − 1l(x − xi ) dx

i

Z

∞

 1 − 1l(x − xi ) dx

=

X i

0

=

X

pX (xi )xi = E(X)

pX (xi )

i

Domanda a bruciapelo: perch´e la v.a. X deve essere positiva affinch´e questa dimostrazione funzioni? Interpretazione grafica del teorema. Il valore atteso E(X) `e l’area tratteggiata in figura. FX (x) 6 t

1 t

t -

x1

x2

x3

x

Caso particolare: v.a. a valori in N. Se X = N ∪ {0}, il valore atteso si pu`o calcolare come E(X) =

∞ X

P (X > k)

k=0

Dimostrazione. Per il teorema precedente E(X) `e l’area compresa tra la funzione di distribuzione e la costante 1. Se la v.a. assume valori nell’insieme dei numeri naturali quest’area si pu` o calcolare come E(X) =

∞ X

1 · (1 − FX (k)) =

k=0

∞ X k=0

78

P (X > k)

La figura qui sotto dimostra graficamente il teorema. Si osservi che il risultato continua a valere se pX (k) = 0 per qualche (anche infiniti) k ∈ N. In figura pX `e nulla per k = 0, 5, 6, 7, 8 e per ogni k ≥ 10. FX (x) 6 t

1 t

t

t

t

-

1

2

3

4

5

6

7

8

9

10

x

Esempio. Media di una v.a. geometrica X ∼ G(p). Abbiamo visto all’inizio della lezione che, per X ∼ G(p) `e P (X > k) = (1 − p)k . Allora E(X) =

∞ X

P (X > k) =

k=0

A13.2

∞ X

(1 − p)k =

k=0

1 1 = 1 − (1 − p) p

Disuguaglianza di Markov.

Teorema. Se X `e una v.a. non-negativa, per ogni a > 0 P (X ≥ a) ≤

E(X) a

Dimostrazione. Poich´e P (X ≥ a) = 1 − FX (a− ) `e sufficiente dimostrare che E(X) ≥ a (1 − FX (a− )) Ma questa disuguaglianza `e ovvia. Vedi figura qui sotto. Se a non `e uno dei valori della v.a. allora FX (a) = FX (a− ). La figura qui sotto rappresenta questo caso. Se invece a `e uno dei valori della v.a. allora a `e un punto di salto ed FX (a− ) = FX (a) − pX (a). La disuguaglianza continua a valere: tracciate la corrispondente figura. FX (x) 6 t

1 t

1 FX (a)

t -

x1

a

x2

x3

79

x

Lezione 14 14.1

(Marted`ı, 9 aprile 2013, ore 16:25-18:05)

Vettori aleatori discreti

Nel tentativo di calcolare la varianza della somma di due variabili aleatorie, X ed Y , ci siamo imbattuti nel problema del calcolo del valore atteso E(XY ), che non `e possibile portare a termine conoscendo solo le densit`a pX (·) e pY (·). In questo, come in altri problemi pratici, `e utile disporre di una descrizione pi` u completa del comportamento di due, o pi` u, variabili aleatorie. Allo scopo `e necessario estendere la nozione di variabile aleatoria al caso in cui l’insieme dei valori anzich´e R `e R2 o, pi` u in generale, Rn .10 Definizione ed esempi Definizione. La mappa V : Ω → R2 `e detta vettore aleatorio bidimensionale. Pi` u in n generale V : Ω → R `e detto vettore aleatorio n-dimensionale. Le componenti del vettore aleatorio   X1 (ω) ω 7→ V (ω) :=  . . .  Xn (ω) sono n variabili aleatorie, ognuna con proprio alfabeto Xi , e densit`a di probabilit`a pXi (·). La notazione che adotteremo usualmente per i vettori bidimensionali `e   X1 (ω) ω 7→ V (ω) := Y (ω) Consideriamo per lo pi` u vettori bidimensionali, poich´e il caso n-dimensionale `e un’estensione banale del caso bidimensionale, a parte alcune questioni marginali che saranno segnalate. Insieme di valori del vettore aleatorio. In generale se X = {x1 , x2 , . . . } e Y = {y1 , y2 , . . . } sono gli alfabeti di X ed Y rispettivamente, l’alfabeto di V = (X, Y )> `e V ⊂ X × Y, dove in generale l’inclusione `e stretta. Esempio 1. Sullo spazio campionario Ω degli esiti del lancio di due dadi, uno Rosso ed uno Nero, sia (X, Y ) il vettore aleatorio con X l’esito del dado Rosso, ed Y il minimo dei due esiti. In questo caso X = Y = {1, 2, 3, 4, 5, 6} e, bench´e (1, 3) ∈ X × Y, il vettore (X(ω), Y (ω)) 6= (1, 3) per ogni ω ∈ Ω. In effetti V = { (i, j) ; 1 ≤ j ≤ i ≤ 6 }. Probabilizzare l’insieme dei valori del vettore aleatorio. Procedendo come per le variabili aleatorie si osserva che, anche se l’applicazione ω 7→ V (ω) = (X(ω), Y (ω)) non `e in generale invertibile, esiste una corrispondenza biunivoca tra gli elementi (xi , yj ) ∈ X × Y e le loro anti-immagini V (−1) (ω) = X (−1) (xi ) ∩ Y (−1) (yj ) (xi , yj ) ←→ X (−1) (xi ) ∩ Y (−1) (yj ) ed `e quindi naturale assegnare   P 0 ({(xi , yj )}) := P X (−1) (xi ) ∩ Y (−1) (yj ) 10

Non `e per il gusto dell’astrazione matematica che interessa generalizzare ai vettori quanto visto per le variabili aleatorie. Al contrario, nella pratica ingegneristica lavorare con vettori aleatori `e la prassi. Quando si progetta un esperimento, l’acquisizione dati rappresenta spesso solo una piccola frazione del costo complessivo, si tende quindi a misurare anche centinaia di variabili, rimandando alle analisi successive la distinzione tra variabili rilevanti per la comprensione dei fenomeni d’interesse e variabili ridondanti.

80

Notazione. Per indicare l’evento { ω; X(ω) = xi e Y (ω) = yj }, a seconda del contesto, e senza ulteriori spiegazioni, scriveremo indifferentemente X (−1) (xi ) ∩ Y (−1) (yj ), [X = xi ] ∩ [Y = yj ], [X = xi , Y = yj ] e anche, pi` u sinteticamente, X = xi , Y = yj , specialmente come argomento della misura di probabilit`a. Scriveremo quindi indifferentemente   P ({ ω; X(ω) = xi e Y (ω) = yj }) = P X (−1) (xi ) ∩ Y (−1) (yj ) = P ([X = xi ] ∩ [Y = yj ]) = P (X = xi , Y = yj ). Definizione. Per il vettore aleatorio (X, Y ) pXY (xi , yj ) := P 0 ({(xi , yj )}) = P (X = xi , Y = yj ),

(xi , yj ) ∈ X × Y.

`e detta funzione di densit` a discreta del vettore (X, Y ), o anche densit` a congiunta delle variabili aleatorie X e Y . Nota Bene. Se (xi , yj ) non `e uno dei valori assunti dal vettore (X, Y ), l’anti-immagine X (−1) (xi ) ∩ Y (−1) (yj ) = ∅, quindi automaticamente pXY (xi , yj ) = 0. Quando si fanno conti su casi specifici `e per` o importante individuare l’insieme dei valori V di (X, Y ), come nell’esempio qui sotto. Esempio 1 - continuazione. Proseguendo l’esempio 1, si calcola immediatamente (vedi appunti) la densit` a del vettore V = (X, Y ), dove X `e il risultato del dado Rosso ed Y il minimo dei risultati dei due dadi. La rappresentazione tabulare della densit`a `e molto comoda. X\Y 1 2 3 4 5 6

1 6 36 1 36 1 36 1 36 1 36 1 36

2 0 5 36 1 36 1 36 1 36 1 36

3 0 0 4 36 1 36 1 36 1 36

4 0 0 0 3 36 1 36 1 36

5 0 0 0 0 2 36 1 36

6 0 0 0 0 0 1 36

Propriet` a della densit` a congiunta di due variabili aleatorie (a.) (nonnegativit` a) pXY (xi , yj ) ≥ 0, per ogni (xi , yj ) ∈ X × Y (b.) (normalizazione) X X

pXY (xi , yj ) = 1.

xi ∈X yj ∈Y

Dimostrazione. La (a.) `e banale. Per la (b.) si ricordi che (vedi Lezione xx) le antiimmagini {X −1 (xi )} ed {Y −1 (yj )} formano due partizioni di Ω. Le intersezioni11 X −1 (xi )∩ Y −1 (yj ) formano quindi una partizione di Ω e da qui discende il risultato. 11

Prodotto di partizioni. Se {Ei } ed {Fj } sono due partizioni di un insieme Ω allora {Ei ∩ Fj } `e una partizione (partizione prodotto) di Ω. Dimostrazione. Presi due elementi diversi Ei ∩ Fj ed Eh ∩ Fk `e ovvio T che (Ei ∩ Fj ) (Eh ∩ Fk ) = ∅. Inoltre [ [[ [ (Ei ∩ Fj ) = (Ei ∩ Fj ) = [poich´e {Fj } `e una partizione] = Ei = Ω i,j

i

j

i

Non causa problemi l’eventuale presenza di insiemi vuoti nella partizione. Ci` o avviene se Ei ∩ Fj = ∅ per una o pi` u coppie (i, j).

81

Osservazione. Come nel caso delle analoghe propriet`a della densit`a di una singola v.a., le propriet`a (a.) e (b.), prese insieme, sono necessarie e sufficienti affinc´e una data funzione p(·, ·) sia una valida densit` a congiunta di due variabili aleatorie. Vale infatti il seguente importante teorema (facoltativo). Teorema di esistenza. Sia p(xi , yj ) : X × Y → R una funzione che soddisfa le propriet`a • p(xi , yj ) ≥ 0, per ogni (xi , yj ) ∈ X × Y, X • p(xi , yj ) = 1, i,j

allora esiste uno spazio di probabilit`a (Ω, F, P ) e due variabili aleatorie X : Ω → R ed Y : Ω → R tali che pXY (xi , yj ) = p(xi , yj ). Dimostrazione. [Limitata al caso |X | < ∞ e |Y| < ∞.] Si definisca Ω = X × Y. Poich´e |Ω| < ∞ si pu` o sempre prendere σ-algebra F = P(Ω). La misura di probabilit`a basta assegnarla sui singleton. Se ω = (xi , yj ) sia P ({ω}) := p(xi , yj ). Le propriet`a della funzione p(xi , yj ) garantiscono che P `e una misura di probabilit`a. La v.a. X : Ω → R `e per definizione la mappa ω = (xi , yj ) 7→ X(ω) := xi , ed analogamente Y `e la mappa ω = (xi , yj ) 7→ Y (ω) := yj . La densit`a congiunta delle v.a. (X, Y ) `e pXY (xi , yj ) = P ({ω; X(ω) = xi , Y (ω) = yj }) = P ({(xi , yj )}) = p(xi , yj ). che `e quanto si doveva dimostrare. Densit` a congiunte e marginali Le densit` a pX (·) e pY (·) delle componenti di V = (X, Y ), dette densit`a marginali del vettore V , si possono ricavare dalla densit`a congiunta pXY (·, ·) usando le equazioni: X X pX (xi ) = pXY (xi , yj ), pY (yj ) = pXY (xi , yj ). j

i

P P Dimostrazione. (vediamo la prima) j pXY (xi , yj ) = j P ([X = xi ] ∩ [Y = yj ]) = P (X = xi ) = pX (xi ), poich´e {[Y = yj ]} `e una partizione di Ω. Osservazione importante. Se pX e pY sono due densit`a assegnate esistono in generale infinite densit` a congiunte pXY che hanno per marginali pX e pY . Questo, nel caso di alfabeto X × Y finito lo si pu` o dimostrare usando la teoria dei sistemi di equazioni lineari. In effetti se |X | = N e |Y| = M allora |X × Y| = N · M , e pXY `e determinato da N · M − 1 numeri non-negativi, minori di 1 (perch´e?). Per imporre P che pXY abbia marginali pX e pY si usano le equazioni delle marginali, ovvero pX (xi ) = j pXY (xi , yj ) (in totale N − 1 equazioni, P una per ogni valore xi , meno 1 poich´e solo N − 1 valori pX sono liberi) e pY (yj ) = i pXY (xi , yj ) (in totale M − 1 equazioni). Abbiamo dunque un sistema di N + M − 2 equazioni LINEARI in N · M − 1 incognite. Anche nel caso pi` u semplice, N = M = 2, ci sono pi` u incognite che equazioni. In generale dunque esistono infinite densit`a congiunte compatibili con assegnate densit`a marginali.

Valore atteso di funzioni scalari di un vettore aleatorio Sia V = (X, Y ) un vettore aleatorio discreto e g : R2 → R una funzione scalare su R2 . Allora Z = g(V ) = g(X, Y ) `e una variabile aleatoria scalare della quale si pu`o calcolare il valore atteso. Il teorema fondamentale del valore atteso si generalizza al caso vettoriale.

82

Teorema. E(g(X, Y )) =

X X

g(xi , yj )pXY (xi , yj )

xi ∈X yj ∈Y

Dimostrazione. Poich´e g(X, Y ) `e una v.a. si pu`o usare il teorema fondamentale X E(g(X, Y )) = g(X(ω), Y (ω)) P ({ω}) = poich´e {X −1 (xi ) ∩ Y −1 (yj )} `e una partizione ω∈Ω

 =



X

X

g(X(ω), Y (ω)) P ({ω})

 ω∈X −1 (x

i,j

i )∩Y

−1 (y ) j

 =

X

=

X

=

X

 X

g(xi , yj ) 

P ({ω})

ω∈X −1 (xi )∩Y −1 (yj )

i,j

g(xi , yj ) P (X −1 (xi ) ∩ Y −1 (yj ))

i,j

g(xi , yj ) pXY (xi , yj ).

i,j

Osservazione. Il teorema consente di calcolare il valore atteso della funzione scalare di due variabili aleatorie g(X, Y ), usando solo l’informazione contenuta nella densit`a congiunta pXY (xi , yj ). Nelle applicazioni per` o abitualmente si dispone solo della densit`a congiunta, mentre spazio (Ω, F, P ) e mappe X(ω) ed Y (ω) non sono noti e/o non interessano. Sia p(xi , yj ), una funzione non-negativa e normalizzata su X × Y, cio`e una densit`a congiunta ` allora possibile calcolare valida. E X g(xi , yj )p(xi , yj ). (1) i,j

Cosa rappresenta l’espressione (1)? Usando il teorema di esistenza, si ricava che l’espressione (1) `e il valore atteso E(g(X, Y )), dove X ed Y sono le variabili aleatorie definite come nella dimostrazione del teorema di esistenza. Due esempi fondamentali. Due casi semplici ma importanti di impiego del teorema. (a.)

g(x, y) = x + y

In questo caso il teorema fornisce E(X + Y ) =

X

(xi + yj ) pXY (xi , yj ).

i,j

Esercizio obbligatorio. Dimostrare l’addittivit`a del valore atteso a partendo da qui. (b.) g(x, y) = xy Ancora usando il teorema, E(XY ) =

X

xi yj pXY (xi , yj )

i,j

Esempio concreto. X ed Y hanno densit`a congiunta X\Y 0 1

0 0.5 0.1 83

1 0.1 0.3

Il calcolo delle marginali mostra che X ed Y sono entrambe v.a. di Bernoulli b(0.4). Il valore atteso del prodotto `e X E(XY ) = xi yj pXY (xi , yj ) = pXY (1, 1) = 0.3. i,j

L’informazione contenuta nella densit`a congiunta permette di calcolare la varianza della somma, ricordando che var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ) e che cov(X, Y ) = E(XY ) − E(X)E(Y ). Svolgete il conticino. Esercizio proposto 1. Costruire esempi di densit`a congiunte su {0, 1}2 , come sopra. Verificare che, in generale, le due marginali sono Bernoulli di parametri diversi. Si determini la condizione affinch´e le marginali sono entrambe Bernoulli con lo stesso parametro (risposta: pXY (0, 1) = pXY (1, 0).). Tra queste ultime densit`a congiunte si cerchino esempi con cov(X, Y ) nulla e negativa. Deteminare la condizione sugli elementi della densit`a congiunta che d` a luogo a cov(X, Y ) = 0 (questa parte `e piuttosto laboriosa: la condizione `e pXY (0, 0)pXY (1, 1) − [pXY (0, 1)]2 = 0). Esercizio proposto 2 Con riferimento alla continuazione dell’esempio 1 (vedi p. 79), si calcoli E(XY ). Son conti della serva, noiosi e non istruttivi. Dello stesso tipo sono i conti per determinare cov(X, Y ).

Estensione ai vettori aleatori in Rn L’estensione della nozione di densit`a congiunta al caso di n variabili, ovvero ai vettori aleatori ad n dimensionali, `e immediata. Se, ad esempio, V : Ω → R3 mappa ω 7→ V (ω) = (X(ω), Y (ω), Z(ω)) si definisce la densit`a congiunta tridimensionale: pXY Z (xi , yj , zk ) = P (X = xi , Y = yj , Z = zk ). La densit` a pXY Z gode di propriet` a analoghe a quelle della densit`a bidimensionale: X pXY Z (xi , yj , zk ) ≥ 0, per ogni i, j, k, pXY Z (xi , yj , zk ) = 1. i,j,k

A partire dalla pXY Z si possono ricavare 3 densit`a marginali bidimensionali pXY , pXZ , pY Z e 3 unidimensionali, pX , pY , pZ . A titolo di esempio: X pXY (xi , yj ) = pXY Z (xi , yj , zk ) k

pY Z (yj , zk ) =

X

pXY Z (xi , yj , zk )

i

pY (yj ) =

X

pXY Z (xi , yj , zk ).

i,k

Viceversa, in generale non `e unica la densit`a tridimensionale pXY Z (xi , yj , zk ) con le 6 densit`a marginali pXY , pXZ , pY Z , pX , pY , pZ assegnate. Anche il teorema fondamentale del valore atteso si estende immediatamente al caso ndimensionale. Ad esempio, in R3 , Teorema. Sia (X, Y, Z) un vettore aleatorio di densit`a congiunta pXY Z e g : R3 → R allora  X E g(X, Y, Z) = g(xi , yj , zk ) pXY Z (xi , yj , zk ) i,j,k

84

14.2

Condizionamento per v.a.: motivazione

Avviene spesso che la densit` a di una v.a. o la densit`a congiunta di due o pi` u v.a. siano pi` u facilmente calcolabili usando la regola di moltiplicazione o la formula della probabilit`a totale. Questo comporta la necessit` a di introdurre densit`a condizionate di una v.a. rispetto (a.) ad un evento E ⊂ Ω o (b.) ad i valori della stessa variabile aleatoria, o (c.) ad i valori di un’altra, o di pi` u di una variabili aleatorie. Vediamo in questa e all’inizio della prossima lezione, esempi dei tre tipi. Esempio 1. In un’urna ci sono 2 monete truccate con P (T ) = 15 ed una moneta onesta con P (T ) = 21 . L’esperimento consiste nel pescare una moneta a caso dall’urna e nel lanciarla ripetutamente. Sia X la v.a. che indica il numero di lanci che dovr`o effettuare fino ad ottenere la prima Testa. Determinare la densit`a della v.a. X. Soluzione. Sarete tentati di ritenere X una v.a. geometrica. Cos`ı non `e. Siano [Xk = 1], k = 1, 2, . . . , gli eventi che indicano il successo (Testa) nella k−esima prova, ed E0 =”pesco la moneta onesta”. La v.a. ”numero di tentativi fino al primo successo” ha densit`a geometrica se (a) P ([Xk = 1]) = p `e costante in k e (b) gli eventi [Xk = 1], k = 1, 2, . . . sono indipendenti. Per quanto riguarda (a), la formula della probabilit`a totale fornisce       11 12 3 P [Xk = 1] = P [Xk = 1] E0 P (E0 ) + P [Xk = 1] E0c P (E0c ) = + = , 23 53 10 quindi (a) `e soddisfatta. Per quanto riguarda (b) si considerino ad esempio gli eventi [X1 = 1] e [X2 = 1]. Ancora dalla formula della probabilit`a totale   P [X1 = 1] ∩ [X2 = 1] =     P [X1 = 1] ∩ [X2 = 1] E0 P (E0 ) + P [X1 = 1] ∩ [X2 = 1] E0c P (E0c ) =  2  2 1 1 1 2 11 + = . 2 3 5 3 100 Per quanto visto sopra       11 3 3 9 P [X1 = 1] ∩ [X2 = 1] = 6 P [X1 = 1] P [X2 = 1] = = = , 100 10 10 10 quindi gli eventi [X1 = 1] e [X2 = 1] non sono indipendenti, (b) non `e soddisfatta. Abbiamo appurato che la densit` a di X non pu`o essere geometrica. Peraltro, la probabilit`a condizionata dell’evento [X = k] (prima Testa al k−esimo lancio) dato l’evento E0 (pesco la moneta onesta) vale 1 P (X = k|E0 ) = 2

  1 k−1 , 1− 2

k ≥ 1,

poich´e l’evento condizionante E0 fissa la moneta e ci fa ricadere nel paradigma della  ` naturale introdurre la definizione di densit`a variabile geometrica, G 12 in questo caso. E condizionata di X dato l’evento E0 come  P [X = k] ∩ E0 pX|E0 (k|E0 ) := P (X = k|E0 ) = P (E0 ) ATTENZIONE: Per il modo in cui `e formulato il problema i DATI sono pX|E (k|E0 ) e pX|E0c (k|E0c ). Non arrivate da nessuna parte se, ad esempio, tentate di CALCOLARE pX|E0 (k|E0 ) usando la definizione

P ([X=k]∩E0 ) . P (E0 )

85

Per questo esempio avremo quindi 1 pX|E0 (k|E0 ) = 2



1 1− 2

k−1 ,

k≥1

  1 k−1 1− , 5

k≥1

e analogamente pX|E0c (k|E0c )

1 = 5

La formula della probabilit` a totale infine fornisce per k ≥ 1 pX (k) = pX|E0 (k|E0 )P (E0 ) + pX|E0c (k|E0c )P (E0c ) h k−1 i 2 h 1 k−1 i + 3 5 1 − 15 = 31 21 1 − 21 Nota bene. La v.a. X non `e geometrica, dovreste per`o essere in grado di dire quanto vale E(X) senza far conti, solo ricordando che per una densit`a geometrica il valore atteso `e p1 . Il risultato `e E(X) = 13 · 2 + 32 · 5.

86

Lezione 15 15.1

(Mercoled`ı, 10 aprile 2013, ore 16:25-18:05)

Condizionamento per v.a.: motivazione – II

Vediamo un secondo esempio di densit`a condizionata. In questo caso l’evento condizionante `e generato dalla variabile aleatoria stessa. Esempio 2. L’esperimento consiste in lanci consecutivi, indipendenti di una moneta con P (T ) = p. Con X si indica il numero di lanci fino all’uscita della prima Testa. Come noto X ∼ G(p) e la probabilit` a di un’attesa lunga, che superi h lanci, per il primo successo `e P (X > h) = (1 − p)h . Iniziamo a lanciare la moneta, ottenendo una sfilza di h insuccessi: si `e cio`e verificato l’evento X > h e non ha pi` u alcun interesse parlare della sua probabilit`a. Ha senso invece, e riviste grande interesse, rivalutare la probabilit`a di attesa lunga, che superi k + h lanci, tenendo conto che si `e verificato X > h. Formalmente ci stiamo chiedendo: quanto vale la probabilit`a condizionata P (X > k + h|X > h)? La risposta `e semplice P ([X > k + h] ∩ [X > h]) P (X > h) P (X > k + h) (1 − p)k+h = = P (X > h) (1 − p)h

P (X > k + h|X > h) =

= (1 − p)k = P (X > k) Abbiamo ottenuto un risultato in apparenza sorprendente e che si pu`o leggere come segue. La rivalutazione della probabilit` a di dover attendere per pi` u di k lanci il primo successo, cominciando a contare i k lanci dopo aver osservato una sfilza di h ≥ 1 insuccessi (equivale ad attesa maggiore di k + h lanci contando dall’inizio), `e costante in h ed `e uguale alla probabilit` a di dover attendere pi` u di k lanci a partire dall’inizio dell’esperimento. Con linguaggio pittoresco si dice che la variabile aleatoria geometrica `e priva di memoria.12 Riformulazione in termini di densit` a. Il precedente risultato si pu`o formulare in modo alternativo introducendo la nozione di densit`a condizionata della variabile aleatoria X, dato l’evento X > h. Si procede come segue.  P [X = k] ∩ [X > h] pX|[X>h] (k) := P (X = k|X > h) = , k∈Z P (X > h) Osservando che (a.)[X = k] ∩ [X > h] = [X = k] se k > h, mentre [X = k] ∩ [X > h] = ∅ se k ≤ h, (b.) P (X > k) = (1 − p)k , (c.) P (X = k) = (1 − p)k−1 p1l(k − 1), si ha  P (∅)  se k ≤ h,  P (X>h) = 0, pX|[X>h] (k) =   P (X=k) = (1 − p)k−h−1 p, se k > h. P (X>h) In forma compatta, il risultato si scrive pX|[X>h] (k) = pX (k − h), 12

k ∈ Z,

Questo risultato decreta l’inescusabile imbecillit` a di quei giocatori che puntano quattrini con maggiore accanimento sui numeri cosiddetti ritardatari. Poich´e E(X) = 18 il giocatore si aspetta che ognuno dei 90 numeri si ripresenti in media ogni 18 estrazioni. Se l’attesa di un particolare numero si protrae, e.g. X > h ` celebre con h circa 60-70, i giocatori vanno in allerta. Quando poi h > 100 si scatena la follia collettiva. E il caso del 53 sulla ruota di Venezia che aveva accumulato un ritardo di 182 estrazioni causando la rovina economica di pi` u di qualcuno e, ancora pi` u estremo, l’8 sulla ruota di Roma arrivato dopo un’attesa di 201 estrazioni.

87

Teorema. La densit` a geometrica `e l’unica densit`a sull’alfabeto N che gode della propriet`a di assenza di memoria. Dimostrazione. Sia W una qualunque variabile aleatoria a valori in N. La propriet`a di assenza di memoria equivale a P (W > k + h|W > h) =

P (W > k + h) = P (W > k) P (W > h)

(1)

Definiamo f (k) := P (W > k) allora la condizione (1) si scrive f (k + h) = f (k)f (h) Questa relazione di ricorrenza determina la forma funzionale di f . Infatti, posto q := f (1), si trova f (2) = f (1 + 1) = f (1)f (1) = q 2 , f (3) = f (2 + 1) = f (2)f (1) = q 3 e procedendo iterativamente f (k) = q k . Poich´e q `e una probabilit`a q ∈ [0, 1], quindi anche p = 1 − q ∈ [0, 1]. Utilizzando il parametro p la soluzione dell’equazione di ricorrenza si riscrive P (W > k) = f (k) = (1 − p)k , da cui immediatamente discende che pW (k) = P (W > k − 1) − P (W > k) = f (k − 1) − f (k) = (1 − p)k−1 p ma questa `e proprio la densit` a G(p) Abbiamo dimostrato che se la densit`a della v.a. W non ha memoria allora `e necessariamente W ∼ G(p) per qualche p ∈ [0, 1]. Esempio 3. Il terzo esempio riguarda il caso in cui `e noto a priori che si sono verificati eventi generati da una variabile aleatoria Y , e se ne vuol tenere conto nel calcolo della densit`a di un’altra v.a. X. Passiamo direttamente alle definizioni rimandando gli esempi pratici al seguito.

15.2

Densit` a condizionate

Definizione. Siano X ed Y variabili aleatorie di densit`a congiunta pXY (xi , yj ). Per ogni yj tale che pY (yj ) > 0, la densit` a condizionata di X, dato l’evento [Y = yj ] `e pX|Y (xi |yj ) := P (X = xi |Y = yj ) =

P (X = xi , Y = yj ) pXY (xi , yj ) = P (Y = yj ) pY (yj )

Attenzione. Non bisogna farsi fuorviare dalla terminologia. Per quanto `e noto, la probabilit`a condizionata P (E|F ) `e una misura rispetto all’evento di sinistra, ad evento di destra fissato. Per la densit` a condizionata questo si traduce in: la pX|Y (xi |yj ) `e una densit`a su X per ogni yj fissato, ovvero i numeri pX|Y (xi , yj ) soddisfano alle condizioni X pX|Y (xi |yj ) ≥ 0, pX|Y (xi |yj ) = 1. i

I numeri pX|Y (xi |yj ) non costituiscono invece una densit`a su Y, n´e tantomeno una densit`a congiunta su X × Y, ifatti essi sono positivi, ma la loro somma pu`o essere maggiore di 1. P Microesercizio: supponendo che |X | = N e |Y| = M , calcolare i,j pX|Y (xi |yj ). Come visto anche in precedenza, alcuni dei dati di un problema pratico si presentano spesso sotto forma di probabilit` a condizionate.13 Ad esempio potrebbero essere dati del 13

Il prototipo di questa situazione `e l’Esempio 2 della Sezione 6.3, dove sono naturalmente modellati come probabilit` a condizionate i dati forniti dall’ufficio acquisti, che forniscono le probabilit` a di difetto dei chip di memoria, per ognuna delle aziende produttrici

88

problema la densit` a condizionata pX|Y (xi |yj ) e la densit`a pY (yj ). In questo caso continua a valere la relazione pX|Y (xi |yj ) =

pXY (xi , yj ) P (X = xi , Y = yj ) = , P (Y = yj ) pY (yj )

che pu`o essere utilizzata per ricavare la densit`a congiunta pXY (xi , yj ). La formula della probabilit` a totale e quella di marginalizzazione sono naturalmente collegate tra loro e si possono usare per ricavare la densit`a pX (xi ), infatti X X pX (xi ) = pXY (xi , yj ) = pX|Y (xi |yj )pY (yj ). j

j

Infine `e ovvia la formula di Bayes per la densit`a condizionata a posteriori pY |X (yj |xi ) =

pX|Y (xi |yj )pY (yj ) pX|Y (xi |yj )pY (yj ) =P pX (xi ) j pX|Y (xi |yj )pY (yj )

Le precedenti formule si possono scrivere invertendo i ruoli di X ed Y , in questo caso i dati sono la densit` a condizionata pY |X (yj |xi ) e la densit`a pX (xi ). La pY (yj ) allora `e X X pY (yj ) = pXY (xi , yj ) = pY |X (yj |xi )pX (xi ) i

i

e, con la formula di Bayes, si determina la densit`a condizionata a posteriori pX|Y (xi |yj ) =

15.3

pY |X (yj |xi )pX (xi ) pY |X (yj |xi )pX (xi ) =P pY (yj ) i pY |X (yj |xi )pX (xi )

Variabili aleatorie indipendenti.

Definizione. L’insieme di v.a. {X, Y } di densit`a congiunta pXY (xi , yj ) `e indipendente se pXY (xi , yj ) = pX (xi )pY (yj ),

per ogni (xi , yj ) ∈ X × Y

` invalso l’abuso ”le v.a. X ed Y sono indipendenti” invece del Terminologia e notazioni. E corretto ”l’insieme {X, Y } `e indipendente”. Per indicare che X ed Y sono indipendenti si usa a volte il simbolo X ⊥ ⊥Y. Esempio. Si consideri il vettore aleatorio V = (X, Y ) a valori nell’insieme V ⊂ X × Y, e si supponga che la densit` a congiunta pXY (xi , yj ) sia uniforme su V. La domanda `e: le variabili aleatorie X ed Y sono indipendenti? La risposta `e: se V `e strettamente incluso in X × Y le variabili X ed Y non sono indipendenti, se V = X × Y le variabili X ed Y sono indipendenti. Esercizio. Spiegare la risposta. Lemma. Le v.a. X e Y sono indipendenti se e solo se le v.a. f (X), e g(Y ) sono indipendenti per ogni coppia di funzioni f, g : R → R. Dimostrazione. Assumiamo che X e Y siano indipendenti e siano f e g due funzioni assegnate. Si definiscano le variabili aleatorie U := f (X) e V := g(Y ). Si deve allora dimostrare che U , e V sono indipendenti. La densit`a congiunta di {U, V } `e X X pU V (uh , vk ) = pXY (xi , yj ) = pX (xi )pY (yj ) i,j f (xi )=uh g(yj )=vk

=

h

X

i,j f (xi )=uh g(yj )=vk

ih pX (xi )

X

i

j

f (xi )=uh

g(yj )=vk

89

i pY (yj ) = pU (uh )pV (vk ).

L’altra direzione del lemma `e banale, `e sufficiente prendere f , e g funzioni identit`a. Osservazione. Questo lemma `e la versione per le coppie di v.a. dell’equivalenza delle affermazioni E ⊥ ⊥ F , Ec ⊥ ⊥ F, E ⊥ ⊥ F c, Ec ⊥ ⊥ F c per gli eventi dimostrata in precedenza. [elaborare] Teorema A. Se X e Y sono variabili aleatorie indipendenti allora E(XY ) = E(X)E(Y ) Dimostrazione. Per calcolo diretto X E(XY ) = xi yj pXY (xi , yj ) i,j

=

X

xi yj pX (xi )pY (yj )

i,j

=

X

xi pX (xi )

i

X

yj pY (yj ) = E(X)E(Y ).

j

` interessante osservare che, se le v.a. X ed Y sono indipendenti ed inoltre Osservazione. E E(|X|) < ∞ e E(|Y |) < ∞ allora sicuramente E(|XY |) < ∞, infatti X E(|XY |) = |xi yj | pXY (xi , yj ) i,j

=

X

|xi | |yj | pX (xi )pY (yj ) = E(|X|)E(|Y |).

i,j

In prosa: le condizioni E(|X|) < ∞ e E(|Y |) < ∞, che garantiscono l’esistenza del valore atteso di X e di Y , sono sufficienti a garantire l’esistenza del valore atteso della v.a. XY . Corollario del Teorema A. Se X e Y sono indipendenti allora cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0 Corollario del Corollario14 Se X e Y sono indipendenti allora var(X + Y ) = var(X) + var(Y ) Dimostrazione. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ), ma se X ed Y sono indipendenti cov(X, Y ) = 0. Osservazione sul Teorema A. Applicando il teorema fondamentale del valore atteso e sinistra e a destra del risultato del Teorema A se ne trova un’espressione alternativa su Ω. Mettiamo a confronto le due espressioni. X X X xi yj pXY (xi , yj ) = xi pX (xi ) yj pY (yj ) i,j

X ω

X(ω)Y (ω) P ({ω}) =

i

X

j

X(ω) P ({ω})

ω

X

Y (ω) P ({ω})

ω

14

La validit` a della relazione var(X +Y ) = var(X)+var(Y ) `e una manifestazione del teorema di Pitagora, un tema ricorrente di questo semestre. In Segnali e Sistemi lo chiamano ”formula di Parseval”. Le apparizioni di Pitagora sono sempre legate alla geometria dell’ortogonalit` a rispetto ad un prodotto interno definito in uno spazio vettoriale. In probabilit` a e in teoria dei segnali gli spazi vettoriali sono funzionali, ovvero i ”vettori” sono funzioni: segnali ad energia finita nel caso di Segnali e Sistemi, variabili aleatorie a varianza finita in probabilit` a. Riprenderemo l’interpretazione geometrica pi` u avanti.

90

Terminologia, notazioni, osservazioni. Leggere con estrema attenzione! Il valore atteso E(XY ) `e detto correlazione delle variabili aleatorie X e Y . Se E(XY ) = E(X)E(Y ) le v.a. X ed Y si dicono scorrelate, altrimenti si dicono correlate. Il simbolo X ⊥ Y denota v.a. X e Y scorrelate. Non si confonda ⊥ con ⊥ ⊥ che denota indipendenza. Poich´e vale il Teorema A, X ⊥ ⊥ Y implica X ⊥ Y . Non vale il viceversa. Esercizio obbligatorio. Si consideri la densit`a congiunta di figura, uniforme sui quattro punti dove `e concentrata. Quindi

y (0,1) (-1,0) (1,0)

x

(0,-1) pXY (0, 1) = pXY (1, 0) = pXY (0, −1) = pXY (−1, 0) = 14 . Verificare che le corrispondenti variabili aleatorie X ed Y sono scorrelate, ma non indipendenti. La nozione di scorrelazione isola la pi` u utile conseguenza dell’indipendenza, E(XY ) = E(X)E(Y ), e la erige a definizione. L’esempio qui sopra dimostra che `e utile definire la nozione di scorrelazione visto che esistono coppie di variabili aleatorie scorrelate ma non indipendenti. Sono banali conseguenze delle definizioni e delle propriet`a elementari di varianza e covarianza le seguenti affermazioni micro-lemma: X ⊥ Y

se e solo se cov(X, Y ) = 0.

micro-lemma: Se X ⊥ Y allora var(X + Y ) = var(X) + var(Y ).

Indipendenza di insiemi di variabili aleatorie Definizione. L’insieme di v.a. {X1 , X2 , . . . Xn } `e detto indipendente se pX1 X2 ...Xn (x1 , x2 , . . . xn ) = pX1 (x1 )pX2 (x2 ) . . . pXn (xn ),

per ogni x1 , . . . , xn

Lemma. (a.) Se l’insieme {Xi }ni=1 `e indipendente allora le v.a. {Xi }ni=1 sono scorrelate a coppie. P P (b.) Se le v.a. {Xi }ni=1 sono scorrelate a coppie allora var ( ni=1 Xi ) = ni=1 var(Xi ) Dimostrazione. (a.) Per ipotesi {Xi }ni=1 sono indipendenti quindi {Xi , Xj } con P i 6= j sono indipendenti, da cui P la conclusione. (b.) Sviluppando algebricamente var( i Xi ) si P P trova che in generale var( i Xi ) = i var(Xi ) + i,j cov(Xi , Xj ). Se le v.a. {Xi } sono scorrelate a coppie la conclusione segue. Osservazione. Il teorema A, ed i suoi corollari, mostrano perch´e `e particolarmente conveniente lavorare con variabili aleatorie indipendenti. Peraltro in molte situazioni pratiche,

91

e specificamente nei casi di prove ripetute, `e ragionevole rappresentare i risultati sperimentali con variabili aleatorie indipendenti. Ad esempio, il contesto della binomiale per eventi `e modellabile con n variabili aleatorie b(p) indipendenti. La verifica formale di questa affermazione sar` a molto facile nella seconda parte del corso, quando disporremo di strumenti pi` u avanzati. Applicazione: calcolo della varianza di una Binomiale Sia X ∼ Bin(n, p). Interpretando la v.a. binomiale come somma di n v.a. b(p) indipendenti (vedi osservazione sopra) si ricava immediatamente var(X) = np(1 − p). Domanda critica Come mai per definire l’indipendenza di, poniamo, tre v.a. X, Y, Z non abbiamo seguito la stessa strada che era stato necessario seguire per definire l’indipendenza di tre eventi? Non abbiamo cio`e richiesto anche l’indipendenza delle coppie X, Y , X, Z e Y, Z oltre a chiedere che pXY Z (xi , yj , zk ) = pX (xi )pY (yj )pZ (zk ). La risposta `e che, per le v.a, imponendo pXY Z (xi , yj , zk ) = pX (xi )pY (yj )pZ (zk ) l’indipendenza delle coppie segue dalle regole di marginalizzazione.

Esercizio svolto in aula In un gioco d’azzardo si paga 1 euro per partecipare e giocare contro il banco. La probabilit`a di vincere `e p. Se il gioco `e onesto, qual `e la somma x che il partecipante deve ricevere in caso di vincita? Nota bene. Il gioco `e onesto, se il ricavo medio che si ottiene giocando `e nullo, sia per il banco che per il partecipante. Soluzione. Indichiamo con R la variabile aleatoria che indica il ricavo del partecipante. Il ricavo pu` o prendere due soli valori. Se vince il banco R = −1, se vince il partecipante R = x, dove x `e la somma da determinare. La densit`a della v.a. R `e pR (−1) = 1 − p e pR (x) = p quindi R ha valore atteso E(R) = (−1) · (1 − p) + x · p, ed imponendo la condizione E(R) = 0 si trova x=

1−p p

Ad esempio se state giocando a Testa o Croce con il banco, usando una moneta onesta, e pagando 1 euro per indovinare il risultato del singolo lancio, la somma che un banco onesto vi paga quando indovinate la faccia uscita `e x=

1 − 0.5 = 1 euro 0.5

che `e in accordo con l’intuizione. Se invece puntate 1 euro su un’ambata al Lotto, poich´e la probabilit`a di successo `e p = la somma che dovreste ricevere `e x=

1− 1 18

1 18

= 17 euro

FYI: in Italia, in caso di vincita, portate a casa 10.56 euro.

92

1 18

Lezione 16 16.1

(Luned`ı, 15 aprile 2013, ore 10:30-12:15)

Spazi di probabilit` a generali

Come abbiamo visto nella Lezione 1, in molti casi lo spazio campionario Ω non `e discreto. Questo avviene, ad esempio, ogni qual volta gli esiti dell’esperimento sono i possibili valori di grandezze fisiche inerentemente continue: masse, lunghezze, tempi ecc. ` necessario ricorrere a spazi campionari non discreti anche quando si voglia modellare E probabilisticamente infinite prove ripetute di un esperimento con un numero finito di esiti. Ad esempio, Ω := {0, 1}N , l’insieme di tutte le sequenze infinite di bit, modella i possibili risultati di infiniti lanci di una moneta. Su tale Ω si possono costruire in modo naturale una variabile aleatoria geometrica, oppure una sequenza di variabili aleatorie di Bernoulli. Per convincersi che Ω = {0, 1}N non `e discreto si osservi che ogni sequenza infinita di bit `e l’espansione binaria di un numero reale nell’intervallo [0, 1], quindi |Ω| = |R|. Tradizionalmente |R| `e detta cardinalit`a del continuo, quindi diremo che Ω ha la cardinalit` a del continuo o, pi` u brevemente, che Ω `e continuo. Lo sviluppo della teoria della probabilit`a su spazi continui richiede strumenti di Analisi Matematica (teoria della misura) che non `e il caso di mettere in campo in un corso introduttivo. In questa lezione ci limiteremo a dare un inquadramento generale, mettere in evidenza alcune delle difficolt` a e sviluppare, in modo rigoroso, un sottoinsieme della teoria sufficiente per le applicazioni meno sofisticate. La teoria continua non differisce nell’impianto dalla teoria discreta sviluppata finora. Uno spazio di probabilit` a `e una terna (Ω, F, P ) dove Ω `e un insieme astratto (spazio campionario), F una σ−algebra di sottoinsiemi di Ω (eventi) e P una misura di probabilit`a. Non ripetiamo n´e la definizione di σ−algebra, n´e gli assiomi di P , che abbiamo gi`a presentato nella loro forma pi` u generale.

Continuit`a di P ` una conseguenza elementare degli assiomi particolarmente utile quando si trattano spazi E continui. Teorema. (Continuit` a della misura di probabilit` a) (a.) Se {En } `e una sequenza crescente di eventi, cio`e En ⊂ En+1 per ogni n ≥ 1, allora ! ∞ [ P En = lim P (En ) n

n=1

(b.) Se {En } `e una sequenza decrescente di eventi, cio`e En+1 ⊂ En per ogni n ≥ 1, allora ! ∞ \ P En = lim P (En ) n

n=1

Dimostrazione. (a.) Usiamo la decomposizione disgiunta, valida per ogni sequenza En , ∞ [

En =

n=1

∞ [ n=1

93

Fn

S dove F1 = ES En \ n−1 1 ed Fn := S k=1 Ek per n ≥ 2. Gli eventi Fn sono disgiunti, inoltre per n n costruzione k=1 Ek = S k=1 Fk per ogni S n. Poich´e in questo caso, gli En sono crescenti per ipotesi `e anche En = nk=1 Ek = nk=1 Fk . Vale la seguente catena di uguaglianze ! ! ! ∞ ∞ ∞ n n [ [ X X [ P En = P Fn = P (Fk ) = lim P (Fk ) = lim P Fk = lim P (En ) n=1

n=1

k=1

n

n

k=1

k=1

n

(b.) Si dimostra in modo analogo oppure si fa uso della legge di de Morgan per esprimere l’intersezione, passando alla sequenza degli eventi complementari che soddisfano le ipotesi per l’applicazione di (a.). Osservazione. Se {En } `e una sequenza monotona crescente di eventi `e naturale definire limn En := ∪∞ e n=1 En , che si verifica se e solo se si verifica almeno uno degli En . Se {En } ` monotona decrescente limn En := ∩∞ E , che si verifica se si verificano tutti gli E . Il n n=1 n lemma di continuit` a della probabilit`a si pu`o allora riformulare come segue. Lemma (riformulato). Se En `e una sequenza monotona (crescente o decrescente) di eventi allora   lim P (En ) = P lim En . n→∞

n→∞

Perch´e questa propriet` a `e detta continuit`a di P ? Perch´e, nella versione riformulata, `e evidente la somiglianza con l’analoga propriet`a delle funzioni reali di variabile reale. Richiamo: la funzione f : R → R `e continua in x se e solo se, per ogni sequenza xn → x,   lim f (xn ) = f (x) = f lim xn . n→∞

n→∞

Difficolt`a legate agli spazi campionari non discreti Come noto, nel caso discreto la misura di probabilit`a si pu`o assegnare specificando P ({ω}) per ogni ω ∈ Ω. Ogni tentativo di assegnare una misura di probabilit`a tale che P ({ω}) > 0 per ogni ω in un insieme Ω non numerabile `e destinato a fallire.15 Una possibile strategia per la definizione di P nel caso continuo consiste in (1.) scelta di una σ-algebra F = σ(C), dove C `e una classe di eventi elementari e σ(C) la σ-algebra generata di C, ovvero la famiglia di eventi che si ottiene effettuando sequenze numerabili di operazioni di unione e complementazione sugli elementi di C; (2.) assegnazione di P (C), per ogni C ∈ C; (3.) estensione di P a tutta σ(C), nel rispetto degli assiomi. La strategia appena delineata `e efficace, ma i dettagli tecnici sono piuttosto intricati. Diremo appena qualche parola in pi` u solo per il caso, fondamentale, in cui Ω = R. Scelta della σ−algebra su R Quando si deve definire una misura di probabilit`a su R, la σ−algebra che pi` u comunemente si considera `e la σ−algebra B(R) di Borel, ovvero la minima σ−algebra che contiene gli ` utile sapere che B(R) coincide con la σ−algebra generata dalla classe delle aperti di R. E semirette chiuse Ix := (−∞, x]. Questo, come vedremo, semplifica di molto l’assegnazione di una misura di probabilit` a su R. 15 Sia P ({ω}) > 0, assegnata per ogni ω ∈ Ω non numerabile. S Si definisca la sequenza di eventi monotona crescente Ωn := ω ∈ Ω; P ({ω}) > n1 . Naturalmente Ω = n≥2 Ωn e quindi esiste n0 ≥ 2 tale che Ωn0 non `e numerabile – infatti una unione numerabile di insiemi numerabili `e numerabile, mentre per ipotesi Ω non lo `e. Fissato un intero M , grande a piacere, esistono allora almeno M n0 elementi distinti in Ωn0 e quindi, vista la definizione di Ωn0 , P (Ωn0 ) ≥ M n0 n10 = M . Si ha quindi P (Ωn0 ) = ∞ e a fortiori P (Ω) ≥ P (Ω0 ) = ∞.

Equivalentemente si pu` o dire che, qualunque sia la famiglia di numeri reali strettamente positivi {xω }ω∈Ω P la somma ω∈Ω xω = ∞. Questo `e in forte P contrasto con il caso numerabile in cui esistono infinite sequenze strettamente positive {xn }n∈N tali che n∈N xn < ∞.

94

Lemma. B(R) = σ(Ix ). Dimostrazione. Ix ∈ B(R) per ogni x ∈ R, infatti Ix = (x, ∞)c ∈ B(R), quindi σ(Ix ) ⊂ B(R). Per dimostrare l’altra direzione, ovvero che B(R) ⊂ σ(Ix ) ricordiamo che ogni aperto di R `e unione, al pi` u numerabile, di intervalli aperti (a, b), con −∞ ≤ a ≤ b ≤ ∞. ` sufficiente dimostrare che, con operazioni numerabili su insiemi del tipo Ix , si possono E ottenere tutti gli intervalli aperti (a, b). Ad esempio, nel caso −∞ < a < b < ∞, ! ∞ [ (a, b) = Ib− 1 ∩ Iac . n=1

n

Completate la dimostrazione considerando gli altri tre tipi di intervalli aperti (−∞, b), (a, ∞) e (−∞, ∞). Osservazione. A margine si osservi che, per ogni x ∈ R il singleton {x} ∈ B(R), infatti T (x − n1 , x + n1 ). {x} = ∞ n=1 In virt` u del Lemma appena dimostrato, dovendo specificare una misura Q su (R, B(R)) baster`a assegnare Q sugli elementi Ix per ogni x ∈ R, un compito molto pi` u semplice, che affronteremo qui sotto, per definire le distribuzioni delle variabili aleatorie continue. Variabili aleatorie Definizione. Una variabile aleatoria definita sullo spazio di probabilit`a (Ω, F, P ) `e una funzione X: Ω→R che soddisfa la condizione di misurabilit` a, tale cio`e che X −1 (B) := {ω : X(ω) ∈ B} ∈ F,

per ogni B ∈ B(R).

Lemma. La funzione X : Ω → R `e una variabile aleatoria (soddisfa cio`e la condizione di misurabilit` a) se e solo se, per ogni Ix := (−∞, x], X −1 (Ix ) := {ω : X(ω) ≤ x} ∈ F. Dimostrazione. Poich´e gli insiemi Ix generano la σ−algebra B(R) e, per ipotesi, X −1 (Ix ) ∈ F per ogni Ix , intuitivamente la condizione sulle anti-immagini si estende a tutta la σ−algebra B(R). Tralasceremo i dettagli. Misura indotta da una v.a. X su (R, B(R)) Come nel caso discreto, di una variabile aleatoria X non interessa la definizione funzionale X : Ω → R, quanto la possibilit` a di calcolare le probabilit`a di eventi nello spazio dei valori R. Ad esempio, qual `e la probabilit` a che una tensione di rumore, modellata come variabile aleatoria, sia nell’intervallo [−0.35, 0.70]µV ? Nel caso generale lo spazio dei valori di X non `e discreto, ma `e tutto R (o comunque un suo sottoinsieme non numerabile). Come si specifica la misura sullo spazio dei valori R in modo che essa sia compatibile con quella nello spazio di partenza (Ω, F, P )? Nel caso discreto, per trasportare la misura P da (Ω, F, P ) a (X , P(X ), P 0 ), avevamo sfruttato la corrispondenza biunivoca xi ⇔ X (−1) (xi )  0 (−1) che conduce alla naturale definizione P ({xi }) := P X (xi ) . Nel caso continuo si adotta/adatta la stessa idea. La v.a. X induce una misura P X sullo spazio (R, B(R)), compatibile con la misura P dello spazio di partenza (Ω, F, P ) assegnando, per ogni B ∈ B(R), P X (B) := P (X −1 (B)). 95

La condizione di misurabilit` a garantisce che la misura P X sia ben definita, poich´e X −1 (B) ∈ F garantisce che P (X −1 (B)) `e ben definita. La S dimostrazione fatto che P X `e una S del −1 −1 misura di probabilit` a `e basata sull’identit`a X ( n En ) = n X (En ). Tralasceremo questi dettagli. Poich´e σ(Ix ) = B(R) `e sufficiente assegnare la misura P X sugli eventi Ix che generano la σ−algebra B(R), basta cio`e assegnare P X (Ix ) := P (X −1 (Ix )) = P ({ω; X(ω) ≤ x}) = P (X ≤ x),

∀ x ∈ R.

Ma questa `e una vecchia conoscenza dal caso discreto, FX (x) := P (X ≤ x) `e la funzione di distribuzione di X. La conclusione di maggior interesse applicativo `e che, se X `e una variabile aleatoria continua, per assegnare completamente la misura di probabilit`a sullo spazio dei suoi valori R, basta assegnare FX (x) per ogni x ∈ R. Funzione di distribuzione di una variabile aleatoria Rivediamo le propriet` a di FX (x), gi`a note dal caso discreto, estendendo le dimostrazioni per includere anche il caso continuo laddove necessario. Definizione (funzione di distribuzione, FdD) FX (x) := P (X −1 (Ix )) = P (X ≤ x),

per ogni x ∈ R.

Propriet`a della FdD. (i.) monotonia La FdD `e monotona non decrescente, cio`e per ogni x ≤ x0 si ha FX (x) ≤ FX (x0 ), infatti, se x ≤ x0 , si ha Ix ⊂ Ix0 , da cui   X −1 Ix ⊂ X −1 Ix0 e, per la monotonia della probabilit`a,   FX (x) = P X −1 (Ix ) ≤ P X −1 (Ix0 ) = FX (x0 ). (ii.) normalizzazione La FdD soddisfa i seguenti limiti lim FX (x) = 0,

lim FX (x) = 1,

x→∞

x→−∞

infatti, Ix ↓ ∅ per x ↓ −∞, quindi X (−1)  (Ix ) ↓ ∅ e, per la continuit`a della probabilit`a, −1 limx→−∞ FX (x) = limx→−∞ P X (Ix ) = P (∅) = 0. Analogamente si dimostra il limite per x → ∞. (iii.) continuit` a da destra La FdD `e una funzione continua da destra, cio`e per ogni x ∈ R si ha lim FX (x + h) = FX (x),

h→0+

il che discende ancora dalla continuit`a della probabilit`a e dal fatto che al tendere di h a 0 per valori positivi Ix+h → Ix e quindi X −1 (Ix+h ) → X −1 (Ix ). 96

(iv.) limite da sinistra La continuit` a da sinistra della FdD non `e garantita ma la funzione FX ammette limiti da sinistra infatti, per h ↓ 0 vale Ix−h = (−∞, x − h] ↑ (−∞, x) ⊂ (−∞, x] = Ix quindi FX (x−) := lim FX (x − h) ≤ FX (x) h↓0

Se la diseguaglianza `e verificata come eguaglianza la funzione FX (x) `e continua in x. In caso contrario, la funzione presenta in x una discontinuit`a di prima specie, cio`e un salto. Per la continuit` a della probabilit` a, lim FX (x − h) = lim P (X ≤ x − h) h↓0 h↓0   = P lim[X ≤ x − h] h↓0

= P (X < x), quindi l’ampiezza dell’eventuale salto in x vale FX (x) − FX (x−) = P (X ≤ x) − P (X < x) = P (X = x) (v.) numerabilit` a dell’insieme dei salti - facoltativo La FdD, nel caso discreto `e costante a tratti, con salti, in corrispondenza dei valori xi assunti dalla v.a., di ampiezza pari alla densit` a pX (xi ). Nel caso di FdD di v.a. come la Poisson o la geometrica l’insieme ` una semplice conseguenza della monotonia e della limitatezza che, anche dei salti `e infinito numerabile. E nel caso generale, la FdD ha un insieme di salti al pi` u numerabile. Lemma. L’insieme dei punti di salto di una FdD, se non `e vuoto, `e al pi` u numerabile. Dimostrazione. Ammesso che x1 < x2 siano due punti di salto di FX (x), si ha FX (x1 −) < FX (x1 ) ≤ FX (x2 −) < FX (x2 ) di modo che esistono due numeri razionali distinti q1 e q2 tali che q1 < q2 e FX (x− 1 ) < q1 < FX (x1 ),

FX (x− 2 ) < q2 < FX (x2 ).

Pertanto `e possibile porre in corrispondenza biunivoca i punti di salto con un sottoinsieme (al pi` u numerabile!) di numeri razionali.

(vi.) probabilit` a degli intervalli Dalla definizione della FdD e dalle sue propriet`a si ha che, a partire da FX (x), si possono calcolare le probabilit` a di interesse relative alla variabile aleatoria. Ad esempio, per gli intervalli, se −∞ ≤ a ≤ b ≤ ∞, P (X > a) = 1 − P (X ≤ a) = 1 − FX (a) P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a) P (a ≤ X ≤ b) = P (X ≤ b) − P (X < a) = FX (b) − FX (a− ).

97

Esempio di funzione di distribuzione

FX(x) 1

x1

x2

x3

x4

x

Commenti. Nei punti x2 , x3 , e x4 la FdD presenta salti, dunque le probabilit`a P ({x2 }), P ({x3 }), e P ({x4 }) sono strettamente positive e pari alle rispettive ampiezze dei salti. In ogni altro x ∈ R `e P ({x}) = 0. La probabilit`a P (x1 ≤ X < x2 ) = 0 poich´e nell’intervallo [x1 , x2 ) la FdD `e costante. Si noti che, a differenza del caso discreto la FdD non `e costante a tratti.

98

Lezione 17 17.1

(Marted`ı, 16 aprile 2013, ore 16:25-18:05)

Variabili aleatorie assolutamente continue

Definizione. La v.a. X : Ω → R, di funzione di distribuzione FX (x), si dice assolutamente continua se esiste una funzione fX : R → [0, ∞), integrabile secondo Riemann, in senso improprio16 , su R, tale che Z x

fX (x) dx

FX (x) = −∞

La funzione fX `e detta densit` a della v.a. X. Nota. Per il teorema fondamentale del calcolo, vedi anche i richiami in appendice alla lezione, la FdD FX (x) di una v.a. assolutamente continua `e continua per ogni x ∈ R quindi, per le note propriet` a delle FdD, si ha (in marcato contrasto con le v.a. discrete) P (X = x) = FX (x) − FX (x− ) = 0

per ogni x ∈ R

Propriet`a della funzione di densit`a (a.) Per definizione fX (x) ≥ 0 per ogni x ∈ R, inoltre, poich´e limx→∞ F (x) = 1, passando al limite nella definizione si trova Z ∞ fX (x) dx = 1 −∞

Osservazione importante. Tutte le f (·) : R → R, integrabili e che soddisfano le condizioni Z ∞ f (x) ≥ 0, ∀ x ∈ R, f (x) dx = 1. −∞

sono possibili funzioni di densit` a di variabili aleatorie. Nelle applicazioni le variabili aleatorie assolutamente continue sono pi` u spesso caratterizzate fornendo la funzione di densit` a fX (x) piuttosto che la FdD FX (x). (b.) In virt` u della continuit` a della FdD di una v.a. assolutamente continua, per ogni a ≤ b Z P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b) =

b

fX (x) dx a

e, pi` u in generale, se E `e un unione di intervalli di R Z P (X ∈ E) = fX (x) dx E

(c.) Criterio di assoluta continuit` a. Se la FdD FX (x) della v.a. X `e C 1 a tratti il teorema fondamentale del calcolo, parte II, garantisce l’esistenza della densit`a della v.a. X, che si pu`o definire come  0 FX (x), nei punti x dove FX0 (x) `e continua fX (x) = arbitraria, dove FX0 (x) non `e continua l’arbitrariet` a della densit` a in un insiemeR finito di punti non `e un problema in quanto x l’integrale che definisce la FdD, Fx (x) = −∞ fX (t)dt, rimane invariato. 16

deve cio`e esistere

R∞ −∞

:= lima→∞ limb→∞

Rb −a

99

Micro-esercizio. Sia X una variabile aleatoria di densit`a fX (x) = 38 (4x−2x2 ) per 0 ≤ x ≤ 2, e nulla altrove. Si verifichi che fX `e una densit`a. Si determini P (0.5 ≤ X ≤ 1.5). Verificare per sola ispezione che P (X > 1) = 12 . (per analogo esercizio svolto e commentato, vedi appunti da lezione) Interpretazione della funzione di densit`a I valori della funzione di densit` a delle v.a. assolutamente continue non sono probabilit`a. Se X `e una v.a. discreta pX (a) = P (X = a), mentre nel caso di una v.a. assolutamente continua P (X = a) = 0 per ogni a, e fX (a) pu`o assumere qualunque valore non negativo, anche maggiore di 1. Il significato intuitivo della funzione di densit`a si pu`o ricavare usando il teorema della media integrale. Se fX `e continua nell’intervallo [a, a + ∆] allora per qualche c ∈ [a, a + ∆] vale Z a+∆ fX (x) dx = fX (c) ∆ P (a ≤ X ≤ a + ∆) = a

quindi, per ∆ → 0 sar` a c → a. Per ∆ sufficientemente piccolo vale l’approssimazione Z a+∆ fX (x) dx ≈ fX (a) ∆ P (a ≤ X ≤ a + ∆) = a

ovvero

P (a ≤ X ≤ a + ∆) (1) ∆ che giustifica la terminologia adottata: fX (x) `e la densit` a della probabilit`a nel punto x. Pensate ad una massa totale di 1 kg depositata su di un filo adagiato sulla retta reale. Sia P (a ≤ X ≤ a + ∆) la quantit` a di massa adagiata sul filo nell’intervallo [a, a + ∆]. Allora la naturale definizione di densit` a di massa nel punto a `e proprio fX (a). ` Considerazioni dimensionali. E utile rendersi conto che, dal punto di vista dimensionale, se la v.a. X rappresenta ad esempio un tempo misurato in secondi, la densit`a di probabilit`a, in virt` u della (1), `e dimensionalmente una frequenza, misurata in Hz. Infatti il numeratore in (1) `e un numero puro e il denominatore `e un tempo. Sempre a proposito delle dimensioni fisiche: si tenga anche presente che se la v.a. X `e ad esempio un tempo, il valore atteso E(X) ha dimensione [tempo], e la varianza var(X) ha dimensione [tempo]2 . Convincetevene. fX (a) ≈

Valore atteso delle v.a. assolutamente continue Definizione. La variabile aleatoria assolutamente continua X, di densit`a fX (x), ammette valore atteso E(X) se esiste finito l’integrale generalizzato17 Z ∞ E(X) := xfX (x) dx −∞

Poich´e Z

0

E(|X|) =

Z (−x)fX (x) dx +

−∞



xfX (x) dx, 0

`e immediato concludere che la v.a. X ammette valore atteso se E(|X|) esiste finito. Pi` u in generale, se g : R → R, il valore atteso della funzione di v.a. g(X), `e Z ∞ E(g(X)) := g(x)fX (x) dx, −∞ 17 InR teoria della probabilit` a Rsolitamente si utilizza la definizione standard di integrale generalizzato sulla ∞ b retta −∞ := lima→∞ limb→∞ −a . In Segnali e Sistemi `e pi` u utile interpretare gli integrali sulla retta nel R∞ Ra senso del valore principale di Cauchy −∞ := lima→∞ −a . Ovviamente i due integrali non sono equivalenti: R∞ nel senso standard −∞ x dx non esiste, mentre il valore principale di Cauchy `e nullo.

100

se l’integrale generalizzato esiste finito. In particolare, prendendo g(x) := (x − E(X))2 si ottiene la varianza della v.a. X: Z ∞  2  var(X) = E X − E(X) := (x − E(X))2 fX (x) dx −∞

Tutte le propriet` a del valore atteso e della varianza gi`a viste nel caso delle v.a. discrete continuano a valere. L’unica differenza notevole `e che la prima dimostrazione dell’addittivit` P a del valore atteso, basata sull’espressione, dimostrata nel caso discreto, E(X) = ω X(ω)P ({ω}), non si estende alle v.a. assolutamente continue. Vedremo per`o che la seconda dimostrazione dell’addittivit`a, che ricorreva alle densit`a congiunte, continua a valere. Esempio di v.a. che non ammette valore atteso. Una v.a. X con funzione di densit`a fX (x) :=

1 1 , π 1 + x2

` facile verificare (fatelo!) che fX (x) soddisfa le condizioni `e detta v.a. di Cauchy. E R∞ fX (x) > 0 per ogni x ∈ R e −∞ fX (x) dx = 1 e quindi `e effettivamente una funzione di densit` a. Peraltro xfX (x) non `e integrabile su R e quindi non esiste il valore atteso di X. Vedremo pi` u avanti che le v.a. di Cauchy non sono strani oggetti matematici, ma che possono facilmente originare in comuni situazioni sperimentali. Le v.a. di Cauchy hanno anche un interesse teorico in quanto ci permetteranno di costruire semplici controesempi quando studieremo i teoremi di convergenza. Il seguente risultato sull’esistenza dei momenti E(X k ) `e una semplice applicazione della disuguaglianza di Jensen. Lemma. Sia r ≤ s. Se esiste finito E(|X|s ) allora esiste finito E(|X|r ). Dimostrazione. Osserviamo che, se α > 1, la funzione tα `e convessa per t ∈ R+ , infatti d2 α t = α(α − 1)t > 0 per t ∈ R+ , quindi per la disuguaglianza di Jensen (paragrafo 11.1) dt2  s  α r E(|X|) ≤ E(|X|α ). Si osservi anche che, se r ≤ s, vale |X|r = |X|r , dove rs > 1,  h is  s r quindi vale E(|X|r ) ≤ E (|X|r ) r = E(|X|s ) < ∞. V.a. assolutamente continue notevoli (a.) Variabile aleatoria uniforme Diremo che la v.a. assolutamente continua X `e uniforme nell’intervallo [a, b], e la denoteremo X ∼ U (a, b), se la densit` a di probabilit`a di X `e  x t) = P (Nt = 0) = e−λt ,

per ogni t ≥ 0

La funzione di distribuzione di W `e quindi FW (t) = P (W ≤ t) = 1 − P (W > t) = 1 − e−λt ,

per ogni t ≥ 0

ma questa `e proprio la distribuzione di una v.a. esponenziale. Abbiamo cio`e dimostrato che W ∼ Exp(λ). Il valore atteso di W `e λ1 . Se arrivano in media λ richieste per unit`a di tempo `e intuitivamente ovvio che, in media, la prima richiesta arrivi dopo λ1 unit`a di tempo.

103

Appendice alla Lezione 17 Richiami sull’integrale di Riemann (a.) Continuit`a e derivabilit`a a tratti Sia f : [a, b] → R. Diremo che f ha una discontinuit`a di prima specie (salto): in c ∈ (a, b) se ivi esistono finiti e diversi i limiti da destra e da sinistra; in a se ivi esiste finito e diverso da f (a) il limite da destra; in b se ivi esiste finito e diverso da f (b) il limite da sinistra. Si dicono continue a tratti le funzioni f : [a, b] → R, continue in [a, b], tranne al pi` u in un sottoinsieme finito di punti dove hanno salti. Si dicono C 1 a tratti le funzioni f : [a, b] → R, ovunque continue in [a, b] e derivabili, con derivata continua, in [a, b], tranne al pi` u in un sottoinsieme finito di punti dove la derivata ammette finiti i limiti da sinistra e da destra. Le derivate delle funzioni C 1 a tratti sono quindi funzioni continue a tratti. (b.) Integrale di Riemann La definizione e le propriet` a dell’integrale di Riemann si suppongono note. Per brevit`a diremo semplicemente integrabile ogni funzione integrabile nel senso di Riemann. Le funzioni continue a tratti sono integrabili, e quindi lo sono anche le funzioni C 1 a tratti e le loro derivate. (c.) Teorema fondamentale del calcolo Prima parte. Se f : [a, b] → R `e continua a tratti allora la sua funzione integrale, Z x f (t) dt = F (x) − F (a), F (x) := a

`e continua per ogni x ∈ [a, b] e, nei punti di continuit`a di f , derivabile con F 0 (x) = f (x) Seconda parte. Se F : [a, b] → R `e una funzione C 1 a tratti, definendo f (x) := F 0 (x) nei punti di derivabilit` a di F , ed arbitrariamente dove F non `e derivabile, si ha che, per ogni x ∈ [a, b], Z x

F (x) − F (a) =

f (t)dt a

(d.) Integrale di Riemann improprio Nella definizione dell’integrale di Riemann sia la funzione f che il dominio [a, b] sono limitati. L’integrale di Riemann improprio viene introdotto per superare questa limitazione. Se la funzione f : (a, b] → R `e integrabile su [a + , b] per ogni  > 0 e se esiste finito il limite Z b

lim ↓0

f (t)dt a+

Rb la f si dice integrabile su [a, b] in senso improprio e l’integrale a f (t)dt `e definito come il valore del limite. Analoghe definizioni di integrali impropri si danno nei casi f : [a, ∞) → R e f : R → R. Interpretando gli integrali come limiti, il teorema fondamentale del calcolo continua a valere.

104

Lezione 18 18.1

(Mercoled`ı, 17 aprile 2013, ore 16:25-18:05)

Variabili aleatorie normali

Sono le pi` u importanti variabili aleatorie assolutamente continue. Definizione. Una v.a. assolutamente continua X si dice normale (o gaussiana) di parametri µ ∈ R e σ 2 > 0, e si denota X ∼ N (µ, σ 2 ), se ha densit`a di probabilit`a fX (x) := √

2 1 (x−µ) σ2

1 2πσ 2

e− 2

per ogni x ∈ R

,

Nota bene. Il parametro µ pu` o assumere qualunque valore reale. Il parametro σ 2 deve essere strettamente positivo. La notazione σ 2 `e standard e sta a ricordare che si tratta di un numero strettamente positivo. ` un esercizio di Analisi I verificare che la funzione fX (x): E (a.) `e ovunque strettamente positiva e continua, (b.) `e simmetrica rispetto al punto x = µ, √ 1 , 2πσ 2 1 fX (µ)e− 2

(c.) ha un unico massimo, nel punto x = µ, dove vale fX (µ) = (d.) ha due flessi, nei punti x = µ ± σ, dove vale fX (µ ± σ) =

≈ 0.6fX (µ),

− 12 2σ

|x−µ| e, poich´e (e.) `e integrabile su R infatti, per |x| → ∞ vale 0 < fX (x) < √ 1 2 e 2πσ il limite superiore `e ovviamente integrabile, per il criterio del confronto fX `e integrabile. Non fatevi confondere dal ciarpame notazionale: il succo `e che per |y| → ∞ vale 0 < 2 e−y ≤ e−|y| , e ovviamente e−|y| `e integrabile su R.

La verifica della condizione di normalizzazione della densit`a `e contenuta nel seguente Lemma (facoltativo). Si tratta di uno dei pi` u classici esercizi di Analisi II. Lemma.

Z



2 1 (x−µ) σ2

e− 2

√ dx =

per ogni µ ∈ R, σ 2 ∈ R+

2πσ 2 ,

−∞

Dimostrazione classica. Effettuando il cambio di variabile u = Z



e

− 12

(x−µ)2 σ2

√ dx =

2σ 2

Z

−∞



√ 1 (x 2σ 2

− µ) ci si riduce a

2

e−u du.

−∞

` quindi sufficiente dimostrare che E

19

Z



I :=

2

e−u du =



π.

−∞

` noto, ma non facile da dimostrare, che la primitiva della funzione e−u2 non pu`o esE sere espressa in forma chiusa impiegando funzioni elementari, quindi I va calcolato direttamente come integrale definito. Il trucco classico `e di calcolare anzich´e I il suo 19 ”A mathematician is one to whom that is as obvious as that twice two makes four is to you”, cos`ı diceva William Thomson, Lord Kelvin, ai suoi studenti.

105

quadrato: I

2

2 = e du −∞ Z ∞  Z ∞  −u2 −v 2 = e du × e dv (quindi per Fubini) −∞ −∞ Z ∞ Z ∞ 2 2 e−(u +v ) du dv (e quindi in coordinate polari) = Z



−∞ 2π

Z

−u2

Z

−∞ ∞

= 0

2

e−ρ ρ dρ dθ =

0

Z



0

1 dθ = π 2

(integrale in ρ per parti).

Andamento della densit`a normale al variare dei parametri In figura sono riportate le funzioni di densit`a N (2, 0.7), N (2, 1) e N (2, 1.5). Si noti come, al diminuire di σ 2 , la densit` a si concentra sempre di pi` u intorno al valore µ. Si noti inoltre che la densit` a, che `e strettamente positiva per ogni x ∈ R, tenda per`o molto rapidamente a 0. Appare evidente dai grafici che, per una v.a. X ∼ N (µ, σ 2 ), la probabilit`a di eventi del tipo a ≤ X ≤ b assume valori non trascurabili solo per intervalli [a, b] nelle vicinanze di µ.

Nota. Il caso σ 2 = 0 `e degenere, in effetti la densit`a N (µ, 0) non `e ben definita. Euristicamente, per µ fissato, si pu` o considerare lim √

σ 2 →0

1 2πσ 2

2 1 (x−µ) σ2

e− 2

= δ(x − µ),

l’impulso di Dirac centrato in µ. Questo `e ragionevole poich´e la famiglia di densit`a N (µ, σ 2 ), per µ costante e σ 2 ↓ 0, costituisce una famiglia di impulsi di area unitaria, per ogni σ 2 > 0, e il cui massimo, per x = µ, di valore √ 1 2 ↑ ∞. Bench´e δ(x − µ) 2πσ non sia una densit` a standard, essa si comporta come una densit`a nel R ∞ senso delle funzioni generalizzate. In effetti si pu` o considerare δ(x − µ) > 0 ed inoltre −∞ δ(x − µ)dx = 1. Funzione di distribuzione La funzione di distribuzione della densit`a normale N (µ, σ 2 ) `e Z x 2 1 (w−µ) 1 FX (x) = √ e− 2 σ2 dw x ∈ R. 2πσ 2 −∞ 2

Poich´e l’antiderivata di e−w non `e esprimibile in forma chiusa, la funzione di distribuzione deve essere valutata con metodi di integrazione numerica. I grafici qui sotto mostrano la densit`a e la distribuzione di N (4, 1). 106

Vedremo tra poco che il calcolo della funzione di distribuzione relativa alla densit`a N (µ, σ 2 ), qualunque siano µ e σ 2 , si pu` o ricondurre al calcolo della funzione di distribuzione della densit`a N (0, 1). ` interessante calcolare la funzione di distribuzione F (x) che corrisponde alla densit`a Nota. E generalizzata δ(x − µ), caso limite di N (µ, σ 2 ) per σ 2 = 0. Applicando la definizione Z x F (x) := δ(w − µ)dw = 1l(x − µ), −∞

dove 1l(x) `e il gradino unitario. La funzione di distribuzione F (x) ha un unico salto, di ampiezza 1, in corrispondenza del punto x = µ. Per quanto noto sulle funzioni di distribuzione si conclude che se una variabile aleatoria ha densit`a generalizzata δ(x − µ) allora essa `e una variabile aleatoria degenere, X = µ costante. Valore atteso e varianza delle v.a. normali I parametri µ e σ 2 che identificano la densit`a di una v.a. X ∼ N (µ, σ 2 ) hanno, rispettivamente, il significato probabilistico di valore atteso e varianza di X. (a) Valore atteso. Poich´e la densit`a `e simmetrica rispetto al punto x = µ e la funzione 2 |x|fX (x) `e integrabile (ragionando come sopra il succo `e che per |y| → ∞ vale 0 < |y|e−y ≤ |y|e−|y| ed il limite superiore `e integrabile) si pu`o concludere che il valore atteso `e E(X) = µ, valore in accordo con l’interpretazione del valore atteso come baricentro della densit`a. La derivazione formale `e contenuta nel seguente

107

Lemma. Se X ∼ N (µ, σ 2 ) allora E(X) = √

1 2πσ 2

Z



2 1 (x−µ) σ2

xe− 2

dx = µ

−∞

Dimostrazione. Aggiungiamo e sottraiamo µ e usiamo l’addittivit`a dell’integrale Z ∞ 2 1 (x−µ) 1 xe− 2 σ2 dx E(X) = √ 2πσ 2 −∞ Z ∞ Z ∞ 2 (x−µ)2 1 (x−µ) 1 1 − 12 2 σ (x − µ)e µe− 2 σ2 dx = √ dx + √ 2πσ 2 −∞ 2πσ 2 −∞ Il secondo addendo `e l’integrale della densit`a moltiplicata per µ e vale quindi µ. Per valutare il primo addendo si effettua il cambio di variabile u = √ 1 2 (x − µ): 2σ

r

2σ 2 π

Z



2

r

ue−u du =

−∞

r  Z ∞   2σ 2 1 σ 2 −u2 ∞ −u2 − d e =− =0 e π 2 2π −∞ −∞

Si conclude che E(X) = µ. (b) Varianza (facoltativo). Sia X ∼ N (µ, σ 2 ). Poich´e E(X) = µ e la funzione (x − µ)2 fX (x) `e integrabile, la varianza esiste ed il suo valore `e Z ∞ 2 1 (x−µ) 1 var(X) = √ (x − µ)2 e− 2 σ2 dx 2πσ 2 −∞ Procedendo con il solito cambio di variabile u = var(X) = = = =

√ 1 (x−µ) 2σ 2

ci si riduce al seguente calcolo

Z 2σ 2 ∞ 2 −u2 √ u e du π −∞ Z ∞   σ2 2 u d e−u −√ π −∞   Z ∞ ∞ 2 σ −u2 −u2 −√ ue − e du π −∞ −∞ √  σ2  0 − π = σ2 −√ π

Trasformazioni lineari di v.a. normali Lemma fondamentale. Sia X ∼ N (µ, σ 2 ) ed Y := aX + b, con a 6= 0, allora Y ∼ N (aµ + b, a2 σ 2 ) Nota Bene. Il Lemma `e fondamentale, ma va letto con attenzione per capirne la portata. Esso afferma che, data X ∼ N (µ, σ 2 ), la trasformazione lineare Y = aX + b `e ancora normale, di parametri E(Y ) = aµ + b = aE(X) + b e varianza var(Y ) = a2 σ 2 = a2 var(X). Per quanto gi` a noto, ci` o `e esattamente quello che ci aspettiamo, in termini di valore atteso e di varianza della trasformazione lineare. L’informazione fondamentale fornita dal Lemma `e che la densit` a di Y `e normale. La densit`a normale `e invariante per trasformazioni lineari della v.a. Dimostrazione. Per determinare la densit`a della v.a. Y cominciamo col determinarne la funzione di distribuzione FY (y). Supponiamo, per fissare le idee, che a > 0 allora FY (y) = P (Y ≤ y) = P (aX + b ≤ y)     y−b y−b = P X≤ = FX . a a 108

La densit` a di Y si trova calcolando la derivata di FY (y), quindi   d y−b d fY (y) = FY (y) = FX dy dy a   1 y−b = fX a a 2

= =

( y−b a −µ) 1 1 − 12 σ2 √ e a 2πσ 2 2 1 (y−(aµ+b)) 1 a2 σ 2 √ e− 2 2πa2 σ 2

Ma questa `e la densit` a di una v.a. normale di media aµ+b e varianza a2 σ 2 , il che conclude la dimostrazione del caso a > 0. Il caso a < 0 si tratta in modo simile. FY (y) = P (Y ≤ y) = P (aX + b ≤ y)     y−b y−b = P X≥ = 1 − FX a a Calcolando la derivata si trova fY (y) = =

   d d y−b FY (y) = 1 − FX dy dy a   y−b 1 fX −a a 2

= =

y−b −µ) 1 ( a 1 1 σ2 √ e− 2 −a 2πσ 2 2 1 (y−(aµ+b)) 1 a2 σ 2 √ e− 2 2πa2 σ 2

che ancora coincide con la densit` a di una v.a. normale di media aµ + b e varianza a2 σ 2 , il che conclude la dimostrazione. Corollario del lemma. Se X ∼ N (µ, σ 2 ) allora Z :=

X −µ ∼ N (0, 1), σ

√ dove σ := + σ 2 , `e la cosiddetta deviazione standard della v.a. X. Dimostrazione. Banale applicazione del precedente Lemma. Osservazioni. (a.) Terminologia. Ogni variabile aleatoria Z ∼ N (0, 1) `e detta variabile aleatoria normale standard. Il corollario quindi afferma che la trasformazione lineare Z := σ1 X − σµ standardizza la v.a. X ∼ N (µ, σ 2 ). (b.) Se W `e una qualunque v.a. con E(W ) = µ e var(W ) = σ 2 allora S := Wσ−µ ha valore atteso E(S) = 0 e varianza var(S) = 1, ma in generale S non conserva lo stesso tipo di densit`a di W , n´e tantomeno `e normale. (c.) Attenzione. Quando si standardizza, un errore frequentissimo `e dividere per la varianza σ 2 anzich´e per la deviazione standard σ. Calcolo della probabilit`a di eventi per v.a. normali Ogni calcolo di probabilit` a di eventi relativi alla generica v.a. X ∼ N (µ, σ 2 ) si pu`o ricondurre al calcolo della probabilit`a di un evento per una v.a. Z ∼ N (0, 1). 109

Esempio. Sia X ∼ N (3, 4) e si voglia calcolare P (1 ≤ X ≤ 6). Applicando la standardizzazione troviamo   1−3 X −3 6−3 = P (−1 ≤ Z ≤ 1.5) P (1 ≤ X ≤ 6) = P ≤ ≤ 2 2 2 Notazioni. La funzione di distribuzione FZ di una v.a. Z ∼ N (0, 1) normale standard, `e universalmente denotata Φ(z), quindi Z z 1 2 1 √ Φ(z) := e− 2 u du, per ogni z ∈ R 2π −∞ √ 1 2 La funzione Φ(z) `e la primitiva della funzione ( 2π)−1 e− 2 z e non esiste una forma chiusa per quest’antiderivata. Peraltro `e molto comodo poter disporre dei valori della Φ(z) poich´e essi consentono di effettuare moltissimi calcoli probabilistici di interesse pratico. Sul sito del corso trovate una tabella della Φ(z). La tabella `e costruita utilizzando uno sviluppo in serie di Φ(z), ma non abbiamo il tempo di entrare nei dettagli computazionali. Il seguente (banale) lemma generalizza l’esempio appena visto. Lemma. Se X ∼ N (µ, σ 2 ) allora  P (a ≤ X ≤ b) = Φ

b−µ σ



 −Φ

a−µ σ

 .

Poich´e la densit` a N (0, 1) `e una funzione pari si ricava immediatamente (tracciate una figura e convincetevene) che Φ(−z) = 1 − Φ(z) per cui `e sufficiente disporre della tabulazione di Φ(z) per z ≥ 0. Le probabilit` a di alcuni comuni eventi per Z ∼ N (0, 1), espressi in termini di Φ(z), sono: P (Z ≤ z) = Φ(z) P (Z ≥ z) = 1 − Φ(z) = Φ(−z) P (|Z| ≤ z) = 2Φ(z) − 1 P (|Z| ≥ z) = 2(1 − Φ(z)) = 2Φ(−z)

Combinazioni lineari di v.a. normali indipendenti Vale il seguente fondamentale risultato che dimostreremo in seguito. Lemma. Se X1 , X2 , . . . Xn sono v.a. normali indipendenti, con Xi ∼ N (µi , σi2 ) allora ! n n n X X X 2 2 αi Xi ∼ N αi µi , αi σi i=1

i=1

i=1

Nota Bene. Come per il caso delle trasformazioni lineari di v.a. la portataP di questo risultato va capita a fondo. Per quanto gi`a noto, la media e la varianza della v.a. ni=1 αi Xi sono esattamente quelle che ci aspettiamo per le propriet`a generaliP di media e varianza. L’informazione fondamentale fornita dal Lemma `e che la densit`a di ni=1 αi Xi `e normale.

110

Esempi ed esercizi Esercizio 1 Alcuni numeri fondamentali per le v.a. normali. ` utile avere un’idea delle probabilit`a delle deviazioni di X dal suo Sia X ∼ N (µ, σ 2 ). E valore atteso µ. Per fornire numeri universali, esprimiamo la deviazione usando come unit`a di misura la deviazione standard. Allora si ha   σ ≥ 0.32 P (|X − µ| ≥ σ) = P |X−µ| σ σ = P (|Z| ≥ 1) = 2(1 − Φ(1)) ≈   ≥ 2σ = P (|Z| ≥ 2) = 2(1 − Φ(2)) ≈ 0.05 P (|X − µ| ≥ 2σ) = P |X−µ| σ σ   P (|X − µ| ≥ 3σ) = P |X−µ| ≥ 3σ = P (|Z| ≥ 3) = 2(1 − Φ(3)) ≈ 0.003 σ σ Per ricavare i valori numerici si `e fatto uso della tabella della distribuzione normale standard Φ(z). Attenzione con la normalizzazione: al numeratore c’`e X − µ, la media `e gi`a sottratta, basta dividere per la deviazione standard. Passando al complementare, l’ultima approssimazione equivale a P (|X −µ| ≤ 3σ) ≈ 0.997. Equivalentemente P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 0.997. Questa osservazione `e molto importante nelle applicazioni pratiche. I valori assunti da una v.a. normale cadono con probabilit`a 0.997 nell’intervallo [µ − 3σ, µ + 3σ]. Qualunque insieme di valori (evento) al di fuori dell’intervallo (µ − 3σ, µ + 3σ), `e molto improbabile (ha probabilit` a inferiore a 0.003). Esercizio 2. Calcolare limiti superiori alle probabilit`a dell’esercizio 1 utilizzando la disuguaglianza di Chebychev. P (|X − µ| ≥ 3σ) ≤

var(X) 1 = ≈ 0.11 2 9σ 9

questo `e un altro esempio che mostra quanto lasca possa essere la disuguaglianza di Chebychev (limite superiore 0.11 a fronte di probabilit`a approssimativamente uguale a 0.003). Esercizio 3 (parte (e.) facoltativa per il primo compitino) Un tecnico ha a disposizione gli strumenti A e B per misurare una certa lunghezza µ. Lo strumento A fornisce la misura MA = µ + XA dove l’errore di misura XA ∼ N (0, 9). Lo strumento B fornisce la misura MB = µ + XB dove l’errore XB ∼ N (0, 16). Gli errori di misura XA e XB sono v.a. indipendenti. (a.) Se voi foste il tecnico che strumento usereste? (b.) Se il tecnico effettua la misura con lo strumento A qual `e la probabilit`a che l’errore sia di modulo minore di 4? (c.) Il tecnico effettua due misure, una con lo strumento A ed una con lo strumento B, poi calcola la media aritmetica delle due misure, ovvero M = 12 MA + 21 MB che considera come misura finale. Qual `e la probabilit`a che la misura M sia affetta da un errore di modulo minore di 4? (d.) Il tecnico vuole tenere conto della diversa precisione degli strumenti e quindi calcola la misura finale come Mc = (1 − c)MA + cMB dove c ∈ [0, 1]. Caratterizzare la densit`a dell’errore che affligge la misura Mc e calcolare il valore di c ∈ [0, 1] che minimizza la varianza dell’errore. (e.) Usando lo strumento A, e calcolando la misura finale come media aritmetica delle misure effettuate, quante misure deve effettuare il tecnico per avere probabilit`a almeno 0.95 che il modulo dell’errore sia inferiore a 0.1 unit`a? 111

Soluzione (a.) Il tecnico desidera minimizzare l’errore di misura. Poich`e il processo di misura `e modellato probabilisticamente `e naturale decidere quale strumento usare confrontando le distribuzioni dell’errore di misura. Gli errori di misura sono rispettivamente XA ∼ N (0, 9) ` noto che se W ∼ N (µ, σ 2 ) allora P (|W −µ| < 3σ) ≈ 0.997. Il tecnico ed XB ∼ N (0, 16). E quindi sa a priori che P (|XA | < 9) = P (|XB | < 12) = 0.997. Con probabilit`a 0.997 il modulo dell’errore `e minore di 9 unit`a se si usa lo strumento A, mentre `e minore di 12 unit`a se si usa lo stumento B. Conviene usare lo strumento A. (b.)  P (|XA | < 4) = P

|XA | 4 < 3 3



  4 = 2Φ − 1 ≈ 2 · 0.9082 − 1 ≈ 0.82 3

(c.) Le v.a. MA e MB sono rispettivamente MA ∼ N (µ, 9) ed MB ∼ N (µ, 16), ed indipendenti, quindi M = 21 MA + 12 MB `e una v.a. N ( 21 µ + 12 µ, 14 9 + 41 16) = N (µ, 25 4 ). L’errore di misura sar` a in questo caso M − µ ∼ N (0, 25 ). La probabilit` a che l’errore sia 4 in valore assoluto sotto alle 4 unit` a `e     8 |M − µ| 4 = 2Φ − 1 ≈ 2 · 0.9452 − 1 ≈ 0.89 P (|M − µ| < 4) = P < 5/2 5/2 5 Questa probabilit` a `e maggiore di quella al punto (b.) e questa `e una buona notizia. Significa che il modulo dell’errore `e sotto alle 4 unit`a con probabilit`a pi` u alta. Prendere due misure e calcolarne la media aritmetica produce una misura finale migliore, anche se la seconda misura `e presa con uno strumento di qualit`a inferiore. Ma si pu`o far di meglio che combinare le due misure calcolandone la media aritmetica: vedi parte (d.). (d.) Mc = (1 − c)MA + cMB , quindi Mc ∼ N (µ, 9(1 − c)2 + 16c2 ). L’errore di misura `e M −µ ∼ N (0, 9(1−c)2 +16c2 ). La varianza dell’errore di misura `e σ 2 (c) = 9(1−c)2 +16c2 . d 2 Derivando rispetto a c ed annullando la derivata otteniamo dc σ (c) = −18(1 − c) + 32c = 2 9 d 2 0 ⇒ c = 25 Questo `e effettivamente il minimo poich`e dc2 σ (c) = 18 + 32 > 0 ovunque. La    9 9 2 9 2 varianza ottimale vale σ 2 25 = 9 1 − 25 + 16 25 = 5.76 Calcoliamo per curiosit` a la probabilit`a che l’errore stia sotto alle 4 unit`a se il tecnico 9 combina le due misure in modo ottimale, cio`e usando c = 25 . La misura ottenuta sar`a 16 9 ∗ M = 25 MA + 25 MB ∼ N (µ, 5.76) e la probabilit`a cercata vale  ∗  |M − µ| 4 ∗ √ P (|M − µ| < 4) = P 0 `e noto. Per ognuno degli utenti connessi, indipendentemente l’uno dall’altro, la probabilit`a di essere uomo `e p. Sia Y la variabile aleatoria che rappresenta il numero di uomini (che si connettono al sito unipd.it in un intervallo di tempo di 1 minuto). Calcolare la densit`a di Y .

Esercizio 5. Effettuo lanci indipendenti con una moneta che ha P (T ) = p. Sia X il numero di lanci fino al primo successo ed Y il numero di lanci fino al secondo successo. Si determini pXY (k, h), pY (h), pX|Y (k|h), pX (k) (ovviamente sappiamo gi`a che pX (k) `e G(p)). Infine si determini, senza fare calcoli, E(Y ).

114

Lezione 20 20.1

(Marted`ı, 23 aprile 2013, ore 16:25-18:05)

Classificazione delle variabili aleatorie: discrete, continue e miste

Abbiamo finora discusso due classi di variabili aleatorie, le discrete e le assolutamente continue. Le variabili aleatorie discrete sono quelle ad alfabeto discreto e la cui funzione di distribuzione (FdD) `e quindi costante a tratti, con salti in corrispondenza ai valori dell’alfabeto. Le variabili aleatorie assolutamente continue sono quelle che ammettono ` interessante osservare che la classificazione pu`o densit`a ed hanno quindi FdD continua. E essere fatta basandosi esclusivamente sulle propriet`a della FdD. In tal senso si classificano come discrete o assolutamente continue indifferentemente le variabili aleatorie o le loro FdD. In questa lezione introduciamo le variabili aleatorie miste, una classe pi` u generale di variabili aleatorie, di grande interesse applicativo, e che comprende come casi particolari le discrete e le assolutamente continue. Anche le v.a. miste si caratterizzano sulla base di propriet` a della FdD. Iniziamo richiamando le rappresentazioni analitiche delle FdD discrete ed assolutamente continue. La FdD F d (x) `e discreta se essa si pu`o rappresentare come X F d (x) = p(xi )1l(x − xi ) xi ∈X

` dove p(xi ) `e una densit` a discreta ed 1l(x) `e il gradino unitario (continuo a destra). E d immediato concludere che la funzione F `e costante a tratti, con salti nei punti xi ∈ X , dove X ⊂ R `e un insieme discreto. La FdD F ac (x) `e assolutamente continua se essa si pu‘ørappresentare come Z x ac F (x) = f (w) dw −∞

per qualche f (·) funzione integrabile secondo Riemann. Il teorema fondamentale del calcolo garantisce che la funzione F ac `e continua per ogni x ∈ R. ` interessante notare che E (a.) Non tutte le FdD discontinue sono costanti a tratti. (b.) Non tutte le FdD continue sono assolutamente continue. In questa lezione vedremo alcuni esempi del caso (a.). Esempi del caso (b.) sono pi` u complicati (FdD continue singolari) e sono rimandati ad una futura appendice. Combinazioni convesse di funzioni di distribuzione Lemma. Siano F1 (x) ed F2 (x) due FdD qualunque. Per ogni λ ∈ [0, 1] la funzione F (x) = λF1 (x) + (1 − λ)F2 (x),

x∈R

`e una FdD. ` sufficiente verificare che F (x) `e non decrescente, continua da destra, Dimostrazione. E con limiti F (−∞) = 0 ed F (∞) = 1. Tutte queste propriet`a sono immediate conseguenze delle ipotesi. Domanda: perch´e `e essenziale l’ipotesi λ ∈ [0, 1]?

115

Corollario. Sia {Fi (x)}ni=1 una sequenza di FdD qualunque e {αi }ni=1 una sequenza di Pn numeri reali nonnegativi tali che i=1 αi = 1, allora la funzione F (x) =

n X

αi Fi (x),

x∈R

i=1

`e una FdD. Se le FdD {Fi (x)}i sono discrete allora F (x) `e discreta. Se le {Fi (x)} sono assolutamente continue, allora F (x) `e assolutamente continua. Dimostrazione. La prima parte si dimostra per induzione finita a partire dal Lemma precedente. La seconda parte Pdiscende immediatamente dalle definizioni. Domanda: perch´e `e essenziale l’ipotesi che i αi = 1? Micro-esercizio. Nel caso in cui le {Fi (x)}ni=1 sono assolutamente continue, di densit`a rispettive {fi (x)}ni=1 , qual `e la densit`a di F (x)? Definizione. Sia {Fi (x)}ni=1 una sequenza di FdD qualunque e {αi }ni=1 una sequenza di Pn numeri reali nonnegativi tali che i=1 αi = 1, allora la FdD F (x) =

n X

αi Fi (x),

x∈R

i=1

`e detta mistura delle {Fi (x)}, con pesi {αi }. Non si deve pensare che una mistura di FdD sia un oggetto matematico artificioso e di scarsa utilit` a pratica. In realt` a `e molto facile incappare in variabili aleatorie la cui FdD `e una mistura di FdD. Esempi Esempio 1. Alla luce delle definizioni date in questo paragrafo, l’Esempio 1, del paragrafo 14.2, mostra un esempio di variabile aleatoria discreta la cui FdD `e la mistura di due FdD geometriche. Esempio 2. Ogni FdD discreta `e una mistura di FdD discrete degeneri. Spiegazione. Avevamo gi` a osservato che, per ogni c ∈ R, il gradino traslato 1l(x − c) `e una FdD. Infatti 1l(x − c) `e nondecrescente, continua da destra, si annulla per x → −∞ e vale 1 per x → ∞. Ha un unico salto, in x = c, di ampiezza 1. Denotando X una v.a. con FdD 1l(x − c) si ha che P (X = c) = P (X ≤ c) − P (X < c) = F (c) − F (c−) = 1, ovvero X `e una v.a. degenere, X = c costante. Poich´e ogni FdD discreta si pu`o rappresentare come X F d (x) = p(xi )1l(x − xi ), xi ∈X

dove {p(xi )} sono reali nonnegativi, tali che mistura di FdD degeneri.

P

xi ∈X

p(xi ) = 1, si conclude che F d (x) `e una

Esempio 3. Nel magazzino della squadra di minuto mantenimento del DEI si trovano 80 tubi al neon di durata media dichiarata di 8.000 ore e 40 tubi di durata media 12.000 ore. Uno dei tubi dell’aula Ve `e esaurito ed il manutentore K, per effettuare la sostituzione, sceglie un tubo a caso dal magazzino. Si assuma che la durata di un tubo al neon sia modellabile con una v.a. di tipo esponenziale. Si determini la densit`a della dux − 8.000 1 80 1l(x) + rata D del tubo scelto a caso dal manutentore. Soluzione. fD (x) = 120 8000 e x − 12.000 40 1 e 1 l(x), ` e una mistura di due v.a. assolutamente continue, esponenziali. Si 120 12.000 noti che non `e un’esponenziale! 116

Variabili aleatorie miste Quando le FdD che compongono una mistura non sono tutte dello stesso tipo, la F (x) risultante presenta caratteristiche nuove ed interessanti. Definizione. Una FdD che presenta almeno un salto e che non `e costante a tratti `e detta mista. Una variabile aleatoria `e detta mista se la sua FdD `e mista. Osservazione. Ovviamente la FdD di una v.a. mista non `e n´e discreta (poich´e non `e costante a tratti) n´e assolutamente continua (poich´e ha almeno un salto). La descrizione ` comunque interessante, ed utile generale delle v.a. miste esula dagli scopi del corso. E nelle applicazioni, il caso illustrato nel seguente esempio. Esempio. La mistura F (x) = λF d (x) + (1 − λ)F ac (x) (con λ ∈ (0, 1)) di una FdD assolutamente continua e di una FdD discreta `e una FdD mista. Infatti la FdD F (x) si pu`o rappresentare come (tracciare un grafico qualitativo!) Z x X d f ac (w) dw F (x) = λ p (xi )1l(x − xi ) + (1 − λ) −∞

xi ∈X

che ha salti in corrispondenza dei punti xi e non `e costante a tratti grazie alla presenza della parte integrale. Non essendo continua F (x) non pu`o essere assolutamente continua, quindi non ammette una funzione di densit`a nel senso usuale, `e per`o possibile definire una densit`a generalizzata, usando le regole del calcolo generalizzato. La densit`a generalizzata si pu`o rappresentare come X f (x) = λ pd (xi )δ(x − xi ) + (1 − λ) f ac (x). xi ∈X

Il valore atteso si determina facendo ricorso alle note regole di calcolo con le funzioni generalizzate. Z ∞ E(X) = xf (x) dx −∞ Z ∞  X  = x λ pd (xi )δ(x − xi ) + (1 − λ) f ac (x) dx −∞

= λ

X

xi ∈X

Z

d



xi p (xi ) + (1 − λ)

xf ac (x) dx

−∞

xi ∈X

Nel seguente esercizio si propone un esempio concreto di mistura di due FdD, una assolutamente continua, l’altra discreta. Esercizio. Si consideri il seguente gioco. Si lancia una moneta. Se esce Testa il giocatore deve far girare l’ago di una ruota della fortuna, il cui bordo `e graduato nell’intervallo [0, 2]. Quando la ruota si ferma il banco paga al giocatore la cifra in euro corrispondente alla posizione dell’ago sul bordo della ruota. Se esce Croce il giocatore paga 1 euro al banco. Sia V la variabile aleatoria che rappresenta la vincita netta del giocatore. Calcolare la densit`a e il valore atteso h di V . i h i Soluzione. fV (x) =

1 2

1 2

1l[0,2] (x) +

1 2

δ(x + 1) . Il gioco `e equo, infatti E(V ) = 0.

Micro-esercizio. Tracciare la FdD della variabile aleatoria V .

117

20.2

Funzioni di variabili aleatorie

Motivazione. Abbiamo visto che assegnata una variabile aleatoria discreta X ed una funzione g : R → R, la funzione composta Y = g(X) `e sempre una variabile aleatoria. Il risultato pi` u importante per le funzioni di variabili aleatorie discrete `e il teorema che consente di calcolarne il valore atteso, quando esiste, a partire dalla densit`a discreta di X X E(g(X)) = g(xi )pX (xi ). xi ∈X

Una formula analoga l’abbiamo anche scritta, nella Lezione 17, trattando il valore atteso delle variabili aleatorie assolutamente continue Z ∞ g(x)fX (x) dx, E(g(X)) = −∞

ma senza fornire condizioni sufficienti a garantire che l’operazione sia matematicamene ben definita. Funzioni di variabili aleatorie. La prima condizione da imporre `e che assegnata la variabile aleatoria X e la funzione g : R → R la funzione composta Y := g(X) sia ancora una variabile aleatoria. Nel caso generale ci`o non `e automatico poich´e deve essere garantita la misurabilit` a delle anti-immagini. Fortunatamente esiste una condizione sufficiente molto semplice. Definizione. La funzione g : R → R si dice misurabile se, per ogni B ∈ B(R), g −1 (B) := { x ∈ R ; g(x) ∈ B } ∈ B(R) Commento. L’idea di misurabilit` a `e esattamente la stessa introdotta per definire le variabili aleatorie. Poich´e nel caso generale le σ-algebre giocano un ruolo, `e comune indicare la variabile aleatoria X : Ω → R con la scrittura pi` u completa, che mette in evidenza le σ-algebre di partenza e di arrivo, X : (Ω, F) → (R, B(R)). Allora X `e una v.a. se X −1 (B) ∈ F per ogni B ∈ B(R). Nel caso di funzioni g : R → R, dominio e codominio di g coincidono con R, dotato della sua naturale σ−algebra di Borel, cio`e g : (R, B(R)) → (R, B(R)) e la condizione di misurabilit` a `e che g −1 (B) ∈ B(R) per ogni B ∈ B(R). L’ipotesi di misurabilit` a `e molto blanda. Le funzioni continue, ma anche le funzioni solamente continue a tratti, sono tutte misurabili. Per questo motivo, in questo primo corso di Probabilit` a, non menzioneremo pi` u le questioni di misurabilit` a per funzioni g : R → R.

Lemma. Se X `e una variabile aleatoria e g : R → R una funzione misurabile allora Y = g(X) `e una variabile aleatoria. Dimostrazione. Basta verificare la misurabilit`a delle anti-immagini di g(X) ovvero veri −1  −1 ficare che g(X) (B) ∈ F per ogni B ∈ B(R). Poich´e g(X) (B) = X −1 g −1 (B)), l’ipotesi su g e il fatto che X `e una variabile aleatoria sono sufficienti a conludere.

Siamo ora in grado di specificare condizioni sufficienti per l’esistenza del valore atteso di una funzione di variabile aleatoria assolutamente continua. Lemma. Se X `e una variabile aleatoria assolutamente continua di densit`a fX , e se g `e una funzione misurabile tale che |g(x)|fX (x) `e integrabile allora il valore atteso E(g(X)) esiste e si pu`o calcolare come Z ∞

E(g(X)) =

g(x)fX (x) dx. −∞

Dimostrazione. Omessa. 118

Calcolo della densit` a di Y = g(X) Motivazione. Come abbiamo visto, sia nel caso discreto che nel caso assolutamente continuo, il valore atteso E(g(X)) si pu`o calcolare senza necessariamente calcolare preliminarmente la densit` a fY (y) della variabile aleatoria Y = g(X). Peraltro vi sono casi in cui il problema della determinazione della densit`a di Y = g(X) `e interessante per s´e. Ad esempio, nella Lezione 18, abbiamo scoperto che la densit`a normale `e invariante per trasformazioni lineari: se X ∼ N (µ, σ 2 ) e Y = g(X) := aX + b allora Y `e ancora distribuita normalmente. Questa informazione `e stata preziosa per ridurre i calcoli di probabilit`a per qualunque v.a. normale a calcoli relativi alla v.a. normale standard. In questa e nella prossima lezione presenteremo metodi per il calcolo della densit`a fY (y) che illustreremo con svariati esempi. Il problema di base si pu`o impostare come segue. Data la funzione di distribuzione FX (x), o in alternativa la densit`a fX (x), e la funzione misurabile g : R → R, determinare la funzione di distribuzione FY (y), o in alternativa la densit` a fY (y), della v.a. Y = g(X). Una strategia molto conveniente (non l’unica) per risolvere questo tipo di problemi `e di ricavare la funzione di distribuzione FY (y) a partire dai dati (FX (x) o fX (x) e g(x)) e d quindi calcolare, dove esiste, fY (y) = dy FY (y). In generale si tratta di calcolare   FY (y) := P (Y ≤ y) = P (g(X) ≤ y) = P X ∈ g −1 (−∞, y] , da cui, se richiesta, si pu` o determinare la densit`a fY (y), calcolando la derivata rispetto ad y del membro destro. Si noti che il calcolo delle anti-immagini  g −1 (−∞, y] si pu`o condurre, per cos`ı dire, “fuori linea” nel senso che esse non dipendono in alcun modo dalla distribuzione FX (x). Una volta calcolate, le anti-immagini si possono utilizzare per determinare FY (y) qualunque sia FX (x). Primi esempi di calcolo della densit` a di Y = g(X)  Esempio 1. Dati: y = g(x) = ax + b, con a 6= 0 ed X ∼ U [c, d] . Cominciamo con la determinazione di    P X≤  FY (y) = P (Y ≤ y) = P (aX + b ≤ y) =  P X≥



y−b a  y−b a

= FX





y−b a

= 1 − FX

,

y−b a

se a > 0, 

, se a < 0,

e calcolando la derivata rispetto ad y, compattando i due casi a > 0 e a < 0,   1 y−b fY (y) = fX . |a| a  Per concludere ricordiamo che la v.a. X ∼ U [c, d] ha densit`a  1 d−c , se x ∈ [c, d], fX (x) = 0, altrove quindi sar` a ( fY (y) =

1 1 |a| d−c ,

0, 119

se y−b a ∈ [c, d], altrove

o, pi` u esplicitamente, 1 |a|(d−c) ,

se y ∈ [ac + b, ad + b], 0, altrove  La conclusione `e che Y ∼ U [ac + b, ad + b] . 

fY (y) =

Commento: Questo esempio mostra che anche la densit`a uniforme, come la normale, `e invariante per trasformazioni lineari. Esempio 2. Dati: y = g(x) = ax + b, con a > 0 ed X ∼ Exp(λ). Quanto fatto per l’esempio precedente continua a valere, parola per parola, fino all’espressione   1 y−b fY (y) = FX0 (y) = fX a a poich´e questa parte del problema dipende solo dalla funzione g(x) e non dalla densit`a della variabile aleatoria X. Per concludere ricordiamo che per la v.a. X ∼ Exp(λ) la densit`a fX (x) = λe−λx 1l(x). Sostituendo troviamo che   λ −λ y−b y−b a 1 fY (y) = e . l a a  Commento. Se b = 0 allora Y ∼ Exp λa , mentre se b 6= 0 allora la v.a. Y non `e pi` u di tipo esponenziale poich´e essa non `e pi` u concentrata sulla semiretta [0, ∞), bens`ı sulla semiretta [b, ∞). La densit` a esponenziale `e invariante per trasformazioni di cambio scala con a > 0, non per trasformazioni lineari generali. Esercizio. Considerare il caso a < 0. In questo caso la densit`a fY (y) non `e mai esponenziale, poich´e essa `e concentrata sulla semiretta (−∞, b]. Esempio 3. Dati: y = g(x) = xa , con a > 0 ed X ∼ Cauchy(α), ovvero fX (x) =

1 α 2 π x + α2

Cominciamo con il determinare la FdD FY (y).   FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P X ∈ g (−1) (−∞, y]  Si devono calcolare le anti-immagini g (−1) (−∞, y] , al variare di y ∈ R. I grafici qui sotto permettono di concludere che  h  a  , 0 , se y < 0,    y (−1) (−∞, 0) h g (−∞, y] =  se y = 0,    (−∞, 0) ∪ a , ∞ se y > 0. y

La FdD di Y = g(X) vale quindi 

FY (y) = P X ∈ g (−1)

 R0 se y < 0,   ay fX (u) du,   (−∞, y] = P (X < 0), se y = 0,   P (X < 0) + R a∞ f (u) du, se y > 0. X y

Ricordando che d dx

Z

b

 da(x) f (u) du = −f a(x) , dx a(x) 120

si determina la densit` a fY (y) calcolando la derivata di FY (y).   a dFY (y) a fY (y) = fX y ∈ R \ {0} = 2 dy y y I conti fatti finora forniscono la densit`a di Y = Xa (con a > 0) in funzione di fX (x). Specializzando al caso fX (x) = Cauchy(α) troviamo fY (y) =

= da cui si conclude che Y ∼ Cauchy 1 X ∼ Cauchy(1).

a α



α a 1  2 2 y π a + α2 y a 1 α  π y2 + a 2 α

. In particolare, se X ∼ Cauchy(1) allora Y :=

Esempio 4. Dati: y = g(x) = x1l(x), funzione rampa, e X ∼ N (0, 1). Osservazione. Questo esempio `e importante poich´e si verifica un fenomeno inaspettato ed inquietante. La funzione g(x) `e ovunque continua e la variabile aleatoria X `e assolutamente continua, con densit` a estremamente regolare (la normale `e di classe C ∞ (R)), ciononostante la variabile aleatoria Y = X1l(X) `e, come vedremo, una v.a. mista. Iniziamo con il calcolo della distribuzione di Y [conviene sempre tracciare il grafico di g].  0, se − ∞ < y < 0, FY (y) = P (Y ≤ y) = P (X1l(X) ≤ y) = P (X ≤ y), se y ≥ 0, che, in termini di FX ed usando il gradino per compattare la notazione, si scrive FY (y) = FX (y) 1l(y) Nota Bene. Per capire cosa succede si devono tracciare i grafici. La FY (y) `e nulla per y < 0, vale FY (0) = FX (0) = 21 per y = 0, ed `e crescente per y > 0. Questo `e il comportamento della funzione di distribuzione di una v.a. mista: ha un salto, ma non `e costante a tratti. Qual `e la spiegazione intuitiva per questo inaspettato comportamento della v.a. Y = g(X) pur con g ed fX molto regolari?

121

Tutto dipende dal fatto che la funzione g(x) `e costante in un intervallo, in questo caso la semiretta (−∞, 0]. Questo fa si che tutta la probabilit`a che la v.a. X attribuisce alla semiretta (−∞, 0] si concentri nel punto Y = 0. Dal grafico della g (vi avevo detto di tracciarlo?), e poich´e X ∼ N(0, 1), `e ovvio che P (Y = 0) = P (X ≤ 0) = 21 . Ma noi sappiamo che, per una v.a. continua, P (Y = y) = 0 per ogni y ∈ R. Quindi Y non pu` o essere continua. Per terminare i calcoli relativi all’esempio calcoliamo la densit`a fY (y) come derivata di FY (y). Sapendo che la v.a. Y non `e assolutamente continua ci aspettiamo una parte impulsiva nella densit` a, corrispondente alla parte discreta della v.a. Y , in questo caso il solo punto Y = 0 di probabilit` a P (Y = 0) = 21 . d FY (y) = fX (y)1l(y) + FX (0) δ(y) dy 1 2 1 1 = √ e− 2 y 1l(y) + δ(y) 2 2π   1 2 − 1 y2 1 √ e 2 1l(y) + δ(y) = 2 2 2π L’ultima formula esprime la densit` a generalizzata di Y come mistura, con entrambi i pesi 1 2 pari ad 21 , della densit` a assolutamente continua √22π e− 2 y 1l(y) e della densit`a generalizzata, discreta, degenere δ(x). Attenzione.

1 2 √2 e− 2 y 2π

1l(y) `e una densit`a, mentre

1 2 √1 e− 2 y 2π

1l(y) non `e una densit`a: perch´e?

Micro-esercizio fondamentale. La scrittura U ∼ V indica che le v.a. U e V hanno la medesima FdD e/o densit` a. Per sviluppare la vostra intuizione, senza fare nessun conto, convincetevi che, con la funzione rampa, g(x) = x1l(x), • se X ∼ Exp(λ) allora g(X) ∼ X, • se X ∼ U([a, b]), con 0 ≤ a < b, allora g(X) ∼ X • se X ∼ U([−2, −1]), allora g(X) = 0, la v.a. degenere, costante pari a 0. • se X ha densit` a concentrata nella semiretta [0, ∞), qualunque, allora g(X) ∼ X • se X ha densit` a concentrata nella semiretta (−∞, 0], qualunque, allora Y = g(X) = 0, variabile aleatoria degenere costante.

Morale della lezione. Chi all’inizio della lezione ha ritenuto le variabili aleatorie miste una strana costruzione teorica di nessuna rilevanza pratica deve ricredersi. Le v.a. miste si presentano automaticamente in contesti molto comuni. Abbiamo visto che si ottengono v.a. miste modellando fenomeni con un doppio meccanismo aleatorio, uno discreto ed uno continuo (esempio del gioco con moneta e ruota della fortuna). Inoltre v.a. miste si generano molto naturalmente processando una v.a. continua X con semplici funzioni g(X).

122

Appendice alla Lezione 20 (non in programma nell’a.a. 12/13) Decomposizione delle funzioni di distribuzione ` possibile descrivere in modo semplice la famiglia di tutte le FdD. Allo scopo ricordiamo E che sono FdD tutte e sole le funzioni F : R → R+ tali che (a.) F (x) `e non descrescente, (b.) F (x+) = F (x) per ogni x ∈ R, (c.) valgono i limiti F (−∞) = 0, F (∞) = 1. Ricordiamo che se F (x) `e una FdD esiste sempre F (x−). Se F (x−) = F (x+) allora x `e un punto di continuit` a di F (x), altrimenti x `e un punto di salto e vale P (X = x) = F (x) − F (x−). Denotiamo con D l’insieme dei punti di salto di F (x), in simboli D := { x ∈ R | F (x) − F (x−) > 0 } Lemma. Qualunque sia F (x) il corrispondente insieme D `e numerabile. Dimostrazione. Sia Dk = {x ∈ R|F (x) − F (x−) > k1 } l’insieme dei punti di discontinuit`a di F con salto di ampiezza superiore a k1 . Dato che 0 ≤ F (x) ≤ 1, la cardinalit`a di Dk `e minore o uguale a k. Poich`e D = ∪∞ e una unione numerabile di insiemi di cardinalita k=1 Dk ` finita si conclude che D `e al pi` u numerabile. Poich´e D `e numerabile la seguente somma `e ben definita (`e una somma finita se D `e un insieme finito, una serie se D `e infinito numerabile) e convergente X p := FX (x) − FX (x−) = P (X ∈ D) x∈R

Chiaramente p ∈ [0, 1] poich`e F (x) ∈ [0, 1] ed i salti sono tutti nonnegativi. Convincetevi dell’ultima asserzione. Se p = 0 la FdD `e una funzione continua (non ha cio`e nessun salto), ma non `e necessariamente assolutamente continua (cio`e non ammette necessariamente densit`a). Se p = 1 i salti della FdD contribuiscono tutta la massa di probabilit`a quindi la FdD `e costante a tratti, cio`e discreta. Infine, se 0 < p < 1 allora la FdD presenta almeno un salto, e non `e costante a tratti ovvero `e mista. Il seguente teorema mostra che ogni FdD `e una mistura di una FdD continua e di una discreta. Teorema. Ogni FdD F (x) con 0 < p < 1 `e rappresentabile, in modo unico, come mistura F (x) = p F d (x) + (1 − p) F c (x)

(1)

dove F d (x) `e una FdD discreta ed F c (x) `e una FdD continua (non necessariamente assolutamente continua). Dimostrazione (costruttiva). Sia X una qualunque variabile aleatoria la cui FdD `e F (x) (l’introduzione della v.a. X non `e indispensabile, ma conveniente notazionalmente). Dalla formula della probabilit` a totale F (x) = P (X ≤ x) = P (X ≤ x|X ∈ D)P (X ∈ D) + P (X ≤ x|X ∈ Dc )P (X ∈ Dc ) Osserviamo che, per definizione, P (X ∈ D) = p, inoltre le funzioni di x definite da P (X ≤ x|X ∈ D) e P (X ≤ x|X ∈ Dc ) sono entrambe FdD, poich`e le probabilit`a condizionate sono misure di probabilit` a rispetto al primo evento. Definiamo per brevit`a X F d (x) := P (X ≤ x|X ∈ D) = P (X = w|X ∈ D), w≤x

dove la somma, come mostreremo immediatamente, `e ben definita. Si osservi che, per ogni w ∈ R, P ([X = w] ∩ [X ∈ D]) P (X = w) P (X = w|X ∈ D) = = , (2) P ([X ∈ D]) p 123

infatti, se w ∈ D l’identit` a `e banale, mentre se w 6∈ D allora w P`e un punto di continuit`a di F (x) e quindi entrambi i membri si annullano. La somma w≤x P (X = w|X ∈ D) `e dunque ben definita, poich´e gli addendi sono non nulli solo per w ∈ D che `e un insieme numerabile. Si ottiene F d (x) := P (X ≤ x|X ∈ D) =

X

P (X = w|X ∈ D) =

w≤x

X P (X = w) p

w∈D w≤x

L’ultima espressione dimostra che F d (x) `e effettivamente una FdD discreta. La componente continua F c (x) si determina sottraendo la parte discreta e rinormalizzando. Si definisca F (x) − pF d (x) F c (x) = P (X ≤ x|X ∈ Dc ) = (3) 1−p ` facile verificare che F c (x) `e continua (esercizio – suggerimento: basta verificare che E F c (x) − F c (x−) = 0 nei punti x ∈ D). Per terminare la dimostrazione basta osservare che la (3) e la (1) sono equivalenti. Aggiungere dimostrazione unicit`a. Osservazione. Nei casi d’interesse la costruzione della mistura `e molto semplice. Si determina p facendo la somma dei salti di F (x). Quindi si costruisce F d (x) sommando i salti nella semiretta (−∞, x] e normalizzando dividendo per p. Una volta ottenuta la componente F d (x) si effettua la differenza (3). Esempio 1. Determinare la rappresentazione in termini di mistura della FdD mista FX (x) in figura.

6F (x) X

1 t

p -

−1

1

2

x

La mistura cercata `e FX (x) = p FXd (x) + (1 − p) FXc (x) dove FXd (x) e

 =

0, x < −1, 1, 1 ≤ x.

  0, x < 0, c x , 0 ≤ x < 2, FX (x) =  2 1, 1 ≤ x.

Si riconosce per ispezione che FXd (x) `e la FdD degenere concentrata in -1, mentre F c (x) `e la FdD uniforme U (0, 2), quindi assolutamente continua. La funzione di densit`a generalizzata corrispondente ad F (x) `e 1 f (x) = p δ(x + 1) + (1 − p) (1l(x) − 1l(x − 2)) 2

124

Esercizio proposto. Determinare (graficamente!) la rappresentazione in termini di mistura della FdD in figura. 6FX (x) t

1

0.8

t

0.6 0.4

t

0.2

-

-1

-0.8 -0.6

0.4

125

x

Lezione 21 21.1

(Mercoled`ı, 24 aprile 2013, ore 16:25-18:05)

Vettori aleatori

Abbiamo introdotto i vettori aleatori discreti nella Lezione 14. Vedremo ora il caso generale, e discuteremo in dettaglio i vettori aleatori assolutamente continui. Definizione. Sia ( Ω, F, P ) uno spazio di probabilit`a assegnato. Un vettore aleatorio su Ω `e una mappa  W : Ω → Rn , ω 7→ W(ω) = W1 (ω), . . . Wn (ω) tale che (condizione di misurabilit` a) W(−1) (B) ∈ F,

per ogni B ∈ B(Rn )

Osservazioni (a.) La σ-algebra di Borel di Rn , denotata B(Rn ), `e la minima σ-algebra che contiene gli aperti di Rn . (b.) Se W `e un vettore aleatorio, le sue componenti Wi sono variabili aleatorie, infatti la misurabilit` a delle funzioni Wi (ω), per i = 1, . . . n `e una facile conseguenza della misurabilit` a del vettore. Come per le variabili aleatorie scalari, anche per i vettori aleatori interessa probabilizzare lo spazio dei valori, in questo caso Rn . Utilizzando la tecnica introdotta con le variabili aleatorie discrete, poi estesa ai vettori discreti e alle variabili aleatorie scalari generali, la misura di probabilit` a indotta da P su Rn `e definita come   P W (B) := P W(−1) (B) , per ogni B ∈ Rn Abbiamo gi` a visto (Lezione 16) che, per una variabile aleatoria scalare X, la misura indotta P X `e completamente specificata dalla funzione di distribuzione FX (x) := P (X ≤ x) = P X ( (−∞, x] ). L’analogo multidimensionale della FdD `e la funzione di distribuzione congiunta del vettore W, definita come FW (w1 , w2 , . . . wn ) := P ( W1 ≤ w1 , W2 ≤ w2 , . . . Wn ≤ wn ). Come nel caso scalare, anche nel caso vettoriale la FdD congiunta caratterizza completamente la misura indotta P W , come illustrato di seguito nel caso bidimensionale. Vettori aleatori bidimensionali Per semplicit` a notazionale consideriamo il caso n = 2, ovvero i vettori bidimensionali W = (W1 , W2 ). Ci riferiremo indifferentemente al vettore W o alla coppia di variabili aleatorie (W1 , W2 ). Per denotare le componenti di un vettore bidimensionale useremo indifferentemente le notazioni (W1 , W2 ), o (X1 , X2 ), o (X, Y ). Definizione. La FdD congiunta della coppia di variabili aleatorie (X, Y ) `e FXY (x, y) := P (X ≤ x, Y ≤ y) = P ( (X, Y ) ∈ B ),

dove B = (−∞, x] × (−∞, x]

Lemma. La FdD congiunta caratterizza completamente P XY . Dimostrazione. Per ogni rettangolo R := (x1 , x2 ] × (y1 , y2 ] ∈ R2 , si ha che, vedi figura, P XY (R) = P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = FXY (x2 , y2 ) − FXY (x1 , y2 ) − FXY (x2 , y1 ) + FXY (x1 , y1 ) 126

(1)

6

6

6

6

y2 R

y1 +

x1

-

-

x2

-





-

+

Poich´e ogni evento B ∈ B(Rn ) si pu`o rappresentare come unione numerabile di rettangoli si conclude che FXY (x, y) caratterizza completamente la probabilit`a indotta su R2 . Propriet` a della FdD bidimensionale (a.) FXY (−∞, −∞) := limx,y→−∞ FXY (x, y) = 0. (b.) FXY (∞, ∞) := limx,y→∞ FXY (x, y) = 1. (c.) FXY (∞, y) := limx→∞ FXY (x, y) = FY (y). (d.) FXY (x, ∞) := limy→∞ FXY (x, y) = FX (x). Dimostrazione. Sono tutte conseguenze della continuit`a della misura di probabilit`a. Per la (a.) si osservi che lim [X ≤ x] ∩ [Y ≤ y] = ∅ ∩ ∅ = ∅,

x,y→−∞

quindi, per la continuit` a della probabilit`a, lim

x,y→−∞

FXY (x, y) =

lim

x,y→−∞

P ([X ≤ x] ∩ [Y ≤ y]) = P (∅) = 0

Per la (b.) basta osservare che lim [X ≤ x] ∩ [Y ≤ y] = Ω ∩ Ω = Ω,

x,y→∞

quindi, per la continuit` a della probabilit`a, lim FXY (x, y) = lim P ([X ≤ x] ∩ [Y ≤ y]) = P (Ω) = 1

x,y→∞

x,y→∞

Per la (c.) si osservi che lim [X ≤ x] ∩ [Y ≤ y] = Ω ∩ [Y ≤ y] = [Y ≤ y],

x→∞

quindi, per la continuit` a della probabilit`a lim FXY (x, y) = lim P ([X ≤ x] ∩ [Y ≤ y]) = P ([Y ≤ y]) = FY (y)

x→∞

x→∞

ed analogamente si dimostra la (d.).

127

21.2

Vettori aleatori bidimensionali assolutamente continui

Questo `e il caso in cui esiste una funzione fXY (x, y), non negativa e integrabile secondo Riemann su R2 , tale che Z y Z x FXY (x, y) = fXY (u, v) dudv −∞

−∞

La funzione fXY `e detta densit` a congiunta della coppia di v.a. (X, Y ). Propriet` a della densit` a congiunta (a.) Non-negativit` a fXY (x, y) ≥ 0

per ogni (x, y) ∈ R2 .

(b.) Normalizzazione ZZ fXY (x, y) dxdy = 1, R2

conseguenza immediata della FXY (∞, ∞) = 1. Lemma. Ogni funzione f (x, y) integrabile secondo Riemann su R2 , non-negativa e normalizzata `e la funzione di densit` a di una coppia di variabili aleatorie (X, Y ).

(La dimostrazione ricalca quella del caso scalare)

(c.) Relazione con la FdD. In ogni punto (x, y) ∈ R2 di continuit`a della densit`a fXY (x, y), fXY (x, y) =

∂2 FXY (x, y), ∂x∂y

come segue dal teorema fondamentale del calcolo. (d.) Calcolo della probabilit` a di eventi assegnati Per i rettangoli il calcolo `e immediato. Sia R := (x1 , x2 ] × (y1 , y2 ], allora ZZ P ((X, Y ) ∈ R) = fXY (x, y) dσ Z yR2 Z x2 = fXY (x, y) dxdy, y1

x1

infatti, utilizzando la FdD congiunta e ricordando la (1), P ((X, Y ) ∈ R) = P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = FXY (x2 , y2 ) − FXY (x1 , y2 ) − FXY (x2 , y1 ) + FXY (x1 , y1 ) Z y2 Z x2 Z y2 Z x1 Z y1 Z x2 Z y1 Z x1  = − − + fXY (x, y) dxdy −∞ −∞ −∞ −∞ −∞ −∞ −∞ −∞ Z y2 Z x2 ZZ = fXY (x, y) dxdy = fXY (x, y) dσ y1

x1

R

Per eventi generali, B ∈ B(R2 ), vale 

ZZ

P (X, Y ) ∈ B =

fXY (x, y) dxdy B

che si giustifica ricordando che ogni B ∈ B(Rn ) `e un unione numerabile di rettangoli ed usando poi l’addittivit` a. Il calcolo della probabilit`a di un assegnato evento si riduce quindi al calcolo di un integrale doppio. 128

(e.) Interpretazione della densit` a congiunta. Come per il caso scalare, i valori della densit`a congiunta fXY (x, y) non rappresentano probabilit` a. Si pu` o dare un’interpretazione della densit`a simile a quella data nel caso scalare. Applicando due volte il teorema della media integrale Z

b+k

Z

a+h

P (a < X ≤ a + h, b < Y ≤ b + k) =

fXY (x, y) dxdy b

Z

a b+k

fXY (ξ, y) h dy

= b

= fXY (ξ, ζ) hk ≈ fXY (a, b) hk dove ξ ∈ (a, a + h), ζ ∈ (b, b + k). Possiamo quindi scrivere P (a ≤ X ≤ a + h, b ≤ Y ≤ b + k) ≈ fXY (a, b) hk,

per h, k piccoli

(f.) Densit` a marginali. Ricordando che FY (y) = FXY (∞, y) si ha che Z y Z FY (y) = FXY (∞, y) = −∞



 fXY (u, v) du dv

−∞

e, calcolando la derivata rispetto ad y,  Z y Z ∞ d d fY (y) = FY (y) = fXY (u, v) du dv dy dy −∞ −∞ Z ∞ = fXY (u, y) du. −∞

Analogamente Z



fX (x) =

fXY (x, v) dv. −∞

Normalmente queste formule si trovano scritte come fX (x) = mente per l’altra.

R∞

−∞ fXY (x, y) dy,

ed analoga-

Osservazione. La conoscenza delle FdD FX (x) ed FY (y) delle componenti X ed Y di un vettore aleatorio (X, Y ) non `e sufficiente alla determinazione della FdD congiunta FXY (x, y). Nota bene. Per i vettori assolutamente continui, come per le v.a. scalari assolutamente continue, se l’evento si riduce ad un punto la probabilit`a `e nulla. P (X = a, Y = b) = 0,

per ogni a, b ∈ R.

Nel caso bidimensionale assolutamente continuo sono inoltre nulle le probabilit`a P (X = a, b1 ≤ Y ≤ b2 ) = 0,

P (a1 ≤ X ≤ a2 , Y = b) = 0,

ovvero: la probabilit` a di ogni rettangolo di R2 di area nulla (un segmento in R2 ) `e nulla. Immediata conseguenza di questo fatto `e che i rettangoli (x1 , x2 ]×(y1 , y2 ], [x1 , x2 ]×[y1 , y2 ], ecc. che si ottengono aggiungendo o rimuovendo frontiere ad R, hanno tutti la stessa probabilit` a. Pi` u in generale, per una propriet`a degli integrali doppi di funzioni Riemann integrabili, se il dominio d’integrazione ha area nulla, l’integrale `e nullo. Quindi se ad  2 esempio B `e una curva in R , la probabilit`a P (X, Y ) ∈ B = 0.

129

Lezione 22 22.1

(Luned`ı, 29 aprile 2013, ore 10:30-12:15)

Densit` a bidimensionale uniforme

Sia D ∈ B(R2 ), un sottoinsieme limitato. Si consideri la funzione  c se (x, y) ∈ D, f (x, y) = 0 se (x, y) ∈ / D. Facendo ricorso alla funzione indicatrice del sottoinsieme D, la funzione f si scrive in forma compatta f (x, y) = c χD (x, y). Mostriamo ora che, scegliendo opportunamente c ∈ R, la funzione f `e una funzione di densit`a congiunta. La condizione di integrabilit`a secondo Riemann `e verificata banalmente essendo f costante su D e su Dc . Affinch´e sia f (x, y) ≥ 0 `e sufficiente che c ≥ 0. Peraltro il valore di c `e imposto dalla condizione di normalizzazione, in particolare ZZ ZZ cχD (x, y) dσ = c area(D). f (x, y) dσ = R2

R2

Si ricava che c =

1 area(D)

e che la funzione f (x, y) =

1 χD (x, y) area(D)

`e una densit` a congiunta su R2 . Definizione. Il vettore (X, Y ) `e congiuntamente uniforme sul sottoinsieme limitato D ∈ B(R2 ), e si denota (X, Y ) ∼ U(D), se esso ha densit`a di probabilit`a congiunta fXY (x, y) =

1 χD (x, y) area(D)

Propriet`a della densit`a uniforme bidimensionale Per ogni sottoinsieme B ∈ B(R2 ) risulta20 P (X, Y ) ∈ B



= = = =

ZZ 1 1lD (x, y) dxdy area(D) B ZZ 1 1lB (x, y) 1lD (x, y) dxdy area(D) R2 ZZ 1 1lB∩D (x, y) dxdy area(D) R2 area(B ∩ D) , area(D)

che `e esattamente quello che l’intuizione suggerisce. Si noti che se, in particolare, B ⊂ area(B) D allora P (B) = area(D) non dipende dalla posizione del sottoinsieme B all’interno del ` questa propriet`a che giustifica il nome della densit`a. dominio D, ma solo dalla sua area. E Micro-esercizio. Meditare sull’analogia tra i vettori uniformi su un dominio limitato D ∈ B(R2 ) e le variabili aleatorie uniformi su un intervallo finito [a, b] ∈ B(R). 20

Si osservi che, se E, F ⊂ R2 allora χE (x, y) χF (x, y) = χE∩F (x, y)

130

Esercizi svolti in aula Esercizio 1. Data la funzione  f (x, y) =

x2 + 0,

xy 3

se (x, y) ∈ D, se (x, y) ∈ / D,

dove D = { (x, y); 0 ≤ x ≤ 1, 0 ≤ y ≤ 2 } Verificare che la funzione f `e una densti`a congiunta e, detto (X, Y ) un vettore di densit`a congiunta fXY = f , calcolare la probabilit`a  P (X, Y ) ∈ E , dove E = { (x, y); x + y ≥ 1 } Esercizio 2. La coppia di v.a. (X, Y ) ha densit`a congiunta uniforme nel dominio D = { (x, y); (x − 1)2 + (y − 1)2 ≤ 1 } Calcolare le densit` a marginali fX (x) e fY (y). Esercizio 3. Data la densit` a congiunta  2 −λ(x+y) λ e fXY (x, y) = 0,

se (x, y) ∈ R2+ , altrove,

 verificare che fXY `e una densit` a e calcolare P X ≥ Y .

22.2

Osservazione sui vettori misti

Abbiamo ora trattato sia i vettori aleatori discreti che quelli assolutamente continui. La classificazione delle variabili aleatorie scalari in discrete, assolutamente continue e miste vale anche nel caso vettoriale. La variet`a di possibili comportamenti `e molto maggiore nel caso vettoriale. Le componenti del vettore possono essere di diversa natura, una discreta ed una continua, e.g, (X, Y ) = (sesso, altezza), oppure almeno una delle componenti `e mista, o entrambe sono miste. Tempo permettendo vedremo nelle prossime lezioni come trattare questi casi.

22.3

Funzioni scalari Z = g(X, Y ) di vettori assolutamente continui

Sia (X, Y ) un vettore aleatorio assolutamente continuo, di densit`a congiunta fXY (x, y), e sia g : R2 → R una funzione misurabile, allora Z = g(X, Y ) `e una variabile aleatoria ed ha senso porsi il problema del calcolo (se esistono) del suo valore atteso e/o della sua densit`a. Calcolo del valore atteso Anche in questo caso il valore atteso della variabile aleatoria scalare Z = g(X, Y ) si pu`o calcolare, senza dover preliminarmente determinare la densit`a fZ (z), e vale ZZ E(g(X, Y )) = g(x, y)fXY (x, y) dxdy. R2

131

La dimostrazione, data nella Lezione 14 per il caso dei vettori discreti, non `e adattabile al caso assolutamente continuo (aggiungere dimostrazione in prossima revisione). Esempio. Un semplice, ma importante, esempio `e g(x, y) = x + y. In questo caso ZZ (x + y)fXY (x, y) dxdy E(X + Y ) = 2 R ZZ ZZ yfXY (x, y) dxdy xfXY (x, y) dxdy + = 2 2 R R Z Z yfY (y) dy = E(X) + E(Y ) xfX (x) dx + = R

R

Facendo ricorso a questo risultato si dimostra l’addittivit`a del valore atteso nel caso assolutamente continuo.

Densit` a di funzioni scalari di vettori assolutamente continui A volte il problema d’interesse `e proprio la determinazione della densit`a fZ (z) della vari` facile scrivere la funzione di distribuzione di Z abile aleatoria scalare Z = g(X, Y ). E facendo ricorso ad una formula molto generale, e quindi molto astratta. ZZ FZ (z) := P (Z ≤ z) = P (g(X, Y ) ≤ z) = fXY (x, y) dxdy, Dz

dove Dz = { (x, y) ; g(x, y) ≤ z }. La densit` a cercata `e fZ (z) =

d FZ (z). dz

Esempio importante. Sia Z = X + Y , allora ZZ Z FZ (z) := fXY (x, y) dxdy =



−∞

x+y≤z

Z

z−y

 fXY (x, y) dx dy.

−∞

Si tracci un grafico del dominio per capire l’integrale iterato. Calcolando la derivata rispetto a z, Z ∞ d fZ (z) = FZ (z) = fXY (z − y, y) dy dz −∞ ` possibile scambiare i ruoli di x ed y nel calcolo dell’integrale iterato. In tal caso si arriva E alla formula equivalente Z ∞ d fZ (z) = FZ (z) = fXY (x, z − x) dx dz −∞

132

Lezione 23 23.1

(Marted`ı, 30 aprile 2013, ore 16:25-18:05)

Condizionamento per v.a. assolutamente continue

Abbiamo gi` a avuto modo di apprezzare il ruolo delle probabilit`a condizionate nella costruzione di modelli probabilistici. Per le variabili aleatorie discrete, nelle Lezioni 14 e 15, abbiamo definito le densit` a condizionate discrete. Per comodit`a avevamo distinto tre casi, che si presentano spesso nelle applicazioni, (a.) densit`a condizionata di una v.a. X rispetto ad un evento E qualunque: fX|E (x|E), (b.) densit`a condizionata di una v.a. X rispetto ad un evento [X ∈ B] generato dalla v.a. X stessa: fX|[X∈B] (x|X ∈ B), (c.) densit`a condizionata di una v.a. X rispetto all’evento [Y = y], il valore assunto da un’altra v.a.: fX|Y (x|y). Per esempi di ognuno dei tre tipi nel caso di variabili discrete si rimanda alle Lezioni 14 e 15. Esempio di tipo (a.) (esempio del paragrafo 20.1 rivisitato) Si consideri il seguente gioco. Si lancia una moneta. Se esce Testa il giocatore deve far girare l’ago di una ruota della fortuna, il cui bordo `e graduato nell’intervallo [0, 2]. Quando la ruota si ferma il banco paga al giocatore la cifra in euro corrispondente alla posizione dell’ago sul bordo della ruota. Se esce Croce il giocatore paga 1 euro al banco. Sia V la variabile aleatoria che rappresenta la vincita netta del giocatore. Calcolare la densit`a fV (x). Soluzione. Le regole del gioco consistono in due probabilit`a condizionate del tipo (a.)! 1 1l (x), 2 [0,2] fV |C (x|C) = δ(x + 1). fV |T (x|T ) =

Si noti che fV |T (x|T ) `e assolutamente continua, mentre fV |C (x|C) `e discreta (degenere, essendo la densit` a della costante -1) La densit`a fV (x) si trova applicando la legge della probabilit` a totale fV (x) =

1 1 1 1 fV |T (x|T ) + fV |C (x|C) = 1l[0,2] (x) + δ(x + 1) 2 2 4 2

Nella Lezione 20 questo esempio era servito ad illustrare una semplice situazione sperimentale che produce modelli a variabili aleatorie miste. Esempio di tipo (b.) (assenza di memoria per v.a. esponenziali) Sia X ∼ Exp(λ), quindi la funzione di densit` a di X `e fX (x) = λe−λx 1l(x). Calcolare la densit`a condizionata fX|[X≥a] (x|X ≥ a). Soluzione. Un calcolo banale fornisce P (X ≥ a) = e−λa . Condizionando rispetto all’evento [X ≥ a] si trova ( 1 se x ≤ a, P (X ≥ max (x, a)) P (X ≥ x|X ≥ a) = = P (X≥x) −λ(x−a) , se x > a. P (X ≥ a) P (X≥a) = e e quindi  FX|[X≥a] (x|[X ≥ a]) = 1 − P (X ≥ x|X ≥ a) =

0 1 − e−λ(x−a) ,

se x < a, se x ≥ a.

Calcolando la derivata rispetto ad x di FX|[X≥a] (x|[X ≥ a]) si trova la densit`a condizionata   0 se x < a, f (x|X ≥ a) = = λe−λ(x−a) 1l(x − a) = fX (x − a) X X≥a λe−λ(x−a) , se x ≥ a. 133

che `e una delle espressioni equivalenti della propriet`a detta assenza di memoria della v.a. esponenziale. Si veda la lezione 17 per una presentazione alternativa. L’esempio di densit` a ondizionata pi` u delicato `e quello di tipo (c.), quando la variabile condizionante Y `e assolutamente continua. Trattiamo questo caso nel prossimo paragrafo. Densit` a condizionata rispetto ad una v.a. assolutamente continua Supponiamo che (X, Y ) sia una coppia di v.a. assolutamente continue, di assegnata densit`a congiunta fXY (x, y). Definiremo la densit`a condizionata di X dato Y = y, che denoteremo fX|Y (x|y). La definizione va data attraverso un procedimento di limite poich´e l’evento condizionante [Y = y] ha probabilit`a nulla per ogni y ∈ R. Si osservi che `e molto naturale trovarsi in questa situazione. L’informazione a priori di cui si dispone all’atto del condizionamento si basa su osservazioni della variabile Y . Gli strumenti di misura possono avere fornito informazioni del tipo a ≤ Y ≤ b, oppure Y > c oppure, appunto, Y = d. Anche la funzione di distribuzione condizionata FX|Y (x|y) := P (X ≤ x|Y = y) va definita con un procedimento di limite, poich´e

P ([X≤x]∩[Y =y]) P (Y =y)

= 00 .

Definizione. (funzione di distribuzione condizionata) FX|Y (x|y) := lim P (X ≤ x|y ≤ Y ≤ y + δ) δ↓0

A partire dalla definizione calcoliamo un’espressione generale per la funzione di distribuzione condizionata. Se fY (y) > 0 allora P (X ≤ x, y ≤ Y ≤ y + δ) δ↓0 P (y ≤ Y ≤ y + δ) i R x hR y+δ f (u, v) dv du XY −∞ y lim R y+δ δ↓0 fY (v) dv y Rx fXY (u, y) δ du lim −∞ δ↓0 fY (y) δ Rx −∞ fXY (u, y) du

FX|Y (x|y) := lim =

= =

fY (y)

nei punti y dove fY (y) = 0 la funzione FX|Y (x|y) non `e definita. La densit` a condizionata si ottiene derivando rispetto ad x, Rx d d −∞ fXY (u, y) du fXY (x, y) fX|Y (x|y) = FX|Y (x|y) = = . dx dx fY (y) fY (y) La densit` a condizionata ha una forma intuitivamente chiara, essendo il rapporto tra la densit`a congiunta e la marginale. Si possono immediatamente scrivere le usuali espressioni: densit`a congiunta, formula di Bayes, densit`a marginali, in termini di densit`a condizionate, fXY (x, y) = fX|Y (x|y)fY (y) = fY |X (y|x)fX (x) fX|Y (x|y)fY (y) f (x) Z ∞ X Z ∞ fX (x) = fXY (x, y) dy = fX|Y (x|y)fY (y) dy −∞ −∞ Z ∞ Z ∞ fY (y) = fXY (x, y) dx = fY |X (y|x)fX (x) dx

fY |X (y|x) =

−∞

−∞

134

23.2

Coppie di v.a. indipendenti

Definizione. La coppia di v.a. (X, Y ) `e detta indipendente se la funzione di distribuzione congiunta soddisfa la propriet` a di fattorizzazione FXY (x, y) = FX (x) FY (y),

per ogni (x, y) ∈ R2

Lemma. Le seguenti affermazioni sono equivalenti (a.) X ed Y sono indipendenti (b.) per ogni rettangolo R = [x1 , x2 ] × [y1 , y2 ],  P (X, Y ) ∈ R = P (X ∈ [x1 , x2 ])P (Y ∈ [y1 , y2 ]) (c.) (nel caso assolutamente continuo) per ogni (x, y) ∈ R2 fXY (x, y) = fX (x)fY (y) (d.) (nel caso assolutamente continuo) per ogni (x, y) ∈ R2 fX|Y (x|y) = fX (x),

oppure fY |X (y|x) = fY (y)

Le propriet` a delle v.a. indipendenti viste nel caso discreto continuano a valere. In particolare se la coppia (X, Y ) `e indipendente allora la coppia (X, Y ) `e scorrelata, ovvero E(XY ) = E(X)E(Y ). Densit` a delle funzioni scalari Z = g(X, Y ) di variabili indipendenti Esempio 1. Sia Z = max(X, Y ) ed (X, Y ) indipendenti. Calcolare la forma generale della densit`a di Z. FZ (z) = P (Z ≤ z) = P (max(X, Y ) ≤ z) = P (X ≤ z, Y ≤ z) = FX (z)FY (z) La corrispondente densit` a `e fZ (z) = FX0 (z)FY (z) + FX (z)FY0 (z) Se (X, Y ) sono indipendenti ed identicamente distribuite (i.i.d.) con FX = FY allora 2 FZ (z) = FX (z) La corrispondente densit` a `e fZ (z) = 2FX (z)FX0 (z) = 2FX (z)fX (z) Ad esempio se (X, Y ) sono i.i.d. uniformi U([0, 1]) allora  2z se 0 ≤ z ≤ 1, fZ (z) = 0, altrove. Esempio 2 (molto importante) Nell’ultimo esempio della Lezione 22, avevamo calcolato, nel caso di densit` a congiunta generale, la densit`a di Z = g(X, Y ) = X + Y ottenendo Z ∞ fZ (z) = fXY (z − v, v) dv. −∞

135

Se (X, Y ) sono indipendenti la densit`a fZ (z) prende una forma molto familiare Z ∞ fZ (z) = fX (z − v)fY (v) dv, −∞

la convoluzione delle densit` a fX ed fY . Questo risultato vale anche nel caso discreto, ma non era stato menzionato quando abbiamo trattato le v.a .discrete indipendenti. Nel caso discreto, per Z = X + Y con (X, Y ) indipendenti a valori in Z o in N, pZ (n) =

∞ X

pX (n − k)pY (k).

k=−∞

Esempio 3. Sia Z = αX + βY , combinazione lineare di X ed Y , che supponiamo ancora essere indipendenti ed assolutamente continue. Per determinare la densit`a di Z sfruttiamo il seguente risultato (esercizio!). Se W = aX con a ∈ R allora w 1 fX fW (w) = |a| a Si ricava allora 1 fZ (z) = fαX (z) ~ fβY (z) = |αβ|



Z fX

z−v α



  v fY dv β

Ad esempio la densit` a di Z = X − Y `e Z fZ (z) = fX (z − v)fY (−v) dv Raffica di esercizi proposti. (a.) (obbligatorio) Z = X + Y e Z = X − Y per (X, Y ) i.i.d. U([0, 1]). (b.) (obbligatorio) Z = X + Y per (X, Y ) i.i.d. Exp(λ). (c.) (obbligatorio) Z = X + Y per (X, Y ) i.i.d. b(p). (d.) (difficile) Z = X + Y per (X, Y ) indipendenti con X ∼ Bin(n, p) ed Y ∼ Bin(m, p). (e.) (raccomandato) Z = X + Y per (X, Y ) indipendenti con X ∼ P(λ) ed Y ∼ P(µ). Esempio 4. Il seguente esempio `e molto importante: in prosa dice che le combinazioni lineari di v.a. normali indipendenti sono v.a. normali. Lo presentiamo sotto forma di teorema. 2 ) ed Y ∼ N (µ , σ 2 ) indipendenti allora Teorema. Se Z = αX + βY , con X ∼ N (µX , σX Y Y 2 Z ∼ N (αµX + βµY , α2 σX + β 2 σY2 ).

Dimostrazione. In linea di principio abbiamo a disposizione lo strumento per dimostrare il teorema. Definiamo v2 1 φ(v) = √ e− 2 , 2π   X la densit` a N (0, 1), allora la densit` a di X `e σ1X φ x−µ ed analogamente la densit`a di Y σX   Y `e σ1Y φ y−µ . Per dimostrare il teorema basta quindi verificare che σY 



1 z − (αµX + βµY )  1 q φ q = φ |α|σ 2 2 2 2 2 2 2 2 X α σX + β σY α σX + β σY



z − µX ασX

 ~

1 φ |β|σY



z − µY βσY



Questo `e un calcolo concettualmente banale, ma molto laborioso se si effettua la convoluzione direttamente. Vedremo pi` u avanti come dimostrare il teorema, in modo molto pi` u semplice, usando le trasformate di Fourier. 136

Lezione 24 24.1

(Luned`ı, 6 maggio 2013, ore 10:30-12:15)

Esercitazione sul calcolo della densit` a di Y = g(X)

` importante Sono esercizi noiosi, concettualmente banali e computazionalmente insidiosi. E capire bene il meccanismo di questi calcoli analizzando con attenzione le funzioni pi‘˘comuni nel trattamento di segnali. Nella pagina seguente sono tracciati i grafici di alcune comuni funzioni g(x). Ognuna delle funzioni g(x) si pu`o interpretare come un sistema statico. A scopo illustrativo, accanto ad ogni g(x) `e tracciato il grafico dell’uscita g(x(t), quando l’ingresso `e l’onda triagolare x(t) rappresentata in alto a destra. La figura dovrebbe anche chiarire la tradizionale terminologia associata a queste g(x). • g1 (x) raddrizzatore a mezza onda • g2 (x) raddrizzatore a onda intera • g3 (x) limitatore • g4 (x) limitatore e raddrizzatore a mezza onda • g5 (x) limitatore e raddrizzatore a onda intera Il vostro compito `e studiare la densit`a dell’uscita g(X), quando l’ingresso `e una variabile aleatoria X di densit` a nota. Inventatevi dei problemi e risolveteli! Esercizio Dati: y = g(x) = x2 , ed X ∼ N (0, 1). Usando la strategia gi` a sperimentata 

2

FY (y) = P (X ≤ y) =

√ √ P (− y ≤ X ≤ y), se y ≥ 0, 0, se y < 0.

ovvero, in termini della funzione di distribuzione FX , ed introducendo il gradino unitario,  √ √  FY (y) = P (X 2 ≤ y) = FX ( y) − FX (− y) 1l(y). Calcolando la derivata– osservando che la derivata del gradino d`a contributo nullo, infatti  √ √ FX ( y) − FX (− y) δ(y) = 0, 1  √ √  fY (y) = √ fX ( y) + fX (− y) 1l(y). 2 y Sostituendo la densit` a fX (x) fornita come dato, ovvero la N (0, 1) troviamo  1 1  1 −1y 1 √ e 2 + √ e− 2 y 1l(y) fY (y) = √ 2 y 2π 2π 1 1 e− 2 y 1l(y) = √ 2πy La densit` a che abbiamo appena calcolato `e detta densit`a chi-quadrato ad 1 grado di libert`a, denotata χ2 (1). Se X ∼ N (0, 1) allora Y = X 2 ∼ χ2 (1). La densit`a χ2 `e una delle densit`a fondamentali in Statistica. Quanto vale E(Y )? Si pu` o fare in due modi Z ∞ Z E(Y ) = yfY (y) dy = −∞



0

y√

1 1 e− 2 y dy 2πy

2

= E(X ) = var(X) = 1. Esercizio proposto. Come sopra, ma con X ∼ U (a, b), con 0 ≤ a < b. 137

x(t) t g1(x)

g2(x)

g3(x)

c -c

c -c

c -c

g4(x)

c

c c

g5(x)

c -c

c c

138

Valore atteso condizionato Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densit`a ` naturale porsi il problema del calcolo dei valori attesi rispetto a queste condizionate. E densit`a condizionate. Considereremo solo il caso della densit`a di una variabile aleatoria condizionata ai valori assunti da un’altra variabile aleatoria. La definizione, introdotta qui al solo scopo di svolgere esercizi, verr`a ripresa nella prossima lezione. Definizione. Sia g : R → R una funzione misurabile ed integrabile. La media condizionata della v.a. g(X) dato il valore assunto dalla v.a. Y `e Z E(g(X)|Y = y) := g(x)fX|Y (x|y) dx caso assolutamente continuo X E(g(X)|Y = yj ) := g(xk )pX|Y (xk |yj ) caso discreto k

Osservazione. Si noti che, mentre E(g(X)) `e un numero reale, E(g(X)|Y = y) `e una funzione deterministica h : R → R che mappa y 7→ h(y) := E(g(X)|Y = y). Le propriet`a del valore atteso condizionato (funzione h(y)) saranno trattate nella prossima lezione.

Esercizio 1 (continuazione di Mario in libreria) Mario va in libreria a curiosare ed acquistare libri. Le v.a. K ed N rappresentano rispettivamente quante ore Mario trascorre in libreria, e quanti libri Mario acquista. I dati a disposizione sono i seguenti. L’alfabeto di K `e K := {1, 2, 3, 4} e la sua densit`a `e uniforme: pK (k) = 14 per k ∈ K. Per quanto riguarda la v.a. N `e nota solamente la densit`a condizionata  1 k , se 1 ≤ n ≤ k, e k ≤ 4 pN |K (n|k) := 0, se n > k, o k > 4. Calcolare il valore atteso condizionato E(N |K = k). Soluzione. Il valore atteso condizionato vale

E(N |K = k) =

4 X

npN |K (n|k) =

n=1

=

k X n=1

n

  1·1=1      1· 1 +2· 2  1·      1·

1 3 1 4

+2· +2·

1 k(k + 1) k+1 1 = = k k 2 2

139

1 2 1 3 1 4

 se k = 1,      se k = 2, 

= 32 , +3· +3·

1 3 1 4

= 2, +4·

1 4

se k = 3,      10 = 4 , se k = 4. 

Esercizio 2 (adattato da: C. Ash - The Probability Tutoring Book - IEEE Press 1993) La coppia di v.a. (X, Y ) ha densit` a congiunta uniforme nel dominio triangolare T rappresentato in figura. y 6

1

-

-1

1

x

Determinare: (a.) la densit` a congiunta fXY (x, y) (b.) le densit` a condizionate fX|Y (x|y) ed fY |X (y|x) (c.) i valori attesi E[X|Y = y] ed E[Y |X = x] (d.) i valori attesi E[X] ed E[Y ] (e.) il valore atteso E[ min(X, Y ) ] Soluzione (a.) La densit` a congiunta `e nulla per (x, y) ∈ T c ed `e costante in T fXY (x, y) =

1 1lT (x, y) = 1lT (x, y) area(T )

(b.) Per il calcolo delle densit` a condizionate dobbiamo disporre R delle marginali. La formula generale per il calcolo della densit`a marginale, fY (y) = fXY (x, y)dx deve essere opportunamente interpretata: ci aiuter`a la figura. y 6

x=y−1

1 x=1−y -

-1

1

x

In primo luogo si deve capire qual `e l’insieme dei valori possibili per la v.a. Y , in questo caso (vedi figura) Y ∈ [0, 1]. Sempre dalla figura si desumono i limiti di integrazione al variare di y. Specificamente Z 1−y fY (y) = 1 · dx = 2(1 − y) per y ∈ [0, 1] y−1

R Analogamente si procede al calcolo della marginale fX (x) = fXY (x, y)dy. La v.a. X prende valori nell’intervallo [−1, 1], ma l’integrale da calcolare per ottenere fX (x) ha espressioni diverse a seconda che x ∈ [−1, 0] o x ∈ [0, 1]. In figura abbiamo rappresentato il caso x ∈ [−1, 0].

140

y 6

1 y =1−x

y =1+x

-

-1

1

x

1+x

Z

1 · dy = 1 + x

fX (x) =

per x ∈ [−1, 0]

0

Analogamente Z

1−x

1 · dy = 1 − x

fX (x) =

per x ∈ [0, 1]

0

Volendo si pu` o scrivere la densit` a fX (x) con un’unica formula come fX (x) = 1 − |x|

per x ∈ [−1, 1].

Commento. Si noti che le densit` a marginali fX (x) ed fY (y) non sono uniformi, nonostante la densit` a congiunta sia uniforme su T . Siamo ora pronti a scrivere le densit`a condizionate fX|Y (x|y) =

fXY (x, y) 1 = fY (y) 2(1 − y)

fY |X (y|x) =

x ∈ [y − 1, 1 − y], y ∈ [0, 1]

fXY (x, y) 1 = fX (x) 1 − |x|

y ∈ [0, 1 − |x| ], x ∈ [−1, 1]

Commenti. (1.) Poich´e fX|Y (x|y) dipende da y le variabili aleatorie X ed Y non sono indipendenti. (2.) Si noti che la densit`a condizionata fX|Y (x|y) `e uniforme sull’intervallo [y − 1, 1 − y]. Analogamente la densit`a condizionata fY |X (y|x) `e uniforme sull’intervallo ` un fatto generale, immediata conseguenza della definizione, che le densit`a [0, 1 − |x|]. E condizionate mantengano la forma della densit`a congiunta, opportunamente riscalata. (c.) Calcoliamo prima E[X|Y = y]. Abbiamo visto che per Y = y la v.a. X ha densit`a 1 condizionata uniforme, cio`e costante in x, e vale fX|Y (x|y) = 2(1−y) nell’intervallo x ∈ [y − 1, 1 − y]. Poich`e l’intervallo [y − 1, 1 − y] `e simmetrico intorno all’origine il valore atteso condizionato sar` a ovviamente nullo, come conferma il calcolo: Z 1−y 1 x2 1−y 1 =0 per y ∈ [0, 1]. E[X|Y = y] = x dx = 2(1 − y) 2(1 − y) 2 y−1 y−1 Per il calcolo di E[Y |X = x], poich´e per X = x la v.a. Y ha densit`a condizionata 1 uniforme fY |X (y|x) = 1−|x| nell’intervallo y ∈ [0, 1 − |x| ] il valore atteso condizionato sar`a E[Y |X = x] =

1−|x| 2 ,

come confermato dal calcolo esplicito

Z

1−|x|

E[Y |X = x] =

y 0

1 1 y 2 1−|x| 1 − |x| dy = = 1 − |x| 1 − |x| 2 0 2

` un calcolo banale: (d.) E Z E[Y ] =

Z yfY (y)dy = 0

141

1

1 y · 2(1 − y)dy = . 3

per x ∈ [−1, 1].

Analogamente si trova che E[X] = 0. (e.) Con riferimento alla figura, risulta 

x, per (x, y) ∈ T1 , y, per (x, y) ∈ T2 .

g(x, y) = min(x, y) =

y 6

1

y=x

T1 T2 -

-1

1

x

Per il calcolo del valore atteso si dovr`a valutare Z E[g(X, Y )] = g(x, y)fXY (x, y) dxdy che in questo caso diventa Z

Z x · 1 dxdy +

E[min(X, Y )] = T1

y · 1 dxdy T2

A questo punto ci siamo ridotti ad un esercizio di Analisi II. Conviene spezzare il dominio T1 in due sottodomini x-semplici, mentre T2 si pu`o trattare come un unico dominio ysemplice. Con riferimento alla figura (il punto d’intersezione tra y = x e y = 1 − x `e ( 21 , 12 )) si ottiene Z

0

Z

1+x

Z x · 1 dydx +

E[min(X, Y )] = −1

0

1 2

0

Z

1−x

Z x · 1 dydx +

x

1 Qualche passaggio algebrico fornisce s.e.o.o. E[min(X, Y )] = − 12 .

142

0

1 2

Z

1−y

y · 1 dxdy y

Appendice alla Lezione 24 prego segnalare i sicuramente numerosi refusi Esercizi svolti e proposti sulle funzioni di variabili aleatorie Il problema `e quello del calcolo della densit`a (o della funzione di distribuzione) di una funzione di v.a. Y = g(X), a partire dall’espressione analitica di g e dalla densit`a (o dalla funzione di distribuzione) di X. In questa nota troverete alcuni esempi svolti ed alcuni esercizi proposti. Quando si studia la funzione di v.a. Y = g(X) il risultato dipende dall’interazione tra i due “dati” del problema: la funzione deterministica y = g(x) e le caratteristiche probabilistiche della v.a. X ovvero la densit` a fX (x) nel caso di v.a. assolutamente continue, la densit`a discreta pX (x) nel caso di v.a. discrete, o in generale la funzione di distribuzione FX (x). Ci sono fondamentalmente due strategie per risolvere questa tipologia di problemi. Strategia 1. Ricavare la funzione di distribuzione FY (y) a partire dai dati del problema e poi, se richiesto dal problema, derivare FY (y) rispetto ad y per trovare, dove esiste, la densit`a fY (y). L’idea dietro a questa strategia `e che gli eventi di interesse per la v.a. Y sono in corrispondenza biunivoca con eventi per la v.a. X in accordo con [ Y ∈ B ] = [ X ∈ g −1 (B) ] e quindi P (Y ∈ B) = P (X ∈ g −1 (B)) in particolare, per gli eventi del tipo B = (−∞, y], si avr`a che   FY (y) := P (Y ≤ y) = P (g(X) ≤ y) = P X ∈ g −1 (−∞, y] . A lezione abbiamo visto vari esempi dove era possibile calcolare agevolmente la derivata richiesta. In generale calcolare FY (y) pu`o essere difficoltoso richiedendo la valutazione di   −1 P X∈g (−∞, y] al variare di y. Si noti che il calcolo delle anti-immagini  g −1 (−∞, y] si pu`o condurre, per cos`ı dire, “fuori linea” nel senso che esse non dipendono in alcun modo dalla densit` adella v.a. X, ma solo dalla funzione g. Una volta calcolate, le anti-immagini −1 g (−∞, y] si possono utilizzare per determinare FY (y) qualunque sia la densit`a della v.a. X che interviene nella Y = g(X). Strategia 2. (SALTARE PARAGRAFETTO) Ricavare direttamente la funzione di densit`a della v.a. Y utilizzando la formula d fY (y) = fX (h(y)) h(y) dy dove h `e la funzione inversa di g, che deve esistere affinch`e questa formula sia applicabile. In questa nota non considereremo la Strategia 2. Si tratta di un risultato di scarso valore pratico e meno potente dell’approccio diretto discusso in questa nota e presentato in classe. Si tenga presente che il tipo della v.a. Y = g(X) pu`o essere diverso da quello della v.a. X. In particolare, se X `e una v.a. discreta allora, qualunque sia la funzione g, la v.a. trasformata Y = g(X) sar` a ancora una v.a. discreta per l’ovvio motivo che la cardinalit`a del codominio di una funzione `e sempre minore o uguale a quella del suo dominio. Se invece X `e una v.a. continua, la v.a. Y = g(X) potr`a essere discreta, continua o mista a seconda di come g(x) ed fX (x) “interagiscono”. 143

Esempio 1 di funzione g(x) Consideriamo la funzione  y = g(x) =

x − 1, se x < 1, x + 1, se x ≥ 1,

il cui grafico `e riportato in figura.

 Cominciamo con il calcolo delle anti-immagini g −1 (−∞, y] le quali ovviamente non dipendono dalla densit` a fX (x) che andremo a considerare. Quando si calcolano le antiimmagini g −1 (−∞, y] `e fondamentale avere prima accuratamente tracciato il grafico della g. Ad ogni y fissato corrisponde un sottoinsieme di valori x: con abuso di notazione scriver`o ad esempio {x ≤ y − 1} per {x ∈ R|x ≤ y − 1} ecc.   {x + 1 ≤ y} = {x ≤ y − 1} 2 ≤ y < ∞,  {x < 1} 0 ≤ y < 2, g −1 (−∞, y] =  {x − 1 ≤ y} = {x ≤ y + 1} y < 0. ` banale, ma `e facile fare errori. Si noti che la funzione y = g(x) non assume nessuno dei E  valori y ∈ [0, 2). Questo `e evidente dal grafico ed ha come conseguenza che g −1 (−∞, y] = {x < 1} `e costante per ogni y ∈ [0, 2). Qualunque sar`a la X, la v.a. Y = g(X) non potr`a assumere valori in [0, 2), ed ivi la FdD FY (y) sar`a costante e la densit`a fY (y) nulla. Vediamo ora che densit` a si ottengono per Y = g(X) specificando diverse densit`a fX (x). (a.) Calcolare la densit` a di Y = g(X) se X ∼ Exp(λ) (nel grafico λ = 1).

  P (X    P (X FY (y) =  P (X    P (X

≤ y − 1) < 1) ≤ y + 1) ≤ y + 1)

R y−1 = 0 λe−λw dw = 1 − e−λ(y−1) , R1 = 0 λe−λw dw = 1 − e−λ , R y+1 −λw = 0 λe dw = 1 − e−λ(y+1) , = 0, 144

2 ≤ y < ∞, 0 ≤ y < 2, −1 ≤ y < 0 −∞ < y < −1.

 Si noti che, per ogni y < 0 vale g −1 (−∞, y] = {x ≤ y+1} e quindi FY (y) = P (X ≤ y+1). Poich´e X `e concentrata su [0, ∞), si ha per`o che FY (y) = P (X ≤ y + 1) = 0 per y < −1. Qui sotto il grafico della FY (y).

Poich´e la FdD FY (y) non ha salti, la v.a. Y = g(X) `e di tipo continuo, come la v.a. X di partenza. La densit` a esiste e si ottiene derivando FY (y)  λe−λ(y−1) 2 ≤ y < ∞,    0, 0 ≤ y < 2, fY (y) = −λ(y+1) −1 ≤ y < 0,  λe   0, −∞ < y < −1.

La densit` a fY (y) ha tre punti di salto, y = −1, y = 0 ed y = 2, dove cio`e la FdD FY (y) non `e derivabile. Repetita iuvant: le discontinuit`a della densit`a non hanno nulla a che vedere con il tipo della v.a. Y , che si desume dal comportamento della funzione di distribuzione (continua in questo caso). (b.) Esercizi proposti. Si calcoli la densit`a, continua o discreta, della v.a. Y = g(X) se X `e una delle seguenti v.a. (le risposte fornite vanno prese con il beneficio d’inventario, segnalatemi eventuali errori). • X ∼ Uniforme(2, 3),

Risposta: Y ∼ Uniforme(3, 4).

• X ∼ Uniforme(0, 1),

Risposta: Y ∼ Uniforme(−1, 0).

• X ∼ Uniforme(0.5, 1.5) • X ∼ Bernoulli(p),

 Risposta: Y ∼ Uniforme [−0.5, 0] ∪ [2, 2.5]

Risposta: Y ∈ {1, 2}, con pY (−1) = 1 − p, pY (2) = p.

145

Domanda. Perch´e con questa g la v.a. Y = g(X) ha sempre lo stesso tipo della v.a. X?

Esempio 2 di funzione g(x) Consideriamo la funzione  y = g(x) =

1, se x ≤ 0, −x + 1, se x > 0,

il cui grafico `e riportato in figura.

A differenza dell’esempio 1 la funzione g in questo caso `e continua. Vedremo per`o che questa g pu` o mappare una v.a. continua in una mista, cosa non possibile con la g dell’esempio 1, a riprova del fatto che il tipo continuo o misto della v.a. Y non ha nulla a che vedere n´e con la continuit` a topologica di g n´e con quella di fX (x).  Calcoliamo le anti-immagini g −1 (−∞, y] . g

−1

 (−∞, y] =



R 1 ≤ y < ∞, {−x + 1 ≤ y} = {x ≥ 1 − y} −∞ < y < 1.

Attenzione! Per questa g l’anti-immagine g −1 ({1}) = {x ≤ 0}. Questo pu`o causare P (Y = 1) > 0, rendendo la v.a. Y di tipo misto anche se X `e una v.a. continua – si veda il caso (b.) qui sotto. (a.) Calcolare la densit` a di Y = g(X) se X ∼ Exp(λ), (la stessa X dell’esempio 1).  FY (y) =

P (X ∈ R) = 1R 1 ≤ y < ∞, ∞ P (X ≥ 1 − y) = 1−y λe−λw dw = eλ(y−1) , −∞ ≤ y < 1,

Si noti che P (Y = 1) = P (X ≤ 0) = 0 poich`e la v.a. X `e concentrata su [0, ∞). Qui sotto, per λ = 1, il grafico della FY (y).

146

La v.a. Y `e continua poich´e la FdD non presenta salti. La densit`a fY (y) si trova derivando  0 1 ≤ y < ∞, fY (y) = λeλ(y−1) , −∞ ≤ y < 1, in forma compatta, si pu` o scrivere fY (y) = λeλ(y−1) 1l(y − 1), vedi figura qui sotto.

(b.) Calcolare la densit` a di Y = g(X) se X ∼ Uniforme(−1, 2). Usando le anti-immagini precalcolate troviamo:  =1 1 ≤ y < ∞,  P (X ∈ R) R2 P (X ≥ 1 − y) = 1−y 13 dw = 13 (1 + y), −1 ≤ y < 1, FY (y) =  P (X ≥ 1 − y) = 0 −∞ < y < −1 Si noti che P (Y = 1) = P (X ≤ 0) = di FY (y).

1 3

poich´e X ∼ Uniforme(−1, 2). Qui sotto il grafico

147

La v.a. Y `e mista poich´e la FdD presenta un salto, di ampiezza 13 , in y = 1. La densit`a fY (y), nel senso usuale, non esiste, ma derivando la FdR nel senso delle funzioni generalizzate si trova 1 1 fY (y) = (1l(y + 1) − 1l(y − 1)) + δ(y − 1) 3 3 Il grafico `e

Lascio come esercizio il calcolo della decomposizione di Lebesgue a partire dalla espressione della FdD

(c.) Esercizi proposti. Si calcoli la densit`a, continua o discreta, della v.a. Y = g(X) per X v.a. di funzione di densit` a rispettivamente: • fX (x) = λ2 e−λ|x| , dove x ∈ R. (detta densit`a di Laplace) • X ∼ Uniforme(0, 1). • X ∼ Uniforme(−1, 0) (attenzione a questa!). • X ∼ Bernoulli(p) (e anche a questa).

148

Lezione 25 25.1

(Marted`ı, 7 maggio 2013, ore 16:30-18:15)

Valore atteso condizionato

(definizione ripresa dalla scorsa lezione) Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densit`a ` naturale porsi il problema del calcolo dei valori attesi rispetto a queste condizionate. E densit`a condizionate. Considereremo solo il caso della densit`a di una variabile aleatoria condizionata ai valori assunti da un’altra variabile aleatoria. medskipDefinizione. Sia g : R → R una funzione misurabile ed integrabile. La media condizionata della v.a. g(X) dato il valore assunto dalla v.a. Y `e Z E(g(X)|Y = y) := g(x)fX|Y (x|y) dx caso assolutamente continuo X E(g(X)|Y = yj ) := g(xk )pX|Y (xk |yj ) caso discreto k

Osservazione. Si noti che, mentre E(g(X)) `e un numero reale, E(g(X)|Y = y) `e una funzione deterministica h : R → R che mappa y 7→ h(y) := E(g(X)|Y = y). Le propriet`a del valore atteso condizionato (funzione h(y)) sono trattate al punto 3. Propriet` a del valore atteso condizionato Lemma. Se (X, Y ) sono indipendenti allora E(g(X)|Y = y) = E(g(X)),

per ogni y ∈ R

Dimostrazione. Se X ed Y sono indipendenti allora fX|Y (x|y) = fX (x) e sostituendo Z Z E(g(X)|Y = y) = g(x)fX|Y (x|y) dx = g(x)fX (x) dx = E(g(X))  Si definisca la funzione h : R → R come h(y) = E(g(X)|Y = y). Si noti che la funzione h(y) `e deterministica: essa mappa il numero reale y nel numero reale E(g(X)|Y = y). Il Lemma sopra mostra che, se X ed Y sono indipendenti, la funzione h(y) `e una costante. In generale h(y) dipende da y. Ha perfettamente senso considerare la variabile aleatoria h(Y ), dove Y ∼ fY (y) ed ha perfettamente senso calcolarne il valore ` anche naturale, per denotare la variabile aleatoria h(Y ), atteso E(h(Y )) (quando esiste). E usare la scrittura E(g(X)|Y ). Con questa notazione alternativa il valore atteso E(h(Y ))  si scrive E E(g(X)|Y ) . Lemma (del valore atteso iterato) Se g(X) ammette valore atteso allora   E E g(X)|Y = E(g(X)) Dimostrazione. E E(g(X)|Y )



Z

Z

= E(h(Y )) = h(y)fY (y) dy = E(g(X)|Y = y)fY (y) dy  Z Z ZZ = g(x)fX|Y (x|y) dx fY (y) dy = g(x)fX|Y (x|y)fY (y) dydx Z  Z Z = g(x) fXY (x, y) dy dx = g(x)fX (x) dx = E(g(X)). 149

La dimostrazione `e identica nel caso discreto X  E E(g(X)|Y ) = E(g(X)|Y = yk )pY (yk ) k

=

XX

=

X

k

g(xh )pX|Y (xh |yk )pY (yk ) =

h

X

g(xh )

h

X

pXY (xh , yk )

k

g(xh )pX (xh ) = E(g(X)).

h

Esercizi svolti Esercizio 1. Addentate (a caso) un grissino di lunghezza L. Sia Y ∼ U(0, L) la lunghezza del grissino che vi rimane in mano. Dopo un secondo morso (a caso) vi rimane in mano un pezzo di grissino di lunghezza X ∼ U(0, Y ). Calcolare il valore atteso E(X). Metodo diretto. Ricaviamo la densit`a fX (x) e quindi calcoliamo E(X). I dati del problema sono: la densit` a fY e la densit` a condizionata fX|Y (x|y) Analiticamente i dati sono: 1 , L 1 fX|Y (x|y) = , y

per y ∈ [0, L]

fY (y) =

per x ∈ [0, y]

Per ricavare la densit` a fX calcoliamo prima la densit`a congiunta e quindi marginalizziamo. La densit` a congiunta delle v.a. X ed Y vale fXY (x, y) = fX|Y (x|y)fY (y) =

1 , Ly

per (x, y) ∈ D := { (x, y) ; x ∈ [0, y], y ∈ [0, L] }

se non volete perdere traccia di quanto stiamo facendo fate un grafico del dominio D. Marginalizzando troviamo21 la densit`a fX Z Z L 1 1 fX (x) = fXY (x, y) dy = dy = (ln L − ln x), per x ∈ [0, L] L x Ly ` una buona idea verificare che fX (x) sia effettivamente una densit`a E Z L Z L 1 fX (x) dx = (ln L − ln x) dx = 1 0 0 L R dove abbiamo fatto uso dell’antiderivata ln x = x ln x−x e del fatto che limx→0 x ln x = 0. Calcoliamo finalmente il valore atteso Z L Z E(X) = xfX (x) dx = 0

0

dove abbiamo fatto uso dell’antiderivata

R

L

L x (ln L − ln x) dx = , L 4

x ln x dx =

x2 2

ln x −

x2 4 .

 Metodo del valore atteso iterato. Per il Lemma visto sopra E(X) = E E(X|Y ) . Calcoliamo il valore atteso condizionato. Per Y = y la v.a. X ∼ U(0, y), quindi E(X|Y = y) = 21

y 2

NOTA BENE. Nonostante le equazioni teoriche che esprimono le densit` a congiunte e/o le densit` a ` necessario prestare sempre marginali siano semplici e pulite, i calcoli pratici sono sporchi e complicati. E estrema attenzione ai domini di definizione e di integrazione. Tracciate i grafici!

150

Da questa espressione si ricava che Y 2

E(X|Y ) = quindi, poich´e Y ∼ U(0, L),

 E(X) = E E(X|Y ) = E



Y 2

 =

L 4

A volte sapere un po’ di teoria aiuta. Esercizio 2. (somma di un numero aleatorio di addendi) Visito un certo numero N di negozi, dove N `e una v.a. a valori in N. Nel negozio k-esimo spendo Xk euro. Le v.a. Xk , k ∈ N sono identicamente distribuite, inoltre le variabili N, Xk , k ∈ N sono indipendenti. Calcolare il valore atteso della spesa totale. Soluzione. Sia S la v.a. spesa totale, S=

N X

Xk

k=1

Anche questo tipo di problema si presta bene al calcolo del valore atteso usando la tecnica del valore atteso iterato.  E(S) = E E(S|N ) Calcoliamo prima il valore atteso per N = n N X

E(S|N = n) = E

Xk N = n

! =E

k=1

=

n X

n X

Xk N = n

!

k=1

E(Xk |N = n) =

k=1

n X

E(Xk )

poich´e Xk ⊥ ⊥N

k=1

= n E(X1 ). Possiamo allora scrivere che la v.a. E(S|N ) = N E(X1 ), da cui ricaviamo  E(S) = E E(S|N ) = E(N E(X1 )) = E(N ) E(X1 ) Osservazione. L’addittivit` a del valore atteso NON si pu`o applicare in questo caso. La scrittura ! N N X X E(S) = E Xk = E(Xk ) = N E(X1 ) ??? k=1

k=1

`e priva di senso P poich´e NP`eNuna variabile aleatoria, non un numero naturale! Scrivendo E(S) = E( N k=1 Xk ) = k=1 E(Xk ) = N E(X1 ) stiamo asserendo che il valore atteso della v.a. S non `e un numero reale bens`ı la variabile aleatoria N E(X1 ). Un errore di questo tipo sar` a punito alla stregua di una varianza negativa. Esercizio 3. (vedi Mario in libreria – Lezione 24) Il calcolo di E(N ), il numero medio di libri che Mario acquista ogni volta che va a fare un giro in liberia, si pu`o effettuare usando la formula del valore atteso iterato (si ricordi che K `e uniforme su K = {1, 2, 3, 4}).   10 +1 E(K) + 1 7 K +1 = = 4 = E(N ) = E(E(N |K)) = E 2 2 4 4 151

Esercizio 4. Una moneta ha probabilit`a di Testa P (T ) = Y , dove Y `e una v.a. con densit`a fY (y) che ha supporto sull’intervallo [0, 1]. Effettuo n lanci della moneta. Sia X la v.a. che rappresenta il numero di Teste osservate negli n lanci. Calcolare il valore atteso di X. Commento. Apparentemente questo esempio `e molto artificiale, ma non lo `e. Il parametro p = P (T ) della v.a. di Bernoulli che rappresenta l’esito del lancio di una moneta, `e una variabile aleatoria invece di essere un numero. La fY `e la densit`a di probabilit`a della probabilit` a di Testa. Pu` o sembrare una costruzione barocca, ma questo `e un modello standard impiegato in Statistica per rappresentare l’ignoranza su p. Le monete reali non riportano in targhetta il valore di p e in qualche modo questa incertezza va modellata. Vedremo pi` u avanti, se ce ne sar` a il tempo, qual `e il razionale di questo modello. Soluzione. Per Y = y la v.a. X ∼ Bin(n, y) quindi E(X|Y = y) = ny. La v.a. E(X|Y ) = nY quindi E(X) = E(E(X|Y )) = E(nY ) = nE(Y ). Ad esempio, `e molto comune supporre che Y ∼ U([0, 1]). In questo caso E(X) = nE(Y ) = n2 .

152

Appendice I alla Lezione 25 Spazi vettoriali di variabili aleatorie Teoria geometrica del valore atteso condizionato Materiale parzialmente trattato a lezione - non in programma 2012/13

1. Spazi e sottospazi vettoriali di variabili aleatorie Sia S l’insieme delle v.a. che ammettono secondo momento ovvero S := { X : Ω → R | E(X 2 ) < ∞ } Vedremo tra poco che S `e uno spazio vettoriale su R, ma questo richiede il seguente, fondamentale, risultato. Lemma. (disuguaglianza di Cauchy-Schwarz) p |E(XY )| ≤ E (X 2 ) E (Y 2 ) Dimostrazione. Definiamo la v.a. W := tX + Y , dove t ∈ R. Poich´e per ogni t ∈ R 0 ≤ E(W 2 ) = E((tX + Y )2 ) = E(X 2 )t2 + 2E(XY )t + E(Y 2 ), il determinante del polinomio di secondo grado in t deve essere non positivo, ovvero  2 4 E(XY ) − 4E(X 2 )E(Y 2 ) ≤ 0, da cui segue immediatamente la disuguaglianza di Cauchy-Schwarz. Lemma. S `e uno spazio vettoriale su R. Dimostrazione. Si deve dimostrare la chiusura di S rispetto alla somma ed al prodotto per uno scalare. Chiusura rispetto alla somma. Se X, Y ∈ S allora X + Y ∈ S infatti  E (X + Y )2 = E(X 2 ) + E(Y 2 ) + 2 E(XY ), ma per la disuguaglianza di Cauchy Schwarz p |E(XY )| ≤ E(X 2 )E(Y 2 ) e quindi X + Y ∈ S. Chiusura rispetto  al prodotto per uno scalare. Se X ∈ S, per ogni a ∈ R la v.a. aX ∈ S, infatti E (aX)2 = a2 E(X 2 ) < ∞. Osservazione. Gli elementi dello spazio vettoriale S (vettori) sono variabili aleatorie, ovvero funzioni X : Ω → R. Lo spazio vettoriale S `e quindi uno spazio di funzioni. Lo spazio vettoriale S ha dimensione infinita. Esempi di sottospazi lineari di S Esempio 1. (sottospazio delle v.a. a media nulla) S0 := { W ∈ S ; E(W ) = 0 } `e un sottospazio lineare di S (banale). ` facile verificare che l’insieme Esempio 2. (sottospazio generato da n v.a. assegnate) E delle combinazioni lineari di n v.a. assegnate Y1 , . . . Yn tutte appartenenti a S, ( ) n X L := span{Y1 , . . . Yn } := W ; W = αk Yk , αk ∈ R , k=1

`e un sottospazio lineare. Il sottospazio L ha dimensione minore o uguale ad n 153

Esempio 3. (funzioni di una v.a. Y ∈ S) L’insieme σ(Y ) delle funzioni (che ammettono secondo momento) v(Y ) di una fissata v.a. Y ∈ S,  σ(Y ) := { v(Y ) ; v : R → R, e E v 2 (Y ) < ∞ }, `e un sottospazio lineare di S. Infatti se v1 (Y ) ed v2 (Y ) appartengono a σ(Y ), per la disuguaglianza di Cauchy Schwarz `e finito anche il secondo momento di αv1 (Y ) + βv2 (Y ). La dimensione del sottospazio σ(Y ) `e infinita. Prodotto scalare su S Su S si definisce il prodotto scalare hX, Y i := E(XY )

(1)

Verifichiamo che (1) `e un prodotto scalare legittimo. Siano X, Y, W ∈ S. (i) hX, Y i = hY, Xi, banale. (ii) haX + bY, W i = a hX, W i + b hY, W i, per la linearit`a del valore atteso. (iii) hX, Xi ≥ 0, infatti hX, Xi = E(X 2 ) ≥ 0, (iv) ||X||2 := hX, Xi = 0 se e solo se X = 0, infatti E(X 2 ) = 0 se e solo se X = 0. Variabili aleatorie ortogonali Avendo dotato S di un prodotto scalare possiamo introdurre la nozione di ortogonalit`a. Definizione. Se hX, Y i = E(XY ) = 0 le v.a. X ed Y si dicono ortogonali e scriveremo X⊥ Y . Osservazione. Le v.a. X e Y sono scorrelate se e solo se le v.a. X −E(X) ed Y −E(Y ) sono ortogonali. Infatti le due condizioni equivalgono a hX − E(X), Y − E(Y )i = E(XY ) − E(X)E(Y ) = 0. Ne segue anche che, se X o Y hanno media nulla, la scorrelazione e l’ortogonalit` a di X ed Y sono equivalenti. L’esistenza di variabili aleatorie di media non nulla `e una seccatura con la quale si deve convivere. 2. Interpretazione geometrica del valore atteso condizionato La chiave per l’interpretazione geometrica del valore atteso condizionato `e contenuta nella seguente propriet` a fondamentale della v.a. E(X|Y ). Lemma di proiezione. Per ogni funzione v : R → R misurabile e tale che v(Y ) `e integrabile vale l’identit` a   E X v(Y ) = E E(X|Y ) v(Y ) (2) Dimostrazione. Consideriamo, ad esempio, il caso assolutamente continuo. ZZ  E X v(Y ) = xv(y)fXY (x, y) dxdy  Z Z = xfXY (x, y) dx v(y) dy  Z Z = xfX|Y (x|y) dx v(y)fY (y) dy Z = E(X|Y = y) v(y)fY (y) dy  = E E(X|Y ) v(Y )

154

Interpretazione geometrica del Lemma di proiezione. Usando la definizione del prodotto scalare su S l’enunciato del Lemma si scrive hX, v(Y )i = hE(X|Y ), v(Y )i,

per ogni v(Y ) ∈ σ(Y )

che, per la linearit` a del prodotto scalare, equivale a hX − E(X|Y ), v(Y )i = 0

per ogni v(Y ) ∈ σ(Y ).

Geometricamente l’ultima equazione dice che il vettore X − E(X|Y ) `e ortogonale a tutti i vettori v(Y ) ∈ σ(Y ) ovvero che E(X|Y ) `e la proiezione ortogonale di X su σ(Y )

X X − E(X|Y )

E(X|Y )

σ(Y )

3. Il Teorema di Pitagora Poich´e il valore atteso condizionato `e una proiezione ortogonale, sia nel caso discreto che nel caso continuo vale il teorema di Pitagora || X ||2 = || X − E(X|Y ) ||2 + || E(X|Y ) ||2 .

(3)

L’interpretazione probabilistica della relazione Pitagorica richiede qualche manipolazione. Ricordiamo che, per ogni W ∈ S, ||W ||2 = E(W 2 ) = var(W ) + [E(W )]2 .   Osserviamo anche che la v.a. X − E(X|Y ) ha valore atteso E X − E(X|Y ) = 0. L’equazione (3) diventa allora     h  2 i2 var(X) + E(X) = var X − E(X|Y ) + var E(X|Y ) + E E(X|Y )  2 che, cancellando E(X) a sinistra e a destra, si riduce a   var(X) = var X − E(X|Y ) + var E(X|Y )

(4)

La nozione di varianza condizionata consente di reinterpretare il primo termine a destra. Definizione (varianza condizionata) var(X|Y ) := E



2  X − E(X|Y ) Y . 155

Attenzione. La varianza condizionata non `e un numero bens`ı una v.a. Per determinare var(X|Y ) si pu` o cominciare calcolando la funzione deterministica   2 w(y) := var(X|Y = y) = E X − E(X|Y = y) Y = y Z ∞ 2 = x − E(X|Y = y) fX|Y (x|y) dx −∞

e quindi la v.a. varianza condizionata `e var(X|Y ) = w(Y ). Il primo termine nel membro di destra dell’equazione (3) non `e altro che il valore atteso della v.a. varianza condizionata. Lemma e dimostrazione. 2  X − E(X|Y ) = calcolo il valore atteso iterato   2   = E E X − E(X|Y ) Y  = E var(X|Y )

|| X − E(X|Y ) ||2 = E



Sostituendo nella (3), e per gli altri termini seguendo (4), si trova   var(X) = E var(X|Y ) + var E(X|Y )

.

(5)

4. Esempi di calcolo Esempio 1. (seguito dell’esercizio 2 a pagina 37) La variabile aleatoria d’interesse `e S=

N X

Xk

k=1

sotto le ipotesi dell’esercizio 2 a pag. 37. Abbiamo gi`a calcolato E(S|N ) = N E(X1 ). Per trovare un’espressione analitica della v.a. varianza condizionata, var(S|N ), calcoliamo prima ! N X Xk N = n var(S|N = n) = var = var

k=1 n X

Xk N = n

!

k=1

= var

n X

! Xk

= n var(X1 )

k=1

Vale quindi var(S|N ) = N var(X1 ) ed applicando la decomposizione (5) si trova   var(S) = E var(S|N ) + var E(S|N )   = E N var(X1 ) + var N E(X1 ) 2 = E(N ) var(X1 ) + var(N ) E(X1 ) .

156

5. Valore atteso condizionato come stimatore Motivazione. Si supponga di dover stimare con un numero reale c una variabile aleatoria X ∈ S. Una possibilit` a `e di effettuare un esperimento il cui risultato `e modellato da X ed impiegare l’esito di X come costante c. Questa scelta non soddisfa un criterio di ottimalit` a, inoltre X potrebbe non essere osservabile. Per scegliere c la teoria geometrica suggerisce di minimizzare il quadrato della norma d’errore ||X − c||2 . Lemma. c∗ := arg min ||X − c||2 = E(X) c∈R

Dimostrazione. Attenzione: non si pu`o prendere X = c, perch´e c deve essere un numero reale. Peraltro un calcolo diretto fornisce  ||X − c||2 = E (X − c)2  = E (X − E(X) + E(X) − c)2    = E (X − E(X))2 + 2E [X − E(X)][E(X) − c] + E (E(X) − c)2 = var(X) + (E(X) − c)2 Questa espressione `e somma di due quantit`a non negative di cui la prima `e indipendente da c. Scegliendo c = E(X) si annulla il termine dipendente da c e quindi si raggiunge il minimo. Valore atteso condizionato come stimatore. Si supponga di disporre della densit`a congiunta di due v.a. (X, Y ) e di poterne osservare solo una, poniamo la Y , e di voler stimare il ` ragionevole quindi che lo stimatore della X valore della v.a. X sulla base della v.a. Y . E sia costruito come funzione, diciamo v(Y ), della v.a. Y . Per scegliere la funzione v(Y ) la teoria geometrica suggerisce di minimizzare il quadrato della norma d’errore ||X − v(Y )||2 . Lemma. v ∗ (Y ) = arg

min

||X − v(Y )||2 = E(X|Y )

v(Y )∈σ(Y )

Dimostrazione. Dal punto di vista geometrico la soluzione `e ovviamente data dalla proiezione ortogonale di X su σ(Y ), e quindi v ∗ (Y ) = E[X|Y ]. Si pu`o riderivare lo stesso risultato per via analitica imitando quanto fatto sopra per il valore atteso. Questa parte della dimostrazione `e ridondante, ma non guasta fare esercizio.  ||X − v(Y )||2 = E (X − v(Y ))2  = E (X − E(X|Y ) + E(X|Y ) − v(Y ))2     = E (X − E(X|Y ))2 + 2E X − E(X|Y ) E(X|Y ) − v(Y )  + E (E(X|Y ) − v(Y ))2  = var(X − E(X|Y )) + E (E(X|Y ) − v(Y ))2 . Il lettore dimostri che il doppio prodotto nel penultimo passaggio `e nullo (conviene calcolare il valore atteso iterato condizionando rispetto ad Y ). Anche in questo caso ci siamo quindi ridotti alla somma di due quantit` a positive, la prima delle quali indipendente da v(Y ). Scegliendo v(Y ) = E(X|Y ) si annulla il termine dipendente, quindi il minimo si raggiunge per v ∗ (Y ) = E(X|Y ).

157

Appendice II alla Lezione 25 – Teoria geometrica nel caso discreto non in programma 2012/13

Nel caso discreto l’interpretazione geometrica del valore atteso condizionato pu` o essere data con completo rigore senza bisogno di introdurre nozioni di teoria della misura.

1. Richiamo sulle formule di proiezione ortogonale negli spazi vettoriali a prodotto interno Sia V uno pspazio vettoriale dotato di prodotto scalare. Per v, w ∈ V, denotiamo hv, wi il prodotto scalare e ||v|| = hv, vi la corrispondente norma. Proiezione su un sottospazio unidimensionale. Dato un vettore w ∈ V, il sottospazio lineare di V generato da w `e H := span{w} = { αw | α ∈ R }. Dato un qualunque vettore v ∈ V ci poniamo il problema del calcolo della proiezione ortogonale di v su H. Denotiamo P H v la proiezione cercata. Naturalmente P H v ∈ H e il problema si riduce al calcolo dell’opportuno scalare α∗ tale che P H v = α∗ w. La figura qui sotto dovrebbe aiutare a capire il Lemma e la dimostrazione seguenti.

6 v

v − P Hv v − αw

w

-

P Hv

αw

Lemma. P Hv =

H

hv, wi w hw, wi

Dimostrazione. Poich´e P H v ∈ H sar` a P H v = α∗ w per un opportuno α∗ . Il modo pi` u semplice per determinare α∗ `e imporre la condizione di ortogonalit` a v − αw⊥H, che equivale ad imporre v − αw⊥w, ovvero hv − αw, wi = 0 che, per la linearit` a del prodotto scalare, fornisce α∗ =

hv, wi . hw, wi

Esercizio. Calcolare lo scalare α∗ che caratterizza la proiezione ortogonale minimizzando la norma dell’errore di proiezione v − αw. Nota bene: `e equivalente, ma pi` u comodo, minimizzare il quadrato della norma. Proiezione su un sottospazio multidimensionale. Consideriamo ora il caso in cui ( M ) X H := span{ w1 , w2 , . . . wM } = cj wj c1 , . . . cM ∈ R . j=1

Faremo l’ipotesi che i vettori w1 , w2 , . . . wM siano ortogonali, ovvero hwi , wj i = 0 per ogni i 6= j. Sotto questa ipotesi H `e un sottospazio lineare di V, di dimensione M .

158

Lemma. P Hv =

M X hv, wj i wj hw j , wj i j=1

Dimostrazione. La proiezione P H v ∈ H, quindi si tratta di determinare gli M scalari c∗1 , . . . c∗M tali che PM P ∗ c w . Per farlo imponiamo la condizione di ortogonalit` a v − P Hv = M j=1 cj wj ⊥H, che equivale ad j=1 j j PM imporre v − j=1 cj wj ⊥wk per ogni vettore wk della base di H. In termini di prodotti interni la condizione `e: * + M X v− cj wj , wk = 0 per ogni k = 1, 2, . . . M j=1

Per la linearit` a del prodotto scalare, e sfruttando l’ortogonalit` a dei wk , si ottiene c∗j =

hv, wj i . hwj , wj i

` possibile scrivere formule di proiezione anche nel caso in cui i vettori wj non sono ortogonali. In E alternativa, tramite la procedura di Gram-Schmidt, si pu` o produrre, a partire da un insieme di vettori indipendenti w1 , . . . wM , una base ortogonale. Questi sono argomenti che avete gi` a visto nel corso di Algebra Lineare e che rivedrete all’opera nei corsi pi` u avanzati di Stima e Filtraggio.

2. Valore atteso condizionato - caso delle v.a. indicatrici Introdurremo l’interpretazione geometrica del valore atteso condizionato procedendo per gradi, dal caso pi` u semplice al pi` u generale. In questo paragrafo X ed Y saranno entrambe v.a. di Bernoulli. A partire da questo caso si pu` o costruire rigorosamente tutta la teoria discreta. Per i fini di questa nota il comportamento delle variabili aleatorie come funzioni Ω → R `e pi` u rilevante delle densit` a. Per questo motivo approfondiamo alcune idee sulle funzioni indicatrici, che sono le funzioni Ω → R che originano le v.a. di Bernoulli. Definizione. Sia (Ω, F, P ) uno spazio di probabilit` a dato e B ∈ F . La variabile aleatoria χB , indicatrice dell’evento B, `e definita come  1, se ω ∈ B χB (ω) = 0, se ω ∈ B c . La v.a. χB ha alfabeto {0, 1} quindi `e una Bernoulli, e poich´e P (χB = 1) = P ({ω; χB = 1}) = P (B), la v.a. χB ∼ b(P (B)), e vale E[χB ] = P (B). Le seguenti propriet` a delle v.a. indicatrici sono banali, ma utili • χ2B = χB , per ogni B ∈ F , • χB χC = χB∩C , per ogni coppia B, C ∈ F . Definizione. (Insieme delle funzioni di una assegnata v.a. Y ). Data una qualunque v.a. Y l’insieme delle variabili aleatorie che sono funzioni di Y , `e σ(Y ) := { h(Y ) | h : R → R }. Vediamo ora le propriet` a di σ(Y ) nel caso particolare in cui Y = χB . Lemma. σ(χB ) = {c1 χB + c2 χB c | c1 , c2 ∈ R}. Dimostrazione. L’insieme σ(χB ) contiene tutte la funzioni del tipo h(χB )(ω), dove h `e una qualunque funzione h : R → R. Per un’assegnata h, la funzione h(χB )(ω) assume solo due valori: h(0) se ω ∈ B e h(1) se ω ∈ B c . Per ogni ω ∈ Ω vale quindi l’identit` a h(χB )(ω) = h(0) χB (ω) + h(1) χB c (ω) (se vi convincete della validit` a di questa rappresentazione della funzione h(χB )(ω) capirete facilmente il resto della nota). Poich´e h `e arbitraria, h(0) e h(1) sono numeri reali arbitrari, diciamoli c1 , e c2 . Abbiamo dimostrato che l’insieme delle funzioni h(χB ) coindide con l’insieme delle v.a. della forma c1 χB + c2 χB c per c1 e c2 reali abritrari. ` interessante osservare che l’insieme σ(χB ) `e un sottospazio lineare di S. Pi` E u precisamente vale il seguente:

159

Lemma. σ(χB ) `e un sottospazio lineare di S, di dimensione 2. I vettori χB e χB c formano una base ortogonale di σ(χB ). Dimostrazione. Osserviamo che σ(χB ) ⊂ S (perch´e ?). Per verificare l’ortogonalit` a di χB e χB c calcoliamo hχB , χB c i = E[χB χB c ] = E[χB∩B c ] = E[χ∅ ] = E[0] = 0. Poich´e χB e χB c sono ortogonali, sono anche linearmente indipendenti (attenzione: χB e χB c NON sono probabilisticamente indipendenti, verificatelo!). Si conclude che σ(χB ) `e un sottospazio lineare di S, di dimensione 2, ovvero σ(χB ) = span{ χB , χB c }. Sia χA un’assegnata v.a indicatrice. Trattandosi di un vettore di S ha senso calcolare la proiezione ortogonale χ P σ( B ) (χA ) Il risultato di questa operazione sar` a ovviamente un elemento di σ(χB ), ovvero una v.a. funzione di χB . La proiezione ortogonale cercata `e data dalla formula (vedi appendice se necessario) χ hχA , χB c i χ hχA , χB i χ P σ( B ) (χA ) = χ χ B + Bc , h B, Bi hχB c , χB c i

(6)

valida poich´e χB e χB c sono ortogonali. Identifichiamo ora il significato probabilistico della proiezione (6). Dalla definizione di prodotto scalare hχA , χB i = E[χA χB ] = E[χA∩B ] = P (A ∩ B), inoltre hχB , χB i = E[(χB )2 ] = E[χB ] = P (B). Procedendo in modo analogo con gli altri prodotti interni otteniamo χ P σ( B ) (χA ) = P(A|B) χB + P(A|B c ) χB c .

(7)

χ La proiezione P σ( B ) (χA ) `e dunque una v.a. che assume due valori,  χ P(A|B), se ω ∈ B P σ( B ) (χA )(ω) = P(A|B c ), se ω ∈ B c .

(8)

Convincetevi che (7) e (8) contengono la stessa informazione se non volete aver problemi a capire il seguito della nota. Tutto questo `e vagamente interessante, ma ecco la pi`ece de r´esistance. Calcoliamo il valore atteso condizionato E[χA |χB ] con la regola elementare. Anche questa `e una v.a. che assume due valori, a seconda che χB = 1 o χB = 0, ovvero a seconda che ω ∈ B o che ω ∈ B c . In particolare E[χA |χB = 1] E[χA |χB = 0]

= =

E[χA |B] = 0 · P (Ac |B) + 1 · P (A|B) = P (A|B) E[χA |B c ] = 0 · P (Ac |B c ) + 1 · P (A|B c ) = P (A|B c )

per ω ∈ B per ω ∈ B c

Con una formula compatta (convincetevi che vale per ogni ω) possiamo scrivere E[χA |χB ] = P(A|B) χB + P(A|B c ) χB c .

(9)

Confrontando (7) e (9) concludiamo che χ E[χA |χB ] = P σ( B ) (χA ). La v.a. valore atteso condizionato di χA dato χB coincide con la proiezione ortogonale di χA sul sottospazio generato dalla v.a. condizionante χB . Concludiamo la prima parte rivisitando una formula nota. Calcoliamo E[χA ] usando la regola del valore atteso iterato: i h E[χA ] = E E[χA |χB ] . Usando la (9), e per la linearit` a del valore atteso, h i h i P (A) = E[χA ] = E E[χA |χB ] = E P(A|B) χB + P(A|B c ) χB c =

P(A|B)E[χB ] + P(A|B c )E[χB c ]

=

P (A|B)P (B) + P (A|B c )P (B c ),

una vecchia conoscenza.

160

3. Valore atteso condizionato - caso della v.a. condizionante discreta Verificheremo ora che, anche quando la v.a. condizionante Y `e un’arbitraria v.a. discreta, E[χA |Y ] = P σ(Y ) (χA ). Sia dunque Y una v.a. discreta a valori in {y1 , y2 , . . . yM } e definiamo gli insiemi Bj := Y −1 (yj ), j = 1, . . . , M . Gli insiemi Bj formano una partizione di Ω e vale l’identit` a Y (ω) = y1 χB1 + y2 χB2 + · · · + yM χBM Generalizzando immediatamente quanto visto per il caso delle v.a. indicatrici, un’arbitraria funzione h(Y ) della v.a. Y `e rappresentabile nella forma h(Y )(ω) = h(y1 )χB1 + h(y2 )χB2 + · · · + h(yM )χBM dove h(y1 ), . . . , h(yM ) sono M numeri reali. Abbiamo cos`ı dimostrato che lo spazio σ(Y ), generato dalla v.a. Y , `e (M ) X χ σ(Y ) := cj Bj | c1 , . . . cM ∈ R j=1

Poich´e hχBh , χBk i = E[χBh χBk ] = 0 per ogni h 6= k, l’insieme σ(Y ) `e un sottospazio lineare, di dimensione M , di S, ovvero σ(Y ) = span{ χB1 , . . . , χBM }, e χB1 , . . . , χBM ne `e una base ortogonale. Fissata una v.a. indicatrice χA `e immediato il calcolo della proiezione ortogonale P σ(Y ) (χA ) =

M M X X hχA , χBj i χ Bj = P(A|Bj ) χBj hχBj , χBj i j=1 j=1

Per dimostrare che P σ(Y ) (χA ) coincide anche in questo caso con E[χA |Y ] usiamo la regola elementare per il calcolo del valore atteso condizionato. La v.a. E[χA |Y ] assume M valori, e specificamente per ω ∈ Bj esso vale E[χA |Y = yj ] = E[χA |Bj ] = P (A|Bj ). Incollando insieme i pezzi per j = 1, . . . M , si ottiene la rappresentazione E[χA |Y ] =

M X

P(A|Bj ) χBj

j=1

e quindi, come nel caso delle funzioni indicatrici, E[χA |Y ] = P σ(Y ) (χA ). Il valore atteso condizionato di χA data Y coincide con la proiezione ortogonale di χA sul sottospazio generato dalla v.a. condizionante Y . Lasciamo al lettore l’interpretazione della formula E[χA ] = E[E[χA |Y ]] in questo caso. 4. Valore atteso condizionato - caso discreto generale ` un semplice esercizio generalizzare quanto visto finora al caso del valore atteso condizionato E[X|Y ] dove E sia X che Y sono v.a. discrete generali. Se X := {x1 , . . . xN } `e l’alfabeto di X, imitando quanto gi` a fatto varie volte finora, possiamo scrivere X(ω) = x1 χA1 + x2 χA2 + · · · + xN χAN dove Ai := X −1 (xi ). Poich´e la proiezione ortogonale `e una trasformazione lineare abbiamo immediatemente che ! N N N M X X X X σ(Y ) σ(Y ) χ P (X) = P xi Ai = xi P σ(Y ) (χAi ) = xi P(Ai |Bj ) χBj i=1

i=1

i=1

j=1

Peraltro il valore atteso condizionato E[X|Y ] per Y = yj , ovvero per ω ∈ Bj , vale, usando la formula elementare N N X X E[X|Y = yj ] = xi pX|Y (xi |yj ) = xi P(Ai |Bj ) i=1

i=1

e quindi la v.a. E[X|Y ], ragionando come nei casi precedenti, coincide con la proiezione ortogonale P σ(Y ) (X). Una rappresentazione pi` u chiara di E[X|Y ] si ottiene mettendo in evidenza i χBj : "N # N M M X X X X E[X|Y ](ω) = xi P(Ai |Bj ) χBj (ω) = xi pX|Y (xi |yj ) χBj (ω). i=1

j=1

j=1

161

i=1

Lezione 26 26.1

(Mercoled`ı, 8 maggio 2013, ore 16:30-18:15)

Motivazione allo studio della funzione generatrice dei momenti

Nello studio delle variabili aleatorie abbiamo introdotto E(X) e var(X) come parametri riassuntivi del comportamento probabilistico di X. Il valore atteso `e un indice di localizzazione, essendo il numero reale intorno al quale sono distribuiti i possibili valori di X. La varianza `e un indice di variabilit` a, proporzionale alla dispersione dei possibili valori di X intorno al valore atteso. La disuguaglianza di Chebyshev lega i due indici: il limite superiore per la probabilit` a degli scostamenti di X da E(X) `e proporzionale alla varianza, 2 var(X) P (|X − E(X)| > c) ≤ c2 . Poich´e var(X) = E(X 2 ) − E(X) , le informazioni contenute nella coppia di parametri E(X), var(X) sono equivalenti a quelle contenute nella coppia E(X), E(X 2 ). Per naturale estensione, tutti i momenti di X possono considerarsi parametri riassuntivi del comportamento probabilistico. Ricordiamo che per ogni k = 0, 1, 2, . . . il momento di ordine k di X, `e (nel caso assolutamente continuo e in quello discreto rispettivamente) Z ∞ X xk fX (x) dx, mk := E(X k ) = xkk pX (xk ), mk := E(X k ) = −∞

k

se l’integrale (la serie) esiste finito. Una banale condizione sufficiente, che garantisce l’esistenza di mk per ogni k ∈ N, `e che la densit`a abbia supporto su un intervallo [a, b] finito. Se il supporto `e illimitato, una condizione sufficiente `e che la densit`a tenda a zero pi` u velocemente di qualunque xk . La normale, l’esponenziale, la geometrica, la Poisson, soddisfano tutte questo criterio. In generale non tutti i momenti di una data variabile aleatoria esistono ma, per quanto dimostrato nel paragrafo 17.1, se esiste ms allora esistono tutti gli mr , per ogni r < s. La v.a. di Cauchy ad esempio non ammette m1 := E(X), e quindi nessun momento di ordine superiore ad 1. Si noti invece che il momento m0 esiste sempre, ma non `e informativo, infatti m0 = E(X 0 ) = E(1) = 1, qualunque sia X. L’intuizione suggerisce che tutti gli altri momenti mk , k ≥ 1, sono informativi e che maggiore `e il numero di momenti noti, maggiori sono le informazioni sul comportamento probabilistico di X. Il prossimo risultato mostra che, se l’alfabeto di X `e finito, l’intuizione `e corretta. Lemma. Sia X una v.a. a valori in X = { x1 , x2 , . . . xN }. Dati i momenti mk = E(X k ),

k = 0, 1, . . . N − 1,

la densit` a di probabilit` a pX (xi ), i = 1, 2, . . . N `e univocamente determinata. Dimostrazione. Scriviamo le equazioni che definiscono i momenti mk in forma matriciale      1 1 1 ... 1 pX (x1 ) m0    m1   x1 x2 x3 ... xN    2   pX (x2 )   2 2 2    m2  =  x1 x2 x3 ... xN    pX (x3 )        ...   ... ... ... ... ... ...  N −1 N −1 N −1 N −1 pX (xN ) mN −1 x1 x2 x3 . . . xN Questo `e un sistema di N equazioni lineari nelle N incognite pX (xi ). La matrice del sistema `e di Vandermonde22 , ed ha determinante non nullo poich´e gli xi sono distinti, quindi la soluzione pX (x1 ) . . . pX (xN ) esiste ed `e unica. ` fatta per un richiamo sulle matrici di Vandermonde si veda un qualunque testo di algebra lineare. E abbastanza bene la pagina http://en.wikipedia.org/wiki/Vandermonde matrix 22

162

Osservazione. Bisogna prestare molta attenzione ed evitare di leggere in questo Lemma quello che non c’`e scritto. Non `e vero che, data una qualunque sequenza di numeri reali m0 , m1 , . . . mN −1 , con m0 = 1, la soluzione del sistema lineare P qui sopra, che esiste ed `e unica, soddisfi i vincoli pX (xi ) ≥ 0 per ogni i = 1, 2 . . . N e i pX (xi ) = 1, sia cio`e una densit` a di probabilit` a legittima. A tal fine bisogna che la sequenza m0 , m1 , . . . mN −1 sia effettivamente la sequenza dei momenti di una qualche variabile aleatoria. Una tale sequenza non pu` o essere arbitraria: ad esempio m2 , m4 , . . . m2k . . . devono, quanto meno, essere non-negativi per poter rappresentare momenti di ordine pari. La caratterizzazione delle sequenze di numeri reali mk che sono possibili sequenze di momenti di una v.a. costituisce il classico problema dei momenti dell’analisi matematica. Nel caso di v.a. generali (discrete o continue) non `e sempre possibile ricostruire univocamente la densit` a di probabilit` a a partire dalla conoscenza dei momenti, anche ammesso di conoscere la sequenza infinita {mk }k≥0 . Accettando comunque l’idea che pi` u momenti si conoscono maggiori sono le informazioni a disposizione sulla densit`a considereremo interessante ogni strumento matematico che ci consenta di calcolare in modo semplice i momenti mk . Il metodo brute-force per il calcolo dei momenti consiste nel valutare Z per k = 0, 1, . . . , mk = E(X k ) = xk fX (x) dx, ovvero infiniti integrali. Peraltro la v.a. eX , funzione della v.a. P X, ha un’interessante xk propriet`a. Calcolando il valore atteso di eX e ricordando che ex = ∞ k=0 k! , si trova ! Z ∞ ∞ X X  Xk E(X k ) X x E e = e fX (x) dx = E = , k! k! k=0

k=0

ammesso che sia lecito lo scambio di valore atteso e serie. Si osservi il risultato del calcolo  di un unico integrale, E eX , si pu`o esprimere come combinazione lineare (infinita) dei momenti {mk }k≥0 . La funzione generatrice dei momenti, introdotta qui sotto, `e una macchinetta analitica che consente di estrarre gli E(X k ) dalla combinazione lineare.

26.2

Funzione generatrice dei momenti

Definizione. La funzione generatrice dei momenti (MGF) della v.a. X `e  MX : D → R; s 7→ MX (s) := E esX ,  dove D ⊂ R `e il sottoinsieme degli s ∈ R tali che l’integrale E esX esiste finito. Si noti che, qualunque sia la variabile aleatoria X, il dominio D 6= ∅, infatti s = 0 7→ MX (0) = E(1) = 1. Se il dominio di definizione di MX (s) `e un intervallo D = (−s+0, s0 ) intorno all’origine allora la variabile aleatoria X ammette tutti i momenti, come specificato nel seguente teorema. Teorema 1. Se MX (s) ha dominio di esistenza D = (−s + 0, s0 ), per qualche s0 > 0 allora la variabile aleatoria X ammette tutti i momenti {mk }k≥0 , inoltre mk = E(X k ) =

d(k) M (s) , X s=0 ds(k)

163

(1)

Cenno di dimostrazione. Sviluppando esx in serie di Taylor Z ∞  sX MX (s) := E e = esx fX (x) dx −∞

Z = =

∞ ∞ X

xk fX (x) dx

−∞ k=0 k! ∞ X sk Z ∞ k=0

=

sk

∞ X

k!

xk fX (x) dx

−∞

E(X k )

k=0

sk , k!

dove lo scambio dell’integrale con la serie `e possibile poich´e MX (s) esiste per ogni s ∈ D = (−s0 , s0 ), per qualche s0 > 0 (questa parte della dimostrazione `e omessa). La funzione generatrice dei momenti `e quindi rappresentabile, per ogni s ∈ D, con la serie di potenze MX (s) =

∞ X

E(X k )

k=0

sk . k!

(2)

Peraltro se f (t) `e una funzione sviluppabile in serie di potenze in un intorno dell’origine, P∞ k e noto che a = 1 dk f (t) . Confrontando con la serie di ovvero f (t) = k k=0 ak t ` k! dtk t=0 potenze (2) si trova dk mk = E(X k ) = k MX (s) s=0 . ds Si osservi che la formula (1) consente di ricavare tutti i momenti mk a partire dal calcolo delle derivate nell’origine, operazione (generalmente) semplice, della funzione MX (s). In realt`a i momenti mk si possono addirittura ricavare per ispezione, senza calcoli, se si riesce a scrivere lo sviluppo in serie di potenze di MX (s). Si vedano gli Esempi 3 e 6 qui sotto! Esempi di calcolo di MX (s) Esempio 1. Se Z ∼ N (0, 1), 1 2

MZ (s) = e 2 s ,

per ogni s ∈ R

Dimostrazione. Si usa la tecnica del completamento del quadrato. Z 1 2 1 MZ (s) = esx √ e− 2 x dx 2π Z 1 − 1 x2 +sx √ e 2 dx = 2π Z  1 − 1 (x−s)2 −s2 2 √ = e dx 2π Z  1 1 2 1 2 √ e− 2 (x−s) dx e 2 s = 2π 1 2

= e2s

dove, nell’ultimo passaggio, si riconosce che l’integranda `e la densit`a N (s, 1) che integra ad 1, per ogni s ∈ R. Si veda anche l’Esempio 4 Micro-esercizio. Verificare che E(Z) = MZ0 (0) = 0, E(X 2 ) = var(X) = MZ00 (0) = 1. 164

Esempio 2. Se X ∼ Bin(n, p),   n n   X  X n k n MX (s) = E esX = p (1 − p)n−k = (pes )k (1 − p)n−k esk k k k=0

k=0

= (pes + 1 − p)n ,

per ogni s ∈ R

0 (0) = np. Calcolare E(X 2 ) = M 00 (0) e Micro-esercizio. Verificare che E(X) = MX X verificare i conti riottenendo la nota varianza della binomiale.

Esempio 3. Se X ∼ Exp(λ), Z Z ∞ sx −λx e λe dx = λ MX (s) =



e−(λ−s)x dx =

0

0

λ , λ−s

per s < λ

Si noti che, in questo caso, il dominio di esistenza della MX (s) si riduce alla semiretta s < λ. Poich´e il parametro λ di una densit`a esponenziale `e strettamente positivo si deduce che la MX (s) esiste in un intorno dell’origine e quindi `e possibile determinare i (k) momenti E(X k ) = MX (0). Per calcolare i momenti della v.a. esponenziale sfruttando il Teorema 1 si pu` o operare in due modi. Il modo diretto `e usare la formula mk = E(X k ) = k d MX (s) s=0 . Il modo furbo `e scrivere lo sviluppo in serie di potenze di MX (s) che `e dsk particolarmente semplice ricordando le serie geometriche. MX (s) = = =

λ 1 = λ−s 1− ∞   X s k k=0 ∞ X k=0

s λ

λ k! sk λk k!

Abbiamo moltiplicato e diviso per k! i termini della serie geometrica per avere un’espressione identica alla (2), che consente di scrivere gli mk = E(X k ) per ispezione. Si ricava k! mk = E(X k ) = k , λ non male come rapporto sforzo/risultato: per le v.a. esponenziali la sequenza infinita mk si calcola in pochi secondi. MGF di funzioni lineari Teorema 2. Sia X una v.a. la cui MGF `e MX (s). Sia inoltre Y = aX + b, allora MY (s) = esb MX (as) Dimostrazione. Per calcolo diretto,    MY (s) := E esY = E es(aX+b)  = esb E esaX = esb MX (as)

165

Esempi di applicazione del Teorema 2 Esempio 4. Se X ∼ N (µ, σ 2 ), 1

MX (s) = eµs e 2 σ

2 s2

.

Dimostrazione. La densit` a N (µ, σ 2 ) coincide con la densit`a della variabile aleatoria X = σZ + µ, dove Z ∼ N (0, 1), infatti X `e una trasformazione lineare di Z, (si veda il sottoparagrafo trasformazioni lineari delle v.a. normali, del paragrafo 18.1). Applicando l’Esempio 1 ed il Teorema 2 si ottiene il risultato. Esempio 5 (Calcolo dei momenti centrali). I momenti centrali della v.a. X sono denotati σk , e definiti come   σk := E (X − E(X))k = E (X − m1 )k , k = 1, 2, . . . se l’integrale (la serie) esiste ed `e finito. Si noti che σ1 = 0, qualunque sia la v.a. X e che σ2 = var(X). Ponendo Y = X − m1 `e evidente che i momenti mYk := E(Y k ) coincidono  X k con i momenti centrali σk := E (X − m1 ) di X. Il Teorema 2 fornisce allora MY (s) = MX−m1 (s) = e−m1 s MX (s) e, applicando il Teorema 1, σk = E(Y k ) =

i dk dk h −m1 s e M (s) M (s) = X Y s=0 dsk dsk s=0

(3)

Esempio 6 (Calcolo dei momenti centrali della N (µ, σ 2 )). Come conseguenza degli Esempi 4 e 5 si ha 1 2 2 1 2 2 MX−µ (s) = e−µs eµs e 2 σ s = e 2 σ s Ora, imitando quanto fatto nell’Esempio 3, anzich´e applicare direttamente la formula (3) seguiamo la via furba, scrivendo direttamente la serie di potenze che rappresenta MX−µ (s).

MX−µ (s) = e

1 2 2 σ s 2

= =

 1 2 2 k 2σ s

∞ X k=0 ∞ X

k! (σ 2 )k

k=0

2k

∞ X (σ 2 )k 2k s = 2k k! k=0 s2k

(2k)! (2k)! k!

Anche in questo caso abbiamo moltiplicato e diviso per (2k)! in modo da rendere i momenti di X − µ (momenti centrali di X), ricavabili per ispezione della serie di potenze. Si ha, per ogni k ≥ 1, σ2k+1 = 0, σ2k = Micro-esercizio. Verificare che: σ2 = σ 2 ,

(σ 2 )k (2k)! . 2k k! σ4 = 3(σ 2 )2 .

166

Il problema dell’esistenza della MGF MX (s) Per capire qual `e la radice del problema per la convergenza dell’integrale che definisce 1 MX (s) si consideri il caso di una v.a. X di Cauchy. La densit`a fX (x) = π1 1+x 2 , quindi l’espressione della MGF `e Z 1 esx MX (s) = dx π 1 + x2 La figura qui sotto mostra l’andamento di esx al variare di s e l’andamento di

1 . 1+x2

Spezzando l’integrale per addittivit`a Z 0 Z ∞ 1 esx 1 esx MX (s) = dx + dx 2 π 1 + x2 −∞ π 1 + x 0 Condizione necessaria per la convergenza dell’integrale `e che l’integranda tenda a zero per x → ±∞. Usando la regola di L’Hˆ opital esx x→−∞ 1 + x2 esx lim x→∞ 1 + x2 lim

s2 esx = 0, x→−∞ 2 s2 esx = lim = 0, x→∞ 2 =

lim

se e solo se s > 0 se e solo se s < 0

Si conclude che MX (s) esiste solo per s = 0, dove banalmente vale MX (0) = 1.

167

Lezione 27 27.1

(Luned`ı 13 maggio, ore 10:30–13:15)

Funzione caratteristica di una variabile aleatoria

La funzione caratteristica `e un potente strumento per lo studio delle variabili aleatorie, per certi aspetti simile alla funzione generatrice dei momenti, ma molto pi` u potente. La funzione caratteristica, a differenza della funzione generatrice dei momenti, ha il pregio di esistere sempre; la cattiva notizia `e che, in generale, essa `e una funzione a valori complessi. Definizione. La funzione caratteristica di una v.a. X `e la funzione  ϕX : R → C; ω 7→ ϕX (ω) := E ejωX Nel caso di v.a. assolutamente continue ϕX (ω) := E e

jωX



Z

ejωx fX (x) dx,

=

e nel caso di v.a. discrete  X jωx ϕX (ω) := E ejωX = e k pX (xk ) k

Legame con la nozione di trasformata di Fourier in Segnali e Sistemi Nei libri di teoria della probabilit` a, la funzione caratteristica di una v.a. X `e definita come trasformata di Fourier (TdF) della funzione di densit` a fX (x). Gli allievi ingegneri, alle prime armi con la TdF, sono usualmente disorientati da questa definizione, poich´e la definizione di TdF che viene utilizzata differisce leggermente da quella utilizzata in segnali e sistemi. In realt` a nella letteratura scientifica convivono almeno quattro definizioni, leggermente diverse tra loro, di TdF. Vediamo le quattro diverse coppie trasformata-antitrasformata, nel caso di un segnale x(t) a tempo continuo e a valori complessi. (a.) Per gli ingegneri dell’automatica Z X(ω)

:=

x(t)

:=

x(t)e−jωt dt Z 1 X(ω)ejωt dω. 2π

(b.) Rispetto alla definizione (a.) gli ingegneri delle telecomunicazioni sostituiscono ω con 2πf per far 1 sparire il coefficiente 2π dall’antitrasformata o, pi` u pomposamente, per rendere la trasformazione x(t) ↔ X(f ) unitaria su L2 (R), Z X(f ) := x(t)e−j2πf dt Z x(t) := X(f )ej2πf t df. (c.) Rispetto alla definizione (a.) i fisici moltiplicano la trasformata per √12π in modo da avere lo stesso fattore nella trasformata e nell’antitrasformata, ed anche questa `e una trasformazione unitaria Z 1 X(ω) := √ x(t)e−jωt dt 2π Z 1 X(jω)ejωt dω. x(t) := √ 2π (d.) Rispetto alla definizione (a.) i probabilisti scambiano ω con −ω, Z X(ω) := x(t)ejωt dt Z 1 x(t) := X(jω)e−jωt dω, 2π

168

Adottando quest’ultima convenzione per la definizione di TdF, e la notazione fX (x) ↔ ϕX (ω) per la coppia segnale/trasformata, si riconosce che la funzione caratteristica, come definita all’inizio della lezione, `e la trasformata di Fourier della densit` a di proabilit` a.

Propriet` a elementari della funzione caratteristica (a.) Esistenza, continuit` a e normalizzazione ϕX (ω) esiste per ogni ω ∈ R, qualunque sia la densit`a fX (x). Infatti Z Z Z jωx |ϕX (ω)| = e fX (x) dx ≤ ejωx fX (x) dx = fX (x) dx = 1.  Poich´e ϕX (0) = E ej0X = E(1) = 1 il modulo della funzione caratteristica ha un massimo per ω = 0. La funzione caratteristica `e inoltre uniformemente continua su R (dim. omessa). (b.) Corrispondenza biunivoca funzioni caratteristiche funzioni di distribuzione A livello pi` u fondamentale la funzione caratteristica si definisce a partire dalla funzione di distribuzione delle variabili aleatorie. Si dimostra che esiste una corrispondenza biunivoca tra funzioni caratteristiche e funzioni di distribuzione, ovvero se due funzioni di distribuzione hanno la stessa funzione caratteristica allora coincidono. Ci limitiamo qui ad osservare che, nel caso assolutamente continuo, le funzioni di distribuzione ammettono densit` a e quindi, se la densit`a soddisfa le condizioni di Dirichlet, vale la formula d’inversione Z ∞ 1 fX (x) = e−jωx ϕX (ω) dω, per ogni x di continuit`a di fX . 2π −∞ (c.) Simmetrie Poich´e la densit` a fX (x) `e una funzione reale, ϕX (ω) `e hermitiana. Se la densit`a fX (x) `e pari allora ϕX (ω) `e reale e pari (vedi Segnali e Sistemi). In questo caso Z ϕX (ω) = cos(ωx)fX (x) dx

(d.) Relazione con i momenti Se la v.a. X ammette k momenti allora ϕX (ω) `e derivabile k volte nell’origine e 1 d(k) ϕX (ω) E(X ) = k j ω=0 dω (k) k

Omessa la dimostrazione della derivabilit`a. Per ricavare la formula si deriva sotto il segno di integrale, cio`e si scambiano le operazioni di derivata e calcolo del valore atteso: (k)  d(k) d jωX ϕ (ω) = E e X dω (k) dω (k) ω=0 ω=0 ! (k) d jωX = E e dω (k)   ω=0 = E j k X k ejωX = j k E(X k ) ω=0

169

(e.) Funzione caratteristica di trasformazioni lineari Se Y = aX + b allora     ϕY (ω) = E ejωY = E ejω(aX+b) = ejωb E ejωaX = ejωb ϕX (aω)

(f.) Funzione caratteristica della somma di due v.a. indipendenti Se X, Y sono indipendenti allora W = X + Y ha funzione caratteristica ϕW (ω) = ϕX (ω) ϕY (ω). La dimostrazione `e immediata usando la definizione.   ϕW (ω) = E ejω(X+Y )    = E ejωX ejωY = E ejωX E ejωY = ϕX (ω) ϕY (ω) Questo risultato `e in realt` a una manifestazione del teorema della convoluzione. Se X ed Y sono indipendenti `e noto che fX+Y = fX ~ fY , quindi la trasformata di Fourier di fX+Y `e il prodotto delle TdF di fX e di fY . Attenzione: non vale il viceversa. Se la funzione caratteristica della somma di due v.a. `e il prodotto delle funzioni caratteristiche degli addendi non segue che le due v.a. sono indipendenti. Pi` u sotto costruiremo un controesempio usando le v.a. di Cauchy. Micro-esercizio. Dimostrare l’analoga propriet`a per la funzione generatrice dei momenti. (g.) Funzione caratteristica della somma di n v.a. indipendenti La generalizzazione di (f.) ad n variabili aleatorie `e immediata. Riportiamo alcune espressioni che saranno utili in seguito. Se {Xi }ni=1 `e una sequenza finita di v.a. indipendenti, con ϕXi (ω) funzione caratteristica di Xi , la somma di variabili aleatorie W =

n X

Xk

k=1

ha funzione caratteristica ϕW (ω) =

n Y

ϕk (ω)

k=1

Se le v.a. {Xi } sono i.i.d., di funzione caratteristica comune ϕ(ω), allora  n ϕW (ω) = ϕ(ω) . Nello stesso caso di v.a. i.i.d. la media aritmetica delle v.a. {Xi }ni=1 , n 1 X X n := Xi , n k=1

ha funzione caratteristica

h  ω in ϕXn (ω) = ϕ . n

170

(h.) La funzione caratteristica `e definita positiva Questo significa che per ogni n ∈ N, per ogni n−pla di reali ω1 , ω2 , . . . ωn ed ogni n−pla di complessi u1 , u2 , . . . un vale la disuguaglianza n X n X

ϕX (ωk − ωl )uk u∗l ≥ 0

k=1 l=1

Dimostrazione (notazioni: se z = x + jy allora z ∗ = z¯ = x − jy)  2  n X 0 ≤ E  uk ejωk X  k=1 ! n !∗ ! n X X jωk X jωk X = E uk e uk e k=1 n X

= E

= E =

k=1

! uk ejωk X

k=1 n n XX

n X

!! u∗k e−jωk X

k=1

! uk u∗l ej(ωk −ωl )X

=

k=1 l=1 n n XX

n X n X

  uk u∗l E ej(ωk −ωl )X

k=1 l=1

ϕX (ωk − ωl )uk u∗l

k=1 l=1

(i.) Teorema di Bochner Ogni funzione ϕ(ω) definita positiva, continua in un intorno dell’origine, e normalizzata ϕ(0) = 1, `e la funzione caratteristica di una funzione di distribuzione (dimostrazione omessa).

Esempi di calcolo e di applicazione (1.) X ∼ U(a, b) Z ϕU (ω) = a

b

ejωx

1 ejωb − ejωa 1 dx = b−a jω b−a

Dopo avere visto questo esempio l’introduzione motivazionale sull’utilit`a della funzione caratteristica per il calcolo dei momenti sar`a ritenuta pubblicit`a ingannevole. In effetti, calcolare le derivate della funzione ϕU (ω) nell’origine `e piuttosto oneroso, mentre il calcolo diretto dei momenti di una v.a. uniforme `e triviale Z b k x bk+1 − ak+1 mk = E(X k ) = dx = . (b − a)(k + 1) a b−a Il fatto `e che, in rare occasioni, integrare `e pi` u facile che derivare. Nel caso particolare a = −1, b = 1 la funzione caratteristica `e ϕ(ω) =

sin ω , ω

che `e reale e pari come atteso.

171

(2.) X ∼ Exp(λ) ∞

Z ϕX (ω) =

λe−λx ejωx dx

Z0 ∞ =

λe(jω−λ)x dx ∞ λ e(jω−λ)x jω − λ 0 λ λ − jω 0

= =

converge per ogni ω ∈ R poich´e −λ < 0

Spiegazione dettagliata (per chi era distratto alla lezione di Segnali e Sistemi) Capire a fondo la convergenza dell’integrale appena visto `e importante. Analizziamo in dettaglio perch´e converge. Assegnato un numero complesso s = σ + jω calcoliamo, usando la definizione ufficiale, l’integrale improprio Z ∞ Z ∞ esx dx = e(σ+jω)x dx 0

0

= = =

T 1 e(σ+jω)x T →∞ σ + jω 0  T 1 lim eσx cos(ωx) + j sin(ωx) T →∞ σ + jω 0 1 − , se σ < 0 σ + jω lim

Nell’ultimo passaggio abbiamo sfruttato la seguente osservazione. Se σ < 0 allora lim eσT cos(ωT ) = lim eσT sin(ωT ) = 0

T →∞

T →∞

presentandosi, in entrambi i casi, il prodotto di una funzione che tende a zero per una funzione limitata. Se invece σ ≥ 0 i limiti non esistono. Infatti, se σ = 0 le funzioni oscillano tra ±1, mentre se σ > 0 oscillano illimitate.

Esercizio. Calcolare E(X) ed E(X 2 ) per la v.a. esponenziale a partire dalla funzione caratteristica. (3.) X ∼ Cauchy Z



ϕX (ω) = −∞

1 ejωx dx = e−|ω| π 1 + x2

questo `e un classico esempio di trasformata di Fourier – vedi esercizi di segnali e sistemi. Controesempio alla propriet` a (f.). Si considerino le due v.a. di Cauchy, X ed Y = X, allora X + Y = 2X e per la propriet`a (e.) vale ϕX+Y (ω) = ϕ2X (ω) = e−2|ω| = e−|ω| e−|ω| = ϕX (ω)ϕY (ω), la funzione caratteristica della somma X + Y `e il prodotto delle funzioni caratteristiche di X ed Y . Ma le v.a. aleatorie X ed Y non sono indipendenti, infatti Y = X. (4.) X ∼ b(p) ϕX (ω) =

X

ejωxk pX (xk ) = 1 − p + pejω

k

172

(5.) X ∼ Bin(n, p) ϕX (ω) = =

X

k n X k=0

=

e

jωxk

pX (xk ) =

n X

  n k p (1 − p)n−k k

jkω

e

k=0

n k



pejω

1 − p + pejω

k

(1 − p)n−k

n

(6.) Z ∼ N (0, 1) 1

2

ejωx e−

x2 2

ϕZ (ω) = E[ejωZ ] = e− 2 u Dimostrazione.23 Si deve calcolare 1 ϕZ (ω) = √ 2π

Z



dx

−∞

Per la formula di Eulero ejωx = cos(ωx) + j sin(ωx). Osserviamo che Z ∞ x2 1 √ sin(ωx) e− 2 dx = 0 2π −∞ essendo l’integranda dispari ed integrabile (grazie alla veloce convergenza a 0 di e− siamo quindi ridotti al calcolo di Z ∞ x2 1 cos(ωx) e− 2 dx ϕZ (ω) = √ 2π −∞

x2 2

). Ci

Derivando rispetto a ω ed integrando per parti si trova  2 Z ∞ Z ∞ 2 −x 1 1 0 − x2 ϕZ (ω) = − √ dx = √ x sin(ωx) e sin(ωx) d e 2 2π −∞ 2π −∞ ∞ Z ∞ 2 −x x2 1 1 = √ sin(ωx) e 2 −ω √ cos(ωx) e− 2 dx 2π 2π −∞ −∞ = −ω ϕZ (ω). L’equazione differenziale lineare ϕ0Z (ω) = −ω ϕZ (ω) si risolve agevolmente separando le variabili dϕZ (ω) = −ω dω ϕZ (ω)



log(ϕZ (ω)) = −

ω2 +C 2



e e− 21 ω2 ϕZ (ω) = C

e, imponendo la condizione iniziale ϕZ (0) = 1, si conclude che ϕZ (ω) = e−

ω2 2

.

(7.) X ∼ N (µ, σ 2 ) 1

ϕX (ω) = ejµ ω− 2 σ

2

ω2

Dimostrazione. Con l’usuale trucco della trasformazione lineare, scriviamo X = σZ + µ, dove Z ∼ N (0, 1). Applicando la regola (e.) e il risultato di (6.) si ricava il risultato. 23

Aggiungere dimostrazione con i momenti.

173

Applicazioni alla caratterizzazione di funzioni di distribuzione (a.) Caratterizzazione della v.a. Binomiale Lemma. La somma X di n v.a. di Bernoulli X1 , . . . Xn , i.i.d. di parametro p, `e binomiale Bin(n, p). Commento. Questo risultato `e stato gi`a pi` u volte giustificato, ma ora e possibile dimostrarlo in modo semplice e rigoroso. Dimostrazione. La funzione caratteristica comune delle v.a. di Bernoulli `e ϕ(ω) = 1 − p + pejω . La funzione caratteristica della somma di v.a. indipendenti `e il prodotto delle funzioni caratteristiche degli addendi quindi n n ϕX (ω) = ϕ(ω) = 1 − p + pejω , questa `e la funzione caratteristica di una v.a. Bin(n, p). Se due v.a. hanno la stessa funzione caratteristica le loro funzioni di distribuzione (e quindi densit`a) coincidono. Conclusione: X ∼ Bin(n, p). (b.) Combinazioni lineari di v.a. normali indipendenti sono normali Alla fine della Lezione 23 abbiamo enunciato il seguente Teorema, senza per`o completarne la dimostrazione che richiedeva un laborioso calcolo: la convoluzione di due densit`a normali. L’uso della funzione caratteristica semplifica di molto la dimostrazione. Questa `e una manifestazione del teorema della convoluzione. 2 ) ed Y ∼ N (µ , σ 2 ) indipendenti allora Teorema. Se W = αX + βY , con X ∼ N (µX , σX Y Y 2 W ∼ N (αµX + βµY , α2 σX + β 2 σY2 ).

Dimostrazione. Le funzioni caratteristiche di X ed Y sono rispettivamente 1

2

2

1

2

2

ϕX (ω) = ejµX ω− 2 σX ω ϕY (t) = ejµY ω− 2 σY ω

Le funzioni caratteristiche di αX e di βY sono rispettivamente (regola 2 (e.)) 1

2 σ2 ω2 X

1

2 σ2 Y

ϕαX (ω) = ejαµX ω− 2 α ϕβY (ω) = ejβµY ω− 2 β

ω2

Per l’ipotesi d’indipendenza la funzione caratteristica di Z = αX + βY `e il prodotto delle due: 1 2 2 2 2 2 ϕW (ω) = ej(αµX +βµY )t− 2 (α σX +β σY )ω 2 + β 2 σ 2 ) e la ma questa `e la funzione caratteristica di una v.a. N (αµX + βµY , α2 σX Y dimostrazione `e conclusa.

(c.) Somme di v.a. binomiali indipendenti Proposizione. Se la coppia di v.a. (X, Y ) `e indipendente con X ∼ Bin(m, p) ed Y ∼ Bin(n, p) allora Z = X + Y ∼ Bin(m + n, p). Commento. Il risultato `e intuitivamente corretto infatti X si pu`o interpretare come somma di m v.a. bernoulliane indipendenti di parametro p, ed analogamente Y come somma di n bernoulliane indipendenti di parametro p. La v.a. X + Y `e quindi interpretabile come somma di m + n bernoulliane di parametro p, quindi X + Y ∼ Bin(m + n, p). Forniamo due dimostrazioni, la prima diretta, la seconda con le funzioni caratteristiche.

174

Dimostrazione diretta. La dimostrazione consiste nel calcolo di una convoluzione. Per quanto noto, la densit` a di probabilit`a di Z = X + Y `e pZ (k) = pX (k) ~ pY (k) Le densit` a di probabilit` a pX e pY sono rispetttivamente, (denotando q = 1 − p)   m k m−k pX (k) = p q [1l(k) − 1l(k − m)] k   n k n−k pY (k) = p q [1l(k) − 1l(k − n)] k dove abbiamo introdotto i gradini per tenere automaticamente conto del supporto delle due densit` a: {0, 1, . . . m} per pX e {0, 1, . . . n} per pY . La convoluzione allora si scrive esplicitamente come pZ (k) = =

∞ X

pX (k − `)pY (`)

`=−∞ ∞  X `=−∞

   m n ` n−` k−` m−k+` p q [1l(k − `) − 1l(k − ` − m)] p q [1l(`) − 1l(` − n)] k−` `

Estraendo dalla sommatoria le costanti in ` ci si riduce a   ∞  X m n k m+n−k pZ (k) = p q [1l(k − `) − 1l(k − ` − m)][1l(`) − 1l(` − n)] k−` ` `=−∞

Il supporto (in `, indice corrente della sommatoria) di [1l(`)−1l(`−n)] `e {0, 1, . . . , n} mentre il supporto di [1l(k − `) − 1l(k − ` − m)] `e {k − m, . . . , k} Per fissare le idee, e senza perdita di generalit` a, supponiamo che m ≥ n. Si distinguono 5 casi: km+n



pZ (k) = 0

Per terminare la dimostrazione dobbiamo verificare che, per ogni k ∈ {0, 1 . . . m + n} (ovvero in ognuno dei casi listati sopra dove la sommatoria non `e vuota), si ha   m + n k m+n−k pZ (k) = p q k Allo scopo `e utile ricordare l’interpretazione di Polya dei coefficienti binomiali. Facendo  riferimento alla figura qui sotto, il coefficiente binomiale nk `e il numero di cammini in avanti che partono dal nodo (0, 0) e arrivano al nodo (n, k) sul reticolo. Ricordo che il nodo (n, k) si trova al livello n-esimo del reticolo, in posizione k-esima. Il livello si conta partendo da 0 alla radice, la posizione nel livello si conta partendo da 0 all’estrema sinistra (guardando il reticolo). Con questa scelta di coordinate, per andare da (0, 0) ad (n, k) 175

si devono fare n passi, di cui k verso destra (guardando la figura). Il numero totale di  n cammini di questo tipo `e chiaramente k . Con riferimento alla figura ogni cammino da (0, 0) ad (m + n, k) si pu`o fare in due tappe (0, 0) → (m, k − `) → (m + n, k). Il nodo (m, k − `) della tappa intermedia pu`o essere uno qualunque di quelli da cui `e possibile raggiungere il nodo finale (m + n, k). Riflettendo sulla figura `e facile convincersi che i possibili valori di ` dipendono da k esattamente cone nell’analisi della convoluzione fatta sopra, ossia ` ∈ {0, 1 . . . k} se 0 ≤ k ≤ n (caso illustrato in figura con i pallini sul livello 4), mentre ` ∈ {0, 1 . . . n} se n ≤ k ≤ m ed infine ` ∈ {k − m, . . . n} se m ≤ k ≤ m + n. Per ` fissato, applicando il principio di moltiplicazione, il numero di cammini da (0, 0) a (m + n, k) con tappa in (m, k − `) `e  n m k−` · ` . Il numero totale di cammini (0, 0) → (m + n, k) si trova sommando rispetto ad ` nell’insieme di valori appropriato (sono proprio le somme che si dovevano calcolare per terminare la convoluzione!) e ovviamente dar`a sempre come risultato m+n . k

m=4 t

m+n=7

t

t

t

t

k=3

Se siete arrivati fino a qui vi meritate una ciliegina. Dopo lo sforzo erculeo del calcolo della convoluzione a mani nude apprezzerete al meglio la potenza dei metodi di trasformazione. Dimostrazione della proposizione con il metodo della funzione caratteristica. Ricordiamo n ` che la funzione caratteristica di una v.a. X ∼ Bin(m, p) `e ϕX (ω) = 1 − p + pejω E altres`ı noto che la funzione caratteristica della somma di variabili aleatorie indipendenti `e il prodotto delle funzioni caratteristiche. Poich´e X ed Y sono v.a. binomiali indipendenti si trova ϕX+Y (ω) = ϕX (ω) ϕY (ω) = 1 − p + pejω

m

= 1 − p + pejω

m+n

1 − p + pejω

n

Si riconosce che la funzione caratteristica ϕX+Y (ω) coincide con quella di una densit`a binomiale Bin(m + n, p). Poich´e le funzioni caratteristiche caratterizzano le distribuzioni, si conclude che X + Y ∼ Bin(m + n, p). La proposizione `e dimostrata.

176

27.2

Vettori aleatori (notazioni matriciali)

Nelle precedenti lezioni abbiamo iniziato lo studio dei vettori aleatori introducendo la descrizione probabilistica completa nella forma di distribuzioni e densit`a n dimensionali. Non abbiamo ancora introdotto i parametri riassuntivi del comportamento probabilistico dei vettori aleatori. Questi ultimi sono pi` u naturalmente definiti usando le notazioni vettoriali e matriciali dell’algebra lineare. Parametri riassuntivi Sia X := (X1 , X2 . . . xn )> ∈ Rn un vettore aleatorio. Introdurremo qui i corrispondenti vettoriali delle nozioni di valore atteso, secondo momento, varianza ecc. ` il vettore in Rn Definizione (vettore della media). E   E(X1 )  E(X2 )   mX := E(X) :=   ...  E(Xn ) Osservazione. Si noti che, per il calcolo di mX `e sufficiente conoscere le funzioni di densit`a di tutte le variabili aleatorie Xi . Questa informazione `e molto minore di quella contenuta nella densit` a congiunta fX (x1 , x2 , . . . xn ) ed infatti si pu`o ricavare, per marginalizzazione, da quest’ultima. ` la matrice in Rn×n , Definizione (matrice di correlazione). E  RX := corr(X) := E XX> E(X12 ) E(X1 X2 )  E(X2 X1 ) E(X22 )   ... ... E(Xn X1 ) E(Xn X2 )  =

... ... ... ...

 E(X1 Xn ) E(X2 Xn )   ... 2 E(Xn )

Osservazione. Si noti che, per il calcolo di RX `e sufficiente conoscere le funzioni di densit`a congiunte di tutte le coppie di variabili aleatorie (Xi , Xj ), per ogni i 6= j. Questa informazione `e molto minore di quella contenuta nella densit`a congiunta fX (x1 , x2 , . . . xn ) ed infatti si pu` o ricavare, per marginalizzazione, da quest’ultima. Lemma.

RX `e simmetrica ed `e semidefinita positiva24

Dimostrazione. La simmetria `e ovvia. Per dimostrare che RX `e semidefinita positiva procediamo direttamente. Per a ∈ Rn , valutiamo la forma quadratica di matrice RX  a> RX a = a> E XX> a  = E a> XX> a = E(w2 ) ≥ 0, dove w := a> X `e una variabile aleatoria scalare, quindi E(w2 ) ≥ 0, e si conclude che a> RX a ≥ 0 per ogni a ∈ Rn . 24 Una matrice Q simmetrica `e detta semidefinita positiva, e si denota Q ≥ 0, se la corrispondente forma quadratica q(x) := x> Qx ≥ 0, per ogni x ∈ Rn . Se q(x) > 0 per ogni x 6= 0 allora Q si dice definita positiva e si denota Q > 0. Se Q `e definita positiva essa `e invertibile. Se Q ≥ 0, e per qualche x0 ∈ Rn la forma si annulla, q(x0 ) := x> e nullo e quindi Q non `e invertibile. 0 Qx0 = 0, allora il determinante di Q `

177

` la matrice in Rn×n , Definizione (matrice di covarianza). E  ΣX := cov(X) := E (X − mX )(X − mX )> E(X1 − m1 )2 E(X1 − m1 )(X2 − m2 )  E(X2 − m2 )(X1 − m1 ) E(X2 − m2 )2   ... ... E(Xn − mn )(X1 − m1 ) E(Xn − mn )(X2 − m2 )   var(X1 ) cov(X1 , X2 ) . . . cov(X1 , Xn )  cov(X2 , X1 ) var(X2 ) . . . cov(X2 , Xn )     ... ... ... ... cov(Xn , X1 ) cov(Xn , X2 ) . . . var(Xn )  =

=

... ... ... ...

 E(X1 − m1 )(Xn − mn ) E(X2 − m2 )(Xn − mn )   ... 2 E(Xn − mn ) )

Osservazioni. (a.) Se le componenti del vettore X sono indipendenti la matrice ΣX `e diagonale. (b.) per calcolare ΣX `e sufficiente conoscere le densit`a congiunte di tutte le coppie (Xi , Xj ), per ogni i 6= j. (c.) Poich´e ΣX = corr(X − mX ) la matrice di covarianza `e simmetrica e semidefinita positiva come tutte le matrici di correlazione. Lemma. ΣX = RX − mX m> X. Dimostrazione. Dalla definizione ΣX = E (X − mX )(X − mX )>



 > = E XX> − mX X > − Xm> X + mX mX    > = E XX> − mX E X> − E X m> X + mX mX  > = E XX> − mX m> X = RX − mX mX . Questa formula `e l’analoga vettoriale della formula scalare var(X) = E(X 2 ) − (mX )2 . Trasformazioni lineari di vettori aleatori e parametri Sia X ∈ Rn un vettore aleatorio. La matrice A ∈ Rm×n ed il vettore b ∈ Rm sono deterministici ed assegnati. Definiamo il vettore aleatorio Y ∈ Rm , trasformazione lineare (meglio chiamarla affine quando b 6= 0)) del vettore aleatorio X, come Y := A X + b Parametri della trasformazione lineare I parametri del vettore Y = AX + b si ricavano facilmente da quelli di X. In particolare vettore della media mY = E(Y ) = E(AX + b) = AE(X) + b = AmX + b matrice di covarianza ΣY

= E (Y − mY )(Y − mY )>



= E (AX + b − AmX − b)(AX + b − AmX − b)>  = E (A(X − mX ))(A(X − mX ))>  = AE (X − mX )(X − mX )> A> = AΣX A> 178



matrice di correlazione > > RY = ΣY + mY m> Y = AΣX A + (AmX + b)(AmX + b)

Vettori bidimensionali Il caso dei vettori bidimensionali (caso bivariato) serve ad illustrare, con poca fatica, alcuni fenomeni interessanti che si possono verificare nel caso vettoriale. Sia V = (X, Y )> un vettore aleatorio in R2 . Vettore della media, matrice di correlazione e matrice di varianza sono rispettivamente       E(X) E(X 2 ) E(XY ) var(X) cov(XY )) mV = , RV = , ΣV = . E(Y ) E(XY ) E(Y 2 ) cov(XY ) var(Y ) Lemma (matrici simmetriche, semidefinite positive).   a b Q= ≥0 se e solo se a ≥ 0, b c

e

det(Q) ≥ 0

Dimostrazione. Imponiamo che la forma quadratica q(v) = v > Qv dove v = (x, y)> sia non-negativa.     a b x q(x, y) = x y = a2 x2 + 2b xy + c2 y 2 ≥ 0 b c y ` allora evidente che la condizione di non-negativit`a vale per ogni (x, y) ∈ R2 se e solo se E a ≥ 0 ed il determinante del polinomio di secondo grado `e negativo, ∆ = 4b2 − 4ac ≤ 0. Semplificando e riordinando i termini la condizione necessaria e sufficiente `e che a ≥ 0 e che ac − b2 = det(Q) ≥ 0. Dalla precedente sezione sappiamo che RV e ΣV sono semidefinite positive. Il Lemma appena dimostrato applicato a RV comporta:  2 E(X 2 )E(Y 2 ) ≥ E(XY ) , ed applicato a ΣV comporta:  2 var(X)var(Y ) ≥ cov(XY ) . Osservazione. Queste sono entrambe disuguaglianze di Cauchy Schwarz: la prima l’avevamo dimostrata, per via alternativa, nella Lezione xx, la seconda non l’avevamo vista in precedenza. Lemma (covarianza ed esistenza della densit`a). Se la matrice ΣV non `e invertibile il vettore V non ammette densit`a. Dimostrazione. Se la matrice ΣV non `e invertibile il suo determinante `e nullo, ovvero  2 var(X)var(Y ) − cov(XY ) = 0. In questo caso l’equazione ΣV a = 0 ammette una soluzione a = (α, β)> 6= (0, 0)> e quindi a> ΣV a = 0. Esplicitamente l’ultima condizione si traduce in 0 = a> ΣV a     var(X) cov(XY ) α = α β cov(XY ) var(Y ) β = α2 var(X) + 2αβcov(XY ) + β 2 var(Y ) = E α2 (X − mX )2 + 2αβ(X − mX )(Y − mY ) + β 2 (Y − mY )2  2  = E α(X − mX ) + β(Y − mY ) 179



La condizione E



α(X − mX ) + β(Y − mY )

2 

= 0 equivale a

α(X − mX ) + β(Y − mY ) = 0 ovvero αX + βY = c dove c = αmX + βmY `e una costante. La conclusione `e che, se ΣV ha determinante nullo, esiste una relazione lineare tra le componenti X ed Y di V . In questo caso il vettore V non `e assolutamente continuo, non ammette a, poich´e tutta la massa di probabilit`a `e concentrata sull’insieme R := cio`e densit` area nulla (`e una retta). Nessuna funzione fXY (x, y) ≥ 0, { (x, y) αx + βy = c } ⊂ R2 , di RR Riemann integrabile, soddisfa R fXY (x, y) dxdy = 1, che `e quanto richiesto ad una funzione di densit` a. 

180

Appendice alla Lezione 27 Funzione caratteristica multivariata materiale non in programma a.a. 2012/13 Definizione. Sia X> = (X1 , . . . Xn )> un vettore aleatorio. La funzione caratteristica di X `e la funzione ϕX : Rn → C    Pn  > ϕX (ω) := E ejω X = E ej i=1 ωi Xi ! n Y jωi Xi = E e i=1

La ϕX (ω) `e anche detta funzione caratteristica congiunta delle v.a. X1 , X2 , . . . Xn . Nel caso assolutamente continuo esiste la densit`a congiunta fX (x) ed `e Z ϕ(ω) :=

Z ...

n Y

ejωi Xi fX (x1 , . . . , xn ) dx1 . . . dxn ,

Rn i=1

analoga formula vale nel caso discreto. Commento. Nel caso assolutamente continuo la funzione caratteristica multivariata `e la trasformata di Fourier multidimensionale della densit`a congiunta fX (x). La densit`a congiunta `e una funzione fX : Rn → R. Nei corsi avanzati di Segnali e Sistemi si studiano segnali di questo tipo. Un semplice esempio `e il segnale deterministico g(x1 , x2 ) che rappresenta il livello di grigio di una fotografia in bianco e nero nel punto (x1 , x2 ) del piano. La trasformata di Fourier bidimensionale `e di largo uso nei problemi di analisi di immagini. Propriet` a elementari della funzione caratteristica multivariata (a.) Esistenza, normalizzazione, continuit` a (scrivo per il caso bivariato per convenienza notazionale: nulla cambia nel caso multivariato, n > 2) ϕX (ω1 , ω2 ) esiste per ogni (ω1 , ω2 ) ∈ R2 , infatti Z Z j(ω1 x1 +ω2 x2 ) |ϕX (ω1 , ω2 )| = e fX (x1 , x2 ) dx1 dx2 2 ZZ R j(ω1 x1 +ω2 x2 ) ≤ fX (x1 , x2 ) dx1 dx2 e 2 Z ZR = fX (x1 , x2 ) dx1 dx2 = 1. R2

Inoltre `e immediato verificare dalla definizione che ϕX (0, 0) = 1. Combinando con la disuguaglianza in (a.) questo mostra che la funzione caratteristica ha un massimo in (ω1 , ω2 ) = (0, 0). (b.) Marginalizzazioni ϕX (ω1 , 0) = ϕX1 (ω1 ),

ϕX (0, ω2 ) = ϕX2 (ω2 )

Immediato dalla definizione. Qualunque marginalizzazione relativa alle funzioni caratteristiche `e molto semplice. Ad esempio, sempre sulla base della definizione,  j(ω1 X1 +ω2 X2 +ω3 X3 +ω4 X4 ) ϕX1 X2 X3 X4 (ω1 , 0, 0, ω4 ) = E e (ω2 ,ω3 )=(0,0)  j(ω1 X1 +ω4 X4 ) = E e = ϕX1 X4 (ω1 , ω4 ) ecc. 181

(c.) Relazione con i momenti Supponendo che le componenti X1 , X2 del vettore ammettano momenti la funzione caratteristica ϕX (ω1 , ω2 ) ammette le corrispondenti derivate parziali e valgono le relazioni E(X1k ) = E(X2k ) = E(X1 X2 ) = E(X1h X2k ) =

1 ∂ (k) ϕ (ω , 0) X 1 j k ∂ω (k) ω1 =0 1 1 ∂ (k) ϕ (0, ω ) 2 X j k ∂ω (k) ω2 =0 2 1 ∂ (2) ϕ (ω , ω ) 1 2 X 2 j ∂ω1 ∂ω2 (ω1 ,ω2 )=(0,0) (h+k) 1 ∂ ϕ (ω , ω ) 2 X 1 j h+k ∂ω1h ∂ω2k (ω1 ,ω2 )=(0,0)

Omessa la dimostrazione dell’esistenza delle derivate parziali. Per ricavare le formule si deriva parzialmente sotto il segno di integrale, cio`e si scambiano le operazioni di calcolo delle derivate parziali e del valore atteso. Per esercizio scrivete qualcuna delle formule nel caso di vettori n−dimensionali. Esercizio. Scrivere la matrice di correlazione RV del vettore bidimensionale V = (X, Y )> in termini di derivate della funzione caratteristica. Soluzione. Per quanto appena enunciato !   ∂2 ∂2 ϕ (ω , 0) ϕ (ω , ω ) 1 1 2 X X 2 E(X 2 ) E(XY ) ∂ω1 ∂ω2 ∂ω1 =− RV = ∂2 ∂2 E(XY ) E(Y 2 ) ϕ (0, ω2 ) ϕ (ω , ω ) 2 ∂ω1 ∂ω2 X 1 ∂ω22 X (ω1 ,ω2 )=(0,0) La matrice di correlazione RV `e l’opposto della matrice Hessiana, calcolata nell’origine, della funzione caratteristica. (d.) Funzione caratteristica di trasformazioni lineari Sia X ∈ Rn un vettore aleatorio. La matrice A ∈ Rm×n ed il vettore b ∈ Rm sono deterministici ed assegnati. Definiamo il vettore aleatorio Y ∈ Rm , trasformazione lineare (affine se b 6= 0)) del vettore aleatorio X, come Y := A X + b La formula per la determinazione della funzione caratteristica di Y generalizza la corrispondente formula del caso scalare.   > ϕY (ω) := E ejω Y     > > > = E ejω (AX+b) = E ejω AX ejω b =

ϕX (A> ω)ejω

>b

Attenzione. In questa formula ω ∈ Rm . Infatti l’argomento della funzione ϕY (ω) `e ω ∈ Rm , poich´e Y ∈ Rm . Il dominio di ϕX `e invece Rn , in accordo con la dimensione di X ∈ Rn ed infatti nella formula compare ϕX (A> ω) dove A> ω ∈ Rn , poich´e A> ∈ Rn×m . (e.) Funzione caratteristica di vettori a componenti indipendenti Lemma. Le v.a. X1 , X2 , . . . Xn , componenti del vettore aleatorio X, sono indipendenti se e solo se n Y ϕX (ω) = ϕXi (ωi ) i=1

182

Dimostrazione. Se le componenti sono indipendenti allora la fattorizzazione vale per la nota propriet` a del valore atteso:  Pn  ϕX (ω) := E ej i=1 ωi Xi ! n n Y Y  jωi Xi = E e = E ejωi Xi per l’indipendenza i=1

=

n Y

i=1

ϕXi (ωi )

i=1

La dimostrazione dell’altra direzione `e omessa.

183

Lezione 28 28.1

(Marted`ı 14 maggio, ore 16:25–18:05)

Vettori normali – motivazione della definizione

Nel caso scalare la distribuzione di una v.a. X normale, X ∼ N (µ, σ 2 ), `e completamente specificata dal valore atteso µ e dalla varianza σ 2 ed ammette sempre densit`a, tranne che nel caso degenere σ 2 = 0 corrispondente ad una v.a. X = µ costante. Anche in Rn , come vedremo, un vettore normale multivariato X `e completamente specificato dal vettore della media E(X) e dalla matrice di covarianza cov(X). A differenza di quanto accade in R per`o, la densit` a non esiste sempre, ma se e solo se cov(X) `e invertibile.25 Esistono quindi vettori normali che non ammettono densit`a. Questo fatto crea qualche difficolt`a tecnica al livello della definizione dei vettori normali, non potendosi in generale caratterizzare con un’assegnata funzione di densit` a congiunta. Vi sono molti modi equivalenti per definire i vettori normali in Rn . La procedura pi` u semplice `e definire i vettori normali standard e poi considerare normali tutti i vettori che si possono ottenere come trasformazioni lineari di vettori standard. Prima di entrare nei dettagli tecnici illustriamo la procedura nel caso scalare, confrontandola con la definizione che avevamo usato nella Lezione 18. Variabili aleatorie normali: vecchia definizione - vedi Lezione 18 Definizione. Y ∼ N (µ, σ 2 ) se fY (y) = √

1 2πσ 2

e−

(x−µ)2 σ2

,

y∈R

Variabili aleatorie normali: nuova definizione Definizione 1. Z `e una v.a. normale standard, e scriveremo Z ∼ N (0, 1), se ha densit`a z2 1 fZ (z) := φ(z) = √ e− 2 , 2π

per ogni z ∈ R

Definizione 2. Y `e una v.a. normale se esiste una v.a. Z normale standard, e due numeri a, b ∈ R tali che Y = aZ + b. Esercizio. Dimostrare che le due definizioni sono equivalenti. Soluzione. Osserviamo inizialmente che la vecchia e la nuova definizione di Z ∼ N (0, 1) coincidono. Sia Y `e una v.a. normale secondo la nuova definizione. Poich´e Y = aZ + b dove Z ∼ N (0, 1), per le note propriet`a (Lezione 18.3) Y ∼ N (b, a2 ) secondo la vecchia definizione. Viceversa sia Y ∼ N (µ, σ 2 ) secondo la vecchia definizione. Per le note propriet`a (Lezione 18.3) la v.a. Z := Y σ−µ ∼ N (0, 1) e, invertendo questa relazione, Y si pu`o rappresentare come Y = σZ +µ, quindi Y `e una v.a. normale secondo la nuova definizione. Osservazione. La rappresentazione di Y ∼ N (µ, σ 2 ) come funzione lineare di una v.a. Z ∼ N (0, 1) non `e unica. Infatti Y = σZ + µ e Y = −σZ + µ sono rappresentazioni diverse della v.a. Y ∼ N (µ, σ 2 ). Non `e un gioco di bussolotti come potrebbe sembrare: le due definizioni sono equivalenti, ma l’enorme vantaggio della nuova definizione `e che essa non richiede di introdurre la densit` a di Y . Questo fatto torner`a comodo nel caso vettoriale dove la densit`a non sempre esiste. 25

Si veda il paragrafo sui vettori bidimensionali, alla fine della Lezione 27, per una discussione di questa condizione.

184

2. Vettori normali Definizione – vettore normale standard in Rn . Il vettore aleatorio Z ∈ Rn `e normale standard se le sue componenti {Zi }ni=1 sono v.a. i.i.d. N (0, 1). ` immediato ricavare funzione di densit`a, funzione caratteristica, vettore della media e E matrice di covarianza di un vettore normale standard in Rn . Poich´e le v.a. Zi sono i.i.d. la funzione di densit`a congiunta `e il prodotto delle n densit`a identiche N (0, 1), fZ (z1 , . . . , zn ) =

n Y i=1

1 2 1 1 1 2 √ e− 2 zi = p e− 2 ||z|| . 2π (2π)n

(1)

La funzione caratteristica di Z, anch’essa ottenuta come prodotto di n funzioni caratteristiche N (0, 1), `e 1 2 ϕZ (ω) = e− 2 ||ω|| . Il vettore della media di Z `e E[Z] = 0, poich´e E(Zi ) = 0 per ogni i = 1, 2, . . . n. La matrice di covarianza di Z `e cov(Z) = In , dove In denota la matrice identit` a in Rn . Infatti cov(Zi , Zj ) = 0 per ogni i 6= j poich´e le v.a. Zi sono indipendenti, mentre cov(Zi , Zi ) = var(Zi ) = 1 per ogni i poich´e le Zi hanno tutte varianza 1. Esempio. La figura qui sotto mostra la densit`a del vettore normale standard in R2 . Chiamando Z = (Z1 , Z2 )> = (X, Y )> , la densit`a `e fZ (x, y) =

1 − 1 (x2 +y2 ) e 2 , 2π

La densit` a `e massima in (0, 0), dove vale

(x, y) ∈ R2 .

1 2π .

Diremo normale ogni vettore Y ∈ Rn ottenuto come trasformazione lineare (affine per dirla meglio) di un vettore normale standard Z ∈ Rk . Si noti che k ed n possono essere diversi, sono cio`e permesse trasformazioni lineari tra spazi di dimensione diversa. Qui sotto la definizione formale. Definizione – vettore normale in Rn . Il vettore aleatorio Y ∈ Rn `e normale se esistono: un naturale k ∈ N, una matrice A ∈ Rn×k , un vettore µ ∈ Rn ed un vettore normale standard Z ∼ N (0, Ik ) tale che Y = AZ + µ Media e covarianza di vettori normali. Poich´e Y = AZ + µ per qualche A, µ, E(Y) = E(AZ + µ) = AE(Z) + µ = µ, cov(Y) = E((Y − µ)(Y − µ)> ) = E(AZZ> A> ) = AIn A> = AA> . Si noti che, qualunque sia A ∈ Rn×k , la matrice AA> ≥ 0, come atteso trattandosi di una matrice di covarianza. Per denotare la matrice di covarianza introduciamo il simbolo Σ := cov(Y) = AA> .

185

1.6 1.4 1.2 1.0 Z 0.8 0.6 0.4 0.2 0.0 4 3 2 1

4 Y 0

3 2

-1

1 0

-2

-1 -3

X

-2 -4

-3 -4

Figura 1: Densit`a normale standard in R2 Funzione caratteristica di un vettore normale. Poich´e Y = AZ + µ per qualche A, µ, e per le propriet` a della funzione caratteristica multivariata (fine della Lezione 27),   1 > > > > ϕY (ω) = E ej ω Y = ϕZ (A> ω) ej ω µ = ej ω µ− 2 ω Σω . Osservazione 1. La funzione caratteristica del vettore normale Y `e completamente specificata dal vettore della media µ e dalla matrice A, ma solo attraverso la matrice di covarianza Σ = AA> . Questa propriet` a riflette quella analoga delle v.a. normali, la cui distribuzione `e completamente specificata da media e varianza. Per questo motivo ha senso estendere ai vettori normali la notazione Y ∼ N (µ, Σ), per indicare un vettore di media µ e matrice di covarianza Σ. Ad esempio, denotando con Ik la matrice identit`a di dimensione k, il vettore normale standard in Rk si denota Z ∼ N (0, Ik ). Osservazione 2. Nel caso scalare sappiamo che, per ogni coppia (µ, σ 2 ) ∈ R × R+ esistono v.a. normali Y ∼ N (µ, σ 2 ). Lo stesso accade nel caso vettoriale, vale infatti il seguente Lemma. Lemma. Per ogni coppia (µ, Σ), dove µ ∈ Rn `e qualunque, e Σ ∈ Rn×n `e tale che Σ = Σ> ≥ 0, esistono vettori normali Y ∼ N (µ, Σ). La dimostrazione del Lemma richiede il seguente risultato di algebra lineare che pu`o essere preso a scatola chiusa (chi lo desidera veda l’Appendice I alla Lezione). Ogni matrice Σ ∈ Rn×n , tale che Σ = Σ> ≥ 0, si pu` o fattorizzare, in modo non unico, nella forma Σ = AA> , dove A ∈ Rn×k e k `e un qualunque naturale tale che k ≥ rank(Σ). Dimostrazione del Lemma. Fissato k ≥ rank(Σ) si fattorizzi Σ = AA> con A ∈ Rn×k . Il vettore normale cercato `e Y := AZ + µ, dove Z ∼ N (0, Ik ). Commento. Mentre nel caso scalare Y ∼ N (µ, σ 2 ) ha due rappresentazioni Y = ±σZ + µ, nel caso multivariato Y ∼ N (µ, Σ) ammette infinite rapresentazioni Y = AZ + µ, che corrispondono alle infinite possibili fattorizzazioni Σ = AA> .

186

Densit`a dei vettori normali Veniamo ora al problema della determinazione della densit`a dei vettori normali. La condizione di esistenza della densit` a `e molto semplice: un vettore normale ammette funzione di densit` a se e solo se la matrice di covarianza `e invertibile. Teorema. Sia Y ∈ Rn un vettore normale Y ∼ N (µ, Σ) con Σ invertibile, allora Y ammette densit`a che ha espressione 1 1 fY (y) = p exp − (y − µ)> Σ−1 (y − µ), n 2 (2π) det(Σ)

y ∈ Rn

(2)

Dimostrazione euristica (si veda l’Appendice II per l’impostazione della dimostrazione rigorosa). Nella Lezione 20.2 (Esempio 1) abbiamo dimostrato che, se Y = g(Z) = aZ + b, allora fY (y) =

  1 1 fZ g (−1) (y) = fZ |a| |a|



y−b a

 .

(3)

Per Y ∼ N (µ, Σ) in Rn si costruisca una qualunque fattorizzazione Σ = AA> con A ∈ Rn×k si pu` o allora scrivere Y = g(Z) = AZ + µ (4) dove Z ∼ N (0, Ik ). Per calcolare la densit`a fY ci ispiriamo alla formula (3). Affinch´e sia soddisfatta la condizione necessaria di invertibilit`a di g(z) = Az + µ bisogna che sia n = k ed inoltre A ∈ Rn×n deve essere invertibile. Ci`o equivale a Σ = AA> invertibile. In questo caso la funzione inversa esiste e vale z = g−1 (y) = A−1 (y − µ), Applichiamo allora la formula (3), con l’accortezza di sostituire |a| con det(A) trovandoci nel caso vettoriale. Ricordando la densit`a del vettore normale standard (1), si trova  fY (y) = |det(A−1 )| fZ A−1 (y − µ) 1 1 = |det(A−1 )| p exp − ||A−1 (y − µ)||2 (5) 2 (2π)n L’espressione della densit` a si semplifica osservando quanto segue: −1 2 (a.) ||A (y − µ)|| = (y − µ)> (A−1 )> A−1 (y − µ) (b.) (A−1 )> A−1 = (AA> )−1 = Σ−1 facendo uso del fatto che (A−1 )> = (A> )−1 p (c.) |det(A−1 )| = 1/ det(Σ) che si ricava applicando le note regole: det(A) = det(A> ), det(A−1 ) = 1/det(A) e det(AB) = det(A)det(B). Sostituendo tutto nella (5) si ottiene la formula della densit`a (2). In pratica. Come ci aspettavamo la densit`a dipende solo da µ e da Σ (vedi commenti sulla funzione caratteristica), ma non direttamente da A. Quindi se Y ∼ N (µ, Σ) ha matrice di covarianza Σ > 0, la densit` a (2) si pu` o scrivere immediatamente senza bisogno di ricavare preliminarmente una matrice A che fattorizzi Σ = AA> . Nota bene. Nelle trattazioni elementari un vettore aleatorio Y di valore atteso E(Y) = µ e matrice di covarianza cov(Y ) = Σ si definisce normale se Σ > 0 ed Y ha densit`a (2). Cos`ı facendo si opera come si era fatto nella Lezione 18 anche nel caso vettoriale, specificando direttamente la densit` a ed eliminando tutte le difficolt`a. Il prezzo che si paga `e la perdita di tutti i vettori normali con matrice di covarianza Σ non invertibile. Si tratta di una pessima soluzione, forse accettabile per i corsi di Probabilit`a per la Sociologia. 187

Commento. Si noti l’analogia tra le formule di passaggio da v.a. N (0, 1) a v.a. N (µ, σ 2 ) e viceversa: 1 (Y − µ) σ = σZ + µ

Z =

da N (µ, σ 2 ) a N (0, 1)

Y

da N (0, 1) a N (µ, σ 2 )

e le corrispondenti multivariate (valide solo per Σ = AA> > 0) Z = A−1 (Y − µ)

da N (µ, Σ) a N (0, In )

Y = AZ + µ

da N (0, In ) a N (µ, Σ).

Sono le stesse formule del caso univariato, con la matrice A nel ruolo di radice quadrata di Σ: in effetti A soddisfa alla AA> = Σ, che `e l’analogo per matrici simmetriche della radice quadrata. Trasformazioni lineari dei vettori aleatori normali Lemma. Se Y ∼ N (µ, Σ) e W := BY + ν, dove B ∈ Rm×n e ν ∈ Rm , allora W ∼ N (Bµ + ν, BΣB > ) Dimostrazione. Sia A un qualunque fattore di Σ, allora Y = AZ + µ quindi, W := BY + ν =

B(AZ + µ) + ν

=

BAZ + Bµ + ν

Poich´e W si pu` o esprimere come trasformazione lineare di un vettore normale standard, esso `e un vettore normale per definizione. Il calcolo del valore atteso e della matrice di covarianza sono immediati. Ovviamente il risultato `e indipendente dal fattore A di Σ che era stato scelto. Conseguenza importante. Le componenti di un vettore normale sono v.a. normali, in particolare, se Y ∼ N (µ, Σ), allora Yi ∼ N (µi , Σii ) Dimostrazione. Si applica il Lemma precedente alle n trasformazioni lineari che corrispondono a scegliere B = e> e l’i-esimo vettore della base canonica i , dove ei = (0, . . . 1, . . . 0) ` di Rn . Allora si trova Yi = e> i Y con E(Yi ) = e> i µ = µi . La matrice di covarianza del vettore unidimensionale Yi coincide con la varianza della v.a. Yi e vale var(Yi ) = e> i Σei = Σii . Indipendenza e scorrelazione delle componenti di vettori normali ` notevole la seguente propriet` E a dei vettori normali. Lemma. Le componenti di Y ∼ N (µ, Σ) sono indipendenti se e solo se sono scorrelate, o equivalentemente se e solo se la matrice di covarianza Σ `e diagonale. Dimostrazione. La dimostrazione pi` u diretta, e valida in generale anche per vettori normali che non ammettono densit` a, `e basata sulla funzione caratteristica26 ϕY (ω) = ej ω 26

> µ−ω > Σω

.

Si veda qui sotto la dimostrazione limitata al caso di vettori normali che ammettono densit` a, che non richiede l’uso della funzione caratteristica multivariata

188

Se le componenti di Y sono scorrelate allora E((Yi −µi )(Yj −µj )) = Σij = 0 per ogni i 6= j, ovvero Σ `e una matrice diagonale. Sostituendo nell’espressione della funzione caratteristica una matrice Σ diagonale si verifica immediatamente la condizione di fattorizzazione, infatti ϕY (ω) = ej ω

> µ− 1 ω > Σω 2

Pn

1

Pn

2

= ej i=1 ωi µi − 2 i=1 (Σii )ωi n n Y Y 1 2 = ejωi µi − 2 (Σii )ωi = ϕYi (ωi ), i=1

i=1

e quindi le componenti sono indipendenti. L’altra direzione `e una propriet`a ben nota: v.a. indipendenti sono sempre scorrelate. Dimostrazione limitata ai vettori che amettono densit` a. Se le componenti di Y sono scorrelate allora E((Yi − µi )(Yj − µj )) = Σij = 0 per ogni i 6= j, ovvero Σ `e una matrice diagonale. Sostituendo nell’espressione della densit`a (2) si ha 1 1 fY (y) = p exp − (y − µ)> Σ−1 (y − µ) n 2 (2π) det(Σ) n Y 1 (yi − µi )2 1 √ exp − = 2 Σii 2πΣii k=1

che si riconosce essere il prodotto delle n densit`a normali scalari, N (µi , Σii ), per i = 1, . . . n. Si conclude che le componenti Yi sono indipendenti. Per l’altra direzione, come noto, variabili aleatorie indipendenti sono scorrelate. Attenzione: Bisogna stare molto attenti a come si enuncia la precedente propriet`a. Spesso si sente, o addirittura si trova scritta, la seguente affermazione: “v.a. normali scorrelate sono indipendenti”. Non `e cos`ı! Quello che `e vero `e che se le componenti di un vettore normale sono scorrelate allora sono indipendenti. La radice della confusione sta nel ritenere che un pacco di n v.a. normali scorrelate, impilate una sull’altra, formino automaticamente un vettore normale. Ci` o `e falso. ` solo uno dei tanti che si possono costruire allo scopo). Sia X ∼ N (0, 1) Controesempio. (E e Z ∈ {−1, 1} una v.a. discreta con P (Z = −1) = P (Z = 1) = 21 ed indipendente da ` facile verificare che Y `e una v.a. N (0, 1),infatti la sua X. Definiamo la v.a. Y = ZX. E funzione caratteristica vale   ϕY (ω) = E ejωY = E E ejωZX |Z   = E ejωX P (Z = 1) + E e−jωX P (Z = −1) 1 1 = ϕ(ω) + ϕ(−ω) = ϕ(ω). 2 2 1

2

dove abbiamo indicato con ϕ(ω) = e− 2 ω la funzione caratteristica della N (0, 1) e, nell’ultimo passaggio, sfruttato il fatto che ϕ(ω) `e una funzione pari. Poich`e la funzione carat` facile verificare che X ed teristica ϕY (ω) = ϕ(ω) si conclude che Y `e una v.a. N (0, 1). E Y sono scorrelate, infatti esse sono entrambe a valor medio nullo e E(XY ) = E(ZX 2 ) = E(E(ZX 2 |Z)) = E(X 2 )P (Z = 1) + E(−X 2 )P (Z = −1) = 0. Peraltro `e ovvio che X ed Y non sono indipendenti essendo Y = ZX una funzione anche di X. Come mai questa coppia di v.a. normali scorrelate non `e indipendente? La risposta `e semplice: il vettore W = (X, Y )> non `e un vettore normale. Infatti se lo fosse tutte le funzioni lineari di W sarebbero a loro volta v.a. normali. Si consideri la funzione lineare (1, 1)(X, Y )> = X +Y , `e facile calcolare P (X + Y = 0) = P ((1 + Z)X = 0) = P (Z = −1) = 21 . Chiaramente X + Y non pu` o essere una v.a. normale, poich´e le v.a. normali sono continue ed hanno probabilit` a nulla di assumere uno specifico valore reale. Ci`o dimostra che W non `e un vettore normale. 189

Appendici alla Lezione 28 Complementi sui vettori normali materiale non in programma a.a. 2012/13 Appendice I. Fattorizzazione delle matrici semidefinite positive Ogni Σ = Σ> ∈ Rn×n , semidefinita positiva, ha tutti gli autovalori reali e i suoi autovettori possono essere scelti a formare una base ortonormale di Rn . Formando la matrice ortogonale U che ha per colonne gli autovettori ortonormali di Σ si pu`o allora scrivere Σ = U ΛU > , dove Λ `e la matrice diagonale degli autovalori di Σ. Se Σ `e semidefinita positiva allora una decomposizione del tipo Σ = AA> , con A ∈ Rn×n , si ottiene prendendo 1 A = U Λ 2 (in generale questo non sarebbe possibile se ci fossero autovalori negativi!). La e = AQ, con Q> Q = QQ> = I una arbitraria non unicit` a di A `e evidente poich`e anche A eA e> . Con un piccolo matrice ortogonale, produce una fattorizzazione valida Σ = AA> = A > sforzo extra si pu` o costruire una fattorizzazione del tipo Σ = AA , con A ∈ Rn×k dove k `e un qualunque intero che soddisfa la condizione k ≥ rango(Σ). Appendice II. Funzione di densit`a dei vettori normali (A.) Richiamo sulla formula per il cambio di variabili negli integrali multipli. Sia B ⊂ Rn e g : B → Rn invertibile, differenziabile con derivate continue e Jacobiano non nullo per ogni x ∈ B, allora Z Z ∂g(u) du f (x) dx = f (g(u)) ∂u g(B) B e il modulo del (determinante) Jacobiano della trasformazione g. dove ∂g(u) ∂u ` Esempio familiare. Nel caso n = 2, sia x := (x, y), u := (ρ, θ) e la trasformazione     ρ cos θ g1 (ρ, θ) , = g := ρ sin θ g2 (ρ, θ) allora

  ∂g(u) = det cos θ −ρ sin θ = ρ ∂u sin θ ρ cos θ e la formula per il cambio di variabili corrispondente `e ZZ ZZ f (x, y) dxdy = f (ρ cos θ, ρ sin θ)ρ dθdρ g(B)

B

(B.) Calcolo della densit`a di Y = g(X). Sia X un vettore aleatorio di densit`a nota fX (x). Si consideri il vettore Y = g(X), dove g : Rn → Rn ed invertibile. Il vettore Y `e funzione del vettore X e, in analogia a quanto fatto nel caso scalare, ci proponiamo di calcolare la densit`a fY (y) a partire dalla densit`a nota fX (x). Per ogni B ∈ B(Rn ) ZZ P (Y ∈ B) = fY (y) dy dove fY `e la densit`a da determinare B

= P (g(X) ∈ B) = P (X ∈ g−1 (B)) ZZ = fX (x) dx g−1 (B)

ZZ =

fX (g B

−1

−1 ∂g (y) dy (y)) ∂y 190

formula del cambio di variabili per g−1

Confrontando la prima e l’ultima espressione di P (Y ∈ B), poich´e B `e arbitrario, si conclude che −1 ∂g (y) −1 (6) fY (y) = fX (g (y)) ∂y (C.) Applicazione ai vettori normali. Si consideri il vettore normale Y ∼ N (µ, Σ) in Rn . Costruita una qualunque fattorizzazione Σ = AA> con A ∈ Rn×k si pu` o allora scrivere Y = g(Z) = AZ + µ

(7)

dove Z ∼ N (0, Ik ) `e una normale standard la cui densit`a fZ `e data dalla 1. Calcoliamo la densit`a fY con la formula 6. Affinch`e sia soddisfatta la condizione necessaria di invertibilit`a di g(z) = Az + µ bisogna che sia n = k ed inoltre A ∈ Rn×n invertibile. Ci`o equivale a Σ = AA> invertibile. In questo caso la funzione inversa `e z = g−1 (y) = A−1 (y − µ), il cui (determinante) Jacobiano `e |det(A−1 )|. Applicando la formula (6) e ricordando la densit`a del vettore normale standard (1), si trova  fY (y) = |det(A−1 )| fZ A−1 (y − µ) (8) da qui si procede come nel testo della Lezione per determinare la densit`a. (D.) Interpretazione geometrica dell’esistenza della densit`a di un vettore normale. ` noto dall’algebra lineare (e facile da dimostrare) che un sottoinsieme di vettori v1 , . . . vn E in uno spazio a prodotto interno `e linearmente indipendente se e solo se la matrice Gramiana corrispondente `e definita positiva   hv1 , v1 i hv1 , v2 i . . . hv1 , vn i  hv2 , v1 i hv2 , v2 i . . . hv2 , vn i   > 0. G(v1 , . . . vn ) :=    ... ... ... hvn , v1 i hvn , v2 i . . . hvn , vn i Consideriamo ora nello spazio S delle v.a. a secondo momento finito il sottospazio generato dalle componenti di un vettore normale Y ∼ N (0, Σ). Il gramiano delle componenti di Y rispetto al prodotto interno precentemente introdotto `e   E(Y1 Y1 ) E(Y1 Y2 ) . . . E(Y1 Yn )  E(Y2 Y1 ) E(Y2 Y2 ) . . . E(Y2 Yn )   = cov(Y ) = Σ. G(Y1 , . . . Yn ) :=   ...  ... ... E(Yn Y1 ) E(Yn Y2 ) . . . E(Yn Yn ) La conclusione `e che Y ∼ N (0, Σ) ammette densit`a se e solo se le sue componenti sono un insieme linearmente indipendente dello spazio S.

Appendice III. Normale bivariata Questo `e solo il caso particolare dei vettori normali a valori in R2 . Non c’`e nulla di nuovo, ma ovviamente il caso n = 2 consente di fare qualche grafico. Consideriamo un vettore

191

normale W ∼ (µ, Σ) in R2 . La media µ> = (µX , µY )> ∈ R2 `e un vettore arbitrario, mentre la covarianza  2  σX σXY Σ= σXY σY2 `e un’arbitraria matrice semidefinita positiva. Come visto in precedenza la covarianza si pu`o scrivere alternativamente come σXY = cov(XY ) = ρσX σY dove

σXY cov(XY ) =q ρ := p 2 σ2 var(X)var(Y ) σX Y

`e il coefficiente di correlazione tra X ed Y che, per la disuguaglianza di Cauchy-Schwarz, soddisfa |ρ| ≤ 1 2 , σ 2 e ρ, assumendo la forma La matrice Σ si pu` o parametrizzare in termini di σX Y  2  σX ρσX σY Σ= . ρσX σY σY2

La condizione per l’esistenza della densit`a `e che Σ sia definita positiva e di conseguenza 2 e σ2 invertibile. Poich`e in generale Σ ≥ 0 e poich`e assumiamo implicitamente che σX Y siano entrambe strettamente positive, altrimenti le v.a. X e/o Y sarebbero degeneri, l’unica condizione da imporre `e che il determinante di Σ sia strettamente positivo. 2 2 |Σ| := det(Σ) = (1 − ρ2 )σX σY > 0



|ρ| < 1

Consideriamo dapprima il caso in cui la densit`a esiste, |ρ| < 1 e specializziamo la formula (2) al presente caso. L’inversa della covarianza `e !   1 − σXρσY 2 1 1 −ρσX σY σY2 σX −1 = Σ = ρ 1 2 σX |Σ| −ρσX σY 1 − ρ2 − σX σY σ2 Y

Per rendere compatta la formula della densit`a definiamo la forma quadratica  ρ ! 1 −  2 x − µX σ σX X σY q(x − µX , y − µY ) := x − µX , y − µY 1 − σXρσY y − µY σ2 Y

allora la formula (2) fornisce fW (x, y) =

1 2π

p

1−

ρ2 σX σY

exp −

1 q(x − µX , y − µY ). 2(1 − ρ2 )

Espandendo la forma quadratica si trova q(x − µx , y − µY ) =

(x − µX )2 ρ (y − µY )2 −2 (x − µX )(y − µY ) + 2 σX σY σX σY2

Le curve di livello della densit` a fW (x, y) sono i luoghi geometrici definiti dall’equazione q(x − µx , y − µY ) = c al variare della costante c, ma l’equazione ρ (y − µY )2 (x − µX )2 (x − µX )(y − µY ) + −2 =c 2 σX σY σX σY2 192

`e quella di una conica nel piano (x, y) e poich`e per |ρ| < 1 il determinante (o invariante quadratico o in qualunque modo lo abbiate chiamato nel corso di Geometria) 1 1 ∆= 2 2 − σX σY



ρ σX σY

2 =

1 − ρ2 2 σ2 > 0 σX Y

`e strettamente positivo, si conclude che le curve di livello sono ellissi di centro (µX , µY ). (figura) to do: Correlazione e varianza della somma – Riprendere il discorso sulla varianza della somma - calcolo della correlazione ecc.....

193

Lezione 29 29.1

(Mercoled`ı 15 maggio, ore 16:25–18:10)

Convergenza in distribuzione – Motivazione

Una variabile aleatoria `e il naturale modello probabilistico di un esperimento consistente in una singola misura incerta di una grandezza fisica scalare. Se l’esperimento consiste in una singola misura di una grandezza fisica vettoriale il modello probabilistico naturale `e il vettore aleatorio. Nella pratica ingegneristica i dati incerti sono tipicamente segnali di ingresso e/o di uscita di sistemi dinamici e dunque consistono di sequenze di misure, scalari o vettoriali a seconda del contesto. In questi casi il modello probabilistico naturale `e una sequenza di variabili aleatorie, se i segnali sono grandezze fisiche scalari, o una sequenza di vettori aleatori se i segnali sono grandezze fisiche vettoriali. In questa lezione, e nelle due seguenti, considereremo le sequenze di variabili aleatorie {Xn }∞ n=1 , limitandoci per ora a definire alcune utili nozioni di convergenza. Una sequenza di variabili aleatorie {Xn }∞ e in realt`a una sequenza di funzioni Xn : Ω → R. Come n=1 ` noto dai corsi di Analisi Matematica e di Segnali e Sistemi, i modi di convergenza delle sequenze di funzioni sono molti e non equivalenti: puntuale, uniforme, in L1 , in L2 , ecc. Per le sequenze di variabili aleatorie `e inoltre possibile introdurre due modi di convergenza, in distribuzione e in probabilit` a, direttamente legati al comportamento asintotico della probabilit` a di certi eventi. In questa lezione trattiamo la forma pi` u debole di convergenza per sequenze di variabili aleatorie, la convergenza in distribuzione. Prima di entrare nei dettagli formali, cerchiamo di illustrare con un esempio questo modo di convergenza. Richiamo. Se U ∼ U([0, 1]), la funzione di densit`a `e costante nell’intervallo [0, 1]) ovvero fU (x) = 1l[0,1] (x), a cui corrisponde la funzione di distribuzione (banale, a parte la notazione) FU (x) = x 1l[0,1] (x) + 1l(x − 1) Esempio. Sia {Xn }n≥1 una sequenza di v.a. indipendenti, identicamente distribuite, Xn ∼ U([0, 1]) per ogni n ≥ 1. Definiamo la sequenza di variabili aleatorie Mn := max(X1 , X2 , . . . Xn ),

n∈N

Vogliamo studiare il comportamento asintotico della sequenza {Mn }n≥1 . Si noti che le variabili Mn non sono indipendenti, infatti Mn+1 = max{Mn , Xn+1 }, e dunque Mn+1 `e funzione di Mn (a.) Intuizione. Ci aspettiamo che, per n → ∞ la sequenza Mn converga ad una variabile aleatoria limitata da 1. Infatti tutte le variabili aleatorie Xi hanno valori in [0, 1], quindi Mn ≤ 1 per ogni n, inoltre Mn `e non-decrescente in n. (b.) Primo affinamento – parametri riassuntivi di Mn . Per calcolare media e varianza delle Mn ne determiniamo la densit`a. Cominciamo con il ricavare la FdD (banale: fate separatamente i casi (−∞, 0], [0, 1], [1, ∞)) FMn (x) = P (Mn ≤ x) = P (max(X1 , X2 , . . . Xn ) ≤ x) n Y = P (X1 ≤ x, X2 ≤ x, . . . Xn ≤ x) = P (Xk ≤ x) k=1

=



n FU (x) = xn 1l[0,1] (x) + 1l(x − 1) 194

(1)

La densit` a fMn si calcola derivando la funzione di distribuzione FMn (x) fMn (x) = n xn−1 1l[0,1] (x) I parametri riassuntivi di Mn si calcolano agevolmente. Z 1 Z 1 n x · n xn−1 dx = xfMn (x) dx = E(Mn ) = n+1 0 0 Z 1 Z 1 n E(Mn2 ) = x2 fMn (x) dx = x2 · n xn−1 dx = n + 2 0 0   2 1 n 2 var(Mn ) = E(Mn ) − E(Mn ) = 3 =O 2 n + 4n + 5n + 2 n2 Per n → ∞ il valore atteso di Mn tende ad 1 e la varianza a 0. Questa `e un’indicazione ancora abbastanza vaga, ma pi` u precisa della prima intuizione: per n → ∞ le variabili aleatorie Mn si concentrano intorno alla costante 1. (c.) Secondo affinamento – comportamento limite della FdD di Mn . A partire dall’espressione esatta (1) si trova  0, lim FMn (x) = n→∞ 1,

x < 1, x ≥ 1.

Si riconosce che limn→∞ FMn (x) = 1l(x − 1). Le funzioni di distribuzione FMn tendono, per ogni x ∈ R, alla funzione di distribuzione della variabile aleatoria degenere (costante) 1. Questo `e gi` a un senso pi` u preciso in cui si pu`o ritenere che Mn → 1

` possibile approfondire l’analisi di questo esempio, che verr`a ripreso nella Lezione 31. E Procediamo ora alla definizione formale della convergenza in distribuzione.

195

29.2

Convergenza in distribuzione

Definizione. Una sequenza di v.a. {Xn }n≥1 non necessariamente indipendenti, di funzioni di distribuzione {Fn (x)}, converge in distribuzione se esiste una funzione di distribuzione F (x) tale che lim Fn (x) = F (x),

per ogni x dove F (x) `e continua.

n→∞

In questo caso scriveremo D

Xn −→ F (x) Attenzione. Bisogna leggere con attenzione questa definizione. Non basta che le Fn (x) convergano ad una certa funzione F (x) per ogni x dove F (x) `e continua. Bisogna che F (x) sia una funzione di distribuzione. Vediamo immediatamente due esempi che chiariscono perch´e `e necessario imporre che F (x) sia una distribuzione e perch´e bisogna concedere alle Fn (x) la possibilit`a di non convergere nei punti di discontinuit` a di F (x). Esempio 1. Affinch`e la nozione di convergenza appena introdotta serva a qualcosa bisogna che, almeno in casi banali, si comporti come ci si aspetta. La sequenza numerica Xn = 1 +

1 . n

converge ad 1, e poich´e {Xn }n≥1 `e anche una sequenza di v.a. degeneri. Affinch´e la nozione di convergenza in distribuzione appena introdotta sia di una qualche utilit`a bisogna che le variabili aleatorie Xn di queso esempio convergano in distribuzione alla costante 1. Se ci`o non si dovesse verificare la nozione di convergenza in distribuzione sarebbe di dubbia utilit`a. Le distribuzioni Fn (x) sono Fn (x) =

  0,

x < 1 + n1 ,

1,

x ≥ 1 + n1 .

 e calcolando il limite si trova

 G(x) := lim Fn (x) = n→∞

0, 1,

x≤1, x>1.

La G(x) non `e una funzione di distribuzione, non essendo continua a destra. Esiste per`o una funzione di distribuzione:   0, x 0, n→∞

in questo caso scriveremo P

Xn −→ X Osservazioni (a.) La convergenza delle probabilit`a `e la ordinaria convergenza delle sequenze numeriche. P

In termini formali: Xn −→ X se, per ogni  > 0 fissato, per ogni γ > 0 esiste un N tale che, per ogni n ≥ N  P |Xn − X| ≥  ≤ γ. (b.) Forme alternative, equivalenti tra loro, della condizione di convergenza in probabilit`a. Per ogni  > 0  lim P |Xn − X| >  = 0, n→∞  lim P |Xn − X| ≤  = 1, n→∞  lim P |Xn − X| <  = 1 n→∞

(c.) Per valutare se la sequenza {Xn } converge in distribuzione `e sufficiente disporre delle distribuzioni Fn (x) delle singole v.a. Xn . Per valutare se la sequenza {Xn } converge in  probabilit` a si deve poter calcolare P |Xn − X| >  per ogni n, il che richiede di disporre delle distribuzioni congiunte delle coppie (Xn , X) per ogni n. In un caso, speciale ma molto frequente, basta conoscere le distribuzioni delle singole v.a. Xn : si veda il punto successivo (d.) Spesso la v.a. X cui la sequenza Xn converge in probabilit`a `e una v.a. degenere, cio`e una costante, diciamola c ∈ R. In questo caso la condizione di convergenza `e intuitivamente pi` u chiara. Per n sufficientemente grande |Xn − c| ≤  con alta probabilit`a. Inoltre in questo caso per valutare P |Xn − X| ≤  al variare di n sono sufficienti le distribuzioni delle singole v.a. Xn . Esempio 1. (ripreso dal paragrafo 27.1) La sequenza Mn converge in distribuzione alla costante 1. Per capire se la convergenza ad 1 sussiste anche in probabilit` a si deve valutare, per ogni  > 0 fissato, P (|Mn − 1| ≥ ) = P (1 − Mn ≥ ) = P (Mn ≤ 1 − ) = (1 − )n −→ 0,

per ogni 0 <  < 1

(per i pi` u pignoli: data la definizione di Mn , se  > 1 la probabilit`a `e nulla per ogni n, P

non solo asintoticamente.) Si conclude che Mn −→ 1. Esempio 2. Le v.a. {Xn }n≥1 ed X sono i.i.d. con distribuzione di Bernoulli b   1 D Xn −→ b 2 199

1 2



` banale che . E

infatti le distribuzioni delle Xn sono tutte identiche b

1 2



e tale rimane il limite.

 Dimostriamo ora che la sequenza Xn non converge in probabilit`a alla v.a. X ∼ b 21 . Cominciamo con l’osservare che sia le Xn che X possono assumere solo i valori 0 ed 1, quindi per ogni 0 < ε < 1,      |Xn − X| ≥ ε ] = Xn 6= X = Xn = 0, X = 1 ] ∪ Xn = 1, X = 0 ]. Possiamo ora verificare, usando la definizione, che la convergenza in probabilit`a non sussiste lim P (|Xn − X| ≥ ) =

n→∞

= =

lim P (Xn 6= X)    lim P Xn = 0, X = 1 ] ∪ Xn = 1, X = 0 ]

n→∞ n→∞

11 11 1 + = 9 0. 22 22 2

Commento. L’esempio mostra che la convergenza in distribuzione `e pi` u debole della convergenza in probabilit` a, infatti Xn converge in distribuzione, ma non in probabilit`a. Relazioni tra convergenza in probabilit`a e convergenza in distribuzione. P

D

Lemma. Se Xn −→ X allora Xn −→ X. Dimostrazione. Non molto difficile ma omessa. Questo risultato mostra che la convergenza in probabilit`a `e una nozione pi` u forte della convergenza in distribuzione. In un caso speciale, ma inportante, le due nozioni sono equivalenti, come dimostrato nel seguente Lemma. P

D

Lemma. Xn −→ c se e solo se Xn −→ c. Dimostrazione. La direzione: se converge in probabilit` a alla costante c allora vi converge anche in distribuzione `e una conseguenza del lemma precedente. La direzione se converge in distribuzione alla costante c allora vi converge anche in probabilit` a l’avevo ”dimostrata” disegnando il grafico qui sotto alla lavagna. Nel grafico le distribuzioni Fn (x) convergono

alla distribuzione degenere F (x) della costante c, per ogni x ∈ R. [In figura Fn (c) =

200

1 2

per

ogni n, ma questa condizione `e puramente accidentale, serve solo a tracciare un grafico elegante.] Dalla figura si vede che P (|Xn − c| ≤ ) = P (c −  ≤ Xn ≤ c + ) = Fn (c + ) − Fn (c − ) → 1 poich´e, per la convergenza in distribuzione, deve valere Fn (c − ) → 0 e Fn (c + ) → 1. Si P

conclude che Xn −→ c. Convergenza in probabilit`a – cosa non `e sempre vero P

Se Xn −→ X non `e in generale vero che per i valori attesi valga ` SEMPRE VERO NON E

lim E(Xn ) = E(X),

n→∞

Esempio. Sia Xn una sequenza di v.a le cui distribuzioni sono caratterizzate come segue  0, con P (Xn = 0) = 1 − n1 , Xn = n, con P (Xn = n) = n1 . P

Si verifichi che Xn −→ 0, ma E(Xn ) = 1 9 0.

30.2

Convergenza in Lp

Definizione. La sequenza di v.a. {Xn } converge in Lp alla v.a. X se  lim E(, |Xn − X|p = 0, n→∞

in questo caso scriveremo Lp

Xn −→ X Osservazioni (a.) Sono ammessi tutti i valori di p ≥ 1. Ad ogni p ≥ 1 corrisponde una diversa nozione di convergenza. Per p = 1 si dice che la sequenza {Xn } converge ad X in media; per p = 2 che converge in media quadratica. Questi sono i due casi di gran lunga pi` u importanti in pratica. La convergenza in media quadratica `e particolarmente interessante dal punto di vista geometrico essendo la naturale nozione di convergenza nello spazio, dotato di prodotto interno, L2 := { X : Ω → R : E(X 2 ) < ∞ } che avevamo introdotto in precedenza. (b.) Anche in questo caso, come per la convergenza in probabilit`a, deve essere nota la densit`a congiunta delle coppie (Xn , X) per ogni n. Solo con questa informazione si pu`o calcolare E( |Xn − X|p . Unica eccezione: se X = c, v.a. degenere, allora `e sufficiente conoscere le distribuzioni delle Xn . (c.) La convergenza in media quadratica implica la convergenza in media. Infatti, per la L

2 disuguaglianza di Cauchy-Schwarz, se Xn −→ X allora p p E(|Xn − X|) = E(|Xn − X| · 1) ≤ E(|Xn − X|2 )E(12 ) = E(|Xn − X|2 ) → 0

L

1 (d.) Se Xn −→ X allora E(Xn ) → E(X). Questa `e una semplice conseguenza della disuguaglianza triangolare. |E(Xn ) − E(X)| = |E(Xn − X)| ≤ E(|Xn − X|) → 0.

201

Relazione con la convergenza in probabilit`a Lp

P

Lemma. Se Xn −→ X allora Xn −→ X. Dimostrazione. Qualunque sia p ≥ 1, per la disuguaglianza di Markov  E( |Xn − X|p p p P (|Xn − X| ≥ ) = P (|Xn − X| ≥  ) ≤ →0 p Lp

P

Attenzione. Non `e vero il viceversa. Se Xn −→ X, non necessariamente Xn −→ X. La convergenza in Lp `e dunque pi` u forte della convergenza in probabilit`a. Esempio. Sia Xn una sequenza di v.a le cui distribuzioni sono caratterizzate come segue  0, con P (Xn = 0) = 1 − n1 , Xn = n, con P (Xn = n) = n1 . D

P

Avevamo visto che Xn −→ 0. In realt`a `e anche vero che Xn −→ 0, infatti P (|Xn − 0| ≥ ) = P (Xn = n) =

1 −→ 0, n

per ogni  > 0

Peraltro Xn non congerge a 0 in Lp per nessun valore di p ≥ 1, infatti E(|Xn − 0|p ) = E(Xnp ) =

30.3

np = np−1 9 0 n

Legge debole dei grandi numeri

Il teorema seguente `e uno dei risultati centrali della teoria della probabilit`a classica. Formulato per le v.a. di Bernoulli da Jakob Bernoulli nel 1713, esteso da Chebyshev nel 1867 alle v.a. che ammettono secondo momento, e da Khinchine nel 1928 alle v.a. che ammettono solo valore atteso. In forme estremamente pi` u generali `e ancora un attivo settore di ricerca teorica ed applicata. Definiamo per comodit` a notazionale la sequenza di v.a. n

1X X n := Xi , n i=1

abitualmente {X n } `e detta sequenza delle medie campionarie. Per la linearit`a del valore atteso E(X n ) = µ, per ogni n quindi `e naturale che i valori di X n siano distribuiti intorno a µ. Il teorema di Khinchine afferma che, se le variabili {Xn } sono i.i.d. allora asintoticamente, con alta probabilit`a X n si concentra intorno a µ.

202

Teorema (legge debole dei grandi numeri – Khinchine 1928) Sia {Xn } una sequenza di v.a., tutte definite sullo stesso spazio di probabilit`a27 , indipendenti ed identicamente distribuite. Si assume che µ := E(X1 ) esista. Sotto queste ipotesi P X n −→ µ = E(X1 ) Osservazione. Non si devono confondere le Xn con le X n , queste ultime non sono indipendenti. Il teorema di Khinchine non `e di facile dimostrazione, ma sotto l’ipotesi aggiuntiva che esista il secondo momento E(X12 ) la legge dei grandi numeri `e un risultato intuitivo, la cui dimostrazione `e semplicissima. Teorema (legge debole dei grandi numeri – Chebyshev 1867) Sia {Xn } una sequenza di v.a., indipendenti ed identicamente distribuite. Si assuma che E(X12 ) esista e sia µ := E(X1 ). Sotto queste ipotesi P

X n −→ µ = E(X1 ) Commento. Questo risultato `e in accordo con l’intuizione poich´e, se esiste E(X12 ) < ∞, allora σ 2 := var(X1 ) < ∞. Poich´e per ipotesi le v.a. sono i.i.d ! n 1 σ2 1X var(X n ) = var Xi = 2 n σ 2 = −→ 0 n n n i=1

e questo conferma che X n si concentra intorno al suo valore atteso E(X n ) = µ. Dimostrazione della legge dei grandi numeri di Chebyshev. Chebyshev P |X n − µ| ≥ 



≤ =

Per la disuguaglianza di

E(|X n − µ|2 ) 2 σ2 var(X n ) = −→ 0 2 n2

Nota Bene. Riflettendo sulle definizioni date finora non vi sfuggir`a il fatto che, quando esiste il secondo momento, `e vero pi` u di quanto enunciato nella legge dei grandi numeri di Chebyshev, infatti σ2 E(|X n − µ|2 ) = var(X n ) = −→ 0 n L

2 µ. La convergenza in L2 `e pi` u forte della convergenza in probabilit`a, significa che X n −→ ciononostante la legge dei grandi numeri non viene mai enunciata come un risultato di convergenza in L2 . Questo perch´e, come vedremo negli esempi, quello che veramente interessa in pratica `e valutare probabilit`a del tipo P (|X n − µ| ≤ ). Interpretatelo cos`ı: per dimostrare la convergenza in probabilit`a `e spesso tecnicamente pi` u facile dimostrare la convergenza in media quadratica o in media. 27

Nota bene: ogni volta che si scrive una somma di v.a. si sta implicitamente supponendo che le v.a. siano definite sullo stesso spazio. In effetti la v.a. X + Y `e definita come (X + Y )(ω) = X(ω) + Y (ω). Se X ed Y non sono definite sullo stesso spazio non ha senso sommarle. Questo `e un problema tecnico di cui non ci siamo mai occupati. Quando dico: sia {Xn }n≥1 una sequenza di v.a. indipendenti ed identicamente distribuite di distribuzione assegnata bisognerebbe chiedersi se esiste uno spazio di probabilit` a su cui `e possibile definire una sequenza con le caratteristiche richieste. La cattiva notizia `e che il teorema che garantisce l’esistenza di un tale spazio `e troppo complesso per essere presentato in un corso elementare. La buona notizia `e che, fintanto si rimanga su sequenze di v.a. i.i.d., a valori in R, uno spazio di probabilit` a adeguato a contenere tutte le variabili della sequenza, qualunque siano le loro distribuzioni congiunte esiste sempre. Continueremo quindi a sottacere questa difficolt` a.

203

Corollario della legge dei grandi numeri. Sia {Xn } una sequenza di v.a., indipendenti ed  2 identicamente distribuite e g : R → R una funzione tale che E (g(X1 )) esista. Sotto queste ipotesi n 1X P g(Xi ) −→ E(g(X1 )) n i=1

Dimostrazione. Non c’`e nulla da dimostrare. Se {Xn } `e una sequenza i.i.d. tale `e anche la sequenza {g(Xn )} e, per la legge dei grandi numeri la media campionaria delle g(Xi ) converge al valore atteso comune E(g(X1 )) Esempi di applicazione della legge debole dei grandi numeri L’esempio per eccellenza `e la sequenza di v.a. di Bernoulli i.i.d.. Come vedremo la sua portata `e molto pi` u ampia di quanto si potrebbe immaginare. L’informazione utile in pratica `e contenuta nella disuguaglianza di Chebyshev. Esempio 1. Sia {Xn } una sequenza di v.a. i.i.d. b(p). In termini del classico esempio dei lanci ripetuti di una moneta la media campionaria X n `e n

1X nT (X1n ) Xn = Xi = n n i=1

dove nT (X1n ) denota il numero di Teste in n lanci. Naturalmente E(X n ) = p e var(X n ) = p(1−p) n . Per la legge debole dei grandi numeri nT (X1n ) P −→ p = E(X1 ) n ovvero, per ogni  > 0,

  nT (X1n ) − p ≤  = 1 lim P n→∞ n n (X n )

L’interpretazione pratica `e che asintoticamente, con alta probabilit`a, p− ≤ T n 1 ≤ p+. In linea di principio, usando la disuguaglianza di Chebychev, `e possibile, fissati  > 0 ed α ∈ [0, 1], determinare il numero di lanci n tale che   nT (X1n ) P − p ≤  ≥ α. n Si procede in questo modo. La disuguaglianza di Chebychev `e   nT (X1n ) var(X n ) P − p ≤  ≥ 1− n 2 p(1 − p) 1 ≥1− , = 1− 2 n 4n2 dove, per l’ultimo passaggio, si osservi che p(1 − p) ≤ 14 per ogni p ∈ [0, 1]. Imponendo quindi la condizione 1 1− ≥α 4n2 si determina il numero di lanci n che garantisce i livelli  ed α assegnati. Ad esempio per  = 0.05 ed α = 0.95 la condizione 1−

1 ≥ 0.95 4n 0.052

fornisce n ≥ 2000. 204

Lezione 31 31.1

(Marted`ı 21 maggio, ore 16:25–18:10)

Legge debole dei grandi numeri (continua)

Esempi di applicazione della legge debole dei grandi numeri Esempio 2. Sia X una v.a. di densit`a fX (x) che ammette secondo momento. Fissato un evento E ∈ B(R) si consideri il problema del calcolo di Z p := P (X ∈ E) = fX (x) dx, E

dove abbiamo convenientemente denotato con p il valore cercato. Per assegnati E ed fX questo `e un problema puramente deterministico, che si riduce al calcolo di un integrale definito. Se la densit` a fX `e una funzione che non ammette primitiva esprimibile in forma chiusa (esempio importante: la normale) il calcolo pu`o essere effettuato solo attraverso una procedura di approssimazione numerica. Vediamo come la legge dei grandi numeri consenta di determinare il valore di p con una procedura probabilistica invece che di analisi numerica. Ci si procura28 una sequenza di v.a. i.i.d. {Xn } con densit`a fX1 (x) = fX (x). Si definisca la sequenza di v.a. {Yn }, dove Yn := 1lE (Xn ). Dalla definizione si deduce che le v.a. Yn assumono solo due valori: Yn = 1 se Xn ∈ E ed Yn = 0 se Xn ∈ / E, inoltre P (Yn = 1) = P (Xn ∈ E) = p. La sequenza {Yn } `e quindi una sequenza di v.a. i.i.d. b(p). Siamo tornati al caso trattato nell’Esempio 1. La media campionaria n 1X nE (X1n ) Y n := Yi = , n n i=1

nE (X1n )

dove `e il numero di volte che Xi cade in E nelle prime n prove. Per la legge dei grandi numeri   nE (X1n ) P − p ≤  −→ 0 n Considerazioni analoghe a quelle fatte nell’Esempio 1 si applicano anche in questo caso. In particolare, fissata la soglia  (0.1, 0.05, 0.01 ecc.) per l’errore di approssimazione tollerato e la soglia α (0.9, 0.95, 0.99 ecc.) ritenuta accettabile per la probabilit`a che l’errore stia sotto ad , si pu` o determinare il numero n di v.a. che `e necessario generare. Esempio 3. Come noto la disuguaglianza di Chebyshev `e di validit`a generale, ma proprio per questo `e molto conservativa. Se `e possibile calcolare la distribuzione di X n `e molto pi` u conveniente valutare direttamente la probabilit`a P (|X n − µ| ≤ ) piuttosto che utilizzare la disuguaglianza di Chebychev. Si consideri il seguente esempio. Si effettua una serie di misurazioni di una grandezza fisica incognita, diciamola µ ∈ R. La n-esima lettura dello strumento si modella con una v.a. Yn = µ + Wn dove Wn ∼ N (0, σ 2 ) rappresenta l’errore di misura.29 Gli errori di misura si suppongono i.i.d. Le letture dello strumento Yn formano quindi una sequenza di v.a. Yn ∼ 28

Questo `e sempre possibile con una procedura di simulazione, che consente di generare una sequenza di v.a. i.i.d. di qualunque densit` a assegnata. Non tratteremo qui le tecniche di simulazione. 29 In molte situazioni modellare l’errore di misura con v.a. normali `e giustificato da considerazioni fisiche. Vedremo pi` u avanti il caso del rumore termico nei circuiti elettrici. Considerare E(Wn ) = 0 esclude la presenza di errori sistematici. La varianza E(Wn2 ) = σ 2 `e legata alla precisione dello strumento. Considerazioni approfondite saranno fatte nei corsi di Misure.

205

N (µ, σ 2 ) indipendenti ed identicamente distribuite. Poich´e la media campionaria Y n `e una combinazione lineare di v.a. normali indipendenti essa sar`a ancora normale e   σ2 Y n ∼ N µ, n ` allora possibile calcolare esattamente E 

|Y n − µ|  √ P (|Y n − µ| < ) = P < √ σ/ n σ/ n    √ = 2Φ −1 σ/ n



dove Φ(x) `e la funzione di distribuzione della normale standard N (0, 1). I valori si trovano in tabella. Ad esempio ci chiediamo quale deve essere il numero di misure da effetuare utilizzando uno strumento con deviazione standard σ = 0.1 per garantire errore  < 0.05 e probabilit`a α = 0.95. Questo corrisponde a determinare il valore di n tale che   0.05 √ 2Φ − 1 ≥ 0.95 0.1/ n √ ovvero Φ(0.05 n/0.1) ≥ 1.95/2 = 0.975. In tabella si trova che Φ(1.96) = 0.975 quindi √ 0.05 n/0.1 ≤ 1.96 ovvero n ≥ 15.36. Con n = 16 si raggiungono entrambi gli obiettivi. Confrontiamo questo risultato con quanto si sarebbe ottenuto utilizzando la disuguaglianza di Chebyshev. var(Y n ) P (|Y n − µ| < ) ≥ 1 − 2 ed imponendo gli stessi dati di prima, σ = 0.1,  = 0.05 ed α = 0.95 si determina n garantendo che var(Y n ) σ2 0.12 1− = 1 − = 1 − ≥ 0.95 2 n2 n0.052 da cui si ricava che sarebbe necessario effettuare n = 80 misure per raggiungere entrambi gli obiettivi. Esempio 4. Il metodo di Monte Carlo aggiungere in futura revisione

La legge dei grandi numeri - quando non funziona Abbiamo detto che la legge dei grandi numeri (versione di Khinchine) richiede almeno l’esistenza del valore atteso delle v.a. Xn . Vediamo con un esempio cosa pu`o succedere quando il valore atteso non esiste. Esempio. Si consideri la sequenza {Xn } di v.a. i.i.d. con densit`a di Cauchy fX1 (x) = 1 1 a dimostrato che le v.a. Xn non ammettono valore atteso. Costruπ 1+x2 . Abbiamo gi` iamo comunque la media campionaria X n . Per determinare la densit`a di X n conviene lavorare con le funzioni caratteristiche. Ricordando che ϕX1 (ω) = e−|ω| e che la funzione caratteristica dellaP somma di v.a. indipendenti `e il prodotto delle funzioni caratteristiche, detto infine Sn := ni=1 Xi , si ha  n ϕSn (ω) = e−|ω| , 206

e finalmente, poich´e X n = n1 Sn , `e il prodotto di una costante per Sn , ω  ϕX n (ω) = ϕSn  ω nn = e−| n | = e−|ω| = ϕX1 (ω) La conclusione `e che ϕX n (ω) = ϕX1 (ω) ovvero, antitrasformando, la media campionaria ha densit`a di Cauchy identica a quella di una singola v.a. della sequenza originale {Xn }. Poich´e la densit`a di Cauchy `e simmetrica intorno all’origine l’intuizione potrebbe far pensare che la media campionaria si concentra verso 0, che `e il valore centrale 30 delle v.a. Xn , ma questo non avviene.

31.2

Fattori di scala per la convergenza a distribuzioni non degeneri

[materiale non spiegato a lezione che pu`o essere saltato senza nessuna conseguenza per la comprensione del seguito della lezione.] Con riferimento all’esempio della Lezione 29.1, abbiamo stabilito che Mn ha asintoticamente la distribuzione degenere della costante 1. Per studiare pi` u dettagliatamente il comportamento asintotico di Mn ci ispiriamo alla tecnica che si usa per lo studio della velocit`a di convergenza delle sequenze numeriche. Supponiamo che an sia una sequenza numerica convergente, ad esempio lim an = a,

n→∞

che equivale a dire che il limite di |an − a|, la distanza tra an ed a, si annulla: lim |an − a| = 0,

n→∞

ovvero |an − a| `e infinitesimo per n → ∞. Per studiare la velocit`a di convergenza si deve determinare l’ordine d’infinitesimo di |an − a| ovvero determinare un k tale che lim

n→∞

|an − a| 1 nk

= lim nk |an − a| = b 6= 0. n→∞

Questa `e un’informazione sulla velocit`a di convergenza, infatti ora sappiamo che   b 1 |an − a| = k + o . n nk Si noti che determinare l’ordine di infinitesimo equivale ad amplificare la distanza |an − a|, moltiplicandola per il fattore di scala nk , e scegliendo k in modo tale che la sequenza amplificata converga a b 6= 0. Questa sar`a esattamente la via che seguiremo anche nel caso delle variabili aleatorie. Per quanto visto nella Lezione 29, le v.a. Mn convergono in distribuzione alla costante  1, variabile aleatoria degenere di varianza nulla. La varianza var(Mn ) = O n12 → 0. Per studiare la velocit` a di convergenza di Mn ad 1, imitando quanto si fa nel caso deterministico, amplifichiamo |Mn − 1| moltiplicando per un opportuno fattore di scala in 30

Si chiama mediana di una v.a. X il punto a ∈ R tale che P (X ≤ a) = P (X ≥ a) = 1/2), la mediana di una v.a. di Cauchy `e a = 0.

207

modo tale che la varianza asintotica, invece di annullarsi, tenda ad una costante non nulla. L’opportuno fattore di scala, in questo caso, `e n infatti   1 2 2 var(n|Mn − 1|) = var(n(1 − Mn )) = n var(1 − Mn ) = n O = O(1), n2 dove abbiamo sfruttato il fatto che |Mn − 1| = 1 − Mn . Poich´e var(n(1 − Mn )) = O(1) `e ragionevole aspettarsi che la FdD asintotica delle v.a. n(1 − Mn ) non sia degenere. Diciamo Fn (x) la FdD di n(1 − Mn ), allora  x Fn (x) = P (n (1 − Mn ) ≤ x) = P 1 − Mn ≤ n  x = P Mn ≥ 1 − n  x = 1 − P Mn ≤ 1 − n h i x n = 1l(x) − 1 − 1l[0,n] (x) n E calcolando il limite si trova (`e molto pi` u banale di quel che sembra)   x n 1l[0,n] (x) = 1 − e−x 1l(x) lim Fn (x) = lim 1l(x) − 1 − n→∞ n→∞ n Si riconosce che Fn (x) converge alla funzione di distribuzione Exp(1). La densit`a limite di n(1 − Mn ) `e quindi f (x) = e−x 1l(x). Questo risultato `e estremamente utile in quanto consente di calcolare la probabilit` a di eventi relativi alle v.a. Mn originali usando la distribuzione asintotica. Ad esempio, per ogni a < 1 e per n abbastanza grande,  P (Mn > a) = P n(1 − Mn ) < n(1 − a) ≈

Z

n(1−a)

e−x dx.

0

31.3

Teorema del limite centrale – motivazione

Legge debole dei grandi numeri per variabili normali. Se {Xn } `e una sequenza di v.a. i.i.d. 2 N (µ, σ 2 ) allora E(X n ) = µ e var(X n ) = σn e, per la legge dei grandi numeri, P

X n −→ µ, Probabilit`a delle deviazioni. Sotto l’ipotesi di normalit`a delle v.a. Xn le probabilit`a delle deviazioni d’interesse pratico, P (|X n − µ| ≤ ), si possono calcolare esattamente anzich´e accontentarsi della disuguaglianza di Chebychev. Infatti, poich´e le combinazioni lineari di v.a. normali indipendenti sono normali,   σ2 X n ∼ N µ, , n quindi le probabilit` a d’interesse si possono calcolare facendo ricorso alla tecnica di standardizzazione.    |X n − µ|  √ P |X n − µ| ≤  = P ≤ √ σ/ n σ/ n  √  = 2Φ n −1 σ 208

Convergenza in distribuzione. I conti fatti sopra, per il calcolo delle probabilit`a delle deviazioni, hanno un risvolto interessante nello studio della convergenza in distribuzione. In generale la convergenza in probabilit`a implica la convergenza in distribuzione quindi D

X n −→ 1l(x − µ), dove 1l(x − µ) `e la funzione di distribuzione della v.a. degenere (costante) µ. Consideriamo ora l’operazione di standardizzazione su X n − µ, che si pu`o riscrivere come √ |X n − µ| n √ |X n − µ| = σ σ/ n √ ovvero, la distanza |X n − µ| `e moltiplicata per il fattore di scala n/σ. Si noti che √ la sequenza delle v.a. |X n − µ|, amplificate dal fattore n/σ, converge banalmente ain distribuzione alla distribuzione non degenere N (0, 1): √ n D (X n − µ) −→ N (0, 1) σ √

infatti, le v.a. nel membro di sinistra, σn (X n − µ), sono, per ogni n ≥ 1, normali N (0, 1) trattandosi di combinazioni lineari di v.a. Xn normali i.i.d.. Osservazione. Chi ha letto il paragrafo precedente pu`o confrontare questo esempio con D l’esempio motivazionale introdotto in Lezione 29.1. In quel caso Mn −→ 1l(x − 1) e, D

moltiplicando la distanza 1 − Mn per il fattore di scala n, si dimostrava che n(1 − Mn ) −→ Exp(1). Lo scopo di questa Lezione `e di dimostrare che, anche se le v.a. {Xn } non sono normali, √ n D (X n − µ) −→ N (0, 1). σ

31.4

Teorema del limite centrale

Teorema. Sia {Xn } una sequenza di v.a. i.i.d. che ammettono secondo momento, sia µ := E(X1 ) e σ 2 := var(X1 ) > 0 allora √  D n Wn := X n − µ −→ N (0, 1). σ Commento. Si noti che nessuna ipotesi sulla natura delle v.a. Xn `e stata fatta: possono essere discrete, continue, assolutamente continue, o miste. ` conveniente rappresentare Wn come somma di v.a. i.i.d. standardizzate: Dimostrazione. E √  n Wn := Xn − µ σ ! √ n n 1 X = Xi − µ σ n i=1

=

n n 1 X Xi − µ 1 X √ =√ Zi σ n n i=1

i=1

209

dove, nell’ultimo passaggio, abbiamo introdotto le v.a. i.i.d. standardizzate31 Zi :=

Xi − µ σ

di media E(Zi ) = 0 e varianza var(Zi ) = 1. Le v.a. Zi hanno funzione caratteristica comune, diciamola ϕ(ω). Poich´e le Zi ammettono secondo momento ϕ(ω) `e derivabile con derivata seconda continua (questo `e stato menzionato, ma non dimostrato in precedenza, non `e difficile ma prendetelo per buono). Sviluppando in serie di Taylor ϕ(ω) = ϕ(0) + ϕ0 (0) ω + ϕ00 (0)

ω2 + o(ω 2 ) 2

Ricordando che ϕ(0) = 1 e le relazioni tra momenti e derivate della funzione caratteristica, 0 = E(Z1 ) = 1j ϕ0 (0) e 1 = E(Z12 ) = j12 ϕ00 (0), si trova che ϕ0 (0) = 0 e ϕ00 (0) = −1, e sostituendo nell’equazione qui sopra ϕ(ω) = 1 −

ω2 + o(ω 2 ) 2

Poich´e le v.a. Zi sono i.i.d, la funzione caratteristica della somma Sn :=  n n ω2 2 ϕSn (ω) = ϕ(ω) = 1 − + o(ω ) 2 e quindi la funzione caratteristica di Wn =

√1 Sn n

 ϕWn (ω) = ϕSn  =



√ω n



 2 ω 2 /2 + o ωn 1− n

i=1 Zi

`e

`e



 = 1 −

Pn

√ω n

2

2 +o



n 2   √ω  n

n

Siamo pronti a calcolare il limite   2  n ω 2 /2 lim ϕWn (ω) = lim 1 − + o ωn n→∞ n→∞ n   ω2 = exp − , per ogni ω ∈ R 2 Si riconosce che il limite `e la funzione caratteristica di una v.a. N (0, 1). La dimostrazione si conclude invocando il teorema di L´evy. Teorema del limite centrale – Esempi di approssimazione normale Il teorema del limite centrale `e utile per il calcolo approssimato di probabilit`a relative a somme di v.a. di qualunque natura. L’idea `e di base nei calcoli pratici `e che, se D Zn −→ N (0, 1), allora per n sufficientemente grande sar`a √  D n Zn := X n − µ ≈ N (0, 1). σ D

dove il simbolo ≈ indica che la distribuzione della v.a. di sinistra `e approssimativamente uguale alla distribuzione a destra. Quest’idea funziona eccezionalmente bene gi`a con valori di n modesti, data la covergenza piuttosto veloce alla normalit`a. 31

La notazione andrebbe modificata. Le Zi non sono normali, ma solo standardizzate, E(Zi ) = 0 e var(Zi ) = 1. Null’altro `e noto sulle densit` a delle Zi

210

Raccogliamo qui sotto alcune forme equivalenti dell’ultima equazione. Sono immediate da ricavare e non aggiungono nulla di nuovo. Assicuratevi che vi risulti banale passare da una all’altra! Quelle che a destra hanno una N (0, 1) sono gi`a pronte per l’uso della tabella. √

1 √ σ n

 n Xn − µ σ n X  Xi − nµ

D

≈ D

N (0, 1)



N (0, 1)

D

N (nµ, nσ 2 )

i=1 n X

Xi



Xn

  σ2 ≈ N µ, n

i=1 D

Esempio 1. Le batterie da 9V che alimentano il radiomicrofono delle aule Ke e Ve hanno una vita media di 3 ore con densit` a di probabilit`a esponenziale. Calcolare con che probabilit`a 30 batterie consentono l’uso del microfono per tutta la durata del corso di Analisi dei Dati (78 ore). La v.a. che P30descrive la durata di una batteria `e X1 ∼ Exp(1/3) e la durata di 30 batterie `e S30 := i=1 Xi . Si calcola E(S30 ) = 30 · 3 = 90 e var(S30 ) = 30 · 9 = 270. Per il teorema del limite centrale 30 X D Xi ≈ N (30 · 3, 30 · 9), i=1

quindi P

30 X i=1

! Xi ≥ 78

P30 = P

78 − 30 · 3 i=1√Xi − 30 · 3 ≥ √ 30 · 9 30 · 9

!

≈ P (Z ≥ −0.73) = 1 − Φ(−0.73) = Φ(0.73) ≈ 0.77 Esempio 2. Il professore di Analisi dei Dati vuole avere probabilit`a almeno pari a 0.95 che il radiomicrofono funzioni per tutta la durata del corso. Quante batterie deve acquistare il DEI per accontentarlo? I dati sono gli stessi dell’esempio 1. In questo caso n `e l’incognita del problema. La richiesta del professore impone il vincolo ! n X P Xi ≥ 78 ≥ 0.95 i=1

Il servizio tecnico del DEI applica il teorema del limite centrale e riscrive il vincolo come !  Pn  n X 78 − 3n i=1√Xi − 3n ≥ √ P Xi ≥ 78 = P 9n 9n i=1   78 − 3n ≈ P Z≥ √ 9n   78 − 3n √ = 1−Φ ≥ 0.95 9n 211

che si riduce a

 Φ

78 − 3n √ 9n

 ≤ 0.05

ma la tabulazione della N (0, 1) parte da 0.5, si usa quindi la propriet`a Φ(z) = 1 − Φ(−z) e si riscrive il vincolo   3n − 78 √ Φ ≥ 0.95 9n dalla tabella si ricava che Φ(1.64) = 0.9495 e Φ(1.65) = 0.9505 che trasforma il vincolo √ nella disequazione in n: √ 3n − 78 ≥ 1.65 · 3 n √ che `e soddisfatta per n ≥ 5.99, cio`e n ≥ 35.88. Bisogna che il DEI acquisti almeno 36 batterie. Esempio 3. (da confrontare con l’ esempio 1 per la legge dei grandi numeri) Torniamo all’esempio per eccellenza: la sequenza {Xn }, i.i.d. b(p). Usiamo il teorema del limite centrale per valutare quanti lanci di una moneta onesta (p = 1/2) sono necessari per garantire   nT (X1n ) 1 P − ≤ 0.05 ≥ 0.95 n 2 n (X n )

Ricordando che T n 1 = X n e che, per p = 1/2 valgono E(X n ) = µ = 1 σ2 e n = 4n la condizione da imporre `   nT (X1n ) 1 P − ≤ 0.05 = P (|X n − 12 | ≤ 0.05) n 2 ! |X n − 12 | 0.05 √ ≤ √ = P 1/2 n 1/2 n √ ≈ 2Φ(0.1 n) − 1 ≥ 0.95

n 2

e var(Xn ) =

√ La condizione si riduce a Φ(0.1 n) ≥ 0.975. Dalla tabella della normale standard √ √ Φ(1.96) = 0.975 quindi 0.1 n ≥ 1.96 da cui n ≥ 19.6 ed n ≥ 384.1, quindi n = 385 sono sufficienti (da confrontarsi con gli n = 2000 richiesti dalla conservativa disuguaglianza di Chebychev).

Thumb rule Esercizio. (FATELO) Se {Xn } `e una sequenza di v.a. i.i.d con E(X1 ) = µ e var(X1 ) = σ 2 , allora per n  1 ! n X √ √ P nµ − 1.96σ n ≤ Xi ≤ nµ + 1.96σ n ≈ 0.95. i=1

√ √ Con errore di solito trascurabile si approssima l’intervallo [nµ − 1.96σ n, nµ + 1.96σ n] √ √ con l’intervallo [nµ − 2σ n, nµ + 2σ n]. Per esercizio calcolate, usando il Teorema del Limite Centrale, la probabilit` a ! n X √ √ P nµ − 2σ n ≤ Xi ≤ nµ + 2σ n i=1

212

Applicazione fondamentale: moneta truccata o moneta onesta? [la moneta `e solo un paradigma – sostituite alla moneta il problema scientifico a risposta binaria su cui state lavorando] Avete in tasca una moneta che sospettate possa essere truccata. Lanciate la moneta n volte ed osservate nT Teste. Se la moneta `e onesta vi aspettate approssimativamente n/2 Teste su n lanci. Il teorema del limite centrale fornisce l’intervallo di valori in cui `e ragionevole aspettarsi che cada nT se la moneta `e onesta. Dal risultato dell’esercizio se lanciate una moneta onesta n  1 volte, il numero di Teste nT sar`a compreso nell’intervallo √ √ [nµ − 2σ n, nµ + 2σ n]  con probabilit` a circa 0.95. Ricordando che per una moneta onesta b 12 , vale µ = σ = 12 , per n = 1000 lanci l’intervallo `e i h √ √ 500 − 1000, 500 + 1000 = [469, 531] Se osservate meno di 469 o pi` u di 531 Teste siete autorizzati a ritenere i vostri sospetti non completamente infondati. Pi` u lontano `e nT dall’intervallo [469, 531] pi` u significativa `e la vostra osservazione di nT Teste per la convalida della vostra ipotesi che la moneta non sia onesta (questo `e il modo in cui si esprimono gli statistici per non compromettersi).

213

Lezione 32 32.1

(Mercoled`ı 22 maggio, ore 16:25–18:10)

Esercitazione in aula

214

Lezione 33 33.1

(Luned`ı, 27 maggio 2013, ore 10:30-12:15)

Segnali, sistemi e modelli incerti

L’analisi dei sistemi dinamici in condizioni d’incertezza riveste grande interesse nella pra` molto comune che l’incertezza del sistema dinamico sia presente tica ingegneristica. E a livello fisico e che sia quindi necessario tenerne conto nel modello matematico. Non `e per`o raro il caso in cui si preferisce costruire modelli probabilistici anche in contesti che fisicamente sono puramente deterministici. L’ingegneria dell’informazione `e ricca di esempi della prima situazione. Nei sistemi dinamici elettrici (reti elettriche) esiste una naturale sorgente di aleatoriet`a, il rumore termico generato dai circuiti.32 La manifestazione pratica del rumore termico `e un segnale aleatorio che si sovrappone, sporcandoli, ai segnali d’ingresso e di uscita, e/o che rende aleatoria la trasformazione effettuata dal sistema. Il rumore termico, la cui intensit`a `e solitamente trascurabile, diventa un serio problema quando le potenze dei segnali sono molto basse, come nelle trasmissioni dallo spazio profondo (vedi Deep Space Network). A livello pi` u fondamentale, i segnali d’ingresso (messaggi inviati) di un sistema di telecomunicazioni (canale) sono incerti per loro vera natura e come tali vanno modellati. L’invio di un messaggio non servirebbe alcuno scopo se il ricevente, in ascolto all’uscita del canale, ne conoscesse deterministicamente il contenuto. Un esempio della seconda situazione `e l’impostazione di un metodo di Montecarlo per il calcolo numerico.33 In tale contesto l’incertezza `e introdotta ad arte nel modello, con lo scopo di sfruttare i teoremi limite della probabilit`a per ottenere algoritmi di calcolo particolarmente efficienti. Un altra ragione che spinge l’ingegnere all’introduzione di modelli probabilistici anche in contesti deterministici ha a che fare con i limiti del processo di modellazione matematica. Un modello matematico `e, quasi per definizione, se non sbagliato quanto meno incompleto. Normalmente i modelli tengono in considerazione solo alcuni degli aspetti fisici, quelli pi` u utili a descrivere i fenomeni d’interesse. All models are wrong, but some are useful, per dirla con George E. Box. Ma anche volendo descrivere tutto, spesso la fisica del sistema non `e nota o lo `e molto poco, si pensi ad esempio alla complessit` a dei sistemi biologici, o economici, o sociali. In altri casi la fisica `e ben nota, e.g. sistemi elettrici e/o meccanici, ma si introducono approssimazioni allo scopo di semplificare i modelli matematici. Approssimando con (pochi) parametri concentrati un sistema a parametri distribuiti si pu`o modellare con un’equazione differenziale ordinaria (di ordine basso) piuttosto che con un’equazione alle derivate parziali. Un modo grezzo, ma molto popolare, per tener conto delle varie procedure di approssimazione della realt`a fisica `e di introdurre nel modello matematico una componente probabilistica, usualmente sommando segnali di rumore sugli ingressi e/o sulle uscite. Il razionale per tale scelta `e che la mancanza, o l’approssimazione, delle conoscenze su di un fenomeno sia equiparabile ad una conoscenza probabilistica. La precedente discussione suggerisce l’opportunit`a di introdurre rappresentazioni adeguate dei segnali e dei sistemi incerti, che consentano di estendere al caso probabilistico l’analisi ingresso/uscita dei sistemi dinamici. In particolare sar`a opportuno estendere al caso probabilistico l’analisi ingresso/uscita per la classe dei sistemi lineari tempo invarianti. 32 Si tratta del rumore osservato da Johnson (1928), e studiato da Nyquist (1928), onnipresente nelle reti elettriche. R 33 Si veda l’esempio del calcolo di P (E) = E f (x) dx, un integrale deterministico, con la tecnica di simulazione accennata nell’Esempio 2 della Lezione 31.1

215

33.2

Cosa ` e un processo stocastico

Il primo passo per la costruzione di una teoria dei segnali e sistemi incerti `e la definizione del modello matematico di segnale incerto. Per modellare i segnali incerti useremo le idee gi`a viste di teoria della probabilit` a, condite con un po’ di nuova terminologia. Il modello matematico di un segnale incerto `e detto processo aleatorio o equivalentemente, processo stocastico. Definizione. Un processo stocastico (p.s.) (Xs )s∈S `e una famiglia di variabili aleatorie definite su uno spazio di probabilit` a (Ω, F, P ) comune, e a valori in un insieme X comune, Xs : Ω → X ,

ω 7→ Xs (ω),

misurabile, per ogni s ∈ S

Terminologia e osservazioni In generale gli insiemi S e X possono essere di qualsiasi natura. In queste lezioni consideriamo solo processi con S ⊂ R e X ⊂ R. In questo caso S si dice insieme dei tempi, anche se non necessariamente s ∈ S `e fisicamente un tempo. L’alfabeto X , `e detto insieme di stato del processo. I casi pi` u elementari di coppie S, X sono i seguenti. (a.) (p.s. a tempo discreto e stato discreto). L’insieme dei tempi `e S := Z, oppure S := N o un intervallo finito S := N ⊂ Z. La notazione tipica per l’indice di un processo a tempo discreto `e n, scriveremo quindi (Xn ) per denotare questi processi. L’alfabeto X `e discreto, ovvero |X | ≤ |N|. Cosa modellano. Segnali incerti a tempo discreto per i quali ogni campione pu`o assumere sono un numero finito, o al pi` u discreto, di valori possibili. Ad esempio un messaggio di testo, interpretato come segnale incerto, si pu`o modellare con un processo stocastico di questo tipo. Un qualunque segnale fisico incerto digitalizzato, cio`e quantizzato e campionato, pu` o essere modellato con un processo di questo tipo. Sono modellabili con processi di questo tipo TUTTI i file presenti sui vostri PC e/o telefonini pi` u o meno intelligenti. Esempio. (Xn )n∈N processo stocastico consistente in una sequenza di variabili aleatorie bernoulliane, Xn ∼ b(0.5), indipendenti ed identicamente distribuite. Questo processo, rappresenta il flusso di bit generato dai risultati dei lanci di una moneta. Intuitivamente, ma anche in un senso tecnico da precisare, `e il processo stocastico pi` u casuale possibile. (b.) (p.s. a tempo discreto e stato continuo). Sono processi (Xn ) a tempo discreto per i quali l’insieme dei valori, comune a tutte le variabili aleatorie, `e X := R. Eventuali insiemi dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti in considerazione quando si assegnano le distribuzioni delle variabili aleatorie. ` la versione probabilistica dei segnali a tempo discreto della teoria Cosa modellano. E dei Segnali e Sistemi. Modellano segnali fisici incerti a tempo discreto per i quali ogni campione pu` o assumere valori in un intervallo di R, in una semiretta, o su tutta R. Ad esempio una sequenza di misure, ripetute ad intervalli regolari, di una grandezza fisica continua: temperatura, pressione, lunghezza, durata, ecc. Oppure un segnale incerto a tempo continuo campionato ad intervalli regolari. Esempio. (Xn )n∈N processo stocastico consistente in una sequenza di variabili aleatorie normali, Xn ∼ N (µ, σ 2 ), indipendenti ed identicamente distribuite. Questo processo pu`o servire a rappresentare una sequenza di misure di una grandezza fisica µ con uno strumento di precisione finita. La misura n-esima `e modellata come Xn = µ+Wn dove Wn ∼ N (0, σ 2 ) `e il rumore associato alla misura n-esima. Questo modello `e in linea con quanto descritto nell’introduzione alla lezione: rappresenta le imprecisioni del processo di misura dovute a diverse cause (precisione finita dello strumento, imperizia dell’operatore, ecc.) con una v.a. Wn . 216

(c.) (p.s. a tempo continuo e stato discreto). L’insieme dei tempi `e S := R, oppure S := R+ o un intervallo finito S := [t0 , t1 ] ⊂ R. La notazione tipica per l’indice di un processo a tempo discreto `e t, scriveremo quindi (Xt ) per denotare questi processi. L’alfabeto X `e discreto, ovvero |X | ≤ |N|. Cosa modellano. Un primo esempio `e il segnale generato da un sistema di monitoraggio. Un sensore rileva, a tempo continuo, la temperatura in un punto critico di un impianto e genera un segnale (Xt ) di monitoraggio. Finch´e la temperatura rimane sotto la soglia di sicurezza il sistema d’allarme genera Xt = 0. Per tutto il tempo che la temperatura raggiunge o supera la soglia, il sistema genera Xt = 1. Un ulteriore esempio `e il segnale generato da un dispositivo ZOH (zero order hold), parte integrante dei convertitori DAC (digital to analog converter) usati per la ricostruzione pratica dei segnali campionati (vedi corso di Segnali e Sistemi). (d.) (p.s. a tempo continuo e stato continuo). Sono processi (Xt ) a tempo continuo per i quali l’insieme dei valori, comune a tutte le variabili aleatorie, `e X := R. Eventuali insiemi dei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenuti in considerazione quando si assegnano le distribuzioni delle variabili aleatorie. ` la versione probabilistica dei segnali a tempo continuo della teoria dei Cosa modellano. E Segnali e Sistemi. I processi come funzioni su S × Ω. Un punto di vista spesso adottato nello studio dei processi stocastici `e di considerare Xs (ω) come una funzione del tipo Xs (ω) : S × Ω −→ X ,

(s, ω) 7→ Xs (ω).

Adottando questo punto di vista, per ogni fissato ω ∈ Ω, si ottiene la funzione del tempo Xs (ω) : S −→ X ,

s 7→ Xs (ω)

detta traiettoria del processo associata a ω. Si noti che le traiettorie del processo sono funzioni deterministiche poich´e ω `e fissato e noto. Se invece si fissa s ∈ S si ottiene la funzione ω 7→ Xs (ω) Xs (ω) : Ω −→ X , che `e la variabile aleatoria Xs corrispondente ai possibili valori che il processo pu`o assumere all’istante s ∈ S.

33.3

Come si caratterizzano probabilisticamente i processi stocastici

Un processo stocastico `e una famiglia di variabili aleatorie indiciate dal tempo s ∈ S. Darne la descrizione probabilistica completa significa essere in grado di calcolare la probabilit`a di qualunque evento definibile a partire dalle Xs . Se l’insieme dei tempi `e discreto questo compito `e relativamente semplice. La stessa cosa `e molto pi` u complessa nel caso di insieme dei tempi continuo. Sia (Xn ) un processo a tempo discreto. Ad esempio (Xn ) potrebbe modellare una sequenza di misure, prese ad intervalli regolari, da un sistema di monitoraggio. Un evento di interesse potrebbe essere del tipo (potrebbe ad esempio trattarsi della probabilit`a che non scatti un allarme) E := [max |Xn | ≤ 10] n∈N

che `e immediato riscrivere come E :=

\

[|Xn | ≤ 10].

n∈N

217

Poich´e le Xn sono variabili aleatorie, gli insiemi [|Xn | ≤ 10] ∈ F per ogni n ∈ N. Quindi E, intersezione numerabile di eventi di F, `e ancora in F e se ne pu`o calcolare la probabilit`a. Altri esempi di calcoli d’interesse per processi stocastici (a.) maxs∈S P (|Xs | > 10) (b.) P (Xs1 + Xs2 + Xs3 < 10) (c.) E(Xs ), var(Xs ) (d.) cov(Xu , Xv ) (e.) E(Xs1 Xs2 Xs3 ) Nel caso (a.) `e sufficiente conoscere le distribuzioni ad 1 tempo, Fs (x) = P (Xs ≤ x) per ogni s ∈ S. Nel caso (b.) `e necessario disporre della distribuzione a 3 tempi Fs1 ,s2 ,s3 (x1 , x2 , x3 ) := P (Xs1 ≤ x1 , Xs2 ≤ x2 , Xs3 ≤ x3 ). Per il caso (c.) `e sufficiente conoscere le distribuzioni ad 1 tempo. Per il caso (e.) `e necessario conoscere le distribuzioni a 2 tempi. Per il caso (f.) `e necessario conoscere le distribuzioni a 3 tempi. Specificazione probabilistica completa dei processi stocastici Assumiamo che l’insieme dei tempi S ⊂ Z sia di cardinalit`a infinita.34 Per poter calcolare la probabilit` a di un qualunque evento misurabile `e sufficiente conoscere la funzione di distribuzione congiunta di ogni sottoinsieme finito delle variabili aleatorie che compongono il processo. Ci` o si pu` o fare assegnando per ogni N ∈ N una funzione F (n1 , n2 , . . . nN ; x1 , x2 , . . . xN ) := P (Xn1 ≤ x1 , Xn2 ≤ x2 , . . . XnN ≤ xN ), dove n1 , n2 , . . . nN ∈ Z e x1 , x2 . . . xN ∈ X . Le funzioni F (n1 , n2 , . . . nN ; x1 , x2 , . . . xN ) non possono essere assegnate in modo completamente arbitrario, ma devono soddisfare vincoli atti a garantire che ognuna di esse generi funzioni di distribuzione legali, e che esse siano in accordo tra loro. In particolare devono essere soddisfatti i vincoli di marginalizzazione, ovvero dalle FdD per N 0 variabili aleatorie deve essere possibile ritrovare quelle per N < N 0 variabili aleatorie. Lo studio di questo tipo di descrizione completa `e fondamentale per lo sviluppo della teoria, ma di scarso valore pratico poich´e, a parte casi banali, non si dispone mai di una quantit` a di informazione sui processi tale da permettere di determinare le funzioni F (n1 , n2 , . . . nN ; x1 , x2 , . . . xN ) per ogni N ∈ N. Parametri riassuntivi di un processo stocastico La difficolt` a a fornire descrizioni probabilistiche complete di un processo stocastico rende ancora pi` u importanti i classici parametri riassuntivi del comportamento probabilistico: medie, varianze, covarianze. Per il processo (Xs ), dove s pu`o essere un tempo discreto oppure continuo, si definiscono le seguenti funzioni deterministiche (a.) mX (s) := E(Xs ), funzione media, (b.) MX (s) := E(Xs2 ), funzione potenza statistica,  2 (s) := E (X − m (s))2 , funzione varianza, (c.) σX s X  (d.) rX (s1 , s2 ) := E Xs1 Xs2 , funzione di autocorrelazione,  (e.) kX (s1 , s2 ) := E (Xs1 − mX (s1 ))(Xs2 − mX (s2 )) , funzione di autocovarianza, Si noti che (a.), (b.) e (c.) richiedono solo la conoscenza delle distribuzioni ad 1 tempo del processo stocastico, e che (d.) e (e.) richiedono la conoscenza delle distribuzioni a 2 (s) = M (s) − [m (s)]2 , 2 tempi. Le seguenti relazioni tra i parametri sono ovvie: σX X X 2 MX (s) = rX (s, s), σX (s) = kX (s, s), kX (s1 , s2 ) = rX (s1 , s2 ) − mX (s1 )mX (s2 ). 34 Se S fosse di cardinalit` a finita allora il processo si ridurrebbe ad un vettore aleatorio finito dimensionale, di cui `e noto come sia possibile specificare la densit` a congiunta

218

inciso Correlazione mutua di due processi. Nelle applicazioni `e molto utile disporre anche di parametri riassuntivi che confrontano i comportamenti di due processi, analogamente a quanto si fa con due variabili aleatorie. Ad esempio i processi (Xs ) ed (Ys ) potrebbero rappresentare ingresso ed uscita di un sistema incerto. Un utile parametro riassuntivo del comportamento congiunto dei due processi `e  (f.) rXY (s1 , s2 ) := E Xs1 Ys2 , funzione di mutua correlazione fine inciso Come `e ben noto non tutte le variabili aleatorie ammettono momenti, non `e quindi garan` utile il seguente tita l’esistenza dei parametri riassuntivi di un processo stocastico. E lemma. Lemma. Se la potenza statistica MX (s) esiste finita per ogni s ∈ S, allora esistono finiti tutti i parametri riassuntivi (a.)–(e.). Dimostrazione. Per la disuguaglianza di Schwarz p p mX (s) = E(Xs ) = E(Xs · 1) ≤ E(Xs2 )E(12 ) = MX (s) inoltre rX (s1 , s2 ) = E(Xs1 Xs2 ) ≤

q p E(Xs21 )E(Xs21 ) = MX (s1 )MX (s2 )

L’ipotesi MX (s) < ∞ per ogni s ∈ S, garantisce l’esistenza di mX (s) e di rX (s1 , s2 ). L’esistenza degli altri parametri discende immediatamente dalle relazioni ricordate sopra. Definizione (processi del secondo ordine). Sono detti del secondo ordine i processi per i quali esistono, finiti, mX (s) e rX (s1 , s2 ). Molto spesso nelle applicazioni ci si limita a fornire la descrizione al secondo ordine dei processi stocastici d’interesse. Peraltro le funzioni media e autocorrelazione contengono una notevole quantit` a d’informazione. In particolare, le funzioni mX (s) e rX (s1 , s2 ) consentono di ricavare la descrizione riassuntiva (vettore della media e matrice di correlazione) di qualunque vettore di dimensione finita costruito con variabili del processo stocastico. > Ad esempio se X := Xs1 , Xs2 , . . . Xsn , il vettore della media del vettore X `e mX := E(X) = mX (s1 ), mX (s2 ) . . . mX (sn ) e la matrice di correlazione del vettore X `e  rX (s1 , s1 ) rX (s1 , s2 )  rX (s2 , s1 ) rX (s2 , s2 ) RX := E(XX > ) =   ... ... rX (sn , s1 ) rX (sn , s2 )

... ... ... ...

>

 rX (s1 , sn ) rX (s2 , sn )    ... rX (sn , sn )

(1)

(2)

Processi stazionari in senso debole Per molti processi d’interesse i parametri media e autocorrelazione sono invarianti rispetto a traslazioni temporali. Vedremo pi` u sotto alcuni esempi. Naturalmente questa nozione ha senso solo se il processo `e del secondo ordine, ovvero ammette funzioni media e autocorrelazione. Definizione (stazionariet`a in senso lato). Un processo stocastico del secondo ordine (Xs )s∈S `e detto stazionario in senso debole se mX (s + σ) = mX (s), rX (s1 , s2 ) = rX (s1 + σ, s2 + σ), 219

per ogni s, σ

(3)

per ogni s1 , s2 , σ

(4)

Lemma (condizioni equivalenti). La seguente condizione `e equivalente alla (3) mX (s) = mX (0),

per ogni s

(5)

Ognuna delle seguenti condizioni `e equivalente alla (4) rX (s1 , s2 ) = rX (s1 − s2 , 0), rX (s + σ, s) = rX (σ, 0),

per ogni s1 , s2

(6)

per ogni s, σ

(7)

Dimostrazione. Esercizio. Per verificare se un processo stocastico del secondo ordine `e stazionario in senso debole sar`a quindi sufficiente verificare se per la media vale una delle condizioni (3) o (5) e per l’autocorrelazione vale una delle condizioni (4) o (6) o (7). ` immediato verificare (fatelo!) che se un processo `e debolmente stazionario allora valgono E anche le condizioni 2 2 σX (s) = σX (0)

MX (s) = MX (0) kX (s1 , s2 ) = kX (s1 + σ, s2 + σ) o le equivalenti, simili a quelle viste sopra per media e autocorrelazione. Osservazione e notazione alternativa. La conseguenza della stazionariet`a `e che le funzioni riassuntive che dipendono dalle distribuzioni ad 1 tempo (media, potenza, varianza) si riducono a delle funzioni costanti, mentre le funzioni che dipendono dalle distribuzioni a 2 tempi (autocorrelazione, autocovarianza) si riducono a funzioni dipendenti solo dalla distanza temporale s1 − s2 tra le due variabili Xs1 e Xs2 , e non dagli istanti s1 ed s2 separatamente. In virt` u di queste considerazioni `e naturale introdurre simboli pi` u compatti per denotare media e autocorrelazione di un processo debolmente stazionario. In particolare scriveremo mX := E(Xs )

(8)

rX (σ) := E(Xs+σ Xs )

(9)

Convenzioni notazionali discreto/continuo. Per le quantit`a descritte in questo paragrafo, nel caso discreto scriveremo rX (n1 , n2 ), rX (n + k, n), rX (k), mentre nel caso continuo scriveremo rX (t1 , t2 ), rX (t + τ, t), rX (τ ).

33.4

Primi esempi di processi stocastici

Esempio 1 (gaussian white noise). Il processo stocastico a tempo discreto e stato continuo (Wn )n∈N , che consiste di variabili aleatorie normali, indipendenti ed identicamente distribuite, Wn ∼ N (0, σ 2 ) `e detto rumore bianco gaussiano di intensit`a σ 2 , e lo denoteremo (Wn ) ∼ W GN (σ 2 ). Il processo (Wn ) ha funzione media mW (n) = E(Wn ) = 0,

per ogni n ∈ N.

Potenza statistica e varianza di (Wn ) coincidono, poich´e mW (n) = 0, e valgono 2 MW (n) = σW (n) = E(Wn2 ) = σ 2 ,

per ogni n ∈ N.

Le variabili Wn sono i.i.d., quindi la funzione autocorrelazione vale rW (n1 , n2 ) = kW (n1 , n2 ) = E(Wn1 Wn2 ) = σ 2 δ(n1 − n2 ) 220

dove la δ(·) `e il segnale δ(0) = 1, e δ(n) = 0 per n 6= 0. Autocorrelazione e autocovarianza coincidono poich´e mW (n) = 0. Si noti che, essendo finita la potenza MW (n) = σ 2 , il processo (Wn ) `e del secondo ordine. Sono inoltre soddisfatte le condizioni (5) e (6), quindi (Wn ) `e un processo debolmente stazionario. Utilizzando le notazioni alternative (8) e (9), adattate al tempo discreto, scriveremo mW = 0, rW (k) = σ 2 δ(k) (10) Osservazione. All’occorrenza il W GN (σ 2 ) pu`o essere esteso da N a Z. Esempio 2 (gaussian random walk). Una passeggiata casuale gaussiana `e il processo stocastico a tempo discreto e stato continuo (Xn )n∈N , definito dall’equazione alle differenze del primo ordine Xn+1 = Xn + Wn , (11) 2 dove (Wn )∞ n=0 ∼ GW N (σ ), e X0 = 0.

Si noti che (Xn ) si pu` o interpretare come l’uscita stocastica del sistema LTI descritto dall’equazione alle differenze xn+1 = xn +wn , pilotato dall’ingresso stocastico (Wn ). Il sistema `e un semplice integratore discreto, infatti la risposta impulsiva vale h(n) = 1l(n − 1), dove wn `e la sequenza d’ingresso ed xn la corrispondente uscita. In virt` u di questa osservazione oppure lavorando direttamente sull’equazione (11) si trova l’espressione esplicita Xn =

n−1 X

Wk

i=0

I parametri riassuntivi di (Xn ) si ricavano facilmente. La funzione media `e mX (n) = E(Xn ) = E

n−1 X

 Wk = 0,

i=0

mentre la potenza statistica, coincidente con la varianza, `e MX (n) =

2 σX (n)

=

E(Xn2 )

= var

n−1 X

 Wk = nσ 2

i=0

La potenza statistica `e finita per ogni n, quindi il processo (Xn ) `e del secondo ordine, ma possiamop gi` a concludere che (Xn ) non `e debolmente stazionario, poich´e se lo fosse MX (n) sarebbe costante in n. Ricaviamo la funzione di autocorrelazione (coincide con l’autocovarianza) "  # n −1 nX 1 −1 2 X rX (n1 , n2 ) = E(Xn1 Xn2 ) = E  Wi  Wj  i=0

=

nX 1 −1 nX 2 −1

j=0

E(Wi Wj )

i=0 j=0

=

nX 1 −1 nX 2 −1

σ 2 δ(i − j) = min{n1 , n2 } σ 2

i=0 j=0

Come ci aspettavamo, la funzione autocorrelazione dipende da n1 e n2 separatamente, e non solamente dalla differenza n1 − n2 . Il processo non `e debolmente stazionario.

221

Lezione 34 34.1

(Marted`ı, 28 maggio 2013, ore 16:25-18:05)

Ulteriore esempio di processo stocastico

` il processo stocastico, a tempo discreto e stato continuo, Esempio 3 (processo AR(1)). E (Xn )n∈N definito dall’equazione alle differenze del primo ordine Xn+1 = aXn + Wn ,

(1)

2 dove (Wn )∞ e una variabile aleatoria X0 indipendente n=0 ∼ GW N (σ ), la condizione iniziale ` da (Wn ), con E(X0 ) = 0 e var(X0 ) = σ02 , e infine la costante a soddisfa il vincolo |a| < 1.

Interessa studiare i parametri riassuntivi del processo (Xn ), ed in particolare determinare se esistono valori della varianza iniziale var(X0 ) = σ02 che garantiscono la stazionariet`a debole di (Xn ). Si pu`o facilmente calcolare un’espressione esplicita per Xn in termini di X0 e di W0 , W1 , . . . Wn−1 usando la teoria delle equazioni alle differenze, ma `e anche immediato effettuare qualche iterazione manualmente e derivare l’espressione esplicita per induzione X1 = aX0 + W0 X2 = aX1 + W1 = a2 X0 + aW0 + W1 X3 = aX2 + W2 = a3 X0 + a2 W0 + aW1 + W2 ......... Xn = an X0 +

n−1 X

an−1−` W`

(2)

`=0

Si pu`o ora utilizzare l’espressione (2) per ricavare i parametri riassuntivi di (Xn ). Esiste per`o una tecnica pi` u interessante che sfrutta appieno la struttura ricorsiva dell’equazione (1). Per la funzione della media si ricava facilmente l’equazione alle differenze  mX (n + 1) = E(Xn+1 ) = E aXn + Wn = a mX (n), mX (0) = E(X0 ) = 0 la cui unica soluzione `e mX (n) = 0, per ogni n. Con la stessa tecnica si calcola l’equazione alle differenze soddisfatta dalla funzione varianza,  2 2 σX (n + 1) = E(Xn+1 ) = E (aXn + Wn )2  = E a2 Xn2 + 2aXn Wn + Wn2 2 = a2 σX (n) + σ 2

dove E(Xn Wn ) = 0 infatti: Xn dipende solo da X0 , W0 , W1 . . . Wn−1 , vedi equazione (2), quindi `e indipendente da Wn ed essendo le medie nulle E(Xn Wn ) = E(Xn )E(Wn ) = 0. L’equazione alle differenze per la varianza `e quindi 2 2 (n + 1) = a2 σX (n) + σ 2 , σX

2 σX (0) = σ02 ,

dove la condizione iniziale `e imposta dal dato var(X0 ) = σ02 . Affinch´e il processo (Xn ) sia 2 (n) sia costante, ovvero σ 2 (n + 1) = σ 2 (n). debolmente stazionario `e necessario che σX X X Sostituendo nell’equazione alle differenze si trova (e si capisce perch´e `e fondamentale la condizione |a| < 1) σ2 2 σX (n) = . 1 − a2 222

Scegliendo il dato iniziale σ02 = 2 (n) = σ 2 = `e immediato verificare che σX 0

σ2 1 − a2

σ2 1−a2

per ogni n.

Con questa scelta di σ02 la varianza ‘`e costante. Per verificare la stazionariet`a debole `e per`o necessario verificare che la funzione di autocorrelazione rX (n + k, n) non dipende da n. Si osservi che  2 rX (n + 1, n) = E(Xn+1 Xn ) = E (aXn + Wn )Xn = a σX (n) = a

σ2 1 − a2

quindi per k = 1 l’autocorrelazione rX (n + 1, n) non dipende da n. Inoltre  rX (n + 2, n) = E(Xn+2 Xn ) = E (aXn+1 + Wn+1 )Xn = a rX (n + 1, n) = a2

σ2 1 − a2

quindi anche per k = 2 l’autocorrelazione rX (n + 2, n) non dipende da n. In generale (per induzione) vale σ2 rX (n + k, n) = ak , indipendente da n. 1 − a2 La conclusione `e che scegliendo σ02 =

34.2

σ2 , 1−a2

il processo (Xn ) `e debolmente stazionario.

Propriet` a della funzione di autocorrelazione di un processo stazionario

La funzione di autocorrelazione rX (σ) di un processo del secondo ordine debolmente stazionario gode di alcune notevoli propriet`a. (a.)

rX (0) ≥ 0.

Dim. Infatti rX (0) = E(Xs2 ) ≥ 0. (b.)

rX (σ) `e pari (richiede insieme dei tempi S = Z oppure S = R).

Dim. rX (−σ) = E(Xs−σ Xs ) = E(X0 Xσ ) = rX (σ). (c.)

rX (σ) `e una funzione definita positiva.

Dim. Verifichiamo la condizione di positivit`a. Per ogni n, α1 , . . . αn , σ1 , . . . σn XX XX αi αj rX (σi − σj ) = αi αj E(Xsi Xsj ) i

j

i

j

=E

XX

=E

X

i

αi αj Xsi Xsj



j

αi Xsi

2 

≥0

i

Si ricordi che una funzione ϕ tale che ϕ(0) = 1, continua in un intorno dell’origine e semidefinita positiva `e automaticamente la funzione caratteristica di una variabile aleatoria. (naturalmente una funzione caratteristica `e pari solo se la distribuzione `e pari, nel caso generale essa `e solo hermitiana). Le propriet`a (a.), (b.) e (c.) appena dimostrate mostrano quindi la parentela matematica che esiste tra funzioni di autocorrelazione e funzioni caratteristiche. Vedremo presto che risvolto quest’osservazione ha per la teoria spettrale dei processi.

223

34.3

Processi gaussiani

Il processo (Xs ) `e detto gaussiano se, per ogni N , e per ogni s1 , s2 . . . sN il vettore N dimensionale X := (Xs1 , Xs2 , . . . XsN )> `e congiuntamente nrmale. Data la normalit`a, la distribuzione di X `e completamente determinata dal vettore della media E(X) e dalla   matrice di covarianza E X − E(X))(X − E(X))> . Peraltro, come discusso al paragrafo 33.3, media e matrice di covarianza di X sono completamente determinati dalle funzioni mX (s) e rX (s1 , s2 ) del processo (Xs ). La probabilit`a di un qualunque evento definito in termini di variabili di un processo gaussiano sono quindi calcolabili sulla base della conoscenza delle sole funzioni mX (s) e rX (s1 , s2 ). Nel caso speciale dei processi gaussiani la descrizione al secondo ordine coincide con la descrizione completa del processo. Se sono verificate le condizioni di stazionariet`a debole mX (s) = mx (0) := µX ,

kX (s + σ, s) = kX (σ, 0) := kX (σ)

allora la costante µX e la funzione kX (σ) determinano completamente le probabilit`a del processo gaussiano (Xs ). Si noti in particolare che sotto stazionariet`a debole del processo gaussiano (Xs1 , Xs2 , . . . XsN ) ∼ (Xs1 +σ , Xs2 +σ , . . . XsN +σ ) cio`e i due vettori hanno la stessa distribuzione congiunta. Questa propriet`a `e detta stazionariet` a forte: prendendo N arbitrarie variabili del processo la loro distribuzione `e invariante per traslazione. Per i processi gaussiani la stazionariet`a debole (invarianza per traslazione della distribuzione di coppie di variabili aleatorie) equivale alla stazionariet`a forte. Un importante risultato (gi` a noto nel contesto dei vettori) `e la conservazione della guassianit`a per filtraggio lineare. Menzioniamo il seguente risultato senza fornire le condizioni tecniche che ne garantiscono la validit`a. Il risultato vale anche per processi a tempo continuo, ma nella teoria rigorosa il caso discreto `e quello pi` u semplice da affrontare. Lemma. Se (Xn ) `e un processo gaussiano ed Yn :=

∞ X

hn,k Xk

i=−∞

allora, sotto opportune condizioni che garantiscono la convergenza della serie, il processo Yn `e gaussiano. In particolare il risultato vale per il filtraggio lineare tempo invariante, ovvero se X Yn = k = −∞∞ hn−k Xk Dimostrazione. Il risultato `e ben noto nel caso di vettori finito dimensionali. Nel caso generale qualche attenzione deve essere dedicata alla convergenza della serie. Si rimanda la discussione dettagliata ai corsi successivi.

34.4

Densit` a spettrale di potenza - definizione e primi esempi

Definizione. Se (Xs ) `e un processo del secondo ordine debolemnte stazionario, la densit`a spettrale di potenza di (Xs ) `e la trasformata di Fourier della funzione autocorrelazione rX (σ). In particolare Z ∞ RX (f ) = rX (τ )e−j2πf τ dτ, f ∈ R, tempo continuo −∞

RX (f ) =

∞ X

rX (k)e−j2πf k ,

k=−∞

224

f ∈ [0, 1],

tempo discreto

Per le condizioni di esistenza e le nozioni di convergenza della trasformata si faccia riferimento al corso di Segnali e Sistemi. Nota la densit`a spettrale, la funzione di autocorrelazione si pu` o trovare per inversione: Z ∞ RX (f )ej2πf τ df, tempo continuo rX (τ ) = −∞ 1

Z rX (k) =

RX (f )ej2πf k df

tempo discreto

0

si noti che la potenza statistica rX (0) vale Z



Z RX (f ) df

rX (0) = MX =

(continuo),

1

RX (f ) df

rX (0) = MX =

−∞

(discreto)

0

Poich´e rX (s) `e definita positiva la densit`a spettrale `e una funzione non negativa (lo dimostreremo la prossima lezione) quindi rX (0) ≥ 0 qualunque sia RX (f ). Esempi di calcolo - con riferimento agli esempi di processi in 33.4 e 34.1 (a.)

(Wn ) ∼ GW N (σ 2 ).

Il processo (Wn ) `e del secondo ordine e debolmente stazionario, quindi ha senso calcolarne la densit` a spettrale. Poich´e rX (k) = σ 2 δ(k) si trova RX (f ) = σ 2 ,

per ogni f ∈ [0, 1].

Il termine rumore bianco deriva proprio dal fatto che lo spettro di potenza del processo `e piatto, come lo spettro della luce bianca. Per un’intrpretazione fisica dello spettro di potenza si rimanda alla prossima lezione. (b.) Il processo del secondo ordine (Xn ), passeggiata casuale gaussiana, non ammette densit`a spettrale, infatti non `e debolmente stazionario. (c.) Il processo del secondo ordine AR(1), descritto all’inizio della lezione, `e stazionario σ2 σ2 k se si sceglie σ02 = 1−a e rX (k) = 1−a 2 . In questo caso la funzione autocorrelazione ` 2 a . Esercizio. Calcolare la densit` a spettrale di potenza e verificare che `e non- negativa per ogni f ∈ [0, 1].

225

Lezione 35 35.1

(Mercoled`ı, 29 maggio 2013, ore 16:25-18:05)

Teorema di Wiener-Khinchin (caso discreto)

Il teorema di Wiener Khinchin `e un caposaldo della teoria spettrale dei processi del secondo ordine debolmente stazionari. Il teorema mostra che la densit`a spettrale di potenza RX (f ), pu`o essere definita come limite dello spettro di Fourier delle traiettorie del processo. Denoteremo con (XnN ) la versione troncata del processo (Xn ), definita come XnN := Xn 1l[−N,N ] (n),

(1)

dove 1l[−N,N ] (n) = 1 per n ∈ [−N, N ] e zero altrove. Si noti che, per |n| ≤ N , si ha b N (f ) e vale XnN = Xn . La trasformata di Fourier discreta di XnN `e denotata X b N (f ) := X

N X

XkN e−j2πf k ,

f ∈ [0, 1]

(2)

k=−N

b N (f ) `e una funzione aleatoria di f , nel senso che, per ogni f fissato, La trasformata X b N (f ) `e una combinazione lineare delle funzioni di base e−j2πf k i cui pesi sono le variabili X aleatorie XnN . Teorema. Sia (Xn )n∈Z un processo del secondo ordine, debolmente stazionario, allora N 2  b (f ) = RX (f ), (3) lim 2N1+1 E X N →∞

dove RX (f ) =

P∞

−j2πf k k=−∞ rX (k)e

`e la densit`a spettrale del processo (Xn ).

Dimostrazione. Calcoliamo esplicitamente la quantit`a   N 2  b (f ) = E X b N (f )X b N (f ) E X N X

=E

XkN e−j2πf k

=E

! XhN ej2πf h

h=−N

k=−N N X

N X

N X

! XkN XhN e−j2πf (k−h)

k=−N h=−N

=

N X

N X

 E XkN XhN e−j2πf (k−h)

k=−N h=−N

=

N X

N X

rX (k − h)e−j2πf (k−h)

(4)

k=−N h=−N

La sommatoria doppia si converte facilmente ad una singola sommatoria osservando che, per ogni sequenza g(n), vale N X

N X

k=−N h=−N

g(k − h) =

2N X

 2N + 1 − |`| g(`).

(5)

`=−2N

L’osservazione attenta e prolungata della figura qui sotto dovrebbe rendere la formula precedente evidente. Infatti, per sommare i valori g(k − h) su tutti i punti della griglia quadrata (k, h) ∈ [−N, N ] × [−N, N ], tracciata in figura per N = 3, si pu`o sommare lungo le diagonali ` = k − h. La diagonale principale corrisponde a ` = 0 e contiene 2N + 1 226

termini (7 in figura) uguali a g(0), che danno contributo (2N + 1)g(0) alla sommatoria. La prima sopra-diagonale `e ` = 1 che contiene 2N + 1 − ` termini (6 in figura) uguali a g(1) che danno contributo (2N + 1 − 1)g(1) alla sommatoria. La prima sottodiagonale corrisponde a ` = −1, e contiene 2N + 1 − 1 = 2N + 1 − |`| termini uguali a g(−1) ecc. ecc. Si procede cos`ı fino alla sopradiagonale ` = 2N e alla sottodiagonale ` = −2N ognuna delle quali contengono 2N +1−|`| = 1 termine, g(2N ) nella sopradiagonale e g(−2N ) nella sottodiagonale. Per concludere si applichi la (5) alla (4), ponendo g(n) = rX (n)e−j2πf n .

k

l=k-h=2N

l=k-h=1 l=k-h=0 l=k-h=-1

h l=k-h=-2N

N=3 Si ottiene N X

N X

−j2πf (k−h)

rX (k − h)e

2N X

=

k=−N h=−N

 2N + 1 − |`| rX (`)e−j2πf `

`=−2N

dividendo per 2N + 1 e passando al limite per N → ∞ 1 lim N →∞ 2N +1

2N X

N 2  b (f ) = lim E X

1 N →∞ 2N +1 2N X

=

=



 2N + 1 − |`| rX (`)e−j2πf `

`=−2N

1−

|`| 2N +1



rX (`)e−j2πf `

`=−2N ∞ X

rX (`)e−j2πf ` = RX (f )

`=−∞

Corollario. La densit` a spettrale di potenza `e non negativa RX (f ) ≥ 0,

per ogni f ∈ [0, 1].

N 2  b (f ) ≥ 0 per ogni N , e la disuguaglianza di preserva al Dimostrazione. 2N1+1 E X limite per N → ∞. Il teorema vale anche nel caso di processi a tempo continuo, ma `e necessario precisare in che senso vanno interpretati gli integrali che definiscono la serie di Fourier. Riportiamo il risultato senza entrare nei dettagli succitati. 227

Teorema. (Wiener-Khinchin) Sia (Xt )t∈R un processo del secondo ordine, debolmente stazionario, allora T  1 b (f ) 2 = RX (f ), lim 2T E X (6) T →∞ R∞ dove RX (f ) = −∞ rX (τ )e−j2πτ dτ `e la densit`a spettrale del processo (Xt ) e b T (f ) := X

Z

T

−T

XtT e−j2πf t dt,

f ∈R

`e la trasformata di Fourier del processo troncato XtT := Xt 1l[−T,T ] (t). Esempio 1. Si consideri il processo stocastico a tempo continuo e stato continuo Xt = A cos 2πf0 t + B sin 2πf0 t,

t∈R

dove f0 ∈ R+ `e una costante nota, mentre A e B sono variabili aleatorie di media nulla, varianza comune σ 2 e scorrelate, ovvero E(A) = E(B) = 0, E(A2 ) = E(B 2 ) = σ 2 , E(AB) = 0. La funzione media del processo `e mX (t) = E(Xt ) = E(A cos 2πf0 t + B sin 2πf0 t) = E(A) cos 2πf0 t + E(B) sin 2πf0 t = 0 La funzione di autocorrelazione (e autocovarianza) `e rX (t + τ, t) = E(Xt+τ Xt )  = E (A cos 2πf0 (t + τ ) + B sin 2πf0 (t + τ ))(A cos 2πf0 t + B sin 2πf0 t) = E(A2 ) cos 2πf0 (t + τ ) cos 2πf0 t + E(B 2 ) sin 2πf0 (t + τ ) sin 2πf0 t + E(AB)(xxx)  = σ 2 cos 2πf0 (t + τ ) cos 2πf0 t + sin 2πf0 (t + τ ) sin 2πf0 t + 0 = σ 2 cos 2πf τ dove abbiamo sfruttato la scorrelazione E(AB) = 0 ed usato la formula di sottrazione del coseno. Poich´e la media ‘e costante e la funzione di scorrelazione non dipende da t il processo `e del secondo ordine e debolmente stazionario. Indichiamo con mX = 0 la media e con rX (τ ) = σ 2 cos(2πf0 τ ) la funzione di covarianza. Ha senso calcolare la densit`a spettrale di potenza che vale RX (f ) = F (rX (τ )) =

35.2

 σ2  δ(f − f0 ) + δ(f + f0 ) , 2

f ∈R

Processi stocastici del secondo ordine attraverso sistemi LTI

I risultati di questa sezione sono d’interesse sia per i processi a tempo contiuno che per quelli discreti. interessano sia per i processi a tempo continuo che per quelli a tempo discreto. La teoria a tempo continuo richiederebbe qualche precisazione sul senso in cui vanno intesi gli integrali perch`e un processo stocastico a tempo continuo potrebbe avere traiettorie che non sono integrabili secondo Riemann. Aggiungeremo queste considerazioni in una futura appendice alla lezione. In questo paragrafo tutto `e scritto per il caso a tempo continuo. Microesercizio. Trascivere tutti i risultati per il caso tempo discreto, Sia h(·) la risposta impulsiva di un sistema LTI stabile L. Intendiamo studiare l’uscita del sistema L quando l’ingresso `e un processo stocastico Xt del secondo ordine. Per quanto noto dal corso di Segnali e Sistemi Z ∞ Yt = hτ Xt−τ dτ −∞

228

Lemma. Se il processo d’ingresso (Xt ) `e del secondo ordine, allora il processo di uscita (Yt ) `e del secondo ordine ed ha funzione media mY (t) = h(t) ∗ mX (t),

(7)

rY (t + τ, τ ) = E(Yt+τ Yτ ) Z ∞Z ∞ h(s)h(σ)rX (t + τ − s, t − σ) dsdσ =

(8)

e funzione di autocorrelazione

−∞

−∞

Dimostrazione. Il calcolo diretto fornisce Z ∞  mY (t) = E(Yt ) = E hτ Xt−τ dτ −∞ Z ∞ Z ∞ hτ mX (t − τ ) dτ hτ E(Xt−τ ) dτ = = −∞

−∞

= h(t) ∗ mX (t). Per la funzione di autocorrelazione si ha rY (t + τ, τ ) = E(Yt+τ Yτ ) Z ∞  Z ∞ =E h(s)Xt+τ −s ds h(σ)Xt−σ dσ −∞ Z ∞ Z−∞∞ = h(s)h(σ)E(Xt+τ −s Xt−σ ) dsdσ −∞ −∞ Z ∞Z ∞ = h(s)h(σ)rX (t + τ − s, t − σ) dsdσ −∞

−∞

Teorema. Se il processo d’ingresso (Xt ) `e del secondo ordine e debolmente stazionario, allora l’uscita `e del secondo ordine e debolmente stazionaria, la media `e mY = h(t) ∗ mX = H(0) mX , dove H(0) `e il guadagno in continua, cio`e il valore della risposta in frequenza nell’origine. La funzione di autocorrelazione di (Yt ) `e Z ∞Z ∞ rY (τ ) = h(s)h(σ)rX (τ + σ − s) dsdσ (9) −∞

−∞

Dimostrazione. Per la media, in conseguenza di (7) si ha Z  mY (t) = h(t)mX = h(τ ) dτ mX = H(0)mX . Per la stazionariet` a debole resta da verificare l’indipendenza da t della funzione di autocorrelazione. Usando la (8) si trova Z ∞Z ∞ rY (t + τ, τ ) = h(s)h(σ)rX (t + τ − s, t − σ) dsdσ −∞ −∞ Z ∞Z ∞ = h(s)h(σ)rX (t + τ − s − (t − σ)) dsdσ −∞ Z−∞ Z ∞ ∞ = h(s)h(σ)rX (τ + σ − s) dsdσ = rY (τ ) −∞

−∞

229

che, non dipendendo da t `e denotata rY (τ ). L’espressione analitica di rY (τ ) non `e particolarmente illuminante, ma `e facile determinare la densit` a spettrale RY (f ). Teorema. Sotto le precedenti ipotesi, la densit`a spettrale di (Yt ) `e RY (f ) = |H(f )|2 RX (f ) Dimostrazione. Riprendendo l’equazione (9), ed esprimendo rX (τ ) come antitrsformata di RX (f ), si trova Z ∞Z ∞ rY (τ ) = h(s)h(σ)rX (τ + σ − s) dsdσ −∞ −∞ Z ∞  Z ∞Z ∞ j2πf (τ +σ−s) = h(s)h(σ) RX (f )e df dsdσ −∞ −∞ −∞ "Z # Z Z ∞



RX (f )ej2πf τ

= −∞ ∞

Z =

h(s)e−j2πf s ds

−∞



h(σ)e−j2πf σ dσ df

−∞

RX (f )H(f )H(f ) ej2πf τ dτ

−∞

L’ispezione dell’ultima espressione rivela che rY (τ ) `e stato espresso come antitrasformata di Fourier della funzione RX (f ) H(f )H(f ) = RX (f )|H(f )|2 . Poich´e rY (τ ) `e l’antitrasformata della densit` a spettrale di (Yt ), la conclusione RY (f ) = RX (f )|H(f )|2 segue necessariamente.

35.3

Interpretazione fisica della densit` a spettrale di potenza

Per capire l’origine del nome densit` a spettrale di potenza `e utile considerare la sseguente interpretazione fisica. Sia Xt un processo stocastico del secondo ordine, debolmente ` sempre possibile interpretare idealmente Xt come segnale di corrente generstazionario. E ato da una rete elettrica, che va a dissiparsi su una resistenza unitaria R = 1Ω, vedi figura qui sotto. La potenza istantanea che si dissipa sulla resistenza `e p(t) = v(t)i(t) = Ri2 (t) =

Xt

R=1Ω

Xt2 . Interpretando Xt come segnale di corrente, Xt2 `e la potenza istantanea dissipata su una resistenza unitaria. Poich´e Xt `e una variabile aleatoria, la potenza istantanea Xt2 `e una variabile aleatoria. Il valore atteso della potenza istantanea `e E(Xt2 ). Poich´e Xt ammette densit` a spettrale di potenza, per quanto visto in precedenza `e Z ∞ E(Xt2 ) = rX (0) = RX (f ) df −∞

230

Quindi l’integrale della densit` a spettrale coincide con la potenza media (attenzione: gli ingegneri dicono cos`ı per brevit`a, in realt`a intendono dire valore atteso della potenza istantanea). Valutiamo adesso il contributo alla potenza media fornito da ogni banda di frequenze. Si considerino le frequenze f ∈ [f0 , f0 + ∆], dove f0 e ∆ sono fissati. Sia H(f ) un filtro passa banda ideale la cui risposta in frequenza `e H(f ) := 1l[f0 ,f0 +∆] (f ). Se Xt `e l’ingresso del sistema LTI H(f ), il processo di uscita Yt consiste di tutte e sole le componenti di Xt contenute nella banda di frequenze [f0 , f0 + ∆]. Applicando l’ultimo teorema della precedente sezione si trova RY (f ) = |H(f )|2 RX (f ) = RX (f )1l[f0 ,f0 +∆] (f ) quindi il valore atteso della potenza istantanea Yt2 `e Z ∞ Z ∞ E(Yt2 ) = RY (f ) df = RX (f )1l[f0 ,f0 +∆] (f ) ≈ RX (f0 ) ∆ −∞

−∞

dove l’approssimazione `e tanto migliore quanto pi` u piccola `e l’ampiezza ∆ dell’intervallo [f0 , f0 + ∆]. Si pu` o rileggere l’ultima equazione come segue   E potenza istantanea delle componenti di Xt nella banda [f0 , f0 + ∆] ≈ RX (f0 ) ∆ Per ogni f0 punto di continuit` a di RX (f ) vale   E potenza istantanea delle componenti di Xt nella banda [f0 , f0 + ∆] . RX (f0 ) = lim ∆→0 ∆ Tenendo a mente che nell’interpretazione fisica Xt2 `e misurato in Watt (potenza), l’ultima formula dimostra che RX (f ) si misura in Watt/Herz, giustificando il nome densit` a spettrale di potenza. Per maggior precisione, ma con minore efficacia, si potrebbe chiamare densit` a spettrale della potenza istantanea media oppure, con chiarezza cristallina ma quasi illeggibile, densit` a spettrale del valore atteso della potenza istantanea. La chiarezza raramente vende bene.

231

Lezione 36 36.1

(Luned`ı, 3 giugno 2013, ore 10:30-12:15)

Esercitazione in aula

232

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF