Procesos Estocásticos

September 28, 2018 | Author: César A. Ramos Millán | Category: Interval (Mathematics), Kalman Filter, Matrix (Mathematics), Probability, Set (Mathematics)
Share Embed Donate


Short Description

Topicos basicos de procesos estocásticos...

Description

´ DE AMPLIACION ´ PROCESOS ESTOCASTICOS

Paloma P´erez Fern´ andez 5o de Matem´ a ticas ¯

i ´Indice ´ Cap´ıtulo I: TEOR´IA L2 DE PROCESOS ESTOCASTICOS Lecci´on 1: Introducci´on. . . . . . . . . . . . . . . . . . . Lecci´on 2: Funciones de Covarianza. . . . . . . . . . . . Lecci´on 3: Ejemplos. . . . . . . . . . . . . . . . . . . . . Lecci´on 4: C´alculo de Segundo Orden. . . . . . . . . . . Lecci´on 5: Desarrollo de Karhunen–Lo`eve. . . . . . . . . Lecci´on 6: Problemas de Estimaci´on. . . . . . . . . . . . Lecci´on 7: El filtro de Kalman. . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

1 2 9 16 24 29 34 37

´ ´ Cap´ıtulo II: ANALISIS DE LAS TRAYECTORIAS DE PROCESOS ESTOCASTICOS A TIEMPO CONTINUO Lecci´on 8: Separabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lecci´on 9: Medibilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lecci´on 10: An´alisis de las trayectorias en un movimiento browniano. . . . . . . . Lecci´on 11: Ley del logaritmo iterado: aplicaci´on al movimiento browniano. . . .

44 45 53 57 63

´ Cap´ıtulo III: ALGUNOS TIPOS ESPECIALES DE PROCESOS ESTOCASTICOS A TIEMPO CONTINUO Lecci´on 12: Procesos de Markov. Cadenas de Markov en tiempo continuo. . . . . Lecci´on 13: Procesos con Incrementos Independientes. . . . . . . . . . . . . . . . Lecci´on 14: Martingalas a Tiempo Continuo. . . . . . . . . . . . . . . . . . . . . Lecci´on 15: Tiempos de Parada. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67 68 84 88 91

Cap´ıtulo I

´ TEOR´IA L2 DE PROCESOS ESTOCASTICOS

I.1. Introducci´ on: Introducci´on a la teor´ıa de procesos estoc´asticos: Definiciones de proceso estoc´astico y distribuciones finito-dimensionales; teorema de extensi´on de Kolmogorov; procesos equivalentes y modificaci´on de un proceso. La distribuci´on normal en Rn . I.2. Funciones de Covarianza: L2 –procesos y funciones de covarianza. Estacionaridad. Caracterizaci´on anal´ıtica de las funciones de covarianza: Teoremas de Herglotz y Bochner. I.3. Ejemplos de L2 –procesos: Proceso de Poisson. Movimiento browniano o Proceso de Wiener. I.4. C´ alculo de segundo orden: L2 –continuidad, L2 –diferenciabilidad, L2 –integraci´ on. I.5. Desarrollo de Karhunen–Lo` eve: Teorema de Karhunen–Lo`eve. Versi´ on del teorema para procesos gaussianos. Ejemplo. I.6. Problemas de estimaci´ on: Estimaciones basadas en operaciones lineales o en operaciones Borel–medibles de las Xt . Relaciones entre ambas. Ejemplo. I.7. El filtro de Kalman: Estimador lineal de m´ınima varianza: teorema de Gauss– Markov. Teorema de actualizaci´on est´atica. El filtro de Kalman: teorema de Kalman. Referencias cap´ıtulo I: Ash, Gardner (1975), Catlin (1989).

1

2

´ n 1: Introduccio ´ n. Leccio ´ n. (Proceso estoc´astico) Sean T un conjunto de ´ındices, (Ω, A, P ) un espacio Definicio de probabilidad y (Ω0 , A0 ) un espacio medible. Un proceso estoc´astico (sobre T ) es una familia (Xt )t∈T de v.a. definidas en (Ω, A, P ) y a valores en (Ω0 , A0 ). Cuando deseemos m´as precisi´on, llamaremos proceso estoc´astico la cuaterna (Ω, A, P, (Xt )t∈T ). Ω suele llamarse espacio muestral del proceso. Ω0 es el espacio de los estados. Para cada ω ∈ Ω, la aplicaci´on t ∈ T −→ Xt (ω) se llamar´a trayectoria de ω. T suele llamarse espacio temporal del proceso. Observaciones. 1) La noci´on de proceso estoc´astico constituye un modelo matem´atico para representar el estado de un sistema dependiente de un par´ametro (generalmente, el tiempo t) y del azar. Un tal modelo se presenta de forma natural como una aplicaci´on (t, ω) −→ X(t, ω) definida en T × Ω y a valores en Ω0 que describe los estados del sistema. En un instante t fijo, el estado del sistema depende u ´nicamente del azar, y queda descrito por el hecho de que X(t, ·) es una v.a. que en la definici´on anterior hemos denotado por Xt . Por ello, Xt suele llamarse estado del sistema en el instante t. 2) Puede darse una definici´on m´as general de proceso estoc´astico haciendo depender del tiempo el espacio de estados (es decir, suponiendo que Xt es una v.a. en Ω y a valores en un cierto espacio medible (Ωt , At )). Este no ser´a, sin embargo, normalmente el caso. Incluso, el espacio de los estados (Ω0 , A0 ) es frecuentemente un espacio discreto o un espacio eucl´ıdeo. Si (Ω0 , A0 ) = (R, R) diremos que (Xt ) es un proceso estoc´astico real. 3) Normalmente T ser´a un subconjunto de R: bien un intervalo de R (casi siempre ser´a un intervalo de [0, +∞[) en el caso de par´ametro continuo, bien un intervalo de Z (casi siempre de N) en el caso de par´ametro discreto. ´ n. (Distribuciones finito-dimensionales de un proceso) Si (Xt ) es un proceso Definicio estoc´astico como en la definici´on anterior, llamaremos distribuciones finito-dimensionales a las distribuciones conjuntas de las subfamilias finitas de (Xt )t∈T . As´ı, si t1 , . . . , tn ∈ T , 0 la distribuci´on de probabilidad P(t1 ,...,tn ) definida para C ∈ A n por P(t1 ,...,tn ) (C) = P [(Xt1 , . . . , Xtn ) ∈ C] es una distribuci´on finito-dimensional del proceso. Observaci´ on. La familia de las distribuciones finito-dimensionales de un proceso constituye uno de los aspectos m´as importantes del mismo pues esta familia determina el proceso en alg´ un sentido a precisar posteriormente y, porque en la pr´actica, realizando un n´ umero suficientemente grande de pruebas independientes, es posible estimar con precisi´on arbitraria probabilidades del tipo P(t1 ,...,tn ) (C) y, en general, nada m´as se puede obtener de las observaciones. Nuestro objetivo inmediato consiste en obtener el teorema de extensi´on de Kolmogorov que resuelve el problema de caracterizar el proceso en t´erminos de sus distribuciones finitodimensionales. Notemos en primer lugar que las distribuciones finito-dimensionales del

3 proceso (Xt ) satisfacen lo siguiente: i) Si π es una permutaci´on en {1, . . . , n} y H1 , . . . , Hn ∈ A0 , entonces los sucesos {(Xt1 , . . . , Xtn ) ∈ H1 × · · · × Hn } y {(Xtπ(1) , . . . , Xtπ(n) ) ∈ Hπ(1) × · · · × Hπ(n) } coinciden y, en particular P(t1 ,,...,tn ) (H1 × · · · × Hn ) = P(tπ(1) ,...,tπ(n) ) (Hπ(1) × · · · × Hπ(n) ). ii) P(t1 ,...,tn−1 ) (H1 × · · · × Hn−1 ) = P(t1 ,...,tn ) (H1 × · · · × Hn−1 × Ω0 ). La condici´on i) anterior nos permite considerar u ´nicamente las distribuciones finitodimensionales de la forma P(t1 ,,...,tn ) tales que t1 < . . . < tn (si T no fuese un subconjunto de R, considerar en T un orden total arbitrario), pues ´estas determinan todas las dem´as. Fijemos algunas notaciones m´as c´omodas. Si V = {t1 , . . . , tn } es un subconjunto finito de T con t1 < . . . < tn denotaremos por PV la probabilidad P(t1 ,...,tn ) ; si U = {ti1 , . . . , tir } ⊂ V y ti1 < . . . < tir , entonces denotaremos por pr(V,U ) la aplicaci´on a la apli(xt1 , . . . , xtn ) ∈ Rn −→ (xti1 , . . . , xtir ) ∈ Rr . Si V es como antes, prV denotar´ T n caci´on x ∈ R −→ (xt1 , . . . , xtn ) ∈ R . De acuerdo con estas notaciones, la condici´on ii) anterior afirma que la distribuci´on de probabilidad de la v.a. pr(V,{t1 ,...,tn−1 }) respecto a PV es P(t1 ,...,tn−1 ) . De i) e ii) se sigue tambi´en que si V y U son como antes entonces PU es la distribuci´on de probabilidad de pr(V,U ) respecto a PV . La construcci´on est´andar de procesos estoc´asticos utiliza espacios producto. ´ n. Sea T un conjunto no vac´ıo y supongamos que, para cada t ∈ T , (Ωt , At ) Definicio Q es un espacio medible. Denotaremos Ω = t∈T Ωt . Llamaremos cilindro medible n-dimensional en Ω a un subconjunto de Ω de la forma c(B) = {ω ∈ Ω : (ωt1 , . . . , ωtn ) ∈ B} Q donde B ∈ ni=1 Ati (se dice tambi´en que c(B) es un cilindro de base B). Si B = B1 ×· · ·× Bn donde Bi ∈ Ati , 1 ≤ i ≤ n, diremos que c(B) es un rect´angulo medible. Denotaremos Q por t∈T At la σ-´algebra en Ω engendrada por los cilindros medibles en Ω. Observaciones. 1) Con las notaciones de la definici´on anterior, tanto la familia de los cilindros medibles en Ω como la de las uniones finitas de rect´angulos medibles en Ω son ´algebras en Ω que engendran la σ-´algebra producto. 2) Si todos los espacios medibles (Ωt , At ) coinciden con un cierto espacio medible (Ω, A), el espacio medible producto lo denotaremos por (ΩT , AT ). Pretendemos ahora construir en (RT , RT ) una probabilidad a partir de probabilidades P(t1 ,...,tn ) en Rn definidas para cada colecci´on creciente de ´ındices t1 < . . . < tn y cada n ∈ N, supuesto que estas probabilidades satisfacen una cierta condici´on de consistencia. Antes de enunciar y probar el teorema de extensi´on de Kolmogorov recordaremos algunos conceptos y resultados de teor´ıa de la medida que necesitaremos en la demostraci´on de ese teorema: si A0 es un ´algebra de partes de un conjunto Ω, una funci´on de conjuntos µ : A0 −→ [0, +∞] se dice numerablemente aditiva si para cada sucesi´on finita o infinita numerable y disjunta (An )n en A0 tal que ∪n An ∈ A0 se verifica que

4 P µ(∪n An ) = n µ(An ). Se prueba que si µ es una medida finitamente aditiva en el ´algebra A0 y es continua por arriba en el vac´ıo (es decir, para cada sucesi´on (An ) en A0 decreciente a ∅ se verifica que l´ımn µ(An ) = 0) entonces µ es numerablemente aditiva. El teorema de extensi´on de Carath´eodory afirma que si µ es una medida (es decir, una funci´on de conjuntos numerablemente aditiva) en un ´algebra A0 y si es σ–finita, entonces admite una u ´nica extensi´on a una medida en la σ–´algebra σ(A0 ) engendrada por A0 . Necesitaremos tambi´en el siguiente resultado: Si µ es una medida finita en la σ–´ algebra Rn de Borel en Rn , entonces µ es interiormente regular, es decir, para cada boreliano B en Rn , µ(B) = sup{µ(K) : K compacto ⊂ B}. Teorema 1. (De extensi´on de Kolmogorov: 1a versi´ on) Sea T un conjunto no vac´ıo y supongamos que, para cada subconjunto finito no vac´ıo V de T , PV es una probabilidad en Rn si V tiene n elementos. Supongamos que estas probabilidades satisfacen la condici´on de consistencia: (CC) Para cada subconjunto U no vac´ıo de V la distribuci´on de probabilidad de pr(V,U ) respecto a PV es PU . Entonces existe una u ´nica probabilidad P en RT tal que, para cada subconjunto finito V de T , la distribuci´on de prV respecto a P coincide con PV , es decir, tal que para cada n ∈ N, cada sucesi´on finita creciente t1 < . . . < tn en T y cada H ∈ Rn se verifica que P ({x ∈ RT : (xt1 , . . . , xtn ) ∈ H} = P(t1 ,...,tn ) (H). Demostraci´ on. Si A es un cilindro n-dimensional de la forma A = {x ∈ RT : (xt1 , . . . , xtn ) ∈ H} con t1 < . . . < tn y H ∈ Rn definimos P (A) = P(t1 ,...,tn ) (H). Debemos probar en primer lugar que esta definici´on no depende de la representaci´ on del cilindro A. Supuesto que tambi´en A = {x ∈ RT : (xs1 , . . . , xsm ) ∈ H 0 } con s1 < . . . < sm y H 0 ∈ Rm , hagamos {u1 , . . . , ur } = {t1 , . . . , tn } ∪ {s1 , . . . , sm } con r ≥ m´ax(m, n) y u1 < . . . < ur ; sean tambi´en 1 ≤ m1 < . . . < mn ≤ r tales que ti = umi , 1 ≤ i ≤ n. Entonces A = {x ∈ RT : (xt1 , . . . , xtn ) ∈ H} = {x ∈ RT : (xum1 , . . . , xumn ) ∈ H} = {x ∈ RT : (xu1 , . . . , xur ) ∈ H1 } −1 donde H1 = {(xu1 , . . . , xur ) ∈ Rr : (xum1 , . . . , xumn ) ∈ H}, es decir, H1 = pr(V,U ) (H) donde V = {u1 , . . . , ur } y U = {um1 , . . . , umn } = {t1 , . . . , tn }. La condici´on de consistencia prueba que P(t1 ,...,tn ) (H) = PV (H1 ). An´alogamente se prueba que P(s1 ,...,sm ) (H 0 ) = PV (H10 ) donde H10 = {(xu1 , . . . , xur ) ∈ Rr : (xs1 , . . . , xsm ) ∈ H 0 } = H1 . Luego la definici´on de P (A) es correcta. Sean ahora A y B cilindros medibles disjuntos. Puesto que todo cilindro k-dimensional puede considerarse obviamente como m-dimensional para cada m ≥ k, podemos suponer que los ´ındices que definen A y B son los mismos:

A = {x ∈ RT : (xt1 , . . . , xtn ) ∈ HA },

B = {x ∈ RT : (xt1 , . . . , xtn ) ∈ HB }.

5 Siendo A ∩ B = ∅ debe ser HA ∩ HB = ∅ y, entonces P (A ∪ B) = P(t1 ,...,tn ) (HA ∪ HB ) = P (A) + P (B) que prueba que P es finitamente aditiva en el ´algebra A0 de los cilindros medibles. Se sigue tambi´en que P (RT ) = 1. Si probamos que P es numerablemente aditiva en A0 , el teorema de extensi´on de Carath´eodory asegurar´a la existencia de una extensi´on de P a una probabilidad en RT . Basta para ello probar que si (An )n es una sucesi´on en A0 decreciente a ∅ entonces l´ımn P (An ) = 0. Supongamos que, por el contrario, existe ² > 0 tal que P (An ) ≥ ² para cada n ∈ N. Podemos suponer sin p´erdida de generalidad que existe una sucesi´on (tn )n en T tal que An = {x ∈ RT : (xt1 , . . . , xtn ) ∈ Hn } con Hn ∈ Rn para cada n ∈ N. Entonces P (An ) = P(t1 ,...,tn ) (Hn ), ∀n. La regularidad interior de las P(t1 ,...,tn ) prueba que existen compactos Kn ⊂ Hn tales que P(t1 ,...,tn ) (Hn \ Kn ) < ²/2n+1 ,

∀n.

Si Bn = {x : (xt1 , . . . , xtn ) ∈ Kn } entonces P (An \ Bn ) < ²/2n+1 . Sea Cn = ∩nk=1 Bk . Entonces Cn ⊂ Bn ⊂ An y P (An \ Cn ) < ²/2. Luego P (Cn ) > ²/2 > 0 y, en particular, Cn 6= ∅. Sea x(n) ∈ Cn , n ∈ N. Si n ≥ k entonces x(n) ∈ Cn ⊂ Ck ⊂ Bk y, por tanto, (n)

(n)

(xt1 , . . . , xtk ) ∈ Kk . (n)

Puesto que Kk es acotado, la sucesi´on (xtk )n∈N es acotada para cada k ∈ N. Por un (n )

procedimiento diagonal, elijamos n1 < n2 < . . . en N tales que l´ımi xtk i exista para cada (n )

k ∈ N. Sea x ∈ RT tal que xtk = l´ımi xtk i para cada k. Entonces, para cada k ∈ N, (n )

(n )

(xt1 , . . . , xtk ) = l´ım(xt1 i , . . . , xtk i ) ∈ Kk . i

Luego x ∈ Bk ⊂ Ak , ∀k, en contra de que ∩k Ak = ∅. De esta contradicci´ on se sigue que P admite una extensi´on a una probabilidad en RT que satisface la tesis por definici´on. Finalmente, si P y Q son dos probabilidades en RT satisfaciendo el teorema, entonces coinciden sobre los cilindros medibles y, por tanto, en RT por la unicidad en el teorema de Carath´eodory. Observaci´ on. Supongamos que Pt es una probabilidad Qn en R para cada t ∈ T . Aplicando el teorema anterior a las probabilidades producto i=1 Pti se obtiene un teorema de la medida producto en el caso de una cantidad arbitraria de factores. Consideremos ahora las aplicaciones coordenadas Zt : x ∈ RT −→ xt ∈ R. Si (PV )V finito ⊂T es una familia de probabilidades que satisface las hip´otesis del teorema anterior y si P es la probabilidad en RT que proporciona dicho teorema, entonces para cada n ∈ N, cada sucesi´on finita creciente t1 < . . . < tn en T y cada H ∈ Rn se verifica que P [(Zt1 , . . . , Ztn ) ∈ H] = P(t1 ,...,tn ) (H). As´ı pues, (RT , RT , P, (Zt )t∈T ) es un proceso estoc´astico cuyas distribuciones finito-dimensionales son precisamente las PV . Podemos entonces enunciar el siguiente teorema, que asegura la existencia de un proceso estoc´astico con unas distribuciones finito-dimensionales dadas de antemano (supuesto que ´estas verifican una condici´on de consistencia).

6 Teorema 2. (de extensi´on de Kolmogorov: 2a versi´ on) Si (PV )V finito ⊂T es una familia de probabilidades que satisfacen la condici´on de consistencia (1) del teorema anterior, entonces existe un proceso estoc´astico (Ω, A, P, (Xt )t∈T ) cuyas distribuciones finitodimensionales son precisamente las PV . Demostraci´ on. Consideremos las aplicaciones coordenadas Zt : x ∈ RT −→ xt ∈ R. Dichas aplicaciones son medibles. Si (PV )V finito ⊂T es una familia de distribuciones de probabilidad satisfaciendo la condici´on de consistencia del teorema anterior y si P es la probabilidad en RT cuya existencia se asegura en ese teorema entonces, si n ∈ N y si t1 < . . . < tn se tiene que P ({x ∈ RT : (Zt1 (x), . . . , Ztn (x)) ∈ H}) = P(t1 ,...,tn ) (H) para cada H ∈ Rn lo que prueba que (RT , RT , P, (Zt )t∈T ) es un proceso estoc´astico cuyas distribuciones finito-dimensionales son precisamente las PV . Las definiciones siguientes precisan hasta qu´e punto un proceso estoc´astico queda determinado por sus distribuciones finito-dimensionales. ´ n. a) Consideremos dos procesos estoc´asticos reales sobre el mismo espaDefinicio cio temporal (Ω, A, P, (Xt )t∈T ) y (Ω0 , A0 , P 0 , (Xt0 )t∈T ). Diremos que dichos procesos son equivalentes si P (Xt1 ∈ A1 , . . . , Xtn ∈ An ) = P 0 (Xt01 ∈ A1 , . . . , Xt0n ∈ An ) para cada subconjunto finito {t1 , . . . , tn } de T y cada familia finita A1 , . . . , An en R. b) Sean (Xt )t∈T e (Yt )t∈T dos procesos estoc´asticos reales en el mismo espacio probabil´ıstico (Ω, A, P ) y sobre el mismo espacio temporal T . Diremos que (Yt ) es una modificaci´on de (Xt ) si Xt = Yt P -c.s. para cada t ∈ T . Diremos que dichos procesos son P -indistinguibles si existe A ∈ A tal que P (A) = 0 y Xt (ω) = Yt (ω) para cada ω ∈ Ac y cada t ∈ T . Veamos algunas observaciones interesantes sobre lo que hemos visto hasta ahora. Observaciones. 1) Hemos definido un proceso estoc´astico como una familia (Xt )t∈T de v.a. (supong´amoslas reales) en (Ω, A, P ). Hemos observado tambi´en que podemos mirar este proceso como una aplicaci´on X : (t, ω) ∈ T × Ω −→ X(t, ω) ∈ R donde, para cada t, X(t, ·) es una v.a.r. en Ω. Una tercera v´ıa puede ser la siguiente: consideremos la aplicaci´on X que a cada ω ∈ Ω asocia la aplicaci´on t ∈ T −→ Xt (ω); X, as´ı definida es una aplicaci´on de Ω en el conjunto RT de las aplicaciones de T en R. Es f´acil ver que una aplicaci´on F : (Ω, A) −→ (RT , RT ) es una v.a. sii Zt (F ) lo es para cada t ∈ T , donde Zt denota (y denotar´a en lo que sigue) como antes la aplicaci´on coordenada t-´esima en RT . Por tanto, podemos pensar en un proceso estoc´astico real tambi´en como una v.a. X de (Ω, A, P ) en (RT , RT ). Visto de este modo, el proceso recibe a veces el nombre de funci´on aleatoria. 2) (Proceso can´onico asociado a un proceso dado) Sea (Ω, A, P, (Xt )t∈T ) un proceso estoc´astico real sobre T . Denotemos por X la v.a. de (Ω, A) en RT definida por X(ω)(t) = Xt (ω). Consideremos la distribuci´on de probabilidad P X en RT de X respecto a P . Consideremos en fin las aplicaciones Zt de la observaci´ on anterior. El proceso

7 estoc´astico (RT , RT , P X , (Zt )t∈T ) se llama proceso can´onico asociado al proceso (Xt ). Es claro que todo proceso estoc´astico real es equivalente a su proceso can´onico y que dos procesos reales son equivalentes sii tienen el mismo proceso can´onico asociado. 3) Ya hemos observado anteriormente que las distribuciones finito-dimensionales de un proceso estoc´astico real constituyen uno de los aspectos fundamentales del mismo en virtud del teorema de Kolmogorov (que asegura unicidad salvo equivalencia). No obstante, la noci´on de distribuci´on finito-dimensional resulta ser insuficientemente precisa a la hora de abordar algunas cuestiones interesantes tambi´en en teor´ıa de procesos estoc´asticos como posibles propiedades de regularidad de las trayectorias (p. ej., continuidad de las trayectorias si T es un intervalo de R). Hagamos, p. ej., Ω = [0, 1] = T , A = R([0, 1]) y sea P la medida de Lebesgue en [0, 1]; consideremos dos procesos reales (Xt )t∈T y (Yt )t∈T definidos en Ω para t ∈ T y ω ∈ Ω por ( = 1 si t = ω Xt (ω) = 0 e Yt (ω) = = 0 si t 6= ω. Dichos procesos tienen entonces las mismas distribuciones finito-dimensionales (es decir, son equivalentes); incluso, uno es modificaci´on del otro. Sin embargo, Xt tiene todas sus trayectorias continuas (es decir, para cada ω, la aplicaci´on t −→ Xt (ω) es continua) mientras que las del segundo son discontinuas. Este mismo ejemplo prueba que la noci´on de modificaci´on de un proceso tampoco es lo suficientemente precisa en este tipo de problemas. La noci´on de procesos indistinguibles da la mayor precisi´on posible desde el punto de vista probabil´ıstico: dos procesos indistinguibles son realmente el mismo proceso. Notemos aqu´ı que, a veces, se llama equivalencia de procesos lo que aqu´ı hemos llamado modificaci´on de un proceso. Para finalizar esta lecci´on haremos un repaso de algunos aspectos de la distribuci´on Normal en Rn . A la hora de construir procesos gaussianos, en general, y el movimiento browniano, en particular, tendremos que hacer referencia a la distribuci´on normal multivariante. En lo que sigue utilizaremos la siguiente notaci´on matricial: los puntos u de Rn y las v.a. n–dimensionales X se considerar´an como vectores columna y usaremos los s´ımbolos ut y X t para los correspondientes vectores fila. ´ n. Una v.a. n–dimensional X, definida en alg´ un espacio de probabilidad Definicio (Ω, A, P ), se dice normal si su funci´on caracter´ıstica es de la forma tX

φ : u ∈ Rn −→ φ(u) = E[eiu

1 ] = exp{iut b − ut Cu} 2

donde b ∈ Rn y C es una matriz real cuadrada de orden n sim´etrica y semidefinida positiva (i.e., C = C t y ut Cu ≥ 0, ∀u ∈ Rn ). Se dice, en concreto, que X tiene una distribuci´on normal de media b y matriz de covarianzas C y se escribe X ∼ Nn (b, C). Observaciones. 1) Sean A una matriz de orden m × n, b ∈ Rm y X 0 una v.a. n– dimensional cuyas componentes son v.a.r. independientes y normalmente distribuidas con media cero. Sea X = AX 0 + b. Entonces X es una v.a. m–dimensional normal de media b y matriz de covarianzas C = ADAt , donde D es la matriz diagonal en la que los elementos de la diagonal son las varianzas λk de las Xk0 , 1 ≤ k ≤ n.

8 2) A modo de rec´ıproco, si X es una v.a. normal n–dimensional Nn (b, C), entonces existen una matriz cuadrada A de orden n que podemos elegir ortogonal y una v.a. n– dimensional X 0 cuyas componentes son v.a.r. independientes normalmente distribuidas con media cero tales que X = AX 0 + b. En efecto, siendo C sim´etrica es diagonalizable y existe entonces una matriz ortogonal A tal que D := At CA es diagonal (los elementos de la diagonal son los autovalores de C). Tomando X 0 = At (X − b), se tiene que X = AX 0 + b (A es ortogonal, i.e., A−1 = At ). Calculando la funci´on caracter´ıstica de X 0 se prueba que sus componentes son independientes y normales con media cero. 3) Se sigue de 2) que si X ∼ Nn (b, C) entonces X tiene media b y matriz de covarianzas C. 4) Un argumento an´alogo al utilizado en 2) prueba la existencia de v.a. n–dimensionales con funci´on caracter´ıstica exp{iut b − 21 ut Cu}, siendo b ∈ Rn y C una matriz cuadrada de orden n sim´etrica y semidefinida positiva. 5) Se prueba que una v.a. n –dimensional X es normal si y s´olo si ut X es una v.a.r. normal (posiblemente degenerada) para cada u ∈ Rn .

´ n 2: Funciones de Covarianza. Leccio En lo que sigue, (Ω, A, P ) ser´a un espacio de probabilidad en el que estar´an definidas todas las v.a. que consideremos, salvo que expl´ıcitamente se indique otra cosa. Supondremos conocidos la definici´on de proceso estoc´astico, la noci´on de distribuciones finito– dimensionales y el teorema de extensi´on de Kolmogorov. ´ n. (L2 –proceso estoc´astico) Un L2 –proceso estoc´astico es una familia (Xt )t∈T Definicio de v.a. reales o complejas tales que k Xt k22 = E(|Xt |2 ) < ∞, ∀t ∈ T . A partir de ahora s´olo consideraremos L2 –procesos estoc´asticos. ´ n. (Funci´on de covarianzas) La funci´on de covarianzas de un L2 –proceso Definicio estoc´astico es la aplicaci´on K : (s, t) ∈ T × T −→ K(s, t) = Cov (Xs , Xt ) = E[(Xs − m(s))(Xt − m(t))] donde m(t) = E(Xt ), t ∈ T . Observaciones. 1) K(s, t) es, entonces, el producto escalar (en L2 (Ω, A, P ; C)) de Xs − m(s) y Xt − m(t). 2) Es claro que K(s, t) = E(Xs Xt ) − m(s)m(t). 3) Por la desigualdad de Cauchy–Schwartz, se tiene que |K(s, t)|2 ≤k Xs − m(s) k22 · k Xt − m(t) k22 = K(s, s)K(t, t). Definiciones. (Estacionariedad) Supongamos que T es un intervalo de R. a) El L2 –proceso (Xt )t∈T se dice estacionario en sentido amplio si m(t) es constante para todo t y K(s, t) = K(s + h, t + h), para todos s, t y h tales que s, t, s + h, t + h ∈ T . Dicho de otro modo, si m(t) es constante en T y K(s, t) s´olo depende de s y t a trav´es de s − t. En ese caso, escribiremos K(t) = K(s + t, s). b) El proceso (Xt )t∈T se dice estrictamente estacionario si las distribuciones finito– dimensionales tienen la propiedad: P (Xt1 ,...,Xtn ) = P (Xt1 +h ,...,Xtn +h ) para todos n = 1, 2, ... y t1 , ..., tn , h tales que t1 < · · · < tn y ti , ti + h ∈ T , 1 ≤ i ≤ n. Observaciones. 1) Para un proceso estacionario en sentido amplio, haciendo m(t) = m, ∀t ∈ T , la desigualdad de Cauchy–Schwartz prueba que |K(t)| ≤ K(0) = E[|Xs − m|2 ] ∀t, s ∈ T. 2) Si (Xt )t∈T es un proceso estrictamente estacionario, entonces la distribuci´on conjunta de Xt1 , ..., Xtn s´olo depende de los ti a trav´es de las diferencias t2 − t1 , t3 − t2 , ..., tn − tn−1 . 3) Todo proceso estrictamente estacionario es estacionario en sentido amplio. En efecto, Z Z (Xs ,Xt ) E(Xs · Xt ) = xydP (x, y) = xydP (Xs+h ,Xt+h ) (x, y) = E(Xs+h · Xt+h ) 9

10 y, an´alogamente, E(Xt ) = E(Xt+h ). 4) El rec´ıproco de 3) no es, en cambio, cierto. Supongamos, por ejemplo, los Xt reales independientes con media 0 y varianza 1. Entonces, K(t) = E(Xs+t ·Xs ) = E(Xs+t )E(Xs ) = 0, si t 6= 0 y K(0) = 1. Pero el proceso no es necesariamente estrictamente estacionario: podemos tomar, por ejemplo, Xt con distribuci´on normal N (0, 1) si t ≤ 0 y Xt uniformemente distribuida (en un intervalo apropiado) si t > 0, con lo cual P Xt depende de t. 5) Convenci´on: En este cap´ıtulo, estacionario significar´a estacionario en sentido amplio. 6) Una funci´on de covarianzas satisface siempre K(s, t) = K(t, s). En el caso estacionario ello se traduce en K(−t) = K(t). Entonces, K(t, t) = K(t, t) es real y, en el caso estacionario, K(0) es real. As´ı pues, la funci´on de covarianzas de un L2 –proceso es sim´etrica (i.e., K(t, s) = K(s, t)). Veamos que, tambi´en, K es semidefinida positiva, es decir, ∀n ∈ N, ∀t1 , ..., tn ∈ T , ∀a1 , ..., an ∈ C, n X aj K(tj , tk )ak j,k=1

es real y mayor o igual que 0; n´otese, en efecto, que si Xt∗ = Xt − E(Xt ), entonces, ¯2    ¯ ¯X ¯ n n n X X ¯ ¯ ∗ ∗ ∗ ¯ aj K(tj , tk )ak = E  aj Xtj ak Xtk  = E ¯ aj Xtj ¯¯  ≥ 0. ¯ j=1 ¯ j,k=1 j,k=1 Veamos, a continuaci´on, que el ser K sim´etrica y semidefinida positiva es condici´on suficiente para que exista un L2 –proceso estoc´astico cuya funci´on de covarianzas es K. Teorema 3. Sea K = K(s, t), s, t ∈ T , una funci´on C–valorada en T × T que es sim´etrica y semidefinida positiva. Existe entonces un L2 –proceso (Xt )t∈T cuya funci´on de covarianzas es K (T es un conjunto de ´ındices arbitrario; no tiene porqu´e ser un subconjunto de R). Demostraci´ on. Supongamos en primer lugar que K es R–valorada. Dados t1 , ..., tn ∈ T con t1 < · · · < tn , sea Pt1 ,...,tn una distribuci´on normal n–dimensional con media cero y matriz de covarianzas (K(tj , tk ))nj,k=1 . Si i1 , ..., ip ∈ {1, ..., n} e i1 < · · · < ip entonces la distribuci´on de la v.a. (x1 , ..., xn ) ∈ Rn −→ (xi1 , ..., xip ) ∈ Rp respecto a Pt1 ,...,tn es la distribuci´on Pti1 ,...tip normal p–dimensional de media cero y matriz de covarianzas (K(tij , tik ))pj,k=1 . Entonces, la condici´on de consistencia de Kolmogorov se verifica es para la familia (Pt1 ,...tn )t1 x) = e−x/α ,

x ≥ 0.

Entonces P (X > x) > 0 para cada x ∈ R y, si x, y ≥ 0, se verifica (5)

P (X > x + y|X > x) = P (X > y).

Pensemos en X como el tiempo de espera hasta la ocurrencia de un cierto suceso (por ejemplo, la llegada de un cliente a una ventanilla). La ecuaci´on (5) atribuye al tiempo de espera un mecanismo de p´erdida de memoria en el sentido de que, si despu´es de un cierto tiempo x el suceso a´ un no ha ocurrido, el tiempo que falta para que ocurra se distribuye condicionalmente de la misma forma que X. Es conocido que eso caracteriza la distribuci´on exponencial, es decir, si P (X > x) > 0, ∀x ≥ 0 y si se verifica (5), entonces existe α > 0 tal que X tiene distribuci´on exponencial de par´ametro α (para probarlo, denotemos F la funci´on de distribuci´on de X y hagamos U = 1 − F ; entonces U (t) > 0, ∀t ≥ 0 y U (t + s) = U (t)U (s), ∀t, s ≥ 0; se sigue de ah´ı que U (0) = 1; tomar α ∈ R tal que U (1) = e−1/α y probar que U (t) = e−t/α , primero si t ∈ N, luego si t = 1/n, despu´es si t ∈ Q+ y, en fin, si t ≥ 0; notar que α > 0). Ejemplo 1. (Proceso de Poisson): Consideremos ahora una sucesi´on de sucesos (por ejemplo, llamadas a una central). Denotemos T1 el tiempo de espera para el primer suceso, T2 el tiempo de espera desde la ocurrencia del primer suceso hasta la ocurrencia del segundo, y as´ı sucesivamente. El modelo formal consiste en una sucesi´on T1 , T2 , ... de v.a.r. definidas en alg´ un espacio de probabilidad (Ω, A, P ). Sn = T1 + · · · + Tn , n ≥ 1, representa el tiempo de espera hasta la ocurrencia de n sucesos; es conveniente escribir S0 = 0. Si asumimos que dos sucesos no pueden ocurrir simult´ aneamente, la sucesi´on Sn debe ser estrictamente creciente y si s´olo un n´ umero finito de sucesos puede ocurrir en cada intervalo acotado de tiempo entonces Sn debe converger a +∞, es decir, para cada observaci´on ω se debe verificar (1) 0 = S0 (ω) < S1 (ω) < S2 (ω) < · · ·

y

sup Sn (ω) = +∞ n

o, equivalentemente, (2) Ti (ω) > 0, ∀i ≥ 1 y

X

Tn (ω) = +∞.

n

Observaci´ on. Supondremos que (1) y (2) se verifican para cada observaci´ on ω ∈ Ω. Si s´olo se verificasen sobre un conjunto A de probabilidad 1, podemos redefinir Tn (ω) = 1 si ω ∈ / A y entonces (1) y (2) se verifican para cada ω sin que resulten afectadas las distribuciones conjuntas de las Tn y Sn . 16

17 Consideremos la siguiente condici´on: ´ n 0: Para cada ω ∈ Ω, (1) y (2) se verifican. Condicio El n´ umero Nt de sucesos que ocurren en el intervalo de tiempo [0, t] es el mayor entero n tal que Sn ≤ t, es decir, Nt (ω) := m´ax{n ≥ 0 : Sn (ω) ≤ t}. Entonces Nt (ω) ∈ N (pues sup Sn (ω) = +∞). Se verifica que Nt (ω) = 0 si t < S1 (ω) = T1 (ω); en particular, N0 ≡ 0. El n´ umero de sucesos que ocurren en el intervalo ]s, t], s < t, es el incremento Nt − Ns . La relaci´on b´asica entre Nt y Sn viene dada por {ω ∈ Ω : Nt (ω) ≥ n} = {ω ∈ Ω : Sn (ω) ≤ t}. Se sigue de ello sin dificultad que {ω ∈ Ω : Nt (ω) = n} = {ω ∈ Ω : Sn (ω) ≤ t < Sn+1 (ω)}, lo que prueba que las Nt son v.a.. N´otese que NSn (ω) (ω) = n y SNt (ω) (ω) ≤ t < SNt (ω)+1 (ω). Observaci´ on. (Nt )t≥0 es, entonces un proceso estoc´astico. La condici´on 0 implica que, para cada ω ∈ Ω, Nt (ω) es un entero no negativo si t ≥ 0, que N0 (ω) = 0 y l´ımt→∞ Nt (ω) = ∞; adem´as, Nt (ω) como funci´on de t es no decreciente y continua por la derecha y, si t0 es una discontinuidad de la trayectoria de ω, el salto Nt0 (ω) − supt 0) = 1, ∀n, y que n−1 Sn −→n→∞ α con probabilidad 1, en virtud de la ley fuerte de los grandes n´ umeros; as´ı pues, (1) y (2) se verifican con probabilidad 1 bajo la condici´on 1. 2) Recordemos que la distribuci´on exponencial de par´ametro α es la distribuci´on gamma G(1, α). Siendo las Tn independientes se verifica que Sn tiene distribuci´on gamma G(n, α) y entonces, P (Nt ≥ n) = P (Sn ≤ t) =

∞ X i=n

e−t/α

(t/α)i i!

18 (la densidad de la distribuci´on G(n, α) es fn (t) = [αn (n − 1)!]−1 tn−1 e−t/α I]0,∞[ (t). i P Pn−1 −t/α (t/α)i −t/α (t/α) = 1 − Derivando ∞ se obtiene que ´esa es, efectivamente, i=n e i=0 e i! i! la funci´on de distribuci´on de Sn ). Por tanto, (t/α)n P (Nt = n) = e−t/α n! , es decir, Nt tiene distribuci´on de Poisson de par´ametro (media) t/α.

Podemos mejorar la afirmaci´on de la observaci´ on 2) anterior considerando la siguiente condici´on: ´ n 2: (i) Si 0 < t1 < t2 < · · · < tk , entonces los incrementos Nt1 , Nt2 − Condicio Nt1 , ..., Ntk − Ntk−1 son independientes y (ii) Los incrementos individuales tienen distribuci´on de Poisson: ¡ t−s ¢n P (Nt − Ns = n) = e−

t−s α

α

n!

, n = 0, 1, 2, ..., 0 ≤ s < t.

´ n. (Proceso de Poisson) Un proceso estoc´astico (Nt )t≥0 que satisfaga la Definicio condici´on 2 se llamar´a un proceso de Poisson de promedio 1/α. El resultado principal que probaremos afirma que la condici´on 1 implica la condici´on 2 (asumida la condici´on 0). En su demostraci´on haremos uso de los tiempos de espera a partir de un instante t ≥ 0 dado, que introducimos a continuaci´ on. Fijemos t ≥ 0 y consideremos los sucesos que ocurren despu´es del instante t. Ya conocemos las relaciones Ns (ω) = n ⇐⇒ Sn (ω) ≤ s < Sn+1 (ω), NSn (ω) (ω) = n, SNt (ω) (ω) ≤ t < SNt (ω)+1 (ω). La tercera de estas relaciones afirma que el tiempo que transcurre desde el instante t hasta la ocurrencia del siguiente suceso es SNt (ω)+1 (ω) − t; el tiempo de espera entre las ocurrencias del primer y segundo sucesos despu´es del instante t es TNt (ω)+2 (ω); y as´ı sucesivamente. As´ı pues, (t)

(t)

(t)

T1 = SNt +1 − t, T2 = TNt +2 , T3 = TNt +3 , ... definen los tiempos de espera sucesivos a partir del instante t. Puesto que Nt (ω) ≥ n ⇐⇒ Sn (ω) ≤ t se verifica que Nt+s (ω) − Nt (ω) ≥ m

⇐⇒

Nt+s (ω) ≥ Nt (ω) + m

⇐⇒

SNt (ω)+m (ω) ≤ t + s

⇐⇒

(t) T1 (ω) + · · · Tm (ω) ≤ s.

(t)

Se deduce de ello que (6)

(t)

(t) Nt+s − Nt = m´ax{m ∈ N0 : T1 + · · · + Tm ≤ s}

19 y de (6) se sigue que (t)

(t)

(t)

(t) {Nt+s − Nt = m} = {T1 + · · · + Tm ≤ s < T1 + · · · + Tm+1 }.

Debe notarse que, fijo t ≥ 0, Nt+s − Nt est´ a definido para s ≥ 0 en t´erminos de la sucesi´on (t) Tn , n ≥ 1, del mismo modo que Ns est´a definido en t´erminos de la sucesi´on original Tn . Teorema 7. Bajo la condici´on 0, la condici´on 1 implica la condici´on 2. Demostraci´ on. Dividiremos la demostraci´on en varias etapas. 1a etapa: Veamos, en primer lugar, que ∀n ≥ 0, ∀j ≥ 1, ∀H ∈ Rj , (t)

(t)

P [Nt = n, (T1 , ..., Tj ) ∈ H] = P (Nt = n)P [(T1 , ..., Tj ) ∈ H]. Supongamos primero que j = 1 y H =]y, +∞[. Entonces, (t)

P (Nt = n, T1 > y) = P (Sn ≤ t < Sn+1 , Sn+1 − t > y) = P (Sn ≤ t, Sn + Tn+1 > t + y) = P (Sn ,Tn+1 ) ({(u, v) ∈ R2 : u ≤ t, u + v > t + y}) = (P Sn × P Tn+1 )({(u, v) ∈ R2 : u ≤ t, u + v > t + y}) Z tZ ∞ dP Tn+1 (v)dP Sn (u) = t+y−u

0

Z

t

P (Tn+1 > t + y − u)dP Sn (u) 0 Z t −y/α =e P (Tn+1 > t − u)dP Sn (u)

=

0

=e

−y/α

P (Sn ≤ t, Sn + Tn+1 > t)

= P (Nt = n)e−y/α = P (Nt = n)P (T1 > y). En el caso de que j ≥ 1 y H =

Qj

k=1 ]yk , +∞[, (t)

(t)

P (Nt = n, T1 > y1 , ..., Tj

> yj ) =

P (Sn ≤ t < Sn+1 , Sn+1 − t > y1 , Tn+2 > y2 , ..., Tn+j > yj ) = P (Sn ≤ t < Sn+1 , Sn+1 − t > y1 ) · P (Tn+2 > y2 ) · ... · P (Tn+j > yj ) = P (Nt = n)P (T1 > y1 )P (T2 > y2 ) · · · P (Tj > yj ) = P (Nt = n)P [(T1 , ..., Tj ) ∈ H] Q Luego, la tesis de la 1a etapa es cierta si H = jk=1 ]yk , +∞[. Puesto que los borelianos H de esa forma engendran Rj , queda probada la 1a etapa. 2a etapa: Veamos ahora que si 0 = t0 < t1 < · · · < tk , entonces P (Nti − Nti−1 = ni , 1 ≤ i ≤ k) =

k Y i=1

P (Nti −ti−1 = ni ).

20 Probaremos, en primer lugar, que si s1 , ..., sn > 0 entonces (7)

P (Nt = n, Nt+si − Nt = mi , 1 ≤ i ≤ n) = P (Nt = n)P (Nsi = mi , 1 ≤ i ≤ n)

y a partir de ah´ı lo que queremos. En efecto, n´otese que ∩ni=1 {ω ∈ Ω : Nsi (ω) = mi } = {ω ∈ Ω : (T1 (ω), ..., Tj (ω)) ∈ H} donde j = m´ax{mi : 1 ≤ i ≤ n} + 1 y H = {x ∈ Rj : x1 + · · · + xmi ≤ si < x1 + · · · + xmi +1 , 1 ≤ i ≤ n}. Del mismo modo, usando (6) se obtiene (t)

(t)

∩ni=1 {ω ∈ Ω : Nt+si (ω) − Nt (ω) = mi } = {ω ∈ Ω : (T1 (ω), ..., Tj (ω)) ∈ H} y, de lo probado en la 1a etapa, se sigue que P (Nt = n, Nt+si − Nt = mi , 1 ≤ i ≤ n) = P (Nt = n)P (Nsi = mi , 1 ≤ i ≤ n), como quer´ıamos probar. A partir de esto y por inducci´on sobre k probaremos que si 0 = t0 < t1 < · · · < tk , entonces P (Nti − Nti−1 = ni , 1 ≤ i ≤ k) =

k Y

P (Nti −ti−1 = ni ).

i=1

En efecto, eso se sigue trivialmente de (7) en el caso k = 2. Supuesto cierto para k probemoslo para k + 1 P (Nt1 = n1 , Nt2 − Nt1 = n2 , Nt3 − Nt2 = n3 , ..., Ntk+1 − Ntk = nk+1 ) = P (Nt1 = n1 , Nt2 − Nt1 = n2 , Nt3 − Nt1 = n2 + n3 , ..., Ntk+1 − Nt1 = n2 + · · · + nk+1 ) = P (Nt1 = n1 )P (Nt2 −t1 = n2 , Nt3 −t1 = n2 + n3 , ..., Ntk+1 −t1 = n2 + · · · + nk+1 ) = P (Nt1 = n1 )P (Nt2 −t1 = n2 , Nt3 −t1 − Nt2 −t1 = n3 , ..., Ntk+1 −tk − Ntk −t1 = nk+1 ) = P (Nt1 = n1 )P (Ns1 = n2 , Ns2 − Ns1 = n3 , ..., Nsk − Nsk1 = nk+1 ) = P (Nt1 = n1 )P (Ns1 = n2 )P (Ns2 −s1 = n3 ) · · · P (Nsk −sk1 = nk+1 ) = P (Nt1 = n1 )P (Nt2 −t1 = n2 )P (Nt3 −t2 = n3 ) · · · P (Ntk+1 −tk = nk+1 ). 3a etapa: (Conclusi´on) Hemos visto que la condici´on 1 implica P (Nti − Nti−1 = ni , 1 ≤ i ≤ k) =

k Y

P (Nti −ti−1 = ni )

i=1

si o = t0 < t1 < · · · < tk . Ya vimos tambi´en que P (Nt = n) = e−t/α

(t/α)n , n = 0, 1, 2, ... n!

21 Veamos que de ambas cosas se sigue la condici´on 2. En efecto, si 0 ≤ s < t, entonces P (Nt − Ns = n) =

∞ X

P (Ns = m, Nt − Ns = n) =

m=0 ∞ X

P (Ns = m)P (Nt−s = n) =

m=0

e

∞ X

e

m=0 ¡ t−s ¢n ∞ X (s/α)m −t/α α

n!

m!

m=0

¡ t−s ¢n m −s/α (s/α) −(t−s)/α α

=e

m! −(t−s)/α

e

n!

=

¡ t−s ¢n α

n!

,

es decir, Nt − Ns tiene distribuci´on de Poisson de par´ametro (t − s)/α, la misma que Nt−s . Adem´as, si 0 = t0 < t1 < · · · < tk , entonces P (∩ki=1 {Nti − Nti−1 = ni }) =

k Y

P (Nti −ti−1 = ni ) =

i=1

k Y

P (Nti − Nti−1 = ni ),

i=1

lo que prueba que los incrementos son independientes. Corolario 8. Las distribuciones finito–dimensionales del proceso de Poisson (Nt )t≥0 son

³ P (∩kj=1 {Ntj = nj }) =

k Y

e−

tj −tj−1 α

j=1

tj −tj−1 α

´nj −nj−1

(nj − nj−1 )!

si 0 = t0 < t1 < · · · < tk y 0 = n0 ≤ n1 ≤ · · · ≤ nk . Demostraci´ on. Basta notar que ∩kj=1 {Ntj = nj } = {Nt1 = n1 , Nt2 − Nt1 = n2 − n1 , ..., Ntk − Ntk−1 = nk − nk−1 } y aplicar el teorema anterior. Corolario 9. La funci´on de covarianzas del proceso de Poisson (Nt )t≥0 es K(s, t) =

1 m´ın(s, t), α

s, t ≥ 0.

Demostraci´ on. Supongamos 0 ≤ s ≤ t. Entonces ·³ µ ¶¸ s´ t K(s, t) = Cov (Ns , Nt ) = E[(Ns − E(Ns ))(Nt − E(Nt ))] = E Ns − Nt − . α α Pero µ ¶ ³ ·µ ¶ ³ ¸ ³ t s´³ s´ ³ s´ t s´ s´ Nt − = Ns − Ns − + Ns − Nt − − Ns − Ns − α α α α α α α y la independencia de los incrementos prueba que K(s, t) = Var (Ns ) =

s . α

22 Ejemplo 2. (Movimiento browniano o proceso de Wienner) El movimiento browniano es un proceso estoc´astico real (Bt )t≥0 gaussiano tal que E(Bt ) = 0, ∀t ≥ 0, y con funci´on de covarianzas K(s, t) = σ 2 m´ın(s, t),

s, t ≥ 0

donde σ 2 > 0. Se puede probar que K es, efectivamente, una funci´on de covarianzas teniendo en cuenta que coincide con la funci´on de covarianzas del proceso de Poisson de promedio σ 2 . De ello se deduce que dos procesos estoc´asticos pueden tener la misma funci´on de covarianzas mientras que sus distribuciones finito–dimensionales son muy distintas (se podr´ıa hacer tambi´en una demostraci´on directa de este hecho construyendo el movimiento browniano mediante el teorema de extensi´on de Kolmogorov y calculando su funci´on de covarianzas, para lo cual necesitar´ıamos de algunas suposiciones y resultados auxiliares). N´otese que E(B02 ) = K(0, 0) = 0 y, entonces B0 = O P –c.s.. Por otra parte, si 0 ≤ t1 < t2 ≤ t3 < t4 , entonces E[(Bt2 − Bt1 )(Bt4 − Bt3 )] = E(Bt2 Bt4 ) − E(Bt2 Bt3 ) − E(Bt1 Bt4 ) + E(Bt1 Bt3 ) = K(t2 , t4 ) − K(t2 , t3 ) − K(t1 , t4 ) + K(t1 , t3 ) = σ 2 (t2 − t2 − t1 + t1 ) = 0. An´alogamente, si 0 ≤ t1 < t2 ≤ t3 < t4 ≤ · · · ≤ t2n−1 < t2n , las v.a. Bt2 − Bt1 , Bt4 − Bt3 , ..., Bt2n − Bt2n−1 son incorreladas. Puesto que      −1 1 0 0 · · · 0 0 Bt1 Bt2 − Bt1  0 0 −1 1 · · · 0 0   Bt   Bt − Bt  2  4 3     =       .. .. ..       . . . 0

0

0

0 ···

−1 1

Bt2n

Bt2n − Bt2n−1

la distribuci´on conjunta de dichas v.a. es normal n–dimensional y, por tanto, son independientes. Hemos probado que el movimiento browniano tiene incrementos independientes. Adem´as, cada incremento Bt+h − Bt , con h > 0, tiene distribuci´on normal de media 0 y varianza E[(Bt+h − Bt )2 ] = K(t + h, t + h) − 2K(t, t + h) + K(t, t) = σ 2 h. Luego la distribuci´on de Bt+h − Bt no depende de t, es decir, el proceso tiene incrementos estacionarios. Observaciones. 1)El movimiento browniano o proceso de Wiener fue estudiado por primera vez por Wiener. Imaginemos una part´ıcula sumergida en un fluido y bombardeada por las mol´eculas del mismo (que se suponen en movimiento t´ermico). La part´ıcula describe un movimiento que fue descrito en 1826 por el bot´anico ingl´es Brown. Einstein y Smoluchovsky y, sobre todo, Wiener sentaron las bases matem´aticas adecuadas para el estudio del movimiento de dicha part´ıcula. Consideremos una sola componente de ese movimiento -supongamos que estamos interesados en la componente vertical- y denotemos Bt la altura de la misma en el instante t respecto a un plano horizontal. El hecho de que B0 = 0 es s´olo una convenci´on: la part´ıcula comienza el movimiento en 0. La independencia de los incrementos se interpreta como sigue: los desplazamientos Bti − Bti−1 , 1 ≤ i ≤ k − 1,

23 que la part´ıcula sufre en los intervalos [ti−1 , ti ] no influyen de modo alguno en el desplazamiento Btk − Btk−1 que sufre en el intervalo [tk−1 , tk ]. Que Bt tenga media cero refleja que la part´ıcula tiene la misma predisposici´on a moverse hacia arriba que hacia abajo. La varianza crece como la longitud h del intervalo: con el tiempo se hacen m´as frecuentes las grandes desviaciones de la part´ıcula. 2) Consideremos ahora un recorrido aleatorio con un gran n´ umero de pasos siendo el tama˜ no de cada paso muy peque˜ no; ese recorrido aleatorio puede parecer una aproximaci´ on razonable para el movimiento de la part´ıcula descrito en la observaci´ on anterior. Veamoslo intuitivamente: supongamos que la part´ıcula comienza en 0 y salta cada 4t segundos movi´endose una distancia 4x hacia arriba con probabilidad 1/2 o hacia abajo con la misma probabilidad (s´olo consideramos una componente del movimiento). Si Xn (t) es la posici´on de la part´ıcula en el instante t = n4t, entonces Xn (t) es la suma de v.a.r. independientes Y1 , ..., Yn donde 1 P (Yi = 4x = P (Yi = −4x) = , 1 ≤ i ≤ n. 2 Entonces, Var[Xn (t)] = n(4x)2 = Xn (t) =

t 2 4t (4x)

y

√ Y1 + · · · + Yn √ √ n4x = Zn n4x n4x

donde Zn tiene media cero y varianza 1. Supongamos ahora que 4x −→ 0 y 4t −→ 0 de tal forma que el proceso l´ımite no sea trivial (si tomamos 4x = 4t y hacemos que 4t −→ 0 entonces E[Xn (t)] y Var[Xn (t)] convergen ambos a 0 y el l´ımite ser´ıa trivial), por ejemplo, supongamos que se verifica lo anterior y que, cuando (4x)2 −→4t→0 σ 2 > 0. 4t Entonces, el teorema l´ımite central prueba que Xn (t) converge en distribuci´on a una v.a. d

normal N (0, σ 2 t), digamos Xn (t) −→n→∞ Bt . Si 0 ≤ t1 < · · · < tk , un argumento an´alogo prueba la convergencia en distribuci´on de (Xn (t1 ), ..., Xn (tk )) a (Bt1 , ..., Btk ), como quer´ıamos probar.

´ n 4: Ca ´ lculo de Segundo Orden Leccio A lo largo de esta lecci´on, (Xt )t∈T ser´ a un L2 –proceso, con T un intervalo de R. Intentaremos desarrollar una teor´ıa en la que sea posible hablar de continuidad, diferenciaci´on e integraci´on del proceso. Puesto que el conocimiento de la funci´on de covarianzas no revela propiedad alguna de este tipo de las trayectorias, desarrollaremos esos conceptos en sentido L2 . L2

L2

Lema 10. Sean (Yn )n , (Zm )m , Y y Z variables aleatorias en L2 . Si Yn −→ Y y Zm −→ Z entonces E(Yn Zm ) −→n,m→∞ E(Y Z). Demostraci´ on. Es simplemente el enunciado de que el producto escalar en L2 es continuo en ambas variables. El siguente resultado muestra c´omo la existencia de un l´ımite L2 puede deducirse de la existencia de l´ımites de sucesiones en C. Teorema 11. Sean (Ys )s∈T un L2 –proceso y s0 ∈ T . Son equivalentes L2

(i) Existe Y ∈ L2 tal que Ys −→s→s0 Y . (ii) Existe un n´ umero complejo L tal que para cada par de sucesiones sn → s0 y s0m → s0 , se tiene que E(Ysn Ys0m ) −→n,m→∞ L L2

Demostraci´ on. (i)=⇒(ii). Si Ys −→s→s0 Y , entonces, por el lema anterior, E(Ysn Ys0m ) −→n,m→∞ L. (ii)=⇒(i). Sea L ∈ C verificando (ii). Elijamos sn −→ s0 . Entonces E[|Ysn − Ysm |2 ] = E[(Ysn − Ysm )(Ysn − Ysm )] −→n,m→∞ 0 por hip´otesis. Siendo L2 completo, (Ysn )n converge en L2 a un l´ımite Y . Si tomamos otra sucesi´on tn → s0 , entonces kYtn − Y k2 ≤ kYtn − Ysn k2 + kYsn − Y k2 y E[|Ytn − Ysn |2 ] = E(Ytn Ytn ) − E(Ytn Ysn ) − E(Ysn Ytn ) + E(Ysn Ysn ) = L − L − L + L = 0. L2

Luego Ytn −→ Y y el resultado se sigue de ah´ı. Como siempre, K denotar´a la funci´on de covarianzas del L2 –proceso (Xt )t∈T y m la funci´on de medias: m(t) = mt = E(Xt ), t ∈ T . Definiciones. (L2 –continuidad, L2 –diferenciabilidad) El proceso (Xt )t∈T se dice L2 – L2

continuo en el punto t ∈ T si y s´olo si Xt+h −→h→0 Xt . El proceso se dice L2 –diferenciable en t ∈ T si (Xt+h − Xt )/h converge en L2 a un l´ımite Xt0 cuando h → 0. 24

25 Teorema 12. Supongamos que m es continua en T . Entonces el proceso (Xt )t∈T es L2 –continuo en t ∈ T si y s´olo si K es continua en (t, t). Demostraci´ on. Puesto que (Xt )t∈T es L2 –continuo si y s´olo si (Xt −mt )t es L2 –continuo y que (Xt − mt )t tiene funci´on de covarianzas K, podemos suponer m ≡ 0. Si el proceso es L2 continuo en t ∈ T entonces L2

L2

Xt+h −→h→0 Xt ,

Xt+h0 −→h0 →0 Xt

y, por el lema anterior, K(t + h, t + h0 ) −→h,h0 →0 K(t, t). Luego K es continua en (t, t). Rec´ıprocamente, si K es continua en (t, t) entonces E[|Xt+h − Xt |2 ] = E[(Xt+h − Xt )(Xt+h − Xt )] = K(t + h, t + h) − K(t, t + h) − K(t, t + h) + K(t, t) −→h→0 0. Corolario 13. Si K es continua en (t, t) para todo t ∈ T , entonces K es continua en (s, t) para todos s, t ∈ T . L2

Demostraci´ on. Suponemos que m ≡ 0. Por el teorema anterior, Xs+h −→h→0 Xs y L2

Xt+h0 −→h0 →0 Xt . Por el lema, K(s + h, t + h0 ) −→h,h0 →0 K(s, t). En el caso estacionario se obtienen resultados an´alogos. Teorema 14. Sea (Xt )t∈T un L2 –proceso estacionario con funci´on de covarianzas K = K(t), t ∈ {u − v : u, v ∈ T }. a) Si el proceso es L2 –continuo en un punto s entonces K es continua en el origen. b) Si K es continua en el origen entonces K es continua en todo punto y el proceso es L2 –continuo en cada punto t ∈ T . L2

L2

Demostraci´ on. a) Tenemos que Xs+t −→t→0 Xs y Xs −→t→0 Xs y, por el lema, K(t) −→t→0 K(0). b) Puesto que E[|Xt+h − Xt |2 ] = K(0) − K(h) − K(h) + K(0) −→h→0 0 el proceso es L2

L2

continuo en cada punto t. Entonces, Xs+t+h −→h→0 Xs+t y Xs −→h→0 Xs y, por el lema, K(t + h) −→h→0 K(t). En el siguiente resultado relacionamos la L2 –diferenciabilidad del proceso y la diferenciabilidad de la funci´on de covarianzas en el caso estacionario. Teorema 15. Sea (Xt )t∈T un L2 –proceso estacionario con funci´on de covarianzas K = K(t). Si el proceso es L2 –diferenciable en todo punto t ∈ T entonces K es dos veces diferenciable en T y (Xt0 )t∈T es un L2 –proceso estacionario con funci´on de covarianzas −K 00 (t).

26 L2

X

L2

−X

Demostraci´ on. Puesto que Xs+t −→h→0 Xs+t y s+hh s −→h→0 Xs0 se sigue del lema que K(t − h) − K(t) −→h→0 E(Xs+t · Xs0 ). h Entonces K es diferenciable en cada punto t ∈ T y −K 0 (t) = E(Xs+t Xs0 ). Por otra parte, puesto que Xs+t+h0 − Xs+t L2 0 −→h0 →0 Xs+t h0 se sigue del lema y de lo anterior que

L2

y Xs0 −→h0 →0 Xs0

−K 0 (t + h0 ) + K 0 (t) 0 −→h0 →0 E(Xs+t Xs0 ). h0 0 X 0 ). Existe pues K 00 (t) para cada t ∈ T y vale −E(Xs+t s

Introducimos ahora la noci´on de integraci´ on en sentido L2 . ´ n. (L2 –integral) Sea (Xt )a≤t≤b , (a, b ∈ R), un L2 –proceso con funci´on de Definicio covarianzas K y funci´on de medias m, y sea g : [a, b] −→ C una aplicaci´on. Definamos Rb a g(t)Xt dt como sigue: Sea ∆ = {a = t0 < t1 < · · · < tn = b} una partici´on de [a, b] con |∆| = m´ax1≤i≤n |ti − ti−1 |; hagamos n X g(tk )Xtk (tk − tk−1 ) I(∆) = k=1

Es claro que I(∆) ∈ que

L2 .

Si I(∆) converge en L2 a alguna v.a. I cuando |∆| → 0 diremos Z I= a

b

g(t)Xt dt.

El siguiente teorema da una condici´on suficiente para la L2 –integrabilidad. Teorema 16. Si m y g son continuas en [a, b] y K es continua en [a, b]×[a, b], entonces g(t)Xt es L2 –integrable en [a, b]. Demostraci´ on. Podemos suponer m ≡ 0. Sean ∆ = {a = s0 < s1 < · · · < sm = b} y ∆0 = {a = t0 < t1 < · · · < tn = b}. Entonces I(∆)I(∆0 )

=

n m X X

g(sj )g(tk )Xsj Xtk (sj − sj−1 )(tk − tk−1 );

j=1 k=1

por tanto, E[I(∆)I(∆0 )]

=

n m X X

g(sj )g(tk )K(sj , tk )(sj − sj−1 )(tk − tk−1 )

j=1 k=1

es una suma que aproxima a una integral de Riemann. El teorema que sigue al lema de esta lecci´on prueba que I(∆) converge en L2 a un l´ımite I cuando |∆| → 0.

27 Observaciones. 1) La hip´otesis de continuidad de g puede ser debilitada a continuidad c.s. respecto a la medida de Lebesgue. 2) El teorema anterior es un caso particular del siguiente resultado: Si f es una funci´on continua definida en [a, b] y a valores en un espacio de Banach, entonces la integral de Rb Riemann a f (t)dt existe. Este resultado se puede probar imitando una de las pruebas cl´asicas de la existencia de la integral de Riemann de una funci´on real continua en [a, b]. En nuestro caso la aplicaci´on f es t ∈ [a, b] → g(t)Xt ∈ L2 . Veamos algunas propiedades de la L2 –integral. Teorema 17. Si m ≡ 0, g y h son continuas en [a, b] y K es continua en [a, b] × [a, b], entonces "Z # Z Z Z b b b b E g(s)Xs ds h(t)Xt dt = g(s)h(t)K(s, t)dsdt. a

a

Adem´as

·Z

a

a

¸ ·Z b ¸ g(s)Xs ds = E h(t)Xt dt = 0.

b

E a

a

Demostraci´ on. Sean I(∆) =

m X

g(sj )Xsj (sj − sj−1 ),

j=1

J(∆0 ) =

n X

h(tk )Xtk (tk − tk−1 ),

k=1

Z I= a

Z

b

g(s)Xs ds y J =

b

a

h(t)Xt dt.

Por el teorema anterior, L2

I(∆) −→ I,

L2

J(∆0 ) −→ J.

Por el lema, E[I(∆)J(∆0 )] −→ E[IJ]. Se prueba, como en el teorema anterior, que Z bZ E[I(∆)J(∆0 )] −→

b

g(s)h(t)K(s, t)dsdt a

a

lo que prueba la primera afirmaci´on. L2

L2

Por otra parte, I(∆) −→ I y 1 −→ 1 y, por el lema, E[I(∆)] −→ E[I]. Pero E[I(∆)] ≡ 0 y, por tanto, E[I] = 0. An´alogamente, E[J] = 0. Teorema 18. Si m ≡ 0, h es continua en [a, b] y K es continua en [a, b] × [a, b], entonces " Z # Z b b E Xs h(t)Xt dt = K(s, t)h(t)dt. a

a

28 Demostraci´ on. Sean J(∆0 ) =

Pn

k=1 h(tk )Xtk (tk

L2

− tk−1 ) y J =

Rb a

h(t)Xt dt. Entonces

J(∆0 ) −→ J. Como en el teorema anterior, Z E[Xs

J(∆0 )]

−→

b

K(s, t)h(t)dt a

de donde se sigue el resultado. Ejemplos. 1) Consideremos v.a.r. Xt , t ∈ R, independientes con media cero y varianza com´ un σ 2 . Entonces (Xt )t∈R es un L2 –proceso estacionario (en sentido amplio, se sobreentiende siempre en este cap´ıtulo) con covarianza K(t) = K(t, 0) = E(X0 · Xt ) = 0 · 0 = 0 si t 6= 0, K(0) = K(0, 0) = E(X02 ) = Var (X0 ) = σ 2 . Se sigue de los resultados precedentes que el proceso no es L2 –continuo. 2) (Movimiento browniano) El movimiento browniano (Bt )t≥0 es L2 –continuo pero no 2 L –diferenciable. Es L2 –continuo pues K(s, t) = σ 2 m´ın(s, t) es continua. Por otra parte, del teorema que sigue al lema se sigue que E[(Xt+h − Xt )(Xt+h0 − Xt )] hh0 converge a un u ´nico l´ımite finito cuando h y h0 tienden a cero si y s´olo si Xt+h − Xt h converge a un l´ımite en L2 cuando h → 0. En nuestro caso, en L2 cuando h tiende a cero si y s´olo si

Bt+h −Bt h

converge a un l´ımite

[K(t + h, t + h0 ) − K(t, t + h0 ) − K(t, t + h) + K(t, t)] hh0 converge a un l´ımite finito cuando h, h0 → 0. Puesto que K(s, t) = σ 2 m´ın(s, t), tomando h = h0 > 0 se obtiene que la expresi´on anterior es igual a σ2

t+h−t−t+t σ2 = h2 h

que converge a infinito cuando h tiende a cero. Luego (Bt )t≥0 no es L2 –diferenciable.

´ n 5: Desarrollo de Karhunen–Loe `ve. Leccio Sea (Xt )a≤t≤b , a, b ∈ R, un L2 –proceso con media cero y funci´on de covarianzas continua K. Nos preguntamos por la posibilidad de obtener un desarrollo ortogonal de Xt : Xt =

∞ X

Zk ek (t),

a ≤ t ≤ b,

k=1

donde la serie converge en L2 ; deseamos que las Zk sean v.a. en L2 de media cero y ortogonales, es decir, tales que E(Zj Zk ) = 0 si j 6= k; deseamos tambi´en que las funciones ek : T −→ C sean ortonormales, es decir, que ½ Z b 0 si j 6= k ej (t)ek (t)dt = 1 si j = k a P P L2 L2 As´ı, si nj=1 Zj ej (s) −→n→∞ Xs y nk=1 Zk ek (t) −→n→∞ Xt , el lema de la lecci´on anterior prueba que n X Zj Zk ej (s)ek (t)] −→n→∞ K(s, t) E[ j,k=1

es decir, K(s, t) =

∞ X

λk ek (s)ek (t)

k=1

donde λk = E(|Zk

|2 ).

Supuesto que podemos integrar t´ermino a t´ermino, tendr´ıamos Z a

b

K(s, t)en (t)dt = λn en (s), a ≤ s ≤ b.

Entonces, si un desarrollo como el anterior existe, las funciones ek aparecen como autovectores (autofunciones) del operador integral asociado con la funci´on de covarianzas del proceso, y las varianzas λk de las v.a. Zk son los autovalores del operador. N´otese que si λn 6= 0 entonces en es continua (dividir la u ´ltima expresi´on por λn y utilizar el teorema de la convergencia dominada). Antes de probar que un desarrollo tal es posible necesitaremos algunos resultados sobre teor´ıa de espacios de Hilbert. Sea K una funci´on de covarianzas continua, es decir, una aplicaci´on K : [a, b]×[a, b] −→ C continua, sim´etrica y semidefinida positiva. Sea A : L2 [a, b] −→ L2 [a, b] el operador integral en L2 [a, b] asociado a K, definido en un punto x ∈ L2 [a, b] por Z (Ax)(s) =

b

K(s, t)x(t)dt, a ≤ s ≤ b. a

Las autofunciones de A (es decir, los puntos x ∈ L2 [a, b] tales que Ax = λx para alg´ un λ ∈ C) engendran L2 [a, b], es decir, el m´as peque˜ no subespacio cerrado de L2 [a, b] que contiene las autofunciones de A es el propio L2 [a, b]. El operador A tiene a lo m´as una cantidad numerable de autovalores, todos ellos reales, con 0 como u ´nico posible punto l´ımite. Los autovalores no nulos son mayores que cero por ser K semidefinida positiva. El 29

30 subespacio engendrado por las autofunciones correspondientes a un autovalor mayor que cero es finito dimensional. Sea {en : n = 1, 2, ...} una base ortonormal para el subespacio engendrado por las autofunciones correspondientes a autovalores no nulos. Si tomamos la base de forma que en es un autovector correspondiente al autovalor λn , el teorema de Mercer prueba que K(s, t) =

∞ X

λn en (s)en (t), ∀(s, t) ∈ [a, b]2 ,

n=1

donde la serie es absolutamente convergente y converge adem´as uniformemente en ambas variables. (Ver Riesz and Sz. Nagy: ”Funtional Analysis”, 1955, ´o Assh, R.B.: ”Information Theory”, 1965, para los resultados precedentes). Estamos ya en condiciones de establecer el teorema que dese´abamos. Teorema 19. (Karhunen–Lo`eve) Sea (Xt )a≤t≤b , a, b ∈ R, un L2 –proceso con media cero y funci´on de covarianzas continua K. Sea (en )n=1,2,... una base ortonormal del subespacio cerrado engendrado por las autofunciones de los autovalores no nulos del operador integral asociado a K, donde en es un autovector correspondiente al autovalor λn . Entonces Xt =

∞ X

Zn en (t), a ≤ t ≤ b,

n=1

Rb

donde Zn = a Xt en (t)dt, y las Zn son v.a. ortogonales con media cero y varianzas E(|Zn |2 ) = λn . La serie converge en L2 a Xt uniformemente en t ∈ [a, b], en otras palabras, n X Zk ek (t)|2 ] −→n→∞ 0. sup E[|Xt − t∈[a,b]

k=1

Demostraci´ on. El teorema 16 prueba que teorema 17 prueba que E(Zn ) = 0 y que E(Zj Zk ) = λk Sea Sn,t = (8) (9)

Pn

k=1 Zk ek (t).

E[|Xt − Sn,t |2 ]

= Rb a

Rb

a

Xt en (t)dt define una v.a. Zn en L2 . El

Rb

K(s, t)ek (t)dtds ½ 0 si j 6= k ej (s)ek (s)ds = λk si j = k a

ej (s)

Rb

a

Entonces

= E(|Xt |2 ) − 2Re E(Xt Sn,t ) + E[|Sn,t |2 ] P P = K(t, t) − 2Re nk=1 E(Xt Zk )ek (t) + nk=1 λk |ek (t)|2 .

Por el teorema 18, E(Xt Zk ) =

Rb a

K(t, u)ek (u)du = λk ek (t). Entonces,

E[|Xt − Sn,t |2 ] = K(t, t) −

n X

λk |ek (t)|2 −→n→∞ 0

k=1

uniformemente en t ∈ [a, b], por el teorema de Mercer.

31 Para un proceso gaussiano el teorema de Karhunen–Lo`eve toma una forma especial; necesitamos el siguiente resultado previo: Teorema 20. Para n = 1, 2, ..., sean I1n , ..., Ipn v.a. complejas con distribuci´on conL2

junta normal. Supongamos que Ijn −→ Ij , cuando n → ∞, 1 ≤ j ≤ p. Entonces I1 , ..., Ip tienen distribuci´on conjunta normal. Demostraci´ on. Puesto que la L2 convergencia de v.a. complejas es equivalente a la L2 convergencia de sus partes real e imaginaria, podemos suponer reales todas las v.a. consideradas. La funci´on caracter´ıstica conjunta de I1n , ..., Ipn es hn (u1 , ..., up ) = E[exp(i = exp[i

p X

uj Ijn )]

j=1 p X

1 uj bnj ] exp[−

j=1

2

p X

n uj σjm um ]

j,m=1

n = Cov (I n , I n ). El lema 10 prueba que bn → b = E(I ) y donde bnj = E(Ijn ) y σjm j j m j j n σjm → σjm = Cov (Ij , Im ). Entonces

(10)

hn (u1 , ..., up ) −→ exp(i

p X j=1

p 1 X n uj σjm um ], uj bj ] exp[− 2 j,m=1

para cada (u1 , ..., up ) ∈ Rp . Pero u1 I1n + · · · + up Ipn converge a u1 I1 + · · · + up Ip en L2 y, entonces, en probabilidad y, entonces, en distribuci´on. Por el teorema de L`evy, la funci´on caracter´ıstica de u1 I1n + · · · + up Ipn converge puntualmente a la funci´on caracter´ıstica de u1 I1 + · · · + up Ip , es decir, E[exp(it

p X

uj Ijn )]

−→n→∞ E[exp(it

j=1

p X

uj Ij )], ∀t ∈ R,

j=1

y, en particular, para t = 1. Por tanto, hn (u1 , ..., up ) −→ h(u1 , ..., up ), donde h es la funci´on caracter´ıstica conjunta de I1 , ..., Ip . De esto y de (10) se sigue que I1 , ..., Ip tienen distribuci´on conjunta normal. Teorema 21. (Karhunen–Lo`eve para procesos gaussianos) En las hip´otesis del teorema de Karhunen–Lo`eve, si adem´as (Xt )t es un proceso gaussiano, entonces las Zk forman una sucesi´on gaussiana, es decir, Z1 , ..., Zk tienen distribuci´on conjunta normal para cada k ≥ 1. Si las v.a. Xt son reales, entonces las Zk son independientes. P Demostraci´ on. Sea Ij (∆) = nm=1 Xtm ej (tm )(tm − tm−1 ), j = 1, ..., p, una suma aproRb ximada a Zj = a Xt ej (t)dt. De las propiedades de la distribuci´on normal multivariante se L2

sigue que I1 (∆), ..., Ip (∆) tienen distribuci´on conjunta normal. Pero Ij (∆) −→ Zj cuando

32 |∆| → 0, 1 ≤ j ≤ p. Luego Z1 , ..., Zp tienen distribuci´on conjunta normal por el teorema anterior. En el caso real, puesto que E(Zj · Zk ) = Cov(Zj , Zk ) = 0 si j 6= k (las Zk son ortogonales), las Zj son dos a dos incorreladas y, entonces, independientes. Observaci´ on. As´ı pues, para un proceso gaussiano real, el desarrollo de Karhunen– Lo`eve es una serie de v.a. independientes. Puesto que la serie converge en L2 (por tanto, en distribuci´on), para cada t fijo, la serie converge con P probabilidad 1. Existe pues un suceso Nt de probabilidad 0 tal que, para cada ω ∈ / Nt , ∞ n=1 Zn (ω)en (t) converge a Xt (ω). Son demasiados N Pt como para poder concluir de ah´ı que existe un suceso N de probabilidad nula tal que ∞ / N , ∀t. No n=1 Zn (ω)en (t) converge a Xt (ω), ∀ω ∈ P obstante, se prueba que existe un suceso N de probabilidad 0 tal que, para cada ω ∈ / N, ∞ n=1 Zn (ω)en (t) converge a Xt (ω) para casi todo t (medida de Lebesgue). Ejemplo 3. Sea K(s, t) = m´ın(s, t), s, t ∈ [0, 1] (si suponemos adem´as que el proceso es gaussiano obtenemos un movimiento browniano restringido a [0, 1]). Para encontrar los autovalores del operador integral asociado a K, debemos resolver la ecuaci´on integral Z

1

m´ın(s, t)e(t)dt = λe(s),

0 ≤ s ≤ 1,

0

es decir, Z (11)

Z

s

te(t)dt + s

1

e(t)dt = λe(s),

0

0 ≤ s ≤ 1.

s

Si λ 6= 0, entonces e es continua y podemos derivar con respecto a s para obtener Z

1

(12)

e(t)dt = λe0 (s).

s

Derivemos de nuevo para obtener −e(s) = λe00 (s).

(13)

Si λ = 0, el desarrollo anterior da e(s) = 0 c.s. con lo cual 0 no es un autovalor. La soluci´on de la ecuaci´on diferencial anterior es s s e(s) = A sin √ + B cos √ . λ λ

(14)

Hagamos s = 0 en (19) para obtener e(0) = 0; luego B = 0 en (30). Hagamos ahora s = 1 en (27) para obtener e0 (1) = 0. Luego 1 cos √ = 0, λ

´o

1 π √ = (2n − 1) , n = 1, 2, ... 2 λ

Los autovalores son entonces λn =

4 /π 2 (2n − 1)2

33 y las autofunciones ortonormalizadas son en (t) =

√ 2n − 1 2 sin πt, n = 1, 2, ... 2

√ Finalmente, haciendo Zn∗ = Zn / λ, donde las Zn son como en el teorema de Karhunen– Lo`eve, se obtiene ∞ √ X sin(n − 12 )πt Xt = 2 Zn∗ (n − 21 )π n=1 donde las Zn∗ son ortogonales con media 0 y varianza 1. En el caso gaussiano son independientes y, entonces, para cada t la serie converge c.s.. De hecho puede probarse (ver problema 1.4.5. en Ash, Gardner) que existe un suceso nulo N tal que si ω ∈ / N , entonces n

2 √ X Zk∗ (ω) 1 2 sin(k − )πt 1 2 (k − 2 )π k=1

converge cuando n → ∞, digamos a Yt (ω), uniformemente para t ∈ [0, 1]. Entonces, si ω∈ / N , Yt (ω) es continua en t y si hacemos Yt (ω) = 0 para ω ∈ / N y todo t, entonces Yt (ω) es continua en t para todo ω. Ahora bien, para cada t, Xt (ω) = Yt (ω) para casi todo ω y, en ese sentido, (Xt )0≤t≤1 es equivalente a (Yt )0≤t≤1 ; en particular, los dos procesos tienen las mismas distribuciones finito–dimensionales y, entonces, la misma funci´on de covarianzas. He aqu´ı otra forma de probar la existencia de un movimiento browniano con trayectorias continuas.

´ n 6: Problemas de Estimacio ´ n. Leccio Sea (Xt )t∈T un L2 –proceso, y sea S = L2 {Xt , t ∈ T } el subespacio cerrado engendrado por las Xt , es decir, S consiste en todos los L2 –l´ımites de combinaciones lineales finitas de Xt0 s. Podemos pensar en S como en el espacio de todas las v.a. que se obtienen por una operaci´on lineal en las Xt . As´ı pues, las L2 –derivadas y las L2 –integrales de (Xt )t∈T , si existen, est´an en S. Por otra parte, la aplicaci´on X = (Xt )t∈T : (Ω, A, P ) −→ (RT , RT ),

(´ o CT , B(CT ))

definida por X(ω) = (Xt (ω))t∈T para cada ω ∈ Ω es medible. Sea AX = X −1 (RT ) la σ–´algebra engendrada por X. Es sabido que una aplicaci´on Z : Ω −→ R es AX –medible si y s´olo si existe una v.a.r. g : (RT , RT ) −→ (R, R) tal que Z = g ◦ X (algo an´alogo es tambi´en cierto en el caso complejo). Diremos de Z que es una funci´on Borel medible de X en ese caso. Denotemos S0 = L2 (Ω, AX , P ) (es decir, la clase de las funciones medibles de X que pertenecen a L2 ). Consideraremos dos problemas de estimaci´on. Sea Y una v.a.r. en L2 (Ω, A, P ): 1) Encontrar el elemento Yˆ de S m´ as pr´oximo a Y , es decir, Yˆ ∈ S e kYˆ − Y k = ˆ ´ınf W ∈S kW − Y k. Entonces Y es el mejor estimador de Y basado en una operaci´on lineal de las Xt . 2) Encontrar el elemento Y ∗ de S0 m´ as pr´oximo a Y . Entonces Y ∗ es el mejor estimador de Y basado en una operaci´on Borel medible arbitraria de las Xt . Dicho de otro modo, Yˆ es la proyecci´ on ortogonal de Y sobre S, caracterizada como el elemento de S (identificamos v.a. que coinciden c.s.) tal que Y − Yˆ ⊥S. Equivalentemente, Y − Yˆ es ortogonal a todas las Xt , es decir, E(Y · Xt ) = E(Yˆ · Xt ),

∀t ∈ T.

Ejemplo 4. Sea Xn = Zn + Wn , n ∈ Z; interpretaremos Z como una ”se˜ nal W como un ruido”no deseable. Supongamos que (Zn )n y (Wn )n son estacionarios con media cero y funciones de covarianzas KZ y KW . Supongamos tambi´en que Zn y Wm son incorreladas para todo par n, m ∈ Z. Pretendemos estimar una v.a. Y a partir de una combinaci´on lineal en Xr , Xr−1 , ..., Xr−M . As´ı pues, PM en este caso, T = {r, r − 1, ..., r − M } y S consiste en todas las combinaciones lineales j=0 cj Xr−j . Por ejemplo, si Y = Zr+α , α ∈ N, α > 0, tenemos un problema de ”predicci´on”; siP Y = Zr tenemos un problema de ”suavizaci´on”. ˆ ˆ Puesto que Y ∈ S podemos escribir Y = M j=0 hj Xr−j para algunas constantes h0 , ..., hM . ˆ Y queda caracterizado por las condiciones 2

E(Y · Xr−i ) = E(Yˆ · Xr−i ), i = 0, 1, ..., M o bien E(Y · Xr−i ) =

M X

KX (i − j)hj , i = 0, 1, ...M.

j=0

Si Y = Zr+α entonces E(Y · Xr−i ) = E(Zr+α [Zr−i + Wr−i ] = KZ (α + i); 34

35 adem´as KX = KZ + KW . Entonces,  KX (0) KX (−1) ···  KX (1) KX (0) ···   ..  .

las ecuaciones que determinan    KX (−M ) h0    KX (−M + 1)    h1     .. = ..  .   . KX (M ) KX (M − 1) · · · KX (0) hM

Yˆ son KZ (α) KZ (α + 1) .. .

   . 

KZ (α + M )

N´otese que si KX es singular (de modo que Xr , ..., Xr−M son linealmente dependientes) existen infinitas soluciones a esa ecuaci´on, pero todas ellas corresponden (c.s.) al mismo Yˆ puesto que Yˆ es u ´nico en virtud del teorema de la proyecci´ on ortogonal. En vista de la dependencia lineal, cada elemento de S puede representarse de muchas formas como combinaci´on lineal de Xr , ..., Xr−M . Consideremos ahora el segundo problema. Se verifica que Y ∗ = E(Y |AX ) (que se denota tambi´en por E(Y |X) sin que ello nos lleve a confusi´on). En efecto, Y ∗ es la proyecci´on de Y sobre S0 y, por tanto, < Y, Z >=< Y ∗ , Z > , ∀Z ∈ S0 . En particular, si A ∈ AX y Z = IA , Z Z Y dP = Y ∗ dP ; A

A

adem´as Y ∗ ∈ S0 y, por tanto, es AX –medible. N´otese que S ⊂ S0 y, entonces, kY − Y ∗ k ≤ kY − Yˆ k. Existe un caso particularmente importante en el que Yˆ = Y ∗ , con lo cual el mejor estimador lineal coincide con el mejor estimador. Teorema 22. Si {Y } ∪ {Xt : t ∈ T } es un proceso gaussiano y todas las variables tienen media cero entonces Yˆ = Y ∗ . Demostraci´ on. Puesto que Yˆ ∈ S, Yˆ es L2 –l´ımite de alguna sucesi´on de combinaciones lineales finitas de Xt0 s, digamos Yn =

rn X

2

L cnj Xtnj −→ Yˆ .

j=1

Dados t1 , ..., tm , Y − Yn , Xt1 , ..., Xtm tienen distribuci´on conjunta normal (pues el vector Y − Yn , Xt1 , ..., Xtm se obtiene multiplicando el vector Y, Xt1 , ..., Xtm por una matriz y ´este u ´ltimo tiene distribuci´on conjunta normal) y, entonces, por el teorema ?? Y − Yˆ , Xt1 , ..., Xtm tienen distribuci´on conjunta normal. Luego {Y − Yˆ } ∪ {Xt : t ∈ T } es un proceso gaussiano. Fijemos t1 , ..., tn . Puesto que Y − Yˆ es ortogonal a todas las Xt , la matriz de covarianzas de Y − Yˆ , Xt1 , ..., Xtn tiene la forma   a 0 0 ··· 0  0 b11 b12 · · · b1n      K =  0 b21 b22 · · · b2n  .   .. ..   . . 0 bn1 bn2 · · ·

bnn

36 Si a = Var (Y − Yˆ ) = 0, entonces Y = Yˆ c.s. y, entonces, Y ∈ S ⊂ S0 , con lo cual Y = Y ∗ c.s. y, habremos terminado. Supongamos ahora a > 0. Si B = (bij )i,j=1,...,n es no singular, K −1 es de la misma forma que K. Se sigue de la forma de la densidad conjunta de Y − Yˆ , Xt1 , ..., Xtn que Y − Yˆ y Xt1 , ..., Xtn son independientes. Si B es singular, el mismo argumento prueba que Y − Yˆ y Xs1 , ..., Xsr son independientes, donde {Xs1 , ..., Xsr } es un subconjunto libre maximal de {Xt1 , ..., Xtn }. Puesto que, en ese caso (Xt1 , ..., Xtn ) es una funci´on lineal de (Xs1 , ..., Xsr ), Y −Yˆ y (Xt1 , ..., Xtn ) son independientes tambi´en en el caso B singular. Puesto que t1 , ..., tn son arbitrarios, Y − Yˆ y X son independientes. Entonces E(Y − Yˆ |AX ) = E(Y − Yˆ ) = 0 (pues Y y las Xt tienen media 0). Pero Yˆ ∈ S ⊂ S0 y, entonces, Yˆ es AX –medible. Se sigue pues que E(Yˆ |AX ) = Yˆ . Luego Y ∗ = E(Y |AX ) = Yˆ .

´ n 7: El filtro de Kalman. Leccio Consideremos el siguiente modelo para un proceso estoc´astico: X(k + 1) = Φ(k)X(k) + U (k), k = 0, 1, 2, ... donde X(k) y U (k) son v.a. n–dimensionales y Φ(k) es una matriz cuadrada de orden n conocida. Si X(k) representa el estado del sistema en el instante k, X(k + 1) es una transformaci´on lineal conocida de X(k) m´as un “ruido” aleatorio U (k). Supondremos que las U (k) tienen media 0 y son ortogonales: E[U (j)U ∗ (k)] = Q(k)δjk donde ∗ denota el traspuesto conjugado, δjk es la delta de Kronecker y Q(k) es una matriz de orden n semidefinida positiva. Supondremos tambi´en que no podemos observar directamente X(k) pero que, en su lugar, observamos un proceso V (k) relacionado con X(k) mediante: V (k) = H(k)X(k) + W (k), k = 0, 1, 2, ... donde V (k) y W (k) son v.a. m–dimensionales y H(k) una matriz de orden m×n conocida. As´ı V (k), la observaci´on en el instante k, es una conocida transformaci´on lineal de X(k) m´as un ruido aleatorio W (k). Supondremos tambi´en que las W (k) tienen media 0 y son ortogonales: E[W (j)W ∗ (k)] = R(k)δjk . Supondremos finalmente que X(0) y los procesos ruido (U (k))k y (W (k))k son mutuamente ortogonales, es decir, para cada j, k = 0, 1, 2, ..., E[U (j)W ∗ (k)], E[X(0)U ∗ (j)] y E[X(0)W ∗ (k)] son matrices nulas. Antes de continuar con el problema planteado por Kalman veamos algunos conceptos y resultados u ´tiles a la hora de resolver dicho problema. ˆ Pretendemos encontrar el estimador de m´ınimos cuadrados X(k) de X(k) basado en ˆ las observaciones anteriores V (0), ..., V (k − 1). As´ı X(k) ser´a el vector n–dimensional ˆ i (k), es la proyecci´ cuya i–´esima componente, X on ortogonal de la i–´esima componente de X(k), Xi (k), sobre el subespacio de L2 (Ω, A, P ) generado por las componentes de V (0), ..., V (k − 1). ´ n. (Estimador lineal de m´ınima varianza) Sean X ∈ Ln2 (Ω, A, P ) e Y ∈ Definicio El estimador lineal de m´ınima varianza de X basado en Y es una v.a. n– ˆ ∈ Ln (Ω, A, P ) tal que dimensional de cuadrado sumable X 2 ˆ = K · Y para alguna matriz escalar K de orden n × m. 1)X ˆ − Xk es m´ınimo entre todos los estimadores de X de la forma C · Y siendo C 2) kX una matriz de orden n × m. Lm 2 (Ω, A, P ).

Observaciones. 1) En Ln2 (Ω, A, P ) la operaci´on < X, Y >≡ E(X t · Y ) es un producto interior y Ln2 (Ω, A, P ) dotado con dicha operaci´on es un espacio de Hilbert. 2) Si M es un subespacio cerrado de L2 (Ω, A, P ) entonces M n es un subespacio cerrado de Ln2 (Ω, A, P ). ˆ = (X ˆ 1 , ..., X ˆ n ) es la proyecci´ ˆ i es 3) X on de X = (X1 , ..., Xn ) sobre M n si y s´olo si X la proyecci´on de Xi sobre M , para cada i. Teorema 23. (Gauss–Markov) Sean X e Y v.a. n– y m–dimensionales de cuadrado ˆ = K ·Y sumable. Entonces el estimador lineal de m´ınima varianza de X basado en Y es X t t −1 t donde K = E(XY )E(Y Y ) , si E(Y Y ) es inversible. Adem´as ˆ − X)(X ˆ − X)t ] = E(XX t ) − KE(Y X t ). E[(X 37

38 Demostraci´ on. Denotemos por M el subespacio lineal de L2 (Ω, A, P ) generado por ˆ i la proyecci´ las componentes Y1 , ..., Ym de Y . Para cada i ∈ {1, ..., n}, sea X on de la ˆ coordenada i–´esima Xi de X sobre M . Xi ser´ a de la forma ˆi = X

m X

kij Yj .

j=1

ˆ i − Xi ⊥ M , 1 ≤ i ≤ n, se tiene que Puesto que X 0 = E[(Xi −

m X

kij Yj )Yr ], 1 ≤ r ≤ m,

j=1

es decir, E(Xi Yr ) =

m X

kij E(Yj Yr ), 1 ≤ r ≤ m,

j=1

que en forma matricial se puede expresar como    .. E(Xi Y1 ) E(Y1 Y1 ) .     .. .  = .. . E(Xi Ym ) E(Ym Y1 ) · · · de donde se deduce  ki1  ..  . kim

que 



.. .

E(Y1 Y1 )    .. = . E(Ym Y1 ) · · ·

o bien



 ki1 E(Y1 Ym )  .   ..   ..  . kim E(Ym Ym ) −1 

E(Y1 Ym )   ..  . E(Ym Ym )

 E(Xi Y1 )   ..   . E(Xi Ym )



.. .

 < Y1 , Y1 > .. (ki1 , ..., ki,m ) = (< Y1 , Xi >, ..., < Ym , Xi >)   . < Ym , Y1 > · · · Si K = (kij )i,j , entonces

−1 < Y1 , Ym >   ..  . < Ym , Ym >

.

K = E(XY t )E(Y Y t )−1

como quer´ıamos probar. ˆ − X), Para calcular la covarianza error (que no la matriz de covarianzas del error X notemos que ˆ − X)(X ˆ − X)t ] = E[(X ˆ − X)X ˆ t ] − E[(X ˆ − X)X t ]. E[(X ˆ − X ⊥ M n y, por tanto, E[(X ˆ − X)Y t ] = 0. Entonces, Pero X (15)

ˆ − X)X ˆ t ] = E[(X ˆ − X)(KY )t ] = E[(X ˆ − X)Y t ]K t = 0 E[(X

Luego ˆ − X)(X ˆ − X)t ] = − E[(X ˆ − X)X t ] = E[((X ˆ t ) =E(XX t ) − KE(Y X t ) = E(XX t ) − E(XX

39 Antes de demostrar el teorema de actualizaci´on est´atica veamos un lema t´ecnico. Lema 24. Sean X ∈ Ln2 (Ω, A, P ), Y2 ∈ Lm 2 (Ω, A, P ), M1 un subespacio cerrado de L2 (Ω, A, P ) y M2 el subespacio engendrado por las componentes de Y2 . Denotemos por ˆ 1 la proyecci´on de X sobre M n y por Yˆ2 la proyecci´ X on de Y2 sobre M1m , y hagamos 1 Ye2 = Y2 − Yˆ2 . Entonces, la proyecci´ on de X sobre (M1 + M2 )n viene dada por ˆ2 = X ˆ 1 + E(X Ye2t )E(Ye2 Ye2t )−1 Ye2 X supuesto que la matriz E(Ye2 Ye2t ) es inversible. Demostraci´ on. Puesto que Ye2 := Y2 − Yˆ2 , se deduce que Ye2 ⊥ M1m . Entonces Ye2i ⊥ M1 , f2 el subespacio vectorial 1 ≤ i ≤ m, donde Ye2i denota la componente i–´esima de Ye2 . Sea M e f engendrado por las componentes de Y2 . Entonces M2 ⊥ M1 en L2 (Ω, A, P ). Por tanto, fn ⊥ M n en Ln (Ω, A, P ). M 2 1 2 Por otra parte, puesto que Ye2 = Y2 − Yˆ2 , cada componente de Ye2 es la suma de un f2 es la suma de un vector de M2 y vector de M2 y otro de M1 ; as´ı pues, cada vector en M otro de M1 , es decir, (16)

f2 ⊂ M1 + M2 . M

Adem´as Y2 = Ye2 + Yˆ2 y un argumento similar prueba que (17)

f2 . M2 ⊂ M1 + M

Sumando M1 a cada miembro en (16) y (17) se obtiene f2 . M1 + M2 = M1 + M Entonces f2 )n = M n + M fn , (M1 + M2 )n = (M1 + M 1 2 f2 , (x1 + donde la u ´ltima igualdad se sigue de que si x1 , ..., xn ∈ M1 e y1 , ..., yn ∈ M n n f . y1 , ..., xn + yn ) = (x1 , ..., xn ) + (y1 , ..., yn ) ∈ M1 + M 2 n n n n f ⊥ M , la proyecci´ fn Puesto que M o n de X sobre (M 1 + M2 ) = M1 + M2 , que es igual 2 1 ˆ 2 , es la suma de la proyecci´on de X sobre M n (que es X ˆ 1 ) m´as la proyecci´ aX on de X 1 n f (que, por el teorema de Gauss–Markov es igual a E(X Ye t )E(Ye2 Ye t )−1 Ye2 ), lo que sobre M 2 2 2 acaba la prueba. Nota: Se ha usado que si M y N son subespacios cerrados y m y n son las proyecciones de X sobre M y N respectivamente, entonces, m + n es la proyecci´ on de X sobre M + N . En efecto, dicha proyecci´on existe pues M + N es un subespacio cerrado. Por otra parte, si (xk ) es una sucesi´on en M + N convergente a x entonces xk = mk + nk (mk ∈ M , nk ∈ N ), para cada k ∈ N y kxk − xk0 k2 = kmk − mk0 k2 + knk − nk0 k2 −→k,k0 →∞ 0,

40 que prueba que (mk ) converge a m ∈ M y (nk ) converge a n ∈ N y x = m + n ∈ M + N . Adem´as, para cada m0 ∈ M y n0 ∈ N , < X − m − n, m0 + n0 > =< X − m, m0 > + < X − m, n0 > − < n, n0 > − < n, m0 > =< X − m, n0 > − < n, n0 > =< X − n, n0 > − < m, n0 > . Luego, m + n es la proyecci´on de X sobre M + N . Lema 25. (Teorema de actualizaci´on est´atica) Supongamos que los vectores aleatorios X e Y2 est´an relacionados por Y2 = HX + W donde H es una matriz escalar m × n y W un vector aleatorio tal que R = E(W W t ) ˆ 1 es el estimador lineal de m´ınima varianza de es conocida. Adem´as, supongamos que X ˆ 1 y P1 = X basado en un vector aleatorio Y1 tal que E(Y1 Y1t ) es inversible, y que X t ˆ 1 )(X − X ˆ 1 ) ] son conocidos. Supongamos en fin que E[(X − X E(XW t ) = 0

y E(Y1 W t ) = 0.

µ

¶ Y1 ˆ 2 de X basado en Y Si Y = , entonces el estimador lineal de m´ınima varianza X Y2 viene dado por ˆ2 = X ˆ 1 + P1 H t (HP1 H t + R)−1 (Y2 − H X ˆ 1 ), X ˆ 2 )(X − X ˆ 2 )t ] viene si HP1 H + R es inversible, y el nuevo error covarianza P2 = E[(X − X dado por P2 = P1 − P1 H t [HP1 H t + R]−1 HP1 . Demostraci´ on. Sea M1 el subespacio generado por las componentes de Y1 . Por el teorema de Gauss–Markov, la proyecci´on Yˆ2 de Y2 sobre M1m viene dada por Yˆ2 = E(Y2 Y1t )E(Y1 Y1t )−1 Y1 . Puesto que Y2 = HX + W , se sigue que Yˆ2 =E[(HX + W )Y1t ]E(Y1 Y1t )−1 Y1 =[HE(XY1t ) + E(W Y1t )]E(Y1 Y1t )−1 Y1 =HE(XY1t )E(Y1 Y1t )−1 Y1 ; ˆ1. entonces, Yˆ2 = H X Hagamos Ye2 = Y2 − Yˆ2 . Por el lema anterior, ˆ2 = X ˆ 1 + E(X Ye2t )E(Ye2 Ye2t )−1 Ye2 . X ˆ 1 e Y2 = HX + W , se tiene que Puesto que Yˆ2 = H X ˆ 1 ) + W. Ye2 = Y2 − Yˆ2 = H(X − X

41 Entonces ˆ 1 ) + W )t ] E(X Ye2t ) =E[X(H(X − X ˆ 1 )t H t ] + E(XW t ) =E[X(X − X ˆ 1 )t ]H t . =E[X(X − X ˆ 1 ⊥ M n , se tiene que Xi − X ˆ 1i ⊥ M1 , ∀i. Pero X ˆ 1j ∈ M1 , ∀j. Luego Puesto que X − X 1 t ˆ ˆ ˆ ˆ Xi − X1i ⊥ X1j , ∀i, j. Por tanto, E[X1 (X − X1 ) ] = 0. Se deduce que ˆ 1 )(X − X ˆ 1 )t ]H t = P1 H t . E(X Ye2t ) = E[(X − X An´alogamente, ˆ 1 ) + W )(H(X − X ˆ 1 ) + W )t ] E(Ye2 Ye2t ) =E[(H(X − X ˆ 1 )(X − X ˆ 1 )t ]H t + HE[(X − X ˆ 1 )W t ] =HE[(X − X ˆ 1 )t ]H t + E(W W t ). + E[W (X − X ˆ 1 = KY1 donde K es la matriz escalar del teorema de Gauss–Markov. Entonces Ahora, X ˆ 1 W t ). 0 = K · 0 = KE(Y1 W t ) = E(KY1 W t ) = E(X Por hip´otesis E(XW t ) = 0. Entonces E(Ye2 Ye2t ) = HP1 H t + R. Luego

ˆ2 = X ˆ 1 + P1 H t (HP1 H t + R)−1 (Y2 − H X ˆ 1 ), X

que es la primera parte del lema. Denotemos M = (HP1 H t + R)−1 . Notemos que M = M t . Entonces ˆ2 = X ˆ 1 + P1 H t M (Y2 − H X ˆ1) X y ˆ 2 )(X − X ˆ 2 )t ] P2 =E[(X − X ˆ 1 − P1 H t M Ye2 )(X − X ˆ 1 − P1 H t M Ye2 )t ] =E[(X − X ˆ 1 )(X − X ˆ 1 )t ] − P1 H t M E[Ye2 (X − X ˆ 1 )t ] =E[(X − X ˆ 1 )Ye2 )t ]M HP1 + P1 H t M E(Ye2 Ye2t )M HP1 − E[(X − X ˆ 1 ) + W )(X − X ˆ 1 )t ] =P1 − P1 H t M E[(H(X − X ˆ 1 )(H(X − X ˆ 1 ) + W )t ]M HP1 − E[(X − X + P H t M E[Ye2 Ye2t ]M HP1 =P1 − P1 H t M HP1 − P1 H t M HP1 + P1 H t M M −1 M HP1 =P1 − 2P1 H t M HP1 + P1 H t M HP1 =P1 − P1 H t M HP1 Luego P2 = P1 − P1 H t (HP1 H t + R)−1 HP1 .

42 A partir de ahora consideraremos el modelo que defin´ıamos al comienzo de esta lecci´on. El teorema que sigue proporciona f´ormulas recursivas para el estimador lineal de m´ınimos cuadrados de X(k) basado en las observaciones anteriores y la covarianza error producida por dicha estimaci´on. ˆ Teorema 26. (Kalman, 1960) Sean X(k|j) la proyecci´ on de X(k) sobre Mjn , donde Mj es el subespacio de L2 (Ω, A, P ) generado por las componentes de V (0), V (1), ..., V (j) y ·³ ´³ ´t ¸ ˆ ˆ . P (k|j) = E X(k|j) − X(k) X(k|j) − X(k) Entonces, si K(k) es la matriz de ganancia de Kalman definida por £ ¤−1 K(k + 1) = P (k + 1|k)H(k + 1)t H(k + 1)P (k + 1|k)H(k + 1)t + R(k + 1) se verifican las siguientes igualdades h i ˆ + 1|k + 1) = φ(k)X(k|k) ˆ ˆ (a) X(k + K(k + 1) V (k + 1) − H(k + 1)φ(k)X(k|k) (b) P (k|k) = [I − K(k)H(k)] P (k|k − 1) (c) P (k + 1|k) = φ(k)P (k|k)φ(k)t + Q(k), y h i ˆ ˆ ˆ ˆ (d) X(k + 1|k) = φ(k)X(k|k) = φ(k)X(k|k − 1) + φ(k)K(k) V (k) − H(k)X(k|k − 1) .    Demostraci´ on. Denotemos Yj =  

V (0) V (1) .. .

   . De acuerdo con el teorema de Gauss– 

V (j) Markov se tiene que

¢+ ¢ ¡ ¡ ˆ X(k|k) = E X(k)Ykt E Yk Ykt Yk .

Por hip´otesis U (k) es ortogonal, para j ≤ k, a X(j) y a W (j) y, por tanto, (18)

£ ¤ E U (k)Yjt = 0,

si j ≤ k.

Ahora bien, teniendo en cuenta la igualdad anterior, £ ¤ £ ¤ ˆ + 1|k) = E X(k + 1)Y t E Yk Y t + Yk X(k k k £ ¤ £ ¤+ = E (φ(k)X(k) + U (k)) Ykt E Yk Ykt Yk ¡ ¢ ¡ ¢+ = φ(k)E X(k)Ykt E Yk Ykt Yk ˆ + 1|k) = φ(k)X(k|k). ˆ Luego, X(k

43 Por tanto, P (k + 1|k) = E

·³ ´³ ´t ¸ ˆ + 1|k) − X(k + 1) X(k ˆ + 1|k) − X(k + 1) X(k

·³ ³ ´ ´³ ³ ´ ´t ¸ ˆ ˆ = E φ(k) X(k|k) − X(k) − U (k) φ(k) X(k|k) − X(k) − U (k) ·³ ´³ ´t ¸ ˆ ˆ = φ(k)E X(k|k) − X(k) X(k|k) − X(k) φ(k)t h³ ´ i ˆ − X(k) U (k)t − φ(k)E X(k|k) · ³ ´t ¸ £ ¤ ˆ − E U (k) X(k|k) − X(k) φ(k)t + E U (k)U (k)t = φ(k)P (k|k)φ(k)t + Q(k) pues los dos t´erminos centrales son nulos por ser U (k) ortogonal a Yj para j ≤ k. Esto prueba (c). Aplicando el apartado (a) del teorema de actualizaci´on est´atica (tomando Y1 = Yk , Y2 = ˆ 1 = X(k+1|k), ˆ V (k+1), H = H(k+1), X = X(k+1), W = W (k+1), R = R(k+1), X P1 = P (k + 1|k)) se obtiene h i ˆ + 1|k + 1) = X(k ˆ + 1|k) + K(k + 1) V (k + 1) − H(k + 1)X(k ˆ + 1|k) , (19) X(k es decir, se verifica el apartado (a). Adem´as, por el teorema de actualizaci´on est´atica se tiene que P (k + 1|k + 1) = P (k + 1|k) − K(k + 1)H(k + 1)P (k + 1|k); de aqu´ı reemplazando k por k − 1 se obtiene el apartado (b). El apartado (d) se obtiene de (19) (reemplazando k por k − 1) teniendo en cuenta que ˆ ˆ X(k + 1|k) = φ(k)X(k|k). Observaci´ on. Por inducci´on se prueba que ˆ + k|j) = φ(j + k − 1)φ(j + k − 2) · · · φ(j + 1)X(j ˆ + 1|j). X(j

Cap´ıtulo II

´ ANALISIS DE LAS TRAYECTORIAS DE PROCESOS ´ ESTOCASTICOS A TIEMPO CONTINUO

II.8. Separabilidad: Criterio de separabilidad. Condici´on suficiente para la continuidad de las trayectorias de un proceso separable. Teorema de separabilidad. II.9. Medibilidad: Procesos medibles y progresivamente medibles. Teorema de medibilidad. II.10. An´ alisis de las trayectorias en el movimiento browniano unidimensional: Continuidad y diferenciabilidad de las trayectorias en el movimiento browniano. on al movimiento browniano: Ley del II.11. Ley del logaritmo iterado: Aplicaci´ logaritmo iterado. Ley del logaritmo iterado para el movimiento browniano. Referencias cap´ıtulo II: Ash, Gardner (1975).

44

45

´ n 8: Separabilidad. Leccio En la lecci´on de introducci´on ve´ıamos un ejemplo de dos procesos estoc´asticos con las mismas distribuciones finito–dimensionales uno de los cuales ten´ıa todas sus trayectorias continuas y el otro, todas discontinuas. El estudio de las trayectorias es posible para procesos con propiedades especiales como son las de separabilidad y medibilidad que se introducen en este cap´ıtulo. El objetivo es, dado un proceso estoc´astico (Xt )t∈T , encontrar otro proceso que sea separable y medible y que tenga las mismas distribuciones finito–dimensionales que el anterior. En lo que sigue todos los procesos estoc´asticos tendr´an espacio de estados (S, S), donde S es un espacio m´etrico compacto y S es su σ–´ algebra de Borel. El espacio temporal ser´a un subconjunto de R (aunque todos los resultados siguen siendo ciertos si T es un subconjunto de un espacio m´etrico separable). Utilizaremos indistintamente las notaciones Xt (ω) ´o X(t, ω) para denotar el valor de Xt en ω. ´ n. Un proceso estoc´astico (Xt )t∈T se dice separable si existen un subconjunDefinicio to denso y numerable T0 ⊂ T (llamado conjunto separante) y un suceso A de probabilidad nula tales que si ω ∈ / A y t ∈ T existe una sucesi´on (tn )n∈N ⊂ T0 tal que tn −→n→∞ t y X(tn , ω) −→n→∞ X(t, ω). Diremos tambi´en que (Xt )t∈T es (T0 , A)–separable. Observaci´ on. Se pretende con esta definici´on que el comportamiento de las trayectorias en T quede determinado por su comportamiento en un conjunto numerable T0 . Teorema 27. (Criterio de separabilidad) Son equivalentes las proposiciones siguientes: (i) (Xt )t∈T es separable. (ii) Existen un conjunto denso y numerable T0 ⊂ T y un conjunto A de probabilidad nula tales que para cada ω ∈ / A, cada compacto K ⊂ S y cada intervalo I de R se verifica [X(t, ω) ∈ K, ∀t ∈ To ∩ I] =⇒ [X(t, ω) ∈ K, ∀t ∈ T ∩ I] . Demostraci´ on. (i)⇒ (ii). Sea ω ∈ / A y X(t, ω) ∈ K, ∀t ∈ T0 ∩I, entonces, ∀t ∈ T ∩I, por la hip´otesis de separabilidad, existir´a (tn )n ⊂ T0 ∩ I tal que tn → t y X(tn , ω) → X(t, ω). Puesto que X(tn , ω) ∈ K, ∀n y K es cerrado, se tiene que X(t, ω) ∈ K. (ii)⇒ (i). Supongamos ahora que se verifica (ii). Si el proceso no es (T0 , A)–separable, existir´a ω ∈ / A y t ∈ T de forma que para cada sucesi´on (tn )n en T0 convergente a t se tiene que X(tn , ω) no converge a X(t, ω). Deben existir entonces un intervalo abierto I que contiene a t y ² > 0 tales que d (X(t, ω), X(t0 , ω)) > ², ∀t0 ∈ T0 ∩ I (pues en otro caso, ∀I intervalo abierto, ∃t tal que ∀² > 0, ∃t0I ∈ T0 ∩ I tal que d (X(t, ω), X(t0I , ω)) ≤ ², y tomando In =]t − n1 , t + n1 [ obtendr´ıamos una sucesi´on t0n ∈ T0 ∩ In -convergente entonces a t- tal que d (X(t, ω), X(t0n , ω)) ≤ n1 , ∀n, en contra de lo dicho). Sea K el compacto K = {y ∈ S : d(y, X(t, ω)) ≥ ²}, entonces X(t0 , ω) ∈ K, ∀t0 ∈ T0 ∩ I y, por hip´otesis, X(t0 , ω) ∈ K, ∀t0 ∈ T0 ∩ I y, en particular, X(t, ω) ∈ K, lo que es una contradicci´ on.

46 Corolario 28. Si (Xt )t∈T es (T0 , A)–separable y f : S → S es continua entonces (f ◦ Xt )t∈T es (T0 , A)–separable. Demostraci´ on. Consecuencia inmediata de la definici´on (o del teorema anterior). El comportamiento de una funci´on continua en T queda determinado por sus valores en un subconjunto denso y numerable T0 de T y, por tanto, cabe esperar que un proceso con trayectorias continuas sea separable. / A, X(·, ω) es una funTeorema 29. Si existe un suceso A de modo que, para ω ∈ ci´on continua en T , entonces (Xt )t∈T es (T0 , A)–separable para cada subconjunto denso y numerable T0 de T . Demostraci´ on. Si ω ∈ / A y t ∈ T entonces, para cada sucesi´on (tn )n en T0 convergente a t se verifica que X(tn , ω) → X(t, ω). Observaci´ on. Si T es un intervalo de R, el mismo resultado se obtiene si reemplazamos continuidad por continuidad a la derecha (teniendo en cuenta que si T tiene extremo superior y, T0 debe contener a y). Bajo ciertas condiciones, T0 puede ser un conjunto denso y numerable arbitrario. Teorema 30. Sea (Xt )t∈T un proceso real separable y continuo en probabilidad (i.e., Xt →t→t0 Xt0 en probabilidad). Entonces cualquier subconjunto denso y numerable T0 de T sirve como conjunto separante. Demostraci´ on. Supongamos que (Xt )t∈T es (T00 , A)–separable y sea T0 un subconjunto denso y numerable de T . Si t ∈ T , sea (tn )n una sucesi´on en T0 convergente a t. Por hip´otesis, Xtn converge en probabilidad a Xt y, por tanto, existe una subsucesi´on (Xtnk )k convergente a Xt c.s., digamos, existe At suceso de probabilidad nula tal que Xtnk (ω) →k→∞ Xt (ω) si ω ∈ / At . Sea B = A ∪ {At : t ∈ T00 } y tomemos ω ∈ / B y t0 ∈ T . Existe, por hip´otesis, una sucesi´on 0 0 tn en T0 convergente a t0 tal que X(t0n , ω) →n→∞ X(t0 , ω). Puesto que ω ∈ / At0n existe t00n ∈ T0 tal que |t0n − t00n | ≤ 1/n y |X(t0n , ω) − X(t00n , ω)| ≤ 1/n. 00 Entonces (tn )n es una sucesi´on en T0 convergente a t0 y tal que X(t00n , ω) →n→∞ X(t0 , ω). Observaciones. 1) La L2 –continuidad de un proceso estoc´astico implica la continuidad en probabilidad del mismo, es decir, que para todo ² > 0 y t ∈ T , P (|Xt+h −Xt | > ²) →h→0 0. Ello se sigue de la desigualdad de Chevyshev pues, P (|Xt+h − Xt | > ²) ≤

1 kXt+h − Xt k22 . ²2

2) Si (fn )n es una sucesi´on de v.a.r. convergente en probabilidad a f entonces admite una subsucesi´on convergente a f puntualmente.

47 Aplicamos ya la noci´on de separabilidad al estudio de las trayectorias. Lema 31. Sea (Xt )t∈T un proceso (T0 , A)–separable. Sean ω ∈ / A y t0 un punto de acumulaci´on de T , y supongamos que existe l´ımt→t0 ,t∈T0 X(t, ω). Entonces existe l´ımt→t0 ,t∈T X(t, ω) y los dos l´ımites coinciden. Demostraci´ on. De no existir l´ımt→t0 ,t∈T X(t, ω) podr´ıamos encontrar sucesiones tn → t0 y t0n → t0 y ² > 0 tales que d(X(tn , ω), X(t0n , ω)) ≥ ², para cada n ∈ N (se prueba sin dificultad que para que exista l´ımt→t0 ,t∈T X(t, ω) es necesario y suficiente que ∀² > 0 exista η > 0 de modo que si 0 < |t − t0 | < η, 0 < |t0 − t0 | < η, t, t0 ∈ T entonces d(X(t, ω), X(t0 , ω)) < ²; ´este es el llamado criterio de Cauchy y de ´el se sigue lo dicho). Por la hip´otesis de separabilidad podemos elegir, para cada n ∈ N puntos un , u0n ∈ T0 tales que |un − tn | < 1/n, |u0n − t0n | < 1/n y d(X(t0n , ω), X(u0n , ω)) < 1/n. Se sigue de ello que un , u0n →n→∞ t0 y, para n grande, d(X(un , ω), X(u0n , ω)) ≥ d(X(tn , ω), X(t0n , ω)) − d(X(tn , ω), X(un , ω)) − d(X(t0n , ω), X(u0n , ω)) 2 ² ≥²− > n 2 en contra de que existe l´ımt→t0 ,t∈T0 X(t, ω). Siendo T0 denso podemos elegir una sucesi´on (tn )n en T0 convergente a t0 , lo que prueba que ambos l´ımites coinciden. El siguiente teorema establece una condici´on suficiente para garantizar la continuidad de casi todas las trayectorias de un proceso separable. Lo utilizaremos en particular para probar la continuidad de las trayectorias de un movimiento browniano separable. umeros Teorema 32. Sea (Xt )a≤t≤b un proceso separable. Supongamos que existen n´ reales r, c, ² > 0 de forma que, si h > 0 es suficientemente peque˜ no, entonces E[|Xt+h − Xt |r ] ≤ ch1+h , ∀t ∈ [a, b] tal que t + h ∈ [a, b]. Entonces casi todas las trayectorias son continuas; en otras palabras, para casi todo ω, X(·, ω) es continua en [a, b]. Demostraci´ on. Sin p´erdida de generalidad podemos suponer a = 0 y b = 1 (en otro caso trab´ajese con el proceso Yt = Xa+(b−a)t ). Tomemos un n´ umero positivo K tal que ² − rK > 0. Entonces, se sigue de la desigualdad de Chebyshev que (20)

P [|Xt+h − Xt | > hK ] ≤

1 hrK

E[|Xt+h − Xt |r ] ≤ ch1+²−rK →h→0 0.

En particular el proceso es continuo en probabilidad. Un resultado anterior nos permite utilizar como conjunto separante T0 cualquier subconjunto denso y numerable de [0, 1]. Tomaremos como T0 los racionales di´adicos: T0 = {

j : 0 ≤ j ≤ 2n ; n = 1, 2, ...}. 2n

48 N´otese que · P

m´ax

0≤j≤2n −1 n −1 2X

j=0

¯ ¯ −X ¯X j+1 n 2

h¯ ¯ P ¯X j+1 −X n 2

j 2n

¸ ¯ ¯ −nK ≤ j ¯ ≥ 2 n

2

¯ i ¯ ¯ ≥ 2−nK ≤

2n c2−n(1+²−rK) = c2−n(²−rK) . Para cada n ∈ N, sea ½ An =

m´ax

0≤j≤2n −1

¯ ¯ −X ¯X j+1 n 2

¾ ¯ ¯ −nK . j ¯ ≥ 2 n

2

P 4 Entonces ∞ n=1 P (An ) < +∞ y por el lema de Borel–Cantelli , P (B) = 0 siendo B = l´ım sup An (:= ∩n∈N ∩i≥n Ai ). As´ı pues, si ω ∈ / B entonces existe un N (ω) tal que si n ≥ N (ω) entonces ¯ ¯ 1 ¯ ¯ (ω) − X (21) , j = 0, 1, ..., 2n − 1. j (ω)¯ < ¯X j+1 n n 2 2 2nk h h Fijemos ω ∈ / B, n ≥ N (ω) y sea s un racional di´adico en el intervalo 2jn , j+1 . Entonces n 2 s admite una representaci´on de la forma s=

j a1 am + n+1 + · · · + n+m n 2 2 2

con a1 , ..., am ∈ {0, 1}.

Para r = 0, ..., m hagamos br = Entonces

j a1 ar + + · · · + n+r 2n 2n+1 2

(bo =

j , bm = s). 2n

¯ ¯ m−1 ¯ ¯ X¯ ¯ ¯X(s, ω) − X( j , ω)¯ ≤ ¯Xb (ω) − Xb (ω)¯ . r r+1 ¯ ¯ n 2 r=0

N´otese que [br , br+1 [= ∅ si ar+1 = 0 y · · l l+1 [br , br+1 [= n+r+1 , n+r+1 , 2 2

(para

alg´ un l ∈ {0, 1, ..., 2n+r+1 − 1})

si ar+1 = 1. Se deduce de (21) que (22)

¯ m−1 ¯ ¯ X −(n+r+1)K ¯ ¯X(s, ω) − X( j , ω)¯ ≤ 2 ≤ ¯ ¯ 2n r=0

(23)

2−nK

∞ X

2−(r+1)K ≤ M 2−nK

r=0 4 Lema )n una colecci´ on de sucesos Pde Borel–Cantelli: Sean (Ω, A, P ) un espacio de probabilidad y (AnP de A. Si n P (An ) < ∞, entonces, P (l´ım supn→∞ An ) = 0. En el caso de que n P (An ) = ∞ se obtiene que P (l´ım supn→∞ An ) = 1

49 para una cierta constante M que tomaremos ≥ 1. Dado δ > 0 tomemos N1 ∈ N tal que M 2−nK < δ/3 si n ≥ N1 , puesto que M ≥ 1 se tiene adem´as que 2−nK < δ/3 si n ≥ N1 . Si t1 , t2 ∈ T0 y |t1 − t2 | < m´ın(2−N1 , 2−N (ω) ), entonces a lo m´as un racional di´adico de rango n = m´ax{N1 , N (ω)} (es decir, de la forma j/2n , 0 ≤ j ≤ 2n ) puede estar entre t1 y t2 y entonces, se sigue de (21) y de (22) que |X(t1 , ω) − X(t2 , ω)| < δ. En efecto, pueden ocurrir para alg´ un j ∈ {0, 1, ..., 2n − 1} uno de los dos casos siguientes: j j+1 < t1 < n < t2 n 2 2

o ´

j j+1 < t1 < t2 < n ; n 2 2

en el primero de ellos, |X(t1 , ω) − X(t2 , ω)| ≤ j j j+1 j+1 |X(t1 , ω) − X( n , ω)| + |X( n , ω) − X( n , ω)| + |X( n , ω) − X(t2 , ω)| < 2 2 2 2 δ δ δ + + =δ 3 3 3 y en el segundo caso, |X(t1 , ω) − X(t2 , ω)| ≤ |X(t1 , ω) − X(

j j , ω)| + |X(t2 , ω) − X( n , ω)| < δ. n 2 2

Queda as´ı probado que casi todas las trayectorias son uniformemente continuas en T0 y, por tanto, tienen una extensi´on continua a T = [0, 1]. El lema anterior y la hip´otesis de separabilidad prueban que esa extensi´on debe coincidir con la trayectoria original; en efecto, si t0 ∈ T y ω ∈ / A∪B entonces l´ımt→t0 ,t∈T0 X(t, ω) = fω (t0 ) donde fω es la extensi´on continua mencionada; por el lema, existe tambi´en l´ımt→t0 ,t∈T X(t, ω) y coincide con fω (t0 ); por la hip´otesis de separabilidad existe una sucesi´on(tn )n en T0 convergente a t0 tal que X(tn , ω) converge a X(t0 , ω) y, entonces, |fω (t0 ) − X(t0 , ω)| ≤ |X(t0 , ω) − X(tn , ω)| + |X(tn , ω) − fω (t0 )| →n→∞ 0. Luego l´ımt→t0 ,t∈T X(t, ω) = X(t0 , ω). As´ı pues, casi todas las trayectorias son continuas en [0, 1]. Observaci´ on. Una propiedad b´asica de los procesos separables es que muchos conjuntos en cuya definici´on interviene una cantidad no numerable de valores de t son medibles. Por ejemplo, si (Xt )t∈T es separable entonces {ω ∈ Ω : X(·, ω) es continua en t0 }, t0 ∈ T0 , y {ω ∈ Ω : X(·, ω) es uniformemente continua en T } son medibles, es decir, est´an en la compleci´on de A respecto a P . En efecto: si el proceso es (T0 , A)–separable, entonces

∞ \

∞ [

{ω ∈ Ω : X(·, ω) es continua en t0 } = \ {ω ∈ / A : d(X(t, ω), X(t0 , ω)) < 1/n}

n=1 m=1 t∈T0 ,|t−t0 | 0 la aplicaci´on (s, ω) ∈ [0, t] × Ω −→ X(s, ω) ∈ R es B[0, t] × At –medible. El proceso se dice medible si la aplicaci´on (s, ω) ∈ [0, +∞[×Ω −→ X(s, ω) ∈ R es B[0, +∞[×At –medible. Observaciones. !) Un proceso progresivamente medible es medible. En efecto, si B ∈ R entonces {(s, ω) : X(s, ω) ∈ B} = ∪∞ n=0 {(s, ω) : 0 ≤ s ≤ n, X(s, ω) ∈ B} y {(s, ω) : 0 ≤ s ≤ n, X(s, ω) ∈ B} ∈ B[0, n]×An . Puesto que B[0, n]×An ⊂ B[0, +∞]×A queda probada la afirmaci´on. 2) Las trayectorias R de un proceso medible son medibles. Adem´as, el teorema de Fubini prueba que si T E[|Xt |]dt < +∞ entonces casi todas las trayectorias son Lebesgue integrables en T . A diferencia del teorema de separabilidad, el de medibilidad progresiva requiere la hip´otesis adicional de continuidad con probabilidad, hip´otesis que la verifica, por ejemplo, un L2 – proceso con media y funci´on de covarianzas continua. Teorema 34. Sea (Xt )t≥0 un proceso estoc´astico real adaptado a la familia (At )t≥0 de sub–σ–´algebras de A. Si el proceso es continuo en probabilidad, existe una modificaci´on (Yt )t≥0 de (Xt )t≥0 adaptada tambi´en a la familia (At )t≥0 y que es progresivamente medible. 53

54 Probaremos antes un lema que introduce una m´etrica correspondiente a la convergencia en probabilidad. Lema 35. Sea g : [0, +∞[→ [0, +∞[ una funci´on medible, acotada, creciente, continua en 0 y tal que g(x + y) ≤ g(x) + g(y), para cada x, y ≥ 0, g(0) = 0 y g(x) > 0 si x > 0. (Por ejemplo, g(x) = x/(1 + x) ´o g(x) = m´ın(1, x)). Si X e Y son v.a.r. en (Ω, A, P ) se define d(X, Y ) = E[g(|X − Y |)]. Entonces d es una m´etrica en el espacio M de las v.a.r. en (Ω, A, P ) si identificamos funciones en M que coinciden c.s.. Adem´as, la d–convergencia equivale a la convergencia en probabilida. Demostraci´ on. Es sencillo ver que d es una m´etrica. Por otra parte, si ² > 0 y X ∈ M entonces 1 P (|X| ≥ ²) ≤ P (g(|X|) ≥ g(²)) ≤ E[g(|X|)]. g(²) Puesto que g(²) > 0 si ² > 0, la d–convergencia implica convergencia en probabilidad. Adem´as Z Z E[g(|X|)] = g(|X|)dP + g(|X|)dP ≤ g(²) + (sup |g|)P (|X| ≥ ²). {|X| 0 tal que si t, t0 ∈ [0, n] y |t − t0 | ≤ δn entonces d(Xt , Xt0 ) ≤ 2−n . Podemos suponer que (δn )n es una sucesi´on decreciente a 0. Construyamos para cada n ∈ N una partici´on (n) (n) 0 = t0 < t1 < · · · < ta(n) =n n de [0, n] de modo que m´ax

0≤j≤an −1 (n)

Supondremos que {tj

(n)

(n)

|tj+1 − tj | ≤ δn . (n+1)

: 0 ≤ j ≤ an } ⊂ {tj : 0 ≤ j ≤ an+1 }. Para n ∈ N se define ( (n) (n) Xt(n) si tj−1 ≤ t ≤ tj , 1 ≤ j ≤ an j−1 Xn (t) = Xn si t ≥ n

El resto de la demostraci´on se divide en varias etapas:

55 (a) Veamos, en primer lugar, que d(Xn (t), Xn+1 (t)) ≤ 2−n , ∀t < n. (n)

(n)

En efecto, si t < n entonces existen enteros j, k tales que tj−1 ≤ t < tj t<

(n+1) tk . (n)

(n+1)

y tk−1



(n+1)

Necesariamente |tj−1 − tk−1 | ≤ δn de donde se sigue el resultado. (b) Para cada t ≥ 0, Xn (t) converge P –c.s.. Para probarlo escribamos ¡ ¢ ¡ ¢ P |Xn (t) − Xn+1 (t)| ≥ n−2 = P |Xn (t) − Xn+1 (t)| ∧ 1 ≥ n−2 ≤ n2 · d(Xn (t), Xn+1 (t)) ≤

n2 , 2n

si n > t por

(a).

(la primera desigualdad es debida a la desigualdad de Chebyshev). Puesto que P n2 2n < +∞ el lema de Borel–Cantelli prueba que µ ½ ¾¶ 1 P ∪n≥n ∩k≥n |Xk (t) − Xk+1 (t)| < 2 = 1, k es decir, con probabilidad 1 se verifica que |Xn (t) − Xn+1 (t)| < n12 si n es grande; se sigue de ah´ı que, para casi todo ω, (Xn (t)(ω))n es de Cauchy y, entonces, convergente. (c) La aplicaci´on (s, ω) ∈ [0, t] × Ω −→ Xn (s)(ω := Xn (s, ω) ∈ R es B[0, t] × At –medible si n > t. n efecto, podemos escribir Xn (s, ω) =

an X j=1

Xt(n) (ω)I[t(n) ,t(n) [×Ω (s, ω) + Xn (ω)I[n,+∞[×Ω (s, ω). j−1

j−1 j

Restringiendo Xn (·, ω) a [0, t], la suma anterior queda truncada siendo el u ´ltimo sumando Xt(n) (ω)I[t(n) ,t]×Ω (s, ω) j−1

si

(n) tj−1

≤t<

(n) tj .

j−1

Puesto que Xt(n) (ω) (como funci´on de ω) es At(n) ⊂ At –medible, j−1

j−1

queda probada nuestra afirmaci´on. (d) Se define

Y (t, ω) = l´ım sup Xn (t, ω), n→∞

ω ∈ Ω, t ≥ 0.

Entonces (Yt )t≥0 es una modificaci´on de (Xt )t≥0 . (n)

En efecto, dados t ≥ 0 y n ∈ N (n > t) existe jn ∈ {1, ..., an } tal que tjn −1 ≤ t < (n)

(n)

tjn . Es claro que tjn −1 −→n→∞ t y, por hip´otesis, Xn (t) = Xt(n)

jn −1

−→n→∞ Xt en

probabilidad. Por otra parte, se sigue de (b) que Xn (t) converge P –c.s. y el l´ımite c.s. no puede ser otro que Yt . Puesto que la convergencia en probabilidad implica la convergencia puntual de una subsucesi´on, se sigue que Yt = Xt , P –c.s. (n´otese que Yt puede tomar los valores ±∞).

56 (e) Veamos que (Yt )t≥0 es progresivamente medible. Se sigue de (c) y de la definici´on de Yt que la aplicaci´on (s, ω) ∈ [0, t] × Ω −→ Y (s, ω) ∈ R es l´ımite superior de funciones B[0, t] × At –medibles. (f) Se tiene que el proceso (Yt )t≥0 es separable. (n)

Sea T0 = {tj

: j = 1, 2, ..., an , n = 1, 2, ...}. Entonces Y (t, ω) = l´ım supn→∞ x − (n)

n(t, ω) y, para t fijo y n grande, Xn (t, ω) = X(tj−1 , ω) para alg´ un j = j(n), donde (n)

(n)

tj−1 ≤ t < tj . Por definici´on de Y (t, ω), existe una sucesi´on creciente nk en N tal que (n ) X(tj(nkk )−1 , ω) −→n→∞ Y (t, ω). (n )

(n )

Pero X(tj(nkk )−1 , ω) = Y (tj(nkk )−1 , ω), pues si s es uno de los puntos de una partici´on (lo es entonces tambi´en de todas las siguientes) entonces Xn (s) = Xs para n grande (n ) y, por tanto, Ys = Xs . Puesto que tj(nkk )−1 −→k→∞ t, la condici´on de separabilidad se verifica (el conjunto nulo A es, en este caso, el vac´ıo).

´ n 10: Ana ´ lisis de las trayectorias en un movimiento Leccio browniano. En esta lecci´on analizaremos el movimiento browniano unidimensional es decir, un proceso estoc´astico (Bt )t≥0 gaussiano con media 0 y funci´on de covarianzas K(s, t) = σ 2 m´ın(s, t). En lecciones anteriores ve´ıamos que el movimiento browniano puede verse como l´ımite de recorridos aleatorios cuando el tama˜ no de cada salto tiende a 0. Sin embargo, el movimiento browniano tiene muchas propiedades que no posee el recorrido aleatorio. Por el teorema de separabilidad, existe una versi´ on separable del movimiento browniano. Restringiremos nuestra atenci´on a ´esta u ´ltima. A partir de ahora, (Bt )t≥0 ser´a un movimiento browniano separable y utilizaremos indistintamente las notaciones Bt (ω) y B(t, ω) para el valor de Bt en ω. Antes de empezar n a estudiar las trayectorias de (Bt )t≥0 , recordemos que una v.a. real X definida en un espacio de probabilidad (Ω, A, P ) se dice sim´etrica si para cada A ∈ R se tiene que P (X ∈ A) = P (−X ∈ A), es decir, si P X = P −X . La siguiente proposici´on muestra una caracterizaci´on de las v.a. sim´etricas. ´ n 36. Sea X una v.a.r. definida en un espacio de probabilidad (Ω, A, P ). Proposicio Entonces X es sim´etrica si y s´olo si su funci´on caracter´ıstica ϕX es R–valorada. Demostraci´ on. Si ϕX es R–valorada entonces ϕ−X (t) = E(e−itX ) = E(eitX )ϕX (t) = ϕX (t). Luego X y −X tienen la misma distribuci´on y entonces para cada B ∈ R, P (X ∈ B) = P (−X ∈ B), es decir, X es sim´etrica. Rec´ıprocamente, si P X = P −X y g es una funci´on impar P X –integrable entonces Z Z Z Z g(x)dP −X (x) = g(−X(ω))dP (ω) = − g(X(ω))dP (ω) = − g(x)dP −X (x) R

con lo cual



R

R g(x)dP

X (x)



R

= 0. Tomando g(x) = sen tx se tiene

ϕX (t) = E(cos tx + isen tx) = E(cos tx) ∈ R. El siguiente teorema prueba que casi todas las trayectorias del movimiento browniano (Bt )t≥0 son continuas. Teorema 37. Para casi todo ω, B(·, ω) es continua en [0, ∞). Demostraci´ on. Puesto que Bt+h − Bt tiene distribuci´on normal con media 0 y varianza se tiene ¯ ¸ ·¯ ¯ Bt+h − Bt ¯r r r/2 r ¯ σ h = chr/2 , √ E[|Bt+h − Bt | ] = E ¯¯ σ h ¯

σ 2 h,

donde c = σ r E[|Z|r ], siendo Z una v.a. con distribuci´on normal N (0, 1). Por el teorema 32 (tomando r como un n´ umero mayor que 2) aplicado a cada intervalo de la forma [0, n], con n un n´ umero entero positivo, se tiene que para casi todo ω, B(·, ω) es continua en [0, n]. Siendo n arbitrario, se verifica que, para casi todo ω, B(·, ω) es continua en [0, ∞). 57

58 Los teoremas que veremos a continuaci´on son la llave de muchas propiedades de las trayectorias del movimiento browniano. Teorema 38. Dado a > 0 se verifica que ¾ ½ P m´ax Bs > a = 2P {Bt > a}. 0≤s≤t

Demostraci´ on. Para la demostraci´on de este resultado nos basaremos en la igualdad ½ ¾ ½ ¾ P m´ax Bs > a, Bt > a = P m´ ax Bs > a, Bt < a 0≤s≤t

0≤s≤t

que probaremos posteriormente. Teniendo en cuenta que la distribuci´on de Bt es absolutamente continua y que, por tanto P (Bt = a) = 0, se tiene que la suma de los dos miembros de la igualdad anterior es P {m´ax0≤s≤t Bs > a} y, por tanto, ½ ¾ ½ ¾ 1 ax Bs > a . P m´ax Bs > a, Bt > a = P m´ 0≤s≤t 0≤s≤t 2 Puesto que

½

¾ m´ax Bs > a, Bt > a

0≤s≤t

se tiene que

½ P

= {Bt > a}

¾ m´ax Bs > a = 2P {Bt > a}.

0≤s≤t

Los dos siguientes resultados proporcionan caracterizaciones de las trayectorias del movimiento browniano en entornos de infinito y de 0. Concretamente, el primero de ellos prueba que, en un entorno de infinito, las trayectorias son no acotadas superior ni inferiormente y tienen siempre una ra´ız tan pr´oxima a infinito como queramos. En el segundo teorema se prueba que, en un entorno de cero, las trayectorias son acotadas y tienen una ra´ız tan pr´oxima a cero como queramos. Teorema 39.

½ ¾ ½ ¾ P sup Bt = +∞ = P ´ınf Bt = −∞ = 1. t≥0

t≥0

Como consecuencia de ello, para casi todo ω, B(·, ω) es no acotada y tiene un cero en [M, ∞), para cada M > 0. Demostraci´ on. Si a > 0 se tiene que ½ ¾ ½ ¾ ½ ¾ P sup Bt > a ≥ P sup Bs > a P m´ax Bs > a = 2P {Bt > a} t≥0

0≤s≤t

0≤s≤t

pues siendo B(·, ω) continua, para casi todo ω, en el compacto [0, t] se alcanza el supremo en alg´ un punto de ese compacto y, por tanto, coincide con el m´aximo. Ahora bien, como Bt sigue una distribuci´on normal N (0, σ 2 t), · ¸ µ ¶ Bt a ∗ √ >a =1−F √ P [Bt > a] = P σ t σ t

59 siendo F ∗ la funci´on de distribuci´on de la distribuci´on normal N (0, 1). Siendo √ a > 0 y por la continuidad por la derecha de F ∗ , se tiene que, cuando t → ∞, F ∗ (a/(σ t)) tiende a F ∗ (0) = 1/2. De todo lo anterior se deduce que · ¸ P sup Bt > a = 1 t≥0

y, por tanto, "∞ ½ · ¸ ¾# · ¸ \ P sup Bt = +∞ = P sup Bt > a = l´ım P sup Bt > a = 1. t≥0

Por otra parte,

a=1

a→∞

t≥0

t≥0

· ¸ · ¸ P ´ınf Bt = −∞ = P sup(−Bt ) = +∞ = 1 t≥0

t≥0

pues (−Bt )t≥0 es tambi´en un movimiento browniano separable. Veamos ahora la consecuencia. Que, para casi todo ω, B(·, ω) no est´a acotada es trivial. Veamos entonces que, con probabilidad 1, para cada M > 0, B(·, ω) tiene un cero en [M, ∞). Supongamos que no, es decir, que existe un suceso A probabilidad mayor que cero tal que, si ω ∈ A, B(·, ω) no tiene ning´ un cero en [M, ∞). En ese caso, suceder´ıa que, para casi todo ω de A, B(·, ω) tiene un cero en [0, M ] (pues, siendo el ´ınfimo y el supremo −∞ y +∞ respectivamente, y las trayectorias casi todas continuas, ´estas tienen que cortar al eje de abcisas). Adem´as para casi todo ω de A, la trayectoria de ω es continua y, por tanto, acotada sobre el compacto [0, M ]. Puesto que, para todo ω ∈ A, tiene que suceder que B(t, ω) > 0, ∀t ∈ [M, ∞) o bien que B(t, ω) < 0, ∀t ∈ [M, ∞) y que, como acabamos de probar, la trayectoria de £ω es acotada en ¤[0, M ], tendr´ıa que suceder que P [´ınf t≥0 Bt = −∞] < 1 o bien que P supt≥0 Bt = +∞ < 1 en contra de la tesis del teorema. Teorema 40. Si h > 0, entonces · ¸ · ¸ P m´ax Bs > 0 = P m´ın Bs < 0 = 1. 0≤s≤h

0≤s≤h

Como consecuencia de ello, para casi todo ω, B(·, ω) tiene un cero en (0, h], para todo h > 0. Demostraci´ on. Por el teorema 38 se tiene que, si a > 0 · ¸ · ¸ √ P m´ax Bs > 0 ≥ P m´ax Bs > a = 2P [Bh > a] = 2[1 − F ∗ (a/(σ h)] −→a→0+ 1 0≤s≤h

0≤s≤h

donde F ∗ denota la funci´on de distribuci´on de la distribuci´on normal N (0, 1). Luego, · ¸ P m´ ax Bs > 0 = 1. 0≤s≤h

60 De forma an´aloga que en el teorema anterior, teniendo en cuenta que (−Bt )t≥0 es un movimiento browniano separable, se tiene que · ¸ · ¸ P m´ın Bs < 0 = P m´ ax (−Bs ) > 0 = 1. 0≤s≤h

Para la consecuencia, se tiene que " · ¸ P

m´ax Bs > 0, ∀h > 0 = P

0≤s≤h

0≤s≤h

∞ ½ \ n=1

¾# · ¸ m´ ax Bs > 0 = l´ım P m´ax Bs > 0 = 1.

0≤s≤h

n→∞

0≤s≤h

Adem´as, · P

"∞ ½ ¸ ¾# · ¸ \ m´ın Bs < 0, ∀h > 0 = P m´ın Bs < 0 = l´ım P m´ın Bs < 0 = 1.

0≤s≤h

n=1

0≤s≤h

n→∞

0≤s≤h

Ahora bien, puesto que B(·, ω) es continua, para casi todo ω, en [0, ∞) y, en particular en [0, h], por las igualdades probadas anteriormente, nos damos cuenta que B(·, ω) tiene que tomar valores positivos y negativos en [0, h] para casi todo ω y, por el teorema de Bolzano, para casi todo ω, B(·, ω) tiene, al menos, un cero en (0, h], para cada h > 0. El siguiente teorema prueba que las trayectorias del movimiento browniano (Bt )t≥0 no son diferenciables par casi ninguna observaci´ on. Teorema 41. Para casi todo ω, la trayectoria B(·, ω) no es diferenciable en ning´ un punto. Concretamente, si D = {ω : B(t, ω) es diferenciable para al menos un t ∈ [0, ∞)} entonces D est´a incluido en un suceso de probabilidad nula. Demostraci´ on. Fijemos un constante k > 0 y definimos el conjunto ¾ ½ |B(t + h, ω) − B(t, ω)| < k para al menos un t ∈ [0, 1) . A = A(k) = ω : l´ım sup h Si ω ∈ A, entonces existe un t ∈ [0, 1) tal que l´ım sup

|B(t + h, ω) − B(t, ω)| 0, t ≥ 0 y h > 0, · ¸ |B(t + h, ω) − B(t, ω)| a √ P [|B(t + h, ω) − B(t, ω)| < a] = P < √ = σ h σ h · ¸ a B(t + h, ω) − B(t, ω) a √ P − √ < < √ = σ h σ h σ h ½ 2¾ Z √a Z √a σ h σ h 1 x 1 2a exp − dx ≤ dx = √ a a 2Π 2 2Π σ 2Πh − √ − √ σ h σ h Para cada m ∈ N y cada j ∈ {1, ..., m} se define Amj como el conjunto de las observaciones ω que satisfacen las tres desigualdades anteriores. Entonces, por la independencia de los incrementos, y la desigualdad anterior, se tiene 2(3k/m) 2(5k/m) 2(7k/m) P (Amj ) ≤ p · p · p = cm−3/2 σ 2Π(1/m) σ 2Π(1/m) σ 2Π(1/m) para cierta constante positiva c. Si Am = ∪m j=1 Amj , entonces m m X ¡ ¢ X P (Am ) = P ∪m A ≤ P (A ) ≤ cm−3/2 = cm−1/2 . mj j=1 mj j=1

j=1

Para el caso particular de que m sea de la forma n4 para alg´ un n ∈ N se tiene que P∞ 2 P (An4 ) ≤ c/n . Luego la serie P (A ) es convergente. Adem´ as, por el lema de 4 n n=1 Borel–Cantelli se tiene que P (l´ım supn An4 ) = 0. Pero A = A(k) ⊂ l´ım inf Am ⊂ l´ım inf An4 ⊂ l´ım sup An4 m

n

n

(la primera contenci´on es debida a que A(k) ⊂ Amj ⊂ Am para el m y el j que fij´abamos ∞ al principio y que si m0 > m, A(k) ⊂ Am0 ; siendo l´ım inf m Am = ∪∞ n=1 ∩j=n Aj se verifica lo deseado). As´ı tendr´ıamos que P [A(k)] = 0. Si definimos ahora D0 = {ω : B(t, ω) es diferenciable para al menos un t ∈ [0, 1)} a incluido en un suceso de probabilidad se tiene que D0 ⊂ ∪∞ k=1 A(k) y, por tanto, que D0 est´ nula.

62 Si denotamos ahora Dn = {ω : B(t, ω) es diferenciable para al menos un t ∈ [n, n + 1)} tendr´ıamos que D = ∪∞ as para cada n ∈ N se verifica la siguiente igualdad n=1 Dn . Adem´ Dn = {ω : B(n + ·) − B(n) es diferenciable para al menos un t ∈ [0, 1)}. Puesto que (B(n + t) − B(n))t≥0 es tambi´en un movimiento browniano separable se tiene que cada Dn est´a incluido en un suceso de probabilidad nula y, por tanto, D est´ a incluido en un suceso de probabilidad nula, como quer´ıamos probar.

´ n 11: Ley del logaritmo iterado: aplicacio ´ n al movimiento Leccio browniano. Sea Y1 , Y2 , ... una sucesi´on de v.a.r. independientes e id´enticamente distribuidas con media 0. La ley fuerte de los grandes n´ umeros prueba que, si Xn = Y1 + · · · + Yn , entonces Xn /n converge a 0 c.s.. As´ı para cada k > 0, podemos decir que |Xn | es menor que kn para n suficientemente grande o, lo que es lo mismo, que Xn oscila con una amplitud menor que kn. Pero podr´ıamos estar interesados en obtener mayor informaci´on sobre esta oscilaci´on; √ por ejemplo, podemos preguntarnos si |Xn | es menor que k n eventualmente. Este tipo de cuestiones son las que nos vamos a plantear en esta lecci´on, especialmente en el caso de que nuestras v.a. est´en normalmente distribuidas, para poder aplicar los resultados al movimiento browniano. Concretamente, probaremos que la oscilaci´on de puede medirse mediante f (n) = (2σ 2 n ln ln n)1/2 , donde σ 2 es la varianza com´ un de las Yk . Veamos, en primer lugar dos lemas previos. Lema 42. Sean Y1 , Y2 , ... v.a.r. independientes y normalmente distribuidas todas ellas P con media 0 y varianza 1 y sea Xn = nk=1 Yk , n = 1, 2.... Entonces, para casi todo ω, l´ım sup n→∞

Xn (ω) ≤ 1. (2n ln ln n)1/2

umero λ > 1, y sean nk = λk , k = r, r + 1, r + 2, ... donde Demostraci´ on. Fijemos un n´ r es el menor entero positivo tal que λr ≥ 3 (de forma que (ln ln nk )1/2 est´e bien definido para k ≥ r). Sea Ak = {ω : Xn (ω > (2n ln ln n)1/2 para alg´ un n ∈ (nk , nk+1 ]}, y tomemos a(n) = λ(2n ln ln n)1/2 : Entonces P (Ak ) ≤ P [Xn > a(nk ) para alg´ un n ≤ nk+1 ] · ¸ =P m´ax Xn > a(nk ) 1≤n≤[nk+1 ] £ ¤ ≤ 2P X[nk+1 ] > a(nk ) por un problema p ½ 2 ¾ 2 [nk+1 ] a (nk ) ∼√ exp por otro problema 2[nk+1 ] 2πa(nk ) ½ 2 ¾ √ 2 nk+1 a (nk ) ≤√ exp 2nk+1 2πa(nk ) ≤ c exp{−λ ln ln λk } = c0 exp{−λ ln k} = c0 k −λ donde c = 1/(2πλP ln ln 3)1/2 y c0 = c exp{−λ ln ln λ}. P Pero la serie k k λ es convergente y, por tanto, tambi´en lo es la serie k P (Ak ) y, por el lema de Borel–Cantelli5 se tiene que P (l´ım supk Ak ) = 0 o, lo que es lo mismo, 5 Lema )n una colecci´ on de sucesos Pde Borel–Cantelli: Sean (Ω, A, P ) un espacio de probabilidad y (AnP de A. Si n P (An ) < ∞, entonces, P (l´ım supn→∞ An ) = 0. En el caso de que n P (An ) = ∞ se obtiene que P (l´ım supn→∞ An ) = 1

63

64 que s´olo ocurren con probabilidad 1 una cantidad finita de A0k s. De ello se deduce que, para n suficientemente grande, Xn ≤ λ(2n ln ln n)1/2 c.s.. Puesto que esto ocurre para λ = 1 + 1/m, m = 1, 2, ... concluimos que P (∀λ > 1, Xn ≤ λ(2n ln ln n)1/2 eventualmente) = 1 es decir, para casi todo ω, l´ım sup n→∞

Xn (ω) ≤ 1. (2n ln ln n)1/2

Lema 43. Bajo las hip´otesis del lema anterior se verifica l´ım sup n→∞

Xn = 1 c.s.. (2n ln ln n)1/2

Demostraci´ on. Si λ < 1, queremos probar que, con probabilidad 1, Xn (ω) >λ (2n ln ln n)1/2 para n suficientemente grande. Aplicando el lema anterior a (−Xn ) se obtiene que, con probabilidad 1, −Xn ≤ 2(2 ln ln n)1/2 para n suficientemente grande. As´ı, si mk = M k , (M > 1), se tiene que, para k suficientemente grande, Xmk−1 ≥ −2(2 ln ln mk−1 )1/2 c.s.. Sea Zk = Xmk − Xmk−1 , entonces Xmk ≥ Zk − 2(2 ln ln mk−1 )1/2 c.s. para k suficientemente grande y, para obtener la tesis, ser´a suficiente probar que, para k suficientemente grande, Zk > λ(2mk ln ln mk )1/2 + 2(2 ln ln mk−1 )1/2 c.s.. Tomemos λ0 ∈ (λ, 1). Entonces, para alg´ un M se tiene que λ0 [2(M k − M k−1 ) ln ln M k ]1/2 > λ(2M k ln ln M k )1/2 + 2(2M k−1 ln ln M k−1 )1/2 , ∀k (pues el cociente λ(2M k ln ln M k )1/2 + 2(2M k−1 ln ln M k−1 )1/2 λ0 [2(M k − M k−1 ) ln ln M k ]1/2 es menor que λ λ0

µ ¶ 1 −1/2 2 1− + 0 (M − 1)−1/2 M λ

que converge a λ/λ0 < 1 cuando M → ∞. Teniendo en cuenta lo anterior, ser´ıa suficiente probar que, para k suficientemente grande, Zk > λ0 [2(M k − M k−1 ) ln ln M k ]1/2 , c.s..

65 Ahora, como Zk tiene distribuci´on normal N (0, M k − M k−1 ) se tiene que 1 exp{−λ02 ln ln M k } P (Zk > λ0 [2(M k − M k−1 ) ln ln M k ]1/2 ) ∼ √ 2πλ0 (2 ln ln M k )1/2 c 02 ≥ k −λ 1/2 (ln k) c ≥ pues λ0 < 1. k ln k P P Pero k 1/(k ln k) = ∞ y, por tanto, k P (Zk > λ0 [2(M k − M k−1 ) ln ln M k ]1/2 ) = ∞. Finalmente, el resultado se obtiene mediante la aplicaci´on de la segunda parte del lema de Borel–Cantelli. Veamos ahora el resultado para variables normales. P Teorema 44. Sea Xn = nk=1 , n = 1, 2, ..., donde Y1 , Y2 , ... son v.a.r. independientes y normalmente distribuidas todas ellas con media 0 y varianza σ 2 . Entonces, para casi todo ω, Xn (ω) =1 l´ım sup n→∞ (2σ 2 n ln ln n)1/2 y Xn (ω) = −1. l´ım inf n→∞ (2σ 2 n ln ln n)1/2 Demostraci´ on. Para la primera igualdad, basta aplicar el lema anterior a la sucesi´on (Xn /σ)n y, para la segunda, basta aplicar el mismo lema a (−Xn /σ)n . Teorema 45. (Ley del logaritmo iterado para el movimiento browniano) Sea (Bt )t≥0 un movimiento browniano separable. Entonces, para casi todo ω, l´ım sup t→∞

y l´ım inf t→∞

Bt (ω) 2 (2σ t ln ln n)1/2

Bt (ω) 2 (2σ t ln ln n)1/2

=1

= −1.

Demostraci´ on. Podemos suponer sin p´erdida de generalidad que σ 2 = 1 (en caso contrario, considerar´ıamos (Bt /σ)). La afirmaci´on para el l´ımite inferior se obtendr´ıa de la del l´ımite superior considerando (−Bt ), de tal forma que es suficiente probar la primera igualdad. Teniendo en cuenta la igualdad Bn = B1 + (B2 − B1 ) + (B3 − B2 ) + · · · + (Bn − Bn−1 ) tenemos Bn expresado como suma de n v.a.r. independientes y normalmente distribuidas todas ellas con media 0 y varianza 1 y, por el teorema anterior, l´ım sup n→∞

Bn (ω) = 1, c.s. (2n ln ln n)1/2

66 y, por tanto, l´ım sup t→∞

Bt (ω) ≥ 1, c.s.. (2t ln ln n)1/2

Adem´as, m´ax B(t) = B(n) +

n≤t≤n+1

m´ax [B(t) − B(n)]

n≤t≤n+1

y µ P

¶ m´ax [B(t) − B(n)] > a

n≤t≤n+1

µ =P

¶ m´ ax B(t) > a

0≤t≤1

2 2 = 2P (B(1) > a) ∼ √ e−a /2 . 2πa √ √ P 2 Sea a = n1/4 ; entonces, e−a /2 = e− n/2 . Puesto que n e− n/2 < ∞, el lema de Borel– Cantelli prueba que, con probabilidad 1, para n suficientemente grande, m´ax [B(t) − B(n)] ≤ n1/4 .

n≤t≤n+1

As´ı, si λ0 > 1, ² > 0 tenemos que, para n suficientemente grande, con probabilidad 1, m´ax B(t) < λ0 (2n ln ln n)1/2 + n1/4

n≤t≤n+1

< (λ0 + ²)(2n ln ln n)1/2 ≤ (λ0 + ²)(2t ln ln t)1/2 si n ≤ t ≤ n + 1. As´ı pues, si λ > 1, tenemos que, para n suficientemente grande, B(t) < λ(2t ln ln t)1/2 y, por tanto, l´ım sup t→∞

Bt (ω) ≤ 1, c.s.. (2t ln ln n)1/2

Cap´ıtulo III

ALGUNOS TIPOS ESPECIALES DE PROCESOS ´ ESTOCASTICOS A TIEMPO CONTINUO

III.13. Cadenas de Markov en tiempo continuo: Procesos de Markov: Cadenas de Markov en tiempo continuo. Propiedades de la matriz de transici´on. Clasificaci´on d los estados. Construcci´on de una cadena de Markov a partir de su generador infinitesimal. Interpretaci´on de los elementos de Q. Procesos de nacimiento puro. Procesos de nacimiento y muerte. III.14. Procesos con incrementos independientes: III.15. Martingalas a tiempo continuo: III.16. Tiempos de parada: Referencias cap´ıtulo III: Ash, Gardner (1975).

67

68

´ n 12: Procesos de Markov. Cadenas de Markov en tiempo Leccio continuo ´ n. Sean T un conjunto de ´ındices totalmente ordenado, {Xt }t∈T un proceso Definicio estoc´astico en (Ω, A, P ) con espacios de estados (S, S) y {At }t∈T una familia de sub-σ´algebras de A. Supongamos que {Xt }t∈T es un proceso adaptado a la familia {At }t∈T , i.e. As ⊆ At si s ≤ t y Xt es At -medible para cada t ∈ T . Diremos que {Xt }t∈T es un proceso de Markov relativo a {At }t∈T si para cada B ∈ S y cada s, t ∈ T , s < t, (27)

P (Xt ∈ B | As ) = P (Xt ∈ B | Xs )

c.s.

Observaciones. 1) La propiedad (27) se llama propiedad de Markov. Hemos escrito, P (· | Xs ), pero en realidad pensaremos en P (· | Xs ) ◦ Xs ´o bien P (· | Xs−1 (S)). 2) Equivalente a la propiedad de Markov es la siguiente propiedad: para s < t y g : (S, S) → (R, R) tal que E[g ◦ Xt ] sea finita, se verifique: (28)

E[g ◦ Xt | As ] = E[g ◦ Xt | Xs ]

c.s.

3) Si se afirma que {Xt }t∈T es un proceso de Markov, sin hacer referencia a ninguna familia de sub-σ-´algebras, se supone que nos estamos refiriendo a As = σ(Xt : t ≤ s). En este caso, la propiedad de Markov es, P (Xt ∈ B | Xr , r ≤ s) = P (Xt ∈ B | Xs )

c.s para todo B ∈ S

Intuitivamente, podemos decir que un proceso de Markov es un proceso que tiene la propiedad de que dado el valor de Xt , los valores de Xs , s > t, no dependen de los valores de Xu , u < t, esto es, que la probabilidad de cualquier comportamiento futuro del proceso, cuando se conoce exactamente su presente, no se ve alterado, no depende de la informaci´on adicional relativa a su comportamiento pasado. ´ n 46. Sea {Xt }t∈T un proceso de Markov relativo a {At }t∈T y A ∈ σ(Xr , r ≥ Proposicio t) entonces P (A | At ) = P (A | Xt ) c.s. Demostraci´ on. Definimos C = {A ∈ σ(Xr , r ≥ t) : P (A | At ) = P (A | Xt ) c.s.}. Se trataQde probar que los conjuntos de la forma X −1 (B), siendo X = (Xr , r ≥ t) y B ∈ r≥t S, pertenecen a C, y haciendo uso del Teorema de la clase mon´otona se concluye (C es una clase mon´otona, es decir estable frente a uniones numerables crecientes e intersecciones numerables decrecientes que contiene a los conjuntos de la forma X −1 (B), luego contiene a la sigma-ßlgebra generada por estos conjuntos esta es, σ(Xr , r ≥ t)). ´ n. Una cadena de Markov es un proceso de Markov con espacio de estados Definicio discreto. Cuando el espacio temporal sea un conjunto numerable o finito hablaremos de cadenas de Markov en tiempo discreto (CMTD) y en otro caso hablaremos de cadenas de Markov en tiempo continuo (CMTC). Generalmente T = [0, ∞). Centrando nuestra atenci´on en las CMTCs, con T = [0, ∞), la propiedad de Markov, es m´as habitual encontrarla en la forma: Para todo n ≥ 2, t1 , . . . , tn ∈ T tales que 0 ≤ t1 < t2 < . . . < tn , e i1 , . . . , in ∈ S se verifica: P (Xtn = in | Xt1 = i1 , . . . , Xtn−1 = in−1 ) = P (Xtn = in | Xtn−1 = in−1 )

69 siempre que el miembro de la izquierda est´e bien definido. Teniendo en cuenta la Proposici´on 46, se deduce que para cualquier m ≥ 0 y t1 , . . . , tn+m ∈ T tales que 0 ≤ t1 < . . . < tn < . . . < tn+m y cualesquiera i1 , . . . , in , . . . , in+m ∈ S se verifica P (Xtr = ir , n ≤ r ≤ n + m | Xt1 = i1 , . . . , Xtn−1 = in−1 ) coincide con P (Xtr = ir , n ≤ r ≤ n + m | Xtn−1 = in−1 ) ´ n. Diremos que una CMTC tiene probabilidades de transici´on estacionarias Definicio si P (Xt+s = j | Xs = i) cuando est´en bien definidas, son independientes de s, cualesquiera que sean i, j ∈ S. A la funci´on (29)

Pij (t) = P (Xt+s = j | Xs = i),

t>0

la llamaremos funci´on de probabilidad de transici´on desde el estado i al j y a la matriz P (t) = (Pij (t))i,j∈S , t > 0, matriz de probabilidad de transici´on. Observaci´ on. Observemos que nos referimos con el t´ermino matriz de probabilidad de transici´on ´o m´as abreviadamente matriz de transici´on a un conjunto de funciones (Pij (·))i,j∈S definida sobre (0, ∞). De ahora en adelante cuando hablemos de una CMTC la supondremos con probabilidades de transici´on estacionarias. Ejemplos: 1) Consideremos una m´aquina que puede estar operativa o no operativa. Si la m´aquina est´a operativa, ´esta falla y pasa a estar no operativa, despu´es de un tiempo exp(1/λ), es decir, que la variable, T , que mide el tiempo que transcurre hasta que se produce un fallo en el funcionamiento de la m´aquina se distribuye seg´ un una distribuci´on de probabilidad exp(1/λ). Una vez que la m´aquina falla, el fallo no tiene arreglo y la m´aquina permanece no operativa. Sea Xt una variable que indique el estado de la m´aquina en el tiempo t, establecemos que, ½ 0 si la m´aquina no est´a operativa en el tiempo t Xt = 1 si la m´aquina est´a operativa en el tiempo t Veamos que {Xt }t≥0 es una CMTC con probabilidades de transici´on estacionarias. Es claro que el proceso es una CMTC, pues el conocimiento del estado futuro de la m´aquina depende del conocimiento del estado de la m´aquina m´as actualizado. Por otra parte, P (Xt+s = 0 | Xs = 0) = 1 y P (Xt+s = 1 | Xs = 0) = 0 Ahora, Xs = 1 si y s´olo si T > s y adem´as si Xs = 1 entonces Xu = 1, para 0 ≤ u ≤ s. Luego P (Xt+s = 1 | Xs = 1) =

P (Xt+s = 1 Xs = 1) = P (T > s + t | T > s) = P (T > t) = exp(−λt) P (Xs = 1)

70 Por tanto {Xt }t≥0 es una CMTC con probabilidades de transici´on estacionarias y matriz de transici´on, t > 0 µ ¶ 1 0 P (t) = 1 − exp(−λt) exp(−λt) 2) El proceso de Poisson es una CMTC con probabilidades de transici´on estacionarias. Propiedades de la matriz de transici´ on Vamos a ir analizando las principales propiedades de la matriz de transici´on de una CMTC. ´ n 47. La matriz de transici´on P (t) de una CMTC tiene las siguientes Proposicio propiedades: a) Pij (t) ≥ 0, t > 0 P b) j Pij (t) = 1, t > 0 P c) Pij (t + s) = k Pik (t)Pkj (s), t, s > 0 Observaci´ on. Las condici´on c) es conocida como la ecuaci´on de Chapman-Kolmogorov. ´ n 48. Sea {Xt }t≥0 una CMTC. Si 0 ≤ t0 < t1 < . . . < tn , se verifica que Proposicio (30)

P (Xtν = iν , 1 ≤ ν ≤ n | Xt0 = i0 ) =

n Y

Piν−1 iν (tν − tν−1 )

ν=1

P Observaciones. 1) Denotamos p(t) = {pi (t), i ∈ S} siendo pi (t) = P (Xt = i), i pi (t) = 1, t ≥ 0. A la distribuci´on p(0) la llamaremos distribuci´on inicial. Una CMTC queda completamente determinada por su distribuci´on inicial y la matriz de probabilidad de transici´on P (t) puesto que se verifica que p(t) = p(0)P (t), t ≥ 0. 2) Dada una matriz de transici´on P (t) = (Pij (t))i,j∈S , t > 0 verificando a)-c) de la Proposici´on 47 y una distribuci´on arbitraria pi , i ∈ S, existe una CMTC {Xt }t∈T verificando (29) y pi = P (X0 = i), y en consecuencia (30). (Chung p´ag. 141) 3) Observemos que las expresiones que se obtienen para las probabilidades que intervienen en una CMTC son muy parecidas a las obtenidas para CMTD; la principal diferencia consiste en que en el tiempo continuo no hay una unidad de tiempo, que represente el m´ınimo lapso de tiempo entre dos instantes consecutivos, y en funci´on de la cual se puedan expresar las probabilidades de transici´on en m´as etapas. Debido a ello no basta con una u ´nica matriz de transici´on sino que se necesita una para cada t (recordar observaci´ on definici´on 3). ´ n. La matriz de transici´on P (t) se llamar´a est´andar si l´ımt→0 Pij (t) = δij , Definicio i, j ∈ S Demostramos a continuaci´on la continuidad de Pij (t) en (0, ∞) para una matriz est´andar. Teorema 49. Si la matriz de transici´on es est´andar, para cualesquiera i, j ∈ S se verifica que Pij (t) es una funci´on uniformemente continua en t ∈ (0, ∞).

71 La demostraci´on en los apuntes. Observaci´ on. En general se verifica, que Pij (t) son continuas en (0, ∞) si y s´olo si existe l´ımt→0 Pij (t). La demostraci´on puede verse en Chung(1967), p´ag. 123. De ahora en adelante asumimos que la matriz de transici´on P (t) de la CMTC es est´andar y en consecuencia, Pij (t) son continuas en (0, ∞). Para una matriz de transici´on est´andar es natural extender la definici´on de Pij (t) a Pij (0), as´ı pues, pondremos: Pij (0) = δij Teorema 50. a) Pii (t) > 0 para todo t ≥ 0 e i ∈ S. b) Si Pij (t0 ) > 0 entonces Pij (t) > 0, para todo t ≥ t0 . Demostraci´ on. a) Observemos que µ ¶ µ ¶ µ ¶ µ ¶ X t n−1 t n−1 Pik Pii (t) = Pki t ≥ Pii Pii t . n n n n k∈S

La desigualdad anterior es independiente del valor de n ∈ N. Por lo tanto, Pii (t) ≥ (Pii (t/n))n , para todo n ∈ N. Luego, fijado t > 0, como Pii (h) → 1, cuando h → 0, podemos tomar n suficientemente grande para que Pii (t/n) > 0, y por P tanto Pii (t) > 0. b) Para todo t > t0 , Pij (t) = k Pik (t0 )Pkj (t − t0 ) ≥ Pij (t0 )Pjj (t − t0 ) > 0. Teorema 51. Para todo i 6= j, Pij (t) > 0, ∀t > 0 ´o Pij (t) = 0, ∀t > 0. La demostraci´on puede verse en Chung(1967), p´ag. 127.

Estudiamos a continuaci´on, las propiedades de diferenciabilidad de Pij (t) en t = 0. Obviamente nosotros s´olo consideraremos derivadas por la derecha de cero. Teorema 52. Para cada i, −Pii0 (0) = l´ım

t→0

1 − Pii (t) t

existe aunque puede ser infinito. La demostraci´on puede verse en Karlin y Taylor(1981), p´ag. 139. Teorema 53. Para i y j, i 6= j, Pij0 (0) = l´ım

t→0

existe y es finito.

Pij (t) t

72 La demostraci´on puede verse en Karlin y Taylor(1981), p´ag. 141. Observaciones. 1) Si S es finito, Pii0 (0) no pueden ser infinito. En efecto, P 1 − Pii (t) k6=i Pij (t) = t t de donde se deduce que −Pii0 (0) =

X

Pij0 (0).

k6=i

Pij0 (0),

2) Denotaremos qij = i 6= j y qi = −Pii0 (0). Es habitual tambi´en usar la notaci´on qii = −qi . La matriz (qij ) = (Pij0 (0)) se llama Q-matriz asociada a la CMTC o matriz o generador infinitesimal de la CMTC. 3) En general se verifica que X qij ≤ qi para todo i (31) j6=i

En efecto: Se tiene que

P

j6=i Pij (h)

= 1 − Pii (h). Luego para cualquier N finito,

N X

Pij (h) ≤ 1 − Pii (h)

j=1,j6=i

P Dividiendo por h, h → 0, se sigue que N j=1,j6=i qij ≤ qi , puesto que N es arbitrario y todos los t´erminos son positivos, se sigue (31). ´ n. Una CMTC se dice que es conservativa si Definicio X qij = qi < ∞ para todo i ∈ S. j6=i

Ahora vamos a probar que para una CMTC conservativa no s´olo todas las Pij (t) son diferenciables, si qi < ∞ (i ≥ 0), sino que satisfacen un conjunto de ecuaciones diferenciales conocidas como las ecuaciones atrasadas (“backward”) de Kolmogorov. Aunque para la diferenciabilidad de Pij (t) no es necesario que la matriz sea conservativa, ahora bien la demostraci´on es m´as f´acil bajo esta suposici´on. De hecho, Teorema 54. (Ecuaciones atrasadas de Kolmogorov) Para una CMTC conservativa se verifica para todo i, j y t ≥ 0, X (32) Pij0 (t) = qik Pkj (t) − qi Pij (t) k6=i

Demostraci´ on. Pij (s + t) − Pij (t) =

X

Pik (s)Pkj (t) − Pij (t)

k

=

X k6=i

Pik (s)Pkj (t) + (Pii (s) − 1)Pij (t)

73 Dividiendo por s, s → 0, se sigue: X Pij0 (t) = qik Pkj (t) − qi Pij (t) para todo i k6=i

Para derivar estas ecuaciones rigurosamente nosotros debemos probar que X 1X Pik (s)Pkj (t) = qik Pkj . s

l´ım

s→0+

k6=i

k6=i

Ahora, l´ım inf s→0+

1X 1 Pik (s)Pkj (t) ≥ l´ım inf + s s s→0 k6=i

N X

N X

Pik (s)Pkj (t) =

k=1,k6=i

qik Pkj

k=1,k6=i

para cualquier N > 0, por lo que l´ım inf s→0+

X 1X qik Pkj . Pik (s)Pkj (t) ≥ s k6=i

k6=i

Por otra parte, para N > i, X k6=i

N X

Pik (s)Pkj (t) ≤

Pik (s)Pkj (t)+

∞ X

k=N +1

k=1,k6=i

N X

Pik (s) =

Pik (s)Pkj (t)+1−Pii (s)−

N X

k=1,k6=i

k=1,k6=i

Dividiendo por s y tomando l´ım sups→0+ en ambos lados obtenemos l´ım sup s→0+

1X Pik (s)Pkj (t) ≤ s k6=i

N X

N X

qik Pkj (t) + qi −

qik .

k=1,k6=i

k=1,k6=i

Tomando N → ∞ y usando que la matriz es conservativa, tenemos que, l´ım sup s→0+

X 1X Pik (s)Pkj (t) ≤ qik Pkj (t). s k6=i

k6=i

Observaci´ on. El rec´ıproco tambi´en es cierto i.e. si se satisfacen las ecuaciones atrasadas de Kolmogorov la matriz Q es conservativa. El sentido de llamar ecuaciones atrasadas a las ecuaciones diferenciales obtenidas en el Teorema previo es porque en el c´alculo de la distribuci´on de probabilidad del estado en el tiempo s + t condicionamos sobre el estado (todos los posibles) atr´as en un tiempo s. Esto es, empezamos nuestra demostraci´on con: Pij (s + t) =

X

P (Xs+t = j | X0 = i, Xt = k)P (Xt = k | X0 = i)

k

=

X

Pik (t)Pkj (s)

k

De forma similar podemos obtener,

Pik (s).

74 Teorema 55. (Ecuaciones adelantadas “forward” de Kolmogorov) Bajo ciertas condiciones de regularidad, X (33) Pij0 (t) = Pik (t)qkj − Pij (t)qj para todo i, j k6=j

Observaci´ on. La demostraci´on sigue pasos an´alogos a la anterior. Ahora bien no vamos a profundizar en la condiciones de regularidad que han de verificarse para que sea cierto la conmutatividad entre el l´ımite y la suma debido a una mayor complejidad en las mismas. C´ alculo de las funciones de probabilidad de transici´ on Las ecuaciones atrasadas y adelantadas de Kolmogorov son sistemas de ecuaciones diferenciales de primer orden lineales y con coeficientes constantes (que son los t´erminos de la ´ matriz P 0 (0)), acompa˜ nados por la condici´on inicial P (0) = Id. Estas tienen como soluci´on u ´nica, P (t) = eQt

(34)

definiendo como la exponencial de una matriz Qt como sigue Qt

e

= Id +

∞ X (Qt)n n=1

n!

.

Ahora bien, esta expresi´on para la exponencial de Qt es num´ericamente intratable. Alternativamente, supongamos que el espacio de estado de la cadena es finito, p.e. S = {0, 1, . . . , N }. La funci´on de probabilidades de transici´on viene dada por (34). Sean λj , j = 0, 1, . . . , N , los autovalores de Q (i.e. las soluciones de det(q − λId) = 0) y supongamos que Q puede se escrita como Q = HJH −1 para alguna matriz H no singular, donde J es la matriz diagonal con los elementos de la diagonal λj . Si existe tal matriz H, se dice que la matriz Q es diagonalizable. Una condici´on suficiente para que la matriz Q sea diagonalizable es que todos los autovalores sean distintos. En el caso de que la matriz Q sea diagonalizable entonces la columna i-´esima de la matriz H es el autovector por la derecha, denot´emosle νi , de λi i.e. Qνi = λi νi . En consecuencia P (t) = HeJt H −1 siendo eJt una matriz diagonal cuyos elementos de la diagonal son eλi t . En el caso infinito, no se puede dar una forma expl´ıcita para la soluci´on de las ecuaciones de Kolmogorov, ´estas constituyen cuando son v´alidas y se saben resolver, un m´etodo para determinar las matrices de transici´on P (t) a partir de la la matriz de derivadas en el origen P 0 (0). Ejemplos: 1) Caso finito. Problema de fallos. 2) Caso infinito. Definici´on equivalente de Proceso de Poisson. Un proceso de Poisson es una cadena de Markov con espacios de estados S = {0, 1, . . .} y probabilidades de transici´on estacionarias verificando, 1. Pi

i+1 (h)

= αh + o(h)

2. Pi i (h) = 1 − αh + o(h)

h ↓ 0+ , i ≥ 0 h ↓ 0+ , i ≥ 0

75 3. Pi j (0) = δij 4. X0 = 0 Clasificaci´ on de los estados Para cada h > 0 fija, la matriz (Pij (h)) es la matriz de transici´on de la CMTD, Ch = {Xnh , n ≥ 0}, i.e. que corresponde a observar el proceso u ´nicamente en los instantes m´ ultiplos de la unidad de tiempo h. Su matriz de transici´on en n− pasos son dadas por (Pij (nh)). La relaci´on entre la CMTC {Xt }t∈T y las CMTDs Ch , h > 0 son muy u ´til a la hora de clasificar los estados. ´ n. Diremos que i conduce a j, y lo denotamos i à j si existe un t > 0 tal Definicio que Pij (t) > 0. Diremos que i comunica con j, y lo denotamos i ! j, si i à j y j à i. Observaci´ on. Teniendo en cuenta el Teorema 50, a) se sigue que i ! i y por tanto todas las CMTDs son a peri´odicas. A partir del apartado b), se verifica que si i à j para {Xt }t∈T entonces i à j para Ch , h > 0, el rec´ıproco es trivial. Luego la noci´on de comunicaci´on para la CMTC es equivalentes a la de las CMTDs Ch , h > 0. En particular la clasificaci´on de todos los estados dentro de clases de estados comunicantes es la misma para la CMTC y todas las CMTDs Ch , h > 0. ´ n. Un estado i ∈ S se dice que es recurrente para la CMTC si Definicio Z ∞ Pii (t)dt = ∞ 0

En caso contrario se denominar´a transitorio. Teorema 56. R∞ a) 0 Pii (t)dt = ∞ si y s´olo si ∞ X

Pii (nh) = ∞

para alg´ un h > 0

n=0

y en tal caso para cualquier h > 0. Es decir que i es recurrente si y s´olo si lo es en alguna cadena Ch , y en tal caso lo es para todas. b) La descomposici´on de S en estados transitorios y recurrentes, divididos a su vez en subcadenas cerradas e irreducibles, es la misma para cualquiera de las cadenas Ch . Demostraci´ on. a) Dado h > 0, sea δ(h) = m´ınr∈[0,h] Pii (r). Observemos que m´ın Pii (t + r) ≥ Pii (t) m´ın Pii (r) = Pii (t)δ(h)

r∈[0,h]

r∈[0,h]

por tanto δn (h) =

m´ın

r∈[nh,(n+1)h]

Pii (r) ≥ Pii (nh)δ(h)

76 An´alogamente, puesto que Pii (t) ≥ Pii (t − r)δ(h) tenemos que ∆n (h) = As´ı que

Z 0

y

Z

m´ax

t∈[nh,(n+1)h]

Nh

Pii (t)dt ≥ h

N −1 X

Pii (t) ≤

Pii ((n + 1)h) δ(h)

δn (h) ≥ hδ(h)

N −1 X

n=0

n=1

N −1 X

N

Pii (nh)

h X Pii (t)dt ≤ h Pii (nh) δn (h) ≤ δ(h) 0 n=1 n=1 R∞ De donde se deduce, al tender N → ∞ que 0 Pii (t)dt = ∞ si y s´olo si Nh

∞ X

Pii (nh) = ∞

n=0

Como la demostraci´on es v´alida para cualquier h, se tiene a). b) La descomposici´on de los estados recurrentes en subcadenas cerradas e irreducibles para las cadenas de Markov, se hac´ıa estableciendo las clases de equivalencia de la relaci´on i ! j. Ahora bien, seg´ un el resultado del Teorema 51, fijados i y j de S, Pij (t) = 0 para todo t > 0 ´o Pij (t) > 0 para todo t > 0, y obviamente lo mismo para Pji (t), por tanto se deduce b).

Resulta del Teorema anterior que el teorema de descomposici´on que se enuncia para CMTDs, es v´alido sin ninguna variaci´on para CMTCS. Observaci´ on. Analicemos m´as detenidamente el concepto de recurrencia. Sea Si = {t ≥ 0 : Xt = i} i.e. conjunto de los instantes en que el proceso ocupa el estado i. Sea µi una variable aleatoria que representa la longitud total de tiempo que el proceso permanece en el estado i, a lo largo de su evoluci´on, y que podemos expresar Z ∞ µi = ISi (t)dt 0

siendo

½ ISi (t) =

1 0

si t ∈ Si si t ∈ 6 Si

As´ı pues, aplicando el Teorema de Fubbini, Z Z Z ∞ E[µi | X0 = j] = µi (w)P (dw | X0 = j) = ISi (w) (t)dtP (dw | X0 = j) Ω Ω 0 ¶ Z ∞ µZ = ISi (w) (t)P (dw | X0 = j) dt. 0



77 Ahora bien, {w : t ∈ Si (w)} = {w : Xt (w) = i}. Luego puesto que, Z Pji (t) = P (Xt = i | X0 = j) = E[I{Xt =i} | X0 = j] = se verifica que

Z E[µi | X0 = j] =

0



I{Xt =i} (w)P (dw | X0 = j)



Pji (t)dt

R∞ Luego 0 Pji (t)dt representa el tiempo total esperado que el proceso permanece en i cuando su posici´on inicial es j. En estos t´erminos i es recurrente si y s´olo si el tiempo total esperado de permanencia en i partiendo de i es infinito. Adem´as se puede probar (ver Chung p´ag. 185) que P (Si es un conjunto no acotado | X0 = i) = P (µi = ∞ | X0 = i) R∞ y o bien la probabilidad es igual a cero ´o a uno seg´ un sea 0 Pii (t)dt finita o infinita. Comportamiento asint´ otico Vamos a ver a continuaci´on c´omo se comportan las matrices de transici´on P (t) cuando t → ∞. Teorema 57. Para cada i, j en S existe (35)

l´ım Pij (t) = πij .

t→∞

Corolario 58. Para todo s > 0 se verifica Π = ΠP (s) = P (s)Π = ΠΠ ´ n. Una distribuci´on de probabilidad π = {πi }i∈S sobre S es una distribuci´on Definicio estacionaria para una CMTC con matriz de transici´on P (t), t ≥ 0, si πP (t) = π, para t ≥ 0 i.e. X πi Pij (t), para todo t ≥ 0 y j ∈ S πj = i

´ n 59. Si para alg´ Proposicio un i ∈ S es πii 6= 0, entonces {πij }j∈S es una distribuci´on estacionaria para la CMTC. Demostraci´ on. Teniendo en cuenta el corolario anterior bastar´ıa probar que en tal situaci´on X πij = 1. j∈S

Por una parte puesto que

X j∈S

Pij (t) = 1, t > 0

78 es claro que

X

πij ≤ 1.

j∈S

Por otra parte consideremos ui = sup πki k∈S

y tendremos que πji =

X

πjk πki ≤

X

k

πjk ui + πji (πii − ui )

k

es decir, πji (1 + ui − πii ) ≤ ui

X

πjk ≤ ui

k

o bien como ui 6= 0, ui = πii Entonces πii =

X

πik πki ≤

X

X

X

πik

k

k

k∈S

con lo cual

πik ui = πii

πik ≥ 1

k

´ n. Diremos que i es un estado recurrente positivo si πii > 0 en (35). Definicio Corolario 60. Las filas de la matriz l´ımite Π correspondientes a estados recurrentes positivos son distribuciones estacionarias frente a P (s), s > 0. Observaciones. 1) Si ξiT es el tiempo de permanencia en i durante el intervalo de tiempo [0, T ], tendr´ıamos que Z T E[ξiT | X0 = j] = Pji (t)dt 0

RT

con lo cual l´ımT →∞ T1 0 Pji (t)dt = πji representa la proporci´on l´ımite de tiempo que hay que esperar permanecer en i si la evoluci´ on empieza en j. 2)La noci´on de recurrente positivo para la CMTC es la misma que para la existente en las CMTDs Ch , y por lo tanto de ah´ı la definici´on. Para la determinaci´on de la matriz Π resulta c´omodo emplear el siguiente resultado. Corolario 61. Si se cumplen las ecuaciones atrasadas de Kolmogorov entonces l´ımt→∞ p0ij (t) = 0 y QΠ = 0. Si se cumplen las del futuro entonces tambi´en se verifica ΠQ = 0. Demostraci´ on. La ecuaci´on atrasada de Kolmogorov es X p0ij (t) = p0ik (0)pkj (t). k∈S

79 Observemos que la serie del segundo miembro es absolutamente convergente puesto que X X |p0ik (0)|pkj (t) ≤ |p0ik (0)| = −2p0ii (0). k∈S

k∈S

Entonces cuando t → ∞, de lo anterior se sigue que X l´ım p0ij (t) = p0ik (0)πkj t→∞

k∈S

lo cual prueba que l´ımt→∞ p0ij (t) existe. Adem´as puesto que pij (t) converge a una constante, ha de ser l´ım p0ij (t) = 0 t→∞

En las ecuaciones diferenciales de Kolmogorov queda entonces 0 = QΠ = ΠQ. Construcci´ on de una cadena de Markov a partir de su generador infinitesimal Supongamos que tenemos un conjunto de n´ umeros no negativos (qij ) que satisfacen la propiedad: X qij ≤ qi para todo i. j6=i

Para unificar la notaci´on escribimos qii = −qi . Nos preguntamos si existe una cadena de Markov en tiempo continuo, i.e. una matriz de transici´on est´andar P = (Pij (t)), para la cual Pij0 (0) = qij , j 6= i P y Pii0 (0) = −qi . Si asumimos que j6=i qij = qi < ∞ para todo i, se verifica que cualquier cadena de Markov asociada con los (qij ) debe al menos satisfacer las ecuaciones atrasadas atr´as. La importancia pr´actica de este hecho es porque a menudo una cadena de Markov se define de manera que uno sea capaz de derivar las ecuaciones hacia atr´as. Y luego tratar de resolverlas para calcular la matriz de transici´on completa. Hasta el presente momento resultados definitivos P para el caso general no son conocidos. Si es conocido que bajo el supuesto de que j6=i qij = qi < ∞ para todo i, existe al menos una matriz de transici´on asociada y que si existe m´as de una entonces existen infinitas de ellas. En Chung(1967) y Cinlar(1975), se prueba que si con probabilidad una la CMTC realiza un n´ umero finito de transiciones en un intervalo finito de tiempo (tales CMTC se llaman regulares) s´ı que la matriz infinitesimal Q (junto con la distribuci´on inicial) identifican un´ıvocamente una CMTC. Si se tiene un conocimiento m´as impl´ıcito de la matriz Q se puede profundizar m´as en la existencia del mismo. En general, el problema de clasificar el generador infinitesimal y su proceso asociado es complicado. Interpretaci´ on de los elementos de Q Sea i tal que 0 < qi < ∞. Sea t > 0 fijo y n > 0 un entero positivo arbitrario. Supongamos que el proceso empieza en el estado i. Entonces consideremos P (Xτ = i, para τ = 0, t/n, 2t/n, 3t/n, . . . , t | X0 = i) = [Pii (t/n)]n .

80 Puesto que

1 − Pii (t) = qi + o(1), t

tenemos que [Pii (t/n)]n = [1 − t/nqi + o(t/n)]n = exp{n log[1 −

tqi + o(t/n)]}. n

Usamos la expansi´on para el logaritmo de la forma log(1 − x) = −x + θ(x)x2 v´alido para |x| ≤ 1/2 y |θ| ≤ 1, con x = −tqi /n + o(t/n) y haciendo tender n → ∞, obtenemos que l´ım [Pii (t/n)]n = exp(−qi t). n→∞

Nosotros podemos considerar que l´ım P (Xτ = i, para τ = 0, t/n, 2t/n, 3t/n, . . . , t | X0 = i) justo como P (Xτ = i para todo 0 ≤ τ < t | X0 = i). (Afirmaci´on que se basa en el concepto de separabilidad) Se prueba que P (Xτ = i, para todo 0 ≤ τ ≤ t | Xt = i) = exp(−qi t) Es decir exp(−qi t) es la probabilidad de permanecer en el estado i durante al menos una longitud de tiempo t. En otras palabras la distribuci´on del tiempo de espera en el estado i es una distribuci´on exponencial con par´ametro 1/qi . Luego el razonamiento expresado arriba nos conduce al siguiente Teorema. Denotando por Ti a la duraci´on de la permanencia en el estado i, es decir, Ti = ´ınf{t/Xt 6= i}. Teorema 62. Para todo i ∈ S, P (Ti ≥ t | X0 = i) = P (Xs = i para todo s ∈ [0, t] | X0 = i) = exp{−qi t}. Un estado i verificando 0 < qi < ∞ se llama estable. En este caso el tiempo de espera en el estado i es una variable aleatoria cuya distribuci´on es una aut´entica distribuci´on exponencial y por tanto las transiciones ocurren en tiempo finito. Diremos que es absorbente si qi = 0, lo cual obviamente implica que una vez que se entra en el estado i el proceso permanece all´ı para siempre. Un estado i es instant´ aneo si qi = ∞. El valor esperado en tal estado es cero, de ah´ı el nombre, puesto que el tiempo de permanencia es cero. La teor´ıa sobre cadenas de Markov con estados instant´ aneos es complicada. Vale la pena apreciar los problemas t´ecnicos inherentes en tales procesos, ahora bien cabe destacar que la mayor´ıa de las cadenas de Markov en tiempo continuo que surgen en la pr´actica tienen s´olo estados estables. De hecho en la mayor´ıa de los casos de inter´es el proceso bajo estudio es definido especificando los par´ametros infinitesimales como datos conocidos. Para completar la teor´ıa, es entonces necesario establecer la existencia de un proceso que posea la matriz infinitesimal descrita. Centrando la atenci´on a las cadenas de Markov en tiempo continuo con s´olo estados estables, vamos a establecer un significado intuitivo a las cantidades qij . De hecho si

81 el procesos es conservativo los elementos qij /qi (i 6= j) pueden interpretarse como las probabilidades condicionadas de que ocurra una transici´on del estado i al j. Para ver esto, consideremos Rij (h) = P (Xh = j | X0 = i, Xh 6= i), j 6= i y calculemos el l´ımh→0 Rij (h). Esta es la probabilidad de una transici´on desde el estado i al j, dado que un transici´on ha ocurrido. El hecho de hacer tender h a cero hay que entenderlo pensando que la transici´on de un estado a otro es instant´ anea, el instante en el que se produce el salto, estamos en un tiempo t en i, dejamos de estar en i para estar en j, ocurriendo este salto en un tiempo instant´ aneo. No podemos decir hablando en tiempo continuo cuando hemos dejado de estar en i para pasar a j, ese salto es instant´ aneo de ah´ı hacer tender h a cero. As´ı pues si denotamos Pij la probabilidad de una transici´on desde el estado i al j, tenemos que: qij = Pij qi ∀i 6= j Puesto que qi es la tasa en la cual el proceso abandona el estado i, se sigue que qij es la tasa que cuando en el estado i se produzca una transici´on sea al estado j. De hecho llamaremos a qij tasa de transici´on de i a j. Luego si definimos como sucesi´on de tiempos de salto de {Xt }t≥0 a la sucesi´on {Jn }n≥0 definida recursivamente por J0 = 0, Jn+1 = ´ınf{t ≥ Jn : Xt 6= XJn }

n = 0, 1, . . .

(donde ´ınf ∅ = ∞) y sucesi´on de tiempos de permanencia de {Xt }t≥0 a la sucesi´on {Sn }n≥1 definida por ½ Jn − Jn−1 si Jn−1 < +∞ Sn = ∞ si Jn−1 = +∞ Finalmente definimos tambi´en el proceso o cadena de saltos, Yn = XJn , n = 0, 1, . . . (si Jn+1 = ∞ para alg´ un n definimos X∞ = XJn , en otro caso X∞ queda sin definir). De lo expresado anteriormente se deduce que: ´ n:Sea i ∈ S tal que qi > 0. Se verifica que Sn+1 , condicionado a que Proposicio Yn = i, sigue una distribuci´ on exponencial de par´ ametro 1/qi .

´ n: Sea i ∈ S tal que qi > 0. Se verifica que P (Yn+1 = j|Yn = i) = qij /qi , Proposicio j 6= i. En la pr´actica es m´as habitual modelizar el comportamiento de un sistema por medio de una CMTC a partir del conocimiento de la matriz infinitesimal. Ejemplo: Una t´ıpica realizaci´on de un proceso: Consideremos un sistema con un espacio de estados contable. Para cada par de estados (i, j) (i 6= j) tenemos asociado un suceso Eij . Cuando el sistema entra en el estado i, su pr´oxima transici´on esta gobernada por los sucesos Eij como sigue: Supongamos que el sistema entra en el estado i en el tiempo t. Entonces Eij est´ a establecido que ocurrir´a en el tiempo t + Tij , donde Tij es una variable aleatoria exponencialmente distribuida con par´ametro 1/qij , qij ≥ 0 (Si qij = 0, entonces Eij no ocurre.) Adem´as las variables aleatorias {Tij }j6=i son mutuamente independientes y tambi´en independientes de la historia del proceso hasta el tiempo t. Supongamos que j es tal que Tij = m´ınk6=i {Tik }, i.e. Eij es el primer suceso que tiene lugar despu´es de que el sistema se mueva del estado

82 i. Entonces el sistema permanece en i hasta t + Tij y entonces se mueve a j. Todos los dem´as sucesos son cancelados. Un nuevo conjunto de sucesos se establecen, y el proceso continua. Modelizamos la realizaci´on de este sistema P por medio de una CMTC. Sea Xt el estado del sistema en el tiempo t. Si definimos qi = j6=i qij , veamos que qi es el par´ametro asociado a la distribuci´on exponencial del tiempo de permanencia en el estado i. El tiempo de permanencia en el estado i coincide m´ınk6=i Tik . Teniendo en cuenta que las variables aleatorias {Tik }k6=i son mutuamente independiente y Tik ∼ exp(1/qik ), se sigue: P (m´ın Tik ≤ x) = 1 − P (m´ın Tik > x) = 1 − k6=i

k6=i

Y

(1 − P (Tik ≤ x))

k6=i

X = 1 − exp( qik x) = 1 − exp(−qi x) k6=i

Veamos c´omo calcular´ıamos la probabilidad de que haya una transici´on del estadio i al estado j, Pij : Pij

= P (Tij = m´ın{Tik }) = P (Til − Tij > 0, l 6= j, i) = E(P (Til − Tij > 0, l 6= j, i | Tij )) k6=i Y P (Til − Tij > 0 | Tij )) = E( l6=j,i

Sea l 6= j, i, Z P (Til − Tij > 0 | Tij )(x) = E(I{Til −Tij >0} | Tij )(x) = Z ∞ = fUl |Tij =x (ul )dul

I(0,∞) (ul )dP Ul |Tij =x (ul )

0

donde Ul = Til −Tij . Ahora, calculemos la fUl |Tij =x (ul ). Realizamos el cambio bidimesional de (Til , Tij ), a (Ul , Tij ). Obtenemos que f(Ul ,Tij ) (ul , x) = fTil (ul + x)fTij (x) luego f(Ul ,Tij ) (ul , x) = qil exp(−qil (ul + x))qij exp(−qij x), x > 0, ul + x > 0 De donde, fUl |Tij =x (ul ) = qil exp(−qil (ul + x)), uj > −x, x > 0 Para x > 0, Z ∞ 0

Z fUl |Tij =x (ul )dul =

Z0 ∞

= 0

Luego

Y l6=j,i



qil exp(−qil (ul + x))I{ul >−x} (ul )dul qil exp(−qil (ul + x))dul = exp(−qil x)

P (Til − Tij > 0 | Tij )(x) =

Y l6=j,i

exp(−qil x)

83 Y por lo tanto Z Y Z Pij = P (Til − Tij > 0 | Tij )(x)dP Tij (x) = Z = 0

l6=j,i ∞

qij exp(−

0

X l6=i

qil x)dx = P

qij

l6=i qil



Y l6=j,i

exp(−qil x)qij exp(−qij x)dx

´ n 13: Procesos con Incrementos Independientes Leccio Los procesos que estudiaremos en esta lecci´on constituyen una u ´til fuente de ejemplos de procesos de Markov a tiempo continuo. Comenzamos esta secci´on con el concepto de distribuciones infinitamente divisibles que est´a estrechamente relacionado con los procesos con incrementos independientes, como veremos posteriormente. ´ n. (Distribuciones infinitamente divisibles) Una v.a. X (o su funci´on de Definicio distribuci´on F o su funci´on caracter´ıstica h) se dice infinitamente divisible si, para cada n, X tiene la misma distribuci´on que la suma de n v.a. independientes e id´enticamente distribuidas. En otras palabras si, para cada n, podemos escribir h = (hn )n , donde hn es la funci´on caracter´ıstica de una v.a. Ejemplos. (Ejemplos de v.a. infinitamente divisibles) 1) La distribuci´on de Poisson: Si X ∼ P (λ), P (X = k) = e−λ λk /k!, k = 0, 1, ... y su funci´on caracter´ıstica es de la forma ϕX (t) = E[eitX ] = eλ(e

it −1)

.

Es tales que Xi ∼ P (λi ), entonces Pnconocido que si X1 , ...Xn son v.a.r. independientes Pn X tiene distribuci´ o n de Poisson P ( λ ). De ah´ı se sigue que, para cada i i i=1 i=1 P n, X tiene la misma distribuci´on que ni=1 Xi , siendo las Xi independientes y tales que Xi ∼ P (λ/n). 2) La distribuci´on gamma: Si X ∼ G(α, β), su funci´on caracter´ıstica es ϕX (t) = (1 − iβt)−α . Para cada n ∈ N, podemos expresar ϕX (t) = [(1 − iβt)−α/n ]n = [ϕn (t)]n donde ϕn es la funci´on caracter´ıstica de una distribuci´on gamma G(α/n, β) Teorema 63. Sean h, h1 , h2 funciones caracter´ısticas infinitamente divisibles entonces, tambi´en lo son (i) h1 · h2 (ii) h (conjugado complejo de h) (iii) |h|2 Demostraci´ on. Si hi = (hin )n , i = 1, 2, entonces h1 h2 = (h1n h2n )n , con lo que queda probado (i) puesto que h1n h2n es la funci´on caracter´ıstica de la suma de dos v.a. independientes con funciones caracter´ısticas h1n y h2n . Si X tiene funci´on caracter´ıstica h entonces −X tiene funci´on caracter´ıstica h, as´ı si h = (hn )n , entonces h = (hn )n y h es infinitamente divisible si lo es h. Puesto que |h|2 = hh, |h|2 es tambi´en infinitamente divisible. 84

85 ´ n. (Procesos con incrementos independientes) Sea (Xt )t≥0 un proceso esDefinicio toc´astico real. Se dice que dicho proceso tiene incrementos independientes si cualesquiera que sean 0 < t1 < · · · < tn , X0 , Xt1 − X0 , Xt2 − Xt1 , ..., Xtn − Xtn−1 son independientes. Observaciones. 1) Si (Xt )t≥0 tiene incrementos independientes e Yt = Xt − X0 , entonces, X0 e (Yt )t≥0 son independientes y el proceso (Yt )t≥0 tambi´en tiene incrementos independientes. 2) Rec´ıprocamente, si (Yt )t≥0 tiene incrementos independientes, Y0 ≡ 0 y definimos Xt = X0 + Yt , siendo X0 una v.a.r. independiente de (Yt )t≥0 entonces (Xt )t≥0 tiene incrementos independientes. 3) Como consecuencia de 1) y 2), en el estudio de procesos con incrementos independientes no hay p´erdida de generalidad si restamos la v.a. inicial X0 . ´ n. (Procesos con incrementos independientes y estacionarios) Si (Xt )t≥0 Definicio tiene incrementos independientes y Xt − Xs tiene la misma distribuci´on que Xt+h − Xs+h para todos s, t, h ≥ 0, s < t, se dice que el proceso tiene incrementos independientes y estacionarios. Teorema 64. Sea (Xt )t≥0 un proceso estoc´astico con incrementos independientes y estacionarios, e Yt = Xt − X0 . Entonces para cada s < t, Yt − Ys es infinitamente divisible. Si ht es la funci´on caracter´ıstica de Yt y ht (u) es continua (o m´as generalmente Borel medible) en t para cada u fijo, entonces ht (u) = [h1 (u)]t = exp[t log h1 (u)], donde ” log ” significa el u ´nico logaritmo continuo de h1 tal que log h1 (0) = 0. Rec´ıprocamente, si h1 es una funci´on caracter´ıstica infinitamente divisible, existe un proceso estoc´astico (Yt )t≥0 con incrementos independientes y estacionarios tal que, para cada t, Yt tiene funci´on caracter´ıstica ht1 . Demostraci´ on. Si (Xt )t≥0 tiene incrementos independientes, entonces, para cada n ∈ N ¶ µ ¶¸ n · µ X k(t − s) (k − 1)(t − s) Y (t) − Y (s) = Y s+ −Y s+ , n n k=1

de forma que Y (t) − Y (s) es infinitamente divisible. Puesto que Y (s + t) = Y (s) + (Y (s + t) − Y (s)), y que por la estacionaridad de los incrementos Y (s + t) − Y (s) tiene la misma distribuci´on que Y (t), se tiene que, siendo independientes los incrementos, hs+t (u) = hs (u)ht (u), para cada u. Como para u fijo ht (u) es Borel-medible en t, ht (u) tiene que ser de la forma A(u) exp[B(u)t]. Puesto que Y (0) ≡ 0, hagamos t = 0 para obtener que A(u) = 1. Haciendo ahora t = 1 se obtiene que h1 (u) = eB(u) , de forma que B(u) es un logaritmo de h1 (u). Si la funci´on B fuese discontinua en alg´ un u0 entonces ht ser´ıa discontinua en u0 para cada t, en contra de que ht es una funci´on caracter´ıstica y toda funci´on caracter´ıstica es continua. As´ı pues, B es continua, y siendo log h1 y B dos logaritmos continuos de la misma funci´on h1 , se tiene que B(u) = log h1 (u) + i2kπ para alg´ un entero k. Por lo tanto, ht (u) = exp[t log h1 (u)], como dese´abamos.

86 Rec´ıprocamente, sea h1 una funci´on caracter´ıstica infinitamente divisible y veamos que, para cada t ≥ 0, la funci´on ht1 es una funci´on caracter´ıstica. Siendo h1 infinitamente divisible, dado q entero positivo, se tiene que h1 = hq , para alguna funci´on caracter´ıstica h. Pero h1 = [exp(q −1 log h1 )]q y, por tanto, h = exp(q −1 log h1 ) y, dado un n´ umero p p/q p −1 entero positivo, h = exp[pq log h1 ] = h1 . Siendo h una funci´on caracter´ıstica, tambi´en p/q lo es hp = h1 . p/q

Hemos probado que, para todo racional positivo p/q, h1 es una funci´on caracter´ıstica. Dado t ≥ 0 existe una sucesi´on de racionales positivos pn /qn convergente a t. Se tiene p /q entonces que, para cada u fijo, h1n n (u) converge a ht1 (u). El teorema de L`evy prueba entonces que ht1 es una funci´on caracter´ıstica. Sea ahora (Yt )t≥0 un proceso estoc´astico tal que, para cada 0 ≤ t1 < t2 < · · · < tn , la distribuci´on conjunta de Yt1 , ..., Ytn queda especificada por el hecho de que los incrementos Yt1 , Yt2 − Yt1 , ..., Ytn − Ytn−1 sean independientes y que cada incremento Ytk − Ytk−1 tenga funci´on caracter´ıstica (h1 )tk −tk−1 . Esta especificaci´on satisface la condici´on de consistencia (CC) y el teorema de extensi´on de Kolmogorov prueba la existencia de tal proceso, lo que acaba la demostraci´on. Ejemplos. (Ejemplos de aplicaci´on) 1) Sea h1 (u) = exp[−u2 σ 2 /2] la funci´on caracter´ıstica de una v.a. con distribuci´on 2 2 normal N (0, σ 2 ). Entonces, ht1 (u) = e−u σ t/2 , de forma que Ys+t − Ys es normal N (0, σ 2 t). Puesto que Yt1 , Yt2 −Yt1 , ..., Ytn −Ytn−1 son v.a. normales e independientes, (Yt1 , Yt2 , ..., Ytn ) es normal y el proceso (Yt )t≥0 es gaussiano. La funci´on de covarianzas viene dada por E(Ys Yt ) = E[Ys (Yt − Ys + Ys )] = E(Ys2 ) = σ 2 s,

s ≤ t,

de forma que (Yt )t≥0 es un movimiento browniano. El proceso (X0 +Yt )t≥0 donde X0 e (Yt )t≥0 son independientes recibe el nombre de movimiento browniano con inicio en X0 . 2) Para h1 (u) = e−|u| , se tiene que ht1 (u) = e−t|u| , e Yt tiene distribuci´on de Cauchy de par´ametro t, cuya densidad es ft (y) = t/π(t2 + y 2 ). El proceso (Yt )t≥0 que se obtiene recibe el nombre de proceso de Cauchy. 3) Si h1 (u) = exp[λ(eiu −1)], ht1 (u) = exp[λt(eiu −1)], de forma que Yt tiene distribuci´on de Poisson de par´ametro λt; adem´as, si 0 ≤ t1 < · · · < tn , Yt1 , Yt2 − Yt1 , ..., Ytn − Ytn−1 son independientes e Ytk − Ytk−1 tiene distribuci´on de Poisson con par´ametro λ(tk − tk−1 ). As´ı pues, el proceso (Yt )t≥0 que se obtiene es el proceso de Poisson de promedio λ. P Lema 65. Si Xn = nk=1 Yk , n = 1, 2, ... donde las Yk son v.a. independientes, entonces (Xn )n es un proceso de Markov.

87 Demostraci´ on. Si C, D ∈ R, entonces P (Xn−1 ∈ C, Yn ∈ D|Y1 , ..., Yn−1 ) = P (Xn−1 ∈ C, Yn ∈ D|Xn−1 ) ya que, por una parte, P (Xn−1 ∈ C, Yn ∈ D|Y1 , ..., Yn−1 ) = E(IC (Xn−1 )ID (Yn )|Y1 , ..., Yn−1 ) = IC (Xn−1 )E[ID (Yn )] y, por otra P (Xn−1 ∈ C, Yn ∈ D|Xn−1 ) = E[IC (Xn−1 )ID (Yn )|Xn−1 ] = IC (Xn−1 )E[ID (Yn )]. De ello se sigue que P [(Xn−1 , Yn ) ∈ A|Y1 , ...Yn ] = P [(Xn−1 , Yn ) ∈ A|Xn−1 ] para cada A ∈ B(R2 ). In particular, si B ∈ R, entonces P (Xn−1 + Yn ∈ B|Y1 , ..., Yn ) = P (Xn−1 + Yn ∈ B|Xn−1 ). De lo anterior se sigue el resultado pues σ(X1 , ..., Xn ) = σ(Y1 , ..., Yn ) y Xn = Xn−1 + Yn . Teorema 66. Todo proceso (Xt )t≥0 con incrementos independientes es un proceso de Markov. Demostraci´ on. Si 0 ≤ t1 < t2 < · · · < tn , entonces Xtn =

n n X X Yk , (Xtk − Xtk−1 ) = k=1

k=1

donde las Yk son independientes. Por el lema anterior, P (Xtn ∈ B|Xt1 , ..., Xtn ) = P (Xtn ∈ B|Xtn−1 ). Teniendo en cuenta que si (Xt )t∈I0 es un proceso de Markov para todo subconjunto finito I0 de [0, +∞) tambi´en lo es (Xt )t≥0 , con lo que queda demostrado el resultado.

´ n 14: Martingalas a Tiempo Continuo Leccio En esta lecci´on extendemos el concepto de martingala al caso de par´ametro continuo y estudiaremos ciertas propiedades de sus trayectorias. ´ n. Sean (Ω, A, P ) un espacio de probabilidad, T un conjunto totalmente Definicio ordenado y (Xt )t∈T un proceso estoc´astico real adaptado a la familia de sub-σ-´algebras de A, (At )t∈T (i.e., tal que si s < t, As ⊂ At y que cada Xt es At –medible). Diremos que (Xt )t es una martingala respecto a (At )t o que (Xt , At )t es una martingala (resp. submartingala o supermartingala) si Xt es P –integrable, para cada t ∈ T , y E(Xt |As ) = Xs

(resp.,

E(Xt |As ) ≥ Xs

o E(Xt |As ) ≤ Xs ),

para cada s < t, s, t ∈ T . Diremos que (Xt )t es una martingala cuando lo sea respecto a la familia de sub-σ-´algebras (σ(Xs : s ≤ t))t . Observaciones. 1) Si (Xt )t∈T es una martingala respecto a una familia (At )t∈T , tambi´en lo es respecto a la familia (σ(Xs : s ≤ t))t∈T . En efecto, teniendo en cuenta que As ⊂ At , ∀s ≤ t, tenemos que At hace medibles a todas las v.a. Xs con s ≤ t, y por tanto, σ(Xs : s ≤ t) ⊂ At . As´ı pues, si t0 > t, E[Xt0 |σ(Xs : s ≤ t)] = E[E(Xt0 |At )|σ(Xs : s ≤ t)] = E[Xt |σ(Xs : s ≤ t)] = Xt . 2) Si (Xt )t∈I es una martingala para cada subconjunto finito I de T , entonces (Xt )t∈T es tambi´en una martingala. En efecto, sean s < t y consideremos r1 < r2 < · · · < rn = s < t; Siendo, por hip´otesis, {Xr1 , Xr2 , ..., Xrn , Xt } una martingala, se tiene que, para cada A ∈ σ(Xr1 , Xr2 , ..., Xrn , Xt ), Z Z Z Z Xt dP = E(Xt |Xr1 , Xr2 , ..., Xrn )dP = Xrn dP = Xs dP, A

A

A

A

y una aplicaci´on del teorema de la clase mon´otona probar´ıa que esa igualdad es cierta para cada A ∈ σ(Xs : s ≤ t). 3) A modo de rec´ıproco, si (Xt )t∈T es una martingala, entonces tambi´en lo es (Xt )t∈I para cada subconjunto I de T . 4) Se pueden enunciar resultados an´alogos a los de 2) y 3) para sub y supermartingalas. Teorema 67. Si (Xt )t≥0 es un proceso estoc´astico con incrementos independientes y E(|Xt |) < +∞, para cada t, entonces (Xt − E(Xt ))t≥0 es una martingala. Demostraci´ on. Si (Xt )t≥0 tiene incrementos independientes, tambi´en los tendr´a [Xt − E(Xt )]t≥0 , por lo que podemos suponer, sin p´erdida de generalidad, que E(Xt ) = 0, para cada t. Si 0 ≤ t1 < t2 < · · · < tn < tn+1 , entonces X0 , Xt1 − X0 , ..., Xtn+1 − Xtn son independientes, y as´ı lo son Xtn+1 − Xtn y (X0 , Xt1 − X0 , ..., Xtn − Xtn−1 ). Siendo (Xt1 , ..., Xtn ) funci´on medible de (X0 , Xt1 − X0 , ..., Xtn − Xtn−1 ), se tiene que Xtn+1 − Xtn y (Xt1 , ..., Xtn ) son independientes, y as´ı E[Xtn+1 |Xt1 , ..., Xtn ] = Xtn + E[Xtn+1 − Xtn |Xt1 , ..., Xtn ] = Xtn + E[Xtn+1 − Xtn ] = Xtn . 88

89 A continuaci´on estudiaremos el comportamiento de las trayectorias para sub y supermartingalas. S´olo probaremos los resultados para submartingalas pues cambiando Xt por −Xt se obtienen los correspondientes para supermartingalas. Lema 68.

(1) Sea X1 , ..., Xn una submartingala. Si λ ≥ 0, entonces Z λP ( m´ax Xi ≥ λ) ≤ Xn dP ≤ E(Xn+ ). 1≤i≤n

{m´ ax1≤i≤n Xi ≥λ}

(2) Si X1 , ..., Xn es una supermartingala y λ ≥ 0, entonces λP ( m´ax Xi ≥ λ) ≤ E(X1 ) + E(Xn− ). 1≤i≤n

Teorema 69. Sean T un intervalo de R y (Xt )t∈T una submartingala separable. Entonces, para casi todo ω, la trayectoria de ω, X(·, ω), es acotada en cada subintervalo acotado de T . Demostraci´ on. Siendo (Xt )t separable, existen un conjunto denso y numerable T0 ⊂ T y un suceso A de probabilidad nula tales que, para cada t ∈ T , existe una sucesi´on (tn )n en T0 convergente a t y tal que X(tn , ω) converge a X(t, ω), para cada ω ∈ / A. Si t1 , ..., tn ∈ T0 y λ > 0, siendo Xt1 , ..., Xtn una submartingala y por el lema anterior se tiene que ¶ µ 1 P m´ax Xti > λ ≤ E[Xt+n ], y 1≤i≤n λ ¶ ¶ µ µ ¤ 1£ ax (−Xti ) > λ ≤ E(−Xt1 ) − E[(−Xtn )− ] P m´ın Xti < −λ = P m´ 1≤i≤n 1≤i≤n λ ¤ 1£ −E(Xt1 ) + E(Xt+n ) λ pues {−Xt1 , ..., −Xtn } es una submartingala. As´ı, si [c, d] es un subintervalo de T y tomamos t1 , ..., tn ∈ [c, d] ∩ T0 , siendo (Xt )t una submartingala se tiene que E(Xc ) ≤ E(Xt1 ) y E(Xt+n ) ≤ E(Xd+ ) (pues {Xt+1 , ..., Xt+n , Xd+ } es una submartingala). De esto y de lo anterior se obtiene que µ ¶ µ ¶ ¤ 1£ 1 + −E(Xc ) + E(Xd+ ) . P m´ax Xti > λ ≤ E[Xd ], y P m´ın Xti < −λ ≤ 1≤i≤n 1≤i≤n λ λ =

Como el conjunto T0 ∩ [c, d] es numerable, podemos tomar una enumeraci´ on t1 , t2 , ... del mismo y, haciendo tender tn a infinito en las desigualdades anteriores se tiene que à ! µ ¶ ¤ 1 1£ + P sup Xt > λ ≤ E[Xd ], y P ´ınf Xt < −λ ≤ −E(Xc ) + E(Xd+ ) . λ λ t∈T0 ∩[c,d] t∈T0 ∩[c,d] Por separabilidad, podemos reemplazar T0 por T para obtener à ! à ! P

sup t∈T0 ∩[c,d]

Xt = +∞

= l´ım P λ→∞

sup t∈T0 ∩[c,d]

Xt > λ

1 E(Xd+ = 0 λ→∞ λ

≤ l´ım

y

90 µ P

´ınf

t∈T0 ∩[c,d]

¶ µ Xt = −∞ = l´ım P λ→∞

¶ ¤ 1£ −E(Xc ) + E(Xd+ ) = 0. ´ınf Xt < −λ ≤ l´ım λ→∞ λ t∈T0 ∩[c,d]

Como consecuencia de lo anterior, P {ω : X(·, ω) est´a acotado en cada subintervalo acotado de T } Ã∞ ! \ =P {ω : X(·, ω) est´a acotado en [−n, n] ∩ T } = 1. n=1

Teorema 70. Sean T un intervalo de R y (Xt )t∈T una submartingala separable. Entonces, para casi todo ω, X(·, ω) no tiene discontinuidades oscilatorias, es decir, X(t+ , ω) = l´ım X(t0 , ω) y t0 →t+

X(t− , ω) = l´ım X(t0 , ω) t0 →t−

existen para todo t ∈ T . Demostraci´ on. Sean t1 , ..., tn ∈ [c, d] ∩ T0 , t1 < · · · < tn . Si a < b denotaremos Ua,b la v.a. que a cada ω le asocia el n´ umero de saltos desde debajo de a hasta encima de b en la sucesi´on Xt1 (ω), ..., Xtn (ω). Como {Xt1 , ..., Xtn } es una submartingala, el teorema de Doob prueba que E(Ua,b ) ≤

£ ¤ £ ¤ 1 1 E (Xtn − a)+ ≤ E (Xd − a)+ b−a b−a

siendo cierta la u ´ltima desigualdad por ser [(Xt − a)+ ]t una submartingala. Hagamos tender n a infinito para concluir que, para casi todo ω, el n´ umero de saltos a lo largo de [a, b] por la sucesi´on {Xt (ω) : t ∈ T0 ∩ [c, d]} es finito. De ello se deduce que existe un suceso de probabilidad nula A tal que, si ω ∈ / A, la sucesi´on {Xt (ω) : t ∈ T0 ∩ [c, d]} tiene un n´ umero finito de saltos a lo largo de [a, b], para todos racionales a y b con a < b. Por separabilidad, lo anterior es tambi´en cierto para {Xt (ω) : t ∈ T ∩ [c, d]}. Supongamos ahora que f : T −→ R es una funci´on que no tiene l´ımite por la izda en un punto t; entonces podr´ıamos encontrar una sucesi´on (tn )n convergente a t por la izquierda y tal que l´ım inf n f (tn ) = u < v = l´ım supn f (tn ). Tomemos dos racionales a y b tales que u < a < b < v. Entonces, f (tn ) ser´a menor que a infinitas veces y mayor que b infinitas veces y, por tanto, f tendr´a un n´ umero infinito de saltos desde debajo de a hasta encima de b. Tomemos f = X(·, ω) definida en T ∩ [c, d] para concluir que para cada ω ∈ / A, la funci´on anterior posee l´ımite a la izquierda en cada t ∈ T ∩ [c, d]. La afirmaci´on para el l´ımite por la derecha se har´ıa de forma an´aloga. Siendo c y d arbitrarios se obtiene que, para casi todo ω, X(·, ω) tiene l´ımites a la izquierda y a la derecha en todo t ∈ T .

´ n 15: Tiempos de Parada Leccio El concepto de tiempo de parada est´a ´ıntimamente relacionado con la teor´ıa de martingalas. En un principio s´olo se introdujo relacionado con procesos a tiempo discreto, pero aqu´ı daremos la definici´on para el caso de par´ametro continuo y discutiremos la relaci´on con el concepto de medibilidad progresiva. Definiciones. a) Sean (Ω, A, P ) un e.p. y (At )t≥0 una sucesi´on creciente de sub-σa´lgebras de A, es decir, tal que si s < t, As ⊂ At . Un tiempo de parada para (At )t≥0 es una funci´on T : Ω −→ [0, +∞] tal que, para cada t ≥ 0, {T ≤ t} ∈ At . b) Dado un proceso estoc´astico (Xt )t≥0 definido en (Ω, A, P ), un tiempo de parada para (Xt )t≥0 es un tiempo de parada para la sucesi´on de σ-´algebras (At )t≥0 , siendo At = σ(Xs : s ≤ t), para cada t. c) Si A ∈ A, diremos que A en anterior a T si A ∩ {T ≤ t} ∈ At , para cada t ≥ 0. Denotaremos AT la colecci´on de todos los sucesos anteriores a T ; es f´acil probar que AT es una σ-´algebra. Teorema 71. a) Si S y T son tiempos de parada tambi´en lo son S ∧ T = m´ın(S, T ) y S ∨ T = m´ax(S, T ). En particular, si t ≥ 0 y T es un tiempo de parada, tambi´en lo es T ∧ t. b) Si T es un tiempo de parada, entonces T : (Ω, AT ) −→ ([0, +∞], B([0, +∞])) es una v.a., es decir, T es AT -medible. c) Sean T un tiempo de parada y S una v.a.r. no negativa con S ≥ T . Si S es AT medible entonces S es un tiempo de parada. d) Si S y T son tiempos de parada y A ∈ AS entonces A ∩ {S ≤ T } ∈ AT . e) Si S y T son tiempos de parada y S ≤ T entonces AS ⊂ AT . Demostraci´ on. a) Si t ≥ 0, {S ∧ T ≤ t} = {S ≤ t} ∪ {T ≤ t} ∈ At y {S ∨ T ≤ t} = {S ≤ t} ∩ {T ≤ t} ∈ At b) Si r es un n´ umero real, {T ≤ r} ∩ {T ≤ t} = {T ≤ r ∧ t} ⊂ Ar∧t ⊂ At . As´ı pues, para cada r ∈ R, {T ≤ r} ∈ AT . c) Si t ≥ 0, {S ≤ t} = {S ≤ t} ∩ {T ≤ t}. Siendo S AT -medible, {S ≤ t} ∈ AT y, por tanto, {S ≤ t} ∩ {T ≤ t} ∈ At . Luego S es un tiempo de parada para (At )t≥0 . d) Se tiene que A ∩ {S ≤ T } ∩ {T ≤ t} = A ∩ {S ≤ T } ∩ {T ≤ t} ∩ {S ∧ T ≤ T ∧ t}, pero A ∩ {S ≤ T } ∈ At (pues A ∈ AS y {T ≤ t} ∈ At . Adem´as {T ∧ t ≤ r} = {T ∧ r ∧ t} ∈ Ar∧t ⊂ At y, de forma an´aloga, {S ∧ t ≤ r} ∈ At . As´ı pues, T ∧ t y S ∧ t son At -medibles y, de todo lo anterior se sigue que A ∩ {S ≤ T } ∩ {T ≤ t} ∈ At , ∀t ≥ 0 i.e. 91

92 A ∩ {S ≤ T } ∈ AT . e) Si A ∈ AS entonces A = A ∩ Ω = A ∩ {S ≤ T } ∈ AT por d). Si (Xt )t≥0 es un proceso adaptado a (At )t≥0 y T es un tiempo de parada finito para (At )t≥0 es natural considerar el valor XT del proceso cuando ocurren paradas; si T (ω) = t definimos XT (ω) = Xt (ω). Ser´ıa deseable que XT fuese una v.a.. Veamos que para un proceso progresivamente medible eso se verifica. Teorema 72. Sea (Xt )t≥0 un proceso progresivamente medible adaptado a la familia de σ-´algebras (At )t≥0 . Si T es un tiempo de parada finito para (At )t≥0 entonces XT es AT -medible. Demostraci´ on. Queremos probar que si B ∈ R entonces {XT ∈ B} ∈ AT . Pero {XT ∈ B} ∩ {T ≤ t} = {XT ∧t ∈ B} ∩ {T ≤ t} y es suficiente probar que {XT ∧t ∈ B} ∈ At , para cada t, en otras palabras, que XT ∧t es At medible para cada t. Pero XT ∧t es la composici´on de la funci´on ω −→ ((T ∧ t)(ω), ω), que es una funci´on medible de (Ω, At ) en ([0, t] × Ω, B([0, t]) × At ), y la funci´on (s, ω) −→ Xs (ω), que es una funci´on medible de ([0, t] × Ω, B([0, t]) × At ) en (R, B(R)), por la hip´otesis de medibilidad progresiva.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF