Introducción a La Teoría de La Probabilidad, Paul G. Hoel, Sidney Port, Charles Stone

March 21, 2017 | Author: Dupress | Category: N/A
Share Embed Donate


Short Description

Download Introducción a La Teoría de La Probabilidad, Paul G. Hoel, Sidney Port, Charles Stone...

Description

Introduction to Probability Theory (Introducción a la Teoría de la Probabilidad)

Paul G. Hoel, Sidney Port, Charles Stone. (Publicado Originalmente por Houghton Mifflin)

Traducción al español de

Cristhian Emmanuel Garay López

Julio 2003

2

´Indice general 1. Espacios de Probabilidad 1.1. Ejemplos de fen´omenos aleatorios 1.2. Espacios de Probabilidad . . . . 1.3. Propiedades de las probabilidades 1.4. Probabilidad Condicional . . . . 1.5. Independencia . . . . . . . . . . . 2. An´ alisis Combinatorio 2.1. Muestras ordenadas . . . . . . . 2.2. Permutaciones . . . . . . . . . . 2.3. Combinaciones . . . . . . . . . . 2.4. Particiones . . . . . . . . . . . . 2.5. Uni´on de eventos* . . . . . . . . 2.6. Problemas de emparejamientos* . 2.7. Problemas de ocupaci´on* . . . . 2.8. N´ umero de cajas vac´ıas* . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

3. Variables aleatorias discretas 3.1. Definiciones . . . . . . . . . . . . . . . . . . . . . 3.2. C´alculos con densidades . . . . . . . . . . . . . . 3.3. Vectores aleatorios discretos . . . . . . . . . . . . 3.4. Variables aleatorias independientes . . . . . . . . 3.4.1. La distribuci´on multinomial . . . . . . . . 3.4.2. Aproximaci´on de Poisson a la distribuci´on 3.5. Sucesiones infinitas de ensayos de Bernoulli . . . 3.6. Sumas de variables aleatorias independientes . . 4. Esperanza de Variables Aleatorias Discretas 4.1. Definici´on de Esperanza . . 4.2. Propiedades de la esperanza 4.3. Momentos . . . . . . . . . . 4.4. Varianza de una suma . . . 4.5. Coeficiente de correlaci´on . 4.6. Desigualdad de Chebyshev .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . . 3

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . binomial . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

. . . . . . . .

. . . . . . . .

. . . . . .

. . . . .

4 4 6 8 10 12

. . . . . . . .

17 17 18 19 20 22 22 23 24

. . . . . . . .

27 27 31 32 34 35 36 37 38

. . . . . .

44 45 46 49 52 53 54

´Indice general

´Indice general

5. Variables Aleatorias Continuas 5.1. Variables aleatorias y sus funciones de distribuci´on 5.1.1. Propiedades de las funciones de distribuci´on 5.2. Densidades de variables aleatorias continuas . . . . 5.2.1. F´ormulas de cambio de variable . . . . . . 5.2.2. Densidades sim´etricas. . . . . . . . . . . . 5.3. Densidades Normales, Exponenciales y Gama . . . 5.3.1. Densidades Normales . . . . . . . . . . . . . 5.3.2. Densidades Exponenciales . . . . . . . . . . 5.3.3. Densidades Gama. . . . . . . . . . . . . . . 5.4. Funciones de distribuci´on inversas* . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

58 58 59 61 62 65 66 66 67 68 70

6. Variables Aleatorias Conjuntamente Distribuidas 6.1. Propiedades de las distribuciones bi-variadas . 6.2. Distribuci´on de sumas y cocientes . . . . . . . . 6.2.1. Distribuci´on de sumas. . . . . . . . . . . 6.2.2. Distribuci´on de cocientes* . . . . . . . . 6.3. Densidades Condicionales . . . . . . . . . . . . 6.3.1. La Regla de Bayes . . . . . . . . . . . . 6.4. Propiedades de las distribuciones multivariadas 6.5. Estad´ısticas de orden . . . . . . . . . . . . . . . 6.6. Distribuciones muestrales* . . . . . . . . . . . . 6.7. Cambios de variables multidimensionales . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

74 74 77 77 80 82 83 84 85 87 89

7. Esperanzas y el Teorema del L´ımite Central 7.1. Esperanza de variables aleatorias continuas 7.2. Una definici´on general de esperanza . . . . 7.3. Momentos de variables aleatorias continuas 7.4. Esperanza condicional . . . . . . . . . . . . 7.5. El Teorema del L´ımite Central . . . . . . . 7.5.1. Aproximaciones Normales. . . . . . 7.5.2. Aplicaciones al muestreo. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

93 . 93 . 94 . 95 . 98 . 99 . 100 . 102

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas 8.1. Funciones Generadoras de Momentos . . . . . . . . . . . . . . . . . . . 8.2. Funciones Caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . 8.3. F´ormulas de Inversi´on y el Teorema de Continuidad . . . . . . . . . . 8.4. La Ley D´ebil de los Grandes N´ umeros y el Teorema del L´ımite Central

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

106 106 108 111 113

. . . .

117 117 119 122 124

9. Caminatas aleatorias y Procesos de Poisson 9.1. Caminatas aleatorias . . . . . . . . . . . 9.2. Caminatas aleatorias simples . . . . . . 9.3. Construcci´on de un Proceso de Poisson . 9.4. Distancia a part´ıculas . . . . . . . . . . 4

. . . .

. . . .

. . . . . . .

. . . .

. . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

´Indice general

´Indice general

9.5. Tiempos de espera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

5

´Indice general

´Indice general

6

Cap´ıtulo 1

Espacios de Probabilidad La teor´ıa de la probabilidad es la rama de las matem´aticas que se ocupa de los fen´omenos aleatorios (o de azar). Ha atra´ıdo a muchas personas hacia su estudio, tanto por su inter´es intr´ınseco como por sus exitosas aplicaciones a muchas ´areas dentro de las ciencias f´ısicas, biol´ogicas y sociales, en ingenier´ıa y en el mundo de los negocios. Muchos fen´omenos tienen la propiedad de que su observaci´on repetida bajo un conjunto espec´ıfico de condiciones invariablemente nos llevan al mismo resultado. Por ejemplo, si una pelota inicialmente en reposo se deja caer p desde una altura de d pies a trav´es de un cilindro evacuado, invariablemente caer´a al piso en t = 2d/g segundos, donde g = 32 f t/s2 es la aceleraci´on constante debida a la gravedad. Hay otros tipos de fen´omenos cuya observaci´on repetida bajo un conjunto espec´ıfico de condiciones no siempre nos conducen al mismo resultado. Un ejemplo familiar de este tipo de fen´omenos es el lanzamiento de una moneda. Si una moneda es lanzada 1000 veces, las ocurrencias de ´aguilas y soles se alternan de una manera que pudiera parecer err´atica e imprevisible. Estos son el tipo de fen´omenos en los que pensamos como aleatorios y los cuales son el objeto de nuestra investigaci´on. A primera vista, podr´ıa parecer imposible el hacer una afirmaci´on que valga la pena acerca de tales fen´omenos aleatorios, pero este no es el caso. La experiencia ha mostrado que muchos fen´omenos no deterministas exhiben una regularidad estad´ıstica que los hace propicios ´a ser estudiados. Esto puede ser ilustrado considerando los lanzamientos de la moneda una vez m´as. Para un lanzamiento cualquiera no podemos hacer una predicci´on que no sea trivial, pero las observaciones muestran que para un gran n´ umero de lanzamientos, la proporci´on de ´aguilas parece fluctuar alrededor de un n´ umero fijo p entre 0 y 1 (siendo p muy cercano a 21 , a menos que la moneda este severamente desbalanceada). Parece como si la proporci´on de ´aguilas en n lanzamientos convergiese a p si hacemos n → ∞. Pensamos en esta proporci´on l´ımite p como la “probabilidad” de que la moneda caiga ´ aguila en un lanzamiento dado. Generalizando, el decir que cierto resultado experimental tiene probabilidad p se puede interpretar como que si el experimento es repetido un gran n´ umero de veces, este resultado ser´ıa observado “aproximadamente” 100 p por ciento de las veces. Esta interpretaci´on de las probabilidades se llama la interpretaci´ on de la frecuencia relativa. Es muy natural en muchas aplicaciones de la teor´ıa de la probabilidad a problemas del mundo real, especialmente aquellos que involucran a las ciencias f´ısicas, pero en muchas ocasiones parece muy artificial. Por ejemplo, ¿C´omo podr´ıamos dar una interpretaci´on de frecuencia relativa a la probabilidad de que un beb´e reci´en nacido viva al menos 70 a˜ nos? Muchos intentos se han hecho, ninguno de los cuales es totalmente aceptable, para dar interpretaciones alternativas a tales enunciados probabil´ısticos. Para la teor´ıa matem´atica de la probabilidad, la interpretaci´on de las probabilidades es irrelevante, as´ı como en la geometr´ıa la interpretaci´on de los puntos, l´ıneas y planos es irrelevante. 7

1.1. Ejemplos de fen´ omenos aleatorios

1. Espacios de Probabilidad

Utilizaremos la interpretaci´on de la frecuencia relativa de la probabilidad solo como una motivaci´ on intuitiva para las definiciones y teoremas que estaremos desarrollando a lo largo del libro.

1.1.

Ejemplos de fen´ omenos aleatorios

En esta secci´on discutiremos dos ejemplos simples de fen´omenos aleatorios para motivar la estructura formal de la teor´ıa. Ejemplo 1 Una caja tiene s bolas, etiquetadas 1, 2, . . . , s pero de cualquier otra forma id´enticas. Considere el siguiente experimento. Las bolas son mezcladas muy bien en la caja, una persona pasa y toma una bola sin preferencia alguna. El n´ umero de la bola as´ı obtenida se anota y despu´es se regresa a la caja. El resultado del experimento es el n´ umero de la bola seleccionada. Acerca de este experimento no podemos dar ning´ un pron´ ostico que no sea trivial. Supongamos ahora que repetimos n veces el experimento antes descrito. Sea Nn (k) el n´ umero de veces en que la bola etiquetada con la k fue obtenida durante estas n repeticiones del experimento. Digamos, por ejemplo, que tenemos s = 3 bolas y que hicimos n = 20 ensayos. Los resultados de estos 20 ensayos pueden ser descritos listando los n´ umeros que aparecieron exactamente en el orden en el que se obtuvieron. Un resultado t´ıpico ser´ıa 1, 1, 3, 2, 1, 2, 2, 3, 2, 3, 3, 2, 1, 2, 3, 3, 1, 3, 2, 2 en cuyo caso N20 (1) = 5,

N20 (2) = 8,

y

N20 (3) = 7

Las frecuencias relativas (i.e., la proporci´ on de las veces) de los resultados 1,2 y 3 son entonces: N20 (1) = 0.25, 20

N20 (2) = 0.40, 20

y

N20 (3) = 0.35 20

Si el n´ umero de ensayos crece, esperar´ıamos que las frecuencias relativas Nnn(1) , . . . , Nnn(s) se estabilizaran en algunos n´ umeros fijos p1 , p2 , . . . , ps (los cuales en este caso, de acuerdo a nuestra intuici´ on, deber´ıan ser todos 1/s). Por la interpretaci´on de la frecuencia relativa, el n´ umero pi ser´ıa llamado la probabilidad de que la i-´esima bola fuera extra´ıda si el experimento se efectuara una sola vez (i = 1, 2, . . . , s). Ahora haremos un modelo matem´atico del experimento de sacar una bola de la caja. Para hacer esto, primero tomamos un conjunto Ω que tenga s puntos, el cual ponemos en correspondencia unouno con los posibles resultados del experimento. En esta correspondencia exactamente un punto de Ω ser´a asociado con el resultado de que la bola etiquetada con k sea seleccionada. Llamemos a ese punto ωk . Al punto ωk le asociamos el n´ umero pk = 1/s y le llamaremos la probabilidad de ωk . Observamos de una vez que 0 ≤ pk ≤ 1, 1 ≤ k ≤ s y que p1 + . . . + ps = 1. Ahora supongamos que adem´as de estar numeradas del 1 a s, las primeras r bolas est´an pintadas de rojo, y las restantes r − s est´an pintadas de color negro. Realizamos el experimento como antes, pero ahora solo estaremos interesados en el color de la bola obtenida, y no en su n´ umero. Un razonamiento moment´aneo muestra que la frecuencia relativa de las bolas rojas obtenidas dentro de las n repeticiones del experimento es simplemente la suma de las frecuencias relativas Nn (k)/n sobre todos los valores k que corresponden a una bola roja. Esperar´ıamos, y la experiencia lo comprueba, que para n grande esta frecuencia relativa deber´ıa estabilizarse alrededor de un n´ umero fijo. Ya que para n grande se espera que las frecuencias relativas Nn (k)/n est´en cerca de pk = 1/s, podemos anticipar que la frecuencia relativa de las bolas rojas estar´a cerca de r/s. Nuevamente la experiencia 8

1.1. Ejemplos de fen´ omenos aleatorios

1. Espacios de Probabilidad

verifica este hecho. De acuerdo a la interpretaci´on de la frecuencia relativa, llamar´ıamos entonces a r/s la probabilidad de obtener una bola roja. Veamos ahora como podemos reflejar este hecho en nuestro modelo. Sea A ⊂ Ω definido por A := {ωk ∈ Ω|k es una bola roja}, entonces A tiene exactamente r puntos. Llamamos a A un evento. M´as generalmente, en esta situaci´on llamaremos a todo subconjunto B de Ω un evento. El decir que ocurre el evento B significa que el resultado del experimento es representado por un punto en B. Sean A y B dos eventos. Recuerde que la uni´ on de A y B, denotada por A ∪ B es el conjunto de todos los puntos ω ∈ Ω tales que ω ∈ A o ω ∈ B. Ahora, los puntos de Ω est´an en correspondencia con los resultados del experimento. El evento A ocurre si el experimento conlleva a un resultado que este representado por alg´ un punto en A, y de manera similar el evento B ocurre si el resultado del experimento es representado por alg´ un punto en B. El conjunto A ∪ B representa el hecho de que el evento A ocurre o el evento B ocurre. De manera an´aloga, la intersecci´ on A ∩ B de A y B consiste en todos los puntos que est´an en ambos conjuntos, por lo tanto, si ω ∈ A ∩ B, entonces ω ∈ A y ω ∈ B, por lo tanto, A ∩ B representa el hecho de que ambos eventos A y B ocurren. El complemento Ac (o A0 ) de A es el conjunto de puntos en Ω que no est´an en A. El evento A no ocurre si el experimento da un resultado que est´e representado por un punto en Ac . En un diagrama, si A y B est´an representados por las regiones indicadas en la Figura 1a, entonces A ∪ B, A ∩ B y Ac est´an representados por las regiones sombreadas en las figuras 1b, 1c y 1d respectivamente.

1a

1b



A



B AUB 1c

1d





c A

U

A B Figura 1

Para ilustrar estos conceptos, sea A el evento “bola roja seleccionada” y sea B el evento “bola impar seleccionada”, entonces la uni´on A ∪ B representa el evento que, ya sea una bola roja o una bola impar halla sido seleccionada. La intersecci´on A∩B es el evento, “bola roja impar seleccionada.” El evento Ac ocurre si una bola roja no fue seleccionada. Ahora nos gustar´ıa asignarles probabilidades a los eventos. Matem´aticamente, esto s´olo significa que asociaremos a cada subconjunto B un n´ umero real. A priori, podr´ıamos hacer esto de una forma arbitraria, sin embargo, estaremos restringidos si queremos que estas probabilidades reflejen el comportamiento del experimento que estamos tratando de modelar. ¿C´omo debemos hacer esta asignaci´on?, ya le hemos dado a cada punto el n´ umero s−1 . Por lo tanto, a un conjunto que conste de un solo punto {ω} se le asignar´a el n´ umero s−1 . Ahora, por nuestra discusi´on acerca de la frecuencia relativa del evento “obtener una bola roja”, parece que deber´ıamos asignar al evento 9

1.1. Ejemplos de fen´ omenos aleatorios

1. Espacios de Probabilidad

A la probabilidad P (A) = r/s. Generalizando, si B es cualquier evento, definiremos P (B) como P (B) = j/s si es que B tiene exactamente j puntos. Observamos entonces que X P (B) = pk , ωk ∈B

P

donde ωk ∈B pk significa que sumaremos los n´ umeros pk sobre aquellos valores k tales que ωk ∈ B. De nuestra definici´on de P (B) se sigue f´acilmente que los siguientes enunciados son verdaderos. Dejamos su verificaci´on al lector. Sea que ∅ denote al conjunto vac´ıo, entonces P (∅) = 0 y P (Ω) = 1. Si A y B son cualesquiera dos subconjuntos ajenos, i.e., A ∩ B = ∅, entonces P (A ∪ B) = P (A) + P (B). Ejemplo 2 Se sabe de experimentos f´ısicos que un is´ otopo de cierta sustancia es inestable. En el transcurso del tiempo decae por la emisi´ on de neutrones a una forma estable. Estamos interesados en el tiempo que le toma a un ´ atomo de este is´ otopo en decaer a su forma estable. De acuerdo a las leyes de la f´ısica es imposible el decir con certeza cuando un ´ atomo espec´ıfico del is´ otopo decaer´ a, pero si inicialmente observamos un gran n´ umero N de ´ atomos, entonces podemos hacer algunas predicciones acertadas acerca del n´ umero de ´ atomos N (t) que a´ un no han deca´ıdo al tiempo t. En otras palabras, a´ un podemos predecir acertadamente la fracci´ on de ´ atomos N (t)/N que no han deca´ıdo al tiempo t, pero no podemos decir cual de los ´ atomos ya lo ha hecho. Ya que todos los ´ atomos son id´enticos, el observar N ´ atomos simult´ aneamente equivaldr´ a a N repeticiones del mismo experimento, donde, en este caso, el experimento consiste en observar el tiempo que le toma a un ´ atomo en decaer. Ahora, para una primera aproximaci´ on (que de hecho es muy acertada) la raz´ on a la cual el is´ otopo decae al tiempo t es proporcional al n´ umero de ´ atomos presentes al tiempo t, as´ı que N (t) esta dado aproximadamente como la soluci´ on de la ecuaci´ on diferencial df = −λf (t), dt

f (0) = N,

donde λ > 0 es una constante de proporcionalidad fija. La u ´nica soluci´ on de esta ecuaci´ on es f (t) = N e−λt y entonces la fracci´ on de ´ atomos que no han deca´ıdo al tiempo t esta dada aproximadamente por N (t)/N = e−λt . Si 0 ≤ t0 ≤ t1 , la fracci´ on de ´ atomos que decaen en el intervalo [t0 , t1 ] −λt −λt 0 1 es (e −e ). Como consecuencia, y de acuerdo a la interpretaci´ on de la probabilidad de la frecuencia relativa, tomamos (e−λt0 − e−λt1 ) como la probabilidad de que un ´ atomo decaiga entre los tiempos t0 y t1 . Para hacer un modelo matem´atico de este experimento podemos intentar proceder como en el ejemplo anterior. Primero escogemos un conjunto Ω que pueda ser puesto en correspondencia uno a uno con los posibles resultados del experimento. Un resultado en este caso es el tiempo que tarda un ´atomo en decaer. Este puede ser cualquier n´ umero real positivo, as´ı que podemos tomar Ω = [0, ∞). De nuestra discusi´on anterior, parece razonable asignarle al intervalo [t0 , t1 ] la probabilidad (e−λt0 − e−λt1 ). En particular, si t0 = t1 = t el intervalo degenera en el conjunto {t} y la probabilidad asignada a este conjunto es 0. En nuestro ejemplo anterior Ω solo tuvo una cantidad finita de puntos; aqu´ı Ω tiene una cantidad infinita (no numerable) de puntos, y cada punto tiene probabilidad 0. Una vez m´as, observamos que P (Ω) = 1 y P (∅) = 0. Supongamos que A y B son dos intervalos ajenos, entonces la proporci´ on de ´atomos que decaen en el intervalo A ∪ B es la suma de la proporci´on de los que decaen en el 10

1.2. Espacios de Probabilidad

1. Espacios de Probabilidad

intervalo de tiempo A y la proporci´on de los que decaen en el intervalo de tiempo B. A la luz de esta aditividad demandamos que en el modelo matem´atico, A ∪ B deba tener asignada la probabilidad P (A) + P (B). En otras palabras, en el modelo matem´atico queremos P (A ∪ B) = P (A) + P (B) cada vez que A y B sean intervalos disjuntos.

1.2.

Espacios de Probabilidad

Nuestro prop´osito en esta secci´on es el desarrollar la estructura matem´atica formal llamada espacio de probabilidad, la cual forma el fundamento del tratamiento matem´atico de los fen´omenos aleatorios. Visualicemos alg´ un experimento real o imaginario que estemos tratando de modelar. La primer cosa que debemos hacer es decidir sobre los posibles resultados del experimento. No es cosa seria si admitimos m´as resultados de los que realmente puedan ocurrir, pero debemos estar seguros de que no excluimos cosas que puedan llegar a suceder. Una vez que hallamos decidido sobre los posibles resultados, escogemos un conjunto Ω cuyos puntos ω se encuentren asociados con estos resultados. Desde el punto de vista estrictamente matem´atico, Ω es solamente un conjunto abstracto de puntos. Ahora tomamos una colecci´on no vac´ıa A de subconjuntos de Ω la cual representar´a la colecci´ on de “eventos” a los cuales quisi´eramos asignarles una probabilidad. Por definici´on, ahora, un evento quiere decir un conjunto A en A . Si decimos que ocurri´ o el evento A significa que el resultado del experimento est´a representado por alg´ un punto ω ∈ A. Nuevamente, desde el punto de vista estrictamente matem´atico, A es solo una colecci´on espec´ıfica de subconjuntos del conjunto Ω. Solo a los conjuntos A ∈ A , i.e., eventos. se les asignar´a una probabilidad. En nuestro modelo del Ejemplo 1, A consisti´o de todos los subconjuntos de Ω. En una situaci´on m´as general, en la cual Ω no tenga un n´ umero finito de puntos, como en el Ejemplo 2, puede que no sea posible el escoger a A de esta manera. La siguiente pregunta es, ¿C´omo debe de ser la colecci´on A ? Es muy razonable el pedirle a A que sea cerrado bajo uniones finitas e intersecciones finitas, as´ı como bajo complementaci´on. Por ejemplo, si A, B ∈ A , entonces A∪B ocurre si el resultado es representado ya sea por un punto de A o por un punto de B. Claramente entonces, si tiene significado el hablar sobre las probabilidades de que ocurran A y B, tambi´en deber´ıa ser coherente el hablar acerca de la probabilidad de que ocurran o A o B, i.e., de que ocurra el evento A ∪ B. Ya que solamente los conjuntos que se encuentren en A ser´an probabilizables,requeriremos que A ∪ B ∈ A siempre que A, B ∈ A . Ahora,A ∩ B ocurre si el resultado de nuestro experimento est´a representado por un punto que esta tanto en A como en B. Un razonamiento similar al utilizado para A ∪ B nos convence que debemos de tener A ∩ B ∈ A cada vez que A, B ∈ A . Finalmente, el decir que el evento A no ocurri´o es decir que el resultado del experimento est´a representado por un punto en Ac . Ser´ıa tonto el poder hablar de la probabilidad de que ocurra A, pero que no pudi´eramos hablar de la probabilidad de que ocurra Ac . Por lo tanto, pediremos que si A ∈ A , entonces Ac est´e tambi´en en A . Por lo tanto hemos llegado a la conclusi´on de que A debe ser una colecci´on no vac´ıa de subconjuntos de Ω que tenga las siguientes propiedades: (i) Si A ∈ A tambi´en lo est´a Ac (ii) Si A, B ∈ A tambi´en lo est´an A ∪ B y A ∩ B 11

1.2. Espacios de Probabilidad

1. Espacios de Probabilidad

Un sencillo argumento inductivo muestra que si A1 , A2 , · · · , An son conjuntos en A entonces tambi´en Sn Tn se encuentran i=1 Ai y i=1 Ai . aqu´ı utilizamos la notaci´on abreviada n [

Ai = A1 ∪ A2 ∪ · · · ∪ An

i=1

y n \

Ai = A1 ∩ A2 ∩ . . . ∩ An

i=1

Tambi´en, como A ∩ Ac = ∅ y A ∪ Ac = Ω, observamos que tanto el conjunto vac´ıo ∅ como el conjunto total Ω deben de estar en A . Una colecci´on no vac´ıa de subconjuntos de un conjunto Ω que cumple ser cerrada bajo operaciones finitas de conjuntos se dice ser un campo de subconjuntos de Ω. Parece ser que debemos exigir que A sea un campo de subconjuntos. Sin embargo, por ciertas razones matem´aticas, el s´ olo tomar a A como un campo de subconjuntos de Ω ser´ıa insuficiente. Lo que le pediremos ahora a la colecci´on A ser´a m´as restrictivo, le pediremos que sea cerrado no solamente bajo uniones e intersecciones finitas, sino que tambi´en para uniones e intersecciones numerables, en otras palabras, si {An }n∈N es una sucesi´on de conjuntos en A , pediremos que ∞ [

An ∈ A

y

n=1

∞ \

An ∈ A .

n=1

Aqu´ı utilizamos la notaci´on abreviada ∞ [

Ai = A1 ∪ A2 ∪ · · ·

i=1

para denotar la union de todos los subconjuntos de la sucesi´on, y ∞ \

Ai = A1 ∩ A2 ∩ · · ·

i=1

para denotar la intersecci´on de todos los subconjuntos de la sucesi´on. Una colecci´on de subconjuntos de un conjunto dado Ω que cumple ser cerrada bajo uniones e intersecciones numerables se llama un σ-campo de subconjuntos de Ω. (La σ se pone para distinguir dicha colecci´on de un campo de subconjuntos.) Formalmente, tenemos la siguiente: Definici´ on 1 Una colecci´ on no vac´ıa de subconjuntos A de un conjunto Ω se llama un σ-campo de subconjuntos de Ω si cumple las siguientes dos propiedades: 1. A ∈ A ⇒ Ac ∈ A . 2. Si An ∈ A , n = 1, 2, . . . entonces

S∞

n=1 An

y

T∞

n=1 An

est´ an tambi´en en A

Ahora pasamos a asignar probabilidades a los eventos. Ya hemos dejado claro en los ejemplos de la secci´on anterior que la probabilidad de un evento es un n´ umero real no negativo. Para un evento A, sea que P (A) denote a este n´ umero, entonces tenemos que 0 ≤ P (A) ≤ 1. Ya que el conjunto Ω representa a cualquier resultado posible se le deber´ıa de asignar el n´ umero 1, por lo tanto P (Ω) = 1. En nuestra discusi´on del Ejemplo 1 mostramos que la probabilidad de eventos satisfac´ıa la propiedad 12

1.2. Espacios de Probabilidad

1. Espacios de Probabilidad

de que si A y B eran dos eventos disjuntos, entonces P (A ∪ B) = P (A) + P (B). De manera similar, en el Ejemplo 2 vimos que si A y B eran dos intervalos disjuntos, entonces se requer´ıa que P (A ∪ B) = P (A) + P (B) Ahora parece razonable que se pida en general que si A y B son eventos disjuntos, entonces P (A ∪ B) = P (A) + P (B). Por inducci´on, se seguir´ıa que si A1 , A2 , . . . , An son n conjuntos mutuamente ajenos (esto es, Ai ∩ Aj = ∅ si i 6= j), entonces P

n [

! Ai

=

i=1

n X

P (Ai ).

i=1

De hecho, nuevamente por razones matem´aticas, debemos pedir que esta propiedad de aditividad se cumpla para colecciones numerables de eventos mutuamente disjuntos. Definici´ on 2 Una medida de probabilidad P en un σ-campo de subconjuntos A de un conjunto Ω es una funci´ on real con dominio A que satisface las siguientes propiedades: 1. P (Ω) = 1 2. ∀A ∈ A , P (A) ≥ 0 3. Si A1 , A2 , . . . son conjuntos mutuamente disjuntos en A , entonces ! ∞ ∞ [ X P Ai = P (Ai ). i=1

i=1

Un espacio de probabilidad, denotado por (Ω, A , P ) consta de un conjunto Ω, un σ-campo de subconjuntos A , y una medida de probabilidad P definida en A . Es muy f´acil el encontrar un espacio de probabilidad que corresponda al experimento de extraer una bola al azar de una caja. En esencia ya se ha dado en nuestra discusi´on de este experimento. Simplemente tomamos por Ω a un conjunto finito que tenga s puntos, A la colecci´on de todos los subconjuntos de Ω, y P que sea la medida de probabilidad que asigne a A la probabilidad P (A) = j/s si A tiene exactamente j puntos. Consideremos ahora el espacio de probabilidad asociado al experimento de la desintegraci´ on del is´otopo (Ejemplo 2). Ciertamente aqu´ı tenemos que Ω = [0, 1), pero A y P no son obvios. De hecho, como lo indicaremos despu´es, este no es un problema trivial, y es uno que depende de algunas propiedades profundas de la teor´ıa de conjuntos que est´an m´as all´a del alcance de este libro. Sin embargo una cosa es clara; sean lo que sean A y P , A debe contener todos los intervalos, y P deber´a asignar la probabilidad (e−λt0 − e−λt1 ) al intervalo [t0 , t1 ] si queremos que el espacio de probabilidad que estamos construyendo refleje la situaci´on f´ısica. Ahora el problema de construir el espacio se convierte en un problema puramente matem´atico. ¿Existe un σ-campo A que contenga como miembros a todos los intervalos y una medida de probabilidad P definida sobre A que asigne la probabilidad deseada P (A) al intervalo A? Preguntas de este tipo se encuentran en la proximidad de una rama de las matem´aticas avanzadas llamada teor´ıa de la medida y las cuales no pueden ser tratadas en el nivel de este libro. Resultados de la teor´ıa de la medida demuestran que la respuesta a esta pregunta en particular y a otras de naturaleza similar es si, as´ı que tales construcciones son siempre posibles. 13

1.3. Propiedades de las probabilidades

1. Espacios de Probabilidad

No nos detendremos en la construcci´on de espacios de probabilidad en general. La teor´ıa matem´ atica de la probabilidad comienza con un espacio abstracto de probabilidad y desarrolla la teor´ıa utilizando el espacio de probabilidad como una base de operaci´on. Lejos de formar un fundamento para la definici´on precisa de otros conceptos dentro de la teor´ıa, el espacio de probabilidad juega en si mismo un papel muy peque˜ no en el desarrollo posterior de la materia. Cantidades auxiliares (especialmente las variables aleatorias, un concepto tratado en el Cap´ıtulo 3) r´apidamente se convierten en el tema dominante de la teor´ıa y el espacio de probabilidad en si mismo se desvanece en el fondo. Concluiremos nuestra discusi´on de los espacios de probabilidad construyendo una importante clase de estos, llamados espacios de probabilidad uniformes. Algunos de los problemas m´ as antiguos en probabilidad conllevan la idea de elegir un punto “al azar” de un conjunto S. Nuestras ideas intuitivas sobre esta noci´on muestran que si A y B son dos subconjuntos que tienen el mismo “tama˜ no” entonces la oportunidad de escoger un punto de A debe de ser la misma que la oportunidad de escogerlo de B. Si S solamente cuenta con un n´ umero finito de puntos podemos medir el “tama˜ no” de un conjunto via su cardinalidad. Dos conjuntos tienen entonces el mismo ”tama˜ no” si tienen el mismo n´ umero de elementos. Es muy f´acil el construir un espacio de probabilidad correspondiente al experimento de escoger un punto al azar de un conjunto S con un n´ umero finito s de puntos. Tomamos Ω = S y A el conjunto de todos los subconjuntos de S, y asignamos al conjunto A la probabilidad P (A) = j/s si A tiene exactamente j puntos. Tal espacio de probabilidad se suele denominar como un espacio de probabilidad sim´ etrico, porque cada conjunto que consta de un −1 solo punto tiene la misma probabilidad s . Regresaremos al estudio de tales espacios en el Cap´ıtulo 2. Supongamos ahora que S es el intervalo [a, b] en la recta real, donde −∞ < a < b < ∞. Parece razonable en este caso el medir el “ tama˜ no ” de un subconjunto A de [a, b] por su longitud. Dos conjuntos tienen el mismo tama˜ no si tienen la misma longitud. Denotaremos la longitud de un conjunto A por |A|. Para construir un espacio de probabilidad del experimento “ elegir un punto al azar de S ”, procedemos de manera similar a la que utilizamos para el experimento del is´otopo. Tomamos Ω = S y apelamos a resultados de la teor´ıa de la medida para mostrar que existe un σ-campo A de subconjuntos de S, y una medida de probabilidad P definida sobre A tal que P (A) = |A|/|S|, siempre que A sea un intervalo. M´as generalmente, sea S cualquier subconjunto de un espacio euclidiano r-dimensional con volumen r-dimensional finito no nulo. Para A ⊂ S denotemos por |A| el volumen de A. Entonces existe un σ-campo A de subconjuntos de S que contiene a todos los subconjuntos de S que tengan un volumen asignado como en c´alculo, y una medida de probabilidad P definida en A tal que P (A) = |A|/|S| para cualquier dicho subconjunto. Llamaremos a tal espacio de probabilidad, denotado por (S, A , P ), un espacio de probabilidad uniforme.

1.3.

Propiedades de las probabilidades

En esta secci´on derivaremos algunas propiedades adicionales de una medida de probabilidad P que se siguen de la definici´on de una medida de probabilidad. Estas propiedades ser´an utilizadas constantemente durante el resto del libro. Asumimos que se nos ha dado un espacio de probabilidad (Ω, A , P ) y que todos los subconjuntos bajo consideraci´on son eventos, i.e., miembros de A . Para cualquier conjunto A, A ∪ Ac = Ω y por lo tanto, para cualesquiera dos conjuntos A y B tenemos la descomposici´on de B: (1.1)

B = Ω ∩ B = (A ∪ Ac ) ∩ B = (A ∩ B) ∪ (Ac ∩ B)

Ya que A ∩ B y Ac ∩ B son disjuntos, vemos por (3) de la Definici´on 2 que 14

1.3. Propiedades de las probabilidades

1. Espacios de Probabilidad

P (B) = P (A ∩ B) + P (Ac ∩ B).

(1.2)

Haciendo B = Ω y recordando que P (Ω) = 1, de (1.2) concluimos que P (Ac ) = 1 − P (A)

(1.3) En particular P (∅) = 1 − P (Ω), as´ı que (1.4)

P (∅) = 0

Como una segunda aplicaci´on de (1.2) supongamos que A ⊂ B, entones A ∩ B = A y por lo tanto P (B) = P (A) + P (Ac ∩ B)

(1.5)

si A ⊂ B

Ya que P (Ac ∩ B) ≥ 0 por (2), de (1.5) observamos que P (B) ≥ P (A)

(1.6)

si A ⊂ B

Las leyes de De Morgan dicen que si {An }n∈N es cualquier sucesi´on de conjuntos, entonces !c ! [ \ c An = An (1.7) n

n

y !c \

(1.8)

An

! [

=

n

Acn

n

c Para ver que (1.7) se cumple, obs´ervese que ω ∈ si y solo si ω ∈ Acn ∀n ≥ 1, o n≥1 An T c equivalentemente, ω ∈ n An . Para establecer (1.8), aplicamos (1.7) a {Acn }, obteniendo !c [ \ Acn = An S

n

n

y tomando complementos vemos que !c [

Acn =

\

n

An

n

Una relaci´on u ´til que se sigue de (1.7) y (1.3) es ! [ (1.9) P An = 1 − P n

! \

Acn

n

T Ahora, n An es el evento en el cual al menos uno de los eventos An ocurre, mientras que n Acn es el evento en el cual ninguno de estos ocurre. En palabras, (1.9) asevera que la probabilidad de que al menos uno de los eventos An ocurra es 1 menos la probabilidad de que ninguno de T los eventos An ocurra. LaSventaja de (1.9) es que en algunas ocasiones es m´as f´acil el calcular P ( n Acn ) que el calcular S P ( nA Pn ).[Note que como los eventos An no son necesariamente disjuntos, no es verdad que P ( n An ) = n P (An ).] El uso de (1.9) se ilustra muy bien con el siguiente ejemplo. S

15

1.3. Propiedades de las probabilidades

1. Espacios de Probabilidad

Moneda 1

S

S

S

S

A

A

A

A

Moneda 2

S

S

A

A

S

S

A

A

Moneda 3

S

A

S

A

S

A

S

A

Ejemplo 3 Suponga que tres monedas id´enticas y perfectamente balanceadas son lanzadas. Encuentre la probabilidad de que al menos una de ellas caiga sol. Hay ocho posibles resultados en este experimento. Nuestras ideas intuitivas sugieren que cada uno de los ocho resultados deber´ıa tener probabilidad de 1/8. Sea A1 el evento en el cual la primera moneda caiga sol, A2 el evento en el que la segunda moneda caiga sol y A3 el evento en el cual la tercer moneda caiga sol. El problema nos pide calcular P (A1 ∪ A2 ∪ A3 ). Ahora (Ac1 ∩ Ac2 ∩ Ac3 ) = {A, A, A} y por lo tanto P (Ac1 ∩ Ac2 ∩ Ac3 ) = 1/8; as´ı que (1.9) implica P (A1 ∪ A2 ∪ A3 ) = 1 − P (Ac1 ∩ Ac2 ∩ Ac3 ) = 7/8 Nuestro postulado b´asico (3) de una medida de probabilidad nos dice que para conjuntos disjuntos A y B, P (A ∪ B) = P (A) + P (B). Si A y B no son necesariamente disjuntos, entonces (1.10)

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

y en consecuencia (1.11)

P (A ∪ B) ≤ P (A) + P (B)

Para ver que (1.10) se cumple, observe que los conjuntos A ∩ B c ,A ∩ B y Ac ∩ B son mutuamente disjuntos y su uni´on es justamente A ∪ B (V´ease la Figura 2). Por lo tanto (1.12)

P (A ∪ B) = P (A ∪ B c ) + P (Ac ∪ B) + P (A ∪ B)

Por (1.2), sin embargo P (A ∪ B c ) = P (A) − P (A ∪ B) y P (Ac ∪ B) = P (B) − P (A ∪ B) Sustituyendo estas expresiones en (1.12) obtenemos (1.10).

A

B U

A B

Figura 2 16

c

U

A Bc

A B

U

1.3. Propiedades de las probabilidades

1. Espacios de Probabilidad

Las ecuaciones (1.10) y (1.11) se extienden a cualquier n´ umero finito de conjuntos. El an´alogo de la f´ormula exacta para (1.10) es un poco complicado y ser´a discutido en el Cap´ıtulo 2. La desigualdad (1.11), sin embargo, se puede extender f´acilmente por inducci´on para obtener P (A1 ∪ A2 ∪ . . . ∪ An ) ≤

(1.13)

n X

P (Ai )

i=1

Para probar esto, observe que si n ≥ 2, por (1.11) P (A1 ∪ A2 ∪ . . . ∪ An ) = P ((A1 ∪ A2 ∪ . . . ∪ An−1 ) ∪ An ) ≤ P (A1 ∪ A2 ∪ . . . ∪ An−1 ) + P (An ) Por lo tanto, si (1.13) se cumple para n − 1 conjuntos, se cumple tambi´en para n conjuntos. Como (1.13) claramente se cumple para n = 1, el resultado esta probado por inducci´on. Hasta ahora solo hemos utilizado el hecho de que una medida de probabilidad es finitamente aditiva. Nuestro siguiente resultado utilizar´a la propiedad de la aditividad numerable. Teorema 1 Sean An , n ≥ 1, eventos. S 1. Si A1 ⊂ A2 ⊂ · · · y A = ∞ n An , entonces (1.14)

l´ım P (An ) = P (A)

n→∞

2. Si A1 ⊃ A2 ⊃ · · · y A =

T∞

An , entonces (1.14) tambi´en se cumple. S Demostraci´on: De (1). Suponga que A1 ⊂ A2 ⊂ · · · y A = ∞ n An . Sea B1 = A1 y ∀ n ≥ 2, sea Bn que denote aquellos puntos que se encuentran en An , pero no en An−1 , i.e., Bn = An ∩Acn−1 . Un punto ω se encuentra en Bn si y solo si ω ∈ A y An es el primer conjunto en la sucesi´ on A1 , A2 , . . . que contiene a ω. Por definici´ on, estos conjuntos Bn son disjuntos, n

n [

An =

Bi ,

i=1

y

∞ [

A=

Bi .

i=1

Como consecuencia P (An ) =

n X

P (Bi )

i=1

y P (A) =

∞ X

P (Bi )

i=1

Ahora (1.15)

l´ım

n→∞

n X

P (Bi ) =

i=1

∞ X

P (Bi )

i=1

por definici´ on de la suma de una serie infinita. Se sigue de (1.15) que l´ım P (An ) = l´ım

n→∞

n→∞

n X

P (Bi ) =

i=1

∞ X i=1

17

P (Bi ) = P (A),

1.4. Probabilidad Condicional

1. Espacios de Probabilidad

As´ı que (1.14) se cumple. T c c Prueba de (2). Suponga que A1 ⊃ A2 ⊃ · · · y que A = ∞ n=1 An . Entonces A1 ⊂ A2 ⊂ · · · y por (1.8) ∞ [ c A = Acn . n=1

Entonces por (1) de este teorema l´ım P (Acn ) = P (Ac ).

(1.16)

n→∞

Como P (Acn ) = 1 − P (An ) y P (Ac ) = 1 − P (A), se sigue de (1.16) que l´ım P (An ) = l´ım (1 − P (Acn ))

n→∞

n→∞

= 1 − l´ım P (Acn ) n→∞ c

= 1 − P (A ) = P (A), y (1.14) nuevamente se cumple. 

1.4.

Probabilidad Condicional

Suponga que una caja contiene r bolas rojas numeradas 1, 2, . . . , r y b bolas negras numeradas 1, 2, . . . , b. Asumamos que la probabilidad de obtener una bola en particular es de (b + r)−1 . Si se sabe que la bola obtenida de la caja fue roja, ¿Cu´al es la probabilidad de que esta sea la bola roja con el n´ umero 1? Otra forma de plantear este problema es como sigue. Sea A el evento de que la bola seleccionada fue roja, y sea B el evento de que la bola seleccionada tiene el n´ umero 1. El problema es determinar la probabilidad “condicional” de que ocurra el evento B, dado que ocurri´o el evento A. Este problema no puede ser resuelto hasta que est´e disponible una definici´on precisa de lo que es la probabilidad condicional de un evento dado otro. Esta definici´on es como sigue: Definici´ on 3 Sean A y B dos eventos tales que P (A) > 0. Entonces la probabilidad condicional de B dado A, escrita P (B|A) se define a ser (1.17)

P (B|A) :=

P (B ∩ A) P (A)

Si P(A)=0 la probabilidad condicional de B dado A no est´ a definida. Es muy f´acil motivar la definici´on anterior via la interpretaci´on de la frecuencia relativa de las probabilidades. Considere un experimento el cual es repetido un gran n´ umero de veces. Sea que el n´ umero de veces en que los eventos A, B y A ∩ B ocurren en n ensayos del experimento est´en denotados por Nn (A), Nn (B) y Nn (A ∩ B), respectivamente. Para n grande esperamos que Nn (A), Nn (B) y Nn (A ∩ B) est´en cerca de P (A), P (B) y P (A ∩ B) respectivamente. Si ahora solo consideramos aquellos experimentos en los cuales A ocurre, entonces tendremos Nn (A) ensayos en los cuales el evento B ocurre Nn (A ∩ B) veces. Entonces la proporci´on de veces que B ocurre entre estos Nn (A) experimentos es Nn (A ∩ B)/Nn (A). Pero Nn (A ∩ B)/n Nn (A ∩ B) = Nn (A) Nn (A)/n 18

1.4. Probabilidad Condicional

1. Espacios de Probabilidad

y por tanto para valores grandes de n esta fracci´on deber´ıa ser cercana a P (A ∩ B)/P (A) Como un primer ejemplo del uso de (1.17) resolveremos el problema planteado al comienzo de esta secci´on. Ya que el conjunto Ω tiene b + r puntos y cada uno tiene probabilidad (b + r)−1 , vemos que P (A) = r(b + r)−1 y que P (A ∩ B) = (b + r)−1 . Entonces 1 P (B|A) = . r Este resultado debe ser comparado con la probabilidad “no condicional” de B, es decir P (B) = 2(b + r)−1 . Ejemplo 4 Supongamos que dos monedas id´enticas y perfectamente balanceadas son lanzadas una sola vez. 1. Encuentre la probabilidad condicional de que ambas monedas caigan ´ aguila, dado que la primera cay´ o´ aguila 2. Encuentre la probabilidad condicional de que ambas monedas caigan ´ aguila, dado que al menos una de ellas cay´ o´ aguila Para resolver estos problemas, sea que el espacio de probabilidad Ω consista de los cuatro puntos AA, AS, SA, SS, cada uno con probabilidad 1/4. Sea A el evento de que la primera moneda caiga aguila y sea B el evento de que la segunda moneda caiga ´ ´ aguila. Para resolver (1) calculamos P (A ∩ B|A) =

P (A ∩ B) 1/4 1 = = P (A) 1/2 2

Para resolver (2) calculamos P (A ∩ B|A ∪ B) =

1/4 1 P (A ∩ B) = = P (A ∪ B) 3/4 3

En los ejemplos anteriores el espacio de probabilidad fue dado y utilizamos (1.17) para calcular varias probabilidades condicionales. En muchos problemas, sin embargo, procedemos en la direcci´ on opuesta. Se nos proporciona lo que queremos que sean algunas probabilidades condicionales y utilizamos esta informaci´on para calcular la medida de probabilidad en Ω. Un ejemplo t´ıpico de esta situaci´on es la siguiente. Ejemplo 5 Suponga que la poblaci´ on de una cierta ciudad es 40 % masculina y 60 % femenina. Suponga tambi´en que 50 % de los hombres y 30 % de las mujeres fuman. Encuentre la probabilidad de que un fumador sea hombre. Sea M que denote el evento de que una persona seleccionada sea hombre y F que denote el evento de que la persona seleccionada sea mujer. Tambi´en sea que S denote el evento de que la persona seleccionada fume y sea que N denote el evento de que la persona seleccionada no fume. La informaci´ on proporcionada puede expresarse en la forma P (S|M ) = .5, P (S|F ) =.3, P (M ) =.4 y P (F ) =.6. El problema es calcular P (M |S). Por (1.17), P (M |S) =

P (M ∩ S) P (S)

19

1.4. Probabilidad Condicional

1. Espacios de Probabilidad

Ahora, P (M ∩ S) = P (M )P (S|M ) =(.4)(.5)=.2, as´ı que el numerador puede ser calculado en t´erminos de las probabilidades proporcionadas. Como S es la uni´ on de dos conjuntos disjuntos S ∩ M y S ∩ F se sigue que P (S) = P (S ∩ M ) + P (S ∩ F ) Ya que P (S ∩ F ) = P (F )P (S|F ) = (.6)(.3) = .18, observamos que P (S) = .2 + .18 = .38 Por lo tanto P (M |S) =

.20 ≈ .53 .38

El lector se dar´a cuenta de que el espacio de probabilidad, como tal, nunca fue mencionado expl´ıcitamente. Este y muchos problemas similares son resueltos utilizando la informaci´on proporcionada y las reglas para calcular probabilidades dadas en la Secci´on 3 para obtener las probabilidades requeridas. Es muy f´acil el construir un espacio de probabilidad para el ejemplo anterior. Sea que el conjunto Ω consista de los puntos SM, SF, N M y N F que son, respectivamente, los u ´nicos puntos en los conjuntos S∩M, S∩F, N ∩M y N ∩F . Las probabilidades asignadas a estos cuatro puntos no son especificadas directamente, pero ser´an calculadas de tal manera que los eventos P (S|M ), P (S|F ), P (M ) y P (F ) tengan las probabilidades prescritas. Ya hemos hallado que P (S ∩M ) =.2 y que P (S ∩F ) =.18. Dejamos como ejercicio el calcular las probabilidades asignadas a los otros dos puntos. El problema discutido en este ejemplo es un caso especial de la siguiente situaci´on general. Supongamos que A1 , A2 , . . . , An son n eventos mutuamente ajenos cuya uni´on es Ω. Sea B un evento tal que P (B) > 0 y suponga que se conocen P (B|Ak ) y P (Ak ) para 1 ≤ k ≤ n. ¿Cu´anto es P (Ai |B)? Para resolver este problema notemos que los eventos Ak son mutuamente disjuntos y que su uni´on es precisamente Ω, en consecuencia ! n n [ [ B=B∩ Ak = (B ∩ Ak ). k=1

Por lo tanto P (B) =

k=1

n X

P (B ∩ Ak ).

k=1

Pero P (B ∩ Ak ) = P (Ak )P (B|Ak ), as´ı que podemos escribir (1.18)

P (Ai |B) =

P (Ai ∩ B) P (Ai )P (B|Ai ) = Pn . P (B) k=1 P (Ak )P (B|Ak )

Esta f´ormula, llamada Regla de Bayes, encuentra aplicaciones frecuentes. Una forma de interpretar el resultado de (1.18) es la siguiente. Suponga que pensamos en los eventos Ak como las posibles “causas ” de que se observe el evento B. Entonces P (Ai |B) es la probabilidad de que el evento Ai halla sido la causa de que suceda B, dado que ocurri´o el evento B. La regla de Bayes tambi´en forma parte de la base de un m´etodo estad´ıstico llamado Procesos Bayesianos, los cuales ser´an discutidos en el Volumen II, Introduction to Statistical Theory. Como una ilustraci´on del uso de la regla de Bayes consideramos el siguiente (ya cl´asico) problema. 20

1.4. Probabilidad Condicional

1. Espacios de Probabilidad

Ejemplo 6 Suponga que tenemos tres cofres con dos cajones cada uno. El primer cofre tiene una moneda de oro en cada caj´ on, el segundo tiene una moneda de oro en un caj´ on y una de plata en el otro, y el tercer cofre tiene una moneda de plata en cada caj´ on. Un cofre se elige al azar y se abre un caj´ on. Si el caj´ on contiene una moneda de oro, ¿Cu´ al es la probabilidad de que el otro caj´ on tambi´en contenga una moneda de oro? Le pedimos al lector que se detenga y que adivine cual es la respuesta antes de leer la soluci´ on. Frecuentemente se da en este problema la respuesta err´ onea de 1/2. Este problema se resuelve f´ acil y correctamente utilizando la regla de Bayes, una vez que la descripci´ on se ha descifrado. Podemos pensar en un espacio de probabilidad construido en el cual los eventos A1 , A2 y A3 correspondan, respectivamente, al primer, segundo y tercer cofre a seleccionar. Estos eventos son disjuntos y su uni´ on es el espacio entero Ω ya que exactamente un cofre es seleccionado. M´ as a´ un, esta presumiblemente sobreentendido que los tres cofres tienen la misma probabilidad de ser seleccionados, por lo tanto P (Ai ) = 1/3, i = 1, 2, 3. Sea B el evento en el cual la moneda que se observo fue de oro, entonces, de la composici´ on de los cofres, es claro que P (B|A1 ) = 1,

P (B|A2 ) = 1/2,

y

P (B|A3 ) = 0.

El problema nos pide la probabilidad de que el segundo caj´ on tenga una moneda de oro dado que en el primero obtuvimos una moneda de oro. Esto s´ olo puede ocurrir si el el cofre seleccionado fue el primero, as´ı que el problema es equivalente a encontrar P (A1 |B). Ahora aplicamos la regla de Bayes (1.18) para calcular la respuesta, la cual es 2/3. Dejamos como ejercicio al lector el calcular la probabilidad de que el segundo caj´ on contenga una moneda de plata, dado que el primer caj´ on tuvo una moneda de oro. Para nuestro siguiente ejemplo consideraremos un esquema probabil´ıstico simple debido a Polya. Ejemplo 7 El esquema de la urna de Polya. Suponga que una urna tiene r bolas rojas y b bolas negras. Una bola se saca y se anota su color, despu´es ella, junto con c > 0 bolas del mismo color que la obtenida se meten en la urna. El procedimiento es repetido n − 1 veces adicionales, de tal forma que el n´ umero total de extracciones hechas de esta urna sea n. Sea que Rj ,1 ≤ j ≤ n denote el evento en el que la j-´esima bola obtenida sea roja y sea Bj , 1 ≤ j ≤ n que denote el evento en el que la j-´esima bola obtenida sea negra. Es claro que, Rj ∩ Bj = ∅ ∀j ∈ {1, 2, . . . , n}. Durante la k-´esima extracci´ on hay b + r + (k − 1)c bolas en la urna y asumimos que la probabilidad de obtener una bola en particular es (b + r + (k − 1)c)−1 . Para calcular P (R1 ∩ R2 ) escribimos P (R1 ∩ R2 ) = P (R1 )P (R2 |R1 ). Ahora P (R1 ) =

r , b+r

P (R2 |R1 ) =

r+c , b+r+c

y por lo tanto  P (R1 ∩ R2 ) = De manera similar

r b+r

 P (B1 ∩ R2 ) =



b b+r

r+c b+r+c





r b+r+c

. 

y por lo tanto P (R2 ) = P (R1 ∩ R2 ) + P (B1 ∩ R2 )       r r+c b r = + b+r b+r+c b+r b+r+c r = . b+r 21

1.5. Independencia

1. Espacios de Probabilidad

Consecuentemente, P (R2 ) = P (R1 ). Como P (B2 ) = 1 − P (R2 ) =

b , b+r

P (B2 = P (B1 ). M´ as propiedades del esquema de Polya ser´ an desarrolladas en los ejercicios.

1.5.

Independencia

Considere una caja con cuatro bolas distintas y un experimento que consiste en seleccionar una bola de la caja. Asumimos que las bolas tienen la misma probabilidad de ser extra´ıdas. Sea Ω = {1, 2, 3, 4} y asignemos la probabilidad de 1/4 a cada punto. Sean A y B dos eventos. Para algunas elecciones de los eventos A y B, el saber que ocurre A incrementa las probabilidades de que B ocurra. Por ejemplo, si A = {1, 2} y B = {1}, entonces P (A) = 1/2, P (B) = 1/4 y P (A∩B) = 1/4. Como consecuencia tenemos que P (B|A) = 1/2, la cual es mayor que P (B). En otros casos, para otras elecciones de los eventos A y B, el saber que A ocurre hace que la probabilidad de que ocurra B disminuya. Por ejemplo, si A = {1, 2, 3} y B = {1, 2, 4}, entonces P (A) = 3/4, P (B) = 3/4 y P (A ∩ B) = 1/2. Entonces tenemos que P (B|A) = 2/3, la cual es menor que P (B). Un caso muy interesante se presenta cuando el saber que ocurre A no altera la probabilidad de que B ocurra. Como un ejemplo, si A = {1, 2} y B = {1, 3}, entonces P (A) = 1/2, P (B) = 1/2 y P (A ∩ B) = 1/4 y por lo tanto P (B|A) = 1/2. Eventos como estos, para los cuales la probabilidad condicional es la misma que la probabilidad no condicional, se dicen independientes. Sean ahora A y B cualesquiera dos eventos en un espacio de probabilidad general y supongamos que P (A) 6= 0. Podemos definir que A y B sean independientes si P (B|A) = P (B). Ya que P (B|A) = P (B ∩ A)/P (A) vemos que si A y B son independientes, entonces (1.19)

P (A ∩ B) = P (A)P (B)

Ya que (1.19) tiene sentido a´ un cuando P (A) = 0 y tambi´en es sim´etrica en las letras A y B, conlleva a una definici´on preferida de independencia. Definici´ on 4 Dos eventos A y B son independientes si y solo si P (A ∩ B) = P (A)P (B) Podemos considerar un problema similar para tres conjuntos A,B y C. Tomamos Ω = {1, 2, 3, 4} y le asignamos a cada punto la probabilidad 1/4. Sean A = {1, 2},B = {1, 3} y C = {1, 4}. Dejamos como ejercicio el mostrar que los pares de eventos A y B, A y C, y B y C son independientes. Decimos que los eventos A,B y C son independientes dos a dos (o a pares). Por otro lado, P (C) = 1/2 y P (C|A ∩ B) = 1 Por lo tanto, el saber que el evento A ∩ B ocurre incrementa la probabilidad de que C ocurra. En este sentido, los eventos A,B y C no son mutuamente independientes. En general, tres eventos A,B y C son mutuamente independientes si ellos son independientes dos a dos y si P (A ∩ B ∩ C) = P (A)P (B)P (C). 22

1.5. Independencia

1. Espacios de Probabilidad

dejamos como ejercicio el mostrar que si A,B y C son mutuamente independientes y si P (A∩B) 6= 0 entonces P (C|A ∩ B) = P (C). A´ un m´as general, definimos que los eventos A1 , A2 , . . . , An , n ≥ 3 son mutuamente independientes si P (A1 ∩ . . . An ) =

n Y

P (Ak )

k=1

y si cualquier subcolecci´on que contenga al menos dos eventos, pero menos de n eventos es mutuamente independiente. Ejemplo 8 Sea S el cuadrado 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 en el plano. Considere el espacio de probabilidad uniforme en el cuadrado, y sea A el evento 1 {(x, y) : 0 ≤ x ≤ , 0 ≤ y ≤ 1} 2 y sea B el evento 1 {(x, y) : 0 ≤ x ≤ 1, 0 ≤ y ≤ } 4 Muestre que A y B son eventos independientes. Para ver esto, calculamos P (A),P (B) y P (A ∩ B) y mostremos que P (A ∩ B) = P (A)P (B). Ahora, tenemos que A es un subrect´ angulo del cuadrado S cuya ´ area es 1/2 y B es un subrect´ angulo del cuadrado S que tiene ´ area 1/4, as´ı que P (A) = 1/2 y P (B) = 1/4. Ya que 1 1 A ∩ B = {(x, y) : 0 ≤ x ≤ , 0 ≤ y ≤ } 2 4 es un subrect´ angulo del cuadrado S que tiene ´ area 1/8, P (A ∩ B) = 1/8 y observamos que A y B son eventos independientes, como se hab´ıa dicho. La noci´on de independencia se usa frecuentemente al construir espacios de probabilidad que corresponden a repeticiones del mismo experimento. Este asunto ser´a tratado m´as ampliamente en el Cap´ıtulo 3. Aqu´ı estaremos analizando la situaci´on m´as sencilla, digamos, experimentos (tal como el lanzamiento de una moneda posiblemente desbalanceada) que solo puede resultar en uno de dos posibles resultados: ´exito o fracaso. En un experimento como el de lanzar una moneda n veces, donde los ´exitos y los fracasos en cada lanzamiento ocurren con probabilidades p y 1 − p respectivamente, intuitivamente pensamos que el resultado de el i-´esimo lanzamiento no debe influenciar el resultado de los dem´as lanzamientos. Ahora deseamos construir un espacio de probabilidad que corresponda al experimento compuesto de n-repeticiones de nuestro sencillo experimento que incorpore nuestras creencias intuitivas. Ya que cada uno de los n ensayos puede ser ya sea ´exito o fracaso, hay un total de 2n posibles resultados para el experimento compuesto. estos pueden ser representados por un n-tuple (x1 , . . . , xn ), donde xi = 1, 0 ya sea que el i-´esimo ensayo halla resultado en un ´exito o un fracaso. Tomaremos a Ω como el conjunto de todos esos n-tuples. El σ-campo A ser´a el conjunto de todos los subconjuntos de Ω. Ahora pasamos a la asignaci´on de una medida de probabilidad. Para hacer esto s´olo es necesario el asignarle probabilidades a los 2n conjuntos de un solo punto {(x1 , . . . , xn )}. Sup´ongase que el n-tuple (x1 , . . . , xn ) es tal que exactamente k de las entradas x0i s tienen el valor 1; por simplicidad, digamos x1 = x2 = · · · = xk = 1 y que los dem´as x0i s tienen el valor de 0. Entonces, si Ai denota el evento en el cual el i-´esimo ensayo, con 1 ≤ i ≤ n, es un ´exito, tenemos que {(1, 1, . . . , 1, 0, 0, . . . , 0)} = A1 ∩ A2 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn . | {z } | {z } k

n−k

23

1.5. Independencia

1. Espacios de Probabilidad

De acuerdo a nuestra visi´on intuitiva, los eventos A1 , . . . , Ak , Ack+1 , . . . , Acn son mutuamente independientes y P (Ai ) = p, 1 ≤ i ≤ n. Por lo tanto debemos asignar P tal que P ({1, . . . , 1, 0, . . . 0}) = P (A1 ) . . . P (Ak )P (Ack+1 ) . . . P (Acn ) = pk (1 − p)n−k Via el mismo razonamiento, vemos que si el n-tuple (x1 , . . . , xn ) tiene exactamente k posiciones con el valor 1, entonces P debe ser de tal manera que P ({(x1 , . . . , xn )}) = pk (1 − p)n−k . Calculemos ahora la probabilidad de que exactamente k de los n ensayos resulten en un ´exito. Note cuidadosamente que esto difiere de la probabilidad de que k ensayos espec´ıficos resulten en un ´exito y los otros n − k ensayos sean fracasos. Sea Bk que denote el evento en el cual exactamente k de los n ensayos resultaron exitosos. Ya que cada elecci´on de una sucesi´on espec´ıfica que tenga k ´exitos tiene probabilidad pk (1 − p)n−k , el evento Bk tiene probabilidad P (Bk ) = C(n, k)pk (1 − p)n−k , donde C(n, k) representa el n´ umero de sucesiones (x1 , . . . , xn ) en las cuales exactamente k de los elementos x0i s tienen el valor de 1. El c´alculo de C(n, k) es un simple problema combinatorio que ser´a resuelto en la Secci´on 2.4. All´ı se mostrar´a que (1.20)

C(n, k) =

n! , k!(n − k)!

0≤k≤n

Recuerde que 0! = 1 y que, para cualquier entero positivo m, m! = m(m − 1)(m − 2) · · · 1  La cantidad n!/(k!(n − k)!) usualmente se escribe como nk (el coeficiente binomial). Por lo tanto   n k (1.21) P (Bk ) = p (1 − p)n−k k Varios problemas de aplicaci´on son modelados por ensayos independientes ´exito-fracaso. Uno t´ıpico es el siguiente. Ejemplo 9 Suponga que una m´ aquina produce pernos, 10 % de los cuales son defectuosos . Encuentre la probabilidad de que una caja de 3 pernos contenga a lo m´ as 1 perno defectuoso. Para resolver este problema asumimos que la producci´ on de pernos constituye una serie repetida de ensayos ´exito-fracaso independientes, siendo el obtener un perno defectuoso un ´exito. La probabilidad de un ´exito es en este caso de .1. Sea B0 el evento el cual ninguno de los tres pernos es defectuoso y sea B1 el evento en el cual exactamente uno de los tres pernos es defectuoso. Entonces B0 ∪ B1 es el evento de que a lo m´ as un perno sea defectuoso. Como los eventos B0 y B1 son claramente disjuntos, se sigue que P (B0 ∪ B1 ) = P (B0 ) + P (B1 )     3 3 0 3 = (.1) (.9) + (.1)1 (.9)2 0 1 = (.9)3 + 3(.1)(.9)2 = .972.

Ejercicios 24

1.5. Independencia

1. Espacios de Probabilidad

1.-Sea (Ω, A , P ) un espacio de probabilidad, donde A es el σ-campo de todos los subconjuntos de Ω y P es una medida de probabilidad que asigna probabilidad p > 0 a cada conjunto unipuntual de Ω. (a)Demuestre que Ω debe tener un n´ umero finito de puntos. Sugerencia: muestre que Ω no puede tener m´as de p−1 puntos. (b)Muestre que si n es el n´ umero de puntos en Ω entonces p debe ser n−1 . 2.-Se puede realizar un modelo para una m´aquina de hilar aleatoria si tomamos el espacio uniforme como la circunferencia de un c´ırculo de radio unitario, de tal manera que la probabilidad de que el apuntador de la m´aquina caiga en un arco de longitud s es s/2π. Suponga que el c´ırculo se divide en 37 zonas numeradas 1, 2, . . . , 37. Calcule la probabilidad de que la m´aquina se detenga en una zona con n´ umero par. 3.-Suponga que se escoge un punto al azar en el cuadrado unitario. Calcule la probabilidad de que se encuentre en el tri´angulo acotado por x = 0, y = 0 y x + y = 1. 4.-Suponga que se escoge un punto al azar en el disco de radio unitario. Encuentre la probabilidad de que se encuentre en el sector angular de 0 a π/4 radianes. 5.-Calcule las siguientes probabilidades en el Ejemplo 2: (a) Que ninguna desintegraci´on ocurra antes del tiempo 10. (b) Que halla una desintegraci´on antes del tiempo 2 o una desintegraci´on entre los tiempos 3 y 5. 6.-Una caja contiene 10 bolas numeradas del 1 al 10. Una bola se extrae de la caja al azar. Calcule la probabilidad de que el n´ umero de la bola halla sido 3,4 o 5. 7.-Suponga que dos dados se lanzan una vez y que cada uno de los 36 resultados posibles son igualmente probables. Encuentre la probabilidad de que la suma de los n´ umeros en ambas caras sea par. 8.-Suponga que los eventos A y B son tales que P (A) = 2/5, P (B) = 2/5 y P (A ∪ B) = 1/2. Encuentre P (A ∩ B). 9.-Si P (A) = 1/3, P (A ∪ B) = 1/2 y P (A ∩ B) = 1/4, encuentre P (B). 10.-Suponga que se elige un punto al azar del cuadrado unitario. Sea A el evento en el cual el punto se encuentre en el tri´angulo acotado por las l´ıneas y = 0, x = 1 y x = y, y sea B el evento en el cual se encuentre en el rect´angulo con v´ertices (0, 0), (1, 0), (1, 1/2), (0, 1/2). Calcule P (A ∪ B) y P (A ∩ B). 11.-Una caja tiene 10 bolas numeradas 1,2,. . .,10. Se saca una bola al azar y despu´es una segunda bola se saca de las nueve restantes. Encuentre la probabilidad de que los n´ umeros de las dos bolas seleccionadas difieran en 2 o m´as unidades. 12.-Si se sabe que un punto seleccionado al azar en el cuadrado unitario est´a en el tri´angulo acotado por x = 0, y = 0 y x + y = 1, encuentre la probabilidad de que tambi´en se encuentre en el tri´angulo acotado por y = 0, x = 1 y x = y. 13.- Suponga que se tienen cuatro cofres con dos cajones cada uno. Los cofres 1 y 2 contienen una moneda de oro en un caj´on y una moneda de plata en el otro. El cofre 3 contiene dos monedas de oro y el cofre 4 contiene dos monedas de plata. Se selecciona un cofre al azar y se abre un caj´ on. Se encuentra una moneda de oro. Encuentre la probabilidad de que el otro caj´on contenga (a)una moneda de plata; (b)una moneda de oro. 25

1.5. Independencia

1. Espacios de Probabilidad

14.-Una caja tiene 10 bolas, 6 de las cuales son negras y 4 blancas. Tres bolas se remueven de la caja sin que se note su color. Encuentre la probabilidad de que la cuarta bola removida sea blanca. Asuma que las 10 bolas son igualmente probables de ser extra´ıdas de la caja. 15.-Con la misma composici´on de la caja del Ejercicio 14, encuentre la probabilidad de que las tres bolas removidas ser´an negras si se sabe que al menos una de ellas es negra. 16.-Suponga que una f´abrica tiene dos m´aquinas A y B que efect´ uan un 60 % y un 40 % de la producci´on total respectivamente. En su salida, la m´aquina A produce 3 % de art´ıculos defectuosos, mientras que la m´aquina B produce 5 % de art´ıculos defectuosos. Encuentre la probabilidad de que dada una pieza defectuosa ´esta halla sido producida por la m´aquina B. 17.-Muestre por inducci´on sobre n que la probabilidad de seleccionar una bola roja en el ensayo n en el esquema de Polya (Ejemplo 7) es r(b + r)−1 . 18.-Un estudiante est´a efectuando un examen de opci´on m´ ultiple en el cual cada pregunta tiene 5 respuestas posibles, siendo solamente una la correcta. Si el estudiante conoce la respuesta selecciona la respuesta correcta, de otro modo selecciona una respuesta al azar de las 5 posibles. Suponga que el estudiante conoce la respuesta al 70 % de las preguntas. (a)¿Cu´al es la probabilidad de que en una pregunta dada el estudiante obtenga la respuesta correcta? (b)Si el estudiante obtiene la respuesta correcta a una pregunta, ¿Cu´al es la probabilidad de que halla conocido la respuesta?. 19.-Suponga que se elige un punto al azar del cuadrado unitario. Si se sabe que el punto esta en el rect´angulo acotado por y = 0, y = 1, x = 0 y x = 1/2. ¿Cu´al es la probabilidad de que este punto est´e en el tri´angulo acotado por y = 0, x = 1/2 y x + y = 1?. 20.-Suponga que una caja tiene r bolas rojas y b bolas negras. Se escoge una bola al azar de la caja y una segunda bola se saca de las bolas restantes en la caja. Encuentre la probabilidad de que (a)ambas sean rojas; (b)la primera bola sea roja y la segunda negra; (c)la primera bola sea negra y la segunda roja; (d)ambas bolas sean negras. 21.-Una caja tiene 10 bolas rojas y 5 bolas negras. Una bola se selecciona de la caja. Si la bola es roja se regresa a la caja. Si la bola es negra, ella junto con dos bolas negras adicionales se regresan a la caja. Encuentre la probabilidad de que la segunda bola seleccionada de la caja sea (a)roja; (b)negra. 22.- Se sacan dos bolas, reemplazando la primera que se sac´o, de una caja que contiene 3 bolas blancas y 2 bolas negras. (a)Construya un espacio muestra para este experimento con un n´ umero igualmente probable de puntos muestra. (b)Calcule la probabilidad de que ambas bolas extra´ıdas sean del mismo color (c)Calcule la probabilidad de que al menos una de las bolas extra´ıdas sea blanca. 23.-Trabaje el ejercicio 22 si la primer bola no se reemplaza. 24.-Trabaje el ejercicio 22 construyendo un espacio muestra basado en 4 puntos muestra correspondientes a blanco y a negro para cada extracci´on. 25.-La caja I contiene 2 bolas blancas y 2 bolas negras, la caja II contiene 2 bolas blancas y 1 bolas negra y la caja III contiene 1 bola blanca y 3 bolas negras. 26

1.5. Independencia

1. Espacios de Probabilidad

(a)Se selecciona una bola de cada caja. Calcule la probabilidad de que todas sean blancas. (b)Se selecciona una caja al azar y se extrae de ella una bola. Calcule la probabilidad de que sea blanca. (c)En (b), calcule la probabilidad de que se halla seleccionado la primera caja, dado que extrajo una bola blanca. 26.-Una caja contiene 3 bolas blancas y 2 bolas negras. Se extraen dos bolas sin reemplazo de ella. (a)Calcule la probabilidad de que la segunda bola sea negra dado que la primera bola fue negra. (b)Calcule la probabilidad de que la segunda bola sea del mismo color que la primera. (c)Calcule la probabilidad de que la primera bola sea blanca dado que la segunda fue blanca. 27.-La composici´on de un colegio es 70 % hombres y 30 % mujeres. Se sabe que el 40 % de los hombres y el 60 % de las mujeres fuman cigarrillos. ¿Cu´al es la probabilidad de que si se observa a un estudiante fumando un cigarrillo este sea hombre? 28-Asuma que se fabrican autos con la misma probabilidad cada d´ıa durante los cinco d´ıas de la semana (Lunes, Martes, Mi´ercoles, Jueves y Viernes). Los carros manufacturados en Lunes tienen 4 % de ser “limones”; los carros hechos en Martes, Mi´ercoles o Jueves tienen 1 % de oportunidad de ser limones y los autos hechos en Viernes tienen 4 % de ser limones. Si usted compra un carro y resulta ser lim´on,¿Cu´al es la probabilidad de que halla sido manufacturado en Lunes? 29.-Suponga que existe una prueba para diagnosticar el cancer con la propiedad de que 90 % de aquellos que la padecen dan positivo, mientras que 5 % de aquellos que no tienen la enfermedad dan positivo. ¿Cu´al es la probabilidad de que un paciente seleccionado al azar el cual dio positivo en la prueba realmente padezca cancer? 30.- En el problema de los tres cofres discutido en el Ejemplo 6, calcule la probabilidad de que el segundo caj´on tenga una moneda de plata dado que el primero tuvo una moneda de oro. 31.-En el esquema de la urna de Polya (Ejemplo 7), dado que la segunda bola fue roja, encuentre la probabilidad de que (a)La primer bola halla sido roja; (b)La primer bola halla sido negra. 32.-Suponga que tres monedas id´enticas y perfectamente balanceadas se lanzan una sola vez. Sea Ai el evento en el cual la i-´esima moneda cayo ´aguila. Demuestre que los eventos A1 ,A2 y A3 son independientes. 33.-Suponga que las seis caras de un dado son igualmente probables de aparecer y que los lanzamientos sucesivos de el dado son independientes. Construya un espacio de probabilidad para el experimento compuesto de lanzar el dado tres veces. Bc

34.-Sea que A y B denoten dos eventos independientes. Demuestre que A y B c , Ac y B, y Ac y tambi´en son independientes.

35.-Sea Ω = {1, 2, 3, 4}y asuma que cada punto tiene probabilidad 1/4. Sea A = {1, 2}, B = {1, 3} y C = {1, 4}. Muestre que las parejas de eventos A y B, A y C y B y C son independientes. 36.-Suponga que A,B y C son eventos mutuamente independientes y que P (A ∩ B) 6= 0. Muestre que P (C|A ∩ B) = P (C). 37.-La experiencia muestra que el 20 % de las personas que reservan una mesa en un restaurante nunca se aparecen. Si un restaurante tiene 50 mesas y toma 52 reservaciones, ¿Cu´al es la probabilidad de que se pueda acomodar a todo el mundo? 27

1.5. Independencia

1. Espacios de Probabilidad

38.-Un blanco circular de radio unitario se divide en cuatro zonas anulares con radio externo 1/4, 1/2, 3/4 y 1, respectivamente. Suponga que se lanzan 10 tiros independientes y al azar en el blanco. (a)Calcule la probabilidad de que a lo sumo tres tiros caigan en la zona acotada por los c´ırculos de radios 1/2 y 1. (b)Si 5 tiros caen dentro del disco de radio 1/2, encuentre la probabilidad de que al menos uno est´e en el disco de radio 1/4. 39.-Una m´aquina tiene cuatro componentes conectados en paralelo, de tal suerte que la m´aquina falla solamente si los cuatro componentes fallan. Asuma que las fallas de los componentes son independientes entre si. Si cuando la m´aquina es prendida los componentes tienen probabilidades de falla de .1, .2, .3 y .4 , ¿Cu´al es la probabilidad de que la m´aquina funcione cuando se le encienda?. 40.-Un cierto componente del mecanismo de un cohete falla el 5 % de las veces que se enciende el motor. Para alcanzar una mayor fiabilidad en el motor, esta componente se duplica n veces. El motor falla solamente si todas estas n componentes fallan. Asuma que las fallas de los componentes son independientes entre si. ¿Cu´al es el menor valor de n para el cual se garantice que el motor funcionar´a el 99 % de las veces? 41.-Un dado sim´etrico se lanza 3 veces. Si se sabe que la cara 1 apareci´o al menos una vez, ¿Cu´ al es la probabilidad de que halla aparecido exactamente una sola vez? 42.-En un mazo de 52 cartas hay 4 reyes. Se saca una carta al azar de este mazo y se anota su valor; la carta es regresada. Este proceso se repite 4 veces. Calcule la probabilidad de que halla exactamente 2 reyes en las 4 cartas seleccionadas si se sabe que hay al menos un rey en estas seleccionadas. 43.-Muestre que si A, B y C son tres eventos independientes tales que P (A ∩ B ∩ C) 6= 0 y P (C|A ∩ B) = P (C|B), entonces P (A|B ∩ C) = P (A|B) 44.-Un sujeto dispara independientemente 12 tiros a un blanco. ¿Cu´al es la probabilidad de que golpee el blanco al menos una vez si tiene probabilidad 9/10 de golpear el blanco en un tiro dado? 45.-Un dado se lanza 12 veces. Calcule la probabilidad de obtener (a)Dos seis; (b)a lo sumo dos seis. 46.-Suponga que la probabilidad de golpear un blanco es 1/4. Si se disparan ocho tiros al blanco, ¿Cu´al es la probabilidad de que el blanco sea golpeado al menos dos veces?. 47.-En el ejercicio 44, ¿Cu´al es la probabilidad de que el blanco sea golpeado al menos dos veces si se sabe que es golpeado al menos una?.

28

Cap´ıtulo 2

An´ alisis Combinatorio Recuerde de la Secci´on 1.2 que un espacio de probabilidad sim´etrico con s puntos es el modelo utilizado para escoger un punto al azar de un conjunto S que tiene s puntos. En adelante, cuando hablemos de escoger un punto al azar de un conjunto finito S, querremos decir que la probabilidad asignada a cada conjunto de un solo punto es s−1 . Sea que N (A) denote el n´ umero de puntos en A. Como P (A) = N (A)/s, el problema de calcular P (A) es equivalente a calcular N (A). El procedimiento para encontrar P (A) es “ contar ” el n´ umero de puntos en A y despu´es dividir por el n´ umero total de puntos s, sin embargo, algunas veces el proceso se efect´ ua a la inversa. Si por alg´ un motivo conocemos P (A), entonces podemos encontrar N (A) por la f´ormula N (A) = sP (A). Este procedimiento inverso ser´a utilizado frecuentemente en lo subsiguiente. El c´alculo de N (A) es f´acil si A cuenta solamente con pocos puntos, ya que en este caso basta con enumerar todos los puntos en A- Pero a´ un si A tiene s´olo una cantidad moderada de puntos, a veces el m´etodo de la enumeraci´on directa se vuelve intratable, y requerimos de algunas reglas simples para contar. Nuestro prop´osito en este cap´ıtulo es el presentar una discusi´on no sistem´atica de las t´ecnicas elementales y de amplia aplicaci´on. Este tema se vuelve dif´ıcil muy r´apidamente, as´ı que limitaremos nuestro tratamiento a aquellas partes que m´as se utilizan en la teor´ıa de la probabilidad. Las primeras cuatro secciones en este cap´ıtulo contienen el material esencial, mientras que las cuatro u ´ltimas secciones contienen material opcional y un poco m´as dif´ıcil.

2.1.

Muestras ordenadas

Sup´ongase que tenemos dos conjuntos S y T . Si S tiene m puntos distintos s1 , s2 . . . , sm y T tiene n puntos distintos t1 , t2 . . . , tn entonces el n´ umero de parejas (si , tj ) que podemos formar tomando un punto del conjunto S y un segundo punto del conjunto T es mn. Esto es claramente porque cada elemento del conjunto S puede ser asociado con cualquiera de los n elementos que tiene el conjunto T. Ejemplo 1 Si S = {1, 2} y T = {1, 2, 3}, entonces hay seis pares: (1, 1),(1, 2),(1, 3),(2, 1),(2, 2),(2, 3). Note cuidadosamente que la pareja (1, 2) es distinta de la pareja (2, 1). M´as generalmente, suponga que tenemos n conjuntos S1 , S2 , . . . , Sn teniendo s1 , s2 , . . . , sn puntos distintos respectivamente. Entonces el n´ umero de Q n-tuples (x1 , x2 , . . . , xn ) que se pueden formar, donde xi ∈ Si ∀i ∈ {1, 2, . . . , n} es s1 s2 . . . sn = ni=1 si . Esta es una extensi´on casi Q obvia del caso para n = 2 discutido arriba. (Una prueba formal de que el n´ umero de n-tuples es ni=1 si podr´ıa llevarse a cabo por inducci´on sobre n). 29

2.1. Muestras ordenadas

2. An´alisis Combinatorio

Un caso especial sumamente importante ocurre cuando cada uno se los conjuntos Si , 1 ≤ i ≤ n, es el mismo conjunto S con s puntos distintos. Entonces hay sn n-tuples (x1 , x2 , . . . , xn ) donde cada xi es un punto perteneciente a S. Ejemplo 2 S = {1, 2} y n = 3. Entonces hay 8 n-tuples: (1, 1, 1), (1, 1, 2),(1, 2, 1), (1, 2, 2), (2, 1, 1), (2, 1, 2), (2, 2, 1), (2, 2, 2). El caso especial cuando los conjuntos Si , 1 ≤ i ≤ n son el mismo conjunto puede ser aproximado desde un punto de vista distinto. Suponga que una caja tiene s bolas distintas etiquetadas 1, 2, . . . , s, una bola se extrae de la caja, se anota su n´ umero y es regresada a la caja. Este proceso se efect´ ua n veces. Cada una de las n extracciones resulta en un n´ umero del 1 al s, el resultado de las n extracciones puede ser descrito como un n-tuple (x1 , x2 , . . . , xn ), donde x1 es el n´ umero de la primera bola, x2 el n´ umero de la segunda bola, etc. En total, hay sn posibles n-tuples. Llamamos a este proceso muestreo con reemplazo de una poblaci´on de s objetos distintos. El resultado (x1 , x2 , . . . , xn ) se llama un muestra de tama˜ no n extra´ıda de una poblaci´on de s objetos con reemplazo. Hablamos de muestreo aleatorio con reemplazo si asumimos que cada una de las sn posibles muestras posee la misma probabilidad o, en lenguaje tradicional, tienen la misma oportunidad de ocurrencia. Ejemplo 3 Una moneda perfectamente balanceada se lanza n veces. Encuentre la probabilidad de que al menos un lanzamiento resulte ´ aguila. Probablemente el decir que la moneda est´ a perfectamente balanceada implica que la probabilidad de que en un lanzamiento dado obtengamos un ´ aguila es de 1/2. Si esto es as´ı, y si asumimos que el lanzar una moneda n veces es equivalente a extraer una muestra aleatoria de tama˜ no n de una n poblaci´ on de dos objetos {A, S} entonces cada uno de los 2 resultados es igualmente posible. Sea A el evento en el cual hay al menos una aguila, y sea Ai el evento en el cual el i-´esimo lanzamiento Sn ´ resulte en una ´ aguila, entonces A = i=1 Ai , pero P (A) = 1 − P (Ac ) =1−P =1−P

n [ i=1 n \

!c ! Ai !

Aci

i=1

T y i=1 Aci ocurre si y solo si todos los n lanzamientos caen sol. Por lo tanto P ( ni=1 Aci ) = 2−n as´ı que P (A) = 1 − 2−n . Tn

Sea que S denote a un conjunto con s objetos distintos. Seleccionamos un objeto de S y anotamos que objeto es, pero ahora supongamos que no lo regresamos al conjunto. Si repetimos este proceso tendremos que hacer ahora una selecci´on de los restantes (s−1) objetos. Supongamos que repetimos este proceso n − 1 veces adicionales, de tal manera que se seleccionan n objetos en conjunto. (Obviamente, debemos tener n ≤ s en este caso.) Una vez m´as podemos almacenar el resultado como un n-tuple (x1 , x2 , . . . , xn ), pero esta vez los n´ umeros x1 , x2 , . . . , xn deben ser distintos; no puede haber repeticiones en nuestra muestra. El primer objeto puede ser cualquiera de los s objetos del conjunto, el segundo puede ser cualquiera de los restantes s − 1 objetos, el tercero puede ser elegido de cualquiera de los s − 2 objetos etc., por lo tanto hay (s)n = s(s − 1) . . . (s − n + 1) resultados diferentes para el experimento. Este proceso se dice ser muestreo sin reemplazo n veces de una poblaci´on de s objetos distintos. Hablamos de muestra aleatoria de tama˜ no n extra´ıda de una poblaci´ on de s objetos sin reemplazo si asumimos que cada uno de estos (sn ) resultados es igualmente posible. 30

2.2. Permutaciones

2. An´alisis Combinatorio

Hemos denotado el producto s(s − 1) . . . (s − n + 1) por el s´ımbolo (s)n . en particular (s)s = s(s−1) . . . 1 = s!. Ahora, el extraer una muestra de tama˜ no s de una poblaci´on de s objetos distintos es equivalente a escribir los n´ umeros 1, 2, . . . , s en alg´ un orden. Entonces s! representa el n´ umero de ordenamientos distintos (o permutaciones) de s objetos. Suponga que una muestra aleatoria de tama˜ no n se escoge de un conjunto de s objetos con reemplazo. Buscamos la probabilidad del evento A en el cual ning´ un punto aparezca dos veces. El problema se resuelve f´acilmente. El n´ umero de muestras de tama˜ no n con reemplazo es sn . De estas n s ,muestras aleatorias, el n´ umero en las cuales ning´ un punto aparece dos veces es el mismo que el n´ umero de muestras de tama˜ no n extra´ıda de un conjunto de s objetos sin reemplazo,i.e., (sn ). Por lo tanto, ya que todas las sn muestras son igualmente posibles, encontramos que la probabilidad requerida es

(2.1)

(sn ) s(s − 1) . . . (s − n + 1) = n n s   s    1 2 n−1 = 1− 1− ... 1 − . s s s

Ejemplo 4 Una aplicaci´ on novedosa y algo sorprendente de (2.1) es el llamado problema del cumplea˜ nos. Asumamos que los cumplea˜ nos de las personas son igualmente posibles de ocurrir entre los 365 d´ıas del a˜ no. (Aqu´ı ignoramos los a˜ nos bisiestos y el hecho de que las tazas de nacimiento no son exactamente uniformes a lo largo del a˜ no), encuentre la probabilidad de que en un grupo de n personas, cualesquiera dos personas no cumplan a˜ nos el mismo d´ıa. En este problema, s = 365, as´ı que aplicando (1) vemos que      1 2 n−1 p= 1− 1− ... 1 − . 365 365 365 Las consecuencias num´ericas son demasiado inesperadas. A´ un para n tan peque˜ no como 23, p < 1/2, y para n = 56, p =0.1. Esto significa que en un grupo de 23 personas, la probabilidad de que al menos dos personas cumplan a˜ nos el mismo d´ıa excede 1/2. En un grupo de 56 personas, es casi seguro que dos personas tengan el mismo d´ıa de cumplea˜ nos. Si tenemos una poblaci´on de s objetos, existen sn muestras de tama˜ no n que pueden ser extra´ıdas con reemplazo y (sn ) muestras de tama˜ no n que pueden ser extra´ıdas sin reemplazo. Si s comparado con n es grande, hay una peque˜ na diferencia entre el muestreo aleatorio con estas dos t´ecnicas. de hecho, observamos por (2.1) que para cualquier n fija,     (s)n 1 n−1 (2.2) l´ım ... 1 − = 1. = l´ım 1 − s→∞ sn n→∞ s s (Ver ejercicio 12 para estimaciones m´as precisas.)

2.2.

Permutaciones

Suponga que se tienen n cajas distintas y n bolas distintas. El n´ umero total de maneras a distribuir las n bolas dentro de las n cajas de tal manera que cada caja tenga exactamente una bola es n!. El decir que estas n bolas est´an distribuidas aleatoriamente entre las n cajas con una bola por caja significa que asignamos probabilidad de 1/n! a cada una de estas posibles maneras. Supongamos que este es el caso. ¿Cu´al es la probabilidad de que una bola espec´ıfica, digamos la 31

2.3. Combinaciones

2. An´alisis Combinatorio

bola i, se encuentre en una caja en espec´ıfico, digamos la caja j? Si la bola i se encuentra en la caja j esto nos deja (n − 1) cajas y (n − 1) bolas a ser distribuidas en ellas tal que exactamente una bola est´e en cada caja. Esto puede hacerse en (n − 1) maneras, por lo tanto la probabilidad requerida es (n − 1)/n! = 1/n!. Otra manera de ver este resultado es la siguiente. Si tenemos n objetos distintos y los permutamos entre ellos aleatoriamente, entonces la probabilidad de que un objeto en espec´ıfico se encuentre en una posici´on espec´ıfica es 1/n!. De hecho, aqu´ı las posiciones pueden ser identificadas con las cajas y los objetos con las bolas. Las consideraciones anteriores son f´acilmente extendidas de 1 a k ≥ 1 objetos. Si n objetos son permutados entre ellos de manera aleatoria, la probabilidad de que k objetos espec´ıficos se encuentren en k posiciones espec´ıficas es (n − k)!/n!. Dejamos la prueba de este hecho al lector. Los problemas que envuelven permutaciones aleatorias toman una gran variedad de formas cuando se formulan verbalmente. Aqu´ı hay dos ejemplos: (a)Un mazo de cartas etiquetadas 1, 2, . . . n se baraja y las cartas se reparten una a la vez. ¿Cu´al es la probabilidad de que para alg´ un i en espec´ıfico, la i-´esima carta repartida sea la carta etiquetada como i? (b)Suponga que 10 parejas llegan a una fiesta. Los ni˜ nos y las ni˜ nas hacen parejas al azar. ¿Cu´ al es la probabilidad de que exactamente k ni˜ nos en especial terminen con su propia pareja? Un problema m´as sofisticado que envuelve permutaciones aleatorias es el encontrar la probabilidad de que ocurran exactamente k “ coincidencias ”. Para usar nuestro pintoresco ejemplo de distribuir bolas en cajas, el problema es encontrar la probabilidad de que la bola i se encuentre en la caja i para exactamente k valores distintos de i. El problema de coincidencias puede ser resuelto en una amplia variedad de formas. Posponemos la discusi´on de este problema hasta la Secci´on 2.6.

2.3.

Combinaciones

Una mano de poker consiste en cinco cartas extra´ıdas de un mazo de 52 cartas. Desde el punto de vista del la discusi´on previa, habr´ıa (52)5 de tales manos. Sin embargo, al llegar aqu´ı contando de esta manera, diferentes ordenamientos de las mismas cinco cartas son considerados como manos distintas. Esto es, la mano 2,3,4,5,6 de espadas en este orden es considerada distinta de la mano 2,4,3,5,6 de espadas en ese orden. Desde el punto de vista del juego de cartas, estas manos son las mismas. De hecho todas las 5! permutaciones de las mismas cartas son equivalentes. De las(52)5 manos posibles, exactamente 5! de ellas son s´olo permutaciones de estas mismas 5 cartas. De manera similar, para cualquier conjunto dado de cinco cartas hay 5! permutaciones distintas. Por lo tanto el n´ umero total de manos de poker, no importando el orden en el cual la carta aparece, es (52)5 /5!. En este nuevo conteo dos manos se consideran distintas si y solo si difieren como conjunto de objetos,i.e., tienen al menos un elemento distinto. Por ejemplo, entre las (52)5 /5! manos de poker que hay, las manos (2,3,4,5,6) de espadas y (3,2,4,5,6) de espadas son las mismas, pero las manos (2,3,4,5,7) de espadas y (2,3,4,5,6) de espadas son distintas. M´as generalmente, supongamos que tenemos un conjunto S con s objetos distintos. Entonces, como ya se explico anteriormente, hay (s)r distintas muestras de tama˜ no r que se pueden extraer de S sin reemplazo. Cada subconjunto distinto {x1 , . . . , xr } de r objetos de S puede ser ordenado (re-arreglado) en r! maneras distintas. Si ignoramos el orden en el cual los objetos aparecen en la muestra, entonces estos r! reordenamientos de (x1 , . . . , xn ) se consideran como el mismo. Por lo tanto hay (s)r /r! muestras diferentes de tama˜ no r que pueden ser extra´ıdas sin reemplazo y sin importar el orden de un conjunto de s objetos distintos. 32

2.3. Combinaciones

2. An´alisis Combinatorio

La cantidad (s)r /r! usualmente se escribe en t´erminos del s´ımbolo del coeficiente binomial   (s)r s = . r! r Observe que para r = 0, 1, 2, . . . , s   s (s)r s! = = . r r! r!(s − r)!  Se˜ nalamos que de ahora en adelante ar est´a bien definido para cualquier n´ umero real a y cualquier entero no negativo r por   a (a)r a(a − 1) . . . (a − r + 1) (2.3) = = , r! r! r donde 0! y (a)0 se definen como 1.  (−π)(−π−1)(−π−2) Ejemplo 5 −π = 3 = 3!

π(π+1)(π+2) . 3!

 Observe que si a es un entero positivo, entonces ar = 0 si r > a. Adoptaremos la convenci´ on de  a a que r = 0 si r es un entero negativo. Por lo tanto r est´a definido para todo n´ umero real a y para todo entero r. Como previamente se observ´o, cuando s es un entero positivo y r es un entero no negativo, es  s u ´til pensar en r como el n´ umero de maneras en las que podemos extraer una muestra de tama˜ no r de una poblaci´on de s objetos distintos sin reemplazo y sin importar el orden en el cual cada uno de estos r objetos se eligieron. Ejemplo 6 Considere el conjunto de n´ umeros {1, 2, . . . , n}. Entonces, si 1 ≤ r ≤ n, hay exactaumeros i1 , i2 , . . . , ir tal que 1 ≤ i1 ≤ i2 ≤ . . . ≤ ir ≤ n. De hecho, cada una mente nr elecciones de n´ de las (n)r elecciones de r n´ umeros distintos de 1 a n tiene r! reordenamientos, con exactamente un reordenamiento que satisface este requisito. Luego el n´ umero de elecciones distintas de n´ umeros que satisfacen este requisito es el mismo que el n´ umero de subconjuntos distintos de tama˜ no r que pueden ser extra´ıdos del conjunto {1, 2, . . . , n}. Ejemplo 7 Miembros del comit´e. El departamento de matem´ aticas consiste de 25 profesores de tiempo completo, 15 profesores asociados y 35 profesores asistentes. De la facultad del departamento se selecciona al azar un comit´e de 6 personas. Encuentre la probabilidad de que todos los miembros del comit´e sean profesores asistentes. En total hay 75 miembros de la facultad. El comit´e de 6 puede ser elegido de estas 75 personas en 75 comit´e pueden ser elegidos de los 35 en 35 6 maneras. Hay 35 profesores asistentes y los 6 del 6   75 maneras. Por lo tanto la probabilidad requerida es 35 / . Los c´ a lculos dan aproximadamente un 6 6 valor de 0.01; luego el personal de arrendamiento (profesores asociados y de tiempo completo) no debe preocuparse indebidamente de no tener representaci´ on alguna. Ejemplo 8 Considere una mano de poker de 5 cartas. encuentre la probabilidad de obtener cuatro de un solo tipo (i.e., cuatro cartas con el mismo valor) asumiendo que las cinco son elegidas al azar. Podemos resolver este problema como sigue. Hay 52 5 manos distintas, las cuales tienen la misma probabilidad de ser elegidas. Entonces Ω tendr´ a 52 5 puntos. Para que acontezca el evento deseado debemos tener cuatro cartas del mismo valor. Hay 13 distintas opciones para el valor que las cuatro cartas deber´ an tener, a saber 33

2.4. Particiones

2. An´alisis Combinatorio

2,3,4,5,6,7,8,9,10,J,Q,K,A. Para cada una de tales opciones (que determina cuatro de las cinco cartas de la mano deseada) hay otras 48 cartas de las cuales podemos elegir a la quinta carta de la mano. Ya que cualquiera de las 13 opciones de la mano de cuatro cartas iguales puede ser apareada con cualquiera de las 48 opciones de la quinta restantes en total hay (13)(48) maneras posibles de obtener una mano de poker con cuatro de las cinco cartas iguales. La probabilidad deseada es, por lo tanto (13)(48)  ≈ 2,40 × 10−4 . 52 5

Ejemplo 9 Suponga que n bolas se distribuyen en n cajas de tal manera que cada uno de los nn posibles arreglos sea equiprobable. Calcule la probabilidad de que solo la caja 1 est´e vac´ıa. El espacio de probabilidad en este caso consiste de nn puntos equiprobables. Sea A el evento en el cual s´ olo la caja 1 est´e vac´ıa. Esto puede ocurrir solamente si las n bolas se encuentran en las n − 1 cajas restantes, de manera que ninguna de estas est´e vac´ıa. Por lo tanto, exactamente una de estas (n − 1) cajas debe contener dos bolas, y las restantes (n − 2) cajas deben contener exactamente una bola. Sea Bj el evento en el que la caja j, j = 2, 3, . . . , n tenga dos bolas, la caja 1 no tenga ninguna bola y que las restantes (n − 2) cajas tengan cada una exactamente una bola. Entonces los Sn Bj son disjuntos y A = j=2 Bj . Para calcular P (Bj ) observamos que las dos bolas colocadas en  la caja j pueden ser elegidas de las n bolas en n2 maneras. Las (n − 2) bolas en las (n − 2) cajas restantes pueden ser reordenadas en (n − 2)! maneras. Por lo tanto el n´ umero de formas distintas en las que podemos poner dos bolas en la caja j, ninguna bola en la caja 1 y exactamente una bola  en cada una de las cajas restantes es n2 (n − 2)!. Por lo tanto n 2



P (Bj ) =

(n − 2)! nn

y como consecuencia P (A) =

2.4.

(n − 1)

n 2 (n nn



− 2)!

n 2



=

(n − 1)! . nn

Particiones

Una amplia variedad de problemas combinatorios que involucran muestras no ordenadas son del siguiente tipo. Una caja tiene r bolas rojas y b bolas negras. Una muestra aleatoria de tama˜ no n se extrae de la caja sin reemplazo. ¿Cu´al es la probabilidad de que dicha muestra contenga exactamente k bolas rojas (y por lo tanto n − k bolas negras)? Para resolver el problema discutimos como sigue. Estamos interesados solamente en el n´ umero total de bolas rojas y negras en la muestra y no en el orden en el cual estas son extra´ıdas. Esto es, estamos tratando con muestreo sin reemplazo y sin importar el orden. Por lo tanto, para este problema podemos tomar nuestro espacio de probabilidad a ser la colecci´on de todas las b+r de n tama˜ no n que pueden ser extra´ıdas de esta manera de las b + r bolas de la poblaci´on. Cada una de   −1 b+r estas b+r muestras tiene asignada la misma probabilidad . Ahora debemos calcular el n n n´ umero de formas en la cuales se puede extraer una muestra de tama˜ no n que tenga exactamente k bolas rojas. Las k bolas rojas pueden ser elegidas de las r bolas rojas totales en kr maneras sin importar el orden, y las n − k bolas negras pueden ser elegidas de las b bolas negras sin importar el  b orden en n−k maneras. Ya que se puede aparear cada elecci´on de k bolas rojas con cada elecci´ on  b  r de n − k bolas negras, hay un total de k n−k opciones posibles. Por lo tanto la probabilidad 34

2.4. Particiones

2. An´alisis Combinatorio

deseada es

r k

b n−k  r+b n



 .

La esencia de este tipo de problema es que la poblaci´on (en este caso las bolas) es particionada en dos clases (bolas rojas y negras), Una muestra aleatoria de un cierto tama˜ no se toma y requerimos la probabilidad de que la muestra contenga un n´ umero espec´ıfico de objetos de cada una de estas clases. En algunos problemas de este tipo las dos clases no son especificadas expl´ıcitamente, pero pueden ser reconocidas cuando se analiza el lenguaje del problema. Ejemplo 10 Una mano de poker tiene 5 cartas extra´ıdas de un mazo ordinario de 52 cartas. Encuentre la probabilidad de que la mano de poker tenga exactamente 2 reyes.  52 Para resolver el problema notemos que hay 5 manos de poker. En el mazo hay 4 reyes y otras 48 cartas. Esto parte las cartas en dos clases, reyes y no-reyes, teniendo cada una 4 y 48 elementos respectivamente. La mano de poker es una muestra de tama˜ no 5 extra´ıda sin reemplazo y sin importar el orden de estas 25 cartas. El problema entonces es el hallar la probabilidad de que en la muestra halla 2 miembros de la primera clase y 3 miembros de la segunda. Luego, la probabilidad requerida es   4 2

52 5 52 5

≈ 3,99 × 10−2 .

Ejemplo 11 Un mazo para jugar a las cartas tiene 4 grupos de 13 cartas cada uno, a saber tr´eboles, diamantes, corazones y espadas. (a)¿Cu´ al es la probabilidad de que en una mano de 5 cartas halla exactamente 3 tr´eboles? (b)¿Cu´ al es la probabilidad de que en una mano de 5 cartas halla exactamente 3 del mismo grupo? Para resolver el problema (a) notemos que las condiciones del problema parten al mazo de 52 cartas en dos clases, siendo la primera la clase de los “ tr´eboles ”, teniendo 13 miembros, y siendo la segunda la de “ otras excepto tr´eboles”, teniendo 39 miembros. Las 5 cartas constituyen una muestra de tama˜ no 5 de una poblaci´ on de 52 cartas, y el problema exige que 3 de estas 5 sean de la primera clase. Por lo tanto la probabilidad requerida es   13 39 p=

3 52 5

2

≈ 8,15 × 10−2 .

Para resolver (b), sea A1 el evento en el cual exactamente 3 cartas sean tr´eboles, A2 el evento en el cual exactamente 3 sean diamantes, A3 el evento en el cual exactamente 3 sean corazones y por u ´ltimo A4 el evento en el que exactamente 3 sean espadas. Entonces, como en la mano solamente hay 5 cartas, los eventos A1 , A2 , A3 y A4 son mutuamente disjuntos. Su uni´ on, A1 ∪ A2 ∪ A3 ∪ A4 es el evento en el cual exactamente 3 de las 5 cartas en la mano son del mismo grupo. Por lo tanto la probabilidad requerida es 4p. Ejemplo 12 Considere nuevamente una mano de poker de 5 cartas. ¿Cu´ al es la probabilidad de que sea casa llena? (i.e., un par de cartas con el mismo valor y un trio de cartas con el mismo valor). Asuma que las cartas se extraen aleatoriamente del mazo.  Para resolver este problema nuevamente notamos que hay 52 5 manos de poker posibles, siendo cada una igualmente probable. De estas debemos calcular el n´ umero de maneras en las cuales podemos tener un par y un trio. Considere el n´ umero de maneras en las cuales podemos escoger un trio particular, digamos, 3 ases, y un par particular digamos 2 reyes. El trio tiene 3 cartas que 35

2.4. Particiones

2. An´alisis Combinatorio

 ser´ an extra´ıdas de los cuatro ases sin observar el orden, y esto puede hacerse en 43 maneras. El par tiene dos cartas, las cuales ser´ an extra´ıdas de los cuatro reyes sin importar el orden. Podemos  hacer esto de 42 maneras. Entonces el n´ umero total de maneras de extraer una mano con un trio de ases y un par de reyes es      4 4 52 / = p. 3 2 5 Claramente, esta probabilidad ser´ıa la misma para cualquier par espec´ıfico y para cualquier trio en espec´ıfico. Ahora, el valor de las cartas del trio puede ser cualquiera de 13 posibles, y el valor de las cartas en el par puede ser cualquiera de los 12 restantes. Ya que cada uno de los 13 valores del trio puede asociarse con cada uno de los 12 valores del par, hay (13)(12) de tales opciones. Cada una de estas opciones constituye un evento disjunto con probabilidad p, por lo tanto la probabilidad requerida es (13)(12)(4)(6)  (13)(12)p = . 52 5

Ejemplo 13 En una mano de poker, ¿Cu´ al es la probabilidad de obtener exactamente dos pares? Aqu´ı, una mano como (2,2,2,2,x) no cuenta como dos pares, sino como una mano de cuatro cartas iguales. Para resolver el problema notamos que si una mano tiene dos pares, entonces dos de las cartas tienen un mismo valor x, otras dos cartas tienen otro valor en com´ un y, y 6= x, y la quinta carta tiene un valor distinto de x y de y. Ahora, tenemos 13 valores distintos. Los valores de los dos pares pueden ser elegidos de 13 11 2 maneras. La otra carta puede tener cualquiera de los restantes  4 valores. Las dos cartas con valor x pueden ser elegidas de las 4 cartas de ese valor en 2 maneras y an´ alogamente las dos cartas  con valor y. La carta restante de valor z puede ser elegida  de 4las  4cuatro  4 13 de ese valor en 1 = 4 maneras. Por lo tanto el n´ umero de opciones es 2 (11) 2 2 (4) y as´ı, la probabilidad deseada es    4 4 13 2 (11) 2 2 (4)  ≈ 4,75 × 10−2 52 5

En algunos problemas que involucran particiones, como el siguiente, las clases son imaginadas. Ejemplo 14 Suponga que una caja contiene r bolas numeradas del 1 al r. Se extrae una muestra aleatoria de tama˜ no n sin reemplazo y se anotan los n´ umeros de las bolas as´ı obtenidas. Estas bolas se regresan a la caja, y se extrae una segunda muestra aleatoria de tama˜ no m sin reemplazo. Encuentre la probabilidad de que las dos muestras tengan exactamente k bolas en com´ un. Para resolver este problema podemos distinguir como sigue. El efecto del primer muestreo es el partir las bolas en dos clases,viz., aquellas n seleccionas y aquellas r − n no seleccionadas. (Podemos imaginar que las n bolas seleccionadas en la primer muestra se pintaron de rojo antes de ser devueltas a la caja). El problema es entonces el encontrar la probabilidad de que la muestra de tama˜ no m contenga exactamente k bolas de la primera clase, as´ı la probabilidad deseada es   n r−n k

m−k  r m

.

Si el argumento se da a la inversa y si pensamos en que el segundo muestreo es el que marca las bolas, encontrar´ıamos que la probabilidad es   m r−m k

n−k  r n

.

Dejamos como ejercicio el mostrar que estas dos expresiones son iguales. 36

2.5. Uni´on de eventos*

2. An´alisis Combinatorio

Podemos extender f´acilmente nuestra consideraci´on de partir una poblaci´on en dos clases a partirla en m ≥ 2 clases. Suponga que tenemos un conjunto de r objetos tal que cada objeto sea de uno de m tipos posibles. La poblaci´on consiste de r1 objetos del tipo 1, r2 objetos del tipo 2,. . . rm objetos del tipo m, donde r1 + r2 + . . . + rm = r. Si se extrae una muestra aleatoria de tama˜ no n sin reemplazo de la poblaci´on de estos r objetos, ¿Cu´al es la probabilidad de que la poblaci´on contenga exactamente k1 objetos del tipo 1,. . .,km objetos del tipo m, donde k1 + k2 + . . . + km = n? Una vez m´as, el espacio de probabilidad es la colecci´on de todas las nr muestras equiprobables de tama˜ no n de esta poblaci´on. Los ki objetos del tipo i en la muestra pueden ser elegidos de los ri objetos de dicho tipo sin importar el orden en krii maneras. Por lo tanto la probabilidad de elegir la muestra con dicha composici´on es    rm r1 r2 k1 k 2 . . . k m  . r n

Ejemplo 15 En una mano de 13 cartas escogidas de un mazo ordinario, encuentre la probabilidad de que est´e compuesta exactamente de 3 tr´eboles, 4 diamantes, 4 corazones y 2 espadas. en este problema r = 52, n = 13. Sea la clase 1 la de tr´eboles, la clase 2 los diamantes, la tercera los corazones y la clase 4 las espadas. entonces m = 4, k1 = 3, k2 = 4, k3 = 4 y k4 = 2, por lo tanto, la probabilidad deseada es     13 3

13 4

13

4 52

13 2

.

13

Ejemplo 16 Problema del comit´e. En el problema del comit´e discutido con anterioridad, encuentre la probabilidad de que el comit´e de 6 este compuesto por 2 profesores de tiempo completo, 3 profesores asociados y 1 profesor asistente. Utilizando el mismo m´etodo que arriba, encontramos que la respuesta es    25 15 35 2

2.5.

3  1 75 6

.

Uni´ on de eventos*

Considere nuevamente la permutaci´on aleatoria de n objetos distintos. Decimos que ocurre un emparejamiento en la i-´ esima posici´ on si el i-´esimo objeto se encuentra en la i-´esimaSposici´ on. n Sea Ai el evento en el cual se halla un emparejamiento en la posici´on i. Entonces A = A es i i=1 S el evento en el cual existe al menos un emparejamiento. Podemos calcular P ( ni=1 Ai ) para n = 2 por la ecuaci´on (1.10) del Cap´ıtulo 1, la cual establece que P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ). Es posible el utilizar esta f´ormula para encontrar una similar para n = 3. Sean A1 , A2 y A3 tres eventos y pongamos B = A1 ∪ A2 . Entonces P (A1 ∪ A2 ∪ A3 ) = P (B ∪ A3 ) = P (B) + P (A3 ) − P (B ∩ A3 ). Ahora (2.4)

P (B) = P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) 37

2.5. Uni´on de eventos*

2. An´alisis Combinatorio

Como B ∩ A3 = (A1 ∪ A2 ) ∩ A3 = (A1 ∩ A3 ) ∪ (A2 ∩ A3 ) se sigue que (2.5)

P (B ∩ A3 ) = P (A1 ∩ A3 ) + P (A2 ∩ A3 ) − P (A1 ∩ A2 ∩ A3 ).

Sustituyendo (2.4) y (2.5) en la expresi´on para P (A1 ∩ A2 ∩ A3 ) vemos que P (A1 ∪ A2 ∪ A3 ) = [P (A1 ) + P (A2 ) − P (A1 ∩ A2 )] + P (A3 ) − [P (A1 ∩ A3 ) + P (A2 ∩ A3 ) − P (A1 ∩ A2 ∩ A3 )] = [P (A1 ) + P (A2 ) + P (A3 )] − [P (A1 ∩ A2 ) + P (A1 ∩ A3 ) + P (A2 ∩ A3 )] + P (A1 ∩ A2 ∩ A3 ) Para expresar mejor esta f´ormula, hacemos S1 = P (A1 ) + P (A2 ) + P (A3 ) S2 = P (A1 ∩ A2 ) + P (A1 ∩ A3 ) + P (A2 ∩ A3 ) S3 = P (A1 ∩ A2 ∩ A3 ). Entonces P (A1 ∪ A2 ∪ A3 ) = S1 − S2 + S3 .

(2.6)

Existe una generalizaci´on de (2.6) que es v´alida para todo entero positivo n. Sean A1 , A2 , . . . , An eventos. Definimos los n´ umeros Sr , 1 ≤ r ≤ n por X Sr = P (Ai1 ∩ · · · ∩ Air ). 1≤i1 0. Cada que sea necesario denotaremos la funci´on de densidad de X por fX para enfatizar que esta es la funci´on de densidad de la variable aleatoria X. Ejemplo 1 Sea X la variable aleatoria introducida al inicio de este cap´ıtulo en nuestra discusi´ on del lanzamiento de una moneda tres veces con, digamos, p =0.4. Entonces X tiene una densidad discreta f dada por f (−3) = .216,

f (−1) = .432,

f (1) = .288,

f (3) = .064,

y f (x) = 0 si x 6= −3, −1, 1, 3. Esta densidad puede ser representada en t´erminos de un diagrama, como se ilustra en la Figura 1. 48

3.1. Definiciones

3. Variables aleatorias discretas

.432 .288 .216 .064 -3

-2

-1

0

1

2

3

Figura 1 Ejemplo 2 Distribuci´ on Binomial. Considere n repeticiones independientes del sencillo experimento ´exito-fracaso discutido en la Secci´ on 1.5. Sea Sn que denote el n´ umero de ´exitos en n ensayos. Entonces Sn es una variable aleatoria que solo puede asumir los valores 0, 1, 2, . . . , n. En el Cap´ıtulo 1 mostramos que para 0 ≤ k ≤ n,   n k P (Sn = k) = p (1 − p)n−k ; k por lo tanto, la densidad f de Sn viene dada por    npx (1 − p)n−x x f (x) =   0

, x = 0, 1, 2, . . . , n, ,en caso contrario

Esta densidad, la cual se encuentra entre las m´as importantes que aparecen en la teor´ıa de la probabilidad, se llama densidad binomial con par´ametros n y p. La densidad del Ejemplo 1 solo es una densidad binomial con par´ametros n = 3 y p =0.4. Frecuentemente nos referimos a una variable aleatoria X que tiene una densidad binomial diciendo que X tiene distribuci´ on binomial (con par´ametros n y p si se quiere ser m´as preciso). Tambi´en se utilizan frases similares para otras variables aleatorias con una densidad nombrada. Como se explic´o en el Cap´ıtulo 2, la distribuci´on binomial aparece en el muestreo aleatorio con reemplazo. Para el muestreo aleatorio sin reemplazo, tenemos la siguiente. Ejemplo 3 Distribuci´ on hipergeom´ etrica Considere una poblaci´ on de r objetos de los cuales r1 son de un tipo y r2 = r − r1 ,son de un segundo tipo. Supongamos que una muestra aleatoria de tama˜ no n ≤ r se extrae de la poblaci´ on. Sea X el n´ umero de objetos del primer tipo en la muestra. Entonces X es una variable aleatoria cuyos posibles valores son 0,1,2,. . . , n. De los resultados de la Secci´ on 2.4, sabemos que   r1 r−r1 x

P (X = x) =

n−x  r n

,

x = 0, 1, 2, . . . , n.

Ahora podemos escribir r1 x



r−r1 n−x  r n



(r1 )x (r − r1 )n−x n! x!(n − x)! (r)n   n (r1 )x (r − r1 )n−x . = (r)n x =

49

3.1. Definiciones

3. Variables aleatorias discretas

Por lo tanto la densidad f de X puede ser escrita en las siguientes dos formas  r1 r−r1    ( x )(rn−x ) , x = 0, 1, 2, . . . , n, (n) f (x) =   0 ,en caso contrario. o

f (x) =

   n (r1 )x (r−r1 )n−x ,

x = 0, 1, 2, . . . , n,

  0,

en caso contrario

x

(r)n

Esta densidad se llama la densidad hipergeom´ etrica. Aqu´ı hay algunos otros ejemplos de variables aleatorias. Ejemplo 4 Variable aleatoria constante. Sea c un n´ umero real. Entonces la funci´ on X definida por X(ω) = c para todo ω es una variable aleatoria discreta, ya que el conjunto {ω ∈ Ω : X(ω) = c} es todo el conjunto Ω, y Ω es un evento. Claramente P (X = c) = 1, por lo tanto la densidad f de X es simplemente f (c) = 1 y f (x) = 0, x 6= c. Tal variable aleatoria se llama variable aleatoria constante. Es desde este punto de vista que una constante num´erica es considerada una variable aleatoria. Ejemplo 5 Variable aleatoria indicadora. Sea A un evento. Pongamos X(ω) = 1 si ω ∈ A y X(ω) = 0 si ω ∈ Ac . Entonces el evento A ocurre si y solo si X = 1, Esta variable aleatoria se llama la variable aleatoria indicadora de A porque el valor de X nos dice si es que ocurri´ o o no el evento A. Inversamente, si X es una variable aleatoria en un espacio de probabilidad (Ω, A , P ) que solo toma a 0 y 1 como valores, entonces X es la variable aleatoria indicadora del evento A = {ω : X(ω) = 1}. Sea p = P (X = 1). La densidad f de X est´ a dada entonces por f (0) = 1 − p,

f (1) = p,

y

f (x) = 0,

x 6= 0, 1.

Ejemplo 6 Considere el siguiente juego de azar. Un blanco circular de radio 1 se divide en n discos conc´entricos de radio 1/n, 2/n, . . . , n/n = 1, como se ilustra en la Figura 2 para el caso n = 5. Un dardo se lanza al azar en el c´ırculo, y si cae en la zona anular entre los c´ırculos de radio i/n e (i + 1)/n, se ganan n − i d´ olares, i = 0, 1, 2, . . . , n − 1. Sea que X denote la cantidad de dinero ganada. Encuentre la densidad de X.

Figura 2 50

3.1. Definiciones

3. Variables aleatorias discretas

El espacio de probabilidad para este experimento vendr´ a a ser el espacio de probabilidad uniforme en el disco de radio 1. Claramente X es una variable aleatoria discreta en este espacio con posibles valores 1, 2, . . . , n. El evento A = {X = n−i} ocurre si y solo si el dardo cae en la regi´ on acotada por los c´ırculos de radio i/n y (i + 1)/n. de acuerdo a nuestra discusi´ on en la Secci´ on 1,2 la probabilidad de A es el a ´rea de A dividida por el ´ area del disco unitario. Por lo tanto para i = 1, 2, . . . , n − 1 P (X = n − i) = P (A) h 2  i i 2 π i+1 − n n 2i + 1 = . = π n2 Poniendo n − i = x vemos que la densidad de X es    2(n−x)+1 , x = 1, 2, . . . , n, n2 f (x) =   0, en caso contrario. La densidad f de una variable aleatoria discreta X tiene las siguientes tres propiedades importantes: 1. ∀x ∈ R, f (x) ≥ 0 2. {x : f (x) 6= 0} es un subconjunto a los sumo numerable de R. Sea que {x1 , x2 , . . .} denote este conjunto. Entonces P 3. i f (xi ) = 1 Las propiedades (1) y (2) son inmediatas de la definici´on de la funci´on de densidad discreta de X. Para ver que (3) se cumple, observe que los eventos {ω : X(ω) = xi } son mutuamente ajenos y su uni´on es Ω. Por lo tanto ! [ X X f (xi ) = P (X = xi ) = P {X = xi } = P (Ω) = 1 i

i

i

Definici´ on 3 Una funci´ on real valuada f definida en R se llama una funci´ on de densidad discreta si satisface las propiedades (1), (2) y (3) arriba mencionadas. Es f´acil ver que cualquier funci´on de densidad discreta f es la funci´on de densidad de alguna variable aleatoria X. en otras palabras, dada f podemos construir un espacio de probabilidad (Ω, A , P ) y una variable aleatoria X definida en Ω cuya funci´on de densidad discreta sea f . De hecho,sea f dada y supongamos que {x1 , x2 , . . .} es el conjunto de valores donde f (x) 6= 0. Tomamos Ω = {x1 , x2 , . . .},A como todos los subconjuntos de Ω y P la medida de probabilidad definida en A como P ({ω}) = f (xi ) si ω = xi . La variable aleatoria X definida como X(ω) = xi si ω = xi es entonces tal variable aleatoria. para ver esto, notemos que {ω : X(ω) = xi } = {xi } y entonces P (X = xi ) = P ({xi } = f (xi ). El resultado anterior nos asegura que declaraciones como “Sea X una variable aleatoria con densidad discreta f ” siempre tienen sentido, a´ un si no especificamos directamente un espacio de probabilidad en el cu´al este definida X. Para ahorrar escritura de aqu´ı en adelante utilizaremos el t´ermino densidad en vez de densidad discreta a trav´es del resto de este cap´ıtulo. La noci´on de una variable aleatoria discreta es una manera conveniente de describir un experimento aleatorio que tenga un n´ umero finito o infinito numerable de resultados posibles. No hay 51

3.1. Definiciones

3. Variables aleatorias discretas

necesidad de preocuparnos por construir un espacio de probabilidad para el experimento. En vez de eso simplemente podemos introducir una variable aleatoria X tomando los valores {x1 , x2 , . . .} tal que X = xi si y solo si el resultado del experimento es el i-´esimo. Entonces, por ejemplo, en extraer una carta al azar de un mazo de n cartas, podemos poner X = i si la i-´esima carta fue extra´ıda. Entonces P (X = i) = n−1 , por lo tanto, podemos describir el experimento diciendo que observamos una variable aleatoria X tomando valores enteros 1,2,. . . , n y teniendo como funci´on de densidad a f ,, donde f (x) = n−1 para x = 1, 2, . . . , n y f (x) = 0 de otro modo. En general, el conducir un experimento que tenga una cantidad a lo sumo numerable de posibles resultados puede ser descrito observando el valor de una variable aleatoria X. De hecho, as´ı es como muchas veces el experimento aparece ante nosotros y frecuentemente es m´as f´acil pensar en el experimento en estos t´erminos en lugar de espacios de probabilidad. Como una ilustraci´on de esta idea considere el experimento de elegir un punto al azar de un subconjunto finito de R, digamos de s puntos distintos x1 , . . . , xs . Entonces la funci´on f definida por   s−1 , x = x , . . . , x , 1 s f (x) =   0, en caso contrario. Es claramente una funci´on de densidad discreta. Una variable aleatoria X que tenga a esta f por funci´on de densidad se dice ser uniformemente distribuida en S. El observar un valor de X corresponde a nuestra noci´on intuitiva de escoger un punto al azar de S. Ahora introduciremos otras dos densidades discretas, las cuales son muy u ´tiles para resolver ciertas clases de problemas cuya importancia se volver´a aparente m´as tarde. Ejemplo 7 Densidades geom´ etricas. Sea 0 < p < 1. Entonces, la funci´ on real valuada definida en R por

f (x) =

  p(1 − p)x ,

x = 0, 1, 2, . . .

  0,

en caso contrario

es una funci´ on de densidad discreta llamada densidad geom´ etrica con par´ ametro p. Para ver que f es una densidad, todo lo que se necesita verificar es que se cumple la condici´ on (3), ya que las condiciones (1) y (2) se satisfacen de inmediato. Pero (3) se sigue del hecho familiar P x −1 de que la suma de las serie geom´etrica ∞ x=0 (1 − p) es p . Ejemplo 8 Densidades binomiales negativas Sea α un n´ umero real positivo y sea 0 < p < 1. Una densidad estrechamente relacionada con la geom´etrica es la densidad binomial negativa con par´ ametros α y p definida por

(3.1)

f (x) =

  pα

−α x



(−1)x (1 − p)x ,

  0,

x = 0, 1, 2, . . . en caso contrario.

Para ver que esta es una densidad deberemos verificar que se cumplen las propiedades (1)-(3). Aqu´ı la propiedad (2) es obviamente cierta. Que (1) se cumple se puede ver como sigue. Para 52

3.1. Definiciones

3. Variables aleatorias discretas

cualquier entero no negativo x,   −α (−α)x (−α)(−α − 1) · · · (−α − x + 1) = = x x! x! x (−1) (α)(α + 1) · · · (α + x − 1) (α + x − 1)x = = (−1)x x!  x!  α + x − 1 = (−1)x . x Por lo tanto (3.2)

p

α



   −α x x α α+x−1 (1 − p)x . (−1) (1 − p) = p x x

Ya que el lado derecho de (3.2) es claramente no negativo, vemos que (1) se cumple. Para verificar (3), recuerde que la serie de Taylor para (1 − t)−α para −1 ≤ t ≤ 1 es  ∞  X −α (3.3) (1 − t)−α = (−t)x . x x=0

De (3.3) con t = 1 − p, vemos que p−α =

 ∞  X −α x=0

x

(−1)x (1 − p)x

P y por lo tanto x f (x) = 1. De (3.2) vemos que podemos escribir la densidad binomial negativa en esta forma alternativa   pα α+x−1(1 − p)x , x = 0, 1, 2, . . . x (3.4) f (x) =   0, en caso contrario. Para algunos prop´ ositos, esta forma es mucho m´ as u ´til que la dada en (3.1). Observe que la densidad geom´etrica con par´ ametro p es un caso especial de la densidad binomial negativa con par´ ametros α = 1 y p. Ejemplo 9 Densidades de PoissonSea λ > 0. La densidad de Poisson con par´ ametro λ se define como    λx e−λ , x = 0, 1, 2, . . . x! f (x) =   0, en caso contrario. Es obvio que la funci´ on satisface las propiedades (1) y (2) en la definici´ on de una funci´ on de densidad discreta. La propiedad (3) se sigue inmediatamente de la expansi´ on en serie de Taylor de la funci´ on exponencial, a saber, ∞ X λx λ e = . x! x=0

Se sabe que muchos tipos de fen´omenos de conteo aleatorios son aproximadamente distribuidos tipo Poisson. Algunos ejemplos de tales fen´omenos son el n´ umero de ´atomos de una sustancia radioactiva que se desintegran en un intervalo unitario de tiempo, el n´ umero de llamadas que entran en un intercambio telef´onico en un intervalo unitario de tiempo, el n´ umero de errores en una p´agina de un libro y el n´ umero de colonias de bacterias que crecen en un plato de petri que ha sido rociado con una suspensi´on bacterial. Un tratamiento completo de estos modelos requiere la noci´on de un Proceso de Poisson, el cu´al ser´a discutido en el Cap´ıtulo 9. 53

3.2. C´alculos con densidades

3.2.

3. Variables aleatorias discretas

C´ alculos con densidades

Hasta el momento hemos restringido nuestra atenci´on al c´alculo de P (X = x). Frecuentemente estamos interesados en calcular la probabilidad de {ω : X(ω) ∈ A}, donde A es alg´ un subconjunto de R que no conste de un solo punto. Sea A cualquier subconjunto de R y sea X una variable aleatoria discreta con valores posibles x1 , x2 , . . .. Entonces {ω : X(ω) ∈ A} es un evento. Para ver esto, observe que {ω|X(ω) ∈ A} =

(3.5)

[

{ω|X(ω) = xi },

xi ∈A

S donde xi ∈A significa la uni´on sobre todas las i tal que xi ∈ A. Usualmente el evento {ω : X(ω) ∈ A} se abrevia como X ∈ A y su probabilidad se denota por P (X ∈ A). Si −∞ ≤ a ≤ b ≤ ∞ y A es un intervalo con puntos terminales a y b, digamos (a, b], entonces frecuentemente se escribe P (a < X ≤ b) en lugar de P (X ∈ (a, b]). Se utilizan notaciones similares para otro tipo de intervalos con estos puntos terminales. Tambi´en se utiliza una notaci´on abreviada para las probabilidades condicionales. Entonces, por ejemplo, si A y B son dos subconjuntos de R escribimos P (X ∈ A|X ∈ B) para la probabilidad condicional del evento {X ∈ A} dado el evento {X ∈ B}. Sea f la funci´on de densidad de X. Podemos calcular P (X ∈ A) directamente de su densidad f en t´erminos de la f´ormula X (3.6) P (X ∈ A) = f (xi ) xi ∈A

P

donde xi ∈A significa la suma sobre todas las i tal que xi ∈ A. Esta f´ormula se sigue inmediatamente de (3.5), ya que los eventos P{ω|X(ω) = xi }, i = 1, 2, . . . son disjuntos. el lado izquierdo de (3.6) se abrevia usualmente como x∈A f (x). En t´erminos de esta notaci´on, (3.6) se vuelve X (3.7) P (X ∈ A) = f (x) x∈A

La funci´on F (t), −∞ < t < ∞ definida por F (t) = P (X ≤ t) =

X

f (x),

−∞ < t < ∞,

x≤t

se llama la funci´ on de distribuci´ on de la variable aleatoria X o de la densidad f . Se sigue inmediatamente de la definici´on de la funci´on de distribuci´on que P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a). Si X es una variable aleatoria con valores en los enteros, entonces F (t) =

dte X

f (x),

x=−∞

donde dte denota al mayor entero menor o igual a t (e.g., d2.6e = d2e = 2. Vemos que F es una funci´on no decreciente y que, para cualquier entero x, F tiene un salto de magnitud f (x) en x y F es constante en el intervalo [x, x + 1). Se obtendr´an m´as propiedades de las funciones de distribuci´ on en el Cap´ıtulo 5, desde un punto de vista m´as general. 54

3.2. C´alculos con densidades

3. Variables aleatorias discretas

Ejemplo 10 Haga S = {1, 2, . . . , 10} y sea X uniformemente distribuida en S, entonces f (x) = 1/10 para x = 1, 2, . . . , 10 y f (x) = 0 en cualquier otro caso. La funci´ on de distribuci´ on de X viene dada por F (t) = 0 para t < 0, F (t) = 1 para t > 10 y F (t) =

dte X

s(x) =

x=1

dte . 10

Se da la gr´ afica de esta funci´ on de distribuci´ on en la Figura 3. La probabilidad P (3 < X ≤ 5) puede ser calculada ya sea como 2 P (3 < X ≤ 5) = f (4) + f (5) = 10 o como 5 3 2 P (3 < X ≤ 5) = F (5) − F (3) = − = . 10 10 10 An´ alogamente obtenemos P (3 ≤ X ≤ 5) como P (3 ≤ X ≤ 5) = f (3) + f (4) + f (5) = o como P (3 ≤ X ≤ 5) = P (2 < X ≤ 5) = F (5) − F (2) =

3 10 5 2 3 − = . 10 10 10

1

P(X n, entonces la probabilidad de que no falle hasta despu´es del tiempo m + n, i.e., P (X > n + m|X > n) deber´ıa ser la misma que la probabilidad de empezar con un objeto nuevo al tiempo n y que no halla fallado hasta despu´es del tiempo n + m. Se puede tomar el hecho de que las causas de falla ocurran de manera homog´enea en el tiempo como significando que esta probabilidad solo dependa del n´ umero de periodos de tiempo que transcurren entre n y n + m, a saber m, pero que no depende de n. Por lo tanto P (X > n) deber´ıa satisfacer la ecuaci´on (3.8)

P (X > n + m|X > n) = P (X > m)

Ya que P (X > n + m|X > n) = P (X > m) =

P (X > n + m) , P (X > n)

podemos reescribir (3.8) como sigue (3.9)

P (X > n + m) = P (X > n)P (X > m),

n, m = 0, 1, 2, . . .

Haciendo n = m = 0 vemos que P (X > 0) = P (X > 0)2 , por lo tanto P (X > 0) es igual a 1 o a 0. Si P (X > 0) = 0 entonces P (X = 0) = 1,lo cual es imposible en nuestro caso y que X puede asumir valores que sean enteros positivos, por lo tanto P (X > 0) = 1. Pongamos p = P (X = 1), entonces P (X > 1) = 1 − p y de (3.9) vemos que P (X > n + 1) = (1 − p)P (X > n). Se sigue por iteraci´on en n que P (X > n) = (1 − p)n . Luego para n = 1, 2, . . . (3.10)

P (X = n) = P (X > n − 1) − P (X > n) = (1 − p)n−1 − (1 − p)n = p(1 − p)n − 1.

Si p = 0 entonces P (X = n) = 0 ∀n = 0, 1, 2, . . . y entonces P (X = +∞) = 1, i.e., el objeto nunca falla. No consideraremos este caso. De igual forma p = 1 es excluido porque entonces P (X = 1) = 1, por lo tanto el objeto siempre falla. 56

3.3. Vectores aleatorios discretos

3. Variables aleatorias discretas

Sea Y = X −1. Entonces Y asume los valores 0, 1, 2, . . . con probabilidades P (Y = n) = p(1−p)n . Observamos por lo tanto que Y tiene la distribuci´on geom´etrica con par´ametro p. Como lo hemos mostrado, la variable aleatoria Y = X −1 esta distribuida geom´etricamente. este ejemplo es t´ıpico en el sentido de que las variables aleatorias geom´etricamente distribuidas aparecen usualmente en conexi´on con el tiempo de espera para que ocurra alg´ un evento. Discutiremos esto con m´as detalle despu´es de que tratemos los ensayos independientes en la Secci´on 3.4.

3.3.

Vectores aleatorios discretos

Frecuentemente ocurre que estamos interesados en estudiar la relaci´on entre dos o m´as variables aleatorias. Por ejemplo, al extraer una muestra aleatoria de tama˜ no n de una caja con r bolas etiquetadas 1,2,. . . , r podr´ıamos estar interesados en conocer el n´ umero mayor Y de las bolas seleccionadas, as´ı como el n´ umero menor Z. Sea (Ω, A , P ) un espacio de probabilidad y sean X1 , X2 , . . . , Xr r variables discretas aleatorias definidas en este espacio, entonces, para cada punto ω ∈ Ω cada una de las variables aleatorias X1 , X2 , . . . , Xr r toman uno de sus posibles valores, lo cual ser´a indicado escribiendo X1 (ω) = x1 , X2 (ω) = x2 , . . . , Xr (ω) = xr . En vez de pensar que observamos r n´ umeros reales x1 , . . . , xr podemos pensar en que observamos un r-tuple x = (x1 , . . . , xr ), donde para cada ´ındice i, xi es uno de los valores que puede tomar la variable aleatoria Xi . Sea que Rr denote la colecci´on de todos los r-tuples de n´ umero reales. Usualmente a un punto x = (x1 , . . . , xr ) de Rr se le llama vector r-dimensional. Por lo tanto, para cada ω ∈ Ω, los r valores X1 (ω), . . . , Xr (ω) definen un punto X(ω) = (X1 (ω), X2 (ω), . . . , Xr (ω)) de R. Esto define una funci´on vectorial r-dimensional en Ω, X : Ω → Rr , la cual usualmente se escribe como X = (X1 , X2 , . . . , Xr ). A la funci´on X se le llama un vector aleatorio discreto r-dimensional. Hemos definido un vector aleatorio r dimensional en t´erminos de r variables aleatorias realvaluadas. Alternativamente se puede definir directamente un vector aleatorio r-dimensional como una funci´on X : Ω → Rr extendiendo casi textualmente la definici´on de variable aleatoria discreta real-valuada. Definici´ on 4 Un vector aleatorio discreto r-dimensional X es una funci´ on X de Ω a Rr que toma un conjunto a lo sumo numerable de valores x1 , x2 , . . . de tal manera que {ω : X(ω) = xi } es un evento para cada i. La funci´on de densidad discreta f para el vector aleatorio X se define por f (x1 , . . . , xr ) = P (X1 = x1 , . . . , Xr = xr ) o equivalentemente f (x) = P (X = x), 57

x ∈ Rr .

3.3. Vectores aleatorios discretos

3. Variables aleatorias discretas

La probabilidad de que X pertenezca al subconjunto A de Rr puede ser hallada utilizando la f´ormula an´aloga de (3.7), a saber, X P (X ∈ A) = f (x). x∈A

Como en el caso unidimensional, la funci´on f tiene las siguientes tres propiedades: 1. ∀x ∈ Rr , f (x) ≥ 0 2. {x : f (x) 6= 0} es un subconjunto de Rr a lo sumo numerable, que ser´a denotado por {x1 , x2 , . . .}. P 3. i f (xi = 1 Cualquier funci´on real f definida en Rr que posea estas tres propiedades ser´a llamada una funci´ on de densidad discreta r-dimensional. An´alogamente se aplica el argumento dado en el caso unidimensional para probar que cada funci´on de densidad discreta r-dimensional es la funci´on de densidad de alg´ un vector aleatorio. Hay una cierta cantidad de terminolog´ıa tradicional que acompa˜ na a los vectores aleatorios y a sus funciones de densidad. Sea X = (X1 , · · · , Xr ) un vector aleatorio r-dimensional con densidad f . A la funci´on f se le llama regularmente la densidad conjunta de las variables aleatorias X1 , X2 , · · · , Xr . La funci´on de densidad de la variable aleatoria Xi se llama la i-´esima densidad marginal de X o de f . Sean X y Y dos variables aleatorias discretas. para cualesquiera n´ umeros X y Y el conjunto {ω|X(ω) = x y Y (ω) = y} es un evento que usualmente denotaremos por {X = x, Y = y}. Suponga que los distintos valores de X son x1 , x2 , . . ., y que los distintos valores posibles de Y son y1 , y2 , . . .. Para cada x, los eventos {X = x, Y = yj }, j = 1, 2, . . . , son disjuntos y su uni´on es el evento {X = x}, por lo tanto   \ P (X = x) = P  {X = x, Y = yj } j

=

X

P (X = x, Y = yj ) =

X

P (X = x, Y = y).

y

j

Esta u ´ltima expresi´on resulta de utilizar la misma convenci´on de notaci´on introducida para las variables aleatorias en la secci´on 3.2. De manera similar ! \ P (Y = y) = P {X = xi Y = y} i

=

X

P (X = xi , Y = y) =

X

P (X = x, Y = y).

x

i

En otras palabras, si conocemos la densidad conjunta de dos variables aleatorias discretas X y Y entonces podemos calcular la densidad fX de X, sumando sobre y, y la densidad de Y sumando sobre x. Por lo tanto, en t´erminos de densidades, si f es la densidad conjunta de X y Y , entonces X (3.11) fX (x) = f (x, y) y

y (3.12)

fY (y) =

X x

Veamos algunos ejemplos. 58

f (x, y).

3.4. Variables aleatorias independientes

3. Variables aleatorias discretas

Ejemplo 12 Suponga que se extraen al azar dos cartas sin reemplazo de un mazo de tres cartas, numeradas 1,2,3. Sea X el n´ umero de la primer carta y sea Y el n´ umero en la segunda. Entonces la densidad conjunta f de X y Y viene dada por f (1, 2)=f (1, 3)=f (2, 1)=f (2, 3)=f (3, 1)=f (3, 2) = 1 − 6 y f (x, y) = 0 en cualquier otro caso. La primer densidad marginal, esto es, la densidad de X esta dada por fX (1) = f (1, 1) + f (1, 2) + f (1, 3) = 0 + 1/6 + 1/6 = 2/6 = 1/3 y de manera similar para x = 2 y 3. Por lo tanto fX (x) = 1/3, x = 1, 2, 3, y fX (x) = 0 en cualquier otro caso, como deber´ıa de ser. Ejemplo 13 Suponga que X y Y son variables aleatorias discretas que asumen los valores x y y, donde x = 1 o 2 y y = 1, 2, 3, 4, con probabilidades dadas en la siguiente tabla.

y

1

2

3

4

1

1/4

1/8

1/16

1/16

2

1/16

1/16

1/4

1/8

x

P Entonces fX (1) = 4y=1 f (1, y) = 1/4 + 1/8 + 1/16 + 1/16 = 1/2, y fX (2) = 1 − fX (1) = 1/2, por lo tanto X tiene distribuci´ on uniforme en 1, 2. De manera an´ aloga fY (1) = 1/4 + 1/16 = 5/16, fY (2) = 3/16, fY (3) = 5/16, fY (4) = 3/16. Como debe ser

3.4.

Variables aleatorias independientes

Considere los experimentos de lanzar una moneda y tirar un dado. Intuitivamente creemos que sea cual sea el resultado del lanzamiento de la moneda no deber´ıa tener influencia alguna sobre el resultado del lanzamiento del dado, y viceversa. Deseamos ahora construir un modelo de probabilidad que refleje estas observaciones. Sea X una variable aleatoria discreta que sea 1 o 0 seg´ un la moneda caiga ´aguila o sol, i.e., tal que el evento {X = 1} represente el resultado de que la moneda caiga ´aguila y el evento {X = 0} represente el resultado de que esta caiga sol. De manera similar representamos el resultado del lanzamiento del dado por una variable aleatoria Y que toma el valor 1, 2, . . . , 6 si es que la cara superior en el lanzamiento del dado resulta el n´ umero 1,2,. . ., o 6. El resultado del experimento combinado se puede expresar como el vector aleatorio (X, Y ). Podemos formular precisamente nuestra noci´on intuitiva de que el resultado del lanzamiento de la moneda y el lanzamiento del dado no influyen entre si diciendo que si x = 1, 0 y si y = 1, 2, . . . , 6, entonces los eventos {X = x} y {Y = y} deben ser independientes. Por lo tanto, el vector aleatorio (X, Y ) deber´ıa tener densidad conjunta f (x, y) dada por   P (X = x)P (Y = y), x = 0, 1, y = 1, 2, . . . , 6 f (x, y) =   0, en caso contrario. En otras palabras, la densidad discreta f de X y Y deber´ıa estar dada por f (x, y) = fX (x)fY (y). 59

3.4. Variables aleatorias independientes

3. Variables aleatorias discretas

Definici´ on 5 Sean X1 , X2 , . . . , Xr r variables aleatorias discretas con densidades f1 , f2 , . . . , fr respectivamente. Estas variables aleatorias se dicen ser mutuamente independientes si su funci´ on de densidad conjunta f esta dada por f (x1 , x2 , . . . , xr ) = f1 (x1 )f2 (x2 ) · · · fr (xr ).

(3.13)

Las variables aleatorias se dicen ser dependientes si no son independientes. Como en el caso del experimento combinado de lanzar una moneda y tirar un dado, la noci´ on de variables aleatorias independientes forma una manera conveniente para formular precisamente nuestras nociones intuitivas de que los experimentos son independientes entre si. Considere dos variables aleatorias discretas independientes con densidades fX y fY respectivamente. Entonces para cualesquiera dos subconjuntos A, B de R P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B).

(3.14) Para ver esto note que

P (X ∈ A, Y ∈ B) =

XX

fX,Y (x, y)

x∈A y∈B

=

XX

fX (x)fY (y)

x∈A y∈B

#

" =

X

fX (x) 

x∈A

 X

fY (y)

y∈B

= P (X ∈ A)P (Y ∈ B). La f´ormula (3.14) f´acilmente se extiende de 2 a r, r ≥ 3 variables aleatorias independientes. Por lo tanto, si A1 , A2 , . . . , Ar son r subconjuntos de R entonces P (X1 ∈ A, X2 ∈ A2 , . . . , Xr ∈ Ar ) (3.15)

= P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xr ∈ Ar ) =

r Y

P (Xk ∈ Ak ).

k=1

Ejemplo 14 Sean X y Y variables aleatorias independientes geom´etricamente distribuidas con par´ ametro p. (a)Encuentre la distribuci´ on de min (X, Y ). (b)Halle P (min (X, Y ) = X) = P (Y ≥ X). (c)Encuentre la distribuci´ on de X + Y . (d)Halle P (Y = y|X + Y = z) para y = 0, 1, . . . , z. Para resolver (a) observemos que para un entero no negativo z P (min (X, Y ) ≥ z) = P (X ≥ z, Y ≥ z) = P (X ≥ z)P (Y ≥ z), por lo tanto, por el Ejemplo 11 P (min (X, Y ) ≥ z) = (1 − p)z (1 − p)z = (1 − p)2z . Se sigue del Ejemplo 11 que min (X, Y ) tiene una distribuci´ on geom´etrica con par´ ametro 1 − (1 − p)2 = 2p − p2 . 60

3.4. Variables aleatorias independientes

3. Variables aleatorias discretas

Para resolver (b) observamos que P (Y ≥ X) = =

∞ X x0 ∞ X

P (X = x, Y ≥ X) =

∞ X

P (X = x, Y ≥ x)

x=0 ∞ X

P (X = x)P (Y ≥ x) =

x=0 ∞ X

=p

p(1 − p)x (1 − p)x

x=0

(1 − p)2x =

x=0

p p = . 2 1 − (1 − p) 2p − p2

Para resolver (c), sea z un entero no negativo, entonces P (X + Y = z) = = = =

z X x=0 z X x=0 z X x=0 z X

P (X = x, X + Y = z) P (X = x, Y = z − x) P (X = x)P (Y = z − x) p(1 − p)x p(1 − p)z−x

x=0

= (z + 1)p2 (1 − p)z . La soluci´ on a (d) est´ a dada por P (Y = y|X + Y = z) = = = = =

P (Y = y, X + Y = z) P (X + Y = z) P (X = z − y, Y = y) P (X + Y = z) P (X = z − y)P (Y = y) P (X + Y = z) p(1 − p)z−y p(1 − p)y (z + 1)p2 (1 − p)z 1 . 1+z

Considere alg´ un experimento (como el lanzar un dado) que posea solamente un n´ umero finito o infinito numerable de resultados posibles. Entonces, como ya se ha explicado, podemos pensar en este experimento como si observ´aramos el valor de una variable aleatoria discreta X. Suponga que el experimento se repite n veces. El experimento combinado puede ser descrito como si observ´aramos los valores de las variables aleatorias X1 , X2 , . . . , Xn , donde Xi es el resultado del i-´esimo experimento. Si se repiten los experimentos bajo condiciones id´enticas, presumiblemente el mecanismo de oportunidades permanezca id´entico, por lo tanto deber´ıamos requerir que estas n variables aleatorias tuvieran todas la misma densidad. La noci´on intuitiva de que los experimentos repetidos no influyan entre si puede ser formulada ahora pidiendo que las variables aleatorias X1 , X2 , . . . Xn sean mutuamente independientes. Entonces, en resumen, podemos utilizar n variables aleatorias independientes X1 , X2 , . . . , Xn con densidad com´ un f para representar n repeticiones de un experimento que posea un n´ umero finito o infinito numerable de resultados posibles. 61

3.4. Variables aleatorias independientes

3. Variables aleatorias discretas

Los experimentos aleatorios m´as simples son aquellos que solamente poseen dos resultados posibles, los cuales podemos nombrar como ´exito y fracaso. Al lanzar una moneda, por ejemplo, podemos pensar como un ´exito el obtener ´aguila, mientras que al extraer una carta de un mazo de r cartas podemos considerar el extraer un as como un ´exito. Sup´ongase que hacemos n repeticiones independientes de nuestro simple experimento. Podemos entonces describir la situaci´on haciendo que X1 , X2 , . . . Xn sean n variables aleatorias indicadoras independientes tales que Xi = 1 o 0 seg´ un el i-´esimo ensayo resulte en un ´exito o en un fracaso. En la literatura, los ensayos que pueden resultar ya sea en ´exito o en fracaso son nombrados ensayos de Bernoulli, y la situaci´on descrita arriba se plantea diciendo que efectuamos n ensayos de Bernoulli con probabilidad de ´exito com´ un p = P (Xi = 1). Dentro de este contexto, una variable aleatoria que toma los valores 1 y 0 con probabilidades p y 1 − p respectivamente se dice que tiene una densidad de Bernoulli con par´ametro p. Se puede describir el resultado de efectuar n ensayos de Bernoulli con el vector aleatorio X = (X1 , X2 , . . . , Xn ). La informaci´on almacenada en este vector dice exactamente que ensayos fueron ´exito y cuales resultaron fracaso. Frecuentemente, no se requiere tal informaci´on tan precisa y todo lo que queremos saber es el n´ umero Sn de ensayos que fueron ´exito entre los n ensayos. En el Ejemplo 2 mostramos que Sn pose´ıa una distribuci´on binomial con par´ametros n y p. Observe que Sn = X1 + · · · + Xn . Podemos pensar cualquier variable aleatoria Y con distribuci´on binomial con estos mismos par´ametros como la suma de n variables aleatorias de bernoulli X1 , . . . , Xn cada una con par´ametro p. Ahora consideraremos repeticiones independientes de un experimento que tenga un n´ umero finito n ≥ 2 de resultados posibles.

3.4.1.

La distribuci´ on multinomial

Considere un experimento, como el lanzar un dado, el cual puede conllevar solo a un numero finito r de resultados. Podemos representar este experimento diciendo que observamos una variable aleatoria Y que asume los valores 1, 2, . . . , r, de manera que el evento {Y = i} representa el hecho de que en el experimento se obtuvo el i-´esimo resultado. Sea pi = P (Y = i). Si efectuamos un experimento que conste de n repeticiones independientes, podemos representar el resultado de estos n ensayos como un vector aleatorio n-dimensional (Y1 , . . . , Yn ), donde la variable aleatoria Yj corresponde al j−´esimo resultado. Aqu´ı las variables aleatorias Y1 , . . . , Yn son mutuamente independientes y P (Yj = i) = pi , j = 1, 2, . . . , n. El vector aleatorio (Y1 , . . . , Yn ) nos dice los resultados de los n ensayos. Tal como para los resultados en el caso r = 2, frecuentemente no estamos interesados en tal informaci´on tan detallada, solo queremos saber cuantos de los n ensayos dieron como resultado cada uno de los posibles valores. Sean Xi , i = 1, 2, . . . , r que denoten el n´ umero de ensayos que conllevaron al i-´esimo resultado. Entonces Xi = xi si y solo si exactamente xi de las n variables aleatorias Y1 , . . . , Yn asumen el valor i, i.e., exactamente xi de los n ensayos conllevaron al i-´esimo resultado. Por ejemplo, para r = 3, n = 5, si Y1 = 2, Y2 = 3, Y3 = 3, Y4 = 2, y Y5 = 2, entonces X1 = 0, X2 = 3, y X3 = 2. Ahora calcularemos la densidad conjunta de X1 , . . . , Xr . Para este fin, sean x1 , x2 , . . . , xr r enteros no negativos con x1 + x2 + · · · + xr = n. Un pensamiento moment´aneo muestra que como las variables aleatorias Y1 , . . . , Yn son independientes con densidad com´ un, cada elecci´on espec´ıfica 62

3.4. Variables aleatorias independientes

3. Variables aleatorias discretas

de x1 de ellas teniendo el valor 1, x2 de ellas teniendo el valor 2,. . ., xr de ellas con el valor r tiene la misma probabilidad, a saber px1 1 px2 2 · · · pxr r . As´ı, si C(n; x1 , . . . , xr ) denota el n´ umero de elecciones posibles, entonces vemos que P (X1 = x1 , . . . , Xr = xr ) = C(n; x1 , . . . , xr )px1 1 · · · pxr r . El c´alculo de C(n; x1 , . . . , xr ) es un problema del an´alisis combinatorio que puede ser resuelto f´acilmente con los m´etodos del Cap´ıtulo 2. La manera m´as simple de hacer esto es el pensar en los r valores 1, 2, . . . , r como r cajas y en los n ensayos como n cajas. Entonces C(n; x1 , . . . , xr ) es el n´ umero de maneras en las cuales podemos colocar a las n bolas en las r cajas de manera tal que tengamos exactamente x1 bolas en la caja 1,. . ., y exactamente xr bolas en la caja r. Si esto es as´ı,  entonces en la caja 1 tenemos x1 bolas. Estas x1 bolas pueden ser elegidas de las n en xn1 maneras. Las restantes n − x1 bolas deben de ser colocadas en las r − 1 cajas 2, . . . , r de tal manera que se tengan x2 bolas en la caja 2,. . . y xr bolas en la caja r. Entonces   n (3.16) C(n; x1 , . . . , xr ) = C(n − x1 ; x2 , . . . , xr ). x1 Se sigue ahora por inducci´on sobre r que (3.17)

C(n; x1 , . . . , xr ) =

n! . (x1 !)(x2 !) · · · (xr !)

De hecho, para r = 1 no hay nada que probar. Asumamos que (3.17) se cumple para r − 1 cajas. Entonces de (3.16) observamos que n! (n − x1 )! (x1 !)(n − x1 )! (x2 !) · · · (xr !) n! = (x1 !) · · · (xr !)

C(n; x1 , . . . , xr ) =

como se deseaba. Por lo tanto, la densidad conjunta de X1 , . . . , Xr esta dada por  Pr   n! x1 xr + i=1 xi = n, (x1 !)···(xr !) px1 · · · pxr , xi ∈ Z : (3.18) f (x1 , · · · , xr ) =   0, en caso contrario. Esta densidad se llama la densidad multinomial con par´ametros n y p1 , . . . , pr . Observemos de una vez que las r variables aleatorias X1 , . . . , Xr no son independientes. De hecho, como X1 + · · · + Xr = n, cualesquiera r − 1 de ellas determinan a la r-´esima. Esto, m´ as el hecho de que p1 + · · · + pr = 1 se utiliza en algunas ocasiones para expresar a la distribuci´ on multinomial de una manera distinta. Sean x1 , x2 , . . . , xr−1 r − 1 enteros no negativos tales que x1 + · · · + xr−1 ≤ n. Entonces P (X1 = x1 , . . ., Xr−1 = xr−1 ) (3.19)

n! × (x1 !) · · · (xr−1 !)(n − x1 − · · · − xr−1 )! × pxx11 · · · pxxr−1 (1 − p1 − · · · − pr−1 )n−x1 −···−xr−1 . r−1 =

63

3.4. Variables aleatorias independientes

3. Variables aleatorias discretas

Esta forma es conveniente cuando estamos interesados en los primeros r−1 resultados y pensamos en el r-´esimo resultado como el que no es “ninguno de los r −1”. Entonces, al lanzar un dado podr´ıamos estar interesados en saber si apareci´o un 2, 4 o 6. El experimento tendr´ıa entonces cuatro posibles resultados, “2,” “4,” “6,” y “no (2,4,6).”. Sea k un entero no negativo, k ≤ r. Un simple argumento de probabilidad nos muestra que para x1 , x2 , . . . , xk enteros no negativos tales que x1 + · · · + xk ≤ n, P (X1 = x1 , . . ., Xk = xk ) (3.20)

=

n! × (x1 !) · · · (xk !)[n − (x1 + · · · + xk )]!

× pxx11 · · · pxxkk (1 − (p1 + · · · + pk ))n−(x1 +···+xk ) . Para ver esto, observe que al realizar los n ensayos ahora solamente estamos interesados en los k + 1 resultados “1”, “2”, . . .,“k”, y “no (1, 2, . . . , k).” Entonces en esencia tenemos n ensayos repetidos de un experimento con k + 1 resultados, siendo Xi el n´ umero de veces que el i-´esimo resultado ocurri´o, i = 1, 2, . . . , k. La ecuaci´on (3.20) ahora se sigue de (3.19) con r − 1 = k.

3.4.2.

Aproximaci´ on de Poisson a la distribuci´ on binomial

Hay una conexi´on importante entre la distribuci´on binomial y la distribuci´on de Poisson. Suponga, por ejemplo, que efectuamos n ensayos de Bernoulli con probabilidad de ´exito λ/n en cada ensayo. Entonces la probabilidad de obtener Sn = k ´exitos en los n ensayos est´a dada por   n P (Sn = k) = (pn )k (1 − pn )n−k k     λk (n)k λ n λ −k = 1− 1− . k! nk n n Ahora, cuando n → ∞, (n)k /nk → 1, (1 − λ/n)n → e−λ , y (1 − λ/n)−k → 1. Como consecuencia,   n λk −λ (pn )k (1 − pn )n−k = (3.21) l´ım e . n→∞ k k! En la deducci´on de (3.21) tenemos npn = λ. Actualmente (3.21) se cumple cada vez que npn → λ cuando n → ∞. La ecuaci´on (3.21) es utilizada en las aplicaciones para aproximar la distribuci´on binomial por la distribuci´on de Poisson cuando la probabilidad de ´exito p es peque˜ na y n es grande. Esto se hace aproximando la probabilidad binomial P (Sn = x) en t´erminos de f (x), donde f es la densidad de Poisson con par´ametro λ = np. La aproximaci´on es demasiado buena si np2 es peque˜ no. El siguiente ejemplo ilustra el uso de esta t´ecnica. Ejemplo 15 Una m´ aquina produce tornillos, 1 % de los cuales son defectuosos. Encuentre la probabilidad de que en una caja de 200 tornillos no halla ninguno defectuoso. Aqu´ı tenemos n = 200 ensayos de Bernoulli, con probabilidad de ´exito p = 0,01. La probabilidad de que no halla tornillos defectuosos es (1 − ,01)200 = (,99)200 = ,1340. La aproximaci´ on de Poisson a esto est´ a dada por e−200(,01) = e−2 = ,1353. 64

3.5. Sucesiones infinitas de ensayos de Bernoulli

3. Variables aleatorias discretas

El hecho de que la distribuci´ on de Poisson pueda aparecer como el l´ımite de las distribuciones binomiales tiene importantes consecuencias te´ oricas. Es una justificaci´ on para desarrollar modelos basados en procesos de Poisson, los cuales ser´ an discutidos en el Cap´ıtulo 9, El uso de la aproximaci´ on de Poisson como mecanismo ahorrador de tiempo al calcular probabilidades binomiales de de importancia secundaria, ya que las probabilidades binomiales son raramente calculadas.

3.5.

Sucesiones infinitas de ensayos de Bernoulli

Considere que se efect´ ua repetidamente un experimento del tipo ´exito-fracaso, con probabilidad de ´exito p hasta que aparezca el primer ´exito. Para cualquier n´ umero prescrito de ensayos n existe la probabilidad no cero (1 − p)n de que no ocurra ning´ un ´exito. Entonces, al considerar el n´ umero de ensayos hasta que aparezca el primer ´exito, no podemos limitarnos a un n´ umero prescrito de ensayos, en vez de ello debemos considerar una sucesi´on de ensayos sin fin. Un n´ umero dado n de ensayos constituyen n ensayos de Bernoulli, representados por n variables aleatorias independientes de Bernoulli X1 , . . . , Xn . Para representar una sucesi´on infinita de ensayos de Bernoulli consideremos una sucesi´on infinita {Xn }, n ≥ 1 de variables aleatorias independientes de Bernoulli con el mismo par´ametro p. En general, las variables aleatorias X1 , X2 , . . . , se dicen independiente si para cualquier entero positivo n, las variables aleatorias X1 , . . . , Xn son mutuamente independientes. Se puede mostrar que, dada cualquier densidad discreta f existe un espacio de probabilidad (Ω, A , P ) sobre el cual est´an definidas variables aleatorias mutuamente independientes X1 , X2 , . . . cada una teniendo densidad f . Tomaremos entonces como nuestro modelo para efectuar una sucesi´on ilimitada de ensayos de Bernoulli, una sucesi´on infinita {Xn }, n ≥ 1 de variables aleatorias independientes de Bernoulli tales que P (Xn = 1) = p, n ≥ 1. Interpretaremos Xn = 1 como que el n-´esimo ensayo resulto en un ´exito, y Xn = 0 como que resulto en un fracaso. Considere el n´ umero de ensayos W1 hasta observar el primer ´exito. La variable aleatoria W1 puede asumir los valores 1, 2, . . .. El evento W1 = n ocurre si y solo si los primeros n − 1 ensayos fueron fallidos y el n-´esimo ensayo fue exitoso. Por lo tanto {W1 = n} = {X1 = 0, . . . , Xn−1 = 0, Xn = 1}. Se sigue que P (W1 = n) = P (X1 = 0, . . . , Xn−1 = 0, Xn = 1) = P (X1 = 0) · · · P (Xn−1 = 0)P (Xn = 1) = (1 − p)n−1 p. Como consecuencia (3.22)

P (W1 − 1 = n) = p(1 − p)n .

Entonces W1 − 1 est´a distribuida geom´etricamente con par´ametro p. Sea r ≥ 1 un entero y sea Tr que denote el n´ umero de ensayos hasta que resulte el r-´esimo ´exito (de tal manera que el r-´esimo ´exito ocurra en el ensayo Tr ). Entonces Tr es una variable aleatoria que puede asumir solamente los valores enteros r, r + 1, . . .. El evento {Tr = n} ocurre si y solo si hay un ´exito en el n-´esimo ensayo y durante los primeros n − 1 ensayos hubo exactamente r − 1 ´exitos. Entonces {Tr = n} = {X1 + · · · + Xn−1 = r − 1} ∩ {Xn = 1}. 65

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

Ya que los dos eventos a la derecha son independientes y X1 +· · ·+Xn−1 tiene distribuci´on binomial con par´ametros n − 1 y p, vemos que para n = r, r + 1, . . . P (Tr = n) = P (X1 + · · · + Xn−1 )P (Xn = 1)   n − 1 r−1 = p (1 − p)n−r p r−1   n−1 r = p (1 − p)n−r . r−1 Como consecuencia  (3.23)

P (Tr − r = n) =

 r+n−1 r p (1 − p)n . r−1

De las ecuaciones (3.4) y (3.23) vemos que Tr −r tiene la densidad binomial negativa con par´ametros α = r y p. Sea T0 = 0 y para cualquier entero r ≥ 1 sea Tr como anteriormente. Definimos Wi = Ti − Ti−1 , i = 1, 2, . . .. Entonces Wi es el n´ umero de ensayos despu´es del (i − 1)-´esimo ´exito hasta el i-´esimo ´exito. Ahora mostraremos que para cualquier entero r ≥ 1 las variables aleatorias W1 − 1, W2 − 1, . . . , Wr − 1 son mutuamente independientes y que tienen la misma densidad geom´etrica con par´ametro p. Para ver esto sean n1 , n2 , . . . , nr r enteros positivos cualesquiera. Entonces el evento {W1 = n1 , . . . , Wr = nr } ocurre si y solo si entre los primeros n1 + · · · + nr ensayos son fracasos, excepto por los ensayos n1 , n 1 + n2 , . . . , n 1 + · · · + nr , los cuales son ´exitos. Ya que los ensayos son mutuamente independientes con probabilidad de ´exito p vemos que P (W1 = n1 , . . . , Wr = nr ) = (1 − p)n1 −1 p(1 − p)n2 −1 p · · · (1 − p)nr −1 p r Y = [p(1 − p)ni −1 ]. i=1

Entonces las variables aleatorias W1 − 1, W2 − 1, . . . , Wr − 1 son mutuamente independientes y geom´etricamente distribuidas con par´ametro p. Claramente ahora Tr − r = (W1 − 1) + · · · + (Wr − 1), tenemos as´ı que Tr − r es la suma de r variables aleatorias independientes geom´etricamente distribuidas. Anteriormente hemos encontrado que Tr − r tiene distribuci´on binomial negativa con par´ametros. Hemos establecido entonces el interesante e importante hecho de que la distribuci´ on de la suma de r variables aleatorias independientes id´enticamente distribuidas con distribuci´ on geom´etrica con par´ ametro p es la distribuci´ on binomial negativa con par´ ametros r y p. Ulteriores propiedades de las sucesiones infinitas de ensayos independientes de Bernoulli ser´ an discutidas en los ejercicios.

3.6.

Sumas de variables aleatorias independientes

En esta secci´on discutimos los m´etodos para hallar la distribuci´on de la suma de un n´ umero finito de variables aleatorias discretas independientes. Comencemos considerando dos de tales variables X y Y. 66

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

Asumimos entonces que X y Y son variables aleatorias discretas independientes. Sean x1 , x2 , . . . los posibles valores para X. Para cualquier z, el evento {X + Y = z} es el mismo que el evento [ {X = xi , Y = z − xi }. i

Ya que los eventos {X = xi , Y = z − xi } son disjuntos para distintos valores de i, se sigue que X P (X + Y = z) = P (X = xi , Y = z − xi ) i

=

X

P (X = xi )P (Y = z − xi )

i

=

X

fX (xi )fY (z − xi ).

i

En otras palabras (3.24)

FX+Y (z) =

X

fX (x)fY (z − x).

x

Si X y Y son variables aleatorias con valores enteros, entonces X + Y tambi´en lo es. en este caso podemos interpretar la ecuaci´on (3.24) a ser v´alida cuando z es un entero y la variable x en el lado derecho de (3.24) recorre todos los enteros. Una especializaci´on m´as es u ´til. Suponga que X y Y asumen solamente valores enteros no negativos. Entonces X + Y tambi´en asume valores enteros no negativos. Si z es un entero no negativo, entonces fX (x)fY (z − x) = 0 a menos que x sea uno de los valores 0, 1, . . . , z. As´ı, bajo estas consideraciones, podemos escribir (3.24) como (3.25)

fX+Y (z) =

z X

fX (x)fY (z − x).

x=0

Aunque la ecuaci´on (3.25) para calcular la densidad de X +Y , usualmente es m´as sencillo utilizar funciones generadoras de probabilidad. A continuaci´on describiremos tales funciones y daremos algunas aplicaciones importantes sobre su uso en el c´alculo de la densidad de la suma de variables aleatorias independientes. Definici´ on 6 Sea X una variable aleatoria con valores en los enteros no negativos. La funci´ on generadora de probabilidad ΦX de X se define como ΦX (t) =

∞ X

P (X = x)tx =

x=0

∞ X

fX (x)tx ,

−1 ≤ t ≤ 1.

x=0

Ahora calcularemos ΦX (t) en tres casos espec´ıficos. Ejemplo 16 Distribuci´ on binomial. Sea X una variable aleatoria discreta distribuida binomialmente con par´ ametros n y p. Entonces   n x P (X = x) = p (1 − p)n−x x y por lo tanto ΦX (t) =

n X

x

P (X = x)t =

x=0

n   X n x=0

67

x

(pt)x (1 − p)n−x .

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

De la f´ ormula de la expansi´ on binomial n   X n

n

(a + b) =

x

x=0

ax bn−x ,

concluimos que ΦX (t) = (pt + 1 − p)n .

(3.26)

Ejemplo 17 Distribuci´ on binomial negativa. Sea X una variable aleatoria discreta que tenga distribuci´ on binomial negativa con par´ ametros α y p. Entonces   α −α P (X = x) = p (1−)x (1 − p)x x y por lo tanto ∞ X

 −α ΦX (t) = p (−1)x (1 − p)x tx x x=0  ∞  X −α α =p [−t(1 − p)]x . x α



x=0

De la expansi´ on en serie de Taylor −α

(1 + s)

=

 ∞  X −α x

x=0

sx ,

con s = −t(1 − p), se sigue que  (3.27)

ΦX (t) =

p 1 − t(1 − p)

α .

Ejemplo 18 Distribuci´ on de Poisson Sea X una variable aleatoria con distribuci´ on de Poisson con par´ ametro λ. Entonces λx e−λ P (X = x) = x! y as´ı ΦX (t) = e−λ

∞ X (λt)x x=0

x!

.

Haciendo s = λt en la expansi´ on en serie de Taylor s

e =

∞ x X s x=0

x!

vemos que (3.28)

ΦX (t) = eλt e−λ = eλ(t−1) . 68

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

Sean X y Y variables aleatorias independientes con valores en los enteros no negativos. Entones (3.29)

ΦX+Y (t) = ΦX (t)ΦY (t).

Para ver esto, note que de la ecuaci´on (3.25) ΦX+Y (t) =

∞ X

fZ (z)tz

z=0

=

∞ X

tz

z=0

= =

∞ X

z X

fX (x)fY (z − x)

x=0

fX (x)t

x

∞ X

x=0

z=x

∞ X

∞ X

fX (x)tx

x=0

fY (z − x)tz−x fY (y)ty

y=0

= ΦX (t)ΦY (t), que es el resultado deseado. Por inducci´on se sigue f´acilmente de (3.29) que si X1 , . . . , Xr son variables aleatorias independientes con valores en los enteros no negativos, entonces (3.30)

ΦX1 +···+Xr (t) = ΦX1 (t) · · · ΦXr (t).

Las conclusiones del siguiente teorema pueden ser demostradas m´as f´acilmente con la “t´ecnica de la funci´on generadora”, la cu´al se basa en el hecho de que si ∞ X x=0

ax tx =

∞ X

b x tx ,

−1 < t < 1,

x=0

entonces podemos igualar los coeficientes de tx en las dos series de potencias y concluir que ax = bx , x = 0, 1, 2, . . .. Esto muestra que si dos variables aleatorias con valores en los enteros no negativos tienen la misma funci´on generadora de probabilidad, ellas deben de tener la misma distribuci´on. En otras palabras, la funci´on generadora de probabilidad de una variable aleatoria con valores en los enteros no negativos determina un´ıvocamente la distribuci´on de la variable. Teorema 1 Sean X1 , . . . , Xr variables aleatorias independientes. 1. Si Xi tiene distribuci´ on binomial con par´ ametros ni y p, entonces X1 + · · · + Xr tiene la distribuci´ on binomial con par´ ametros n1 + · · · + nr y p. 2. Si Xi tiene distribuci´ on binomial negativa con par´ ametros αi y p, entonces X1 + · · · + Xr tiene la distribuci´ on binomial negativa con par´ ametros α1 + · · · + αr y p. 3. Si Xi tiene distribuci´ on de Poisson con par´ ametro λi , entonces X1 +· · ·+Xr tiene distribuci´ on de Poisson con par´ ametro λ1 + · · · + λr . Demostraci´on de 1. Si las Xi0 s son como en 1, entonces por el Ejemplo 16 ΦX1 +···+Xr (t) = ΦX1 (t) · · · ΦXr (t) = (pt + 1 − p)n1 · · · (pt + 1 − p)nr = (pt + 1 − p)n1 +···+nr . 69

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

Entonces la funci´on generadora de probabilidad de X1 + · · · + Xr es la misma que la de una variable aleatoria con distribuci´on binomial con par´ametros n1 + · · · + nr y p. Esto implica que X1 + · · · + Xr debe de tener esa distribuci´on binomial. Ahora sea   n1 + · · · + nr x p (1 − p)n1 +···+nr −x ax = x que denote las correspondientes probabilidades binomiales. Entonces ∞ X

P (X1 + · · · + Xr = x)tx = ΦX1 +···+Xr (t)

x=0

= (pt + 1 − p)n1 +···+nr ∞ X = ax tx . x=0

Entonces, igualando coeficientes vemos que P (X1 + · · · + Xr = x) = ax y por lo tanto que X1 + · · · + Xr se distribuye binomialmente como se estableci´o en 1. Prueba de 2) Si las Xi0 s son como en 2, entonces por el Ejemplo 17 ΦX1 +···+Xr (t) = ΦX1 (t) · · · ΦXr (t)  α 1 α r  p p = ··· 1 − t(1 − p) 1 − t(1 − p)  α1 +···+αr p = . 1 − t(1 − p) Por lo tanto la funci´on generadora de probabilidad de X1 + · · · + Xr es la misma que la de una variable aleatoria con una distribuci´on binomial negativa con par´ametros α1 + · · · + αr y p. Se sigue ahora por el mismo argumento que se utiliz´o en la prueba de 1) que X1 + · · · + Xr tiene dicha distribuci´on binomial negativa. La prueba de 3 es similar a la de 1 y 2 y se deja como ejercicio para el lector. Suponga que α1 = · · · = αr = 1 en el enunciado 2 del Teorema 1. Entonces X1 , . . . , Xr se distribuyen cada una geom´etricamente con par´ametro p, y 2 establece que X1 + · · · + Xr tiene la distribuci´on binomial negativa con par´ametros r y p. Esto provee una prueba alternativa al resultado obtenido en la Secci´on 3.5. El siguiente ejemplo ilustra el uso de probabilidades condicionales. Ejemplo 19 Sean X1 , X2 . . . variables aleatorias independientes con valores en los enteros no negativos con densidad com´ un. Sea S0 = 0 y Sn = X1 + · · · + Xn , n ≥ 1. Sea N una variable aleatoria con valores en los enteros no negativos y suponga que N, X1 , X2 , . . . son independientes. Entonces SN = X1 + · · · + XN es la suma de una cantidad aleatoria de variables aleatorias. Para una interpretaci´ on de SN suponga que al tiempo 0 un n´ umero aleatorio N de bacterias entran a un sistema y que para el tiempo 1 la colonia iniciada por la i-´esima bacteria contiene Xi miembros. Entonces SN es el n´ umero total de bacterias presentes al tiempo 1. Demuestre que la funci´ on generadora de probabilidad de SN viene dada por (3.31)

ΦSN (t) = ΦN (ΦX1 (t)), 70

−1 ≤ t ≤ 1.

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

Para verificar (3.31) observemos primero que ∞ X

P (SN = x) = = =

P (SN = x, N = n)

n=0 ∞ X n=0 ∞ X

P (Sn = x, N = n) P (N = n)P (Sn = x|N = n).

n=0

Ya que N es independiente de X1 , X2 , . . . , Xn , lo es tambi´en de Sn , y entonces P (Sn = x|N = n) = P (Sn = x). Entonces (3.32)

P (SN = x) =

∞ X

P (N = n)P (Sn = x).

n=0

Como consecuencia, para −1 ≤ t ≤ 1 ΦSN (t) =

∞ X

tx P (SN = x)

x=0

= = = =

∞ X x=0 ∞ X n=0 ∞ X n=0 ∞ X

t

x

∞ X

P (N = n)P (Sn = x)

n=0

P (N = n)

∞ X

tx P (Sn = x)

x=0

P (N = n)ΦSn (t) P (N = n)(ΦX1 (t))n = ΦN (ΦX1 (t)).

n=0

Ejercicios 1.-Cualquier punto del intervalo [0, 1) puede ser representado por su expansi´on decimal .x1 x2 . . .. Suponga que se elige un punto al azar del intervalo [0, 1) y que X represente a los primeros tres d´ıgitos de la expansi´on decimal que representa al punto. Calcule la densidad de X. 2.- Suponga que X tiene la densidad binomial negativa con par´ametros α = r (r un entero) y p. Calcule la densidad de X + r. 3-Suponga que una caja tiene 6 bolas rojas y 4 bolas negras. Se elige una muestra aleatoria de tama˜ no n. Sea X el n´ umero de bolas rojas seleccionadas. Calcule la densidad de X si el muestreo es (a) sin reemplazo, (b) con reemplazo. 4.-Sea N un entero positivo y sea

f (x) =

  c2x ,   0,

x = 1, 2, . . . , N, en caso contrario. 71

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

x

-3

-1

0

1

2

3

5

8

f(x)

.1

.2

.15

.2

.1

.15

.05

.05

Encuentre el valor de c de tal manera que f sea una densidad de probabilidad. 5.-Sea X una variable aleatoria con densidad f dada por Calcule las siguientes probabilidades: (a)X sea negativa; (b)X sea par; (c)X tome un valor entre 1 y 8 inclusive; (d)P (X = −3|X ≤ 0); (e)P (X ≥ 3|X > 0). 6.-Suponga que X tiene la distribuci´on geom´etrica con par´ametro p = .8. Calcule las probabilidades de los siguientes eventos: (a)X > 3; (b)4 ≤ X ≤ 7 o X > 9; (c)3 ≤ X ≤ 5 o 7 ≤ X ≤ 10. 7.-Sea X uniformemente distribuida sobre 0, 1, , . . . , 99. Calcule (a)P (X ≥ 25); (b)P (2,6 < X < 12,2); (c)P (8 < X ≤ 10 o 30 < X ≤ 32); (d)P (25 ≤ X ≤ 30). 8.-Suponga que una caja tiene 12 bolas marcadas 1,2,. . . ,12. Se efect´ uan dos repeticiones independientes del experimento de extraer una bola al azar de la caja. Sea X que denote el n´ umero m´ as grande de los dos n´ umeros que portan las bolas seleccionadas. Calcule la densidad de X. 9.-Suponga que la situaci´on es la misma que en el Ejercicio 8, excepto que ahora las bolas se seleccionan sin reemplazo. Calcule la densidad de X. 10.-Sea X una variable aleatoria geom´etricamente distribuida con par´ametro p. Sea Y = X si X < M y sea Y = M si X ≥ M ; esto es, Y := M in(X, M ). Calcule la densidad de Y . 11.-Sea X una variable aleatoria distribuida geom´etricamente con par´ametro p. Calcule la densidad de (a)X 2 (b)X + 3. 12.-Suponga que una caja tiene r bolas numeradas 1, 2, . . . , r. Se selecciona sin reemplazo una muestra aleatoria de tama˜ no n. Sea que Y denote el n´ umero m´as grande de los extra´ıdos y que Z denote al m´as peque˜ no. (a)Calcule la probabilidad P (Y ≤ y). (b)Calcule la probabilidad P (Z ≥ z). 13.-Sean X y Y dos variables aleatorias cuya funci´on de densidad conjunta se da en la siguiente tabla 72

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

Y X -2

-1

0

2

6

1/9

1/27

1/27

1/9

1

2/9

0

1/9

1/9

3

0

0

1/9

4/27

Calcule la probabilidad de los siguientes eventos: (a)Y es par; (b) XY es impar; (c)X > 0 y Y ≥ 0. 14.-Sean X y Y variables aleatorias independientes cada una con densidad uniforme en {0, 1, . . . , N }. Halle (a)P (X ≥ Y ); (b)P (X = Y ). 15.-Sean X y Y como en el Ejercicio 14. Encuentre las densidades de (a)min(X, Y ); (b)max(X, Y ); (c)|Y − X|. 16.-Sean X y Y variables aleatorias independientes con densidades geom´etricas de par´ametros p1 y p2 respectivamente. Encuentre (a)P (X ≥ Y ); (b)P (X = Y ). 17.-Sean X y Y como en el Ejercicio 16. Halle la densidad de (a)min(X, Y ); (b)X + Y . 18.-Sean X y Y variables aleatorias discretas y sean G y h funciones tales que la siguiente identidad se cumple: P (X = x, Y = y) = g(x)h(y). (a)Exprese P (X = x) en t´erminos de g y h. (b)Exprese P (Y = y) en t´erminos de g y h. P P (c)Muestre que ( x g(x)) y h(y) = 1. (d)Muestre que X y Y son independientes. 19.-Sean X y Y variables aleatorias independientes cada una con densidad geom´etrica de par´ ametro p. Haga Z = Y − X y M = min(X, Y ). (a)Muestre que para enteros z y m ≥ 0   P (X = m − z)P (Y = m), z < 0, P (M = m, Z = z) =   P (X = m)P (Y = m + z), z ≥ 0. (b) Concluya de (a) que para enteros z y m ≥ 0 P (M = m, Z = z) = p2 (1 − p)2m (1 − p)|z| . (c)Use (b) y el Ejercicio 18 para mostrar que M y Z son independientes. 73

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

20.- Suponga que un blanco circular est´a dividido en tres zonas acotadas por c´ırculos conc´entricos de radios 1/3, 1/2 y 1, como se ilustra en el siguiente diagrama.

1 2 3

Figura 4 Si se lanzan tres tiros al blanco al azar, ¿Cu´al es la probabilidad de que caiga exactamente un tiro en cada una de las zonas? 21.- Suponga que 2r bolas se distribuyen al azar en r cajas. Sea Xi el n´ umero de bolas en la caja i. (a)Encuentre la densidad conjunta de X1 , . . . , Xr . (b)Encuentre la probabilidad de que cada caja contenga exactamente 2 bolas. 22.- Considere un experimento que posea tres posibles resultados, los cuales ocurren con probabilidades p1 , p2 y p3 respectivamente. Suponga que se efect´ uan n repeticiones independientes del experimento y sea Xi que denote el n´ umero de veces que el i-´esimo resultado ocurre. (a)¿Cu´al es la densidad de X1 + X2 ? (b)Encuentre P (X2 = y|X1 + X2 = z), y = 0, 1 . . . , z. 23.- Utilize la aproximaci´on de Poisson para calcular la probabilidad de que a lo sumo 2 de 50 personas dadas tendr´an inv´alida su licencia de manejo si normalmente el 5 % de la gente la tiene. 24.- Use la aproximaci´on de Poisson para calcular la probabilidad de que una caja de 100 fusibles tenga a lo mas 2 fusibles defectuosos, sabiendo que 3 % de los fusibles hechos lo son. 25.- Se tira un dado hasta que aparece un 6. (a)¿Cu´al es la probabilidad de que se necesiten a lo mas seis tiros? (b)¿Cu´antos tiros se requieren de tal forma que la probabilidad de obtener un 6 sea de al menos 1/2?. Los Ejercicios del 26 al 30 son problemas que tratan sobre sucesiones infinitas de ensayos de Bernoulli tal como se discuti´o en la Secci´on 3.5. 26.-Sea Ti el n´ umero de ensayos hasta el i-´esimo ´exito inclusive. Sean 0 ≤ x1 < · · · < xr enteros. Calcule la probabilidad P (T1 = x1 , T2 = x2 , . . . , Tr = xr ). Sugerencia: Sea Wr = Tr − Tr−1 , r ≥ 2 y W1 = T1 ; entonces P (T1 = x1 , . . . , Tr = xr ) = P (W1 = x1 , W2 = x2 − x1 , . . . , Wr = xr − xr−1 ). Ahora utilize el hecho de que las variables aleatorias W1 − 1, . . . , Wr − 1 son variables aleatorias mutuamente independientes, cada una con distribuci´on geom´etrica de par´ametro p. 27.-Sea Nn el n´ umero de ´exitos en los primeros n ensayos. Muestre que P (T1 = x|Nn = 1) =

1 , n 74

x = 1, 2, . . . , n.

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

28.-M´as a´ un, pruebe que   n P (T1 = x1 , T2 = x2 , . . . , Tr = xr |Nn = r) = , r 0 < x1 < x2 < · · · < xr ≤ n. Esto muestra que dado que hubo r ´exitos en los primeros n ensayos, los ensayos en los cuales ocurrieron estos ´exitos constituyen una muestra aleatoria de tama˜ no r (sin reemplazo) de una “poblaci´on” de posiciones posibles. 29.- Sea k un entero positivo, k ≤ r. Del Ejercicio 28 f´acilmente podr´ıamos calcular que   x−1 n−x P (Tk = x|Nn = r) =

k−1

r−k .

n r

De hecho, si Tk = x entonces el k-´esimo ´exito est´a en la posici´on x. En las primeras x − 1 posiciones debe haber exactamente k − 1 ´exitos, y en las u ´ltimas n − x posiciones debe haber exactamente r − k ´exitos. El resultado se sigue ya que, dado Nn = r, las posiciones de los r ´exitos son una muestra aleatoria de tama˜ no r de la “poblaci´on” de n posiciones. Verifique que se da este hecho calculando directamente P (Tk = x|Nn = r). 30.-Sean 1 ≤ i < j ≤ r enteros no negativos. Calcule P (Ti = X, Tj = y|Nn = r) para 0 < x < y ≤ n. 31.-Suponga que X y Y son variables aleatorias independientes con densidad uniforme en 1, 2, . . . , N . Calcule la densidad de X + Y . 32.-Sea X uniformemente distribuida en {0, 1, 2, . . . , N }. Encuentre ΦX (t). 33.-Sea X una variable aleatoria con valores en los enteros no negativos cuya funci´on generadora 2 de probabilidad est´a dada por ΦX (t) = eλ(t −1) , donde λ > 0. Halle fX . 34.-Pruebe 3) del Teorema 1. 35.-Sean X y Y variables aleatorias independientes con densidades de Poisson de par´ametros λ1 y λ2 respectivamente. Encuentre P (Y = y|X + Y = z) para y = 0, . . . , z. Sugerencia: Utilize 3) del Teorema 1. 36.-Sean X, Y y Z variables aleatorias independientes con densidades de Poisson de par´ametros λ1 , λ2 y λ3 respectivamente. Halle P (X = x, Y = y, Z = z|X + Y + Z = x + y + z) para enteros no negativos x, y y z. Sugerencia: Utilize 3) del Teorema 1. 37.-En el Ejemplo 19 suponga que X1 toma los valores 1 y 0 con probabilidades p y 1 − p respectivamente, donde 0 < p < 1. Suponga tambi´en que N tiene densidad de Poisson con par´ametro λ. (a)Utilize la ecuaci´on (3.31) para encontrar la funci´on generadora de probabilidad de SN . (b)Utilize (a) para hallar la densidad de SN . 75

3.6. Sumas de variables aleatorias independientes

3. Variables aleatorias discretas

Para una interpretaci´on de SN suponga que un n´ umero aleatorio N de c´elulas cancerosas se introducen al tiempo 0 y que cada c´elula, independientemente de las otras c´elulas y de N , tiene probabilidad p de sobrevivir al tratamiento de radiaci´on. Sea Xi = 1 si la i-´esima c´elula sobrevive y Xi = 0 en otro caso. Entonces SN es el n´ umero de c´elulas que sobreviven al tratamiento. 38.-Resuelva el Ejercicio 37 sin utilizar funciones generadoras de probabilidad, pero utilizando en vez de ellas la ecuaci´on (3.32) y el hecho de que X1 + · · · + Xn tiene densidad binomial.

76

Cap´ıtulo 4

Esperanza de Variables Aleatorias Discretas Considere que participamos en un cierto juego de azar. Para poder jugar, debemos pagar una cuota de a d´olares y como resultado de jugar recibimos X d´olares, donde X es una variable aleatoria con {x1 , x2 , . . . , xr } como sus valores posibles. La pregunta es, ¿Deber´ıamos jugar el juego?. Si es que vamos a jugar una sola vez, entonces esta pregunta es muy dif´ıcil. Sin embargo, supongamos que jugamos un gran n´ umero de veces. Despu´es de n juegos pagar´ıamos na d´olares y recibir´ıamos X1 + · · · + Xn d´olares. Si asumimos que los sucesivos juegos constituyen repeticiones independientes del mismo experimento (observando un valor de X) entonces podemos tomar a las variables aleatorias X1 + · · · + Xn como mutuamente independientes y con densidad com´ un f de X. Sea Nn (xi ) que denote el numero de juegos en los que obtuvimos el valor xi , es decir, el n´ umero de Xi0 s que asumieron el valor xi . Entonces podemos escribir X1 + · · · + Xn =

r X

xi Nn (xi ).

i=1

La cantidad promedio recibida es entonces   r X1 + · · · + Xn X Nn (xi ) = xi . n n i=1

De acuerdo a la interpretaci´on de la frecuencia relativa, si n es grande, los n´ umeros Nn (xi )/n deber´ıan ser aproximadamente igual a f (xi ), y por tanto la suma de la derecha deber´ıa ser aproxP imadamente igual a µ = ri=1 xi f (xi ). Por tanto, parece razonable anticipar una ganancia neta al jugar si µ > a y el esperar una p´erdida neta si µ < a. Si µ = a entonces anticipar´ıamos el quedarnos tablas. P La cantidad ri=1 xi f (xi ) es llamada la esperanza de la variable aleatoria X. M´as a´ un, sea X una variable aleatoria discreta la cu´al asume un n´ umero finito de valores x1 , . . . , xr . Entonces el valor esperado de X, denotado por EX o por µ, es el n´ umero (4.1)

EX =

r X

xi f (xi ),

i=1

donde f es la densidad de X. Suponga que X tiene distribuci´on uniforme en el conjunto {x1 , . . . , xr }. Entonces f (xi ) = P (X = xi ) = r−1 , y de (4.1) vemos que EX = (x1 +· · ·+xr )r−1 , as´ı que en este caso, EX solo es el promedio 77

4. Esperanza de Variables Aleatorias Discretas

aritm´etico de los posibles valores de X. En general, (4.1) muestra que EX es un promedio ponderado de los posibles valores de X; el peso unido a el i-´esimo valor xi es su probabilidad f (xi ). El valor esperado EX es tambi´en llamado la media de X (o de la densidad f de X) y es denotado frecuentemente por µ. La media es una forma de tratar de resumir una distribuci´on de probabilidad por un solo numero que se supone representa un “valor t´ıpico” de X. Que tan bueno es esto depende de cu´an cerca los valores de X se aglomeren alrededor del valor µ. Examinaremos esta pregunta con m´as detalle cuando discutamos la varianza de X en la Secci´on 4.3. Ejemplo 1 Distribuci´on Binomial. Sea X una variable aleatoria con distribuci´ on binomial de par´ ametros n y p. Encuentre EX. Para n = 1, X asume los valores 0 y 1 con probabilidades 1 − p y p respectivamente. As´ı EX = 0 · P (X = 0) + 1 · P (X = 1) = p. Ya que una variable aleatoria con densidad binomial con par´ ametros n y p es solamente una variable aleatoria indicadora, vemos que podemos encontrar la probabilidad del evento A para el cual X = 1 calculando la esperanza de su indicador. Ahora calculemos EX para cualquier n ≥ 1. En este caso X asume los valores 0, 1, 2, . . . , n, y EX =

  n X n j j p (1 − p)n − j. j j=0

Para calcular esta cantidad observamos que   n jn! j = j j!(n − j)! n(n − 1)! = (j − 1)![(n − 1) − (j − 1)]!   n−1 =n . j−1 Entonces EX = n

 n  X n−1 j−1

j=1

pj (1 − p)n−j .

Haciendo el cambio de variable i = j − 1 observamos que EX = np

n−1 X i=0

 n−1 i p (1 − p)n−i−1 . i

Por el teorema del Binomio n−1 X i=0

 n−1 i p (1 − p)n−i−1 = [p + (1 − p)n−1 ] = 1 i

as´ı vemos que EX = np. 78

4. Esperanza de Variables Aleatorias Discretas

4.1. Definici´on de Esperanza

4.1.

Definici´ on de Esperanza

Suponga ahora que X es una variable aleatoria discreta con x1 , x2 , . . . sus valores posibles. Nos gustar´ıa definir la esperanza de X como (4.2)

EX =

∞ X

xj f (xj ).

j=1

Si X solo toma un n´ umero finito de valores x1 , . . . , xr , entonces (4.2) no es m´as que on P nuestra definici´ previa. En el caso general discreto, esta definici´on es a bien Pvalida solamente si la suma j xj f (xj ) est´ definida. Para que este sea el caso requerimos que j |xj |f (xj ) < ∞. Esto nos conduce a la siguiente P Definici´ on 1 Sea X una variable aleatoria discreta con densidad f . Si j |xj |f P (xj ) < ∞, decimos que X tiene esperanza finita y definimos su esperanza por (4.2). Por otro lado, si j |xj |f (xj ) = ∞, decimos que X no tiene esperanza finita y EX no est´ a definida. Si X es una variable aleatoria no-negativa, el hecho de que X tenga esperanza finita usualmente se denota por EX < ∞. Ejemplo 2 Distribuci´on de Poisson. Sea X una variable aleatoria con distribuci´ on de Poisson con par´ ametro p. Encuentre EX. Ahora ∞ X EX = jp(1 − p)j j=0

= p(1 − p)

∞ X

j(1 − p)j−1

j=0 ∞ X

= −p(1 − p)

j=0

d (1 − p)j . dp

Ya que una serie de potencias puede ser diferenciada t´ermino a t´ermino, se sigue que ∞

EX = −p(1 − p)

d X (1 − p)j . dp j=0

Utilizando la f´ ormula para la suma de una progresi´ on geom´etrica, vemos que     d 1 −1 EX = −p(1 − p) = −p(1 − p) . dp p p2 Como consecuencia EX =

1−p . p

Ahora consideraremos un ejemplo de una densidad que no posee esperanza finita. Ejemplo 3 Sea f la funci´ on definida en R por    1 , x = 1, 2, . . . , f (x) = x(x+1)   0, en caso contrario. 79

4. Esperanza de Variables Aleatorias Discretas

4.2. Propiedades de la esperanza

La funci´ on f obviamente satisface las propiedades 1 y 2 de la definici´ on de funciones de densidad dada en el Cap´ıtulo 3. Para ver que f satisface la propiedad 3 notemos que 1 1 1 = − x(x + 1) x x+1 y entonces

∞ X

f (x) =

x=1

∞  X 1 x=1

1 − x x+1



1 1 1 = (1 − ) + ( − ) + · · · = 1. 2 2 3 Por lo tanto se cumple 3 y f es una densidad. Ahora f no tiene esperanza finita porque ∞ X

|x|f (x) =

x=1

y es bien sabido que la serie arm´ onica

4.2.

∞ X x=1

P∞

−1 x=1 x

1 x+1

no converge.

Propiedades de la esperanza

Usualmente queremos calcular la esperanza de una variable aleatoria como Z = X1 + X2 o Z = X 2 que es en si misma una funci´on ϕ(X) del vector aleatorio X. Por supuesto, si conocemos la densidad fZ de Z, esto se puede hacer utilizando (4.2). Muy frecuentemente, sin embargo, la densidad de Z puede no ser conocida, o el c´alculo de EZ a partir de una densidad conocida de Z puede ser muy dif´ıcil. Nuestro siguiente resultado nos dar´a una forma de decidir si Z tiene esperanza finita y, en caso de que la tenga, el m´etodo para calcular EZ directamente en t´erminos de la densidad fX y de la funci´on ϕ. Antes de mencionar este resultado introducimos una convenci´on sobre la notaci´on. Sea X un vector aleatorio discreto r-dimensional con posibles valores x1 , x2 , . . . y densidad f , y sea ϕ una funci´on real definida en Rr . Entonces X X (4.3) ϕ(x)f (x) = ϕ(xj )f (xj ). x

j

Teorema 1 Sea X un vector aleatorio discreto con densidad f , y sea ϕ una funci´ on real definida en Rr . Entonces la variable aleatoria Z = ϕ(X) tiene esperanza finita si y solo si X (4.4) |ϕ(x)|f (x) < ∞ x

y, cuando se cumple (4.4), (4.5)

EZ =

X

ϕ(x)f (x).

x

Demostraci´on: Sean z1 , z2 , . . . que denoten los posibles valores de Z y sean x1 , x2 , . . . los posibles valores de X. Para todo zj existe al menos un xi tal que zj = ϕ(xi ), pero puede haber m´ as de una 0 de tales xi . Sea Aj la colecci´ on de tales xi s, esto es Aj := {xi |ϕ(xi ) = zj }. 80

4. Esperanza de Variables Aleatorias Discretas

4.2. Propiedades de la esperanza

Entonces {X ∈ Aj } y {Z = zj } denotan los mismos eventos. por tanto P (Z = zj ) = P (X ∈ Aj ) =

X

fX (x).

x∈Aj

Como consecuencia, X

X

|zj |fZ (zj ) =

j

|zj |P (Z = zj )

j

X

=

X

|zj |

j

X X

=

fX (x)

x∈Aj

j

|zj |fX (x).

x∈Aj

Ya que ϕ(x) = zj para todo x ∈ Aj , se sigue que X

|zj |fZ (zj ) =

j

X X j

|ϕ(x)|fX (x).

x∈Aj

Por su definici´ on, los conjuntos Aj son disjuntos para los distintos valores de j, y su uni´ on es el conjunto de todos los valores posibles de X. Por lo tanto X X |zj |fZ (zj ) = |ϕ(x)|fX (x). x

j

Esto muestra que Z tiene esperanza finita si y solo si (4.4) se cumple. Si Z tiene esperanza finita, repitiendo el argumento de arriba eliminando los signos de valor absoluto, concluimos que (4.5) se cumple.  Sea X una variable aleatoria con densidad f y sea P |X| tiene esperanza finita si y s´olo si x |x|f (x) < ∞. esperanza, X tiene esperanza finita si y s´olo si la misma tiene esperanza finita si y s´olo si E|X| < ∞. Utilizaremos ahora el Teorema 1 para establecer las esperanza.

ϕ(x) = |x|. Entonces por el Teorema 1, Pero, de acuerdo a nuestra definici´ on de serie converge. Por lo tanto vemos que X siguientes propiedades importantes de la

Teorema 2 Sean X y Y dos variables aleatorias con esperanza finita. 1. Si c es una constante y P (X = c) = 1, entonces EX = c. 2. Si c es una constante, entonces cX tiene esperanza finita y E(cX) = cEX. 3. X + Y tiene esperanza finita y E(X + Y ) = EX + EY. 4. Suponga que P (X ≥ Y ) = 1. Entonces EX ≥ EY ; a´ un m´ as, EX = EY s´ı y s´ olo s´ı P (X = Y ) = 1. 5. |EX| ≤ E|X|. 81

4. Esperanza de Variables Aleatorias Discretas

4.2. Propiedades de la esperanza

Demostraci´on: La prueba de 1 es muy simple. Si P (X = c) = 1, entonces X tiene densidad fX (x) = 0 para x 6= c y fX (c) = 1. As´ı, de (4.2) X xfX (x) = cfX (c) = c. EX = x

Para demostrar 2, sea ϕ(x) = cx y observe que X X |x|fX (x) < ∞, |cx|fX (x) = |c| x

x

por lo tanto cX tiene esperanza finita. Entonces, de (4.5) X X xfX (x) = cEX. (cx)fX (x) = c E(cX) = x

x

Para establecer 3 hacemos ϕ(x, y) = x + y y sea f la densidad conjunta de X y Y . entonces X X X |x + y|f (x, y) ≤ |x|f (x, y) + |y|f (x, y) x,y

x,y

=

X

x,y

|x|

x

=

X

f (x, y) +

y

X

X y

|x|fX (x) +

X

x

|y|

X

f (x, y)

x

|y|fY (y) < ∞

y

y as´ı X + Y tiene esperanza finita. Aplicando (4.5) vemos que X E(X + Y ) = (x + y)f (x, y) x,y

=

X

xf (x, y) +

x,y

X

yf (x, y)

x,y

= EX + EY. Para probar 4 observe que Z = X − Y = X + (−Y ), y por 2 y 3 vemos que X EX − EY = E(X − Y ) = EZ = zfZ (z). z

Ya que P (Z ≥ 0) = P P (X ≥ Y ) = 1, los valores zi que Z = X − Y asume deben de ser todos no negativos. Entonces z zfZ (z) ≥ 0 y por lo tanto EX − EY ≥ 0. Esto lleva a la primer parte de 4. Si EX = EY entonces EZ = 0. Pero entonces X 0 = EZ = zi fZ (zi ). i

Ahora, la suma de t´erminos no negativos solo puede ser cero si todos y cada uno de los t´erminos individuales son iguales a 0. Ya que fZ (zi ) > 0 debe pasar que zi = 0. Por lo tanto el u ´nico valor posible para Z es 0, as´ı P (Z = 0) = 1. Finalmente, 5 se sigue de 4 y 2 porque −|X| ≤ X ≤ |X| y por lo tanto −E|X| ≤ EX ≤ EX. Esto concluye la prueba del teorema.  82

4. Esperanza de Variables Aleatorias Discretas

4.2. Propiedades de la esperanza

Se sigue f´acilmente de 2 y 3 que si X1 , . . . , Xn son cualesquiera n variables aleatorias cada una con esperanza finita, y c1 , . . . , cn son cualesquiera n constantes, entonces E(c1 X1 + · · · + cn Xn ) = c1 EX1 + · · · + cn EXn .

(4.6)

Es u ´til el saber que una variable aleatoria acotada siempre posee esperanza finita. Precisamente, Teorema 3 Sea X una variable aleatoria tal que para alguna constante M , P (|X| ≤ M ) = 1. Entonces X tiene esperanza finita y |EX| ≤ M . Demostraci´on: Sean x1 , x2 , . . . los valores posibles de X. Entonces |xi | ≤ M para todo i. De hecho, si |xi | > M para alg´ un valor posible xi , entonces P (|X| > M ) ≥ P (|X| = |xi |) > 0, lo cual contradice el hecho de que P (|X| ≤ M ) = 1. Como consecuencia X X |xi |f (xi ) ≤ M f (xi ) ≤ M, i

i

as´ı que X tiene esperanza finita. A´ un m´ as, de 5 del Teorema 2, X |EX| ≤ E|X| = |xi |f (xi ) ≤ M. i

Esto completa la prueba.  F´acilmente se sigue del Teorema 3 y de 3 del Teorema 2 que si X yY son dos variables aleatorias tales que Y posee esperanza finita y para alguna constante M , P (|X − Y | ≤ M ) = 1, entonces X tambi´en tiene esperanza finta y |EX − EY | ≤ M . Se deja al lector la prueba de este hecho. Como la esperanza de la suma de dos variables aleatorias es la suma de sus esperanzas, podr´ıamos suponer que la esperanza de un producto es el producto de las esperanzas. Que esto no sea cierto en general se puede ver si consideramos la variable aleatoria X cuyos posibles valores son 1 y −1, asumiendo cada uno con probabilidad 1/2 y haciendo Y = X. Entonces EX = EY = 0 pero EXY = EX 2 = 1. Hay un caso importante cuando la regla del producto es v´alida, a saber, cuando X y Y son variables aleatorias independientes. Establecemos esto formalmente como sigue. Teorema 4 Sean X y Y dos variables aleatorias independientes cada una con esperanza finita. Entonces XY tiene esperanza finita y (4.7)

E(XY ) = (EX)(EY ).

Demostraci´on: Observe que como X y Y son independientes, la densidad conjunta de X y Y es fX (x)fY (y). Por lo tanto X X |xy|f (x, y) = |x||y|fX (x)fY (y) x,y

x,y

! =

X

|x|fX (x)

x

! X y

83

|y|fy (y)

< ∞,

4. Esperanza de Variables Aleatorias Discretas

4.2. Propiedades de la esperanza

as´ı, XY tiene esperanza finita. utilizando el Teorema 1, concluimos que E(XY ) =

X

(x, y)fX (x)fY (y)

x,y

" =

#" X

# X

fX (x)

x

fY (y) = (EX)(EY ).

y

 El rec´ıproco de esta propiedad no se cumple; pueden existir dos variables aleatorias X y Y tales que E(XY ) = (EX)(EY ) a´ un cuando X y Y no sean independientes. Ejemplo 4 Sea que (X, Y ) asuma los valores (1, 0), (0, 1), (−1, 0) y (0, −1) con igual probabilidad. entonces EX = EY = 0. Ya que XY = 0, se sigue que E(XY ) = 0 y as´ı E(XY ) = (EX)(EY ). Para ver que X y Y no son independientes, observe que, por ejemplo, P (X = 0) = P (Y = 0) = 1/2, y tambi´en P (X = 0, Y = 0) = 0. Entonces P (X = 0, Y = 0) 6= P (X = 0)P (Y = 0). Frecuentemente es m´as f´acil calcular esperanzas utilizando las propiedades dadas en el Teorema 2 que utilizando directamente la definici´on. Ahora ilustraremos esta t´ecnica con varios ejemplos. Ejemplo 5 Distribuci´on binomial. Sabemos ya del Ejemplo 1 que la esperanza de la distribuci´ on binomial con par´ ametros n y p es np. Tambi´en se puede derivar este hecho de una manera muy sencilla utilizando la propiedad de que la esperanza de una suma es la suma de las esperanzas (3 del Teorema 2). Para esto, sean X1 , . . . , Xn n variables aleatorias de Bernoulli independientes cada una con par´ ametro p y hagamos Sn = X1 + · · · + Xn . Entonces Sn tiene distribuci´ on binomial con par´ ametros n y p. Por la primer parte del Ejemplo 1, EXi = p, 1 ≤ i ≤ n, y as´ı E(Sn ) = E(X1 + · · · + Xn ) =

n X

EXi = np.

i=1

Ejemplo 6 Distribuci´on hipergeom´etrica. Suponga que se tiene una poblaci´ on de r objetos, de los cuales r1 son de un tipo dado y r − r1 de otro. Se extrae una muestra aleatoria de tama˜ no n de esta poblaci´ on. Sea Sn el n´ umero de objetos del primer tipo que se obtuvieron. Calcule ESn . Sabemos que Sn tiene la distribuci´ on hipergeom´etrica, as´ı que podemos calcular ESn utilizando (4.2). Sin embargo, es mucho m´ as sencillo proceder introduciendo las variables indicadoras X1 , . . . , Xn como sigue. La variable aleatoria Xi = 1 si y solo si el i-´esimo elemento de la muestra es del primer tipo. Entonces r1 EXi = P (Xi ) = 1 = . 1 Pero Sn = X1 + · · · + Xn , as´ı utilizando 3 del Teorema 2 vemos que ESn =

n X

EXi = n

i=1

r1 . r

Note que las variables aleatorias Xi , 1 ≤ i ≤ n no son independientes. 84

4. Esperanza de Variables Aleatorias Discretas

4.2. Propiedades de la esperanza

Ejemplo 7 Suponga que se tiene una poblaci´ on de r objetos distintos etiquetados 1, 2, . . . , r. Los objetos son extra´ıdos con reemplazo hasta que se han obtenido exactamente k ≤ r objetos distintos. Sea Sk que denote el tama˜ no de la muestra requerida. Calcule EXk . Es claro que S1 = 1 y as´ı ES1 = 1. Asumamos que k ≥ 2 y sea Xi = Si+1 −Si , i = 1, 2, . . . , k −1. Claramente entonces Sk = 1 + X1 + · · · + Xk−1 . Ahora Xi es el n´ umero de objetos que deben ser extra´ıdos despu´es de que entre a la muestra el i-´esimo objeto nuevo y hasta que entre el (i+1)-´esimo objeto nuevo a la muestra. Un razonamiento moment´ aneo muestra que el evento {Xi = n} ocurre si y solo si los primeros (n − 1) objetos extra´ıdos despu´es de que el i-´esimo objeto nuevo entre a la muestra duplica uno de los i objetos previos, y que el n-´esimo objeto extra´ıdo despu´es de que el i-´esimo objeto nuevo entre es diferente de alguno de los i objetos previos. Entonces, como los ensayos son independientes,  n−1   i i P (Xi = n) = 1− , r r

n = 1, 2, . . . .

Esto muestra que la variable aleatoria Xi − 1 tiene la distribuci´ on geom´etrica con par´ ametro pi = 1 − (i/r). Por lo tanto por el Ejemplo 3, E(Xi − 1) = p−1 (1 − p ), y i i i −1 −1 EXi = p−1 = r(r − i)−1 . i (1 − pi ) + 1 = pi = (1 − ) r Como consecuencia,

(4.8)

 k−1  X r ESk = 1 + r−1 i=1   k−1 X r = r−1 i=0   1 1 1 =r + + ··· + . r r−1 r−k+1

Ya que lo utilizaremos posteriormente, hacemos notar que por construcci´ on, las variables aleatorias Xi son mutuamente independientes. En el cap´ıtulo previo hemos visto que las variables aleatorias con valores en los enteros no negativos X juegan un papel predominante. Para este tipo de variables aleatorias con frecuencia el siguiente teorema se puede aplicar tanto para decidir si X tiene esperanza finita como para calcular la esperanza de X. Teorema 5 Sea X una variable aleatoria con valores en los enteros no negativos. Entonces X tiene P esperanza finita si y solo si la serie ∞ x=1 P (X ≥ x) converge. Si esto sucede, entonces (4.9)

EX =

∞ X

P (x ≥ x).

x=1

Demostraci´on: . Mostraremos que (4.10)

∞ X

xP (X = x) =

x=1

∞ X x=1

85

P (X ≥ x),

4. Esperanza de Variables Aleatorias Discretas

4.3. Momentos

de lo cual el teorema se sigue inmediatamente. Para este fin primero escribimos el lado izquierdo de (4.10) como ∞ x X X P (X = x) 1. x=1

y=1

Se permite intercambiar el orden de la suma y reescribir esta expresi´ on como ∞ X ∞ X

P (X = x) =

y=1 x=y

∞ X

P (X ≥ y).

y=1

Reemplazando la variable muda y por la variable muda x en el lado derecho de esta igualdad, obtenemos el lado derecho de (4.10). Esto muestra que (4.10) se cumple, como se deseaba.  Para una aplicaci´on elemental de este teorema, suponga que X es una variable aleatoria que tiene distribuci´on geom´etrica con par´ametro p. Entonces P (X ≥ x) = (1 − p)x y as´ı por el teorema anterior se tiene EX =

∞ X

(1 − p)x = (1 − p) + (1 − p)2 + · · · = p−1 (1 − p).

x=1

Esto concuerda con el resultado encontrado en el Ejemplo 3.

4.3.

Momentos

Sea X una variable aleatoria discreta, y sea r ≥ 0 un n´ umero entero. Decimos que X tiene un r momento de orden r si X tiene esperanza finita. En tal caso definimos el r-´ esimo momento de X como EX r . Si X tiene un momento de orden r entonces el r-´esimo momento de X − µ, donde µ es la media de X, es llamado el r-´ esimo momento central (o el r-´ esimo momento respecto a la media) de X. Por el Teorema 1 podemos calcular el r-´esimo momento y el r-´esimo momento central de X directamente de la densidad f por las f´ormulas X (4.11) EX r = xr f (x) x

y (4.12)

E(X − µ)r =

X

(x − µ)r f (x).

x

En vista de (4.11) y (4.12), el r-´esimo momento y el r-´esimo momento central est´an determinados por la densidad f , de esta manera tiene sentido el hablar de ellos como el r-´esimo momento y el r-´esimo momento central de esta densidad. Suponga que X tiene un momento de orden r; entonces X tiene un momento de orden k para todo k ≤ r. Para ver esto, observe que si |x| < 1, entonces |xk | = |x|k ≤ 1 mientras que para |x| > 1, |x|k ≤ |x|r . 86

4. Esperanza de Variables Aleatorias Discretas

4.3. Momentos

As´ı que en cualquier caso es verdad que |x|k ≤ |x|r + 1. Entonces, por el teorema de comparaci´on para la convergencia de series, vemos que X X |x|k f (x) ≤ [|x|r + 1]f (x) = E(|X|r ) + 1 < ∞, x

x

as´ı X k tiene esperanza finita. Por otro lado, como se mostr´o en el Ejemplo 4, una variable aleatoria X puede no tener siquiera un primer momento. Una simple modificaci´on de este ejemplo muestra que una variable aleatoria puede tener un momento de orden r pero no poseer momento alguno de orden superior (Vea el Ejercicio 9). El primer momento (r = 1) es solamente la media de X. En general, mientras m´as momentos de X conozcamos, mayor es la informaci´on que ganamos acerca de la distribuci´on de X; sin embargo, en las aplicaciones, frecuentemente los de mayor inter´es s´olo son los dos primeros. Por la propiedad 3 del Teorema 2 sabemos que si tanto X como Y poseen primer momento finito, entonces X + Y tambi´en lo posee. Demostraremos a continuaci´on que esta caracter´ıstica deseable se se sigue cumpliendo tambi´en para momentos de orden r. Teorema 6 Si las variables aleatorias X y Y tienen momentos de orden r, entonces X +Y tambi´en tiene momento de orden r. Demostraci´on: Este teorema se basa en la siguiente desigualdad sencilla. Para cualquier entero no negativo j con j ≤ r |x|j |y|r−j ≤ |x|r + |y|r ,

(4.13)

x, y ∈ R.

Para ver esto, observe que si |x| ≤ |y|, entonces |x|j |y|r−j ≤ |y|j |y|r−j = |y|r ≤ |x|r + |y|r ; mientras que si |x| ≥ |y|, entonces |x|j |y|r−j ≤ |x|r ≤ |x|r + |y|r . Por lo tanto (4.13) se cumple. Utilizando (4.13) y el teorema de la expansi´ on binomial vemos ahora que |x + y|r ≤ (|x| + |y|)r r   r   X X r r j r−j = |x| |y| ≤ (|x|r + |y|r ). j j j=0

j=0

Pero

r   X r j=0

porque r

r

2 = (1 + 1) =

j

= 2r

r   X r j=0

j

j r−j

1 1

=

r   X r j=0

j

.

Como consecuencia |x + y|r ≤ 2r (|x|r + |y|r ). Sea f la densidad conjunta de X y Y . Entonces X X |x + y|r f (x, y) ≤ 2r (|x|r + |y|r )f (x, y) x,y

x,y r

= 2 E(|X|r + |Y |r ) = 2r (E|X|r + E|Y |r ) < ∞. As´ı que, por el Teorema 1, (X + Y )r tiene esperanza finita. 87

4. Esperanza de Variables Aleatorias Discretas

4.3. Momentos

 Se sigue f´acilmente por inducci´on que si X1 , X2 , . . . , Xn tienen todas un momento de orden r, as´ı tambi´en X1 + · · · + Xn . Sea X una variable aleatoria con segundo momento finito. Entonces la varianza de X, denotada por Var X o V (X), se define por Var X = E[(X − EX)2 ]. Expandiendo el lado de la derecha vemos que Var X = E[X 2 − (2X)(EX) + (EX)2 ] EX 2 − 2(EX)2 + (EX)2 . En otras palabras (4.14)

Var X = EX 2 − (EX)2 .

√ Usualmente denotamos a EX por µ y a Var X por σ 2 . El n´ umero no negativo σ = Var X es llamado la desviaci´ on est´ andar de X o de fX . De acuerdo a nuestra discusi´on previa, la media µ es el valor promedio de la variable aleatoria X. Una aplicaci´on de la varianza es como una medida de dispersi´on de la distribuci´on de X respecto a la media µ. Mientras m´as tienda X a desviarse de su valor medio µ, m´as grande se vuelve el valor (X − µ)2 , y as´ı la varianza tambi´en tiende a aumentar. Por otra parte, Var X = 0 s´ı y solo si X es una constante. Para ver esto observe que si P (X = c) = 1 para alguna constante c, entonces EX = c y Var X = 0. Rec´ıprocamente, si Var X = 0, entonces E[(X − EX)2 ] = 0 y as´ı P ((X − EX)2 = 0) = 1. Consecuentemente P (X = EX) = 1. Un uso alternativo para la media y la varianza est´a dado por el siguiente problema, el cual es de sumo inter´es en estad´ıstica. Sea X una variable aleatoria que posea segundo momento finito, y suponga que queremos elegir un valor de a que minimize E(X − a)2 . Tal valor nos proveer´ıa del mejor ajuste de X a una constante si el error fuera medido en t´erminos de la desviaci´on media cuadrada. Una forma de resolver este problema es el utilizar C´alculo. Note que E(X − a)2 = EX 2 − 2aEX + a2 . Si diferenciamos con respecto a a y hacemos la derivada igual cero, vemos que a = EX. Como la segunda derivada es positiva (de hecho, es igual a 2), el punto corresponde a un m´ınimo, y el valor m´ınimo es Var X. Hay una segunda forma de resolver este problema que tambi´en es importante comprender. Note que (X − a)2 = [(X − µ) + (µ − a)]2 = (X − µ)2 + 2(X − µ)(µ − a) + (µ − a)2 . Ya que E(X −µ) = 0, se sigue que el t´ermino que pertenece a los productos cruzados tiene esperanza cero y por lo tanto (4.15)

E(X − a)2 = E(X − µ)2 + (µ − a)2 = Var X + (µ − a)2 .

Ahora es claro de (4.15) que E(X − a)2 se encuentra en un m´ınimo cuando µ = a, y que su valor m´ınimo es Var X. 88

4. Esperanza de Variables Aleatorias Discretas

4.3. Momentos

Frecuentemente podemos hallar los momentos de una variable aleatoria con valores en los enteros no negativos simplemente diferenciando su funci´on generadora de probabilidad ΦX . Por simplicidad, suponga que ∞ X fX (x)tx0 < ∞ x

para alg´ un t0 > 1. Entonces podemos ver a Φx como definida en −t0 < t < t0 por Φ(t) =

∞ X

fX (x)tx ,

−t0 < t < t0 .

x=0

Podemos diferenciar ΦX (t) cualquier n´ umero de veces diferenciando la serie de potencias correspondiente t´ermino a t´ermino. En particular Φ0X (t) =

∞ X

xfX (x)tx−1 ,

−t0 < t < t0 ,

x=1

y Φ00X (t)

=

∞ X

x(x − 1)fX (x)tx−2 ,

−t0 < t < t0 .

x=2

Por nuestras suposiciones sobre t0 , podemos hacer t0 = 1 en estas f´ormulas, obteniendo Φ0X (1) =

∞ X

xfX (x) = EX

x=1

y Φ00X (1) =

∞ X

x(x − 1)fX (x) = EX(X − 1).

x=2

Por lo tanto la media y la varianza de X pueden ser obtenidas de ΦX en t´erminos de las f´ormulas EX = ΦX (1) y Var X = EX 2 − (EX)2 = Φ00X (1) + Φ0X (1) − (Φ0X (1))2 . Se pueden desarrollar f´ormulas similares para los otros momentos de X en t´erminos de las derivadas superiores de ΦX (t) en t = 1. Ahora ilustraremos el uso de estas f´ormulas con los siguientes ejemplos. Ejemplo 8 Distribuci´on binomial negativa. Sea X una variable aleatoria con distribuci´ on binomial negativa de par´ ametros α y p. Encuentre la media y la varianza de X. Del Ejemplo 17 del Cap´ıtulo 3, sabemos que la funci´ on generadora de probabilidad de X est´ a dada α −α por ΦX (t) = p [1 − t(1 − p)] . Consecuentemente, Φ0X (t) = αpα [1 − t(1 − p)]−(α+1) (1 − p) y Φ00X (t) = (α + 1)αpα [1 − t(1 − p)]−(α+2) (1 − p)2 . Entonces Φ0X (1)

 =α 89

1−p p



4. Esperanza de Variables Aleatorias Discretas

4.4. Varianza de una suma

y Φ00X (1) = (α + 1)α



1−p p

2 .

As´ı, EX = αp−1 (1 − p) y  Var X = (α + 1)α =α

1−p p

2

 +α

1−p p

 −α

2



1−p p

2

1−p . p2

En particular, si X tiene la distribuci´ on geom´etrica con par´ ametro p, entonces EX = p−1 (1 − p) −2 (como ya hemos visto) y Var X = p (1 − p). Ejemplo 9 Distribuci´on de Poisson. Sea X una variable aleatoria con distribuci´ on de Poisson con par´ ametro λ. Halle la media y la varianza de X. En el Ejemplo 18 del Cap´ıtulo 3 encontramos que ΦX (t) = eλ(t−1) . Entonces Φ0X (t) = λeλ(t−1) y Φ0X (t) = λ2 eλ(t−1) . Como consecuencia Φ0X (1) = λ y Φ00X (1) = λ2 . Inmediatamente se sigue que EX = λ, lo cual concuerda con la respuesta hallada en el Ejemplo 2, y Var X = λ2 + λ − λ2 = λ. Esto muestra que si X tiene la distribuci´ on de Poisson de par´ ametro λ, entones la media y la varianza de X son ambas iguales a λ.

4.4.

Varianza de una suma

Sean X y Y dos variables aleatorias cada una con segundo momento finito. Entonces X + Y tiene segundo momento finito y por lo tanto varianza finita. Ahora Var (X + Y ) = E[(X + Y ) − E(X + Y )]2 = E[(X − EX) + (Y − EY )]2 = E(X − EX)2 + E(Y − EY )2 + 2E[(X − EX)(Y − EY )] = Var X + Var Y + 2E[(X − EX)(Y − EY )]. As´ı, a diferencia de la media, la varianza de una suma de dos variables aleatorias no es, en general, la suma de las varianzas. La cantidad E[(X − EX)(Y − EY )] 90

4. Esperanza de Variables Aleatorias Discretas

4.4. Varianza de una suma

es llamada la covarianza de X y Y y escrita Cov (X, Y ). As´ı tenemos la importante f´ormula (4.16)

Var (X + Y ) = Var X + Var Y + 2Cov (X, Y ).

ahora (X − EX)(Y − EY ) = XY − (Y )(EX) − X(EY ) + (EX)(EY ), y as´ı tomando esperanzas vemos que (4.17)

Cov (X, Y ) = E[(X − EX)(Y − EY )] = E(XY ) − (EX)(EY ).

De esta forma, es claro que Cov (X, Y ) = 0 cada que X y Y sean independientes. (el Ejemplo 5 muestra que el rec´ıproco es falso.) Vemos de (4.16) que si X y Y son variables aleatorias independientes con segundo momento finito, entonces Var (X + Y ) = Var X + Var Y. En particular si P (Y = x) = 1 para una constante c, entonces X y Y son independientes y la varianza de Y es igual a cero; consecuentemente (4.18)

Var (X + c) = Var X + Var (c) = Var X.

M´as a´ un, si X1 , X2 , . . . , Xn son n variables aleatorias cada una con segundo momento finito, entonces ! n n n−1 n X X X X (4.19) Var Xi = Var Xi + 2 Cov (Xi , Xj ), i=1

i=1

i=1 j=i+1

y, en particular, si X1 , . . . , Xn son mutuamente independientes, entonces ! n n X X (4.20) Var Xi = Var Xi . i=1

i=1

Se pueden derivar estas f´ormulas por un c´alculo directo similar (pero un poco m´as complicado) al utilizado para el caso n = 2, o se pueden establecer del caso n = 2 por inducci´on sobre n. En particular, si X1 , X2 , . . . , Xn son variables aleatorias independientes con varianza com´ un σ 2 (por ejemplo, si cada una tiene la misma densidad), entonces (4.21)

Var (X1 + X2 + · · · + Xn ) = nVar X1 = nσ 2 .

Otro hecho elemental pero demasiado u ´til es que Var (aX) = a2 Var (X). Se deja la verificaci´ on de este hecho al lector. Ejemplo 10 Distribuci´on binomial. Sean X1 , . . . , Xn n variables aleatorias de Bernoulli independientes cada una con la misma probabilidad p de asumir el valor 1. Entonces (v´ease el Ejemplo 6) la suma Sn = X1 + · · · + Xn tiene distribuci´ on binomial con par´ ametros n y p. Previamente hemos mostrado que ESn = np. Utilizando (4.21) encontramos de una vez que Var Sn = nVar X1 . Ahora X12 = X1 porque X1 es ya sea 0 o 1. Entonces EX12 = EX1 = p y as´ı Var X1 = EX12 − (EX1 )2 = p − p2 = p(1 − p). Como consecuencia Var Sn = np(1 − p). 91

4. Esperanza de Variables Aleatorias Discretas

4.4. Varianza de una suma

En resumen, la media de una variable aleatoria con distribuci´on binomial es np y su varianza es np(1 − p). Ejemplo 11 Distribuci´ on hipergeom´ etrica. Considere la misma situaci´ on que en el Ejemplo 7. Ahora queremos calcular Var Sn , para obtener as´ı la varianza de una distribuci´ on hipergeom´etrica. Para este fin utilizaremos la ecuaci´ on (4.19). Para los indicadores dependientes X1 , . . . , Xn hallamos previamente que r1 P (Xi = 1) = EXi = . r Ya que Xi2 = Xi vemos que Var Xi = EXi2 − (EXi )2 = r   r1  1 1− . = r r

r  1

r



 r 2 1

r

Como siguiente paso debemos calcular las covarianzas. Asuma que 1 ≤ i < j ≤ n. Ahora Xi Xj = 0 a menos que tanto Xi como Xj sean 1, entonces Cov (Xi , Xj ) = E(Xi Xj ) − (EXi )(EXj ) r1 (r1 − 1)  r1 2 = − r(r − 1) r  r  r − 1 r  1 1 1 = − r r r r   r − r  1 1 = , r r(r − 1) y as´ı n−1 X

n X

i=1 j=i+1

n(n − 1)  r1  Cov (Xi , Xj ) = 2 r



r1 − r r(r − 1)

 .

Ahora se sigue de (4.19) que r1 (r − r1 ) r1 (r − r1 ) − n(n − 1) 2 r2 r (r − 1)   r    r1 n−1 1 =n 1− 1− . r r r−1

Var Sn = n

Es interesante el comparar la media y la varianza para la distribuci´on hipergeom´etrica con las de la distribuci´on binomial que tiene la misma probabilidad de ´exito p = (r1 /r). Suponga que tenemos una poblaci´on de r objetos con r1 de un primer tipo y r − r1 de un segundo tipo. Se extrae una muestra aleatoria de tama˜ no n de la poblaci´on. Sea Y que denote el n´ umero de objetos del primer tipo en la muestra. Si el muestreo es hecho con reemplazo entonces Y tiene distribuci´on binomial con par´ametros n y p = (r1 /r), y as´ı r  r   r1  1 1 EY = n y Var Y = n 1− . r r r Por otro lado, si el muestreo se realiza sin reemplazo. entonces Y tiene la distribuci´on hipergeom´etrica,   r  r   r1  n−1 1 1 EY = n y Var Y = n 1− 1− . r r r r−1 92

4. Esperanza de Variables Aleatorias Discretas

4.5. Coeficiente de correlaci´ on

La media es la misma en ambos casos, pero en el muestreo sin reemplazo la varianza es menor. Intuitivamente, mientras m´as cerca est´e n de r m´as determinista se vuelve Y cuando obtenemos muestras sin reemplazo. De hecho, si n = r la varianza es cero y P (Y = r1 ) = 1. Pero si r es grande comparado con n, de tal manera que (n/r) sea cercano a cero, la proporci´on de las varianzas obtenidas en los muestreos con o sin reemplazo es cercana a uno. Esto es como debiera ser, ya que para n fijo y r grande hay poca diferencia entre el muestreo con reemplazo y el muestreo sin reemplazo.

4.5.

Coeficiente de correlaci´ on

Sean X y Y dos variables aleatorias con varianzas finitas distintas de cero. Una medida del grado de dependencia entre las dos variables aleatorias es el coeficiente de correlaci´ on ρ(X, Y ) definido por (4.22)

ρ = ρ(X, Y ) = p

Cov (X, Y ) (Var X)(Var Y )

.

Dichas variables aleatorias se dicen estar no correlacionadas si ρ = 0. Ya que (Cov (X, Y ) = 0 si X y Y son independientes, vemos de una vez que las variables aleatorias independientes no est´ an correlacionadas. Tambi´en es posible que variables aleatorias dependientes no est´en correlacionadas, como se puede ver en el Ejemplo 5. En estad´ıstica es importante el saber que el coeficiente de correlaci´on ρ siempre se encuentra entre −1 y 1, y que |ρ| = 1 si y solo si P (X = aY ) = 1 para alguna constante a. Estos hechos son consecuencias f´aciles de la siguiente desigualdad b´asica, llamada la Desigualdad de Schwarz. Teorema 7 La Desigualdad de Schwarz. Sean X y Y variables aleatorias con segundo momento finito. Entonces (4.23)

[E(XY )]2 ≤ (EX 2 )(EY 2 ).

A´ un m´ as, la igualdad se cumple en (4.23) si y solo si P (Y = 0) = 1 o P (X = aY ) = 1 para alguna constante a. Demostraci´on: Si P (Y = 0) = 1, entonces P (XY = 0) = 1, EXY = 0 y EY 2 = 0; as´ı en este caso en (4.23) se cumple la igualdad. Tambi´en, si P (X = aY ) = 1, entonces un simple c´ alculo mostrar´ a que ambos lados de (4.23) son iguales a (a2 EY 2 )2 . Ahora mostraremos que (4.23) siempre se cumple. De la discusi´ on anterior podemos asumir que 2 P (Y = 0) < 1 y as´ı EY > 0. La prueba se basa en un simple pero inteligente truco. Observe que para cualquier n´ umero real λ 0 ≤ E(X − λY )2 = λ2 EY 2 − 2λEXY + EX 2 . Esta es una funci´ on cuadr´ atica en λ. Ya que el coeficiente EY 2 de λ2 es positivo, se alcanza el m´ınimo para alg´ un valor de λ, digamos λ = a, el cual puede ser hallado por el m´etodo usual del c´ alculo de hacer la derivada igual a 0 y resolver. La respuesta es a = [E(XY )][EY 2 ]−1 . Ya que el valor correspondiente de la funci´ on es (4.24)

0 ≤ E(X − aY )2 = EX 2 −

[E(XY )]2 EY 2

se sigue que (4.23) se cumple. Si la igualdad se cumple en la desigualdad de Schwarz (4.23), entonces de (4.24) vemos que E(X − aY )2 = 0, as´ı que P [(X − aY ) = 0] = 1. 93

4. Esperanza de Variables Aleatorias Discretas

4.6. Desigualdad de Chebyshev

Esto completa la demostraci´ on.  Aplicando la desigualdad de Schwarz a las variables aleatorias (X − EX) y (Y − EY ) nos damos cuenta de que (E[(X − EX)(Y − EY )])2 ≤ [E(X − EX)2 ][E(Y − EY )2 ]; esto es, [Cov (X, Y )]2 ≤ (Var X)(Var Y ). As´ı, por la definici´on de ρ |ρ(X, Y )| ≤ 1. Tambi´en vemos del Teorema 7 que |ρ| = 1 si y solo si P (X = aY ) = 1 para alguna constante a. El coeficiente de correlaci´on es de uso limitado dentro de la teor´ıa de la probabilidad. Aparece principalmente en estad´ıstica y una discusi´on m´as amplia de ´el ser´a pospuesta hasta el Volumen II.

4.6.

Desigualdad de Chebyshev

Sea X una variable aleatoria no negativa con esperanza finita, y sea t un n´ umero real positivo. Definimos la variable aleatoria Y haciendo Y = 0 si X < t y Y = t si X ≥ t. As´ı Y es una variable aleatoria discreta con dos posibles valores 0 y t la cual los asume con probabilidades P (Y = 0) = P (X < t) y P (Y = t) = P (X ≥ t) respectivamente. Entonces EY = t · P (Y = t) + 0 · P (Y = 0) = tP (Y = t) = tP (X ≥ t). Claramente se tiene X ≥ Y y por lo tanto EX ≥ EY . As´ı EX ≥ EY = tP (X ≥ t) o (4.25)

P (X ≥ t) ≤

EX . t

Una gran variedad de desigualdades muy u ´tiles se pueden deducir de (4.25). La m´as importante de ellas es la desigualdad de Chebyshev. Desigualdad de Chebyshev. Sea X una variable aleatoria con esperanza µ y varianza finita σ 2 . entonces para cualquier n´ umero real t > 0 (4.26)

P (|X − µ| ≥ t) ≤

σ2 . t2

Para demostrar (4.26), apliquemos (4.25) a la variable aleatoria no negativa (X − µ)2 y al n´ umero 2 t . Concluimos que E(X − µ)2 σ2 P ((X − µ)2 ≥ t2 ) ≤ = . t2 t2 Ya que (X − µ)2 ≥ t2 si y solo si |X − µ| ≥ t vemos que (4.26) se cumple. La desigualdad de Chebyshev nos da una cota superior en t´erminos de Var X y t para la probabilidad de que X se desvi´e de su media en m´as de t unidades. Su virtud yace en su gran generalidad. No se hizo ning´ un tipo de suposici´on sobre la distribuci´on de X salvo que tuviera varianza finita. Esta desigualdad es el punto de partida para numerosos desarrollos te´oricos. Para 94

4. Esperanza de Variables Aleatorias Discretas

4.6. Desigualdad de Chebyshev

la mayor´ıa de las distribuciones que aparecen en los casos pr´acticos, existen cotas mucho m´as finas para P (|X − µ| ≥ t) que la ofrecida as´ı por la desigualdad de Chebyshev; sin embargo, los ejemplos muestran que en general la cota dada por la desigualdad de Chebyshev no puede ser mejorada (v´ease el Ejercicio 26). Sean X1 , . . . , Xn n variables aleatorias independientes con la misma distribuci´on. Estas variables aleatorias se pueden ver como n mediciones independientes de alguna cantidad que se distribuye de acuerdo a su distribuci´on en com´ un. En este sentido a veces hablaremos de las variables aleatorias X1 , . . . , Xn como que constituyen una muestra aleatoria de tama˜ no n de esta distribuci´on. Suponga que la distribuci´on en com´ un de estas variables aleatorias tiene media finita µ. Entonces para n suficientemente grande esperar´ıamos que su media aritm´etica Sn /n = (X1 , . . . , Xn )/n se encuentre cerca de µ. Si las Xi tambi´en poseen varianza finita, entonces   Sn nσ 2 σ2 Var = 2 = n n n y as´ı Var (Sn /n) → 0 cuando n → ∞. Como se discuti´o en la Secci´on 4.3, esto implica que cuando n se vuelve grande la distribuci´on Sn /n se concentra m´as alrededor de su media µ. Precisando, aplicando la desigualdad de Chebyshev a Sn /n obtenemos la desigualdad   Sn σ2 Var (Sn /n) (4.27) P − µ ≥ δ ≤ = . n δ2 nδ 2 En particular, se sigue de (4.27) que para cualquier δ > 0   Sn (4.28) l´ım P − µ ≥ δ = 0. n→∞ n Podemos interpretar (4.28) de la siguiente manera. El n´ umero δ se puede ver como la precisi´ on deseada en la aproximaci´on a µ por Sn /n. La ecuaci´on (4.28) nos asegura que no importando que tan peque˜ no se elija el n´ umero δ, la probabilidad de que Sn /n se aproxime a µ dentro de esta precisi´on, esto es, P (|(Sn /n) − µ| < δ), converge a 1 cuando el n´ umero de observaciones crece. este hecho se llama la Ley D´ ebil de los N´ umeros Grandes. Hemos demostrado esta ley solo bajo la suposici´on de que la varianza en com´ un de las Xi es finita. De hecho, esto no es necesario; todo lo que se necesita es que las variables aleatorias Xi tengan media finita. Mencionaremos este resultado m´as general en el siguiente teorema. La demostraci´on ser´a dada en el Cap´ıtulo 8. Teorema 8 Ley D´ebil de los N´ umeros Grandes. Sean X1 , X2 , . . . , Xn variables aleatorias independientes que tengan distribuci´ on com´ un con media finita µ y sea Sn = X1 + · · · + Xn . Entonces para cualquier δ > 0   Sn l´ım P − µ ≥ δ = 0. n→∞ n Siempre que las variables aleatorias Xi tengan media finita, la ley d´ebil se cumple. Sin embargo, cuando tambi´en poseen varianza finita, entonces (4.27) se Este es un enunciado m´as preciso cumple.  ya que nos ofrece una cota superior para P Snn − µ ≥ δ . en t´erminos de n. A continuaci´ on ilustraremos el uso de (4.27) aplic´andolo a variables aleatorias con distribuci´on binomial. Sean X1 , X2 , . . . , Xn n variables aleatorias de Bernoulli independientes las cuales asumen el valor 1 con probabilidad com´ un p. Entonces µ = p y σ 2 = p(1 − p). Por lo tanto, (4.27) muestra que   Sn p(1 − p) (4.29) P − p ≥ δ ≤ . n nδ 2 95

4. Esperanza de Variables Aleatorias Discretas

4.6. Desigualdad de Chebyshev

Ya que p(1 − p) ≤ 1/4 si 0 < p < 1 (porque por los m´etodos usuales del c´alculo se puede demostrar que p(1 − p) tiene un valor m´aximo en p = 1/2), se sigue que sin importar que pueda ser p,   Sn 1 (4.30) P − p ≥ δ ≤ . n 4nδ 2 La ecuaci´ ´til cuando queremos saber el valor de p, mientras que (4.30) nos da una cota oSn (4.29) es u n sobre P n − p ≥ δ la cu´al es v´alida para cualquier valor de p. Si p es cercano a 1/2, (4.29) y (4.30) no difieren en mucho, pero si p se encuentra lejos de 1/2 la estimaci´on dada por (4.29) puede ser mucho mejor. (De hecho, a´ un las cotas dadas por (4.29) son demasiado pobres). En el Cap´ıtulo 7 discutiremos otro m´etodo el cual lleva a estimaciones mucho mejores. Suponga que se dan δ > 0 y  > 0. Podemos utilizar (4.29) o (4.30) para hallar una cota inferior sobre el n´ umero de ensayos que son necesarios para asegurarnos de que   Sn − p ≥ δ ≤ . P n De hecho, de (4.29) vemos que este ser´a el caso si p(1 − p)/nδ 2 ≤ . Resolviendo para n encontramos que n ≥ p(1 − p)/δ 2 . Si en vez de esto utilizamos (4.30), entonces n ≥ (4δ 2 )−1 ensayos lo har´an. Mencionamos de nuevo que estas cotas sobre n dadas por la desigualdad de Chebyshev son demasiado pobres y que de hecho un n´ umero mucho menor de ensayos ser´ıan suficientes. Como una ilustraci´on de la diferencia entre estas dos estimaciones para n, elija δ =.1 y  =.01. Entonces δ 2  = 10−4 y de (4.30) vemos que para garantizar que   Sn P − p ≥ .1 ≤ .01 n necesitar´ıamos n = 104 /4 = 2500 observaciones. Suponga, sin embargo, que sabemos que p =.1. Entonces, como p(1 − p) =.09 vemos de (4.29) que n ≥ .09 × 104 = 900 observaciones bastar´ an. Para p = 1/2, (4.29) nos ofrece la misma estimaci´on que (4.30), a saber 2500. Para ilustrar que las cotas de Chebyshev son realmente pobres para este caso de la distribuci´ on binomial, suponga n =100 y p = 1/2. De (4.29) obtenemos as´ı   Sn P − .5 ≥ .1 ≤ .25. n Se debe comparar esto con el valor exacto para esta probabilidad, el cual es de .038. Ejercicios 1.-Sea N un entero positivo y f la funci´on definida por    2x , x = 1, 2, . . . , N, f (x) = N (N +1)   0, en caso contrario. Muestre que esta f es una funci´on de densidad discreta y halle su media. Sugerencia: N X x=1

N (N + 1) x= 2

y

N X x=1

96

x2 =

N (N + 1)(2N + 1) . 6

4. Esperanza de Variables Aleatorias Discretas

4.6. Desigualdad de Chebyshev

2.-Sea que X tenga densidad binomial con par´ametros n = 4 y p. Halle E[sin(πX/2)]. 3.-Suponga que X tiene densidad de Poisson con par´ametro λ. Calcule la media de (1 + X)−1 . 4.-Si X tiene media 1 y Y tiene media 3, ¿Cu´al es la media de 2X + 5Y ?. 5.-Suponga que X y Y son dos variables aleatorias tales que P (|X − Y | ≤ M ) = 1 para alguna constante M . Demuestre que si Y tiene esperanza finita, entonces tambi´en X tiene esperanza finita y |EX − EY | ≤ M . 6.-Sea X una variable aleatoria con distribuci´on geom´etrica y sea M > 0 un entero. Sea Z = min (X, M ). Calcule la media de Y .Sugerencia: Utilize el Teorema 5. 7.-Sea X una variable aleatoria con distribuci´on geom´etrica y sea M > 0 un entero. Sea Y = max (X, M ). Calcule la media de Y .Sugerencia: Calcule P (Y < y) y despu´es utilize el Teorema 5. 8.-Sea X uniformemente distribuida sobre {0, 1, . . . , N }. Encuentre la media y la varianza de X utilizando el tip del Ejercicio 1. 9.-Construya un ejemplo de una densidad que tenga momento finito orden r, pero no posea P de −(r+2) x y convi´ertala en momento alguno de orden superior.Sugerencia: Considere la serie ∞ x=1 una densidad. 10.-Suponga que X y Y son dos variables aleatorias independientes tales que EX 4 = 2, EY 2 = 1, EX 2 = 1 y EY = 0. Calcule Var (X 2 Y ). 11.-Demuestre que Var (aX) = a2 Var X. 12.-Sea X una variable aleatoria con distribuci´on binomial de par´ametros n y p. Utilize la funci´ on generadora de probabilidad de X para calcular su media y su varianza. 13.-Sea X una variable aleatoria con valores en los enteros no negativos. (a)Muestre que ΦX (t) = EtX , −1 ≤ t ≤ 1, Φ0X (t) = EXtX−1 ,

−1 < t < 1,

Φ00X (t) = EX(X − 1)tX−2 ,

−1 < t < 1.

(b) Utilize el Teorema 4 para volver a derivar el resultado de que si X y Y son variables aleatorias independientes con valores en los enteros no negativos, entonces ΦX+Y (t) = ΦX (t)ΦY (t),

−1 ≤ t ≤ 1.

14.-Sean X y Y dos variables aleatorias con segundo momento finito. Calcule la media y la varianza de 2X + 3Y en t´erminos de las correspondientes a X y Y . 15.-Sean X1 , . . . , Xn variables aleatorias con densidad com´ un, media µ y varianza σ 2 tambi´en comunes. Sea X = (X1 + · · · + Xn )/n. (a)Si escribimos Xk − X = (Xk − µ) − (X − µ), muestre que n X k=1

2

(Xk − X) =

n X

(Xk − µ)2 − n(X − µ)2 .

k=1

97

4. Esperanza de Variables Aleatorias Discretas

4.6. Desigualdad de Chebyshev

(b) Concluya de (a) que E

n X

! (Xk − X)2

= (n − 1)σ 2 .

k=1

16.-Suponga que se distribuyen n bolas al azar en r cajas. Sea Xi = 1 si la caja i est´a vac´ıa y Xi = 0 en caso contrario. (a)Calcule EXi . (b)Para i 6= j, calcule E(Xi Xj ). (c)Sea Sr que denote el n´ umero de cajas vac´ıas. Escriba Sr = X1 + · · · + Xr , y utilize el resultado del inciso (a) para calcular ESr . (d)Utilize el resultado de (a) y (b) para calcular Var Sr . 17.-Suponga que se tienen dos mazos de n cartas, cada una numerada 1, 2, . . . , n. Los dos mazos se barajan y las cartas son emparejadas una contra la otra. Decimos que un emparejamiento ocurre en la posici´on i si la i-´esima carta de cada mazo tiene el mismo n´ umero. Sea Sn el n´ umero de emparejamientos. (a)Calcule ESn . (b)Calcule Var Sn .Sugerencia: Sea Xi = 1 si hay un emparejamiento en la posici´on i, y sea Xi = 0 en caso contrario. Entonces Sn = X1 + · · · + Xn . De los resultados del cap´ıtulo 2 sabemos que 1 P (Xi = 1) = 1/n y que si i 6= j, P (Xi = 1, Xj = 1) = n(n−1) . 18.-Considere la variable aleatoria Sk introducida en el Ejemplo 8. Calcule Var Sk . 19.-Establezca las siguientes propiedades de la covarianza: (a)Cov (X, X); Pm Pn P(Y, P Y ) = Cov n a X , (b)Cov ( m i=1 j=1 ai bj Cov (Xi , Yj ). j=1 bj Yj ) = i=1 i i σ32

20.-Sean X1 , X2 y X3 variables aleatorias independientes con varianzas positivas finitas σ12 , σ22 y respectivamente. Halle la correlaci´on entre X1 − X2 y X2 + X3 .

21.-Suponga que X y Y son dos variables aleatorias tales que ρ(X, Y ) = 1/2, Var X = 1 y Var Y = 2. Calcule Var (X − 2Y ). 22.-Una caja tiene 3 bolas rojas y 2 bolas negras. Se extrae una muestra aleatoria de tama˜ no 2 sin reemplazo. Sea U el n´ umero de bolas rojas seleccionadas y V el n´ umero de bolas negras seleccionadas as´ı. Calcule ρ(U, V ). 23.-Suponga que una caja tiene 3 bolas etiquetadas 1,2 y 3. Se seleccionan dos bolas sin reemplazo de la caja. Sea X que represente el n´ umero de la primera bola y Y el n´ umero de la segunda bola. Calcule Cov (X, Y ) y ρ(X, Y ). 24.-Suponga que se repite n veces un experimento que tiene r resultados posibles 1, 2 . . . , r, los cuales ocurren con probabilidades p1 , . . . , pr . Sea X que denote el n´ umero de veces que ocurre el primer resultado y Y que represente el n´ umero de veces que ocurre el segundo. Muestre que r p1 p2 ρ(X, Y ) = − (1 − p1 )(1 − p2 ) efectuando los siguientes pasos. Sea Ii = 1 si el i-´esimo ensayo dio el primer resultado, y que sea Ii = 0 en caso contrario. De manera similar, sea Ji = 1 si el i-´esimo ensayo dio el segundo resultado, y sea Ji = 0 en caso contrario. Entonces X = I1 + · · · + In y Y = J1 + · · · + Jn . Ahora demuestre lo siguiente: 98

4. Esperanza de Variables Aleatorias Discretas

4.6. Desigualdad de Chebyshev

(a)E(Ii Ji ) = 0. (b)Si i 6= j, E(Ii Jj ) = p1 p2 .  P P P n (c) E(XY ) = E ( ni=1 Ii Ji ) + E i=1 j6=i Ii Ji = n(n − 1)p1 p2 . (d)Cov (X, Y ) = q−np1 p2 . p2 . (e)ρ(X, Y ) = − (1−pp11)(1−p 2) 25.-Suponga que se tiene una poblaci´on de r objetos, la cual consiste en r1 objetos del tipo 1, r2 objetos del tipo 2 y r3 objetos del tipo 3, donde r1 + r2 + r3 = r. Se extrae de esta poblaci´ on una muestra aleatoria de tama˜ no n ≤ r sin reemplazo. Sea que X denote el n´ umero de objetos del tipo 1 en la muestra y Y que denote el n´ umero de objetos del tipo 2. Calcule ρ(X, Y ) haciendo lo siguiente. Sea Ii = 1 o 0 seg´ un el i-´esimo elemento en la muestra sea del tipo 1 o no y sea Ji = 1 o 0 seg´ un el i-´esimo elemento de la muestra sea del tipo 2 o no. (a)Muestre que EIi = r1 /r y que EJi = r2 /r. (b) Muestre que para i 6= j, r1 r2 EIi Jj = r(r − 1) y que E(Ii Ji ) = 0. (c) Haga X = I1 + · · · + In y Y = J1 + · · · + Jn y utilize (a) y (b) para calcular E(XY ), Var X y Var Y . (d) Utilize (c) para calcular ρ(X, Y ). Compare con el correspondiente coeficiente de correlaci´ on en el Ejercicio 24 con p1 = r1 /r y p2 = r2 /r. 26.-Sea X una variable aleatoria con densidad f dada por   1/18, x = 1, 3, f (x) =   16/18, x = 2. Muestre que existe un valor de δ tal que P (|X − µ| ≥ δ) = Var X/δ 2 , as´ı que en general la cota dada por la desigualdad de Chebyshev no pude ser mejorada. 27.-Un fabricante de pernos sabe que el 5 % de su producci´on resulta defectuosa. En su entrega de 10000 piezas da la garant´ıa de regresar el dinero si en el embarque m´as de a pernos resultan defectuosos. ¿Qu´e tan peque˜ na puede el fabricante elegir la a y a´ un as´ı estar seguro de que no necesitar´a devolver el dinero m´as del 1 % de las veces?. 28.-Sea X una variable aleatoria con densidad de Poisson de par´ametro λ. Utilize la desigualdad de Chebyshev para verificar las siguientes desigualdades: (a)P X ≤ λ2 ≤ λ4 ; (b)P (X ≥ 2λ) ≤ λ1 . 29.-Sea X una variable aleatoria con valores en los enteros no negativos cuya funci´on generadora de probabilidad es ΦX (t) = EtX , la cual es finita para todo t y sea x0 un n´ umero positivo. Argumentando como en la prueba de la desigualdad de Chebyshev, verifique las siguientes desigualdades: (a)P (X ≤ x0 ) ≤ ΦtXx0(t) , 0 ≤ t ≤ 1; ΦX (t) t ≥ 1. (b)P (X ≥ x0 ) ≤ tx0 , 30.-Sea que X tenga densidad de Poisson con par´ametro λ. Verifique las siguientes desigualdades:  λ/2 λ (a)P X ≤ λ2 ≤ 2e ; (b)P (X ≥ 2λ) ≥ 4e . Sugerencia: Utilize c´alculo para minimizar los lados derechos de las desigualdades en el Ejercicio 29. Estas desigualdades son mucho m´as exactas, especialmente para valores grandes de λ, que aquellas dadas en el Ejercicio 28. 99

4. Esperanza de Variables Aleatorias Discretas

4.6. Desigualdad de Chebyshev

Los ejercicios del 31 al 36 desarrollan y aplican las nociones de densidades condicionales y esperanza condicional Sean X y Y variables aleatorias discretas. La densidad condicional fY |X (y|x) de Y dada X = x se define por   P (Y = y|X = x), si P (X = x) > 0, fY |X (y|x) =   0, en caso contrario. Para toda x tal que P (X = x) > 0 se sigue que fY |X (y|x) es una densidad en y. El ejemplo 14(d) del Cap´ıtulo 3 se puede interpretar diciendo que si X y Y son dos variables aleatorias independientes cada una con distribuci´on geom´etrica con par´ametro p, entonces, para z ≥ 0, la densidad condicional de Y dado X + Y = z es la densidad uniforme en {0, 1, . . . , z}. Sea que Y tenga esperanza finita. La esperanza condicional de Y dada X = x se define como la media de la media de la densidad de Y dada X = x, i.e., como X E[Y |X = x] = yfY |X (y|x). y

31.-Verifique las siguientes propiedades de la densidad condicional y de la esperanza condicional: P P (a)fY (y) = x fX (x)fY |X (y|x); (b)EY = x fX (x)E[Y |X = x]. 32.-Sean X y Y variables aleatorias independientes cada una con densidad geom´etrica con par´ametro p. Encuentre E[Y |X + Y = z], donde z es un entero no negativo. Sugerencia: Utilize el Ejemplo 14(d) y el Ejercicio 8. 33.-Sean X y Y variables aleatorias independientes con distribuci´on de Poisson con par´ametros λ1 y λ2 respectivamente. Calcule E[Y |X + Y = z] donde z es un entero no negativo. Sugerencia: Utilize el resultado del Ejercicio 35 del Cap´ıtulo 3. 34.-Sea N una variable aleatoria con valores en los enteros no negativos. Sean {Yn }, n ≥ 0, variables aleatorias cada una de las cuales posee esperanza finita y es independiente de N . Demuestre que E[YN |N = n] = EYn .

35.-Sean {Xn }, n ≥ 1 variables aleatorias independientes con media finita com´ un µ y varianza σ 2 . Sea S0 = 0 y Sn = X − 1 + · · · + Xn , n ≥ 1. Sea N una variable aleatoria con valores en los enteros no negativos con media y varianza finitas, y suponga que N es independiente de todas las variables aleatorias definidas en t´erminos de {Xn }, n ≥ 1. Por lo tanto SN tiene media y varianza finitas. Muestre que 2 ESN = µEN, ESN = σ 2 EN + µ2 EN 2 , y Var SN = σ 2 EN + µ2 Var N. Sugerencia: Utilize los ejercicios 31(b) y 34. 35.-Obtenga los resultados del Ejercicio 35 diferenciando la funci´on generadora de probabilidad de SN encontrada en el Ejemplo 19 del Cap´ıtulo 3, haciendo t = 1.

100

Cap´ıtulo 5

Variables Aleatorias Continuas En el Cap´ıtulo 3 consideramos variables aleatorias discretas y sus densidades, por ejemplo, binomial, hipergeom´etrica, y de Poisson. En las aplicaciones, estas variables aleatorias t´ıpicamente denotan el n´ umero de objetos de un cierto tipo, tales como el n´ umero de bolas rojas extra´ıdas en una muestra aleatoria de tama˜ no n con o sin reemplazo o el n´ umero de llamadas en un intercambio telef´onico atendidas en un minuto. Hay muchas situaciones, tanto te´oricas como pr´acticas, en las cuales las variables aleatorias a considerar son “continuas” en vez de discretas. Tentativamente podemos definir una variable aleatoria continua X en un espacio de probabilidad Ω como una funci´on X(ω), ω ∈ Ω, tal que P ({ω|X(ω) = x}) = 0,

−∞ < x < ∞

esto es, tal que X tome cualquier valor x en espec´ıfico con probabilidad cero. Es f´acil pensar en ejemplos de variables aleatorias continuas. Como una primera ilustraci´on, consideremos el modelo probabil´ıstico de los tiempos de decaimiento de un n´ umero finito de part´ıculas radioactivas. Sea T la variable aleatoria que denote el tiempo hasta que decaiga la primera part´ıcula. Entonces T ser´ıa una variable aleatoria continua, para la cual la probabilidad de que el primer decaimiento ocurra exactamente en un tiempo en espec´ıfico es cero (por ejemplo, T = 2.00000 . . . segundos). Como segunda ilustraci´on, considere el experimento de escoger un punto al azar de un subconjunto S del n-espacio Euclidiano con volumen n-dimensional finito no cero (recuerde la discusi´on de esto en el Cap´ıtulo 1). Sea X la variable aleatoria que denote la primer coordenada del punto elegido. Es claro que X asumir´a cualquier valor en espec´ıfico con probabilidad cero. Suponga, por ejemplo, que n = 2 y que S es el disco en el plano centrado en el origen de radio unitario. Entonces el conjunto {x = (a, b)|a = 0} es un segmento de l´ınea en el plano. Cualquier segmento as´ı tiene ´ area cero y por lo tanto probabilidad cero. Hablando en general, las variables aleatorias que denotan mediciones de cantidades f´ısicas como coordenadas espaciales, peso, tiempo, temperatura y voltaje son descritas m´as convenientemente como variables aleatorias continuas. Las variables aleatorias que cuentan objetos o eventos son ejemplos claros de variables aleatorias discretas. Hay casos, sin embargo, en los cuales ya sea una formulaci´on continua o discreta podr´ıa ser apropiada. Entonces, aunque normalmente considerar´ıamos la medici´on de la longitud como una variable aleatoria continua, podr´ıamos considerar que la medici´on se redondea a un cierto n´ umero de cifras decimales, y de esta manera, ser´ıa una variable aleatoria discreta. 101

5.1. Variables aleatorias y sus funciones de distribuci´on

5.1.

5. Variables Aleatorias Continuas

Variables aleatorias y sus funciones de distribuci´ on

En las aplicaciones, una variable aleatoria denota una cantidad num´erica definida en t´erminos del resultado de un experimento aleatorio. Matem´aticamente, sin embargo, una variable aleatoria X es una funci´on real definida en un espacio de probabilidad. Naturalmente, queremos que P (X ≤ x) est´e bien definida para cada n´ umero real x. En otras palabras, si (Ω, A, P ) es el espacio de probabilidad sobre el cual est´a definida X, queremos que {ω|X(ω) ≤ x} sea un evento (i.e., un miembro de A). Esto nos lleva a las siguientes definiciones. Definici´ on 1 Una variable aleatoria X en un espacio de probabilidad (Ω, A, P ) es una funci´ on real X(ω), ω ∈ Ω, tal que para −∞ < x < ∞, {ω|X(ω) ≤ x} es un evento. Definici´ on 2 La funci´ on de distribuci´ on F de una variable aleatoria X es la funci´ on F (x) = P (X ≤ x),

−∞ < x < ∞.

La funci´on de distribuci´on resulta u ´til al calcular varias probabilidades asociadas con la variable aleatoria X. Un ejemplo de ello es la f´ormula (5.1)

P (a < X ≤ b) = F (b) − F (a),

a≤b

Para verificar (5.1), sean A = {ω|X(ω) ≤ a} y B = {ω|X(ω) ≤ b}. Entonces A ⊆ B y, por definici´ on de una variable aleatoria, tanto A como B son eventos. Por lo tanto {ω|a < X(ω) ≤ b} = B ∩ Ac es un evento y (5.1) es un caso especial del hecho probado en la Secci´on 1.3 de que si A ⊆ B, entonces P (B ∩ Ac ) = P (B) − P (A). Ejemplo 1 Considere el experimento de escoger un punto al azar del disco en el plano de radio R centrado en el origen. Para hacer el experimento m´ as interesante, podemos pensar en ´el como el resultado del lanzamiento de un dado a un blanco con forma de disco. Se encuentra asociado a este experimento el espacio de probabilidad descrito en la Secci´ on 1.2. Sea X la variable aleatoria que denote la distancia entre el punto escogido y el origen. La funci´ on de distribuci´ on de X se calcula f´ acilmente. Si 0 ≤ x ≤ R, el evento {ω|X(ω) ≤ x} es el disco en el plano de radio x centrado en el origen. Su a ´rea es πx2 . As´ı, por definici´ on de espacio de probabilidad uniforme, P (X ≤ x) =

πx2 x2 = , πR2 R2

0 ≤ x ≤ R.

Si x < 0, entonces P (X ≤ x) = 0. Si x > R, entonces P (X ≤ x) = 1. As´ı la funci´ on de distribuci´ on F de la variable aleatoria X viene dada por    0, x < 0,    (5.2) F (X) = x2 , 0 ≤ x ≤ R,  R2     1, x > R. La gr´ afica de F esta dada en la Figura 1. Se sigue de las f´ ormulas (5.1) y (5.2) que si 0 ≤ a ≤ R, entonces b2 − a2 P (a < X ≤ b) = F (b) − F (a) = . R2 102

5.1. Variables aleatorias y sus funciones de distribuci´on

5. Variables Aleatorias Continuas

1

R

Figura 1 Ejemplo 2 Considere un modelo probabil´ıstico para los tiempos de decaimiento de un n´ umero finito de part´ıculas radioactivas. Sea que X denote el tiempo de decaimiento para una part´ıcula espec´ıfica. Encuentre la funci´ on de distribuci´ on de X. Como vimos en la Secci´ on 1.1, para un valor positivo adecuado para λ, P (a < X ≤ b) = e−λa − e−λb ,

0 ≤ a ≤ b < ∞.

Ya que X toma solo valores positivos, P (X ≤ x) = 0 para x ≤ 0 y, en particular P (X ≤ 0) = 0. Para 0 < x < ∞, P (X ≤ x) = P (X ≤ 0) + P (0 < X ≤ x) = P (0 < X ≤ x) = 1 − e−λx . As´ı X tiene la funci´ on de distribuci´ on F dada por   0, (5.3) F (x) =   1 − e−λx ,

x ≤ 0, x > 0.

Por supuesto, las variables aleatorias discretas tambi´en tienen funciones de distribuci´on, dos de las cuales fueron calculadas en los Ejemplos 10 y 11 del Cap´ıtulo 3. Ejemplo 3 Sea que X tenga una distribuci´ on binomial con par´ ametros n = 2 y p = 1/2. Entonces f (0) = 1/4, f (1) = 1/2 y f (2) = 1/4. Como consecuencia     0, x < 0,      1/4, 0 ≤ x < 1, F (x) =    3/4, 1 ≤ x < 2,       1, 2 ≤ x. La gr´ afica de esta funci´ on de distribuci´ on esta dada en la Figura 2. 1 3/4 1/2 1/4 0

1

2

103

5.1. Variables aleatorias y sus funciones de distribuci´on

5. Variables Aleatorias Continuas

Figura 2

5.1.1.

Propiedades de las funciones de distribuci´ on

No todas las funciones pueden presentarse como funciones de distribuci´on, para esto u ´ltimo deben satisfacer ciertas condiciones. Sea X una variable aleatoria y sea F su funci´on de distribuci´ on. Entonces i 0 ≤ F (x) ≤ 1 ∀x. ii F es una funci´on no decreciente de x. La propiedad (i) se sigue inmediatamente de la caracter´ıstica que la define F (x) = P (X ≤ x). Para ver que se cumple (ii) solo hay que notar que si x < y, entonces F (y) − F (x) = P (x < X ≤ y) ≥ 0. se dice que una funci´on f tiene un l´ımite L por la derecha (por la izquierda) en x si f (x+h) → L cuando h → 0, cuando h est´a restringido a valores positivos (negativos), frecuentemente esta restricci´on sobre h se denota por h ↓ 0 (h ↑ 0). Los l´ımites por la derecha y por la izquierda, cuando existen, son denotados respectivamente por f (x+) y f (x−). No es muy dif´ıcil demostrar que si f es una funci´on acotada y no-decreciente o no-creciente1 , entonces f (x+) y f (x−) existen para toda x. Bajo las mismas condiciones, f tiene l´ımites f (−∞) cuando x → −∞ y f (+∞) cuando x → +∞. De las propiedades 1 a la 2 y de la discusi´on del p´arrafo anterior, se sigue que la funci´ on de distribuci´on F tiene l´ımites F (x+) y F (x−) para toda x, as´ı como tambi´en los l´ımites F (−∞) y F (+∞). iii F (−∞) = 0 y F (+∞) = 1. iv F (x+) = F (x) para toda x. Para poder evaluar F (−∞) y F (+∞) solo necesitamos encontrar los l´ımites de F (n) cuando n → −∞ y cuando n → +∞. (Esto porque F es no-decreciente.) Hagamos Bn = {ω|X(ω) ≤ n}. As´ı · · · ⊆ B−2 ⊆ B−1 ⊆ B0 ⊆ B1 ⊆ B2 ⊆ · · · .Tambi´en −∞ \

Bn = ∅

y

n=0

+∞ [

Bn = Ω.

n=0

Se sigue de los resultados del Teorema 1 del Cap´ıtulo 1 que l´ım P (Bn ) = P (∅) = 0

n→−∞

y

l´ım P (Bn ) = P (Ω) = 1.

n→+∞

Como F (n) = P (X ≤ n) = P (Bn ), tenemos que F (−∞) = l´ım F (n) = l´ım P (Bn ) = 0 n→−∞

n→−∞

y de manera similar se tiene que F (+∞) = 1. 1

Es decir, mon´ otona creciente o mon´ otona decreciente (N. del T.)

104

5.1. Variables aleatorias y sus funciones de distribuci´on

5. Variables Aleatorias Continuas

La propiedad (iv) establece que F es una funci´on continua por la derecha y F (x+) = P (X ≤ x),

(5.4)

−∞ < x < ∞.

Un resultado muy relacionado es (5.5)

−∞ < x < ∞,

F (x−) = P (X < x),

Las pruebas de (5.4) y (5.5) son similares a la prueba de 3. Para demostrar (5.4), por ejemplo, solamente necesitamos mostrar que F (x + 1/n) → P (X ≤ x) cuando n → +∞. Podemos hacer esto haciendo   1 Bn = ω|X(ω) ≤ x + , n notando que ∩b Bn = {ω|X(ω) ≤ x} y repitiendo el argumento de 3. De (5.4) y (5.5) observamos de inmediato que (5.6)

F (x+) − F (x−) = P (X = x),

−∞ < x < ∞.

esta f´ormula establece que si P (X = x) > 0, entonces F tiene un salto de magnitud P (X = x) en x. Si P (X = x) = 0, entonces F es continua en x. Ahora recordemos de la introducci´on del cap´ıtulo el concepto de una variable aleatoria continua. Definici´ on 3 Una variable aleatoria X se dice ser una variable aleatoria continua si −∞ < x < ∞.

P (X = x) = 0,

Vemos ahora que X es una variable aleatoria continua si y solo si su funci´on de distribuci´ on F es continua en cada x, esto es, F es una funci´on continua. Si X es una variable aleatoria continua, entonces en adici´on a (5.1) tenemos que (5.7)

P (a < X < b) = P (a ≤ X ≤ b) = P (a ≤ X < b) = F (b) − F (a),

as´ı que < y ≤ se pueden utilizar sin distinci´on en este contexto. Las numerosas propiedades de una funci´on de distribuci´on se ilustran en la Figura 3. (Note que la variable aleatoria que posea esta distribuci´on no ser´ıa ni discreta ni continua).

y=1

F(+h)=0

F(x+)-F(x-)=P(X=x) F(x-) F(-h)=0

y=0 Figura 3 105

x

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

Considere la variable aleatoria X definida en el Ejemplo 1. De la f´ormula (5.2) o de la Figura 1 observamos que su funci´on de distribuci´on es continua. Entonces X es una variable aleatoria continua. De manera similar es claro de (5.3) que la variable aleatoria del Ejemplo 2 es una variable aleatoria continua. La mayor´ıa de las variables aleatorias que aparecen en las aplicaciones son o discretas o continuas. Existen algunas excepciones. Considere el Ejemplo 2. En este ejemplo X representa el tiempo de decaimiento de una part´ıcula espec´ıfica. Si el experimento dura solamente un periodo espec´ıfico de tiempo, digamos hasta el tiempo t0 > 0, y la part´ıcula a´ un no ha deca´ıdo en este tiempo, entonces su tiempo real de decaimiento X no ser´a observado. Una manera posible de esquivar esta dificultad es el definir una nueva variable aleatoria Y como sigue

Y (ω) =

  X(ω)

si X(ω) ≤ t0 ,

  t0

si X(ω) > t0 .

As´ı Y es el tiempo de decaimiento, si este tiempo se observ´o (i.e., es menor o igual que t0 ) y en caso contrario Y = t0 . La funci´on de distribuci´on FY de Y est´a dada por

FY (y) =

   0,   

y < 0,

−λy , 0 ≤ y < t , 0 1 − e     1, y ≥ t0 .

La funci´on de distribuci´on tiene un salto en y = t0 de magnitud e−λt0 . As´ı es claro que la variable aleatoria Y que hemos construido no es ni discreta ni continua. Hemos definido las funciones de distribuci´on en t´erminos de las variables aleatorias. Ellas pueden ser definidas directamente. Definici´ on 4 Una funci´ on de distribuci´ on es cualquier funci´ on F que satisface las propiedades 1-4; esto es, 1. 0 ≤ F (x) ≤ 1 para toda x, 2. F es una funci´ on de x no decreciente, 3. F (−∞) = 0 y F (+∞) = 1, 4. F (x+) = F (x) para toda x. En libros m´as avanzados se demuestra que si F es una funci´ on de distribuci´ on, entonces necesariamente existen un espacio de probabilidad y una variable aleatoria X definida en ese espacio de tal forma que F es la funci´ on de distribuci´ on de X.

5.2.

Densidades de variables aleatorias continuas

En la pr´actica, las funciones de distribuci´on continuas son frecuentemente definidas en t´erminos de funciones de densidad. 106

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

Definici´ on 5 Una funci´ on de densidad (con respecto a la integraci´ on) es una funci´ on no negativa f tal que Z∞ f (x) dx = 1. −∞

Note que si f es una funci´on de densidad, entonces la funci´on F definida por Zx (5.8)

F (x) :=

−∞ < x < ∞,

f (y) dy, −∞

es una funci´on continua que satisface las propiedades (i)-(iv) de la Secci´on 5.1.1. Entonces (5.8) define una funci´on de distribuci´on continua. Decimos que esta funci´on de distribuci´on tiene densidad f . Es posible, pero dif´ıcil, el construir ejemplos de funciones de distribuci´on continuas que no posean densidades. Aquellas que poseen una densidad se llaman funciones de distribuci´ on absolutamente continuas. Si X es una variable aleatoria continua con F como su funci´on de distribuci´on, donde F est´a dada por (5.8), entonces f tambi´en se dice la densidad de X. En lo que sigue utilizaremos el t´ermino “funci´on de densidad” para referirnos ya sea a las funciones de densidad discreta o a las funciones de densidad con respecto a la integraci´on. Por el contexto deber´ıa ser claro que tipo de funci´ on de densidad se encuentra bajo consideraci´on. Por ejemplo, la frase “sea X una variable aleatoria continua con densidad f ” necesariamente implica que f es una funci´on de densidad con respecto a la integraci´on. Se sigue de (5.1) y (5.8) que si X es una variable aleatoria continua con densidad f , entonces Zb (5.9)

P (z ≤ X ≤ b) =

a ≤ b,

f (x) dx, a

o de una manera m´as general, que Z (5.10)

P (X ∈ A) =

f (x) dx A

si A es la uni´on a lo sumo numerable de intervalos disjuntos. As´ı P (X ∈ A) se puede representar como el ´area bajo la curva f cuando x var´ıa sobre el conjunto A (ver Figura 4).

f

A

Figura 4 107

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

En muchas aplicaciones, la forma m´as f´acil de calcular densidades de las variables aleatorias continuas es diferenciando (5.8) y obtener as´ı f (x) = F 0 (x),

(5.11)

−∞ < x < ∞.

Estrictamente hablando, (5.11) se cumple en todos los puntos en los cuales f sea continua. Ejemplo 4 Sea X la variable aleatoria del Ejemplo (5.2). Entonces    0,    0 (5.12) F (x) = 2x/R2 ,      0,

1 con la funci´ on de distribuci´ on F dada por

x < 0, 0 ≤ x < R, x > R.

En x = R la funci´ on no es diferenciable. Sin embargo, si definimos f por f (x) = F 0 (x), x 6= R, y f (R) = 0, entonces esta funci´ on f ser´ a una densidad para F . Notamos que (5.8) no define a f un´ıvocamente, ya que siempre podemos cambiar el valor de una funci´on en un n´ umero finito de puntos sin cambiar el valor de la integral de la funci´on sobre los intervalos. Una forma t´ıpica de definir a f es haciendo f (x) = F 0 (x) cada que exista F 0 (x) y f (x) = 0 en caso contrario. Esto define una densidad de F dado que F es continua en todas partes y que F 0 existe y es continua en todos los puntos excepto en una cantidad finita. Hay otras maneras de derivar o de verificar las f´ormulas para la densidad de una funci´ on de distribuci´on continua F . Dada una funci´on de densidad f podemos mostrar que f es una funci´ on de densidad para F verificando que (5.8) se cumple. De manera alternativa, podemos revertir este proceso y mostrar que F se puede escribir en la forma (5.8) para alguna funci´on no negativa f . Entonces, necesariamente f es una funci´on de densidad para F . Estos m´etodos, equivalentes entre si en esencia, frecuentemente son m´as complicados que la diferenciaci´on. Sin embargo, son rigurosos y evitan la consideraci´on especial de los puntos en los cuales F 0 (x) no existe. Ilustraremos estos m´etodos en nuestro primer ejemplo de la siguiente subsecci´on.

5.2.1.

F´ ormulas de cambio de variable

Sea X una variable aleatoria continua con densidad f . A continuaci´on discutiremos los m´etodos para hallar la densidad de una variable aleatoria Y , la cual es una funci´on de X. Ejemplo 5 Sea X una variable aleatoria continua con densidad f . Encuentre la densidad de la variable aleatoria Y = X 2 . Para resolver este problema primero hacemos que F y G denoten respectivamente las funciones de distribuci´ on de X y de Y . Entonces G(y) = 0 para y ≤ 0. Para y > 0 G(y) = P (Y ≤ y) = P (X 2 ≤ y) √ √ = P (− y ≤ X ≤ y) √ √ = F ( y) − F (− y) y por diferenciaci´ on vemos que 1 √ √ G0 (y) = √ (F 0 ( y) + F 0 (− y)) 2 y 1 √ √ = √ (f ( y) + f (− y)). 2 y 108

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

As´ı Y = X 2 tiene la densidad g dada por   √ √ 1  √ 2 y (f ( y) + f (− y)) (5.13) g(y) =   0

para y > 0, para y ≤ 0.

Aunque (5.13) es v´ alida en general, nuestra deducci´ on dependi´ o de la diferenciaci´ on, la cual puede no ser v´ alida en todos los puntos. Para dar una prueba elemental, pero completamente rigurosa de (5.13), podemos definir g como el lado derecho de (5.13) y escribir para x > 0 Zx

Zx g(y) dy =

−∞

0

Haciendo el cambio de variable z = Zx

1 √ √ √ (f ( y) + f (− y)) dy. 2 y



√ y (de tal forma que dz = dy/2 y), obtenemos √

Zx g(y) dy = (f (z) + f (−z))dz

−∞

0



Zx =

f (z)dz √

− x

√ √ = F ( x) − F (− x) = G(x), as´ı que g es de hecho ua densidad para G. De aqu´ı en adelante utilizaremos libremente la diferenciaci´on para establecer f´ormulas como (5.13), sabiendo de antemano que, de ser necesario, podr´ıamos dar deducciones alternativas via integraci´on. Ahora usemos (5.13) para hallar la densidad de X 2 , donde X es la variable aleatoria definida en el Ejemplo 1. Se encontr´o en el Ejemplo 4 que la densidad de X es f (x) = 2x/R2 para 0 ≤ x < R y f (x) = 0 en caso contrario. entonces por (5.13), X 2 tiene la densidad g dada por √ 1 2 y 1 g(y) = √ = 2, 0 < y < R2 , 2 y R2 R y g(y) = 0 en caso contrario. Esta densidad es una densidad uniforme en (0, R2 ) de acuerdo con lo siguiente. Definici´ on 6 Sean a y b constantes con a < b. La densidad uniforme en el intervalo (a, b) es la densidad f definida por   (b − a)−1 para a < x < b, (5.14) f (x) =   0 en caso contrario. La correspondiente funci´on de distribuci´on de (5.14)   0,    (5.15) F (x) = (x − a)/(b − a),      1, 109

est´a dada por x < a, a ≤ x ≤ b, x > b.

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

No es dif´ıcil el hallar otros ejemplos de variables aleatorias uniformemente distribuidas. Si se gira un trompo bien balanceado y se detiene despu´es de un gran n´ umero de revoluciones, es razonable el asumir que el ´angulo que forma el trompo despu´es de que se detuvo (tentativamente definido en radianes) est´e distribuido uniformemente en (−π, π), o, equivalentemente, en (0, 2π). En las aplicaciones de la teor´ıa de la probabilidad al an´alisis num´erico, frecuentemente se asume que el error de redondeo causado por la eliminaci´on de todos los d´ıgitos ubicados m´as de n cifras m´ as all´a del punto decimal se distribuye uniformemente en (0, 10−n ). Ejemplo 6 Sea X uniformemente distribuida en (0, 1). Halle la densidad de Y = −λ−1 log(1 − X) para λ > 0. Sea G la funci´ on de distribuci´ on de Y . Observamos primero que Y es una variable aleatoria positiva, as´ı que G(y) = 0 para y ≤ 0. Para y > 0 tenemos G/y) = P (Y ≤ y) = P (−λ−1 log(1 − X) ≤ y) = P (log(1 − X) ≥ −λy) = P (1 − X ≥ e−λy ) = P (X ≤ 1 − e−λy ) = 1 − e−λy . As´ı G0 (y) = λe−λy para y > 0 y G0 (y) = 0 para y < 0. Por lo tanto la densidad de Y viene dada por   λe−λy , y > 0, (5.16) g(y) =   0, y ≤ 0. Esta densidad se llama la densidad exponencial con par´ ametro λ y ser´ a discutida con m´ as detalle en la siguiente secci´ on. El ejemplo anterior es un aso especial de problemas que pueden ser resueltos en t´erminos del siguiente teorema. Teorema 1 Sea ϕ una funci´ on diferenciable estrictamente creciente o estrictamente decreciente definida en un intervalo I, sea ϕ(I) el rango de ϕ y ϕ−1 la funci´ on inversa de ϕ. Sea X una variable aleatoria continua con densidad f tal que f (x) = 0 para x 6= I. Entonces Y = ϕ(X) tiene densidad g dada por g(y) = 0 para y 6= ϕ(I) y d −1 −1 (5.17) g(y) = f (ϕ (y)) ϕ (y) , y ∈ ϕ(I). dy Es m´ as sugestivo el escribir (5.17) en la forma equivalente dx (5.18) g(y) = f (x) , y ∈ ϕ(I), y dy

x ∈ ϕ−1 (y)

(o alternativamente g(y)|dy| = f (x)|dx|). Para derivar (5.17), sean F y G las funciones de distribuci´ on de X y Y , respectivamente. Suponga primero que ϕ es estrictamente creciente (i.e., si x1 , x2 ∈ I, x1 < x2 , entonces ϕ(x1 ) < 110

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

ϕ(x2 )). Entonces ϕ−1 es estrictamente creciente en ϕ(I) y para y ∈ ϕ(I), G(y) = P (Y ≤ y) = P (ϕ(X) ≤ y) = P (X ≤ ϕ−1 (X)) = F (ϕ−1 (y)). Entonces por la regla de la cadena para la diferenciaci´ on, d F (ϕ−1 (y)) dy d = F 0 (ϕ−1 (y)) ϕ−1 (y) dy d = f (ϕ−1 (y)) ϕ−1 (y). dy

G0 (y) =

Ahora

d −1 d −1 ϕ (y) = ϕ (y) dy dy

porque ϕ−1 es estrictamente creciente, por lo tanto (5.17) se cumple. Suponga ahora que ϕ es estrictamente decreciente en I. Entonces ϕ−1 es estrictamente decreciente en ϕ(I), y para y ∈ ϕ(I) G(y) = P (Y ≤ y) = P (ϕ(X) ≤ y) = P (X ≥ ϕ−1 (X)) = 1 − F (ϕ−1 (y)). Entonces

Ahora

d G0 (y) = −F 0 (ϕ−1 (y)) ϕ−1 (y) dy   d −1 −1 = f (ϕ (y)) − ϕ (y) . dy d −1 d −1 − ϕ (y) = ϕ (y) dy dy

porque ϕ−1 es estrictamente decreciente. Por lo tanto en cualquier caso vemos que G tiene la densidad g dada por (5.17).  Ejemplo 7 Sea X una variable aleatoria con densidad exponencial de par´ ametro λ. Calcule la densidad de Y = X 1/β , donde β 6= 0. De acuerdo a la definici´ on dada en el ejemplo previo, X tiene la densidad f dada por f (x) = −λx λe para x > 0 y f (x) = 0 para x ≤ 0. La ecuaci´ on y = x1/β tiene soluci´ on x = y β , lo cual lleva β−1 a que dx/dy = βy . Entonces por (5.18), Y tiene densidad g dada por   |β|λy β−1 e−λyβ , y > 0, g(y) =   0, y ≤ 0. 111

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

Ejemplo 8 Sea X una variable aleatoria continua con densidad f y sean a y b constantes tales que b 6= 0. Entonces por el Teorema 1, la variable aleatoria Y = a + bX tiene la densidad dada por   1 y−a (5.19) g(y) = f , −∞ < y < ∞. |b| b Como una ilustraci´ on de esta f´ ormula, sea X la variable aleatoria definida en el Ejemplo 1. En el Ejemplo 4 hallamos que su funci´ on de densidad estaba dada por f (x) = 2x/R2 para 0 < x < R y f (x) = 0 en caso contrario. Considere la variable aleatoria Y = X/R y sea que g denote su densidad. Entonces por la f´ ormula (5.19) con a = 0 y b = 1/R, g(y) = Rf (Ry) = 2y,

0 < y < 1,

y g(y) = 0 en caso contrario. El lector podr´ıa preferir el derivar las f´ormulas como las de los Ejemplos 7 y 8 utilizando el m´etodo del Ejemplo 6 en vez del Teorema 1. Como ya hemos visto en los ejemplos anteriores, podemos construir funciones de densidad al considerar funciones de variables aleatorias. Existe otra sencilla manera para construir funciones de densidad. Sea g cualquier funci´on no negativa tal que Z∞ g(x) dx < ∞.

0< −∞

Entonces siempre podemos normalizar a g para que resulte en una funci´on de densidad f = c−1 g, donde c es la constante Z∞ c= g(x) dx. −∞

Los siguientes ejemplos ilustran este m´etodo. Ejemplo 9 Sea g(x) = x(1 − x), 0 ≤ x ≤ 1, y g(x) = 0 en caso contrario. Entonces Z1

 x(1 − x)dx =

c= 0

x2 x3 − 2 3

 1 =1 6 0

y f = c−1 g est´ a dada por f (x) = 6x(1 − x), 0 ≤ x ≤ 1, y f (x) = 0 en caso contrario. La funci´ on de distribuci´ on correspondiente est´ a dada por F (x) = 0 para x < 0, F (x) = 3x2 − 2x3 para 0 ≤ x ≤ 1 y F (x) = 1 para x > 1. Ejemplo 10 Sea g(x) = 1/(1 + x2 ), −∞ < x < ∞. Del c´ alculo sabemos que la integral indefinida de 1/(1 + x2 ) es arctan x. As´ı Z∞ c= −∞

∞   dx = π − − π = π. = arctan x 1 + x2 2 2 −∞

Como consecuencia f = c−1 g est´ a dada por f (x) =

1 , π(1 + x2 ) 112

−∞ < x < ∞.

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

Esta densidad se conoce como la densidad de Cauchy. Su correspondiente funci´ on de distribuci´ on est´ a dada por 1 1 F (x) = + arctan x, −∞ < x < ∞. 2 π Para una ilustraci´on de una variable con distribuci´on de Cauchy tenemos la siguiente: Ejemplo 11 Sea que X denote la tangente del ´ angulo (medido en radianes) elegido al azar de (−π/2, π/2). Encuentre la distribuci´ on de X. Al resolver este problema, sea Θ la variable aleatoria que denote el ´ angulo elegido medido en radianes. Ahora sea X = tan Θ y por lo tanto (Vea la Figura 5) para −∞ < x < ∞, P (X ≤ x) = P (tan Θ ≤ x)   π = P − < Θ ≤ arctan x 2  π  1 = arctan x − − π 2 1 1 = + arctan x. 2 π As´ı X tiene la distribuci´ on de Cauchy. arc tan x

-π 2

Figura 5

5.2.2.

Densidades sim´ etricas.

Cerraremos esta secci´on con una discusi´on sobre las densidades sim´etricas y sobre las variables aleatorias sim´etricas. Una funci´on de densidad f se dice sim´etrica si f (−x) = f (x) para toda x. La densidad de Cauchy y la densidad uniforme sobre (a, −a) son ambas sim´etricas. Una variable aleatoria X se dice ser sim´etrica si X y −X tienen la misma funci´on de distribuci´on. El siguiente resultado muestra que estos dos conceptos de simetr´ıa est´an muy relacionados. Teorema 2 Sea X una variable aleatoria que posea una densidad. Entonces f tiene una densidad sim´etrica si y solo si X es una variable aleatoria sim´etrica. Demostraci´on: Probaremos este resultado para variables aleatorias continuas. La prueba para variables aleatorias discretas es similar. En nuestra demostraci´ on utilizaremos el hecho de que para cualquier funci´ on integrable f Z∞

Zx f (−y)dy = −∞

f (y)dy, −x

113

−∞ < x < ∞.

5.2. Densidades de variables aleatorias continuas

5. Variables Aleatorias Continuas

Suponga primero que X tiene una densidad sim´etrica f . Entonces P (−X ≤ x) = P (X ≥ −x) Z∞ = f (y)dy −x Zx

=

f (−y)dy −∞ Zx

=

f (y)dy −∞

= P (X ≤ x), As´ı que X y −X tienen la misma funci´ on de distribuci´ on. Suponga rec´ıprocamente que X y −X tienen como densidad com´ un g. Definimos f por f (x) = (g(x) + g(−x))/2. Entonces f es claramente una funci´ on de densidad sim´etrica. Tambi´en Zx

Zx

1 f (y)dy = 2

−∞

=

1 2

1 g(y)dy + 2

−∞ Zx

g(y)dy +

1 2

−∞

Zx g(−y)dy −∞ Z∞

g(y)dy −x

1 1 = [P (X ≤ x)] + [P (−X ≥ −x)] 2 2 = P (X ≤ x). As´ı X tiene la densidad sim´etrica f , como se deseaba.  Si una funci´on de distribuci´on continua F tiene una densidad sim´etrica f , entonces F (0) = 1/2. Los valores de R para las x no negativas pueden ser calculados de los valores de F para las x positivas de la siguiente manera: Z−x F (−x) =

f (y)dy −∞ Z∞

=

f (−y)dy x

Z∞ =

f (y)dy x

Z∞

Zx f (y)dy −

= −∞

−∞

114

f (y)dy

5.3. Densidades Normales, Exponenciales y Gama

5. Variables Aleatorias Continuas

y por lo tanto F (−x) = 1 − F (x),

(5.20)

−∞ < x < ∞.

Por esta raz´on, cuando se construyen las tablas de tal distribuci´on, frecuentemente solo se presentan los valores no negativos de x.

5.3.

Densidades Normales, Exponenciales y Gama

En esta secci´on discutiremos tres de las m´as importantes familias de funciones de densidad en la estad´ıstica y en la teor´ıa de la probabilidad.

5.3.1.

Densidades Normales . 2

Sea g(x) = e−x /2 , , −∞ < x < ∞.. Para normalizar g y volverla una funci´on de densidad, necesitamos evaluar la constante Z∞ 2 e−x /2 dx. c= −∞ 2

No existe una f´ormula simple para la integral indefinida de e−x /2 . La forma m´as f´acil de evaluar c es v´ıa un truco muy especial en el que se escribe c como una integral bidimensional y despu´es introducimos coordenadas polares. Espec´ıficamente Z∞

2

−x2 /2

c =

e −∞ Z∞

dx

e−y

2 /2

dy

−∞

Z∞

= −∞ −∞  Z∞ Zπ

=

Z∞



e−(x

2 +y 2 )/2

dxdy

 e−r

2 /2

rdθ dr

−π

0

Z∞ = 2π

re−r

2 /2

dr

0



−r 2 /2

= −2πe

0

= 2π. As´ı c =



2π y la forma normalizada de g est´a dada por f (x) = (2π)−1/2 e−x

2 /2

,

−∞ < x < ∞.

Tambi´en hemos obtenido la f´ormula Z∞ (5.21)

e−x

2 /2

dx =

−∞

115



2π.

5.3. Densidades Normales, Exponenciales y Gama

5. Variables Aleatorias Continuas

La densidad que acabamos de obtener se llama la densidad normal est´ andar y usualmente se denota por ϕ, por lo tanto (5.22)

1 2 ϕ(x) = √ e−x /2 , 2π

−∞ < x < ∞.

Claramente la densidad normal est´andar es sim´etrica. La funci´on de distribuci´on de ϕ se denota por Φ. No hay una formula simple para Φ as´ı que debe ser evaluada num´ericamente. Rutinas de computadora y Tablas como la Tabla I al final de este libro est´an disponibles para calcular Φ. Ya que ϕ es sim´etrica, (5.20) es aplicable y (5.23)

Φ(−x) = 1 − Φ(x),

−∞ < x < ∞.

Sea X una variable aleatoria que posea la densidad normal est´andar ϕ y sea Y = µ + σX, donde σ > 0. Entonces por la F´ormula (5.19), Y tiene la densidad g dada por 1 2 2 g(y) = √ e−(y−µ) /2σ , σ 2π

−∞ < y < ∞.

Esta densidad se llama la densidad normal con media µ y varianza σ 2 y se denota por n(µ, σ 2 ) o n(y; µ, σ 2 ) − ∞ < y∞. Entonces   1 1 y−µ 2 −(y−µ)2 /2σ 2 (5.24) n(y; µ, σ ) = √ e = ϕ , −∞ < y < ∞. σ σ σ 2π Ya que a´ un no hemos definido los momentos de las variables aleatorias continuas, temporalmente deberemos pensar en µ y σ 2 como dos par´ametros de la familia de la densidad normal. La correspondiente funci´on de distribuci´on puede ser calculada en t´erminos de Φ por P (Y ≤ y) = P (µ + σX ≤ y)   y−µ =P X≤ σ   y−µ =Φ . σ Se sigue que si Y tiene la distribuci´on n(µ, σ 2 ) y que si a ≤ b, entonces     a−µ b−µ −Φ . (5.25) P (a ≤ Y ≤ b) = Φ σ σ Por ejemplo, sea que Y tenga la distribuci´on n(1, 4) y sean a = 0 y b = 3. Encontramos de la tabla I que P (0 ≤ Y ≤ 3) = Φ(1) − Φ(1/2) = Φ(1) − (1 − Φ(1/2)) = .8413 − .3085 = .5328. Si una variable aleatoria Y tiene la distribuci´ on n(µ, σ 2 ), entonces la variable aleatoria a+bY, b 6= 0 tiene la distribuci´ on n(a+bµ, b2 σ 2 ). Esta es una aplicaci´on directa de (5.19). De manera alternativa, podemos escribir Y = µ + σX, donde X tiene la distribuci´on normal est´andar. Entonces a + bY = a + b(µ + σX) = (a + bµ) + bσX, que tiene la distribuci´on n(a + bµ, b2 σ 2 ). 116

5.3. Densidades Normales, Exponenciales y Gama

5. Variables Aleatorias Continuas

Las variables aleatorias con distribuci´on normal aparecen muy frecuentemente en las aplicaciones pr´acticas. En f´ısica, la Ley de Maxwell asevera que bajo las condiciones apropiadas, las componentes de la velocidad de una mol´ecula de gas estar´an distribuidas de acuerdo a una densidad normal n(0, σ 2 ), donde σ 2 depende de ciertas cantidades f´ısicas. En la mayor´ıa de las aplicaciones, sin embargo, las variables aleatorias de inter´es tendr´an una funci´on de distribuci´on que es aproximadamente normal. Por ejemplo, en los errores de medici´on en los experimentos f´ısicos, en la variaci´ on en las salidas de las l´ıneas de producci´on industriales y en las variaciones biol´ogicas (por ejemplo, el peso y la altura) se ha encontrado emp´ıricamente que aproximadamente tienen distribuciones normales. Tambi´en se ha encontrado, tanto emp´ırica como te´oricamente, que las fluctuaciones aleatorias que resultan de la combinaci´on de numerosas causas sin relaci´on alguna,cada una insignificante de manera individual, aproximadamente tienden a estar distribuidas normalmente. Te´oricamente, los resultados en esta direcci´on se conocen como los “Teoremas del l´ımite central” y se han convertido en uno de los t´opicos de mayor investigaci´on dentro de la teor´ıa de la probabilidad. Uno de tales teoremas del l´ımite central ser´a discutido en el Cap´ıtulo 7 y demostrado despu´es en el Cap´ıtulo 8. La importancia de las distribuciones normales aflora tambi´en en sus agradables propiedades te´oricas. Un ejemplo es la propiedad de que la suma de variables aleatorias independientes cada una con distribuci´on normal tiene tambi´en distribuci´on normal. Esto ser´a demostrado en el Cap´ıtulo 6. En el Volumen II veremos que las distribuciones normales tambi´en juegan un rol fundamental en la estad´ıstica aplicada.

5.3.2.

Densidades Exponenciales .

La densidad exponencial con par´ametro λ fue definida en la Secci´on 5.2. Est´a dada por   λe−λx , x ≥ 0, (5.26) f (x) =   0, x < 0. La correspondiente funci´on de distribuci´on es   1 − e−λx , x ≥ 0, (5.27) F (x) =   0, x < 0. De la discusi´on del Cap´ıtulo 1 y en el Ejemplo 2 de este cap´ıtulo vemos que las variables aleatorias con distribuci´on exponencial son u ´tiles para estudiar los tiempos de decaimiento de las part´ıculas radioactivas. Ellas tambi´en son u ´tiles al desarrollar modelos que involucran muchos otros tiempos de espera, tales como el tiempo que demora una pieza dada de un equipo en fallar, el tiempo que se tarda el completar un trabajo, o el tiempo que se toma el obtener un nuevo consumidor. Las variables aleatorias distribuidas exponencialmente tambi´en tienen mucha importancia te´orica, como se puede ver en el estudio de los procesos de Poisson (v´ease el Cap´ıtulo 9) o de las cadenas de Markov a tiempo continuo (v´ease el Volumen III). Una propiedad importante de las variables aleatorias distribuidas exponencialmente es que si X es una de tales variables, entonces (5.28)

P (X > a + b) = P (X > a)P (X > b),

a ≥ 0 y b ≥ 0.

(Esta f´ormula es similar a la obtenida en el Cap´ıtulo 3 para variables aleatorias distribuidas geom´etricamente.) Para ver que (5.28) se cumple, sea λ que denote el par´ametro de la distribuci´ on 117

5.3. Densidades Normales, Exponenciales y Gama

5. Variables Aleatorias Continuas

exponencial de X. Entonces por (5.27) P (X > a)P (X > b) = e−λa e−λb = e−λ(a+b) = P (X > a + b). Una forma m´as sugestiva pero equivalente de (5.28) es (5.29)

P (X > a + b|X > a) = P (X > b),

a ≥ 0 y b ≥ 0.

Pensemos en X como el tiempo que le toma el fallar a una pieza de un determinado equipo despu´es de su instalaci´on. Entonces (5.29) establece que, condicionada a que no halla habido falla alguna hasta el tiempo a, la probabilidad de que no falle en las siguientes b unidades de tiempo es igual a la probabilidad no condicionada de que no falle durante las primeras b unidades de tiempo. Esto implica que la edad de la pieza de equipo no incrementa ni disminuye su probabilidad de fallar en un intervalo de tiempo dado. Que las ecuaciones (5.28) y (5.29) caractericen a la familia de las distribuciones exponenciales se observa del siguiente resultado. Teorema 3 Sea X una variable aleatoria tal que (5.28) se cumple. Entonces ya sea que P (X > 0) = 0 ´ o X tiene distribuci´ on exponencial. Demostraci´on: Si P (X > 0) = 0, entonces trivialmente se cumple (5.28). Suponga que (5.28) se cumple y que P (X > 0) 6= 0. As´ı, de (5.28) con a = b = 0 vemos que P (X > 0) = 1, as´ı que X es una variable aleatoria positiva. Sea F la funci´ on de distribuci´ on de X y definimos G por G(x) = 1 − F (x) = P (X > x). As´ı G es una funci´ on no decreciente continua por la derecha, G(0) = 1, G(+∞) = 0, y por (5.28) G(a + b) = G(a)G(b),

a > 0 y b > 0.

Se sigue que si c > 0 y m, n son enteros positivos, entonces (5.30)

G(nc) = (G(c))n

y

G(c) = (G(

c m )) . m

Afirmamos ahora que 0 < G(1) < 1. Si G(1) = 1 entonces G(n) = (G(1))n = 1 lo que contradice que G(+∞) = 0. Si G(1) = 0 entonces G(1/m) = 0 y por la condici´ on de continuidad por la derecha, G(0) = 0, otra contradicci´ on. Ya que 0 < G(1) < 1, podemos escribir G(1) = e−λ , donde 0 < λ < ∞. Se sigue de (5.30) que si m es un entero positivo, entonces G(1/m) = e−λ/m . Una segunda aplicaci´ on de (5.30) es que si m −λn/m y n son enteros positivos, entonces G(n/m) = e . En otras palabras, G(y) = e−λy se cumple para todos los n´ umeros racionales positivos y. Por la condici´ on de continuidad por la derecha se sigue que G(y) = e−λy para toda y ≥ 0. Esto implica que F = 1 − G es la funci´ on de distribuci´ on exponencial con par´ ametro λ. 

5.3.3.

Densidades Gama.

Antes de definir en general a las densidades gama consideraremos primero un ejemplo en el cu´ al aparecen de manera natural. 118

5.3. Densidades Normales, Exponenciales y Gama

5. Variables Aleatorias Continuas

Ejemplo 12 Sea X una variable aleatoria con densidad normal n(0, σ 2 ). Encuentre la densidad de la variable aleatoria Y = X 2 . Para resolver este problema notemos primero que la densidad de X es 1 2 2 f (x) = √ e−x /2σ , σ 2π

−∞ < x < ∞.

Por la F´ ormula (5.13), Y tiene densidad g dada por g(y) = 0 para y ≤ 0 y 1 √ √ g(y) = √ (f ( y) + f (− y)), 1 y

y > 0.

esto implica que (5.31)

1 2 2 g(y) = √ e−y /2σ , σ 2πy

y > 0.

Para definir las densidades gama en general, primero consideraremos funciones g de la forma   xα−1 e−λx , x > 0, g(x) =   0, x ≤ 0. Aqu´ı pedimos α > 0 y λ > 0 para que la funci´on g sea integrable. La densidad en (5.31) corresponde al caso especial en el que α = 1/2 y λ = 1/2σ 2 . Al normalizar a g para volverla una funci´ on de densidad debemos evaluar Z∞ c = xα−1 e−λx dx. 0

Hacemos el cambio de variable y = λx. As´ı 1 c= α λ

Z∞

y α−1 e−y dy.

0

No existe una f´ormula simple para la u ´ltima integral. En vez de ello se utiliza para definir una funci´on llamada la funci´ on gama y denotada por Γ. As´ı c=

1 Γ(α), λα

donde Z∞ (5.32)

Γ(α) =

xα−1 e−x dx,

α > 0.

0

La funci´on normalizada se llama la densidad gama con par´ametros α y λ, y se denota por Γ(α, λ) o por Γ(x; α, λ). Vemos que    λα xα−1 e−λx , x > 0, (5.33) Γ(x; α, λ) = Γ(α)   0, x ≤ 0. 119

5.3. Densidades Normales, Exponenciales y Gama

5. Variables Aleatorias Continuas

Recordemos tambi´en la siguiente f´ormula, la cu´al probar´a ser u ´til: Z∞ (5.34)

xα−1 e−λx dx =

Γ(α) . λα

0

Las densidades exponenciales son casos especiales de las densidades gama. Espec´ıficamente, la densidad exponencial con par´ametro λ es la misma que la densidad gama Γ(1, λ). Se vio tambi´en que la densidad dada por (5.31) es una densidad gama con par´ametros α = 1/2 y λ = 1/2σ 2 . En otras palabras, si X tiene la densidad normal n(0, σ 2 ) entonces X 2 tiene la densidad gama Γ(1/2, 1/2σ 2 ). Igualando (5.31) y (5.33) con α = 1/2 y λ = 1/2σ 2 obtenemos que √ (5.35) Γ(1/2) = π. Una propiedad importante de la funci´on gama es (5.36)

Γ(α + 1) = αΓ(α),

α > 1.

esta f´ormula se sigue de (5.32) por una simple aplicaci´on del m´etodo de la integraci´on por partes. Para ser espec´ıficos Z∞ Γ(α + 1) = xα e−x dx 0

∞ Z∞ α−1 −x e dx + αx

α −x

= −x e

0

0

= αΓ(α). Ya que Γ(1) = 1 se sigue f´acilmente de (5.36) que si n es un entero positivo, Γ(n) = (n − 1)!.

(5.37)

Tambi´en se sigue de (5.35), (5.36) y algunas simplificaciones que si n es un entero positivo impar, entonces √ n π(n − 1)! (5.38) Γ = n−1 n−1  . 2 ! 2 2 No existen f´ormulas simples para la funci´on de distribuci´on correspondiente a Γ(α, λ), excepto cuando α = m es un entero positivo. En este caso podemos integrar por partes para obtener para toda x > 0 Zx m−1 m−2 −λy Zx m m−1 −λy λ y e −(λy)m−1 e−λy x λ y e dy = + dy (m − 1)! (m − 1)! 0 (m − 2)! 0

0

Zx =

λm−1 y m−2 e−λy (m − 2)!

dy −

−(λx)m−1 e−λx , (m − 1)!

0

dado que m ≥ 2. Si de esta manera integramos por partes m − 1 veces y observamos que Zx

λe−λy dy = 1 − e−λx ,

0

120

5.4. Funciones de distribuci´ on inversas*

5. Variables Aleatorias Continuas

obtenemos la f´ormula Zx (5.39)

m−1 X (λx)k e−λx λm y m−1 e−λy dy = 1 − , (m − 1)! k!

x > 0.

k=0

0

Esta f´ormula provee una conexi´on interesante entre una variable aleatoria que tenga la densidad gama Γ(m, λ) y una variable aleatoria Y con distribuci´on de Poisson de par´ametro λx. Espec´ıficamente, (5.39) establece que P (X ≤ x) = P (Y ≥ m).

(5.40)

esta conexi´on es relevante para la teor´ıa de los procesos de Poisson, como veremos en el Cap´ıtulo 9. El comportamiento cualitativo de la densidad gama, ilustrado en la Figura 6, se obtiene f´ acilmente por los m´etodos usuales del c´alculo. Una propiedad importante de las densidades gama es que si X y Y son dos variables aleatorias independientes con densidades Γ(α1 , λ) y Γ(α2 , λ), entonces X + Y tiene la densidad gama Γ(α1 + α2 , λ). Se demostrar´a este resultado en el Cap´ıtulo 6. Estas y otras propiedades de las densidades gama las hacen muy convenientes para trabajar con ellas. En las aplicaciones, existen muchas situaciones en las cuales se desconoce la densidad de una variable aleatoria X. Se puede saber que X es una variable aleatoria positiva cuya densidad se puede aproximar razonablemente bien por una densidad gama con los par´ametros apropiados. En tales casos, el resolver alg´ un problema que involucre a X bajo la suposici´on de que tenga densidad gama proveer´a una aproximaci´on, o al menos un vistazo a la verdadera pero desconocida situaci´on.

α=2 α=1 α=1/2

Figura 6

5.4.

Funciones de distribuci´ on inversas*

Aplicaciones importantes de las f´ormulas de cambio de variable de la Secci´on (5.2.1) se pueden obtener haciendo que la funci´on ϕ est´e relacionada con una funci´on de distribuci´on F . 121

5.4. Funciones de distribuci´ on inversas*

5. Variables Aleatorias Continuas

Sea X una variable aleatoria continua con F como su funci´on de distribuci´on y f como su funci´ on de densidad. Aplicaremos la f´ormula del cambio de variable a la funci´on ϕ = F . Si y = F (x), entonces dy/dx = F 0 (x) = f (x) y as´ı dx/dy = 1/f (x). Entonces, de acuerdo con (5.18), la variable aleatoria Y = F (X) tiene la densidad g dada por g(y) =

f (x) , f (x)

0 < y < 1,

y g(y) = 0 en caso contrario. En otras palabras, la variable aleatoria Y = F (X) esta uniformemente distribuida en (0, 1). Este resultado es v´alido a´ un cuando la funci´on ϕ = F no satisfaga todas las condiciones del Teorema 1. Utilizando un argumento directo, podemos mostrar que si X es una variable aleatoria continua con F como su funci´ on de distribuci´ on, entonces F (X) tiene la distribuci´ on uniforme en (0, 1). (Si F es discontinua en alg´ un punto x0 , entonces P (X = x0 ) > 0, as´ı que P (F (X) = F (x0 )) > 0 y F (X) posiblemente no estar´ıa uniformemente distribuida en (0, 1)). Tambi´en podemos proceder en la direcci´on contraria. Sea F una funci´on de distribuci´on continua estrictamente creciente en alg´ un intervalo I y tal que F = 0 a la izquierda de I si I est´a acotado inferiormente y F = 1 a la derecha de I si I est´a acotado superiormente. Entonces para 0 < y < 1, por le teorema del valor intermedio del c´alculo, existe un u ´nico valor de x tal que y = F (x). As´ı F −1 (y), 0 < y < 1 est´a bien definida. Bajo estas suposiciones, si Y es una variable aleatoria distribuida uniformemente en (0, 1), entonces la variable aleatoria F −1 (Y ) tiene a F como su funci´ on de distribuci´ on. Podemos utilizar dos de los ejemplos de la Secci´on 5.2.1 para ilustrar el resultado anterior. En el Ejemplo 6 obtuvimos a las variables aleatorias con distribuciones exponenciales como transformaciones de una variable aleatoria con distribuci´on uniforme. El lector deber´ıa verificar que estas transformaciones pueden ser obtenidas por el m´etodo del p´arrafo anterior. En el Ejemplo 11 mostramos que si Θ se distribuye uniformemente sobre (−π/2, π/2),entonces tan Θ tiene la distribuci´on de Cauchy. Sea Y una variable aleatoria con distribuci´on uniforme en (0, 1). As´ı Θ = πY − π/2 est´a distribuida uniformemente en (−π/2, π/2), por lo tanto  π X = tan Θ = tan πY − 2 tiene la distribuci´on de Cauchy. Este es exactamente lo que obtendr´ıamos utilizando el resultado del p´arrafo anterior. De acuerdo al Ejemplo 10, la funci´on de la distribuci´on de Cauchy est´a dada por 1 1 F (x) = + arctan x, −∞ < x < ∞. 2 π y la ecuaci´on y = F (x), o 1 1 y = + arctan x, 2 π tiene la soluci´on  π x = F −1 (y) = tan πy − . 2 Para algunos prop´ositos es deseable el generar una variable aleatoria X que posea una funci´ on de distribuci´on F previamente establecida. Una forma de hacer esto es primero generar una variable aleatoria Y que tenga una distribuci´on uniforme y despu´es hacer X = F −1 (Y ). Este m´etodo es especialmente u ´til en las computadoras digitales ya que existen m´etodos muy satisfactorios para generar lo que ser´ıa una variable aleatoria distribuida uniformemente en dichas computadoras. Suponga por ejemplo que buscamos una rutina para generar una variable aleatoria X que posea la densidad normal est´andar n(0, 1). Utilizar´ıamos una subrutina para generar una variable aleatoria 122

5.4. Funciones de distribuci´ on inversas*

5. Variables Aleatorias Continuas

Y distribuida uniformemente en (0, 1) y una subrutina para calcular la funci´on num´erica Φ−1 , para despu´es calcular X = Φ−1 (Y ). Para generar una variable aleatoria X que posea la densidad normal n(µ, σ 2 ) har´ıamos X = µ + σΦ−1 (Y ). Las funciones de distribuci´on inversas son u ´tiles para otros prop´ositos. Para ver esto consideremos una variable aleatoria X con distribuci´on normal n(µ, σ 2 ) y recuerde de la secci´on 5.3.1 que   b−µ P (X ≤ b) = Φ . σ Suponga que queremos elegir b de manera que P (X ≤ b) =.9. Necesitamos resolver para b la ecuaci´ on   b−µ Φ = .9. σ La soluci´on est´a dada por b−µ = Φ−1 (.9) σ o b = µ + σΦ−1 (.9). De la Tabla I vemos que Φ−1 (.9) = 1.28. As´ı b = µ + 1.28σ y P (X ≤ µ + 1,28σ) = ,9. En estad´ıstica aplicada el n´ umero b = µ + 1,28σ se llama el decil superior para la distribuci´ on n(µ, σ 2 ). Sea F cualquier funci´on de distribuci´on que satisface la condici´on de que F −1 (y), 0 < y < 1 est´a bien definida, como se discuti´o anteriormente. Entonces m = F −1 (1/2) se llama la mediana de F , F −1 (3/4) y F −1 (1/4) se llaman respectivamente los cuartiles superior e inferior de F , F −1 (.9) se llama el decil superior y F −1 (k/100) es llamado el k percentil superior . Estas definiciones se pueden modificar y aplicar a funciones de distribuci´on arbitrarias y, en particular, a las funciones de densidad discretas. Si X tiene una densidad sim´etrica, entonces claramente X tiene mediana m = 0: Para un ejemplo m´as interesante, sea X una variable aleatoria distribuida exponencialmente con par´ametro λ. As´ı su mediana m est´a dada por 1 − e−λm = 1/2, la cual tiene la soluci´on m = λ−1 log 2. Suponga que X representa el tiempo de decaimiento de una part´ıcula radioactiva. Entonces si tuvi´eramos un gran n´ umero de tales part´ıculas esperar´ıamos que para el tiempo m la mitad de las part´ıculas hayan deca´ıdo. En f´ısica este tiempo es denominado el tiempo medio de la part´ıcula. Si observamos el tiempo medio m podemos utilizarlo para calcular la taza de decaimiento λ, ya que λ = m−1 log 2. Para una aplicaci´on final de las funciones de distribuci´on inversas, sea X una variable aleatoria con densidad normal n(µ, σ 2 ) y suponga que queremos hallar un a > 0 tal que P (µ − a ≤ X ≤ µ + a) = .9. Entonces por (5.25) tenemos que resolver para a la ecuaci´on a  a Φ −Φ − = .9. σ σ Ya que Φ(−x) = 1 − Φ(x) para toda x, tenemos que a 2Φ − 1 = .9 σ y por lo tanto a = σΦ−1 (.95).. De la Tabla I vemos que Φ−1 (.95) = 1.645. En otras palabras, P (µ − 1.645σ ≤ X ≤ µ + 1.645σ) = .9. 123

5.4. Funciones de distribuci´ on inversas*

5. Variables Aleatorias Continuas

Utilizando la misma t´ecnica obtenemos P (µ − .675σ ≤ X ≤ µ + .675σ) = .5 o equivalentemente, P (|X − µ| ≤ .675σ) = .5. Esto dice que si X tiene la densidad normal n(µ, σ 2 ), entonces X diferir´a de µ en menos de ,675σ con probabilidad de un medio y en m´as de 675σ con probabilidad un medio. Si pensamos en µ como una verdadera cantidad f´ısica y en X como en la medida de µ, entonces |X − µ| representa el error de medici´on. Por esta raz´on 675σ es conocido como el error probable. Ejercicios 1.-Sea X una variable aleatoria tal que P (|X − 1| = 2) = 0. Exprese P (|X − 1| ≥ 2) en t´erminos de la funci´on de distribuci´on FX . 2.-Se elige un punto al azar del interior de un disco de radio R en el plano. Sea que X denote el cuadrado de la distancia del punto as´ı elegido al centro del disco. Encuentre la funci´on de distribuci´ on de X. 3.-Se escoge un punto uniformemente de una pelota s´olida en el espacio tridimensional de radio R. Sea que X represente la distancia del punto escogido al centro de la pelota. Halle la funci´ on de distribuci´on de X. 4.-Se elige un punto uniformemente en el intervalo [0, a]. Sea que X denote la distancia del punto elegido al origen. Encuentre la funci´on de distribuci´on de X. 5.-Se escoge un punto uniformemente del interior de un tri´angulo que tiene una base de longitud l y una altura h desde la base. Sea X definida como la distancia del punto elegido a la base. Halle la funci´on de distribuci´on de X. 6.-Considere un tri´angulo equil´atero cuyos lados tienen longitud s. Uniformemente se elige un punto de uno de los lados del tri´angulo. Sea X la distancia del punto elegido al v´ertice opuesto. Encuentre la funci´on de distribuci´on de X. 7.-Se elige uniformemente un punto (u, v) del cuadrado unitario 0 ≤ u ≤ 1, 0 ≤ v ≤ 1. Sea X la variable aleatoria que le asigna al punto (u, v) el n´ umero u + v. Halle la funci´on de distribuci´ on de X. 8.-Sea F la funci´on de distribuci´on dada por la F´ormula (5.3). Encuentre un n´ umero m tal que F (m) = 1/2. 9.-Sea que X denote el tiempo de decaimiento de alguna part´ıcula radioactiva y asuma que la funci´on de distribuci´on de X est´a dada por la f´ormula (5.3). Suponga que λ es tal que P (X ≥ .01) = 1/2. Halle un n´ umero t tal que P (X ≥ t) = .9. 10.-Sea X la variable aleatoria del Ejercicio 4. Encuentre la funci´on de distribuci´on de la variable aleatoria Y = Min (X, a/2). 11.-Sea X la variable aleatoria cuya funci´on de     0,      x/3, F (x) =    x/2,       1, 124

distribuci´on F est´a dada por x < 0, 0 ≤ x < 1, 1 ≤ x < 2, x); (c)F (x) = P (X ≥ x). 13.-Se elige un punto uniformemente del intervalo (−10, 10). Sea X la variable aleatoria definida de tal manera que denote la coordenada del punto, si ´este est´a en [−5, 5], X = −5 si el punto est´ a en (−10, −5) y X = 5 si el punto se encuentra en (5, 10). Halle la funci´on de distribuci´on de X. 14.-Sea X una variable aleatoria continua con densidad f dada por 1 f (x) = e−|x| , 2

−∞ < x < ∞.

Halle P (1 ≤ |X| ≤ 2). 15.-Sea F la funci´on de distribuci´on definida por F (x) =

1 x + , 2 2(|x| + 1)

−∞ < x < ∞.

Encuentre una funci´on de densidad f para F . ¿En que puntos x ser´a F 0 (x) = f (x)? 16.-Encuentre una funci´on de densidad para la variable aleatoria del Ejercicio 3. 17.-Halle una funci´on de densidad para la variable aleatoria del Ejercicio 7. 18.-Sea X una variable aleatoria continua con densidad f . Encuentre una f´ormula para la densidad de Y = |X|. 19.-Sean X y Y = X 2 variables aleatorias continuas positivas con densidades f y g respectivamente. Halle f en t´erminos de g y tambi´en encuentre g en t´erminos de f . 20.-Sea X una variable aleatoria con distribuci´on uniforme sobre (0, 1). Halle la densidad de Y = X 1/β , donde β 6= 0. 21.-Sea X una variable aleatoria continua positiva con densidad f . Encuentre una f´ormula para la densidad de Y = 1/(X + 1). 22.- Sea X una variable aleatoria, g una funci´on de densidad con respecto a la integraci´on y ϕ una funci´on diferenciable estrictamente creciente en (−∞, ∞). Suponga que ϕ(x) Z

P (X ≤ x) =

g(z)dz,

−∞ < x < ∞.

−∞

Demuestre que la variable aleatoria Y = ϕ(X) tiene densidad g. 125

5.4. Funciones de distribuci´ on inversas*

5. Variables Aleatorias Continuas

23.-Sea X una variable aleatoria distribuida uniformemente en (a, b). Halle una funci´on lineal ϕ tal que Y = ϕ(X) est´e distribuida uniformemente en (0, 1). 24.-Sea X una variable aleatoria con densidad exponencial de par´ametro λ. Encuentre la funci´ on de densidad de Y = cX, donde c > 0. 25.-Sea g(x) = x(1 − x)2 , 0 ≤ x ≤ 1, y g(x) = 0 en caso contrario. ¿C´omo se debe normalizar a g para volverla una densidad? 26.-Suponga que X tiene la densidad de Cauchy. Halle la densidad de Y = a + bX, b 6= 0. 27.-Sea que X represente el seno de un ´angulo elegido al azar de (−π/2, π/2). Encuentre la densidad y la funci´on de distribuci´on de X. 28.-Suponga que X es una variable aleatoria con densidad sim´etrica f y tal que X 2 tiene densidad exponencial con par´ametro λ. Halle f . 29.- Sea X una variable aleatoria continua con F como su funci´on de distribuci´on y f como su funci´on de densidad. Entonces f se dice ser sim´ etrica con respecto a a si f (a+x) = f (a−x)−∞ < x < ∞. Encuentre condiciones equivalentes en t´erminos de la variable aleatoria X y en t´erminos de la funci´on de distribuci´on F . 30.- La funci´ on de error se define por 2 erf (x) = √ π

Zx

2

e−y dy,

−∞ < x < ∞.

0

Exprese Φ en t´erminos de la funci´on de error. 31.-Suponga que X tiene la densidad normal n(0, σ 2 ). Halle la densidad de Y = |X|. 32.-Sea que X tenga la densidad normal n(µ, σ 2 ). Halle la densidad de Y = eX . Esta densidad se llama densidad log-normal. 33.- Asuma que X se distribuye normalmente con par´ametros µ y σ 2 . Halle P (|X − µ| ≤ σ). 34.-Sea X distribuida normalmente con par´ametros µ y σ 2 . Encuentre n´ umeros a y b tales que a + bX tenga la distribuci´on normal est´andar. 35.-Sea X distribuida normalmente con par´ametros µ = 0 y σ 2 = 4. Sea Y una variable aleatoria con valores en los enteros definida en t´erminos de X por Y = m si m − 1/2 ≤ X < m + 1/2, donde m es un entero tal que −5 ≤ m ≤ 5, Y = −6 si X < −5,5, y Y = 6 si X ≥ 5,5. Halle fY y haga una gr´afica que est´a densidad. 36.-Suponga que el peso de una persona elegida de una poblaci´on al azar se distribuye normalmente con par´ametros µ y σ. Tambi´en asuma que P (X ≤ 160) = 1/2 y P (X ≤ 140) = 1/4. Halle µ, σ y encuentre P (X ≥ 200). De toda la poblaci´on que pese al menos 200 libras, ¿Que porcentaje pesar´a m´as de 220 libras?. 37.-Sea tp el n´ umero tal que Φ(tp ) = p , 0 < p < 1. Suponga que X tiene la densidad normal n(µ, σ 2 ). Demuestre que para 0 < p1 < p2 < 1, P (µ + tp1 σ ≤ X ≤ µ + tp2 σ) = p2 − p1 .

126

5.4. Funciones de distribuci´ on inversas*

5. Variables Aleatorias Continuas

38.-Suponga que un gran n´ umero de part´ıculas radioactivas id´enticas poseen tiempos de decaimiento los cuales tienen una distribuci´on exponencial con alg´ un par´ametro λ. Si la mitad de las part´ıculas decaen durante el primer segundo, ¿Cu´anto tiempo tomar´a para que decaiga el 75 % de las part´ıculas?. 39.-Sea X distribuida exponencialmente con par´ametro λ. Sea Y una variable aleatoria con valores en los enteros definida en t´erminos de X por Y = m si m ≤ X < m + 1, donde m es un entero no negativo. ¿C´omo esta distribuida Y ?. 40.-Sea T una variable aleatoria continua positiva que denote el tiempo de falla de alg´ un sistema, sea F la funci´on de distribuci´on de T , y suponga que F (t) < 1 para 0 < t < ∞. As´ı podemos escribir F (t) = 1 − e−G(t) , t > 0. Suponga que existe G0 (t) = g(t) para t > 0. (a) Demuestre que T tiene la funci´on de densidad f dada por f (t) = g(t), 1 − F (t)

0 < t < ∞.

La funci´on g se conoce como la “taza de falla”, ya que heur´ısticamente, P (t ≤ T ≤ t + dt|T > t) =

f (t)dt = g(t)dt. 1 − F (t)

(b) Muestre que para s > 0 y t > 0, P (T > t + s|T > t) = e−

R t+s t

g(u)du

.

(c) Demuestre que el sistema se mejora con el paso del tiempo (i.e., para s fijo, la expresi´on en (b) se incrementa con t) si g es una funci´on decreciente, y que el sistema se deteriora con el paso del tiempo si g es una funci´on creciente. (d)Muestre que Z∞ g(u) du = ∞. 0

(e)¿C´omo se comporta g si T se distribuye exponencialmente? (f) Si G(t) = λtα , t > 0, ¿Para qu´e valores de α el sistema se mejora, se deteriora, y no cambia con el tiempo? 41.-Sea que X tenga la densidad Γ(α, λ). Encuentre la densidad de Y = cX, donde c > 0. 42.-Demuestre que si α > 1, la densidad gama tiene un m´aximo en (α − 1)/λ. √ 43.-Asuma que X tiene la densidad Γ(α, λ). Halle la densidad de Y = X. 44.-Sea Y una variable aleatoria distribuida uniformemente en (0, 1). Halle una funci´on ϕ tal que X = ϕ(Y ) tenga la densidad f dada por f (x) = 2x, 0 ≤ x ≤ 1, y f (x) = 0 en caso contrario. 45.-Sea Y una variable aleatoria distribuida uniformemente en (0, 1). Encuentre una funci´ on ϕ tal que ϕ(Y ) posea la densidad gama Γ(1/2, 1/2). Sugerencia: Utilize el Ejemplo 12. 46.-Encuentre Φ−1 (t) para t = .1,.2,. . .,.9, y util´ıcelos para hacer la gr´afica de Φ−1 . 47.-Sea que X posea la densidad normal n(µ, σ 2 ). Halle el cuartil superior para X. 127

5.4. Funciones de distribuci´ on inversas*

5. Variables Aleatorias Continuas

48.-Sea que X tenga la densidad de Cauchy. Encuentre el cuartil superior para X. 49.-Suponga que X tiene la densidad normal con par´ametros µ y σ 2 . Encuentre una constante c de tal forma que P (|X − µ| ≤ c) = .9.

50.-Sea X una variable aleatoria con valores en los enteros con F como su funci´on de distribuci´ on, y sea Y una variable aleatoria distribuida uniformemente en (0, 1). Definimos la variable aleatoria con valores en los enteros Z en t´erminos de Y por Z = m si F (m − 1) < Y ≤ F (m), para todo entero m. Muestre que Z tiene la misma densidad que X.

128

Cap´ıtulo 6

Variables Aleatorias Conjuntamente Distribuidas En las primeras tres secciones de este cap´ıtulo consideraremos un par de variables aleatorias continuas X y Y junto con algunas de sus propiedades. En las restantes cuatro secciones consideraremos extensiones de dos a n variables aleatorias X1 , X2 , . . . , Xn . La discusi´on de las estad´ısticas de orden en la Secci´on 6.5 es principalmente un resumen de resultados sobre distribuciones de muestreo que son u ´tiles en estad´ıstica y son necesarias en el Volumen II. El material cubierto en la secci´ on 6.7 sera utilizado solo para probar el Teorema 1 del Cap´ıtulo 9 y el Teorema 1 del Cap´ıtulo 5 del Volumen II.

6.1.

Propiedades de las distribuciones bi-variadas

Sean X y Y don variables aleatorias definidas en el mismo espacio de probabilidad. Su funci´ on de densidad conjunta F se define por F (x, y) = P (X ≤ x, Y ≤ y),

−∞ < x, y < ∞.

Para ver que F est´a bien definida, notemos que como X y Y son variables aleatorias, tanto {ω|X(ω) ≤ x} como {ω|Y (ω) ≤ y} son eventos. Su intersecci´on {ω|X(ω) ≤ x} y {ω|Y (ω) ≤ y} es tambi´en un evento, y por lo tanto su probabilidad est´a bien definida. La funci´on de distribuci´on conjunta puede ser utilizada para calcular la probabilidad de que la pareja (X, Y ) se encuentre en un rect´angulo en el plano. Considere el rect´angulo R = {(x, y)|a < x ≤ b, c < y ≤ d}, donde a ≤ b y c ≤ d. Entonces (6.1)

P ((X, Y ) ∈ R) = P (a < X ≤ b, c < Y ≤ d) = F (b, d) − F (a, d) − F (b, c) + F (a, c).

Para verificar que (6.1) se cumple, observe que P (a < X ≤ b, Y ≤ d) = P (X ≤ b, Y ≤ d) − P (X ≤ a, Y ≤ d) = F (b, d) − F (a, d). De manera similar P (a < X ≤ b, Y ≤ c) = F (b, c) − F (a, c) 129

6. Variables Aleatorias Conjuntamente Distribuidas

6.1. Propiedades de las distribuciones bi-variadas

Entonces P (a < X ≤ b, c < Y ≤ d) = P (a < X ≤ b, Y ≤ d) − P (a < X ≤ b, Y ≤ c) = (F (b, d) − F (a, d)) − (F (b, c) − F (a, c)) y (6.1) se cumple, como se afirm´o. Las funciones de distribuci´on unidimensionales FX y FY definidas por FX (x) = P (X ≤ x)

FY (y) = P (Y ≤ y)

y

se llaman las funciones de distribuci´ on marginales de X y Y . Ellas se relacionan con la funci´ on de distribuci´on conjunta F por FX (x) = F (x, ∞) = l´ım F (x, y) y→∞

y FY (y) = F (∞, y) = l´ım F (x, y). x→∞

Si existe una funci´on no negativa f tal que   Zx Zy  (6.2) F (x, y) = f (u, v)dv  du, −∞

−∞ < x, y < ∞,

−∞

entonces f se llama una funci´ on de densidad conjunta (con respecto a la integraci´on) para la funci´on de distribuci´on F o para el par de variables aleatorias X, Y . Hasta que se especifique lo contrario, a lo largo de este cap´ıtulo, por funciones de densidad querremos decir funciones con respecto a la integraci´on en lugar de funciones de densidad discreta. Si F tiene densidad f , entonces la ecuaci´on (6.1) se puede escribir en t´erminos de f , para dar   Zb Zd (6.3) P (a < X ≤ b, c < Y ≤ d) =  f (x, y)dy  dx. a

c

Utilizando las propiedades de la integraci´on y de la definici´on de un espacio de probabilidad, se puede mostrar que la relaci´on ZZ (6.4) P ((X, Y ) ∈ A) = f (x, y)dx dy A

se cumple para subconjuntos A en el plano del tipo de los que se consideran en C´alculo. Si hacemos que A sea el plano entero obtenemos de (6.4) que Z∞ Z∞ (6.5)

f (x, y)dx dy = 1. −∞ −∞

Tambi´en se sigue de (6.4) que Zx FX (x) = P (X ≤ x) =



Z∞

 −∞

130

−∞

 f (u, y)dy  du

6. Variables Aleatorias Conjuntamente Distribuidas

6.1. Propiedades de las distribuciones bi-variadas

y por lo tanto, FX tiene una densidad marginal fX dada por Z∞ fX (x) =

f (x, y)dy −∞

la cual satisface

Zx FX (x) =

fX (u)du. −∞

De manera similar, FY tiene densidad marginal fY dada por Z∞ fY (y) =

f (x, y)dx. −∞

Como en el caso unidimensional, f no est´a un´ıvocamente definida por (6.2). Podemos cambiar los valores de f en un n´ umero finito de puntos o a´ un sobre un n´ umero finito de curvas suaves en el plano sin afectar las integrales de f sobre conjuntos en el plano. Nuevamente como en el caso unidimensional, F determina a f en los puntos donde f es continua. Este hecho se puede obtener de (6.3). Diferenciando (6.2) y aplicando las reglas del c´alculo obtenemos   Zx Zx Zy ∂ ∂   f (u, y)du F (x, y) = f (u, v)dv du = ∂y ∂y −∞

−∞

−∞

y (6.6)

∂2 F (x, y) = f (x, y). ∂x∂y

Bajo algunas otras peque˜ nas condiciones podemos justificar estas operaciones y mostrar que (6.6) se cumple en los puntos de continuidad de f . En casos espec´ıficos, en vez de revisar que los pasos que nos llevaron a (6.6) son v´alidos, usualmente es m´as simple mostrar que la funci´on f obtenida de (6.6) satisface la ecuaci´on (6.2). Ejemplo 1 Ilustremos las definiciones y f´ ormulas anteriores reconsiderando el Ejemplo 1 del Cap´ıtulo 5. Recordemos que en dicho ejemplo, escogemos un punto uniformemente de un disco de radio R. Determinemos a los puntos en el plano por sus coordenadas Cartesianas (x, y). Luego, el disco se puede escribir como {(x, y)|x2 + y 2 ≤ R2 }. Sean X y Y variables aleatorias que denoten las coordenadas del punto elegido. Ya que asumimos uniformidad, suponemos que X y Y tienen densidad conjunta f dada por    1 , x2 + y 2 ≤ R2 2 (6.7) f (x, y) = πR   0, en caso contrario. Entonces, para cualquier subconjunto A del disco (digamos del tipo considerado en c´ alculo), ZZ area de A P ((X, Y ) ∈ A) = f (x, y)dx dy = , πR2 A

131

6. Variables Aleatorias Conjuntamente Distribuidas

6.1. Propiedades de las distribuciones bi-variadas

lo cual concuerda con nuestra suposici´ on de uniformidad. La densidad marginal fX esta dada por √

Z∞ fX (x) =

R Z2 −x2

f (x, y)dx dy = √ − R2 −x2

−∞

√ 1 2 R2 − x2 dy = πR2 πR2

para −R < x < R y fX (x) = 0 en caso contrario. La densidad marginal fY (y) esta dada por la misma f´ ormula con x reemplazada por y. Las variables X y Y se llaman variables aleatorias independientes si cada vez que a ≤ b y c ≤ d se tiene (6.8)

P (a < X ≤ b, c < Y ≤ d) = P (a < X ≤ b)P (c < Y ≤ d).

Haciendo a = c = −∞, b = x, y d = y se sigue que si si X y Y son independientes, entonces (6.9)

F (x, y) = FX (x)FY (y),

−∞ < x, y < ∞.

Inversamente (6.9) implica que X y Y son independientes. Si (6.9) se cumple, entonces por (6.1) el lado izquierdo de (6.8) es F (b, d) − F (a, d)−F (b, c) + F (a, c) = FX (b)FY (d) − FX (a)FY (d) − FX (b)FY (c) + FX (a)FY (c) = (FX (b) − FX (a))(FY (d) − FY (c)) = P (a < X ≤ b)P (c < Y ≤ d) De manera m´as general, se puede probar que si X y Y son independientes y si A y B son uniones de una cantidad a lo sumo numerable de intervalos, entonces P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) o, en otras palabras, lo eventos {ω|X(ω) ∈ A}

y

{ω|Y (ω) ∈ B}

son eventos independientes. Sean X y Y variables aleatorias con densidades marginales fX y fY . Entonces X y Y son independientes si y solo si la funci´on f definida por f (x, y) = fX (x)fY (y),

−∞ < x, y < ∞,

es una densidad conjunta para X y Y . Esto se sigue de la definici´on de independencia y de la f´ormula   Zx Zy  FX (x)FY (y) = fX (u)fY (v)dv  du. −∞

−∞

Como una ilustraci´on de variables aleatorias dependientes, sean X y Y como en el Ejemplo 1. Entonces para −R < x < R y −R < y < R, p √ 4 R2 − x2 R2 − y 2 (6.10) fX (x)fY (y) = , π 2 R4 132

6. Variables Aleatorias Conjuntamente Distribuidas

6.1. Propiedades de las distribuciones bi-variadas

lo cual no concuerda con la densidad conjunta de estas variables en x = 0, y = 0. Como (0, 0) es un punto de continuidad de las funciones definidas por (6.7) y (6.10), se sigue que X y Y son variables aleatorias dependientes. Esto est´a de acuerdo con nuestra noci´on intuitiva de dependencia, ya que cuando X est´a cerca de R, Y debe estar cerca de 0, as´ı que informaci´on acerca de X nos da informaci´on sobre Y . Las funciones de densidad tambi´en se pueden definir directamente, tal como lo hemos visto en otros contextos. Una funci´ on de densidad bidimensional (o bi-variada) f es una funci´ on no 2 negativa en R tal que Z∞ Z∞ f (x, y)dx dy = 1 −∞ −∞

en correspondencia a cada funci´on de densidad bidimensional f , existe un espacio de probabilidad y un par de variables aleatorias X y Y definidas en dicho espacio tales que f es su funci´on de densidad conjunta. La forma m´as f´acil de construir funciones de densidad bidimensionales es el comenzar con dos densidades unidimensionales f1 yf2 y definir despu´es la funci´on f por (6.11)

−∞ < x, y < ∞.

f (x, y) = f1 (x)f2 (y),

Entonces, f es un funci´on de densidad bidimensional ya que claramente es no-negativa y Z∞ Z∞

Z∞ f (x, y)dx dy =

−∞ −∞

Z∞ f1 (x)dx

−∞

f2 (y)dy = 1.

−∞

Si las variables aleatorias X y Y tienen a esta f como su funci´on de densidad conjunta, entonces X y Y son independientes y tienen densidades marginales fX = f1 y fY = f2 . Como una ilustraci´on de (6.11), sean tanto f1 como f2 la densidad normal est´andar n(0, 1). Entonces f est´a dada por 1 1 2 2 f (x, y) = √ e−x /2 √ e−y /2 2π 2π o (6.12)

f (x, y) =

1 −(x2 +y2 )/2 e , 2π

−∞ < x, y < ∞.

La densidad dada por (6.12) es llamada la densidad normal bi-variada est´ andar. En nuestro siguiente ejemplo modificaremos ligeramente el lado derecho de (6.12) para obtener una funci´ on de densidad conjunta que corresponda al caso en el cual las dos variables aleatorias tengan densidades marginales normales que sean dependientes. Ejemplo 2 Sean X y Y dos variables aleatorias, cuya funci´ on de densidad conjunta f est´ a dada por 2 2 f (x, y) = ce−(x −xy+y )/2 , −∞ < x, y < ∞, donde c es una constante positiva que ser´ a determinada en el transcurso de nuestra discusi´ on. Primero “completamos el cuadrado” en t´erminos que involucren a y, y reescribimos a f como f (x, y) = ce−[(y−x/2)

2 +3x2 /4]/2

133

,

−∞ < x, y < ∞,

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

y notamos entonces que Z∞ fX (x) =

−3x2 /8

Z∞

f (x, y)dy = ce −∞

e−(y−x/2)

2 /2

dy.

−∞

Haciendo el cambio de variable u = y − x/2, observamos que Z∞

−(y−x/2)2 /2

e

Z∞ dy =

−∞

Como consecuencia

eu

2 /2

du =



2π.

−∞

√ 2 fX (x) = c 2πe−3x /8 .

Ahora es claro que fX es la densidad normal n(0, σ 2 ), con σ 2 = 4/3 y por lo tanto √ √ 3 1 c 2π = √ = √ σ 2π 2 2π √ o c = 3/4π. Como consecuencia √ 3 −(x2 −xy+y2 )/2 (6.13) f (x, y) = e , −∞ < x, y < ∞. 4π Los c´ alculos de arriba muestran ahora que fX es la densidad normal n(0, 4/3). de manera similar, podemos mostrar que fY es tambi´en n(0, 4/3). Ya que f (x, y) 6= fX (x)fY (y), es claro que X y Y son dependientes.

6.2.

Distribuci´ on de sumas y cocientes

Sean X y Y variables aleatorias con densidad conjunta f . En muchos contextos tenemos una variable aleatoria Z definida en t´erminos de X y de Y , y nos gustar´ıa calcular la densidad de Z. Sea que Z est´e dada por Z = ϕ(X, Y ), donde ϕ es una funci´on real cuyo dominio contiene el rango de X y Y . Para un z fijo, el evento {Z ≤ z} es equivalente al evento {(X, Y ) ∈ Az }, donde Az es el subconjunto de R2 definido por Az := {(x, y)|ϕ(x, y) ≤ z}. Entonces

ZZ FZ (z) = P (Z ≤ z) = P ((X, Y ) ∈ Az ) =

f (x, y)dx dy. Az

Si somos capaces de encontrar una funci´on no-negativa g tal que Zz

ZZ f (x, y)dx dy = Az

g(v)dv,

−∞ < z < ∞,

−∞

entonces g es necesariamente una densidad de Z. Utilizaremos este m´etodo para calcular las densidades de X + Y y de Y /X. 134

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

6.2.1.

Distribuci´ on de sumas.

Hagamos Z = X + Y . As´ı Az = {(x, y)|x + y ≤ z} es s´olo el semiplano de la parte inferior izquierda de la l´ınea x + y = z tal como se muestra en la Figura 1. Entonces  z−x  ZZ Z∞ Z  f (x, y)dx dy = f (x, y)dy  dx. FZ (z) = −∞

Az

−∞

Haciendo el cambio de variable y = v − x en la integral de adentro, tenemos   Z∞ Zz  FZ (z) = f (x, v − x)dv  dx −∞ Zz

=

−∞ Z∞



f (x, v − x)dx dv,

 −∞



−∞

donde hemos tambi´en intercambiado el orden de la integraci´on. Entonces la densidad de la variable aleatoria Z = X + Y est´a dada por Z∞ (6.14)

f (x, z − x)dx,

fX+Y (z) =

−∞ < z < ∞.

−∞

y

(0,z) x+y=z

x

o

Az

Figura 1 En muchas de las aplicaciones de (6.14), las variables aleatorias X y Y son independientes, y (6.14) se puede reescribir como Z∞ (6.15)

fX (x)fY (z − x)dx,

fX+Y (z) = −∞

135

−∞ < z < ∞.

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

Si X y Y son variables aleatorias independientes no-negativas, tenemos fX+Y (z) = 0 para z ≤ 0 y Zz (6.16)

fX (x)fY (z − x)dx,

fX+Y (z) =

0 < z < ∞.

0

El lado derecho de (6.15) sugiere un m´etodo para obtener densidades. Dadas dos densidades unidimensionales f y g, la funci´on h definida por Z∞ f (x)g(z − x)dx,

h(z) =

−∞ < z < ∞,

−∞

es una funci´on de densidad unidimensional, llamada la convoluci´ on de f y g. As´ı, la densidad de la suma de dos variables aleatorias independientes es la convoluci´on de las densidades individuales. Ejemplo 3 Sean X y Y variables aleatorias independientes cada una con una distribuci´ on exponencial de par´ ametro λ. Encuentre la distribuci´ on de X + Y La densidad de X est´ a dada por fX (x) = λe−λx para x ≥ 0 y fX (x) = 0 para x < 0. La densidad de Y es la misma. As´ı fX+Y (z) = 0 para z ≤ 0 y, por (6.16), para z > 0 Zz fX+Y (z) =

λe

−λx

−λ(z−x)

λe

2 −λx

Zz

dx = λ e

0

dx = λ2 ze−λz .

0

Vemos entonces que X + Y tiene la densidad gama Γ(2, λ). Ejemplo 4 Sean X y Y variables aleatorias independientes uniformemente distribuidas sobre (0, 1). Encuentre la densidad de X + Y . La densidad de X esta dada por fX (x) = 1 para 0 < x < 1 y fX (x) = 0 en caso contrario. La densidad de Y es la misma. Entonces fX+Y (z) = 0 para z ≤ 0. Para z > 0 aplicamos (6.16). El integrando fX (x)fY (z − x) toma solo los valores 0 y 1. Toma el valor de 1 si x y z son tales que 0 ≤ x ≤ 1 y 0 ≤ z − x ≤ 1. Si 0 ≤ z ≤ 1, el integrando tiene el valor de 1 en el conjunto 0 ≤ x ≤ z y cero en otro caso. Por lo tanto, obtenemos de (6.16) que fX+Y (z) = z,

0 ≤ z ≤ 1.

Si 1 ≤ z ≤ 2, el integrando tiene el valor de 1 en el conjunto z − 1 ≤ x ≤ 1 y cero en cualquier otro caso, entonces, por (6.16) fX+Y (z) = 2 − z, 1 ≤ z ≤ 2. Si 2 < z < ∞ el integrando en (6.16) es id´enticamente cero y por lo tanto fX+Y (z) = 0,

2 < z < ∞.

   z,   

0 ≤ z ≤ 1,

En resumen

fX+Y (z) =

2 − z,     0, 136

1 < z ≤ 2, en otro caso.

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

fX+Y 1

0

2

Figura 2 La gr´ afica est´ a dada en la Figura 2. Tambi´en se puede hallar la densidad de X + Y calculando el a ´rea del conjunto Az = {(x, y)|0 ≤ x ≤ 1, 0 ≤ y ≤ 1 y x + y ≤ z} (v´ease la Figura 3) y diferenciando la respuesta con respecto de z.

Az Az 1 0,

donde R1 (6.18)

c=

0

uα1 −1 (1 − u)α2 −1 du . Γ(α1 )Γ(α2 )

La constante c puede ser determinada del hecho de que la integral de fX+Y es 1. De (6.17) y de la definici´ on de la densidad gama, es claro que fX+Y debe ser la densidad Γ(α1 + α2 , λ) como se afirm´ o. 137

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

 De (6.17) y de la definici´on de la densidad gama tambi´en notamos que c = 1/Γ(α1 + α2 ). Esto, conjuntamente con (6.18) nos permite evaluar la integral definida que aparece en (6.18) en t´erminos de la funci´on gama: Z1 (6.19)

uα1 −1 (1 − u)α2 −1 du =

Γ(α1 )Γ(α2 ) . Γ(α1 + α2 )

0

Esta f´ormula nos permite definir una nueva familia de densidades de par´ametro doble llamadas las densidades Beta. La densidad Beta con par´ametros α1 y α2 est´a dada por    Γ(α1 +α2 )xα1 −1 (1−x)α2 −1 , 0 < x < 1, Γ(α1 )Γ(α2 ) (6.20) f (x) =   0, en otro caso . La raz´on de esta terminolog´ıa es porque la funci´on de α1 y α2 definida por B(α1 , α2 ) =

Γ(α1 )Γ(α2 ) , Γ(α1 + α2 )

0 < α1 , α2 < ∞,

es llamada la funci´on Beta. Nuestra aplicaci´on final de la f´ormula de la convoluci´on es para las variables aleatorias normalmente distribuidas. Teorema 2 Sean X y Y variables aleatorias independientes con densidades normales n(µ1 , σ12 ) y n(µ2 , σ22 ) respectivamente. Entonces X + Y tiene la densidad normal n(µ1 + µ2 , σ12 + σ22 ) Demostraci´on: Asumamos primero que µ1 = µ2 = 0. Entonces fX (x) =

1 √

e−x

1 √

e−y

σ1 2π

2 /2σ 2 1

,

−∞ < x < ∞,

2 /2σ 2 2

,

−∞ < y < ∞.

y fY (y) =

σ2 2π

Entonces por (6.15) 1 fX+Y (z) = 2πσ1 σ2

Z∞ −∞

   1 x2 (z − x)2 exp − + dx. 2 σ12 σ22

Desafortunadamente,una evaluaci´ on de esta integral requiere algunos c´ alculos confusos (c´ alculos que no son suficientemente importantes como para dominarlos). Una forma de proceder es primero hacer el cambio de variable p σ12 + σ22 x. u= σ1 σ2 Despu´es de algunos c´ alculos algebraicos simples encontramos que " !# Z∞ 2 1 1 2uzσ z 1 fX+Y (z) = p 2 exp − u2 − p 2 + du. 2 2π σ1 + σ22 σ2 σ1 + σ22 σ22 −∞

138

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

Despu´es completamos el cuadrado en u y observamos que z2 2uzσ1 + u − p 2 = σ2 σ1 + σ22 σ22

zσ1 u− p 2 σ2 σ1 + σ22

2

!2 +

z2 . σ12 + σ22

Entonces haciendo un segundo cambio de variable zσ p 1 , σ2 σ12 + σ22

v =u− vemos que 2

fX+Y

2

2 2 2 e−z /2(σ1 +σ2 )

=√



p

Z∞

2

e−z /2(σ1 +σ2 ) =√ p 2 2π σ1 + σ22 σ12 + σ22

−∞

2

e−v /2 √ dv 2π

,

que es justamente la densidad normal n(0, σ12 + σ22 ). En general, X − µ1 y Y − µ2 son independientes y tienen sus respectivas densidades normales n(0, σ12 ) y n(0, σ22 ). Entonces por el caso especial anterior, (X − µ1 ) + (Y − µ2 ) = X + Y − (µ1 + µ2 ) tiene la densidad normal n(0, σ12 + σ22 ), y entonces X + Y tiene la densidad normal n(µ1 + µ2 , σ12 + σ22 ) como se afirm´ o.  La prueba precedente es elemental, pero confusa. Una prueba menos computacional que involucra t´ecnicas m´as avanzadas ser´a dada en la Secci´on 8.3. Se indica otra prueba en el Ejercicio 36 al final de este cap´ıtulo. Ejemplo 5 Sean X y Y variables aleatorias independientes cada una con densidad normal n(0, σ 2 ). encuentre la densidad de X + Y y X 2 + Y 2 . Por el Teorema 2, inmediatamente vemos que X + Y tiene la densidad normal n(0, 2σ 2 ). Por el Ejemplo 12 del Cap´ıtulo 5, tanto X 2 como Y 2 tienen densidad gama Γ(1/2, 1/2σ 2 ). F´ acilmente se 2 2 2 2 ve que X y Y son independientes. Entonces por el Teorema 1, X + Y tiene la densidad gama Γ(1, 1/2σ 2 ), la cual es la misma que la densidad exponencial de par´ ametro 1/2σ 2 .

6.2.2.

Distribuci´ on de cocientes*

Como antes, sean X y Y variables aleatorias con densidad conjunta f . Deduciremos ahora la f´ormula para la densidad de la variable aleatoria Z = Y /X. El conjunto Az = {(x, y)|y/x ≤ z} se muestra en la Figura 4. Si x < 0 entonces y/x ≤ z si y solo si y ≥ xz. Entonces Az = {(x, y)|x < 0 y y ≥ xz} ∪ {(x, y)|x > 0 y y ≤ xz}. 139

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

Como consecuencia ZZ f (x, y)dx dy

FY /X (z) = Az

Z0 =



Z∞

f (x, y)dy  dx +

 −∞

Z∞



xz

Zxz



 f (x, y)dy  dx.

 −∞

0

y

y

Az Az x

x

y=xz

Az y=xz

Az z0

Figura 4 En las integrales internas hacemos el cambio de variable y = xv (con dy = x dv) para obtener  −∞    Z0 Z Z∞ Zz  FY /X (z) = xf (x, xv)dv  dx +  xf (x, xv)dv  dx −∞

Z0 =

z

 

−∞ Z∞

=



Z∞

(−x)f (x, xv)dv  dx +

−∞ Zz



Zz

 xf (x, xv)dv  dx

 0

 

−∞

−∞

0

Zz

−∞

 |x|f (x, xv)dv  dx.

−∞

Intercambiando el orden de integraci´on vemos que  ∞  Zz Z  (6.21) FY /X (z) = |x|f (x, xv)dx dv, −∞

−∞ < z < ∞.

−∞

Se sigue de (6.21) que Y /X tiene la densidad fY /X dada por Z∞ (6.22)

|x|f (x, xz)dx,

fY /X (z) =

−∞ < z < ∞.

−∞

En el caso especial en el que X y Y son variables aleatorias independientes positivas, (6.22) se reduce a fX/Y = 0 para z ≤ 0 y Z∞ (6.23)

fY /X (z) =

xfX (x)fY (xz)dx, 0

140

0 < z < ∞.

6. Variables Aleatorias Conjuntamente Distribuidas

6.2. Distribuci´ on de sumas y cocientes

Nuestro siguiente teorema es una aplicaci´on directa de (6.23). Teorema 3 Sean X y Y variables aleatorias independientes con densidades gama Γ(α1 , λ) y Γ(α2 , λ) respectivamente. Entonces Y /X tiene la densidad dada por fY /X (z) = 0 para z ≤ 0 y (6.24)

fY /X (z) =

Γ(α1 + α2 ) z α2 −1 , Γ(α1 )Γ(α2 ) (z + 1)α1 +α2

0 < z < ∞.

Demostraci´on: Recuerde que fX (x) =

λα1 xα1 −1 e−λx , Γ(α1 )

x > 0,

y λα2 y α2 −1 e−λy , Γ(α2 ) Es posible aplicar la f´ ormula (6.23), as´ı, para 0 < z < ∞, fY (y) =

λα1 +α2 fY /X (z) = Γ(α1 )Γ(α2 )

Z∞

y > 0.

xxα1 −1 e−λx (xz)α2 −1 e−λxz dx

0

=

λα1 +α2 z α2 −1

Z∞

Γ(α1 )Γ(α2 )

xα1 +α2 −1 e−xλ(z+1) dx.

0

Por la ecuaci´ on (5.34) (Cap´ıtulo 5) Z∞

xα1 +α2 −1 e−xλ(z+1) dx =

Γ(α1 + α2 ) . (λ(z + 1))α1 +α2

0

Luego, se cumple (6.24), como se afirm´ o.  Ya que (6.24) define una funci´on de densidad, vemos que para α1 , α2 > 0 Z∞

z α2 −1 (z + 1)−(α1 +α2 ) dz =

Γ(α1 )Γ(α2 ) . Γ(α1 + α2 )

0

Ejemplo 6 Sean X y Y variables aleatorias independientes, cada una con densidad normal n(0, σ 2 ). Encuentre la densidad de Y 2 /X 2 . Las variables aleatorias son las mismas que las del Ejemplo 5. Nuevamente X 2 y Y 2 son independientes, y cada una tiene densidad gama Γ(1/2, 1/2σ 2 ). Se puede aplicar el Teorema 3, y Y 2 /X 2 tiene la densidad fY 2 /X 2 dada por fY 2 /X 2 (z) = 0 para z ≤ 0 y Γ(1) z −1/2 Γ(1/2)Γ(1/2) (z + 1) 1 √ , = 0 < z < ∞. π(z + 1) z

fY 2 /X 2 (z) =

√ (Aqu´ı hemos recordado el hecho de la Ecuaci´ on (5.35) del Cap´ıtulo 5 que Γ(1/2) = π.) Dejamos como ejercicio al lector como ejercicio el demostrar que bajo las mismas condiciones, tanto Y /X como Y /|X| tienen densidad de Cauchy. 141

6. Variables Aleatorias Conjuntamente Distribuidas

6.3. Densidades Condicionales

6.3.

Densidades Condicionales

Con objeto de motivar la definici´on de las densidades condicionales de variables aleatorias continuas, primero discutiremos acerca de las variables aleatorias discretas. Sean X y Y variables aleatorias discretas con densidad conjunta f . Si x es un valor posible de X, entonces P (Y = y|X = x) =

P (X = x, Y = y) f (x, y) = . P (X = x) fX (x)

La funci´on fY |X definida por

(6.25)

fY |X (y|x) :=

   f (x,y) ,

fX (x) 6= 0,

  0,

fX (x) = 0,

fX (x)

es llamada la densidad condicional de Y dada X. Para cualquier valor posible x de X, P X fX (x) y f (x, y) fY |X (y|x) = = = 1, fX (x) fX (x) y as´ı que para cada una de tales x, fY |X (y|x) define una funci´on de densidad discreta de y conocida como densidad condicional de Y dado X = x. En el caso discreto las densidades condicionales realmente no involucran conceptos nuevos. Sin embargo, si X es una variable aleatoria continua, entonces P (X = x) = 0 para toda x, as´ı que P (Y = y|X = x) siempre est´a indefinida. En este caso, cualquier definici´on de densidad condicional involucra necesariamente un nuevo concepto. La manera m´as simple de definir densidades condicionales de una variable aleatoria continua es por analog´ıa con la f´ormula (6.25) en el caso discreto. Definici´ on 1 Sean X y Y variables aleatorias continuas con densidad conjunta f . La densidad condicional fY |X se define por

(6.26)

fY |X (y|x) :=

   f (x,y) ,

0 < fX (x) < ∞,

fX (x)

  0,

en caso contrario.

se sigue inmediatamente de esta definici´on que, como funci´on de y, fY |X (y|x) es una densidad cada que 0 < fX (x) < ∞ (nuevamente llamada la densidad condicional de Y dado X = x). Las densidades condicionales pueden ser utilizadas para definir probabilidades condicionales. Entonces, definimos Zb (6.27)

P (a ≤ Y ≤ b|X = x) =

fY |X (y|x)dy,

a ≤ b.

a

De manera an´aloga, podemos intentar definir la probabilidad condicional que aparece en (6.27) en t´erminos del siguiente l´ımite: P (a ≤ Y ≤ b|X = x) (6.28)

= l´ım P (a ≤ Y ≤ b|x − h ≤ X ≤ x + h). h↓0

142

6. Variables Aleatorias Conjuntamente Distribuidas

6.3. Densidades Condicionales

El lado derecho de (6.28) se puede reescribir en t´erminos de f como   R x+h R b R x+h R b f (u, y)dy du (1/2h) f (u, y)dy du x−h a x−h a R  l´ım R = l´ım . R x+h ∞ h↓0 x+h h↓0 (1/2h) f (u)du f (u, y)dy du X x−h x−h −∞ Si

Zb f (u, y)dy a

es continua en u = x, el numerador del u ´ltimo l´ımite converge a Zb f (x, y)dy a

cuando h ↓ 0. Si fX es continua en x el denominador converge a fX (x) cuando h ↓ 0. Bajo la condici´on adicional de que fX (x) 6= 0, concluimos de (6.28) que Rb f (x, y)dy P (a ≤ Y ≤ b|X = x) = a , fX (x) que concuerda con (6.27). en resumen, hemos definido densidades y probabilidades condicionales en el caso continuo por analog´ıa al caso discreto. Tambi´en hemos notado que, bajo mayores restricciones, un proceso de l´ımite conllevar´ıa a la misma definici´on de probabilidad condicional. Se observa que tales procesos l´ımite son dif´ıciles de manejar y no ser´an utilizados posteriormente. Se sigue inmediatamente de la definici´on de funci´on de densidad condicional que (6.29)

f (x, y) = fX (x)fY |X (y|x),

−∞ < x, y < ∞.

Si X y Y son independientes y (6.30)

f (x, y) = fX (x)fY (y),

−∞ < x, y < ∞,

entonces (6.31)

fY |X (y|x) = fY (y),

0 < fX (x) < ∞ y − ∞ < y < ∞.

Rec´ıprocamente, si (6.31) se cumple, entonces se sigue de (6.29) que (6.30) se cumple y que X y Y son independientes. Entonces (6.31) es una condici´on necesaria y suficiente para que dos variables aleatorias X y Y que posean una funci´on de densidad conjunta sean independientes. Ejemplo 7 Sea que X y Y tengan la densidad bi-variada f dada por la F´ ormula (6.13), a saber √ 3 −(x2 −xy+y2 )/2 f (x, y) = e , −∞ < x, y < ∞. 4π Como vimos en el Ejemplo 2, X tiene densidad normal n(0, 4/3). Entonces, para −∞ < x, y < ∞ √

fY |X (y|x) =

3 −(x2 −xy+y 2 )/2 4π e√ 2 √ 3 e−3x /8 2 2π

1 2 = √ e−(y−x/2) /2 . 2π

En otras palabras, la densidad condicional de Y dado X = x es la densidad normal n(x/2, 1). 143

6. Variables Aleatorias Conjuntamente Distribuidas

6.3. Densidades Condicionales

Hemos estado comenzando con densidades conjuntas, utiliz´andolas para construir densidades marginales y condicionales. En algunas situaciones podemos revertir esto comenzando con densidades marginales y condicionales y utiliz´andolas para construir densidades conjuntas. Ejemplo 8 Sea X una variable aleatoria uniformemente distribuida sobre (0, 1), y Y una variable aleatoria uniformemente distribuida sobre (0, X). Encuentre la densidad conjunta de X y Y , as´ı como la densidad marginal de Y . Del enunciado del problema vemos que la densidad marginal de X viene dada por   1, 0 < x < 1, fX (x) =   0, en caso contrario. La densidad de Y dado X = x es uniforme sobre (0, x), luego   1/x, 0 < y < x < 1, fY |X (y|x) =   0, en caso contrario. Entonces la densidad conjunta de X y Y est´ a dada por   1/x, 0 < y < x < 1, f (x, y) =   0, en caso contrario. La densidad marginal de Y es Z∞ fY (y) =

Z1 f (x, y)dx =

−∞

1 dx = − log y, x

0 < y < 1,

y

y fY (y) = 0 en otro caso.

6.3.1.

La Regla de Bayes

Por supuesto, podemos cambiar los papeles de X y Y y definir as´ı la densidad condicional de X dado Y = y en t´erminos de la f´ormula (6.32)

fX|Y (x|y) =

f (x, y) , fY (y)

0 < fY (y) < ∞.

Ya que f (x, y) = fX (x)fY |X (y|x) y

Z∞ fY (y) =

Z∞ f (x, y)dx =

−∞

fX (x)fY |X (y|x)dx, −∞

podemos reescribir (6.32) como (6.33)

fX (x)fY |X (y|x) . −∞ fX (x)fY |X (y|x)dx

fX|Y (x|y) = R ∞

144

6. Variables Aleatorias Conjuntamente Distribuidas

6.3. Densidades Condicionales

Esta f´ormula es la an´aloga al caso continuo de la famosa Regla de Bayes, discutida en el Cap´ıtulo 1. En los cap´ıtulos 3 y 4 consideramos variables aleatorias X y Y las cuales eran ambas discretas. En el Cap´ıtulo 6 hemos estado interesados principalmente en variables aleatorias X y Y que son ambas continuas. Existen casos en los cuales estamos interesados tanto en variables aleatorias discretas como continuas al mismo tiempo. Deber´ıa quedar claro al lector como podr´ıamos modificar nuestra discusi´on para incluir esta posibilidad. Algunas de las m´as interesantes aplicaciones de la F´ormula (6.33) son de este tipo. Ejemplo 9 Suponga que el n´ umero de accidentes automovil´ısticos en los cuales un conductor estar´ a involucrado durante un periodo de un a˜ no es una variable aleatoria Y con distribuci´ on de Poisson de par´ ametro λ, donde λ depende del conductor. Si escogemos un conductor al azar de alguna poblaci´ on, podemos hacer que λ var´ıe y as´ı definir una variable aleatoria continua Λ con densidad fΛ . La densidad condicional de Y dado Λ = λ es la densidad de Poisson con par´ ametro λ dada por    λy e−λ , y = 0, 1, 2, . . . , y! fY |Λ (y|λ) =   0, en otro caso. La densidad conjunta de Λ y Y es

f (λ, y) =

   fΛ (λ)λy e−λ ,

y = 0, 1, 2, . . . ,

  0,

en otro caso.

y!

En general, no podemos encontrar una f´ ormula agradable para la densidad marginal de Y o la densidad condicional de Λ dada Y = y, ya que no podemos evaluar las integrales deseadas. Sin embargo, podemos encontrar f´ ormulas simples en el caso especial de que f sea la densidad gama Γ(α, β), as´ı que    β α λα−1 e−λβ , para λ > 0, Γ(α) fΛ (λ) =   0, en otro caso. En este caso, Z∞ fY (y) =

f (λ, y)dλ −∞ Z∞

=

β α λα−1 e−λβ λy e−λ dλ Γ(α) y!

0

βα = y!Γ(α)

Z∞

λα+y−1 e−λ(β+1) dλ

0

Γ(α + y)β α = . y!Γ(α)(β + 1)α+y El valor de la u ´ltima integral se obtuvo utilizando la f´ ormula (5.34) del Cap´ıtulo 5. Se deja como ejercicio para el lector el demostrar que fY es la densidad binomial negativa con par´ ametros α y 145

6. Variables Aleatorias Conjuntamente Distribuidas

6.4. Propiedades de las distribuciones multivariadas

p = β/(1 + β). Tambi´en tenemos que para λ > 0 y y un entero no negativo, fΛ|Y (λ|y) =

f (λ, y) fY (y)

=

β α λα+y−1 e−λ(β+1) y!Γ(α)(β + 1)α+y Γ(α)y!Γ(α + y)β α

=

(β + 1)α+y λα+y−1 e−λ(β+1) , Γ(α + y)

Lo cual dice que la densidad condicional de Λ dado Y = y es la densidad gama Γ(α + y, β + 1). Si alguien involucrado en la industria aseguradora quisiera resolver problemas de este tipo, posiblemente tratar´ıa de aproximar la verdadera densidad de fΛ por una densidad gama Γ(α, β), donde α y β son elegidos de manera que la aproximaci´ on sea tan buena como sea posible.

6.4.

Propiedades de las distribuciones multivariadas

Los conceptos discutidos hasta ahora en este cap´ıtulo para dos variables aleatorias X y Y son extendidos f´acilmente a n variables. En esta secci´on indicamos en resumen como se hace esto. Sean X1 , . . . , Xn n variables aleatorias definidas sobre un espacio de probabilidad com´ un. Su funci´ on de distribuci´ on conjunta F se define por F (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ),

−∞ < x1 , . . . , xn < ∞.

Las funciones de distribuci´on marginales FXm se definen por FXm (xm ) = P (Xm ≤ xm ),

−∞ < xm < ∞.

El valor de FXm (xm ) se puede obtener de F haciendo que x1 , . . . , xm−1 , xm+1 , . . . , xn tiendan a +∞. Una funci´on no negativa f se llama una funci´on de densidad conjunta (con respecto a la integraci´on) para la funci´on de distribuci´on conjunta F , o para las variables aleatorias X1 , . . . , Xn , si Zx1 (6.34)

Zxn f (u1 , . . . , un )du1 · · · dun ,

···

F (x1 , . . . , xn ) = −∞

−∞

Bajo algunas otras condiciones, la ecuaci´on f (x1 , . . . , xn ) =

∂n F (x1 . . . , xn ) ∂x1 · · · ∂xn

es v´alida en los puntos donde F es continua. Si (6.34) se cumple y A es cualquier subconjunto de Rn del tipo de los considerados en C´alculo, entonces Z Z P ((X1 , . . . , Xn ) ∈ A) = · · · f (x1 , . . . , xn )dx1 · · · dxn . A

En particular Z∞

Z∞ ···

(6.35) −∞

f (x1 , . . . , xn )dx1 · · · dxn = 1

−∞

146

6. Variables Aleatorias Conjuntamente Distribuidas

6.4. Propiedades de las distribuciones multivariadas

y si am ≤ bm para m = 1, . . . , n, entonces P (a1 ≤ X1 ≤ b1 , . . . , an ≤ Xn ≤ bn ) Zb1

Zbn f (x1 , . . . , xn )dx1 · · · dxn .

···

=

an

a1

La variable aleatoria Xm tiene la densidad marginal fXm obtenida integrando f sobre las restantes n − 1 variables. Por ejemplo, Z∞

Z∞ ···

fX2 (x2 ) = −∞

f (x1 , . . . , xn )dx1 dx3 · · · dxn .

−∞

En general, las variables aleatorias X1 , . . . , Xn se dicen independientes si cada vez que am ≤ bm para m = 1, . . . , n, entonces P (a1 ≤ X1 ≤ b1 , . . . , an ≤ Xn ≤ bn ) =P (a1 ≤ X1 ≤ b1 ) · · · P (an ≤ Xn ≤ bn ). Una condici´on necesaria y suficiente para la independencia es que F (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn ), ,

−∞ < x1 . . . , xn < ∞.

La necesidad es obvia, pero la parte de la suficiencia para n > 2 es truculenta y no se demostrar´a aqu´ı. Si F tiene una densidad f , entonces X1 , . . . , Xn son independientes si y solo si se puede elegir f de tal manera que f (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ), ,

−∞ < x1 . . . , xn < ∞.

Tambi´en podemos definir una densidad n-dimensional directamente como una funci´on en Rn tal que (6.35) se cumple. La manera m´as simple de construir densidades n-dimensionales es el empezar con n densidades unidimensionales f1 , . . . , fn y definir f por (6.36)

f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ),

−∞ < x1 , . . . , xn < ∞.

Si X1 , . . . Xn son variables aleatorias cuya densidad conjunta f est´a dada por (6.36), entonces X1 , . . . , Xn son independientes y Xm tiene por densidad marginal a fm . Ejemplo 10 Sean X1 , . . . , Xn variables aleatorias independientes, cada una con densidad exponencial de par´ ametro λ. Encuentre la densidad conjunta de X1 , . . . , Xn . La densidad de Xm est´ a dada por   λe−λxm , para 0 < x < ∞, m fXm (xm ) =   0, en caso contrario. As´ı, f est´ a dada por

f (x1 , . . . , xm ) =

  λn e−λ(x1 +···+xn ) ,

para x1 , . . . , xn > 0,

  0,

en caso contrario 147

6. Variables Aleatorias Conjuntamente Distribuidas

6.4. Propiedades de las distribuciones multivariadas

Para calcular la densidad de la suma de n variables aleatorias independientes, y para algunos otros prop´ositos, necesitaremos el siguiente hecho. Teorema 4 Sean X1 , . . . , Xn variables aleatorias independientes. Sea Y una variable aleatoria definida en t´erminos de X1 , . . . , Xm , y sea Z una variable aleatoria definida en t´erminos de Xm+1 , . . . , Xn (donde 1 ≤ m < n). Entonces Y y Z son independientes. No se ofrecer´a la prueba a este teorema ya que involucra argumentos de la Teor´ıa de la medida. Utilizando este teorema y un argumento que involucra inducci´on matem´atica, podemos extender los Teoremas 1 y 2 a sumas de variables aleatorias independientes, como sigue. Teorema 5 Sean X1 , . . . , Xn variables aleatorias independientes tales que Xm posea la densidad gama Γ(αm , λ) para m = 1, . . . , n. Entonces X1 + · · · + Xn tiene la densidad gama Γ(α, λ), donde α = α1 + · · · + αn . Recuerde que la densidad exponencial con par´ametro λ es la misma que la densidad gama Γ(1, λ). As´ı como caso especial de este teorema tenemos el siguiente corolario:Si X1 , . . . , Xn son variables aleatorias independientes, cada una con densidad exponencial con par´ ametro λ, entonces X1 + · · · + Xn tiene la densidad gama Γ(n, λ). Teorema 6 Sean X1 , . . . , Xn variables aleatorias independientes tales que Xm posea la densidad 2 ), m = 1, . . . , n. Entonces X + · · · + X tiene la densidad normal n(µ, σ 2 ), donde normal n(µm , σm 1 n µ = µ1 + · · · + µn

σ 2 = σ12 + · · · + σn2 .

y

Si X1 , . . . , Xn tienen densidad conjunta f , entonces cualquier subcolecci´on de estas variables aleatorias tiene una densidad conjunta que puede ser hallada integrando sobre las variables restantes. Por ejemplo, si 1 ≤ m < n, Z∞

Z∞ ···

fX1 ,...,Xm (x1 , . . . , xm ) = −∞

f (x1 , . . . , xm )dxm+1 · · · dxn .

−∞

La densidad condicional de una subcolecci´on de X1 , . . . , Xn dadas las variables restantes se puede definir tambi´en de manera obvia. As´ı, la densidad condicional de Xm+1 , . . . , Xn dadas X1 , . . . , Xm se define por fXm+1 ,...,Xn |x1 ,...,Xm (xm+1 , . . . , xn |x1 . . . , xm ) =

f (x1 , . . . , xn ) , fX1 ,...,Xm (x1 , . . . , xm )

donde f es la densidad conjunta de X1 , . . . , Xn . Frecuentemente las densidades condicionales se expresan en t´erminos de una notaci´on algo distinta. Por ejemplo, sean n + 1 variables aleatorias X1 , . . . , Xn ,Y teniendo densidad conjunta f . Entonces la densidad condicional de Y dadas X1 , . . . , Xn se define por fY |X1 ,...,Xn (y|x1 , . . . , xn ) = 148

f (x1 , . . . , xn , y) fX1 ,...,Xn (x1 , . . . , xn )

6. Variables Aleatorias Conjuntamente Distribuidas

6.5. Estad´ısticas de orden

6.5.

Estad´ısticas de orden

Sean U1 , . . . , Un variables aleatorias continuas, cada una poseyendo una funci´on de distribuci´on F y funci´on de densidad f . Sean X1 , . . . , Xn variables aleatorias obtenidas haciendo que X1 (ω), . . . , Xn (ω) sea el conjunto U1 (ω), . . . , Un (ω) permutado de tal manera que los valores se hallen en orden creciente. En particular, X1 y Xn son las funciones definidas por X1 (ω) := min {U1 (ω), . . . , Un (ω)} y Xn (ω) := max {U1 (ω), . . . , Un (ω)}. La variable aleatoria Xk se llama la k-´ esima estad´ıstica de orden. Otra variable aleatoria relacionada que es de inter´es es el rango R, definida por R(ω) = Xn − X1 = max {U1 (ω), . . . , Un (ω)} − min {U1 (ω), . . . , Un (ω)}. Se sigue de estas suposiciones sobre U1 , . . . , Un que, con probabilidad uno, las Ui0 s son distintas y por tanto X1 < X2 < · · · < Xn . Para ilustrar estas definiciones num´ericamente, supongamos que U1 (ω) = 4.8, U2 (ω) = 3.5, y U3 (ω) = 4.3. Entonces X1 (ω) = 3.5, X2 (ω) = 4.3, X3 (ω) = 4.8, y R(ω) = 1.3. Ejemplo 11 Considere una m´ aquina con n partes cuyos tiempos de falla U1 , . . . , Un satisfacen las suposiciones hechas en esta secci´ on. Entonces Xk es el tiempo que tardan k partes en fallar. Si la m´ aquina completa falla tan pronto lo haga una sola parte, entonces X1 (ω) = min {U1 , . . . , Un } es el tiempo de falla de la m´ aquina. Si la m´ aquina no falla hasta que todas las partes lo hallan hecho, entonces Xn (ω) = max {U1 , . . . , Un } es el tiempo de falla de la m´ aquina. Ejemplo 12 Suponga que se fabrican esperanzadamente n partes id´enticas en un solo turno en una l´ınea de ensamble y suponga que U1 , . . . , Un denotan las longitudes de las n partes. Un inspector podr´ıa estar interesado en la longitud m´ınima X1 y en la longitud m´ axima Xn para verificar si se encuentran dentro de ciertos l´ımites de tolerancia. Si las partes van a ser intercambiables, la cantidad de variaci´ on de las longitudes se debe mantener peque˜ na. Una posible medida de esta variaci´ on es el rango R de las longitudes. Ahora calcularemos la funci´on de distribuci´on de la k-´esima estad´ıstica de orden Xk . Sea −∞ < x < ∞. La probabilidad de que exactamente j de Ui0 s se encuentren en (−∞, x] y (n − j) est´en en (x, ∞) es   n F j (x)(1 − F (x))n−j , j ya que la distribuci´on binomial con par´ametros n y p = F (x) es aplicable. El evento {Xk ≤ x} ocurre si y solo si k o m´as de las variables Ui0 s se encuentran en (−∞, x]. As´ı

(6.37)

F − Xk (x) = P (Xk ≤ x) n   X n = F j (x)(1 − F (x))n−j , j

−∞ < x < ∞.

j=k

En particular las funciones de distribuci´on de Xn y X1 se pueden escribir de manera muy simple como FXn (x) = (F (x))n , −∞ < x < ∞. 149

6. Variables Aleatorias Conjuntamente Distribuidas

6.5. Estad´ısticas de orden

y FX1 (x) = 1 − (1 − F (x))n ,

−∞ < x < ∞.

La correspondiente deducci´on para Xk en general es un poco m´as complicada. De (6.37), fXk =

n X j=k



=



n−1 X j=k n X

n! f (x)F j−1 (x)(1 − F (x))n−j (j − 1)!(n − j)! n! f (x)F j (x)(1 − F (x))n−j−1 j!(n − j − 1)! n! f (x)F j−1 (x)(1 − F (x))n−j (j − 1)!(n − j)!

j=k n X

j=k+1

n! f (x)F j−1 (x)(1 − F (x))n−j (j − 1)!(n − j)!

y por cancelaci´on (6.38)

fXk =

n! f (x)F k−1 (x)(1 − F (x))n−k , (k − 1)!(n − k)!

−∞ < x < ∞.

Para encontrar la densidad del rango R necesitaremos primero hallar la densidad conjunta de X1 y Xn . Asumimos que n ≥ 2 (ya que R = 0 si n = 1). Sea x ≤ y. Entonces P (X1 < x, Xn < y) = P (x < U1 ≤ y, . . . , x < Un ≤ y) = (F (y) − F (x))n , y, por supuesto P (Xn ≤ y) = F n (y). Como consecuencia FX1 ,Xn (x, y) = P (X1 ≤ x, Xn ≤ y) = P (Xn ≤ y) − P (X1 > x, Xn < y) = F n (y) − (F (y) − F (x))n . La densidad conjunta viene dada por ∂2 FX ,X (x, y) ∂x∂y 1 n = n(n − 1)f (x)f (y)(F (y) − F (x))n−2 ,

fX−1,Xn (x, y) =

x ≤ y.

Es obvio y se demuestra f´acilmente que fX1 ,Xn (x, y) = 0,

x > y.

Modificando ligeramente el argumento utilizado en la Secci´on 6.2.1 para hallar la densidad de una suma, encontramos que la densidad de R = Xn − X1 viene dada por Z∞ fR (x) =

fX1 ,Xn (x, r + x) dx. −∞

150

6. Variables Aleatorias Conjuntamente Distribuidas

6.6. Distribuciones muestrales*

En otras palabras   n(n − 1) R ∞ f (x)f (r + x)(F (r + x) − F (x))n−2 dx, r > 0, −∞ fR (r) =   0, r < 0. Estas f´ormulas pueden ser evaluadas sencillamente cuando U1 , . . . , Un son independientes y uniformemente distribuidas en (0, 1). Esto se deja como un ejercicio. Hay una manera heur´ıstica para derivar estas f´ormulas que es de mucha utilidad. La ilustraremos umero positivo peque˜ no. Entonces derivando nuevamente la f´ormula para fXk . Sea que dx denote un n´ tenemos la aproximaci´on fXk (x) dx ≈ P (x ≤ Xk ≤ x + dx). La manera m´as probable de que ocurra el evento {x ≤ Xk ≤ x + dx} es que k − 1 de las Ui0 s est´en en (−∞, x], una de las Ui0 s se encuentre en (x + dx], y n − k de las Ui0 s se encuentren en (x + dx, ∞) (V´ease la figura 5). La deducci´on de la distribuci´on multinomial dada en el Cap´ıtulo 3 es aplicable y la probabilidad de que el numero indicado de Ui0 s se encuentren en los intervalos apropiados es n! (k − 1)!1!(n − k)!  x k−1 x+dx  ∞ n−k Z Z Z × f (u) du f (u) du  f (u) du

fXk (x)dx ≈

−∞

x

x+dx

n! ≈ f (x) dxF k−1 (x)(1 − F (x))n−k , (k − 1)!(n − k)! de la cual obtenemos (6.38). No intentaremos hacer este m´etodo riguroso. k-1

1 x

n-k x+dx

Figura 5

6.6.

Distribuciones muestrales*

Sean X1 , . . . , Xn variables aleatorias independientes, cada una poseyendo la densidad normal n(0, σ 2 ). En esta secci´on encontraremos las funciones de distribuci´on de numerosas variables aleatorias definidas en t´erminos de las X’s. Aparte de proveer aplicaciones del material precedente, estas funciones de distribuci´on son de importancia fundamental en la inferencia estad´ıstica, y las necesitaremos en el Volumen II. La constante σ 2 es conveniente, pero no esencial, ya que las variables aleatorias X1 /σ, . . . , Xn /σ son independientes y cada una tiene la densidad normal est´andar n(0, 1). As´ı que sin p´erdida de generalidad podemos tomar siempre σ 2 = 1. Por el Teorema 6 la variable aleatoria X1 + · · · + Xn tiene la densidad normal con par´ametros 0 y nσ 2 . Si dividimos esta suma por varias constantes podemos obtener formas alternativas de este resultado. As´ı X1 + · · · + Xn n 151

6. Variables Aleatorias Conjuntamente Distribuidas

6.6. Distribuciones muestrales*

est´a distribuida normalmente con par´ametros 0 y σ 2 /n, y X1 + · · · + Xn √ σ n posee la densidad normal n(0, 1). Ya que X1 /σ tiene la densidad normal est´andar, se sigue del Ejemplo 12 del Cap´ıtulo 5 que 2 X1 /σ 2 tiene la densidad gama Γ(1/2, 1/2), As´ı por el Teorema 5 X12 + · · · + Xn2 σ2 tiene la densidad gama Γ(n/2, 1/2). Esta densidad gama en particular es muy importante en estad´ıstica. Entonces la variable aleatoria correspondiente a esta densidad se dice tener la distribuci´ on 2 2 chi-cuadrada (χ ) con n grados de libertad, denotada por χ (n). Aplicando el Teorema 5 obtendremos el siguiente resultado acerca de las distribuciones χ2 . Teorema 7 Sean Y1 , . . . , Yn variables aleatorias independientes tales que Ym tenga la distribuci´ on χ2 (km ). Entonces Y1 + · · · + Yn tiene la distribuci´ on χ2 (k), donde k = k1 + · · · + kn . Demostraci´on: Por hip´ otesis, Ym tiene la distribuci´ on gama Γ(km /2, 1/2). As´ı por el Teorema 5, Y1 + · · · + Yn tiene la distribuci´ on Γ(k/2, 1/2), donde k = k1 + · · · + kn . Pero esta distribuci´ on es, por definici´ on, la distribuci´ on χ2 (k).  Podemos aplicar tambi´en el Teorema 3 para hallar la distribuci´on de la raz´on de dos variables independientes Y1 y Y2 teniendo distribuciones χ2 (k1 ) y χ2 (k2 ) respectivamente. Tradicionalmente en estad´ıstica se expresan los resultados en t´erminos de las variables normalizadas Y1 /k1 y Y2 /k2 . La distribuci´on de Y1 /k1 Y2 /k2 se conoce como la distribuci´ on F con k1 y k2 grados de libertad, denotada por F (k1 , k2 ). Teorema 8 sean Y1 y Y2 variables aleatorias independientes teniendo distribuciones χ2 (k1 ) y χ2 (k2 ) respectivamente. Entonces la variable aleatoria Y1 /k1 Y2 /k2 la cual tiene la distribuci´ on F (k1 , k2 ), tiene la densidad f dada por f (x) = 0 para x ≤ 0 y (6.39)

f (x) =

(k1 /k2 )Γ[(k1 + k2 )/2](k1 x/k2 )(k1 /2)−1 Γ(k1 /2)Γ(k2 /2)[1 + (k1 x/k2 )](k1 +k2 )/2

x > 0.

Demostraci´on: Por el Teorema 3, la variable aleatoria Y1 /Y2 tiene la densidad g, donde g est´ a dada por (6.24) con α1 = k1 /2 y α2 = k2 /2. As´ı la densidad f de k2 Y1 /k1 Y2 est´ a dada por   k1 k1 x f (x) = g k2 k2 y (6.39) se sigue de (6.24).  152

6. Variables Aleatorias Conjuntamente Distribuidas

6.6. Distribuciones muestrales*

Podemos aplicar este resultado a las variables aleatorias X1 , . . . , Xn definidas al comienzo de esta secci´on. Sea 1 ≤ m < n. Por el Teorema 4, las variables aleatorias 2 X12 + · · · + Xm σ2

2 Xm+1 + · · · + Xn2 σ2

y

son independientes. Ya que ellas tienen respectivamente las distribuciones χ2 (m) y χ2 (n − m) observamos que la variable aleatoria 2 )/m (X12 + · · · + Xm 2 + · · · + Xn2 )/(n − m) (Xm+1

tiene la distribuci´on F (m, n − m) y la densidad dada por (6.39), donde k1 = m y k2 = n − m. Las tablas de las distribuciones F se ofrecen en el Volumen II. El caso m = 1 es especialmente importante. La variable aleatoria X12 (X22 + · · · + Xn2 )/(n − 1) tiene la distribuci´on F (1, n − 1). Podemos utilizar este hecho para hallar la distribuci´on de X1

Y := p

(X22

+ · · · + Xn2 )/(n − 1)

Ya p que X1 tiene una funci´on de densidad sim´etrica y es independiente de la variable aleatoria (X22 + · · · + Xn2 )/(n − 1), se sigue f´acilmente del Teorema 2 del Cap´ıtulo 5 que Y posee una funci´on de densidad sim´etrica fY . Por el ejemplo 5 del Cap´ıtulo 5 la densidad fY 2 est´a relacionada con fY por √ √ 1 fY 2 (z) = √ [fY (− z) + fY ( z)], z > 0. 2 z Utilizando la simetr´ıa de fY y haciendo z = y 2 vemos que fY (y) = |y|fY 2 (y 2 ). Como Y 2 tiene la densidad F (1, n − 1) dada por (6.39), con k1 = 1 y k2 = k = n − 1, hallamos que fY (y) Ya que Γ(1/2) = (6.40)



|y|(1/k)Γ[(k + 1)/2](y 2 /k)−1/2 . Γ(1/2)Γ(k/2)[1 + (y 2 /k)](k+1)/2

π, esta expresi´on se reduce a fY (y) =

Γ[(k + 1)/2][1 + (y 2 /k)]−(k+1)/2 √ , kπΓ(k/2)

−∞ < y < ∞.

Una variable aleatoria cuya densidad est´e dada por (6.40) se dice tener una distribuci´ on t con k grados de libertad.. Observamos que la distribuci´on t con 1 grado de libertad es la misma que la distribuci´on de Cauchy discutida en el Cap´ıtulo 4. Las tablas referentes a las distribuciones t se ofrecen en el Volumen II. La distribuci´on de la variable aleatoria X1

Y := p

(X22 + · · · + Xn2 )/(n − 1) 153

,

6. Variables Aleatorias Conjuntamente Distribuidas

6.7. Cambios de variables multidimensionales

la cual es una distribuci´on t con n − 1 grados de libertad, depende solamente del hecho de que X1 σ

y

X22 + · · · + Xn2 σ2

son independientes y se distribuyen respectivamente como n(0, 1) y χ2 (n − 1). As´ı tenemos el siguiente resultado. Teorema 9 Sean X y Y variables aleatorias independientes con distribuciones n(0, 1) y χ2 (k) respectivamente. Entonces X p Y /k tiene la distribuci´ on t con k grados de libertad.

6.7.

Cambios de variables multidimensionales

Sean X1 , . . . , Xn variables aleatorias continuas con densidad conjunta f . Sean Y1 , . . . , Yn variables aleatorias definidas en t´erminos de las X’s. En esta secci´on discutiremos un m´etodos para hallar la densidad conjunta de las Y ’s en t´erminos de f . Consideraremos principalmente el caso cuando las Y ’s son funciones lineales de las X’s. Suponga entonces que n X Yi = aij Xj , i = 1, . . . , n. j=1

Los coeficientes constantes aij determinan una matriz n × n   a11 . . . a1n  .. .. A = [aij ] =  ... . .  an1 . . . ann Asociado con tal matriz se encuentra el determinante a11 . . . a1n .. .. det A = ... . . an1 . . . ann

   . 

.

Si det A 6= 0 existe una u ´nica matriz inversa B = [bij ] tal que BA = I o equivalentemente n X

(6.41)

bik akj = δij

k=1

Las constantes bij se pueden hallar resolviendo para cada i el sistema (6.41) de n ecuaciones con n inc´ognitas bi1 , . . . , bin . De manera alternativa, las constantes bij est´an definidas de manera u ´nica por la imposici´on de que las ecuaciones yi =

n X

aij xj ,

j=1

154

i = 1, . . . , n,

6. Variables Aleatorias Conjuntamente Distribuidas

6.7. Cambios de variables multidimensionales

tengan soluciones (6.42)

xi =

n X

bij yj ,

i = 1, . . . , n.

j=1

Teorema 10 Sean X1 , . . . , Xn variables aleatorias continuas con densidad conjunta f y suponga que las variables aleatorias Y1 , . . . , Yn est´en definidas por Yi =

n X

aij Xj ,

i = 1, . . . , n.

j=1

donde la matriz A = [aij ] tiene determinante distinto de cero. Entonces las variables Y1 , . . . , Yn tienen la densidad conjunta fY1 ,...,Yn dada por (6.43)

fY1 ,...,Yn (y1 , . . . , yn ) =

1 f (x1 , . . . , xn ), |det A|

donde las x’s est´ an definidas en t´erminos de las y’s por (6.42) o como la u ´nica soluci´ on a las P ecuaciones yi = nj=1 aij xj . Este teorema, el cual no probaremos aqu´ı, es equivalente al teorema demostrado en cursos de c´alculo avanzado dentro de un esquema m´as general que involucra “Jacobianos”. Del resultado general demostrado en c´alculo avanzado podemos extender el teorema anterior a cambios de variables no lineales. Describiremos esta extensi´on brevemente, aunque no ser´a necesario m´as adelante. Sea que las Y ’s est´en definidas en t´erminos de las X’s por Yi = gi (X1 , . . . , Xn ),

i = 1, . . . , n.

Considere las correspondientes ecuaciones (6.44)

yi = gi (x1 , . . . , xn ),

i = 1, . . . , n.

Suponga que estas ecuaciones definen de manera u ´nica a las x’s en t´erminos de las y’s, que las derivadas parciales ∂yi /∂xj existen y son continuas, y que el Jacobiano ∂y1 ∂y1 . . . ∂xn ∂x1 .. .. . .. J(x1 , . . . , xn ) = . . ∂yn . . . ∂yn ∂x1

∂xn

es siempre distinto de cero. Entonces las variables aleatorias Y1 , . . . , Yn son continuas y tienen la densidad conjunta dada por (6.45)

fY1 ,...,Yn (y1 , . . . , yn ) =

1 f (x1 , . . . , xn ), |J(x1 , . . . , xn )|

donde las x’s se definen de manera impl´ıcita en t´erminos de las y’s por (6.44). Esta f´ormula de cambio de variable se puede extender a´ un m´as si requerimos que las funciones gi est´en definidas en n alg´ un subconjunto abierto S de R de manera que P ((X1 , . . . , Xn ) ∈ S) = 1 Pn

En el caso especial cuando yi = j=1 aij xj , vemos que ∂yi /∂xj = aij y que J(x1 , . . . , xn ) no es m´ as que la constante det A = det [aij ]. As´ı que es claro que (6.45) se reduce a (6.43) en el caso lineal. 155

6. Variables Aleatorias Conjuntamente Distribuidas

6.7. Cambios de variables multidimensionales

Ejemplo 13 Sean X1 , . . . , Xn variables aleatorias independientes cada una con densidad exponencial de par´ ametro λ. Definimos Y1 , . . . , Yn por Yi = X1 + · · · + Xi , 1 ≤ i ≤ n. Halle la densidad conjunta de Y1 , . . . , Yn . La matriz [aij ] es   · · 0  ..  1 1 0 .    .. . 0   1 1 · · · 1 1 0

      

·

Claramente su determinante es 1. Las ecuaciones yi = x1 + · · · + xi ,

i = 1, . . . , n

tienen la soluci´ on x1 = y1 , xi = yi − yi−1 ,

i = 1, . . . , n.

La densidad conjunta de X1 , . . . , Xn est´ a dada por   λn e−λ(x1 +···+xn ) , (6.46) f (x1 , . . . , xn ) =   0, As´ı la densidad conjunta fY1 ,...,Yn est´ a dada por   λn e−λyn , (6.47) fY1 ,...,Yn (y1 , . . . , yn ) =   0,

x1 , . . . , xn > 0, en caso contrario.

0 < y1 < · · · < yn , en caso contrario.

Por supuesto podemos aplicar el teorema en la direcci´on inversa. As´ı, si Y1 , . . . , Yn tiene la densidad conjunta dada por (6.47), y las variables aleatorias X1 , . . . , Xn est´an definidas por X1 = Y1 y Xi = Yi − Y i − 1 para 2 ≤ i ≤ n, entonces las Xi ’s tiene la densidad conjunta f dada por (6.46). En otras palabras, X1 , . . . , Xn son independientes y cada una tiene distribuci´on exponencial con par´ametro λ. Este resultado se utilizar´a en el Cap´ıtulo 9 en conexi´on con los procesos de Poisson. Ejercicios 1 Sean X y Y variables aleatorias continuas con funci´on de densidad conjunta f . Halle la funci´ on de distribuci´on conjunta y la funci´on de densidad conjunta de las variables aleatorias W = a + bX y Z = c + dY , donde b > 0 y d > 0. Demuestre que si X y Y son independientes, entonces W y Z lo son tambi´en. 2 Sean X y Y variables aleatorias independientes con funci´on de distribuci´on conjunta F y funci´on de densidad conjunta f . Halle la funci´on de distribuci´on conjunta y la funci´on de densidad conjunta de las variables aleatorias W = X 2 y Z = Y 2 . Demuestre que si X y Y son independientes, entonces W y Z son independientes. 3 Sean X y Y variables aleatorias independientes cada una uniformemente distribuida en (0, 1). Encuentre 156

6. Variables Aleatorias Conjuntamente Distribuidas

6.7. Cambios de variables multidimensionales

(a)P (|X − Y | ≤ .5),  (b)P X Y − 1 ≤ .5 , (c)P (Y ≥ X|Y ≥ 1/2). 4 Sean X y Y variables aleatorias independientes teniendo cada una la densidad normal n(0, σ 2 ). Encuentre P (X 2 + Y 2 ≤ 1). Sugerencia: Utilize coordenadas polares. 5 Sea que X y Y tengan densidad conjunta f la cual es uniforme dentro del interior del tri´angulo con v´ertices en (0, 0), (2, 0), y (1, 2). Halle P (X ≤ 1 y Y ≤ 1). 6 Suponga que los tiempos que les toma a dos estudiantes el resolver un problema son independientes y que se distribuyen de manera exponencial con par´ametro λ. Encuentre la probabilidad de que el primer estudiante tarde en resolver el problema al menos el doble de tiempo del que le tomo al segundo estudiante el hacerlo. 7 Sean X y Y variables aleatorias continuas independientes con densidad conjunta f dada por f (x, y) = λ2 e−λy , 0 ≤ x ≤ y, y f (x, y) = 0 en caso contrario. Encuentre las densidades marginales de X y Y . Halle la funci´on de distribuci´on conjunta de X y Y . 8 Sea f (x, y) = c(y − x)α , 0 ≤ x ≤ y ≤ 1, y f (x, y) = 0 en caso contrario. (a)¿Para qu´e valores de α se puede elegir c de manera que f sea una funci´on de densidad? (b)¿C´omo se debe elegir c (cuando es posible) para que f sea una densidad? (c)Halle las densidades marginales de f . 2

2

9 Sea f (x, y) = ce−(x −xy+4y )/2 , −∞ < x, y < ∞. ¿C´omo se debe elegir a c de manera que f sea una densidad? Encuentre las densidades marginales de f . 10 Sean X y Y variables aleatorias continuas independientes teniendo densidad conjunta f . Derive una f´ormula para la densidad de Z = Y − X. 11 Sean X y Y variables aleatorias continuas independientes teniendo las densidades marginales indicadas. Encuentre la densidad de Z = X + Y . (a)X y Y tienen la distribuci´on exponencial con par´ametros λ1 y λ2 , donde λ1 6= λ2 (b)X se distribuye de manera uniforme en (0, 1), y Y tiene la distribuci´on exponencial con par´ametro λ. 12 Suponga que X y Y tienen la densidad conjunta f dada en el Ejercicio 8. Encuentre la densidad de Z = X + Y . 13 Suponga que X y Y son independientes y uniformemente distribuidas en (a, b). Halle la densidad de Z = |Y − X|. 14 Sean X y Y variables aleatorias continuas con densidad conjunta f . Halle una f´ormula para la densidad de Z = aX + bY , donde b 6= 0. 15 Sea f una densidad Beta con par´ametros α1 > 1 y α2 > 1. ¿D´onde toma f su valor m´aximo?. 16 Sean X y Y variables aleatorias independientes teniendo respectivamente densidades n(µ1 , σ12 ) y n(µ2 , σ22 ). Encuentre la densidad de Z = Y − X. 17 Suponga que se elige un punto al azar en el plano de tal forma que sus coordenadas x y y se distribuyen de manera independiente de acuerdo a la densidad normal n(0, σ 2 ). Halle la funci´ on de densidad para la variable aleatoria R, la cual denota la distancia del punto al origen. (Esta densidad aparece en ingenier´ıa el´ectrica y all´ı se conoce como la Densidad de Rayleigh). 157

6. Variables Aleatorias Conjuntamente Distribuidas

6.7. Cambios de variables multidimensionales

18 Sean X y Y variables aleatorias continuas con densidad conjunta f . Halle una f´ormula para la densidad de Z = XY . 19 Sean X y Y variables aleatorias independientes, cada una con la densidad normal n(0, σ 2 ). Demuestre que tanto Y /X como Y /|X| tienen la densidad de Cauchy. 20 Sean X y Y como en el Ejercicio 19. Encuentre la densidad de Z = |Y |/|X|. 21 Sean X y Y variables aleatorias independientes cada una distribuida exponencialmente con par´ametro λ. Encuentre la densidad de Z = Y /X. 22 Sean X y Y variables aleatorias independientes con densidades Γ(α1 , λ) y Γ(α2 , λ) respectivamente. Halle la densidad de Z = X/(X + Y ).Sugerencia: Exprese Z en t´erminos de Y /X. 23 Sea que X y Y posean las funciones de densidad conjunta f indicadas abajo. Encuentre la densidad condicional fY |X en cada caso: (a)f como en el Ejercicio 7, (b)f como en el Ejercicio 8, (c)f como en el Ejercicio 9. 24 Suponga que Xy Y se distribuyen como en el Ejemplo 7. Halle P (Y ≤ 2|X = 1). 25 Demuestre que la densidad marginal fY en el ejemplo 9 es negativa binomial con par´ametros α y p = β/(β + 1).Sugerencia: Utilize la f´ormula (5.36) del Cap´ıtulo 5. 26 Sea Y una variable aleatoria discreta con distribuci´on binomial con par´ametros n y p. Suponga ahora que p var´ıa como una variable aleatoria Π que posee una densidad Beta con par´ametros α1 y α2 . Encuentre la densidad condicional de Π dado Y = y. 27 Suponga que Y se distribuye exponencialmente con par´ametro λ. Suponga que λ var´ıa como si fuese una variable aleatoria Λ con densidad Γ(α, β). Halle la densidad marginal de Y y la densidad condicional de Λ dado Y = y. 28 Sean X1 , X2 , X3 que denoten las tres componentes de la velocidad de una mol´ecula de gas. Suponga que X1 , X2 y X3 son independientes y que cada una posee la densidad normal n(0, σ 2 ). En f´ısica la magnitud de la velocidad Y = (X12 + X22 + X33 )1/2 se dice que tiene la distribuci´ on de Maxwell. Encuentre fY . 29 Sean X1 , . . . , Xn variables aleatorias independientes poseyendo todas en com´ un la densidad normal. Encuentre que existen constantes An y Bn tales que X1 + · · · + Xn − An Bn tiene la misma densidad que X1 . 30 Sean X1 , X2 y X3 variables aleatorias independientes cada una uniformemente distribuida en (0, 1). Encuentre la densidad de la variable aleatoria Y = X1 + X2 + X3 . Halle P (X1 + X2 + X3 ≤ 2). 31 Sean X1 , X2 y X3 variables aleatorias independientes cada una uniformemente distribuida en (0, 1), se elige X2 uniformemente de (0, X1 ) y X3 se elige uniformemente de (0, X2 ). Halle la densidad conjunta de X1 , X2 y X3 , as´ı como la densidad marginal de X3 . 32 Sean U1 , . . . , Un variables aleatorias independientes cada una distribuida uniformemente en (0, 1). Sean Xk , k = 1 . . . , n, y R como en la Secci´on 6.5. 158

6. Variables Aleatorias Conjuntamente Distribuidas

6.7. Cambios de variables multidimensionales

(a) Encuentre la densidad conjunta de X1 y Xn . (b) Halle la densidad de R. (c) Encuentre la densidad de Xk . 33 Sean U1 , . . . , Un variables aleatorias independientes teniendo cada una la densidad exponencial con par´ametro λ. Encuentre la densidad de X1 = min {U1 , . . . , Un }. 34 Halle una f´ormula para la densidad χ2 (n). 35 Sean X y Y variables aleatorias independientes con distribuciones χ2 (m) y χ2 (n) respectivamente. Encuentre la densidad de Z = X/(X + Y ):Sugerencia: Utilize la respuesta del Ejercicio 22. 36 Sean X y Y variables aleatorias independientes poseyendo cada una la densidad normal est´andar. Encuentre la densidad conjunta de aX + bY y bX − aY , donde a2 + b2 > 0. Utilize esto para dar otra derivaci´on del Teorema 2. 37 Sean X y Y variables aleatorias independientes cada una con densidad f . Halle la densidad conjunta de X y Z = X + Y . 38 Sean X y Y variables aleatorias independientes cada una con densidad exponencial con par´ametro λ. Encuentre la densidad condicional de X dada Z = X + Y = z. Sugerencia: Utilize el resultado del Ejercicio 37. 39 Resuelva el Ejercicio 38 si X y Y se distribuyen de manera uniforme en (0, c). 40 Sean U y p V variables aleatorias independientes cada una con la densidad normal est´andar. Haga Z = ρU + 1 − ρ2 V , donde −1 < ρ < 1. (a) Encuentre la densidad de Z. (b) Halle la densidad conjunta de U y Z. (c) Encuentre la densidad conjunta de X = µ1 + σ1 U y Y = µ2 + σ2 Z, donde σ1 > 0 y σ2 > 0. Esta densidad conjunta se conoce como la densidad normal bi-variada. (d) Halle la densidad condicional de Y dada X = x. 41 Sean X y Y variables aleatorias continuas positivas teniendo densidad conjunta f . Haga W = Y /X y Z = X + Y . Encuentre la densidad conjunta de W y Z en t´erminos de f . Sugerencia: Utilize la Ecuaci´on (6.45). 42 Sean X y Y variables aleatorias independientes con densidades gama Γ(α1 , λ) y Γ(α2 , λ) respectivamente. Utilize el Ejercicio 41 para probar que Y /X y Y + X son variables aleatorias independientes. 43 Sean R y Θ variables aleatorias independientes tales que R posea la densidad de Rayleigh   σ −2 re−r2 /2σ2 , r ≥ 0, fR (r) =   0, r < 0, y Θ se distribuye de manera uniforme en (−π, π). Demuestre que X := R cos Θ y Y := R sin Θ son variables aleatorias independientes y que cada una posee la densidad normal n(0σ 2 ). Sugerencia: Utilize la Ecuaci´on (6.45).

159

6. Variables Aleatorias Conjuntamente Distribuidas

6.7. Cambios de variables multidimensionales

160

Cap´ıtulo 7

Esperanzas y el Teorema del L´ımite Central En las primeras cuatro secciones de este cap´ıtulo ampliamos la definici´on y propiedades de la esperanza a variables aleatorias que no son necesariamente discretas. En la Secci´on 7.5 se discute el Teorema del L´ımite Central. Este teorema, siendo uno de los m´as importantes dentro de la teor´ıa de la probabilidad, justifica la aproximaci´on de muchas funciones de distribuci´on por la funci´ on de distribuci´on normal apropiada.

7.1.

Esperanza de variables aleatorias continuas

Recordemos la definici´on de la esperanza de una variable aleatoria P discreta X que tiene densidad f dada en el Cap´ıtulo 4. Decimos que X tiene esperanza finita si x |x|f (x) < ∞, y en este caso definimos su esperanza EX como X EX = xf (x). x

La manera m´as f´acil de definir la esperanza de variables aleatorias continuas que tienen densidad es por analog´ıa al caso discreto. Definici´ on 1 Sea X una variable aleatoria continua con densidad f . Decimos que X tiene esperanza finita si Z∞ |x|f (x)dx < ∞, −∞

y en tal caso definimos su esperanza por Z∞ EX =

xf (x)dx. −∞

Utilizando esta definici´on f´acilmente podemos calcular las esperanzas de las variables aleatorias continuas que poseen las numerosas densidades discutidas en los Cap´ıtulos 5 y 6. Ejemplo 1 Sea X una variable aleatoria continua uniformemente distribuida en (a, b). Entonces Zb EX =

 x

1 b−a



 dx =

a

161

1 b−a



x2 b a + b = . 2 a 2

7. Esperanzas y el Teorema del L´ımite Central

7.2. Una definici´ on general de esperanza

Ejemplo 2 Suponga que X posee la densidad gama Γ(α, λ). Entonces Z∞ EX =

x

λα α−1 −λx x e dx Γ(α)

0

λα = Γ(α)

Z∞

xα e−λx dx

0

=

λα

Γ(α) α = , λ

Γ(α + 1) λα+1

donde hemos utilizado las F´ ormulas (5.34) y (5.36) del Cap´ıtulo 5. Haciendo α = 1 vemos que si X tiene una densidad exponencial con par´ ametro λ, entonces EX = λ−1 . Ejemplo 3 Sea X que posea la densidad de Cauchy f dada por f (x) =

1 , π(1 + x2 )

−∞ < x < ∞.

Entonces X no posee esperanza finita, ya que Z∞

2 1 dx = |x| 2 π(1 + x ) π

−∞

Z∞

x dx 1 + x2

0

2 = l´ım π c→∞

Zc

x dx 1 + x2 0 c 1 2 = l´ım log 1 + x π c→∞ 0 = ∞.

7.2.

Una definici´ on general de esperanza

La definici´on de esperanza dada en la Secci´on 7.1 ciertamente es apropiada desde el punto de vista computacional para el caso de las variables aleatorias continuas que posean una funci´ on de densidad. Sin embargo, para definir el concepto de esperanza en general, es mejor el extender la noci´on de esperanza directamente del caso discreto al caso general. A continuaci´on presentaremos solo las ideas b´asicas que motivan la definici´on general de esperanza. Los detalles precisos requieren de un conocimiento m´as profundo dentro de la teor´ıa de la medida y de la integraci´on. En nuestra discusi´on asumiremos que todas las variables aleatorias bajo consideraci´on est´an definidas en un espacio de probabilidad fijo (Ω, A , P ). Sean X y Y variables aleatorias discretas tales que, para alg´ un  > 0, P (|X − Y | ≤ ) = 1. Se sigue de los Teoremas 2 inciso 3 y 3 del Cap´ıtulo 4 que si Y tiene esperanza finita, entonces X tambi´en tiene esperanza finita y |EX − EY | ≤ . Se sigue tambi´en que si Y no posee esperanza finita, entonces tampoco X la tendr´a. Cuando se define en general el concepto de esperanza estas propiedades se deber´ıan seguir cumpliendo. Supongamos que este es el caso y sea X cualquier variable aleatoria. Asuma que queremos calcular EX con un error de a lo sumo , para alg´ un  > 0. Todo lo que necesitamos hacer es 162

7. Esperanzas y el Teorema del L´ımite Central

7.2. Una definici´ on general de esperanza

encontrar una variable aleatoria discreta Y tal que P (|X − Y | ≤ ) = 1 y calcular EY con los m´etodos introducidos en el Cap´ıtulo 4. Tales aproximaciones a X son f´aciles de encontrar. Sea X la variable aleatoria discreta definida por (7.1)

X = k

si

k ≤ X < (k + 1)

para el entero k.

Esta variable aleatoria tambi´en se puede definir en t´erminos de la funci´on entero mayor [ ] como X = [X/]. Si  = 10−n para alg´ un entero no negativo n, entonces X (ω) se puede obtener de X(ω) escribiendo X(ω) en forma decimal y eliminando todos los d´ıgitos ubicados n o m´as lugares despu´es del punto decimal. Se sigue inmediatamente de (7.1) que X(ω) −  < X (ω) ≤ X(ω),

ω ∈ Ω,

y as´ı P (|X − X | ≤ ) = 1. La funci´on de densidad de X est´a dada por   P (k ≤ X < (k + 1)) si x = k para el entero x, fX =   0 en caso contrario. La variable aleatoria X tiene esperanza finita si y solo si X X |x|fX (x) = |k|P (k ≤ X < (k + 1)) < ∞, x

k

en cuyo caso EX =

X

kP (k ≤ X < (k + 1)).

k

Estas expresiones se pueden escribir en t´erminos de FX , se tiene P (k ≤ X < (k + 1)) = P (X < (k + 1)) − P (X < k) y por la Ecuaci´on (5.5) de Cap´ıtulo 5, P (X < x) = F (x−) se cumple para toda x. El siguiente teorema, el cual se enuncia sin demostraci´on, ser´a utilizado para dar una definici´on general de esperanza. Teorema 1 Sea X una variable aleatoria y se define X ,  > 0 por (7.1). Si X tiene esperanza finita para alg´ un  > 0, entonces X posee esperanza finita para todo  > 0 y l´ım EX

→∞

existe y es finito. Este teorema y la discusi´on previa sugieren la siguiente definici´on general de esperanza. Definici´ on 2 Sea X una variable aleatoria y definimos X ,  > 0 como en(7.1). Si X tiene esperanza finita para alg´ un  > 0, decimos que X tiene esperanza finita y definimos su esperanza EX por EX = l´ım EX . →0

De otra forma decimos que X no posee esperanza finita. 163

7. Esperanzas y el Teorema del L´ımite Central

7.3. Momentos de variables aleatorias continuas

De la discusi´on que precede al Teorema 1 se sigue que la definici´on de EX se puede dar en t´erminos de la funci´on de distribuci´on de X y que si dos variables aleatorias tienen la misma funci´ on de distribuci´on, entonces sus esperanzas son iguales (o ambas no finitas). Utilizando t´ecnicas de la teor´ıa de la medida y de la integraci´on, podemos demostrar que la Definici´on 2 ofrece los mismos valores que nuestras definiciones previas para los casos especiales en los que X es una variable aleatoria discreta o continua que posee una densidad. Existe un an´alogo del Teorema 1 del Cap´ıtulo 4, el cu´al enunciamos sin demostraci´on. En este teorema, ϕ puede ser cualquier funci´on del tipo de las que se consideran en C´alculo. Teorema 2 Sean X1 , . . . , Xn variables aleatorias continuas con f como su densidad conjunta y sea Z una variable aleatoria definida en t´erminos de X1 , . . . , Xn . Entonces Z posee esperanza finita si y solo si Z∞ Z∞ ··· |ϕ(x1 , . . . , xn )|f (x1 , . . . , xn )dx1 · · · dxn < ∞, −∞

−∞

en cuyo caso Z∞

Z∞ ···

EZ = −∞

ϕ(x1 , . . . , xn )f (x1 , . . . , xn )dx1 · · · dxn .

−∞

Podemos demostrar que las propiedades b´asicas de la esperanza que se probaron en el Cap´ıtulo 4 para variables aleatorias discretas son v´alidas en general. En particular, los Teoremas 2,3 y 4 del Cap´ıtulo 4 son v´alidos y se utilizar´an libremente. Como en el caso discreto a veces nos referiremos a EX como la media de X. La definici´ on de momentos, momentos centrales, varianza, desviaci´on est´andar, covarianza y correlaci´on dados en el Cap´ıtulo 4 para variables aleatorias discretas solamente dependen de la noci´on de esperanza y se extienden inmediatamente al caso general. En general, como en el caso discreto, si X tiene un momento de orden r, entonces X tiene un momento de orden k, para todo k ≤ r. Los Teoremas 6 y 7 del Cap´ıtulo 4 tambi´en son ciertos en general. El lector deber´ıa repasar estas definiciones y teoremas en el Cap´ıtulo 4 antes de continuar con la siguiente secci´on.

7.3.

Momentos de variables aleatorias continuas

Sea X una variable aleatoria continua con densidad f y media µ. Si X tiene momento m-´esimo finito, entonces por el Teorema 2 Z∞ m EX = xm f (x) dx −∞

y m

E(X − µ)

Z∞ =

(x − µ)m f (x) dx.

−∞

En particular, si X tiene segundo momento finito, su varianza σ 2 est´a dada por 2

Z∞

σ =

(x − µ)2 f (x) dx.

−∞

164

7. Esperanzas y el Teorema del L´ımite Central

7.3. Momentos de variables aleatorias continuas

Note que σ 2 > 0, ya que si σ 2 = 0, entonces se sigue del argumento de la Secci´on 4.3 que P (X = µ) = 1, lo cual contradice la suposici´on de que X es una variable aleatoria continua. Ejemplo 4 Considere la variable aleatoria X con densidad gama Γ(α, λ). Halle los momentos y la varianza de X. El m-´esimo momento de X est´ a dado por Z∞ λα α−1 −λx m EX = xm x e dx Γ(α) 0

λα = Γ(α)

Z∞

xm+α−1 e−λx dx,

0

as´ı por las F´ ormulas (5.34) y (5.36) del Cap´ıtulo 5 λα Γ(m + α) λm+α Γ(α) α(α + 1) · · · (α + m − 1) . = λm

EX m = (7.2)

La varianza de X est´ a dada por α(α + 1)  α 2 α − = 2. 2 λ λ λ Haciendo α = 1, vemos que si X tiene la densidad exponencial con par´ ametro λ, entonces EX m = m!λ−m y X tiene varianza λ−2 . Para un segundo caso especial, sea X que posea la distribuci´ on χ2 (n) la cual, de acuerdo con la Secci´ on 6.6, es la misma que la distribuci´ on Γ(n/2, 1/2). As´ı σ 2 = EX 2 − (EX)2 =

EX =

n/2 =n 1/2

y

Var X =

n/2 = 2n. (1/2)2

Al calcular los momentos, frecuentemente podemos tomar ventaja de la simetr´ıa. Por ejemplo, suponga que X tiene una densidad sim´etrica, si EX m existe, y m es un entero positivo impar, entonces EX m = 0. Para ver esto, note que por el Teorema 2 del Cap´ıtulo 5, X y −X tienen la misma funci´on de distribuci´on. Entonces X m y (−X)m = −X m tienen la misma funci´on de distribuci´ on y como consecuencia la misma esperanza. En otras palabras EX m = E(−X m ) = −EX m , lo cual implica que EX m = 0. Ejemplo 5 Sea X una variable aleatoria con densidad normal n(µ, σ 2 ). Encuentre la media y los momentos centrales de X. La variable aleatoria X − µ tiene la densidad normal n(0, σ 2 ), la cual es una densidad sim´etrica. As´ı E(X − µ)m = 0 para todo entero impar m. En particular E(X − µ) = 0, as´ı vemos que el par´ ametro µ en la densidad normal n(µ, σ 2 ) es justamente la media de esta densidad. Se sigue ahora que todos los momentos centrales impares de X son cero. Para calcular los momentos centrales pares recordemos de la Secci´ on 5.3.3 que Y = (X − µ)2 posee la densidad gama Γ(1/2, 1/2σ 2 ). Ya m que para m par E(X − µ) = EY m/2 , se sigue del Ejemplo 4 que  Γ m+1 m 2 E(X − µ) =   1 m/2 Γ 12 2σ 2  1 3 m−1 2  2  ···  2 =  1 m/2 2σ 2

m

= σ 1  3 · · · (m − 1). 165

7. Esperanzas y el Teorema del L´ımite Central

7.3. Momentos de variables aleatorias continuas

Utilizando las F´ ormulas (5.35) y (5.38) del Cap´ıtulo 5, obtenemos la f´ ormula alternativa m!

E(X − µ)m =

(7.3)

2m/2

m 2

 σm. !

En particular σ 2 denota la varianza de X y E(X − µ)4 = 3σ 4 . Sean X y Y variables aleatorias continuas con f como su densidad conjunta, medias µX y µY y segundos momentos finitos. Entonces su covarianza viene dada por Z∞ Z∞ (7.4)

E(X − µX )(Y − µY ) =

(x − µX )(y − µY )f (x, y) dx dy. −∞ −∞

Ejemplo 6 Sean X y Y variables aleatorias con la densidad conjunta f del Ejemplo 2 del Cap´ıtulo 6. Halle la correlaci´ on entre X y Y . De acuerdo al Ejemplo 2 del Cap´ıtulo 6 √ 3 −[(x2 −xy+y2 )/2] f (x, y) = e 4π √ 3 −3x2 /8 [(y−x/2)2 /2] = e e . 4π En ese ejemplo vimos que tanto X como Y tienen la densidad normal n(0, 4/3). As´ı µX = µY = 0 y Var X = Var Y = 4/3. De la ecuaci´ on (7.4) y de la segunda expresi´ on para f obtenemos √ Z∞ Z∞ 3 1 2 −(3x2 /8) EXY = √ xe dx y √ e−[(y−x/2) /2] dy. 2 2π 2π −∞

Ahora

Z∞ −∞

−∞

1 2 y √ e−[(y−x/2) /2] dy = 2π

Z∞  −∞

y por lo tanto EXY = 2 =

1 2



1 √

√2 3 ∞ Z

u+

Z∞

x  1 −(u2 /2) x √ e du = , 2 2 2π

x2 e(−3x

2 /8)

dx

2π −∞

x2 n(x; 0, 4/3)dx

−∞

1 4 2  = . 2 3 3 La correlaci´ on ρ entre X y Y est´ a dada por =

ρ(X, Y ) = √

EXY 2/3 1 √ p =p = . 2 Var X Var Y 4/3 4/3

Ejemplo 7 Sean U1 , . . . , Un variables aleatorias independientes cada una distribuida uniformemente en (0, 1) y hagamos X = min (U1 , . . . , Un ) 166

7. Esperanzas y el Teorema del L´ımite Central

7.3. Momentos de variables aleatorias continuas

y Y = max (U1 , . . . , Un ). Halle los momentos de X y Y y la correlaci´ on entre X y Y . Estas variables aleatorias se estudiaron en la Secci´ on 6.5 (en donde fueron denotadas por X1 y Xn ). Especializando los resultados de esa secci´ on a las variables aleatorias Ui distribuidas uniformemente, hallamos que la densidad conjunta f de X y Y est´ a dada por   n(n − 1)(y − x)n−2 , 0 ≤ x ≤ y ≤ 1, (7.5) f (x, y) =   0, en caso contrario. Aquellos lectores que omitieron la lectura de la Secci´ on 6.5 pueden pensar en el presente problema como el hallar los momentos y la correlaci´ on entre las 2 variables aleatorias X y Y cuya funci´ on de densidad conjunta est´ a dada por (7.5). El m-´esimo momento de X est´ a dado por EX

Z1

m

= n(n − 1)

Z1

m

x dx x

0

Z1 n(n − 1) 0

Z1 =n

(y − x)n−2 dy

(y − x)n−1 y=1 x dx n − 1 y=x m

xm (1 − x)n−1 dx.

0

La integral definida que aparece en esta expresi´ on es una integral Beta y fue evaluada en la F´ ormula (6.19) del Cap´ıtulo 6. De esta formula encontramos que EX m =

nΓ(m + 1)Γ(n) m!n! = . Γ(m + n + 1) (m + n)!

En particular, EX = 1/(n + 1) y EX 2 = 2/[(n + 1)(n + 2)]. Se sigue que Var X = (EX 2 ) − (EX)2 =

n . (n + 1)2 (n + 2)

El m-´esimo momento de Y est´ a dado por EY

m

Z1 = n(n − 1)

m

y dy 0

Z1 = n(n − 1) 0

Z1 =n

(y − x)n−2 dx

0

(y − x)n−1 (−1) x=y y dy n−1 x=0 m

y m+n−1 dy

0

=

Zy

n . m+n 167

7. Esperanzas y el Teorema del L´ımite Central

7.3. Momentos de variables aleatorias continuas

As´ı EY = n/(n + 1) y Var X =

n − n+2



n n+1

2 =

n . (n + 1)2 (n + 2)

De manera alternativa, estas cantidades se pueden calcular de las densidades marginales de X y Y . Para hallar la covarianza de X y Y comenzamos con Zy

Z1 EXY = n(n − 1)

y dy 0

x(y − x)n−2 dx.

0

Ya que x(y − x)n−2 = y(y − x)n−2 − (y − x)n−1 , encontramos que Z1 EXY = n(n − 1)

Zy

2

y dy 0

0

Zy

Z1 − n(n − 1)

y dy 0

Z1 = n(n − 1) 0 Z1

− n(n − 1) 0

Z1 =n

(y − x)n−2 dx

(y − x)n−1 dx

0

(y − x)n−1 (−1) x=y y dy n−1 x=0 2

(y − x)n (−1) x=y y dy n x=0

y n+1 dy − (n − 1)

0

Z1

y n+1 dy

0

1 . = n+2 Como consecuencia Cov (X, Y ) = EXY − EXEY 1 n = − n + 2 (n + 1)2 1 = . (n + 1)2 (n + 2) Finalmente obtenemos la correlaci´ on entre X y Y , Cov (X, Y ) ρ= √ Var XVar Y  1 n = 2 (n + 1) (n + 2) (n + 1)2 (n + 2) 1 = . n 168

7. Esperanzas y el Teorema del L´ımite Central

7.4. Esperanza condicional

7.4.

Esperanza condicional

Sean X y Y variables aleatorias continuas con densidad conjunta f y suponga que Y tiene esperanza finita. En la Secci´on 6.3 definimos al densidad condicional de Y dada X = x por    f (x,y) , 0 < f (x) < ∞, X fY |X (y|x) = fX (x)   0, en caso contrario. Para cada x tal que 0 < fX (x) < ∞ la funci´on fY |X (y|x), −∞ < y < ∞ es una funci´on de densidad de acuerdo a la Definici´on 5 del Cap´ıtulo 5. As´ı podemos hablar acerca de los numerosos momentos de esta densidad. Su media se llama la esperanza condicional de Y dada X = x y se denota por E[Y |X = x] o E[Y |x]. As´ı Z∞ E[Y |X = x] = (7.6) =

yf (y|x) dy −∞ R∞ −∞ yf (x, y)

dy

fX (x)

cada que 0 < fX (x) < ∞. Definimos E[Y |X = x] = 0 en caso contrario. En estad´ıstica la funci´ on m definida por m(x) = E[Y |X = x] se llama la funci´ on de regresi´ on de Y en X. Las esperanzas condicionales aparecen en problemas estad´ısticos que involucran predicci´ on y estimaci´on Bayesiana, como veremos en el Volumen II. Tambi´en son importantes, desde un punto de vista m´as general, en la teor´ıa avanzada de la probabilidad. Nos confinaremos a algunas ilustraciones elementales de las esperanzas condicionales. La teor´ıa general es muy sofisticada y no se utilizar´ a en este libro. Ejemplo 8 Sean X y Y variables aleatorias con la densidad conjunta f del Ejemplo 2 del Cap´ıtulo 6. Halle la esperanza condicional de Y dado que X = x. En el Ejemplo 7 del Cap´ıtulo 6 encontramos que la densidad condicional de Y dado X = x es la densidad normal n(x/2, 1) la cual sabemos que tiene media x/2. Entonces E[Y |X = x] = x/2. En este ejemplo la varianza condicional de Y dado X = x es la constante 1. Ejemplo 9 Sean X y Y variables aleatorias continuas con densidad conjunta f dada por (7.5). En la secci´ on previa hemos calculado varios momentos que involucran a X y Y . Ahora calcularemos la densidad condicional y la esperanza condicional de Y dado X = x. La densidad marginal de X esta dada por Z1 fX (x) = n(n − 1)

(y − x)n−2 dy

x

= n(1 − x)n−1 , y fX (x) = 0 en caso contrario. As´ı para 0 ≤ x ≤ 1,    (n−1)(y−x)n−2 , (1−x)n−1 f (y|x) =   0, 169

0 ≤ x ≤ 1,

x ≤ y < 1, en caso contrario.

7. Esperanzas y el Teorema del L´ımite Central

7.4. Esperanza condicional

En consecuencia, para 0 ≤ x < 1 Z∞ E[Y |X = x] =

yf (y|x)dy −∞ 1−n

Z1

= (n − 1)(1 − x)

y(y − x)n−2 dy

x 1−n

Z1

= (n − 1)(1 − x)

[(y − x)n−1 + x(y − x)n−2 ]dy

x

(1 − x)n x(1 − x)n−1 = (n − 1)(1 − x) + n n−1 n−1+x (n − 1)(1 − x) +x= . = n n 1−n





A veces es conveniente calcular la esperanza de Y de acuerdo a la f´ormula Z∞ (7.7)

E[Y |X = x]fX (x) dx.

EY = −∞

Esta f´ormula se sigue inmediatamente de (7.6), ya que Z∞

Z∞ E[Y |X = x]fX (x) dx =

−∞

Z∞ dx

−∞ Z∞

yf (x, y) dy

−∞

Z∞ yf (x, y) dx dy

= −∞ −∞

= EY. Al aplicar esta f´ormula al Ejemplo 9, obtenemos Z1  EY =

n−1+x n



n(1 − x)n−1 dx

0

Z1

n−1

(1 − x)

=n

Z1 dx −

0

(1 − x)n dx

0

1 n =1− = . n+1 n+1 lo que concuerda con la respuesta encontrada en el Ejemplo 7. Naturalmente, las esperanzas condicionales se pueden definir de manera similar para variables aleatorias discretas. Algunos ejercicios que involucran esto se dieron en el Cap´ıtulo 4. 170

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

7.5.

El Teorema del L´ımite Central

A lo largo de esta secci´on X1 , X2 , . . . denotar´an variables aleatorias independientes id´enticamente distribuidas con media finita µ y varianza finita no cero σ 2 . Estaremos interesados en estudiar la distribuci´on de Sn = X1 + · · · + Xn . Antes que nada notemos que Sn posee media nµ y varianza nσ 2 . Suponga ahora que X1 tiene densidad f . Entonces, para todo n ≥ 1, Sn tendr´a densidad fSn . Ahora fS1 = f , y las otras densidades se pueden calcular sucesivamente utilizando las f´ormulas obtenidas en los Cap´ıtulos 3 y 6 para la densidad de la suma de dos variables aleatorias independientes. Tenemos que X fSn = fSn−1 (y)f (x − y) y

o

Z∞ fSn−1 (y)f (x − y)dy

fSn (x) = −∞

ya sea que X1 sea una variable aleatoria discreta o continua. Para ciertas elecciones de f (por ejemplo, binomial, binomial negativa, Poisson, normal y gama), podemos hallar f´ormulas sencillas para fSn . En el caso general, sin embargo, se tiene que recurrir a los m´etodos num´ericos. Uno de los m´as importantes y m´as notables resultados de la teor´ıa de la probabilidad es que para valores grandes de n, la distribuci´on de Sn depende esencialmente de la distribuci´on de X1 solo v´ıa µ y σ 2 . Dicho resultado se discute m´as f´acilmente en t´erminos de una variable aleatoria normalizada Sn − ESn Sn − nµ √ , Sn∗ = √ = σ n Var Sn la cual posee media 0 y varianza 1. Para obtener alguna idea de como se comporta la funci´on de distribuci´on de Sn∗ cuando n → ∞, consideremos primero un caso especial en el cual esta funci´on de distribuci´on se pueda hallar f´acilmente y de manera exacta. Suponga pues, que X1 tiene distribuci´on normal con media µ y varianza σ 2 . As´ı, por resultados del Cap´ıtulo 6, Sn∗ se distribuye normalmente con media 0 y varianza 1 o, en otras palabras, Sn∗ tiene la funci´on de distribuci´on normal est´andar Φ. Supongamos ahora que X1 toma los valores 1 y 0 con probabilidades p y 1 − p respectivamente. As´ı, como vimos en el Cap´ıtulo 3, Sn tiene la distribuci´on binomial con par´ametros n y p; esto es,   n k P (Sn = k) = p (1 − p)n−k . k Tanto DeMoivre (1667-1754) como Laplace (1749-1827) descubrieron que, en este caso, la funci´ on de distribuci´on de Sn∗ tiende a Φ, la funci´on de la distribuci´on normal est´andar, cuando n → ∞. En tiempos m´as recientes han habido muchas extensiones del teorema l´ımite de DeMoivreLaplace, todos conocidos como “teoremas del l´ımite central”. El m´as simple y mejor conocido de estos resultados fue probado por Lindeberg en 1922: Teorema 3 Teorema del L´ımite Central. Sean X1 , X2 , . . . variables aleatorias independientes id´enticamente distribuidas con media µ y varianza finita no cero σ 2 . Sea Sn = X1 + · · · + Xn . Entonces   Sn − nµ √ (7.8) l´ım P ≤ x = Φ(x), −∞ < x < ∞. n→∞ σ n 171

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

La generalidad de este teorema es notable. La variable aleatoria X1 puede ser discreta, continua, o ninguna de estas. A´ un m´as, la conclusi´on se cumple a´ un si los momentos de X1 no existen m´ as all´a del segundo. Otra parte muy sorpresiva del teorema es que la funci´on de distribuci´on l´ımite de Sn∗ es independiente de la funci´on de la funci´on de distribuci´on espec´ıfica de X1 (dado que, por supuesto, se cumplan las hip´otesis del teorema). No deber´ıamos estar sorprendidos, sin embargo de que Φ sea esa distribuci´on l´ımite. Ya hemos visto que esto es verdad si X1 tiene ya sea la distribuci´ on normal o la distribuci´on binomial. La demostraci´on del Teorema del L´ımite Central ser´a pospuesta hasta el Cap´ıtulo 8, ya que requiere t´ecnicas avanzadas a´ un por discutir, las cuales involucran funciones caracter´ısticas. Es posible ofrecer una prueba elemental pero algo laboriosa del teorema l´ımite de Laplace-DeMoivre, el caso especial del Teorema del L´ımite Central cuando X1 tiene distribuci´on binomial. Existen formas elementales de hacer plausible el Teorema del L´ımite Central, pero no son demostraciones. Una de tales formas es el demostrar que, para cada entero positivo m, si X1 tiene m-´esimo momento finito, entonces   Sn − nµ m √ l´ım E n→∞ σ n existe y es igual al m-´esimo momento de la distribuci´on normal est´andar. A estas alturas es m´as ben´efico el entender que significa el Teorema de L´ımite central y como puede ser utilizado en aplicaciones t´ıpicas. Ejemplo 10 Sean X1 , X2 , . . . variables aleatorias independientes cada una con distribuci´ on de Poisson de par´ ametro λ. Entonces, por resultados del Cap´ıtulo 4, µ = σ 2 = λ y Sn tiene distribuci´ on de Poisson con par´ ametro nλ. El Teorema del L´ımite Central implica que   Sn − nλ √ l´ım P ≤ x = Φ(x), −∞ < x < ∞. n→∞ nλ Podemos extender el resultado de este ejemplo y mostrar que si Xt es una variable aleatoria con distribuci´ on de Poisson con par´ ametro λ = t, entonces   Xt − EXt (7.9) l´ım P √ ≤ x = Φ(x), −∞ < x < ∞. t→∞ Var Xt La ecuaci´ on (7.9) tambi´en se cumple si Xt es una variable aleatoria con distribuci´ on gama Γ(t, λ) para λ fijo, o la distribuci´ on binomial negativa con par´ ametros α = t y p fijos.

7.5.1.

Aproximaciones Normales.

El Teorema del L´ımite Central sugiere fuertemente que para n grande deber´ıamos hacer la aproximaci´on   Sn − nµ √ ≤ x ≈ Φ(x), −∞ < x < ∞, P σ n o equivalentemente 

(7.10)

 x − nµ √ P (Sn ≤ x) ≈ Φ σ n   x − ESn =Φ √ , Var Sn

−∞ < x < ∞.

haremos referencia a (7.10) como a la f´ ormula de la aproximaci´ on normal. De acuerdo a esta f´ormula aproximamos a la funci´on de distribuci´on de Sn por la funci´on de distribuci´on normal que 172

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

posea la misma media y la misma varianza. Una dificultad que surge al aplicar la f´ormula de la aproximaci´on normal es el decidir que tan grande debe ser n para que (7.10) sea v´alida a un grado de exactitud deseado. Varios estudios num´ericos han indicado que en aplicaciones t´ıpicas, n = 25 es suficientemente grande como para que (7.10) sea u ´til. Como ejemplo en el cual sea aplicable la aproximaci´on normal, sean X1 , X2 , . . . variables aleatorias independientes cada una con densidad exponencial de par´ametro λ = 1. As´ı (7.10) se convierte en   x−n (7.11) P (Sn ≤ x) ≈ Φ √ , −∞ < x < ∞. n Se ofrecen gr´aficas mostrando la precision de esta aproximaci´on en la Figura 1 para n =10. 1.0 .8 .6

.4 Función de distribución verdadera Aproximación Normal

.2

0

5

10

15

20

Figura 1 Ejemplo 11 Suponga que el tiempo de vida de un cierto tipo de foco, despu´es de instalado, se distribuye de manera exponencial con una duraci´ on media de 10 d´ıas. Tan pronto como se funde un bulbo se instala uno similar en su lugar. Halle la probabilidad de que se necesiten m´ as de 50 bulbos durante un periodo de un a˜ no. Para resolver este problema, sea Xn la duraci´ on del n-´esimo foco que es instalado. Asumimos que X1 , X2 , . . . son variables aleatorias independientes cada una con distribuci´ on exponencial con media 10 o par´ ametro λ = 1/10. As´ı Sn = X1 + · · · + Xn denota el tiempo en el cual se funde el n-´esimo foco. Queremos encontrar P (S50 < 365). Ahora S50 tiene media 50λ−1 = 500 y varianza 50λ−2 = 5000. Luego por la f´ ormula de la aproximaci´ on normal (7.10)   365 − 500 √ P (S50 < 365) ≈ Φ 5000 = Φ(−1.91) = 0,28. Es entonces muy raro que m´ as de 50 focos sean necesitados. Suponga que Sn es una variable aleatoria continua con densidad fSn . Si diferenciamos los t´erminos que aparecen en (7.10) obtenemos   1 x − nµ √ (7.12) fSn ≈ √ φ , −∞ < x < ∞. σ n σ n A pesar de que la derivaci´on (7.12) est´a lejos de ser una demostraci´on, (7.12) representa una buena aproximaci´on para n grande (bajo la leve restricci´on adicional de que, para alguna n, fSn sea una funci´on acotada). 173

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

Como un ejemplo de esta aproximaci´on sea X1 una variable aleatoria distribuida exponencialmente con par´ametro λ = 1, por tanto, se puede aplicar (7.11). Entonces (7.12) se vuelve   1 x−n (7.13) fSn ≈ √ φ √ , −∞ < x < ∞. n n En la Figura 2 se ofrecen gr´aficas que muestran la precisi´on de ´esta aproximaci´on. .15

Función de densidad verdadera Aproximación normal

.10

.05

0

5

10

15

20

Figura 2 Las formas del Teorema del L´ımite Central que involucran a las funciones de densidad en lugar de las funciones de distribuci´on se conocen como Teoremas del L´ımite Central “Locales”. Estos tambi´en son importantes, principalmente en la teor´ıa avanzada de la probabilidad. Existe una aproximaci´on similar a (7.12) para variables aleatorias discretas. Naturalmente, una formulaci´on precisa de tal aproximaci´on depende de la naturaleza de los posibles valores de Sn , es decir, aquellos valores X tales que fSn (x) = P (Sn = x) > 0. Por simplicidad hacemos las siguientes dos suposiciones: 1. Si x es un valor posible de X1 , entonces x es un entero; 2. si a es un valor posible de X1 , entonces el m´aximo com´ un divisor del conjunto {x − a|x es un valor posible de X1 } es uno. Excluimos, por ejemplo, una variable aleatoria X1 tal que P (X1 = 1) = P (X1 = 3) = 1/2, ya que el m´aximo com´ un divisor del conjunto indicado es 2. Bajo las suposiciones (1) y (2), la aproximaci´on   1 x − nµ √ (7.14) fSn (x) ≈ √ φ , x un entero, σ n σ n es v´alida para n grande. Ejemplo 12 Sea X1 la variable aleatoria binomial que toma los valores 1 y 0 con probabilidades p y 1 − p respectivamente. Entonces se cumplen (1) y (2) y podemos aplicar (7.14) con µ = p y σ 2 = p(1 − p). Ya que Sn tiene la distribuci´ on binomial con par´ ametros n y p, tenemos la aproximaci´ on   n x fSn (x) = p (1 − p)n−x x ! (7.15) 1 x − np ≈p φ p , x un entero. np(1 − p) np(1 − p) 174

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

Se ha graficado esta aproximaci´ on en a Figura 3 para n = 10 y p =.3. De la Figura 3 somos guiados a otro m´etodo para aproximar fSn (x) en el caso discreto, esto es, la integral del lado derecho de (7.14) sobre el conjunto [x − 1/2, x + 1/2]. Expresando esta integral en t´erminos de Φ obtenemos una alternativa a (7.14)  x + (1/2) − nµ √ ≈Φ σ n   x − (1/2) − nµ √ −Φ , σ n 

fSn (7.16)

x un entero.

.3

.2

.1

0 0

1

2

3

4

5

6

7

8

9

Figura 3 El a´rea de la regi´on sombreada de la Figura 3 es una aproximaci´on de P (Sn = 5). Finalmente, si sumamos (7.16) en el conjunto {. . . , x − 2, x − 1, x} obtenemos la aproximaci´ on  (7.17)

P (Sn ≤ x) ≈ Φ

x + (1/2) − nµ √ σ n

 ,

x un entero.

Cuando Sn es discreta y las condiciones (1) y (2) se cumplen, entonces (7.17) es frecuentemente m´ as precisa de lo que lo es la F´ormula de la aproximaci´on normal (7.10). En la Figura 4 comparamos las aproximaciones con las f´ormulas (7.10) y (7.17), donde Sn tiene la distribuci´on binomial con par´ametros n = 10 y p =.3. 1 .8 De (7.17) .6 De (7.10) .4 .2 0 0

2

4

6

8

10

Figura 4 Ejemplo 13 Cierto jugador de basketball sabe que en promedio ´el acertar´ a el 60 % de sus tiros libres. ¿Cu´ al es la probabilidad de que en 25 intentos tenga ´exito en m´ as de la mitad de las veces? 175

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

Interpretaremos el problema diciendo que el n´ umero Sn de ´exitos en n intentos se distribuye de manera binomial con par´ ametros n y p =.6. Ya que P (Sn ≥ x) = 1 − P (Sn ≤ x − 1) inferimos de (7.17) la aproximaci´ on   x − (1/2) − nµ √ (7.18) P (Sn ≥ x) ≈ 1 − Φ x un entero. σ n p √ √ En nuestro caso nµ = 25(.6)=15 y σ n = 25(.6)(.4) = 5 .24. Por lo tanto   13 − (1/2) − 15 √ P (S25 ≥ 13) ≈ 1 − Φ 5 .24 = 1 − Φ(−1.02) = Φ(1.02) = .846.

7.5.2.

Aplicaciones al muestreo.

El Teorema del L´ımite Central y las correspondientes f´ormulas de aproximaci´on central se pueden ver como refinamientos de la Ley D´ebil de los N´ umeros Grandes discutida en el Cap´ıtulo 4. Recordamos que esta ley establece que para n grande, Sn /n debe ser cercana a µ con probabilidad cercana a 1. Sin embargo, La ley d´ebil no nos proporciona informaci´on alguna acerca de la precisi´on de tal estimaci´on. Como vimos en el Cap´ıtulo 4, la desigualdad de Chebyshev ayuda a aclarar un poco esta cuesti´on. La f´ormula de la aproximaci´on normal (7.10) tambi´en es u ´til en este contexto. Para c > 0   Sn P − µ ≥ c = P (Sn ≤ nµ − nc) + P (Sn ≥ nµ + nc) n     nc −nc √ √ +1−Φ ≈Φ σ n σ n  √  c n = 2[1 − Φ ]. σ En otras palabras (7.19) donde (7.20)

  Sn P − µ ≥ c ≈ 2(1 − Φ(δ)), n √ c n δ := . σ

Ejemplo 14 Se va a tomar una muestra de tama˜ no n para determinar el porcentaje de la poblaci´ on que planea votar por el titular en una elecci´ on. Sea Xk = 1 si la k-´esima persona en la muestra planea votar por el titular y Xk = 0 en caso contrario. Asumimos que X1 , . . . , Xn son variables aleatorias independientes id´enticamente distribuidas tales que P (X1 = 1) = p y P (X1 = 0) = 1 − p. Entonces µ = p y σ 2 p = p(1 − p). Tambi´en supondremos que p es lo suficientemente cercano a .5, de manera que σ = p(1 − p se pueda aproximar satisfactoriamente por σ ≈ 1/2 (note que σ tiene un m´ aximo de 1/2 en p =.5, y que, cuando p var´ıa sobre .3≤ p ≤.7, σ permanece encima de .458 el cual se encuentra cercano a 1/2). La variable aleatoria Sn /n denota la fracci´ on de personas en la muestra que planean votar por el titular y se puede utilizar para estimar la verdadera pero desconocida probabilidad p. Utilizaremos aproximaciones normales para resolver los siguientes problemas: 176

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

1. Suponga n =900. Halle la probabilidad de que Sn ≥ .025. − p n 2. Suponga n =900. Encuentre c de manera que   Sn − p ≥ c = .01. P n 3. Halle n de manera que   Sn − p ≥ .025 = .01. P n Soluci´ on a (1). Por (7.20)

√ (.025) 900 δ= = 1.5, .5

as´ı por (7.19)   Sn P − p ≥ .025 ≈ 2(1 − Φ(1.5)) n = 2(.067) = .134. Soluci´ on a (2). Primero elegimos δ de manera que 2(1 − Φ(δ)) =.01 o Φ(δ) =.995. Inspeccionando la tabla I vemos que δ =2.58. Resolviendo (7.20) para c obtenemos (2.58)(.5) δσ = .043 c= √ = √ n 900 Soluci´ on a (3). Como en (2) tenemos δ =2.58. Resolviendo (7.20) para n encontramos n=

δ2σ2 (2.58)2 (.25) = = 2663. c2 (.025)2

Vale la pena comparar los resultados obtenidos para (2) y (3). En ambos casos   Sn P − p ≥ c ≈ .01. n En (2), c =.043 y n = 900, mientras que en (3), c =.025 y n =2663. Al ir de (2) a (3), para disminuir c en un factor de 43/25 tenemos que incrementar n por el cuadrado de este factor. Generalmente esto es cierto cada vez que deseemos mantener   Sn P − µ ≥ c n constante. De esta manera δ est´a determinada por (7.19) y por 87.20), n est´a relacionada con c por n = δ 2 σ 2 /c2 . En el mismo contexto, si disminuimos n por alg´ un factor, disminuiremos c solo por la ra´ız cuadrada de dicho factor. Ejercicios 177

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

1.-Suponga que X tiene la densidad Beta con par´ametros α1 y α2 . Encuentre EX. 2.- Sean X y Y variables aleatorias independientes con densidades Gama Γ(α1 , λ) y Γ(α2 , λ) respectivamente. Sea Z = Y /X. ¿Para cu´ales valores de α1 y α2 tendr´a Z esperanza finita?. Halle EZ cuando esta exista. Sugerencia: Ver el teorema 3 del Cap´ıtulo 6 y la discusi´on relacionada. 3.- Suponga que X tiene la densidad normal n(0, σ 2 ). Encuentre E|X|. Sugerencia: Utilize el resultado del Ejercicio 31 del Cap´ıtulo 5. 4.- Sea X una variable aleatoria con densidad exponencial con par´ametro λ y sea X definida en t´erminos de X por (1) y sea  > 0. ¿Cu´al es la distribuci´on de X /?. Halle EX y eval´ ue el l´ımite cuando  → 0. 5.- Sea X una variable aleatoria con densidad Beta con par´ametros α1 y α2 . Halle los momentos y la varianza de X. 2 6.√ Suponga que X tiene una distribuci´on χ con n grados de libertad. Encuentre la media de Y = X.

7.- Sea X la variable aleatoria del Ejemplo 7. Halle EX m de la densidad marginal fX . 8.- Sea Z como en el Ejercicio 2. Encuentre la varianza de Z. 9.- Sean U1 y U2 variables aleatorias independientes cada una con densidad exponencial con par´ametro λ, y sea Y = max {U1 , U2 }. Halle la media y la varianza de Y (v´ease la Secci´on 6.5). 10.- Sea X la variable aleatoria del ejemplo 1 del Cap´ıtulo 5. Encuentre la media y la varianza de X. 11.- Sea X la variable aleatoria del ejemplo 1 del Cap´ıtulo 6. Encuentre la media y la varianza de X.Sugerencia: Reduzca EX 2 a una integral Beta. 12.- Halle la media y la varianza de la variable aleatoria Z del Ejercicio 17 del Cap´ıtulo 6. 13.- Halle la media y la varianza de la variable aleatoria Y del Ejercicio 28 del Cap´ıtulo 6. 14.- Sea X el seno de un ´angulo en radianes elegido uniformemente de (−π/2, π/2). Encuentre la media y la varianza de X. 15.- Suponga que X es una variable aleatoria que posee la densidad normal n(0, σ 2 ). Encuentre la media y la varianza de cada una de las siguientes variables aleatorias: (a) |X| (b) X 2 (c) etX . etX

16.- Sea que X tenga la densidad gama Γ(α, λ). ¿Para cu´ales valores reales t la variable aleatoria tiene esperanza finita? Halle EetX para estos valores de t.

17.- Sea que X tenga la densidad gama Γ(α, λ). ¿Para qu´e n´ umeros reales r la variable aleatoria r tiene esperanza finita? Halle EX para estos valores de r. 18.- Sea X una variable aleatoria continua no negativa con funci´on de densidad f y funci´on de distribuci´on F . Muestre que X tiene esperanza finita si y s´olo si Z∞ (1 − F (x))dx < +∞ Xr

0

178

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

y as´ı Z∞ EX = (1 − F (x))dx. 0

Sugerencia: V´ease la prueba del Teorema 5 del Cap´ıtulo 4. 19.- Sea Xk la k-´esima estad´ıstica de orden en una muestra de las variables aleatorias U1 , . . . , Un las cuales son independientes y uniformemente distribuidas sobre (0, 1). Halle la media y la varianza de Xk . 20.- Sean X y Y como en el Ejemplo 7 y sea R = Y − X. Encuentre la media y la varianza de R.Sugerencia: Utilize la ecuaci´on (4.16) del Cap´ıtulo 4. 21.- Suponga que X y Y tienen la densidad f del Ejercicio 9 del Cap´ıtulo 6. Halle la correlaci´ on entre X y Y . 22.- Sean X y Y variables aleatorias independientes tales que X tenga la densidad normal n(µ, σ 2 ) y Y posea la densidad gama Γ(α, λ). Halle la media y la varianza de la variable aleatoria Z = XY . 23.- Sean X y Y variables aleatorias con media 0, varianza 1, y correlaci´on ρ. Muestre que X − ρY y Y son no correlacionadas y que X − ρY tiene media 0 y varianza 1 − ρ2 . 24.- Sean X, Y y Z variables aleatorias con media 0 y varianza unitaria. Sea ρ1 la correlaci´ on entre X y Y , ρ2 la correlaci´on entre Y y Z, y ρ3 la correlaci´on entre X y Z. Demuestre que ρ 3 ≥ ρ1 ρ2 −

q

1 − ρ21

q

1 − ρ22 .

Sugerencia: Escriba XZ = [ρ1 Y + (X − ρ1 Y )][ρ2 Y + (Z − ρ2 Y )], y utilize el ejercicio previo, as´ı como la desigualdad de Schwarz. 25.- Sean X, Y y Z como en el problema anterior. Suponga que ρ1 ≥.9 y ρ2 ≥.8.¿Qu´e se puede decir acerca de ρ3 ?. 26.- Sean X y Y variables aleatorias con densidad f , la cual es uniforme en el interior del tri´angulo con v´ertices en (0, 0), (2, 0) y (1, 2). Halle la esperanza condicional de Y dada X. 27.- Sean X y Y variables aleatorias independientes teniendo densidades gama Γ(α1 , λ) y Γ(α2 , λ) respectivamente, y sea Z = X + Y . Halle la esperanza condicional de X dada Z. 28.- Sean Π y Y las variables aleatorias discutidas en el Ejercicio 26 del Cap´ıtulo 6. Halle la esperanza condicional de Π dada Y . 29.- Sean X y Y variables aleatorias continuas que poseen una densidad conjunta. Suponga que Y y φ(X)Y tienen esperanza finita. Muestre que Z∞ φ(x)E[Y |X = x]fX (x) dx.

Eφ(X)Y = −∞

179

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

30.- Sean X y Y variables aleatorias continuas que poseen una densidad conjunta, y sea que Var [Y |X = x] denote la varianza de la densidad condicional de Y dada X = x. Muestre que si E[Y |X = x] = µ independientemente de X, entonces EY = µ y Z∞ Var [Y |X = x]fX (x) dx.

Var Y = −∞

31.- Sean X1 , X2 , . . . variables aleatorias independientes id´enticamente distribuidas con media 0 y varianza finita positiva σ 2 y sea Sn = X1 + · · · + Xn . Demuestre que si X1 posee tercer momento finito, entonces ESn3 = nEX13 y   Sn 3 √ l´ım E = 0, n→∞ σ n que es el tercer momento de la distribuci´on normal est´andar. 32.- Sean X1 , . . . , Xn , y Sn como en el Ejercicio 31. Muestre que si X1 tiene cuarto momento finito, entonces ESn4 = nEX14 + 3n(n − 1)σ 4 y  l´ım E

n→∞

Sn √ σ n

4 = 3,

que es el cuarto momento de la distribuci´on normal est´andar.Sugerencia: El t´ermino 3n(n − 1) viene de la expresi´on   n 4! 2! 2 2! 33.- Suponga que X tiene la densidad gama Γ(α, λ). Encuentre la aproximaci´on normal para P (X ≤ x). 34.- Sean X1 , X2 , . . . variables aleatorias independientes con distribuci´on normal con media 0 y varianza σ 2 . (a) ¿Cu´al es la media y la varianza de la variable aleatoria X12 ? (b) ¿C´omo se deber´ıa aproximar P (X12 + · · · + Xn2 ≤ x) en t´erminos de Φ? 35.- Sean X1 , X2 , . . . variables aleatorias independientes con distribuci´on normal con media 0 y varianza 1 (v´ease el ejercicio previo). 2 ≤ 120). (a) Encuentre P (X12 + · · · + X100 2 2 ≤ 120). (b) Halle P (80 ≤ X1 + · · · + X100 2 ≤ 100 + c) =.95. (c) Encuentre c de manera que P (X12 + · · · + X100 2 2 ≤ 100 + c) =.95. (d) Halle c de tal manera que P (100 − c ≤ X1 + · · · + X100 36.- Un corredor intenta recorrer en pasos 100 metros para una carrera informal. Sus pasos se distribuyen de manera independiente con una media µ =.97 metros y una desviaci´on est´andar σ =.1 metro. Halle la probabilidad de que sus 100 pasos difieran de los 100 metros en no m´as de 5 metros. 37.- Veinte n´ umeros se redondean al entero m´as pr´oximo y despu´es se suman. Asuma que los errores de redondeo individuales son independientes y uniformemente distribuidos sobre (−1/2, 1/2). 180

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

Halle la probabilidad de que la suma obtenida difiera de la suma original de los veinte n´ umeros en m´as de 3. 38.- Se lanza una moneda honesta hasta que caigan 100 ´aguilas. Halle la probabilidad de que se necesiten al menos 226 lanzamientos. 39.- En el problema anterior halle la probabilidad de que se necesiten exactamente 226 lanzamientos. 40.- Suponga que X tiene la distribuci´on de Poisson con par´ametro λ. (a) ¿C´omo debe aproximarse fX (x) en t´erminos de la densidad normal est´andar φ? (b) ¿C´omo debe aproximarse fX (x) en t´erminos de la funci´on de distribuci´on normal est´andar Φ? 41.- Suponga que Sn tiene la distribuci´on binomial con par´ametros n y p = 1/2. ¿C´omo se comporta P (S2n = n para n grande? Sugerencia: Utilize la aproximaci´on (7.15). 42.- Dos jugadores A y B hacen una serie de apuestas de $1 en las cuales cada jugador tiene probabilidad 1/2 de ganar. Sea Sn la cantidad neta ganada por el jugador A despu´es de n juegos. ¿C´ omo se comporta P (S2n = n para n grande? Sugerencia: V´ease el problema anterior. ¿Porqu´e aqu´ı no se puede aplicar directamente la aproximaci´on (7.15)?. 43.- Los candidatos A y B contienden por una oficina y el 55 % del electorado favorece al candidato B. ¿Cu´al es la probabilidad de que en una muestra de tama˜ no 100 al menos la mitad de la muestra favorezcan al candidato A? 44.- Una organizaci´on de encuestas toma una muestra de 1200 votantes para estimar la proporci´on que planea votar por el candidato A en una cierta elecci´on. ¿Que tan grande deber´ıa ser la proporci´on verdadera p para que el candidato A est´e el 95 % seguro de que la mayor´ıa de los encuestados votar´an por ´el? 45.- Suponga que el candidato A del ejercicio precedente insisti´o en que el tama˜ no de la muestra se incrementara a un n´ umero n de tal manera que si el 51 % de todos los votantes lo favorecieran ´el estuviera un 95 % seguro de obtener la mayor´ıa de los votos muestreados. ¿Aproximadamente que tan grande debe de ser n? 46.- Resuelva el Ejercicio 27 del Cap´ıtulo 4 utilizando la aproximaci´on normal.

181

7. Esperanzas y el Teorema del L´ımite Central

7.5. El Teorema del L´ımite Central

182

Cap´ıtulo 8

Funciones Generadoras de Momentos y Funciones Caracter´ısticas Algunas de las m´as importantes herramientas en la teor´ıa de la probabilidad se toman prestadas de otras ramas de las matem´aticas. En este cap´ıtulo discutiremos dos de tales herramientas estrechamente relacionadas. Comenzamos con las funciones generadoras de momentos y despu´es trataremos las funciones caracter´ısticas. Lo u ´ltimo es algo m´as dif´ıcil de entender a un nivel elemental porque requiere el uso de n´ umeros complejos. Sin embargo, vale la pena vencer este obst´ aculo, ya que el conocimiento de las propiedades de las funciones caracter´ısticas nos habilitar´a para probar tanto la Ley D´ebil de los N´ umeros Grandes como el Teorema del L´ımite Central (Secci´on 8.4).

8.1.

Funciones Generadoras de Momentos

La funci´ on generadora de momentos MX (t) de una variable aleatoria X est´a definida por MX (t) = EetX . El dominio de Mx son todos los n´ umeros reales t tales que etX tenga esperanza finita. Ejemplo 1 Sea X una variable aleatoria distribuida normalmente con media µ y varianza σ 2 . As´ı tX

MX (t) = Ee

Z∞ = −∞ Z∞

= −∞

1 2 2 etx √ e−[(x−µ) /2σ ] dx σ 2π 1 2 2 et(y+µ) √ e−y /2σ dy σ 2π Z∞

µt

=e

−∞

Ahora ty −

1 2 2 √ ety−(y /2σ ) dy. σ 2π

y2 (y − σ 2 t)2 (σt)2 = − + . 2σ 2 2σ 2 2

Como consecuencia σ 2 t2 /2

Z∞

MX (t) = eµte

−∞

1 2 2 √ e−[(y−σ2t )‘/2σ ] dt. σ 2π

183

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.1. Funciones Generadoras de Momentos

Como la u ´ltima integral representa la integral de la densidad normal n(σ 2 t, σ 2 ), su valor es uno y por lo tanto (8.1)

MX (t) = eµt eσ

2 t2 /2

−∞ < t < ∞.

,

Ejemplo 2 Sea que X tenga la densidad gama con par´ ametros α y λ. Entonces Z∞ MX (t) =

etx

λα α−1 −λx x e dx Γ(α)

0

λα = Γ(α)

Z∞

xα−1 e−(λ−t)x dx

0

λα Γ(α) = Γ(α) (λ − t)α para −∞ < t < λ. La integral diverge para λ ≤ t < ∞. As´ı  α λ (8.2) MX (t) = − ∞ < t < λ. λ−t Supongamos ahora que X es una variable aleatoria discreta tal que todos sus posibles valores sean enteros no negativos. As´ı X MX (t) = = 0∞ ent P (X = n). n

En el Cap´ıtulo 3 definimos la funci´on generadora de probabilidad para tales variables aleatorias como ∞ X ΦX (t) = tn P (X = n). n=0

De estas dos f´ormulas es claro que (8.3)

MX (t) = ΦX (et ).

La F´ormula (8.3) nos permite determinar la funci´on generadora de momentos directamente de la funci´on generadora de probabilidad. Por ejemplo, Si X tiene la distribuci´on binomial con par´ametros n y p, entonces como se mostr´o en el Ejemplo 16 del Cap´ıtulo 3, ΦX (t) = (pt + 1 − p)n . Se sigue inmediatamente que MX (t) = (pet + 1 − p)n . De manera similar, si X tiene la distribuci´on de Poisson con par´ametro λ, entonces de acuerdo al Ejemplo 18 del Cap´ıtulo 3, ΦX (t) = eλ(t−1) . Como consecuencia,

t −1)

MX (t) = eλ(e

.

Por supuesto, en estos dos ejemplos MX (t) podr´ıa haberse obtenido f´acilmente de la definici´ on de la funci´on generadora de momentos. 184

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.1. Funciones Generadoras de Momentos

Si X y Y son variables aleatorias independientes, entonces etX y etY son tambi´en independientes. Por lo tanto MX+Y (t) = Eet(X+Y ) = EetX etY = EetX EetY = MX (t)MY (t). Se sigue f´acilmente que si X1 , . . . , Xn son variables aleatorias independientes id´enticamente distribuidas, entonces (8.4)

MX1 +···+Xx (t) = (MX1 (t))n .

Para ver porque MX (t) se llama funci´on generadora de momentos, escribimos MX (t) = EetX = E

∞ n n X t X

n!

n=0

.

Suponga que MX (t) es finita en −t0 < t < t0 para alg´ un n´ umero positivo t0 . en este caso podemos mostrar que en la u ´ltima expresi´on para MX (t) se permite intercambiar el orden de la esperanza y de la suma. En otras palabras (8.5)

MX (t) =

∞ X EX n n=0

n!

tn

para −t0 < t < t0 . En particular, si MX (t) es finita para toda t, entonces (8.5) se cumple para toda t. La serie de Taylor para MX (t) es ∞ n n X t d (8.6) MX (t) = MX (t) . n n! dt t=0 n=0

Comparando los coeficientes de tn en (8.5) y (8.6), vemos que dn n (8.7) EX = n MX (t) . dt t=0 Ejemplo 3 Sea X una variable aleatoria con distribuci´ on normal n(0, σ 2 ). utilize la funci´ on generadora de momentos para hallar los momentos de X. Observemos primero de (8.1) que σ 2 t2 /2

MX (t) = e

∞  2 2 n X 1 σ t = 2 n! n=0

∞ X σ 2n 2n = t . 2n n! n=0

As´ı los momentos impares de X son todos cero, y los momentos pares est´ an dados por EX 2n σ 2n = n (2n)! 2 n! o

σ 2n (2n)! . 2n n! Esto concuerda con el resultado obtenido en el Cap´ıtulo 7. EX 2n =

185

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.2. Funciones Caracter´ısticas

Este ejemplo tambi´en se puede utilizar para ilustrar (8.7). Ya que d σ2 t2 /2 2 2 e = σ 2 teσ t /2 dt y d2 σ2 t2 /2 2 2 e = (σ 2 + σ 4 t2 )eσ t /2 , dt2 se sigue que d σ2 t2 /2 e =0 dt t=0 y d2 σ2 t2 /2 2 e =σ , dt2 t=0 Los cuales son los primeros dos momentos de X.

8.2.

Funciones Caracter´ısticas

La funci´ on caracter´ıstica de una variable aleatoria X se define por ϕX (t) = EeitX ,

−∞ < t < ∞.

√ donde i = −1. Las funciones caracter´ısticas son un ligeramente m´as complicadas que las funciones generadoras de momentos ya que involucran n´ umeros complejos. Sin embargo, ellas tienen dos ventajas importantes sobre las funciones generadoras de momentos. Primero ϕX (t) es finita para toda variable aleatoria X y para todo n´ umero real t. Segundo, la funci´on de distribuci´on de X y frecuentemente la funci´on de densidad, si esta existe, se pueden obtener de la funci´on caracter´ıstica en t´erminos de la “f´ormula de inversi´on”. Utilizando las propiedades de las funciones caracter´ısticas estaremos listos para probar tanto la Ley D´ebil de los Numeros Grandes como el Teorema del L´ımite Central, lo cu´al no podr´ıamos hacer con las funciones generadoras de momentos. Antes de discutir las funciones caracter´ısticas primero resumiremos algunos hechos requeridos que involucran a variables complejas. Podemos escribir cualquier n´ umero complejo z en la forma x = x + iy, donde x y y son n´ umeros reales. El valor absoluto |z| de tal n´ umero complejo se define por |z| = (x2 + y 2 )1/2 . La distancia entre dos n´ umeros complejos z1 y z2 se define como |z1 − z2 |. Si una funci´on de variable real tiene una expansi´on en serie de potencias con una radio de convergencia positivo podemos utilizar dicha serie de potencias para definir una funci´on de variable compleja. As´ı definimos ∞ X zn ex = n! n=0

para todo n´ umero complejo z. La relaci´on ez1 +z2 = ez1 ez2 186

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.2. Funciones Caracter´ısticas

permanece v´alida para todos los n´ umeros complejos z1 y z2 . haciendo z = it, donde t es un n´ umero real, vemos que ∞ X (it)n it e = n! n=0   t2 it3 t4 it5 = 1 + it − − + + − ··· 2 3! 4! 5!     t2 t4 t3 t5 = 1 − + − ··· + i t − + − ··· . 2 4! 3! 5! Ya que las dos series de potencias en la expresi´on anterior son las de cos t y sin t, se sigue que eit = cos t + i sin t.

(8.8)

Utilizando el hecho de que cos(−t) = t y sin(−t) = t, vemos que e−it = cos t − i sin t. De estas f´ormulas podemos resolver para cos t y sin t, obteniendo (8.9)

cos t =

eit + e−it 2

y

sin t =

eit − e−it . 2i

Se sigue tambi´en de (8.8) que |eit = (cos2 t + sin2 t)1/2 = 1. Si f (t) y g(t) son funciones de t con valores en los n´ umeros reales, entonces h(t) = f (t) + ig(t) define una funci´on compleja de t. Podemos diferencial h(t) diferenciando f (t) y g(t) por separado; esto es h0 (t)0f 0 (t) + ig 0 (t), si es que f 0 (t) y g 0 (t) existen. De manera similar definimos Zb

Zb h(t) dt =

a

Zb f (t) dt + i

a

g(t) dt, a

si es que existen las integrales indicadas que involucran a f y a g. La f´ormula d ct e = cect dt es v´alida para cualquier constante compleja c. El teorema fundamental del c´alculo se sigue cumpliendo y, en particular, si c es una constante compleja distinta de cero, entonces Zb

ect dt =

ecb − eca . c

a

Una variable aleatoria compleja Z puede ser escrita en la forma Z = X + iY , donde X y Y son variables aleatorias reales. La esperanza de Z EZ se define como EZ = E(X + iY ) = EX + iEY 187

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.2. Funciones Caracter´ısticas

siempre y cuando EX y EY est´en bien definidas. Justamente como para las variables aleatorias reales, Z tiene esperanza finita si y solo si |EZ| < ∞, y en este caso |EZ| ≤ E|Z|. La f´ormula E(a1 Z1 + a2 Z2 ) = a1 EZ1 + a2 EZ2 es v´alida siempre que a1 y a2 sean constantes complejas y Z1 y Z2 sean variables aleatorias complejas con esperanza finita. Haremos que X y Y , con o sin sub´ındices, contin´ uen denotando variables aleatorias reales. As´ı en la frase “sea X una variable aleatoria· · · ” se entender´a que X tiene valores en los n´ umeros reales. Ahora suponga que X es una variable aleatoria y t es una constante (reservamos el s´ımbolo t para constantes reales). As´ı |eitX | = 1, por lo tanto eitX tiene esperanza finita y la funci´on caracter´ıstica ϕX (t), −∞ < t < ∞, dada por ϕX (t) = EeitX ,

−∞ < t < ∞.

est´a bien definida. Vemos que ϕX (0) = Ee0 = E1 = 1 y, para ,

−∞ < t < ∞.

|ϕX (t)| = |EeitX | ≤ E|eitX | = E1 = 1. La raz´on por la cual las funciones caracter´ısticas son finitas para todo t mientras que las funciones generadoras de momentos no son finitas en general es que eit , −∞ < t < ∞. es acotada, mientras et , −∞ < t < ∞. no es acotada. Ejemplo 4 Sea X la variable aleatoria que toma el valor a con probabilidad uno, entonces ϕX (t) = EeitX = eita ,

−∞ < t < ∞.

En particular, si X toma el valor cero con probabilidad uno, entonces su funci´ on caracter´ıstica es id´enticamente igual a 1. Si X es una variable aleatoria y a y b son constantes reales, entonces ϕa+bX (t) = Eeit(a+bX) Eeita eitbX = eita EeibtX , y entonces (8.10)

ϕa+bX (t) = eita ϕX bt,

−∞ < t < ∞.

Ejemplo 5 Sea U una variable aleatoria distribuida uniformemente en (−1, 1). Entonces para t 6= 0 Z1 ϕU (t) =

1 eitu du 2

−1

1 eitu 1 = −1 2 it   1 eit − e−it = 2 it sin t = . t 188

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.2. Funciones Caracter´ısticas

Para a < b sea X=

a+b + 2



b−a 2

 U.

Entonces X se distribuye uniformemente en (a, b), y por (8,10), para t 6= 0 ϕX (t) = eit(a+b)/2

sin((b − a)t/2) . (b − a)t/2

De manera alternativa Zb

1 dx b−a a 1 eitx b = b − a it a

ϕX (t) =

=

eitx

eibt − eiat . it(b − a)

Es f´ acil revisar en t´erminos de (8.9) que estas dos respuestas concuerdan. Ejemplo 6 Sea X una variable aleatoria con distribuci´ on exponencial de par´ ametro λ. Entonces Z∞ ϕX (t) =

eitx λe−λx dx

0

Z∞ =λ

e−(λ−it)x dx

0

0 λ −(λ−it)x e = . λ − it ∞ Ya que l´ımx→∞ e−λx = 0 y eitx est´ a acotada en x, se sigue que l´ım e−(λ−it)x = l´ım e−λx eitx = 0.

x→∞

x→∞

Por lo tanto ϕX (t) =

λ . λ − it

Suponga que X y Y son variables aleatorias independientes. Entonces eitX y eitY son tambi´en variables aleatorias independientes; en consecuencia ϕX+Y (t) = Eeit(X+Y ) = EeitX eitY = EeitX EeitY y as´ı (8.11)

ϕX+Y = ϕX ϕY ,

−∞ < t < ∞.

La F´ormula (8.11) se extiende inmediatamente para hacer notar el hecho de que la funci´on caracter´ıstica de la suma de un n´ umero finito de variables aleatorias independientes es el producto de las funciones caracter´ısticas individuales. 189

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.2. Funciones Caracter´ısticas

Se puede probar que ϕX (t) es una funci´on continua de t. M´as a´ un, si X tiene n-´esimo momento (n) finito, entonces ϕX (t) existe, es continua en t, y puede ser calculada como (n)

ϕX (t) =

dn dn itX itX Ee = E e = E(iX)n eitX . dtn dtn

En particular (n)

ϕX (0) = in EX n .

(8.12)

Podemos intentar expandir ϕX (t) en serie de potencias siguiendo la f´ormula (8.13)

ϕX (t) = EeitX = E

∞ X (itX)n

n!

n=0

Suponga que MX (t) =

=

n=0

∞ X EX n n=0

∞ n X i EX n

n!

n!

tn .

tn

es finito en −t0 < t < t0 para alg´ un n´ umero positivo t0 . Entonces (8.13) tambi´en se cumple en −t0 < t < t0 . Ejemplo 7 Suponga que X se distribuye normalmente con media 0 y varianza σ 2 . Encuentre ϕX (t). Del Cap´ıtulo 7 sabemos que EX n = 0 para cualquier entero positivo impar n. M´ as a´ un, si n = 2k es un entero par, entonces σ 2k (2k)! EX n = EX 2k = . 2k k! Por lo tanto ∞ ∞ 2k X i EX 2k 2k X (−σ 2 t2 /2)k 2 2 t = = e−σ t /2 . ϕX (t) = (2k)! k! k=0

k=0

De manera m´as general sea X distribuida normalmente con media µ y varianza σ 2 . Entonces Y = X −µ se distribuye normalmente con media 0 y varianza σ 2 . Ya que X = Y +µ vemos de la F´ormula (8.10) y del Ejemplo 7 que (8.14)

ϕX (t) = eitµ e−σ

2 t2 /2

,

−∞ < t < ∞.

Sea X una variable aleatoria cuya funci´on generadora de momentos MX (t) es finita en −t0 < t < t0 para alg´ un n´ umero positivo t0 . ya que MX (t) = EetX y ϕX (t) = EeitX , esperar´ıamos que (8.15)

ϕX (t) = MX (it).

En otras palabras, esperar´ıamos que si reemplazamos t por iten la f´ormula para la funci´on generadora de momentos, obtendr´ıamos la correspondiente f´ormula para la funci´on caracter´ıstica. De hecho este 190

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.3. F´ormulas de Inversi´ on y el Teorema de Continuidad

es el caso, pero una comprensi´on concienzuda de los hechos involucrados requiere un sofisticado concepto (prolongaci´on anal´ıtica) de la teor´ıa de variable compleja. Como un ejemplo de (8.15), sea X una variable aleatoria normalmente distribuida con media µ y varianza σ 2 . Entonces como ya lo hab´ıamos visto previamente MX (t) = eµt eσ

2 t2 /2

y as´ı MX (it) = eµ(it) eσ = eiµt e−σ

2 (it)2 /2 2 t2 /2

que por (8.14) es ϕX (t).

8.3.

F´ ormulas de Inversi´ on y el Teorema de Continuidad

Sea X una variable aleatoria con valores en los enteros. Su funci´on caracter´ıstica est´a dada por ϕX (t) =

∞ X

eijt fX (j).

−∞

Una de las propiedades m´as u ´tiles de ϕX (t) es que puede ser utilizada para calcular fX (k). Espec´ıficamente tenemos la “f´ormula de inversi´on” (8.16)

1 fX (k) = 2π



e−ikt ϕX (t)dt.

pi

Para verificar (8.16) escribimos el lado derecho de esta f´ormula como 1 2π



" e−ikt

∞ X

# eijt fX (j) dt.

−∞

−π

Un teorema de la teor´ıa de integraci´on justifica el intercambio en el orden de la integraci´on y la suma para conducir a la expresi´on ∞ X

1 fX (j) 2π −∞



ei(j−k)t dt.

−π

Para poder finalizar la prueba de (8.16) debemos mostrar que la u ´ltima expresi´on equivale a fX (k). Para ello es suficiente con probar que

(8.17)

1 2π



ei(j−k)t dt =

−π

191

  1

sij = k,

  0

sij 6= k.

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.3. F´ormulas de Inversi´ on y el Teorema de Continuidad

La F´ormula (8.17) es obvia cuando j = k, ya que en tal caso ei(j−k)t = 1 para toda t. Si j 6= k, entonces Zπ i(j−k)t π e 1 −π ei(j−k)t dt = 2π 2πi(j − k) −π

ei(j−k)π − e−i(j−k)π 2πi(j − k) sin(j − k)π = = 0, π(j − k) =

Ya que sin mx = 0 para todos los enteros m. Esto completa la prueba de (8.17) y por lo tanto tambi´en la de (8.16). Ejemplo 8 Sean X1 , . . . , Xn variables aleatorias independientes id´enticamente distribuidas con valores en los enteros y haga Sn = X1 + · · · + Xn . Entonces ϕSn (t) = (ϕX1 (t))n , y como consecuencia por (8.16) (8.18)



1 fSn (k) = 2π

e−ikt (ϕX1 (t))n dt.

−π

La F´ ormula (8.18) es la base para casi todos los m´etodos para analizar el comportamiento de fSn (k) para valores grandes de n y, en particular, la base de la demostraci´ on del Teorema del L´ımite Central “local” discutido en el Cap´ıtulo 7. Existe tambi´en una f´ormula an´aloga a (8.16) para variables aleatorias continuas. Sea X una variable cuya funci´on caracter´ıstica ϕX (t) sea integrable, esto es, Z∞ |ϕx (t)|dt < ∞. −∞

Se puede demostrar que en este caso X es una variable aleatoria continua que posee una densidad fX dada por 1 fX (x) = 2π

(8.19)

Z∞

e−ixt ϕX (t) dt.

−∞

Ejemplo 9 Sea X una variable aleatoria con distribuci´ on normal con media 0 y varianza σ 2 . Mostraremos directamente que (8.19) es v´ alida para tal variable aleatoria. Del Ejemplo 7 sabemos 2 2 que X tiene por funci´ on caracter´ıstica a ϕX (t) = e−σ t /2 . As´ı por definici´ on de funci´ on caracter´ıstica, Z∞ 1 2 2 −σ 2 t2 /2 e = eitx √ e−x /2σ dx. σ 2π −∞

Si en esta f´ ormula reemplazamos t por −t y σ por 1/σ se vuelve −t2 /2σ 2

e

Z∞ = −∞

σ 2 2 e−itx √ e−σ x /2 dx 2π 192

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.3. F´ormulas de Inversi´ on y el Teorema de Continuidad

o de manera equivalente, 1 1 2 2 √ e−t /2σ = 2π σ 2π

Z∞

e−itx e−σ

2 x2 /2

dx.

−∞

Finalmente, si intercambiamos el papel de los s´ımbolos x y t en la u ´ltima ecuaci´ on obtenemos 1 1 2 2 √ e−x /2σ = 2π σ 2π

Z∞

e−itx e−σ

2 t2 /2

dt,

−∞

que es justamente (8.19) en este caso especial. Sea ahora X cualquier variable aleatoria. Sea Y una variable aleatoria que dependa de X con distribuci´on normal est´andar, y sea c una constante positiva. Entonces X + cY tiene por funci´ on caracter´ıstica 2 2 ϕX (t)e−c t /2 2 2

Debido a que ϕX (t) est´a acotada en valor absoluto por 1 y e−c t /2 es integrable, se sigue que X +cY posee una funci´on caracter´ıstica integrable. Consecuentemente podemos aplicar (8.19) y X + cY es una variable aleatoria continua con densidad dada por Z∞

1 fX+cY (x) = 2π

e−itx ϕX (t)e−c

2 t2 /2

dt.

−∞

Si integramos ambos lados de esta ecuaci´on sobre a ≤ x ≤ b e intercambiamos el orden de la integraci´on, concluimos que

P (a ≤ X + cY ≤ b) =

1 2π

Zb

 

1 2π

 e−itx ϕX (t)e−c

2 t2 /2

dt dx

−∞

a

=

Z∞

Z∞

 b  Z  e−itx dx ϕX (t)e−c2 t2 /2 dt

−∞

a

o (8.20)

1 P (a ≤ X + cY ≤ b) = 2π

Z∞ 

e−ibt − e−iat −it



ϕX (t)e−c

2 t2 /2

dt.

−∞

La importancia de (8.20) radica en que es v´alida para cualquier variable aleatoria X arbitraria. El lado derecho de (8.20) depende de X solo a trav´es de ϕX (t). Utilizando este hecho y haciendo c → 0 en (8.20), podemos demostrar que la funci´on de distribuci´on de X est´a un´ıvocamente determinada por su funci´on caracter´ıstica. Este resultado es conocido como el “teorema de la unicidad” y se puede establecer como sigue Teorema 1 Si dos variables aleatorias tienen la misma funci´ on caracter´ıstica, entonces poseen la misma funci´ on de distribuci´ on. 193

8. Funciones Generadoras de Momentos y Funciones Caracter´ısticas

8.3. F´ormulas de Inversi´ on y el Teorema de Continuidad

Ejemplo 10 Utilize el teorema de la unicidad para demostrar que la suma de dos variables aleatorias independientes normalmente distribuidas es asimismo normalmente distribuida. Sean X y Y variables aleatorias independientes y distribuidas respectivamente como n(µ1 , σ12 ) y n(µ2 , σ22 ). Entonces 2 2 /2

ϕX (t) = eiµ1 t e−σ1 t y

2 2 /2

ϕY (t) = eiµ2 t e−σ2 t

.

En consecuencia 2

2

2 /2

ϕX+Y (t) = ei(µ1 +µ2 )t e−(σ1 +σ2 )t

.

As´ı la funci´ on caracter´ıstica de X + Y es la misma que la de una variable aleatoria con distribuci´ on 2 2 normal con media µ1 + µ2 y varianza σ1 + σ2 . por el teorema de unicidad X + Y debe poseer dicha distribuci´ on normal. La aplicaci´on m´as importante de la f´ormula de inversi´on (8.20) es que puede ser utilizada para derivar el siguiente resultado, el cu´al es b´asico para la prueba de la Ley D´ebil de los Grandes N´ umeros y del Teorema del L´ımite Central. Teorema 2 Sean Xn , n ≥ 1, y X variables aleatorias tales que (8.21)

l´ım ϕXn (t) = ϕX (t),

n→∞

−∞ < t < ∞.

Entonces (8.22)

l´ım FXn (x) = FX (x)

n→∞

en todos los puntos x donde FX sea continua. ´ Este teorema que la convergencia de funciones caracter´ısticas implica la convergencia de las correspondientes funciones de distribuci´on, o, en otras palabras, que las funciones de distribuci´ on “dependen continuamente” de sus funciones caracter´ısticas. Por esta raz´on el Teorema 2 se conoce com´ unmente como el “Teorema de la Continuidad” La demostraci´on de este teorema est´a pr´acticamente implicada. No presentaremos los detalles de la prueba, pero indicaremos brevemente algunas de las ideas principales de uno de los m´etodos de su demostraci´on. Primero elegimos una variable aleatoria Y que posea la distribuci´on normal est´andar y que sea independiente de cada una de las variables aleatorias Xn , n ≥ 1. Sean a < b y sea c una constante positiva. Entonces por la f´ormula de inversi´on (8.20)

(8.23)

1 P (a ≤ Xn + cY ≤ b) = 2π

Z∞ 

e−ibt − e−iat −it



ϕXn (t)e−c

2 t2 /2

dt

−∞

y

(8.24)

1 P (0   Sn (8.29) l´ım P − µ >  = 0 n→∞ n Demostraci´on: La funci´ on caracter´ıstica de Sn X1 + · · · + Xn −µ= −µ n n es e−iµt (ϕX1 (t/n))n . Sea t fijo. Entonces para n suficientemente grande, t/n es lo suficientemente cercano a cero de tal forma que log ϕX1 (t/n) est´e bien definido y (8.30)

e−iµt (ϕX1 (t/n))n = exp [n(log ϕX1 (t/n) − iµ(t/n))].

A continuaci´ on aseveramos que (8.31)

l´ım n(log ϕX1 (t/n) − iµ(t/n) = 0.

n→∞

196

8. Funciones Generadoras de Momentos 8.4. La Ley D´ebil de los Grandes N´ umeros y el Teorema del L´ımite Central y Funciones Caracter´ısticas

La Ecuaci´ on (8.31) es obvia para t = 0 ya que log ϕX1 (0) = log 1 = 0. Si t 6= 0 podemos reescribir el lado izquierdo de (8.31) como t l´ım

n→∞

log ϕX (t/n) − iµ(t/n) . t/n

Pero t/n → 0 cuando n → ∞, luego el l´ımite anterior es 0 por (8.27). Esto completa la prueba de (8.31). Se sigue de (8.30) y (8.31) que la funci´ on caracter´ıstica de Sn −µ n tiende a 1 cuando n → ∞. Ahora 1 es la funci´ on caracter´ıstica de una variable aleatoria X tal que P (X = 0) = 1. La funci´ on de distribuci´ on de X viene dada por   1, six ≥ 0, FX (x) =   0, six > 0. La funci´ on de distribuci´ on es continua en todas partes excepto en x = 0. Escojamos  > 0. As´ı por el Teorema de Continuidad,   Sn − µ ≤ epsilon = FX (−) = 0 (8.32) l´ım P n→∞ n y  l´ım P

n→∞

 Sn − µ ≤  = FX () = 1. n

El resultado anterior implica que  l´ım P

n→∞

 Sn − µ >  = FX (−) = 0, n

que junto con (8.32) implica que se cumple (8.29) como se deseaba.  Para el siguiente teorema es necesario recordad que Φ(x) denota la funci´on de distribuci´ on normal est´andar dada por Zx Φ(x) = −∞

1 2 √ e−y /2 dy, 2π

−∞ < x < ∞.

Recordemos tambi´en que esta funci´on de distribuci´on es continua en todo valor de x. Teorema 4 (Teorema del L´ımite Central. ) Sean X1 , X2 , . . . variables aleatorias independientes id´enticamente distribuidas cada una con media finita µ y varianza finita no cero σ 2 Entonces   Sn − nµ √ ≤ x = Φ(x), −∞ < x < ∞. l´ım P n→∞ σ n Demostraci´on: Sea Sn∗ =

Sn − nµ √ . σ n 197

8. Funciones Generadoras de Momentos 8.4. La Ley D´ebil de los Grandes N´ umeros y el Teorema del L´ımite Central y Funciones Caracter´ısticas

Entonces para t fijo y n suficientemente grande, √ ϕSn (t/σ n) √ √ = e−inµt/σ n (ϕX1 (t/σ n))n ,

ϕSn∗ = e−inµt/σ



n

o (8.33)

√ √ ϕSn∗ = exp [n(log ϕX1 (t/σ n) − iµ(t/σ n))].

A continuaci´ on afirmamos que (8.34)

√ √ t2 l´ım n(log ϕX1 (t/σ n) − iµ(t/σ n)) = − . n→∞ 2

Si t = 0, entonces ambos lados de (8.34) equivalen a cero y claramente se cumple (8.34). Si t 6= 0 podemos reescribir el lado izquierdo de (8.34) como √ √ log ϕX1 (t/σ n) − iµ(t/σ n) t2 √ , l´ım σ 2 n→∞ (t/σ n)2 que por 88.28) equivale a t2 σ2

 −

σ2 2

 =−

t2 . 2

As´ı (8.34) se cumple para toda t. Se sigue de (8.33) y (8.34) que 2 /2

l´ım ϕSn∗ (t) = e−t

n→∞

,

−∞ < t < ∞.

2

De acuerdo al Ejemplo 7, e−t /2 es la funci´ on caracter´ıstica de una variable aleatoria X que posee la funci´ on de distribuci´ on normal est´ andar Φ(x). As´ı por el Teorema de Continuidad l´ım P (Sn∗ ≤ x) = Φ(x)

n→∞

− ∞ < x < ∞,

que es la conclusi´ on deseada.  Ejercicios 1.- Sea X una variable aleatoria uniformemente distribuida sobre (a, b). Encuentre MX (t). 2.- Exprese la funci´on generadora de momentos de Y = a + bX en t´erminos de MX (t) (aqu´ı a y b son constantes). 3.- Sea X con distribuci´on de Poisson con par´ametro λ. Utilize funciones generadoras para hallar la media y la varianza de X. 4.- Suponga que X tiene la distribuci´on binomial negativa con par´ametros α y p. (a) Halle la funci´on generadora de momentos de X. (b) Utilize esta funci´on generadora de momentos para hallar la media y la varianza de X. 5.- Sea X una variable aleatoria continua con densidad fX (x) = (1/2)e−|x| , (a) Muestre que MX (t) = 1/(1 − t2 ), −1 < t < 1. 198

−∞ < x < ∞.

8. Funciones Generadoras de Momentos 8.4. La Ley D´ebil de los Grandes N´ umeros y el Teorema del L´ımite Central y Funciones Caracter´ısticas

(b) Utilize esta funci´on generadora de momentos para hallar una f´ormula para EX 2n (note que todos los momentos impares de X son cero). 6.- Sea X que posea la distribuci´on binomial con par´ametros n y p. (a) Encuentre dMX (t)/dt y d2 MX (t)/dt2 . (b) Utilize (a) y la F´ormula (8.7) para calcular la media y la varianza de X. 7.- Sean X1 , . . . , Xn variables aleatorias independientes id´enticamente distribuidas tales que MX1 (t) es finita para toda t. Utilize la funci´on generadora de momentos para probar que E(X1 + · · · + Xn )3 = nEX13 + 3n(n − 1)EX12 EX1 + n(n − 1)(n − 2)(EX1 )3 . Sugerencia: Halle (d3 /dt3 )(MX1 (t))n |t = 0. 8.- Sea X una variable aleatoria tal que MX (t) es finita para todo t. Utilize el mismo argumento utilizado en la prueba de la Desigualdad de Chebyshev para concluir que P (X ≥ x) ≤ e−tx MX (t),

t ≥ 0.

Se sigue que P (X > x) ≤ min e−tx MX (t). t≥0

dado que

e−tx M

X (t)

tenga un m´ınimo en 0 ≤ t < +∞.

9.- Suponga que X tiene la distribuci´on gamma con par´ametros α y λ. Utilize el resultado del Ejercicio 8 para probar que P (X ≥ 2α/λ) ≤ (2/e)α . 10.- Sea X una variable aleatoria con distribuci´on de Poisson con par´ametro λ. Halle ϕX (t). 11.- Sea X una variable aleatoria con distribuci´on geom´etrica con par´ametro p. Encuentre ϕX (t). 12.- Sean X1 , . . . , Xn variables aleatorias independientes cada una con distribuci´on geom´etrica con par´ametro p. Halle la funci´on caracter´ıstica de X = X1 + · · · + Xn . 13.- Sean X1 , . . . , Xn variables aleatorias independientes cada una con distribuci´on exponencial con par´ametro λ. Halle la funci´on caracter´ıstica de X = X1 + · · · + Xn . 14.- Sea X una variable aleatoria discreta cuyos posibles valores son todos enteros no negativos. ¿Qu´e relaci´on deber´ıamos esperar que se cumpliera entre la funci´on caracter´ıstica de X y la funci´ on generadora de probabilidad de X? (recuerde las F´ormulas (8.3) y (8.15)). 15.- Sea X cualquier variable aleatoria. (a) Muestre que ϕX (t) = E cos tX + iE sin tX. (b) Pruebe que ϕ−X (t) = E cos tX − iE sin tX. (c) Muestre que ϕ−X (t) = ϕX (−t). 16.- Sea X una variable aleatoria sim´etrica, esto es, tal que X y −X tengan la misma funci´ on de distribuci´on. (a) Pruebe que E sin tX = 0 y que ϕX (t) es real. (b) Pruebe que ϕX (−t) = ϕX (t). 17.- Sean X y Y variables aleatorias independientes id´enticamente distribuidas. Pruebe que ϕX−Y (t) = |ϕX (t)|2 . Sugerencia: Utilize el Ejercicio 15. 199

8. Funciones Generadoras de Momentos 8.4. La Ley D´ebil de los Grandes N´ umeros y el Teorema del L´ımite Central y Funciones Caracter´ısticas

18.- Sea X una variable aleatoria tal que ϕX (t) solo toma valores reales. (a) Pruebe que X y −X tienen la misma funci´on caracter´ıstica (Utilize el Ejercicio 15). (b) ¿Porqu´e se sigue que X y −X poseen la misma funci´on de distribuci´on? 19.- Sea X una variable aleatoria continua con densidad fX (x) = (1/2)e−|x| , −∞ < xz∞. (a) Pruebe que ϕX (t) = 1/(1 + t2 ). (b) Utilize (a) y la formula de inversi´on (8.19) para concluir que −|x|

e

Z∞ =

e−itx

1 dt. π(1 + t2 )

e−itx

1 dt. π(1 + t2 )

−∞

(c) Utilizando (b) pruebe que −|x|

e

Z∞ = −∞

20.- Sea X una variable aleatoria con la densidad de Cauchy fX (x) = Demuestre que ϕX (t) = e−|x| , Ejercicio 19.

1 , π(1 + x2 )

−∞ < x < ∞.

−∞ < t < ∞. Sugerencia: Intercambie los papeles de xy t en el

21.- Sean X y Y variables aleatorias independientes cada una con la densidad de Cauchy. (a) Halle las funciones caracter´ısticas de X + Y y de (X + Y )/2. (b) ¿Porqu´e se sigue que (X + Y )/2 tambi´en posee la densidad de Cauchy? 22.- Extienda el resultado del Ejercicio 21 probando que si X1 , X2 , . . . , Xn son variables aleatorias independientes cada una con densidad de Cauchy, entonces (X1 +· · ·+Xn )/n tambi´en tiene densidad de Cauchy. 23.- Para λ > 0 sea Xλ una variable aleatoria con la distribuci´on de Poisson con par´ametro λ. (a) Utilize argumentos similares a aquellos utilizados en demostrar el Teorema del L´ımite Central para probar que para −∞ < t < ∞, l´ım Eeit(Xλ −λ)/

λ→∞



λ

= l´ım exp [λ(eit/ λ→∞



√ λ−1−it/ λ

2 /2

)] = e−t

.

(b) ¿Qu´e conclusi´on se deber´ıa seguir de (a) con una apropiada modificaci´on al Teorema de Continuidad?

200

Cap´ıtulo 9

Caminatas aleatorias y Procesos de Poisson En este cap´ıtulo discutiremos dos ejemplos elementales pero importantes de procesos estoc´ asticos. Un proceso estoc´ astico se puede definir como cualquier colecci´on de variables aleatorias. Frecuentemente, sin embargo, al referirse a un proceso estoc´astico tenemos en mente un proceso que tiene suficiente estructura adicional de tal manera que se puedan obtener resultados u ´tiles e interesantes. Ciertamente esto ocurre en los dos ejemplos analizados en este cap´ıtulo. El material de nuestro segundo ejemplo, Procesos de Poisson, no depende de las primeras dos secciones, en las cuales discutimos caminatas aleatorias.

9.1.

Caminatas aleatorias

Considere una sucesi´on de juegos de tal forma que durante el n-´esimo juego se observ´ o una variable aleatorias Xn y todo jugador que se encuentre jugando el n-´esimo juego recibe “de la casa” la cantidad Xn (por supuesto, si Xn < 0 el jugador debe pagar −Xn a la casa). Sigamos el progreso de un jugador que comienza con un capital inicial x. Sea Sn , n ≥ 0 que denote su capital despu´es de n juegos. entonces S0 = x y Sn = x + X 1 + · · · + X n ,

n ≥ 1.

La colecci´on de variables aleatorias S0 , S1 , . . . es un ejemplo de un proceso estoc´astico. Para obtener resultados interesantes asumiremos que las variables aleatorias X1 , X2 , . . . son independientes y que se encuentran distribuidas id´enticamente. Bajo esta suposici´on el proceso S0 , S1 , . . . se llama una caminata aleatoria. Tambi´en asumiremos que las variables Xk0 s tienen esperanza finita µ. Si un jugador participa en los primeros n juegos, su capital esperado al concluir el n-´esimo juego es (9.1)

ESn = x + nµ.

Suponga,sin embargo, que el jugador elige n´ umeros a ≤ x y b ≥ x y hace un trato con ´el mismo de dejar de jugar cuando su capital no sea mayor que a o menor que b. As´ı el n´ umero de veces T que jugar´a en el juego es una variable aleatoria definida por T = min (n ≥ 0|Sn ≤ 1 o Sn ≥ b). Para poder garantizar que Sn ≤ a o Sn ≥ b para alg´ un n, asumimos que (9.2)

P (Xk = 0) < 1. 201

9. Caminatas aleatorias y Procesos de Poisson

9.1. Caminatas aleatorias

Se puede demostrar que la variable aleatoria T es finita (con probabilidad 1) y, de hecho, P (T > n) decrece exponencialmente cuando n → ∞. Esto quiere decir que para alguna constante positiva M y c < 1, (9.3)

P (T > n) < M cn ,

n = 0, 1, 2, . . . .

La prueba de (9.3) no es dif´ıcil pero ser´a omitida para dar cabida a resultados de mucho mayor inter´es. De (3.3) y del Teorema 5 del Cap´ıtulo 4, se sigue que ET y todos los momentos de orden superior de T son finitos.

ST=9 b=8 Sn x=4 a=0

T=10

n

Figura 1 Si el jugador deja de participar despu´es del T -´esimo juego, su capital ser´a ST (V´ease la figura 9). Una identidad famosa debida a Abraham Wald relaciona el capital esperado cuando el jugador deja de jugar con el n´ umero esperado de veces que ´el juega. espec´ıficamente, la identidad de Wald afirma que (9.4)

EST = x + µET.

La identidad de Wald es sumamente similar a (9.1). Para probar la identidad de Wald es conveniente introducir una nueva notaci´on. Sea A un evento. Por 1A designamos a la variable indicadora de A, esto es, 1 si ocurre A y 0 si A no ocurre. Por definici´on 1A + 1Ac = 1. Utilizando esta notaci´on podemos escribir ST = x +

T X

Xj = x +∞ j=1 Xj 1{T ≥j} .

j=1

Ya que el complemento del evento {T ≥ j} es el evento {T < j}, vemos que (9.5)

ST = x +

∞ X

Xj (1 − 1{T
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF