Inferencia Estadística Ms. Carlos López de Castilla Vásquez1 20 de enero de 2012
1 Si
tienes comentarios
[email protected]
envíalos
al
siguiente
correo
electrónico:
Índice general 1. Teoría de la probabilidad 1.1. Teoría de conjuntos . . . . . . . . . . . . . . 1.2. Fundamentos de la teoría de la probabilidad 1.2.1. Axiomas de la probabilidad . . . . . 1.2.2. Cálculo de probabilidades . . . . . . 1.2.3. Conteo . . . . . . . . . . . . . . . . . 1.2.4. Puntos igualmente probables . . . . . 1.3. Probabilidad condicional e independencia . . 1.4. Variables aleatorias . . . . . . . . . . . . . . 1.5. Función de distribución acumulada . . . . . 1.6. Función de probabilidad y densidad . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
1 1 4 4 4 5 7 7 8 8 9
2. Transformaciones y esperanza 2.1. Transformaciones para variables aleatorias . 2.1.1. Caso discreto . . . . . . . . . . . . . 2.1.2. Caso continuo . . . . . . . . . . . . . 2.2. Valores esperados . . . . . . . . . . . . . . . 2.3. Momentos y función generatriz de momentos 2.4. Derivación bajo el signo de la integral . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
10 10 11 11 16 19 26
3. Familias de distribuciones 3.1. Distribuciones discretas . . . . . . . . . . . 3.2. Distribuciones continuas . . . . . . . . . . 3.3. Familias exponenciales . . . . . . . . . . . 3.4. Familias de locación y escala . . . . . . . . 3.5. Desigualdades e identidades . . . . . . . . 3.5.1. Desigualdades para probabilidades 3.5.2. Identidades . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
31 31 36 42 46 48 48 48
i
. . . . . . .
ÍNDICE GENERAL 4. Variables aleatorias múltiples 4.1. Distribución conjunta y marginal . . . . . . 4.2. Distribuciones condicionales e independencia 4.3. Transformaciones bivariadas . . . . . . . . . 4.3.1. Caso discreto . . . . . . . . . . . . . 4.3.2. Caso continuo . . . . . . . . . . . . . 4.4. Modelos jerárquicos y distribuciones mixtas 4.5. Covarianza y correlación . . . . . . . . . . . 4.6. Distribuciones multivariadas . . . . . . . . . 4.7. Transformaciones sobre un vector aleatorio . 4.8. Desigualdades . . . . . . . . . . . . . . . . . 4.8.1. Desigualdades numéricas . . . . . . .
ii
. . . . . . . . . . .
49 49 54 61 61 62 66 71 75 80 81 81
5. Propiedades en una muestra aleatoria 5.1. Conceptos básicos sobre muestras aleatorias . . . . . . . . . . 5.2. Sumas de variables aleatorias a partir de una muestra aleatoria 5.3. Muestreo desde la distribución Normal . . . . . . . . . . . . . 5.3.1. Propiedades de la media y variancia muestral . . . . . 5.3.2. Distribuciones derivadas: t de Student y F de Snedecor 5.4. Estadísticas de orden . . . . . . . . . . . . . . . . . . . . . . 5.5. Conceptos de convergencia . . . . . . . . . . . . . . . . . . . . 5.5.1. Convergencia en probabilidad . . . . . . . . . . . . . . 5.5.2. Convergencia casi segura . . . . . . . . . . . . . . . . . 5.5.3. Convergencia en distribución . . . . . . . . . . . . . .
83 83 84 88 88 89 90 94 94 95 96
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
6. Principios de reducción de la data 6.1. Introducción . . . . . . . . . . . . . . . . . . . . 6.2. El principio de suficiencia . . . . . . . . . . . . 6.2.1. Estadística suficiente . . . . . . . . . . . 6.2.2. Estadística minimal suficiente . . . . . . 6.2.3. Estadística ancillar . . . . . . . . . . . . 6.2.4. Estadística suficiente, ancillar y completa
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
100 . 100 . 100 . 101 . 104 . 105 . 106
7. Estimación puntual 7.1. Introducción . . . . . . . . . . . . . . . . . 7.2. Métodos para encontrar estimadores . . . . 7.2.1. Métodos de momentos . . . . . . . . 7.2.2. Estimadores de máxima verosimilitud
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
108 108 108 108 110
ÍNDICE GENERAL
iii
7.3. Métodos de evaluación de estimadores . . . . . . . . . . . . . 112 7.3.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . 112 7.3.2. Mejores estimadores insesgados . . . . . . . . . . . . . 114 7.3.3. Suficiencia e insesgabilidad . . . . . . . . . . . . . . . . 117 7.3.4. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 119 7.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . . . . 121 7.4.1. Variancia asintótica de los estimadores de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.4.2. Aproximación por series de Taylor . . . . . . . . . . . 121 8. Prueba de hipótesis 123 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 8.2. Métodos para encontrar pruebas . . . . . . . . . . . . . . . . . 124 8.2.1. Prueba de razón de verosimilitud . . . . . . . . . . . . 124 8.3. Métodos para evaluar pruebas . . . . . . . . . . . . . . . . . . 125 8.3.1. Probabilidades de error y potencia de prueba . . . . . . 125 8.4. Pruebas óptimas para hipótesis compuestas . . . . . . . . . . 126 8.4.1. Familias exponenciales . . . . . . . . . . . . . . . . . . 126 8.4.2. Familias con la propiedad de razón de verosimilitud monótona . . . . . . . . . . . . . . . . . . . . . . . . . 127 8.4.3. Distribución asintótica de la prueba de razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 9. Estimación por intervalos 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Métodos para encontrar estimadores de intervalos . . . . 9.2.1. Invirtiendo una prueba estadística . . . . . . . . . 9.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . 9.2.3. Garantizado un invervalo . . . . . . . . . . . . . . 9.3. Métodos de evaluación de estimadores por intervalos . . 9.3.1. Tamaño y probabilidad de cobertura . . . . . . . 9.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . 9.4.1. Intervalos aproximados por máxima verosimilitud 9.4.2. Otros intervalos aproximados . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
130 . 130 . 131 . 131 . 133 . 134 . 136 . 136 . 137 . 137 . 138
Capítulo 1 Teoría de la probabilidad 1.1.
Teoría de conjuntos
Definición 1.1.1 El conjunto S de todos los posibles resultados de un experimento aleatorio es llamado el espacio muestral. Un espacio muestral puede ser numerable o no numerable. Si los elementos del espacio muestral pueden ser puestos en correspondencia 1-1 con algún subconjunto de los números enteros entonces se dice que es numerable, de otro modo el espacio muestral es no numerable. Definición 1.1.2 Un evento es cualquier colección de posibles resultados de un experimento aleatorio, es decir cualquier subconjunto de S (incluyéndolo). Sean A y B eventos definidos en S: A⊂B⇔x∈A⇒x∈B A=B⇔A⊂B y B⊂A La unión de A y B, definida como A ∪ B, es el evento formado por los elementos de S que pertenecen por lo menos a uno de los eventos. A ∪ B = {x : x ∈ A o x ∈ B} La intersección de A y B, definida como A ∩ B, es el evento formado por los elementos de S que pertenecen a ambos eventos. 1
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
2
A ∩ B = {x : x ∈ A y x ∈ B} El complemento de A, definido como Ac , es el evento formado por los elementos de S que no pertenecen a A. Ac = {x : x ∈ / A} Ejemplo 1.1.1 Considere el experimento que consiste en elegir al azar una carta de una baraja. Si se está interesado en la figura obtenida en la carta el espacio muestral es: S = {♣, ♦, ♥, ♠} Algunos posibles eventos son: A = {♣, ♦} y B = {♦, ♥, ♠} A partir de estos eventos se pueden formar: A ∪ B = {♣, ♦, ♥, ♠, }, A ∩ B = {♦} y Ac = {♥, ♠} Además, notar que A ∪ B = S y (A ∪ B)c = φ, que denota el conjunto vacío. Teorema 1.1.1 Sean A, B y C eventos definidos en un espacio muestral S, a. Conmutatividad: A∪B =B∪A A∩B =B∩A b. Asociatividad: A ∪ (B ∪ C) = (A ∪ B) ∪ C A ∩ (B ∩ C) = (A ∩ B) ∩ C c. Leyes distributivas: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
3
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD d. Leyes de DeMorgan: (A ∪ B)c = Ac ∩ B c (A ∩ B)c = Ac ∪ B c
Las operaciones de unión e intersección pueden ser extendidas hacia colecciones infinitas de eventos. Si A1 , A2 , . . . es una colección infinita de eventos definidos sobre un espacio muestral S, entonces ∞ [
Ai = {x ∈ S : x ∈ Ai para algún i}
i=1 ∞ \
Ai = {x ∈ S : x ∈ Ai para todo i}
i=1
Ejemplo 1.1.2 Sea S = (0, 1] y se define Ai = [(1/i) , 1]. Entonces T (0, 1] y ∞ i=1 Ai = {1}.
S∞
i=1
Ai =
También es posible definir uniones e intersecciones sobre una colección no numerable de eventos. Si Γ es un conjunto de índices, entonces [
Aα = {x ∈ S : x ∈ Aα para algún α}
α∈Γ
\
Aα = {x ∈ S : x ∈ Aα para todo α}
α∈Γ
Ejemplo 1.1.3 Si se toma Γ = {Todos los números reales positivos} y Aa = S (0, a] entonces α∈Γ Aα = (0, ∞) es una unión no numerable. Definición 1.1.3 Dos eventos A y B son disjuntos (o mutumente excluyentes) si A ∩ B = φ. Los eventos A1 , A2 , . . . son disjuntos por pares si Ai ∩ Aj = φ para todo i 6= j. Ejemplo 1.1.4 La colección Ai = [i, i + 1), i = 0, 1, . . . consiste de eventos S disjuntos por pares. Notar también que ∞ i=0 Ai = [0, ∞). Definición 1.1.4 Si A1 , A2 , . . . son disjuntos por pares y tonces la colección A1 , A2 , . . . forma una partición de S.
S∞
i=1
Ai = S en-
Ejemplo 1.1.5 Los eventos Ai = [i, i + 1) foman una partición de S = [0, ∞) para i = 0, 1, . . . .
4
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
1.2. 1.2.1.
Fundamentos de la teoría de la probabilidad Axiomas de la probabilidad
Para cada evento A definido en el espacio muestral S es posible asociarle un número entre cero y uno llamado la probabilidad de A y denotado por Pr (A). Definición 1.2.1 Una colección de subconjuntos de S es llamada un sigma álgebra (o conjunto de Borel), denotada por B, si satisface las siguientes propiedades: 1. φ ∈ B (el conjunto vacío es un elemento de B). 2. Si A ∈ B entonces Ac ∈ B (B es cerrado bajo complementos). 3. Si A1 , A2 , . . . ∈ B entonces numerables).
S∞
i=1
Ai ∈ B (B es cerrado bajo uniones
Definición 1.2.2 Dado un espacio muestral S y un sigma álgebra asociado B, una función de probabilidad es una función Pr con dominio en B que satisface: 1. Pr (A) ≥ 0 para todo A ∈ B. 2. Pr (S) = 1. S∞
3. Si A1 , A2 , . . . ∈ B son eventos disjuntos por pares, entonces Pr ( P∞ i=1 Pr (Ai ).
1.2.2.
i=1
Ai ) =
Cálculo de probabilidades
Teorema 1.2.1 Si Pr es una función de probabilidad y A es cualquier evento en B, entonces: a. Pr (φ) = 0 , donde φ es el conjunto vacío. b. Pr (A) ≤ 1. c. Pr (Ac ) = 1 − Pr (A).
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
5
Teorema 1.2.2 Si Pr es una función de probabilidad, A y B son eventos en B, entonces: a. Pr (B ∩ Ac ) = Pr (B) − Pr (A ∩ B). b. Pr (A ∪ B) = Pr (A) + Pr (B) − Pr (A ∩ B). c. Si A ⊂ B entonces Pr (A) ≤ Pr (B). Teorema 1.2.3 Si Pr es una función de probabilidad, entonces: a. Pr (A) =
P∞
i=1
Pr (A ∩ Ci ) para cualquier partición C1 , C2 , . . .
∞ b. Pr (∪∞ i=1 Pr (Ai ) para eventos cualesquiera A1 , A2 , . . . (Dei=1 Ai ) ≤ sigualdad de Boole’s).
P
1.2.3.
Conteo
Ejemplo 1.2.1 La Tinka es una modalidad de juego de lotería electrónica que consiste en la extracción de seis bolillas sin reemplazo desde un bolillero cerrado que contiene cuarenta y cinco bolillas numeradas del 1 al 45. Para calcular la probabilidad de ganar en este juego es necesario saber cuantos grupos diferentes de seis números pueden escogerse a partir de los cuarenta y cinco. Ejemplo 1.2.2 En un torneo de eliminación simple, como el torneo abierto de tenis, los participantes avanzan hacia la final solo si ganan. Si se tienen 16 participantes se podría estar interesados en la secuencia de oponentes que debe enfrentar un participante para llegar a la final del torneo. Teorema 1.2.4 Si un trabajo consistente en k actividades separadas, la i−ésima operación puede realizarse de ni formas, i = 1, 2, · · · , k, entonces el trabajo completo puede realizarse de n1 × n2 × · · · × nk formas. Definición 1.2.3 Para un entero positivo n, el factorial de n, denotado por n!, es el producto de todos los enteros positivos menores o iguales a n. Es decir: n! = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1 Además, se define 0! = 1.
6
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
Definición 1.2.4 Para dos enteros no negativos n y r, n ≥ r, se define el símbolo nr como: ! n n! = r r! (n − r)! Para saber el número total de jugadas necesarias para ganar el juego de la Tinka podrían considerarse las siguientes posibilidades: 1. Sin reemplazo y considerando que el orden es importante. Usando el teorema 1.2.4 el primer número puede ser elegido de 45 formas, el segundo de 44, etc. Es decir, existen: 45 × 44 × 43 × 42 × 41 × 40 = 5864443200 posibles jugadas. 2. Con reemplazo y considerando que el orden es importante. Como cada número puede ser elegido de 45 formas, existen: 45 × 45 × 45 × 45 × 45 × 45 = 456 = 8303765625 posibles jugadas. 3. Sin reemplazo y considerando que el orden no es importante. Luego de hallar el número de jugadas considerando que el orden es importante hay que dividir el resultado entre las jugadas redundantes. Nuevamente por el teorema 1.2.4 seis números pueden ser dispuestos de 6 × 5 × 4 × 3 × 2 × 1 formas, luego el número total de jugadas es: 45! 45 × 44 × 43 × 42 × 41 × 40 = = 8145060 6×5×4×3×2×1 6!39! 4. Con reemplazo y considerando que el orden no es importante. Para realizar el proceso de conteo en este caso se puede considerar que hay 45 casilleros para los números en los que hay que colocar 6 bolillas, digamos B, tal como se muestra a continuación: Tabla 1.1: 45 casilleros y 6 bolillas B 1
2
BB 3
B 4
5
··· ···
42
B 43
B 44
45
7
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
El número de jugadas posibles es igual al número de formas en que pueden colocarse las 6 bolillas en los 45 casilleros. El trabajo puede resultar menos complicado si consideramos la disposición de las bolillas y las paredes de las cajas sin tomar en cuenta la de los extremos. Luego debe contarse el número total de arreglos de 46 paredes y 6 bolillas. Se tienen 52 objetos que pueden disponerse de 52! formas y para eliminar los ordenamientos redundantes luego hay que dividir entre 6! y 46! dando un total de: 52! = 20358520 6!46! Las cuatro situaciones anteriores se resumen a continuación: Tabla 1.2: Número de posibles arreglos de tamaño r a partir de n objetos Sin reemplazo El orden es importante El orden no es importante
1.2.4.
n! (n−r)! n r
Con reemplazo nr
n+r−1 r
Puntos igualmente probables
Suponga que S = {s1 , · · · , sN } es un espacio muestral finito. Se dice que los puntos en S son igualmente probables si Pr ({si }) = N1 , para todo punto si . Luego, usando (3) de la definición de probabilidad, se tiene que para todo evento A: X 1 Número de elementos en A Pr (A) = = Número de elementos en S si ∈A N
1.3.
Probabilidad condicional e independencia
Definición 1.3.1 Si A y B son eventos en S y Pr (B) > 0, entonces la probabilidad condicional de A dado B, representada por Pr (A|B), es: Pr (A|B) =
Pr (A ∩ B) Pr (B)
(1.3.1)
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
8
Teorema 1.3.1 (Regla de Bayes) Sean A1 , A2 , · · · una partición del espacio muestral S y sea B un evento definido también en S. Entonces, para cada i = 1, 2, · · · Pr (B|Ai ) Pr (Ai ) Pr (Ai |B) = P ∞ Pr (B|Aj ) Pr (Aj ) j=1
Definición 1.3.2 Dos eventos A y B son estadísticamente independientes si: Pr (A ∩ B) = Pr (A) Pr (B) (1.3.2) Teorema 1.3.2 Si A y B son eventos independientes, entonces los siguientes pares también lo son: a. A y B c . b. Ac y B. c. Ac y B c . Definición 1.3.3 Una colección de eventos A1 , · · · , An son mutuamente independientes si para cualquier subcolección Ai1 , · · · , Aik se tiene: Pr
k \ i=1
1.4.
!
Aij
=
k Y
Pr(Aij )
j=1
Variables aleatorias
Definición 1.4.1 Una variable aleatoria es una función que se define desde un espacio muestral S hacia los números reales.
1.5.
Función de distribución acumulada
Definición 1.5.1 La función de distribución acumulada de una variable aleatoria X, denotada por FX (x), se define por: FX (x) = Pr (X ≤ x) , para todo x
9
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
Teorema 1.5.1 La función FX (x) es una función de distribución acumulada si y solo si se cumplen las tres condiciones siguientes: a. l´ım F (x) = 0 y l´ım F (x) = 1. x→−∞
x→∞
b. F (x) es una función no decreciente de x. c. F (x) es contínua hacia la derecha; esto es, para todo número x0 , l´ım F (x) = F (x0 ). x↓x0
Definición 1.5.2 Una variable aleatoria X es contínua si FX (x) es una función contínua de x. Una variable aleatoria X es discreta si FX (x) es una función paso de x. Definición 1.5.3 Las variables aleatorias X y Y son identicamente distribuidas si para cada evento A ∈ B, Pr (X ∈ A) = Pr (Y ∈ A). Teorema 1.5.2 Las dos afirmaciones siguientes son equivalentes: a. Las variables aleatorias X y Y son identicamente distribuidas. b. FX (x) = FY (x), para todo x.
1.6.
Función de probabilidad y densidad
Definición 1.6.1 La función de probabilidad de una variable aleatoria discreta X esta dada por: fX (x) = Pr (X = x) , para todo x Definición 1.6.2 La función de densidad, fX (x) , de una variable aleatoria contínua X es la función que satisface: ˆx FX (x) = fX (t) dt, para todo x −∞
Teorema 1.6.1 Una función fX (x) es una función de probabilidad o función de densidad para una variable aleatoria X si y solo si: a. fX (x) ≥ 0 para todo x. b.
P
fX (x) = 1 si X es variable aleatoria discreta y si X es variable aleatoria contínua. x
´∞ −∞
fX (x) dx = 1
Capítulo 2 Transformaciones y esperanza 2.1.
Transformaciones para variables aleatorias
Si X es una variable aleatoria con función de distribución acumulada FX (x), entonces cualquier función de X es también una variable aleatoria. Si se define Y = g(X) es posible describir el comportamiento probabilistico de Y en términos de X. Formalmente, y = g(x) define un mapa desde el espacio muestral de X , X , al espacio muestral de Y , Y. Es decir: g (x) : X −→ Y Se asocia a g un mapa inverso, denotado por g −1 , definido por: g −1 (A) = {x ∈ X : g (x) ∈ A}
(2.1.1)
g −1 (A) es el conjunto de puntos en X tal que g (x) pertenece al conjunto A. Si el conjunto A es unitario, digamos A = {y}, entonces: g −1 ({y}) = {x ∈ X : g (x) = y} En este caso podria escribirse g −1 (y) en lugar de g −1 ({y}). Si existe un único x tal que g (x) = y, entonces g −1 (y) es el conjunto unitario {x} y además g −1 (y) = x. Si se define Y = g (X), entonces para cualquier conjunto A ⊂ Y: 10
11
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
Pr (Y ∈ A) = Pr (g (X) ∈ A) = Pr ({x ∈ X : g (x) ∈ A})
(2.1.2)
= Pr X ∈ g −1 (A)
2.1.1.
Caso discreto
Si X es una variable aleatoria discreta entonces X es numerable. El espacio muestral para Y = g(X) es Y = {y : y = g (x) , x ∈ X } el cual también es un conjunto numerable. Usando la ecuación 2.1.2 la función de probabilidad de Y es: fY (y) = Pr (Y = y) =
X
Pr (X = x) =
x∈g −1 (y)
X
fX (x)
x∈g −1 (y)
Ejemplo 2.1.1 Sea X ∼ BI (n, p) cuya función de probabilidad es: !
n x fX (x) = Pr (X = x) = p (1 − p)n−x , x
(2.1.3)
para x = 0, 1, · · · , n y 0 ≤ p ≤ 1. Considere la variable aleatoria Y = g (X) = n − X, entonces X = {0, 1, · · · , n} y Y = {0, 1, · · · , n}. Luego g −1 (y) es el conjunto unitario x = n − y, tal que: X
fY (y) =
fX (x)
x∈g −1 (y)
= fX (n − y) ! n = pn−y (1 − p)n−(n−y) n−y ! n = (1 − p)y pn−y y es decir, Y ∼ BI (n, 1 − p).
2.1.2.
Caso continuo
Si X y Y = g (X) son variables aleatorias continuas es posible encontrar fórmulas para obtener la función de distribución acumulada y la función de densidad de Y en términos de FX , fX y la función g.
12
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA La función de distribución acumulada de Y = g (X) es: FY (y) = Pr (Y ≤ y) = Pr (g (X) ≤ y) = Pr ({x ∈ X : g (x) ≤ y}) ˆ = fX (x) dx
(2.1.4)
{x∈X :g(x)≤y}
Suelen existir algunas dificultades en identificar {x ∈ X : g (x) ≤ y} y llevar a cabo el proceso de integración de fX (x) sobre esta región. Suele ser conveniente utilizar: X = {x : fX (x) > 0} y Y = {y : y = g (x) para algún x ∈ X }
(2.1.5)
La función de densidad de la variable aleatoria X es positiva solo sobre X llamado el conjunto soporte de la distribución. Esta terminología también es aplicable a una función de probabilidad. Es sencillo trabajar con funciones g (x) que son monótonas, es decir, aquellas que satisfacen alguna de las siguientes relaciones: u > v ⇒ g (u) > g (v) (creciente) o u < v ⇒ g (u) > g (v) (decreciente) Si la transformación x → g (x) es monótona entonces es uno a uno y sobreyectiva. La transformación es uno a uno si cada x permite obtener un único y y cada y se obtiene con a lo más un x. La transformación es sobreyectiva si para cada y ∈ Y, definido en 2.1.5, existe un x ∈ X tal que g (x) = y. Si g es monótona, entonces g −1 es unitario; es decir, g −1 (y) = x si y solo si y = g (x). Si g es creciente, esto implica que: {x ∈ X : g (x) ≤ y} =
n
=
n
o
x ∈ X : g −1 (g (x)) ≤ g −1 (y) x ∈ X : x ≤ g −1 (y)
o
(2.1.6)
y usando 2.1.4, se tiene que: ˆ FY (y) =
−1 (y) gˆ
{x∈X :x≤g −1 (y)}
fX (x) dx = FX g −1 (y)
fX (x) dx = −∞
13
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA Si g es decreciente, entonces: {x ∈ X : g (x) ≤ y} =
n
=
n
o
x ∈ X : g −1 (g (x)) ≥ g −1 (y) x ∈ X : x ≥ g −1 (y)
o
(2.1.7)
se tiene que: ˆ∞
fX (x) dx = 1 − FX g −1 (y)
FY (y) = g −1 (y)
Se resumen los resultados anteriores en el siguiente teorema. Teorema 2.1.1 Sea X una variable aleatoria con función de distribución acumulada FX (x). Se define Y = g (X) y los espacios muestrales X y Y según 2.1.5. a. Si g es una función creciente sobre X , entonces FY (y) = FX (g −1 (y)) para y ∈ Y. b. Si g es una función decreciente sobre X y X es una variable aleatoria continua, entonces FY (y) = 1 − FX (g −1 (y)) para y ∈ Y. Ejemplo 2.1.2 Suponga que X tiene función de densidad f (x) = 1 si 0 < x < 1, luego FX (x) = x. Si se realiza la transformación Y = g (X) = − log X, entonces g (x) es una función decreciente y Y = (0, ∞). Para y > 0, y = − log x implica x = g −1 (y) = e−y , luego:
FY (y) = 1 − FX g −1 (y) = 1 − FX e−y = 1 − e−y además FY (y) = 0 para y ≤ 0. La función de densidad de Y puede obtenerse derivando su función de distribución acumulada. La expresión resultante se presenta en el siguiente teorema. Teorema 2.1.2 Sea X con función de densidad fX (x) y sea Y = g (X), donde g es una función monótona. Sean X y Y tal como se definieron en 2.1.5. Suponga que fX (x) es continua sobre X y que g −1 (y) tiene una derivada continua sobre Y. Entonces la función de densidad de Y es: f
fY (y) =
d −1 −1 g (y) y ∈ Y (y)) dy X (g
0
de otro modo
(2.1.8)
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
14
Demostración: Usando el teorema 2.1.1 y la regla de la cadena se tiene:
f (g −1 (y)) d g −1 (y) si g es creciente d X dy fY (y) = FY (y) = d −1 −1 dy −fX (g (y)) dy g (y) si g es decreciente
Ejemplo 2.1.3 Sea fX (x) la función de densidad gamma: fX (x) =
1 xn−1 e−x/β , 0 < x < ∞ (n − 1)!β n
donde β > 0 y n es un entero positivo. Suponga que se desea encontrar la función de densidad de g (X) = 1/X. Notar que X = Y = (0, ∞). Si d −1 g (y) = −1/y 2 . Aplicando el teorema y = g (x), entonces g −1 (y) = 1/y y dy anterior:
fY (y) = fX g
−1
d −1 (y) g (y) dy !n−1
1 (n − 1)!β n
1 y
1 = (n − 1)!β n
1 y
=
e−1/(βy)
1 y2
!n+1
e−1/(βy)
se obtiene un caso especial de una función de densidad conocida como gamma inversa. En muchas aplicaciones la función g podría no ser creciente ni decreciente, por consiguiente no prodrian aplicarse los resultados anteriores. Sin embargo es común el caso en el que la función g es monótona sobre ciertos subintervalos, los que permiten obtener una expresión para Y = g (X). Ejemplo 2.1.4 Suponga que X es una variable aleatoria continua. La función de distribución acumulada de Y = X 2 , para y > 0, es: √ √ FY (y) = Pr (Y ≤ y) = Pr X 2 ≤ y = Pr (− y ≤ X ≤ y) Como X es variable aleatoria continua se tiene: √ √ FY (y) = Pr (− y < X ≤ y) √ √ = Pr (X ≤ y) − Pr (X ≤ − y) √ √ = FX ( y) − FX (− y)
15
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
La función de densidad de Y puede obtenerse derivando su función de distribución acumulada: d FY (y) dy d √ √ = [FX ( y) − FX (− y)] dy √ √ y usando la regla de la cadena para derivar FX ( y) y FX (− y) se tiene: fY (y) =
1 1 √ √ fY (y) = √ fX ( y) + √ fX (− y) 2 y 2 y
(2.1.9)
Notar que la función de densidad anterior esta expresada como la suma de dos componentes sobre los intervalos donde g (x) = x2 es monótona. Teorema 2.1.3 Sea X con función de densidad fX (x), Y = g (X) y el espacio muestral X definido en 2.1.5. Suponga que existe una partición A0 , A1 , · · · , Ak de X tal que Pr (X ∈ A0 ) = 0 y fX (x) es continua sobre cada Ai . Suponga además que existen funciones g1 (x) , · · · , gk (x) definidas sobre A1 , · · · , Ak respectivamente, que satisfacen: a. g (x) = gi (x) para x ∈ Ai , b. gi (x) es monótona sobre Ai , c. El conjunto Y = {y : y = gi (x) para algún x ∈ Ai } es el mismo para cada i = 1, · · · , k . d. gi−1 (y) tiene una derivada continua en Y, para cada i = 1, · · · , k . Entonces:
P k
fY (y) =
−1 d −1 i=1 fX gi (y) dy gi (y) y ∈ Y
0
de otro modo
Es importante notar que cada gi (x) es una transformación uno a uno desde Ai hacia Y. Además, gi−1 (y) es una función uno a uno desde Y hacia Ai , tal que, para y ∈ Y, gi−1 (y) permite obtener un único x = gi−1 (y) ∈ Ai para el cual gi (x) = y.
16
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA Ejemplo 2.1.5 Sea X con distribución normal estándar, 1 2 fX (x) = √ e−x /2 , −∞ < x < ∞ 2π
Si Y = X 2 , la función g (x) = x2 es monótona sobre (−∞, 0) y (0, ∞) con lo que Y = (0, ∞). Aplicando el teorema 2.1.3 se tiene A0 = {0} y √ A1 = (−∞, 0) g1 (x) = x2 g1−1 (y) = − y √ A2 = (0, ∞) g2 (x) = x2 g2−1 (y) = y La función de densidad de Y es:
√ 2 √ 2 1 1 1 1 fY (y) = √ e−(− y) /2 − √ + √ e−( y) /2 √ 2 y 2 y 2π 2π 1 1 = √ √ e−y/2 , 0 < y < ∞ 2π y
la cual es conocida como la distribución chi cuadrado con 1 grado de libertad. Teorema 2.1.4 Sea X cuya función de distribución acumulada, FX (x), es continua. Si se define la variable aleatoria Y = FX (x), entonces Y tiene distribución uniforme en el intervalo (0, 1). Demostración: Si Y = FX (x) entonces 0 < y < 1, Pr (Y ≤ y) = Pr (FX (X) ≤ y)
= Pr FX−1 [FX (X)] ≤ FX−1 (y)
= Pr X ≤ FX−1 (y)
= FX FX−1 (y) = y
2.2.
Valores esperados
Definición 2.2.1 El valor esperado o media de una variable aleatoria g (X), denotado por E [g (X)], es: E [g (X)] =
P
g (x) fX (x) si X es discreta g (x) fX (x) dx si X es continua −∞
´ ∞
x∈X
(2.2.1)
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
17
siempre que la integral o suma exista. Si E [|g (X)|] = ∞ se dice que E [g (X)] no existe. Ejemplo 2.2.1 Suponga que X ∼ E (λ) , entonces su función de densidad es: 1 fX (x) = e−x/λ λ para 0 ≤ x < ∞ y λ > 0. Luego: ˆ∞ E [X] =
1 x e−x/λ dx = λ λ
0
Ejemplo 2.2.2 Si X ∼ BI (n, p), entonces: n X n x n x x p (1 − p)n−x x p (1 − p)n−x = E [X] = x x x=1 x=0 n X
!
!
Usando la identidad x
n x
=n
n−1 x−1
se tiene:
n X
!
n−1 X
!
n−1 x n p (1 − p)n−x E [X] = x − 1 x=1 n − 1 y+1 n p (1 − p)n−(y+1) = y y=0 = np
n−1 X y=0
!
n−1 y p (1 − p)n−1−y y
= np Ejemplo 2.2.3 Un ejemplo clásico de una variable aleatoria cuyo valor esperado no existe corresponde a la distribución de Cauchy cuya función de densidad es: 1 1 fX (x) = , −∞ < x < ∞ π 1 + x2 ´∞ Es fácil verificar que −∞ fX (x) dx = 1, pero con respecto a su valor esperado: ˆ ˆ ∞ |x| 1 2 ∞ x E [|X|] = dx = dx 2 π 0 1 + x2 −∞ π 1 + x
18
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA Para cualquier número positivo M , ˆ M M x 1 1 2 2 = log 1 + x log 1 + M dx = 1 + x2 2 2 0 0 Luego, 2 E [|X|] = l´ım M →∞ π
ˆ 0
M
x 1 2 l´ ım log 1 + M =∞ dx = 1 + x2 π M →∞
y por consiguiente el E [X] de esta distribución no existe. Teorema 2.2.1 Sea X una variable aleatoria y sean a, b y c constantes. Entonces para funciones cualesquiera g1 (x) y g2 (x) cuyo valor esperado exista, a. E [ag1 (X) + bg2 (X) + c] = aE [g1 (X)] + bE [g2 (X)] + c. b. Si g1 (x) ≥ 0 para todo x, entonces E [g1 (X)] ≥ 0. c. Si g1 (x) ≥ g2 (x) para todo x, entonces E [g1 (X)] ≥ E [g2 (X)]. d. Si a ≤ g1 (x) ≤ b para todo x, entonces a ≤ E [g1 (X)] ≤ b. Ejemplo 2.2.4 Suponga que se mide la distancia entre una variable aleatoria X y una constante b mediante (X − b)2 . Mientras más cerca esté b de X más pequeñah sera dicha i cantidad. El objetivo es determinar el valor de b que 2 minimize E (X − b) . h
E (X − b)2
i
h
= E (X − E [X] + E [X] − b)2 h
i
= E ((X − E [X]) + (E [X] − b))2 h
i
i
h
= E (X − E [X])2 + E (E [X] − b)2
i
ya que E [(X − E [X])(E [X] − b)] = 0. Además (E [X] − b) es una constante. Luego: h
i
h
i
E (X − b)2 = E (X − E [X])2 + (E [X] − b)2 Como no se tiene control sobre el primer término del lado derecho y el segundo término puede ser mayor o igual a 0, el menor valor se obtiene cuando b = E[X]. Entonces: h
i
h
m´ın E (X − b)2 = E (X − E [X])2 b
i
19
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
2.3.
Momentos y función generatriz de momentos 0
Definición 2.3.1 Para cada entero n, el n-ésimo momento de X, µn , es: 0
µn = E [X n ] El n-ésimo momento central de X, µn , es: µn = E [(X − µ)n ] 0
donde µ = µ1 = E [X]. Definición 2.3.2 La varianza de una variable aleatoria X es su segundo momento central, Var (X) = E [(X − µ)2 ]. La raíz cuadrada positiva de la varianza es conocida como desviación estándar. Ejemplo 2.3.1 Si X ∼ E (λ), entonces: ˆ∞ h
i
Var (X) = E (X − µ)2 =
1 (x − λ)2 e−x/λ dx = λ2 λ
0
Teorema 2.3.1 Si X es una variable aleatoria con varianza finita, entonces para constantes cualesquiera a y b: Var (aX + b) = a2 Var (X) Demostración: Usando la definición de varianza: h
Var (aX + b) = E ((aX + b) − E [(aX + b)])2 h
= E (aX − aE [X])2 h
= a2 E (X − E [X])2
i
i
i
= a2 Var (X) La siguiente forma de calcular la varianza es bastante útil: h
i
Var (X) = E X 2 − E2 [X]
(2.3.1)
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
20
Ejemplo 2.3.2 Si X ∼ BI (n, p), entonces: h
E X
2
i
=
n X x=0
!
x
2
n x p (1 − p)n−x x
pero: !
x
2
n n! n−1 = xn =x x (x − 1)!(n − x)! x−1
!
luego, h
E X
2
i
n X
!
n−1 x = xn p (1 − p)n−x x − 1 x=1 n−1 X
!
n − 1 y+1 (y + 1) p (1 − p)n−1−y = n y y=0 = np(n − 1)p + np Finalmente: Var [X] = n2 p2 − np2 + np − (np)2 = np(1 − p) . Definición 2.3.3 Sea X una variable aleatoria. La función generatriz de momentos de X, denotada por MX (t), es: h
MX (t) = E etX
i
sujeto a que el valor esperado exista para t en algunah vecindad de 0. Es i decir, existe h > 0 tal que, para todo t en −h < t < h, E etX existe. Más explícitamente: P
etx fX (x) si X es discreta MX (t) = tx e fX (x) dx si X es continua −∞ ´ ∞x
Teorema 2.3.2 Si X tiene función generatríz de momentos MX (t) entonces: (1)
E [X] = MX (0) (n)
donde MX (0) =
dn MX (t) . dtn t=0
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
21
Prueba: Asumiendo que es posible intercambiar la derivada con la integral, se tiene: ˆ d d ∞ tx MX (t) = e fX (x)dx dt dt −∞ ! ˆ ∞ d tx = e fX (x)dx −∞ dt ˆ ∞ xetx fX (x)dx = −∞
h
= E XetX
h
i
i
luego dtd MX (t) = E XetX = E [X]. Trabajando de manera análot=0 t=0 ga, se puede establecer que: h i dn n tX M (t) = E X e = E [X n ] X t=0 t=0 dtn
Ejemplo 2.3.3 En el ejemplo 2.1.3 se usó un caso especial de la función de densidad gamma: f (x) =
1 xα−1 e−x/β , α Γ(α)β
0 < x < ∞, α > 0, β > 0
donde Γ(α) denota la función gamma cuyas propiedades se mencionan en la sección 3.2. La función generatriz de momentos de la distribución gamma esta dada por: ˆ ∞ 1 MX (t) = etx xα−1 e−x/β dx Γ(α)β α 0 ˆ ∞ 1 xα−1 e−x((1/β)−t) dx = Γ(α)β α 0 ˆ ∞ β 1 = xα−1 e−x/( 1−βt ) dx α Γ(α)β 0 !α 1 β = Γ(α) Γ(α)β α 1 − βt !α 1 = 1 − βt
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
22
y existe solo si t < 1/β. La media de la distribución gamma es: E [X] =
αβ d MX (t) = = αβ t=0 dt (1 − βt)α+1 t=0
Los otros momentos pueden calcularse de forma similar. Ejemplo 2.3.4 Si X ∼ BI (n, p), entonces: MX (t) = =
n X
!
e
x=0 n X
tx
n x p (1 − p)n−x x !
n (pet )x (1 − p)n−x x
x=0
= [pet + (1 − p)]n recordando que
Pn
x=0
n x
ux v n−x = (u + v)n .
Si la función generatriz de momentos existe, entonces caracteriza un conjunto infinito de momentos. La pregunta natural es si la condición anterior determina una función de distribución acumulada única. Ejemplo 2.3.5 Considere las siguientes funciones de densidad dadas por: 1 2 f1 (x) = √ e−(log x) /2 , 0≤x 0, −∞ < η2 < ∞} . Identificando, se tiene que η2 = µ/σ 2 y η1 = 1/σ 2 .
46
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
3.4.
Familias de locación y escala
En esta sección se discutirán tres técnicas para construir familias de distribuciones. Estos tipos son: familias de locación, escala y locación-escala. Cada familia se construye especificando una función de densidad simple, digamos f (x), llamada la función de densidad estándar de la familia. Luego todas las funciones de densidad en la familia se generan transformando la función de densidad estándar en la forma prescrita. Teorema 3.4.1 Sea f (x) una función de densidad y sean µ y σ > 0 constantes, entonces: 1 x−µ g(x|µ, σ) = f σ σ es una función de densidad.
Definición 3.4.1 Sea f (x) una función de densidad. Entonces la familia de funciones de densidad f (x − µ) indexada por el parámetro −∞ < µ < ∞, −∞ < µ < ∞, es llamada la familia de locación con función de densidad estándar f (x) y µ es el parámetro de locación para la familia. Ejemplo 3.4.1 Sea f (x) = e−x , x ≥ 0. Para formar la familia de locación se reemplaza x con x − µ: f (x|µ) =
e−(x−µ) 0
x − µ ≥ 0 e−(x−µ) = x − µ < 0 0
x≥µ x 0, la familia de funciones de densidad (1/σ)f (x/σ) indexada por el parámetro σ, es llamada la familia de escala con función de densidad estándar f (x) y σ es el parámetro de escala de la familia. Ejemplo 3.4.2 La distribución gamma con α fijo y la distribución normal con µ = 0 son ejemplos de familias de escala. En cada caso la función de densidad estándar se obtiene tomando el parámetro de escala igual a 1. Definición 3.4.3 Sea f (x) una función de densidad. Entonces la familia de funciones de densidad (1/σ)f ((x − µ)/σ), −∞ < µ < ∞ y σ > 0, indexada por los parámetros (µ, σ) es llamada la familia de locación-escala con función
47
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
de densidad estándar f (x), µ es el parámetro de locación y σ es el parámetro de escala. Ejemplo 3.4.3 La distribución normal y la distribución exponencial son ejemplos de familias de locación-escala. Teorema 3.4.2 Sea f (.) una función de densidad. Si µ ∈ < y σ > 0, entonces X es una variable aleatoria con función de densidad (1/σ)f ((x − µ)/σ) si y solo si existe una variable aleatoria Z con función de densidad f (z) y X = σZ + µ. Prueba: Se define z = g(x) = (x − µ)/σ entonces g −1 (z) = σz + µ y |dg −1 (z)/dz| = σ. Aplicando el teorema 2.1.1 la función de densidad de Z es:
fZ (z) = fX (g
−1
d −1 (z)) g (z) dz
!
(σz + µ) − µ σ = f (z) σ
1 = f σ
Se define x = g(z) = σz+µ entonces g −1 (x) = (x−µ)/σ, y |dg −1 (x)/dx| = 1/σ. Aplicando el teorema 2.1.1 la función de densidad de X es: fX (x) =
d fZ (g −1 (x)) g −1 (x) dx
x−µ 1 =f σ σ
Teorema 3.4.3 Sea Z una variable aleatoria con función de densidad f (z). Suponga que E[Z] y Var (Z) existen. Si X es una variable aleatoria con función de densidad (1/σ)f ((x − µ)/σ), entonces: E[X] = σE[Z] + µ y Var (X) = σ 2 Var (Z) En particular si, E[Z] = 0 y Var (Z) = 1 entonces E[X] = µ y Var (X) = 2
σ . El cálculo de una probabilidad para cualquier miembro de una familia de locación escala puede obtenerse en términos de la variable estandarizada Z ya que: x−µ x−µ X −µ ≤ = Pr Z ≤ σ σ σ El cálculo de las probabilidades para la distribución normal usando la distribución normal estándar es un claro ejemplo. Pr(X ≤ x) = Pr
48
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
3.5. 3.5.1.
Desigualdades e identidades Desigualdades para probabilidades
Teorema 3.5.1 (Desigualdad de Chebyschev) Sea X una variable aleatoria y sea g(x) una función no negativa. Entonces, para todo r > 0: Pr(g(X) ≥ r) ≤
E [g(X)] r
Ejemplo 3.5.1 Si Z tiene distribución normal estándar, entonces para todo t > 0: s 2 2 e−t /2 Pr (|Z| ≥ t) ≤ π t
3.5.2.
Identidades
Teorema 3.5.2 Sea Xα,β denota una variable aleatoria con distribución G (α, β) con función de densidad f (x/α, β), donde α > 1. Entonces para constantes cualesquiera a y b: Pr(a < Xα,β < b) = β (f (a/α, β) − f (b/α, β)) + Pr(a < Xα−1,β < b) 2 Lema 3.5.1 (Lema de Stein) Sea h i X ∼ N (θ, σ ) y sea g una función diferenciable que satisface E g / (X) < ∞, entonces:
h
i
E [g (X) (X − θ)] = σ 2 E g / (X)
Teorema 3.5.3 Sea χ2p que denota una variable aleatoria con distribución chi-cuadrado con p grados de libertad. Para toda función h (x), siempre que su valor esperado exista: h
E h χ2p
i
= pE
h χ2p+2 χ2p+2
Capítulo 4 Variables aleatorias múltiples 4.1.
Distribución conjunta y marginal
Definición 4.1.1 Un vector aleatorio n-dimensional es una función que va de un espacio muestral S a un espacio euclediano n-dimensional 1 p si p > 2 Var (Tp ) = p−2
(5.3.4)
Definición 5.3.2 Sea X1 , · · · , Xn una muestra aleatoria de una población 2 N (µX , σX ) y sea Y1 , · · · Ym una muestra aleatoria de una población inde2 2 )/(SY2 /σY2 ) tiene /σX pendiente N (µY , σY2 ). La variable aleatoria F = (SX distribución F de Snedecor con n − 1 y m − 1 grados de libertad. Equivalentemente, la variable aleatoria F tiene distribución F con p y q grados de libertad, si su función de densidad es: Γ( p+q ) fF (x) = p 2 q Γ( 2 )Γ( 2 )
p q
!p/2
x(p/2)−1 , [1 + (p/q)x](p+q)/2
0 0 (µ y σ 2 son finitos desde que la función generatriz de momentos existe). Se define Pn X n = (1/n) i=1 Xi y sea Gn (x) la función de distribución acumulada de √ n(X n − µ)/σ. Entonces para −∞ < x < ∞: ˆ x 1 2 √ e−y /2 dy l´ım Gn (x) = n→∞ 2π −∞ √ esto es, n(X n − µ)/σ tiene distribución límite normal estándar. Prueba: Se probará que para| t |< h, la función generatriz de momentos √ 2 de n(X n − µ)/σ converge hacia et /2 , la función generatriz de momentos de una variable aleatoria N(0, 1). Se define Yi = (Xi − µ)/σ y sea MY (t) la función generatriz de momentos de las Yi0 s, las cuales existen para | t |< σh. Sea W tal que: √ n 1 X n(X − µ) =√ Yi W = σ n i=1 Luego: MW (t) = M √1 Pn n
i=1
Pn Yi (t) = M
i=1
h √ √ in (t/ n) = M (t/ n) Y Yi
√ Se expande MY (t/ n) en una serie de potencias de Taylor alrededor de 0. Entonces: √ ∞ X √ (t/ n)k dk (k) (k) MY (t/ n) = MY (0) donde MY (0) = k MY (t) k! dt t=0 k=0 Como la función generatriz de momento existe para | t |< h, la expresión √ (0) en serie de potencias es válida si t < nσh. Usando el hecho que MY = 1, (1) (2) MY = 0 y MY = 1, ya que por construcción la media y varianza de Y son 0 y 1 respectivamente. Entonces: √ √ √ √ (t/ n)0 (t/ n)2 (0) (2) MY (t/ n) = MY (0) + · · · + MY (0) + RY (t/ n) 2! √ 0! √ (t/ n)2 = 1+ + RY (t/ n) 2
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
98
donde RY es el residuo en la expansión de Taylor. Una aplicación del teorema 7.4.1 de Taylor muestra que , para t 6= 0 fijo, se tiene: √ √ RY (t/ n) √ 2 = 0 entonces l´ım nRY (t/ n) = 0 l´ım n→∞ (t/ n) n→∞ Luego: # √ √ n (t/ n)2 l´ım 1 + + RY (t/ n) n→∞ 2 " !#n √ 1 t2 = l´ım 1 + + nRY (t/ n) n→∞ n 2
√ in = l´ım MY (t/ n) h
n→∞
"
y usando el lema 2.3.1 se tiene: h √ in 2 l´ım MY (t/ n) = et /2
n→∞
que es la función generatriz de momentos de la distribución N (0, 1). Teorema 5.5.5 (Forma fuerte del teorema central del límite) Sean X1 , X2 , · · · variables aleatorias independientes e identicamente distribuidas Pn con E[Xi ] = µ y Var[Xi ] = σ 2 < ∞. Se define X n = (1/n) i=1 Xi y sea √ Gn (x) la función de distribución acumulada de n(X n − µ)/σ. Entonces para −∞ < x < ∞: ˆ x 1 2 √ e−y /2 dy l´ım Gn (x) = n→∞ 2π −∞ √ esto es, n(X n − µ)/σ tiene distribución límite normal estándar. Ejemplo 5.5.4 Suponga que X1 , · · · , Xn es una muestra aleatoria de una distribución BN (r, p). Recordar que: E[X] =
r(1 − p) p
y
Var (X) =
El teorema central del límite dice que: √ n(X − r(1 − p)/p) q
r(1 − p)/p2
r(1 − p) p2
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
99
tiene distribución aproximada N (0, 1). Por ejemplo si r = 10, p = 1/2 y n = 30 entonces: Pr(X ≤ 11) = Pr
30 X
!
Xi ≤ 330
i=1 330 X
! 1 300 1 x
300 + x − 1 = x i=1 = 0,8916 ya que
2
2
Pn
Xi ∼ BN (nr, p). Usando el teorema central de límite: √ √ ! 30(X − 10) 30(11 − 10) √ √ Pr(X ≤ 11) = Pr ≤ 20 20 ∼ = Pr(Z ≤ 1,2247) ∼ = 0,8888 i=1
Teorema 5.5.6 (Teorema de Slutsky) Si Xn → X en distribución y Yn → a en probabilidad, donde a es constante, entonces: a. Yn Xn → aX en distribución. b. Xn + Yn → X + a en distribucion. Ejemplo 5.5.5 Suponga que: √ n(X n − µ) → N (0, 1) σ pero el valor de σ no se conoce. Como se vió en el ejemplo 5.5.1, si l´ımn→∞ Sn2 = 0, entonces Sn2 → σ 2 en probabilidad. Se puede probar que σ/Sn → 1 en probabilidad y según el teorema de Slutsky: √ √ σ n(X n − µ) n(X n − µ) = → N (0, 1) Sn Sn σ
Capítulo 6 Principios de reducción de la data 6.1.
Introducción
Un experimentador usa la información en una muestra X1 , · · · , Xn para realizar el proceso de inferencia sobre algun parámetro desconocido θ. Si el tamaño de muestra es grande entonces los valores observados en la muestra x1 , · · · , xn podrían ser difíciles de interpretar de forma individual. Es necesario resumir la información en la muestra para determinar algunas características de interés a través del cálculo de estadísticas como la media, la varianza, el máximo, el mínimo, la mediana, etc.
6.2.
El principio de suficiencia
Una estadística suficiente para un parámetro θ es una estadística que, de cierta forma, captura toda la informacion acerca de θ contenida en la muestra. No es posible obtener información adicional en la muestra, además del valor de la estadística suficiente. Estas consideraciones nos llevan a la técnica de reducción de datos conocida como el principio de suficiencia: “si T (X) es una estadística suficiente para θ, entonces el proceso de inferencia sobre θ depende de la muestra X solo a través del valor T (X)”.
100
101
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
6.2.1.
Estadística suficiente
Definición 6.2.1 Una estadística T (X) es una estadística suficiente para θ si la distribución de la muestra X dado el valor de T (X) no depende de θ. Teorema 6.2.1 Si f (x|θ) es la función de probabilidad o densidad conjunta de X, y q(t|θ) es la función de probabilidad o densidad de T (X), entonces T (X) es una estadística suficiente para θ si y solo si: f (x|θ) q (T (x|θ)) no depende de θ para todo X. Ejemplo 6.2.1 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según B(θ), 0 < θ < 1. Para probar que T (X) = X1 + X2 + · · · + Xn es una estadística suficiente para θ hay que recordar que P T (X) ∼ BI(n, θ). Si se define t = xi : f (x|θ) = q (T (x|θ)) =
Qn 1−xi xi i=1θ (1 − θ) n t
θ
P
xi
n t
θt (1 − θ)n−t P
(1 − θ)n−
xi
θt (1 − θ)n−t
1 = n t
entonces T (X) = X1 + X2 + · · · + Xn es una estadística suficiente para θ. Ejemplo 6.2.2 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según N (µ, σ 2 ), donde σ 2 es conocido. Se desea probar si T (X) = X es una estadística suficiente para µ, entonces: f (x|µ) =
n Y
(2πσ 2 )−1/2 exp −
i=1
= (2πσ ) = (2πσ )
= (2πσ )
)
n 1 X exp − 2 (xi − x¯)2 + n(¯ x − µ)2 2σ i=1
(
2 −n/2
)
n 1 X exp − 2 (xi − x¯ + x¯ − µ)2 2σ i=1
(
2 −n/2
n 1 X exp − 2 (xi − µ)2 2σ i=1
(
2 −n/2
1 (xi − µ)2 2σ 2
!)
102
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 2
además X ∼ N (µ, σn ), luego: f (x|θ) = q(T (x|θ))
n
o
Pn
(2πσ 2 )−n/2 exp − 2σ1 2 (
¯)2 + n(¯ x − µ)2 ) i=1 (xi − x n
n1/2 (2πσ 2 )−1/2 exp − n(¯x2σ−µ) 2
2
o
n 1 X exp − 2 (xi − x¯)2 2σ i=1
(
= n
−1/2
2 −(n−1)/2
(2πσ )
)
entonces X es una estadística suficiente para µ. Teorema 6.2.2 (Teorema de Factorización) Sea f (x|θ) la función de probabilidad o densidad conjunta de la muestra X. La estadística T (X) es suficiente para θ si y solo si existen funciones g(t|θ) y h(x) tales que: f (x|θ) = g(T (x)|θ)h(x)
(6.2.1)
Ejemplo 6.2.3 Considere nuevamente el ejemplo 6.2.2: n n(¯ x − µ)2 1 X (xi − x¯)2 exp − f (x|µ) = (2πσ ) exp − 2 2σ i=1 2σ 2 = h(x)g(T (x)|µ)
)
(
(
)
2 −n/2
entonces X es una estadística suficiente para µ. Ejemplo 6.2.4 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según U(0, θ) cuya función de densidad es: 1 f (x|θ) = , 0 ≤ x ≤ θ θ luego: f (x|θ) =
n Y
1 I(0,θ) (xi ) i=1 θ
n 1 Y = n I(0,θ) (xi ) θ i=1 1 = n I(0,θ) (x(n) ) θ
entonces T (X) = X(n) es una estadística suficiente para θ.
103
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
Ejemplo 6.2.5 Nuevamente asuma que X1 , · · · , Xn son variables aleatorias independientes e identicamente distribuidas según N (µ, σ 2 ), donde ambos parámetros son desconocidos, es decir θ = (µ, σ 2 ). Según el teorema de factorización: n 1 X f (x|µ, σ ) = (2πσ ) exp − 2 (xi − x¯)2 + n(¯ x − µ)2 2σ i=1 1 2 2 2 −n/2 x − µ) + (n − 1)s = (2πσ ) exp − 2 n(¯ 2σ
(
!)
2 −n/2
2
Si T1 (x) = x¯ y T2 (x) = s2 , entonces: 1 f (x|µ, σ ) = (2πσ ) exp − 2 n(t1 − µ)2 + (n − 1)t2 2σ 2 = g(T1 (x), T2 (x)|µ, σ )h(x) 2
2 −n/2
luego T (x) = (T1 (x), T2 (x)) = (X, S 2 ) es una estadística suficiente para el modelo normal. Teorema 6.2.3 Sean X1 , · · · , Xn observaciones independientes e identicamente distribuidas según la función de probabilidad o densidad f (x|θ). Suponga que f (x|θ) proviene de una familia exponencial dada por: f (x|θ) = h(x)c(θ) exp
( k X
)
wi (θ)ti (x)
i=1
donde θ = (θ1 , θ2 , · · · , θd ), d ≤ k. Entonces:
T (X) =
n X
t1 (Xj ), · · · ,
j=1
n X
tk (Xj )
j=1
es una estadística suficiente para θ. Ejemplo 6.2.6 Sean X1 , · · · , Xn observaciones independientes e identicamente distribuidas según P(λ) cuya función de probabilidad pertenece a una familia exponencial: e−λ λx 1 = e−λ exp {x log λ} x! x! Pn entonces T (X) = i=1 Xi es una estadística suficiente para λ. f (x|λ) =
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
6.2.2.
104
Estadística minimal suficiente
Como es posible encontrar muchas estadísticas suficientes en un mismo problema sera necesario establecer cuál es la mejor. Recordar que el propósito de una estadística suficiente es lograr resumir la data sin pérdida de información acerca del parámetro θ, es decir que se debe buscar aquella estadística que logre la mayor reducción de data reteniendo aún toda la información sobre θ. Definición 6.2.2 Una estadística suficiente T (X) es llamada estadística min0 imal suficiente si, para cualquier otra estadística suficiente T (X), T (x) es 0 función de T (x). Ejemplo 6.2.7 Sean X1 , · · · , Xn independientes e identicamente distribuidas según N (µ, σ 2 ) donde σ 2 es conocido. Se sabe que T (X) = X es una estadís0 tica suficiente para µ y T (X) = (X, S 2 ) es una estadística suficiente para µ en el mismo problema. Claramente T (X) logra una mayor reducción de 0 0 data que T (X). Puede escribirse T (X) como función de T (X) a través de r(a, b) = a entonces: 0
T (x) = x = r(x, s2 ) = rT (x) Teorema 6.2.4 Sea f (x|θ) la función de probabilidad o densidad de una muestra X. Suponga que existe una función T (X) tal que, para dos puntos muestrales x y y, el ratio f (x|θ)/f (y|θ) no depende de θ si y solo si T (x) = T (y). Entonces T (X) es una estadística minimal suficiente para θ. Ejemplo 6.2.8 Sean X1 , · · · , Xn independientes e identicamente distribuidas según N (µ, σ 2 ) ambos parámetros desconocidos. Sean x y y dos muestras tales que (¯ x, s2X ) y (¯ y , s2Y ) son las medias y varianzas muestrales respectivamente. Entonces, usando 6.2.4: n
o
(2πσ 2 )−n/2 exp − 2σ1 2 (n(¯ x − µ)2 + (n − 1)s2X ) f (x|µ, σ 2 ) n o = f (y|µ, σ 2 ) (2πσ 2 )−n/2 exp − 2σ1 2 (n(¯ y − µ)2 + (n − 1)s2Y ) 1 2 2 2 2 = exp − 2 −n(¯ x − y¯ ) + 2nµ(¯ x − y¯) − (n − 1)(sX − sY ) 2σ El ratio anterior no dependerá de µ y σ 2 si y solo si x¯ = y¯ y s2X = s2Y . Luego por el teorema 6.2.4 (X, S 2 ) es una estadística minimal suficiente para (µ, σ 2 ).
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
105
Ejemplo 6.2.9 Suponga X1 , · · · , Xn independientes e identicamente distribuidas según U(θ, θ + 1), −∞ < θ < ∞ entonces la función de densidad conjunta de X es: n Y
I(θ,θ+1) (xi ) = I(x(n) −1,x(1) ) (θ)
i=1
Luego: I(x −1,x(1) ) (θ) f (x|θ) = (n) f (y|θ) I(y(n) −1,y(1) ) (θ) no depende de θ si x(n) = y(n) y x(1) = y(1) . Luego T (X) = (X(1) , X(n) ) es una estadística minimal suficiente. Una estadística minimal suficiente no es única. Cualquier función uno a uno de una estadística minimal suficiente es también una estadística minimal 0 suficiente. Luego, T (X) = (X(n) − X(1) , (X(1) + X(n) )/2) es también una esP P 0 tadística minimal suficiente en el ejemplo 6.2.9 y T (X) = ( ni=1 Xi , ni=1 Xi2 ) es también una estadística minimal suficiente en el ejemplo 6.2.8.
6.2.3.
Estadística ancillar
En las secciones anteriores se consideraron las estadísticas suficientes que contienen toda la información sobre θ en la muestra. En esta sección se introduce un tipo diferente de estadística que tiene un propósito complementario. Definición 6.2.3 Una estadística S(X) cuya distribución no depende del paramétro θ es llamada estadística ancillar. Ejemplo 6.2.10 Sean X1 , · · · , Xn independientes e identicamente distribuidas según U(θ, θ+1). Sean X(1) < · · · < X(n) las estadísticas de orden de la muestra. Si R = X(n) − X(1) se tiene que: F (x|θ) =
0
x−θ 1
x≤θ θ