Inferencia estadística y análisis de datos - Santiago L. Ipiña y Ana I. Durand
Short Description
Download Inferencia estadística y análisis de datos - Santiago L. Ipiña y Ana I. Durand...
Description
Inferencia estadística y análisis de datos
Este libro está dirigido a estudiantes y profesionales de Ciencias e Ingenierías. Trata los conceptos más importantes de la inferencia estadística y el análisis de datos tanto univariante como multivariante. El enfoque con el que se exponen dichos conceptos es, desde el punto de vista matemático, riguroso, si bien se dan ejemplos, casi siempre de carácter biológico, después de casi cada definición o la demostración de un resultado.
Inferencia estadística y análisis de datos
Ipiña Durand ISBN 978-84-8322-404-5
9
788483 224045
ISBN 978-84-8322-404-5
9
www.pearsoneducacion.com
9788483224045.indd 1
788483 224045
Santiago L. Ipiña Ana I. Durand 20/2/08 12:32:26
i
i
“inferencia” — 2008/2/14 — 9:08 — page
I
— #1
i
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
II
— #2
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
III
— #3
i
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
SANTIAGO L. IPIÑA ANA I. DURAND
Departamento de Matemática Aplicada (Biomatemática) Universidad Complutense de Madrid
Madrid • México • Santafé de Bogotá • Buenos Aires • Caracas • Lima • Montevideo San Juan • San José • Santiago • São Paulo • White Plains
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
IV
— #4
i
Datos de catalogación bibliográfica
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS Santiago L. Ipiña y Ana I. Durand PEARSON EDUCACIÓN, S.A. 2008 ISBN: 978-84-8322-404-5 Materia: Estadística matemática, 519.2 Formato: 195 X 250 mm
Páginas: 495
Todos los derechos reservados. Queda prohibida, salvo excepción prevista en la ley, cualquier forma de reproducción, distribución, comunicación pública y transformación de esta obra sin contar con autorización de los titulares de propiedad intelectual. La infracción de los derechos mencionados puede ser constitutiva de delito contra la propiedad intelectual (arts. 270 y sgts. Código Penal).
DERECHOS RESERVADOS c 2008, PEARSON EDUCACIÓN S.A.
Ribera del Loira, 28 28042 Madrid (España) INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS Santiago L. Ipiña y Ana I. Durand ISBN: 978-84-8322-404-5 Deposito Legal: M. Equipo editorial: Editor: Miguel Martín-Romo Técnico editorial: Marta Caicoya Equipo de producción: Director: José A. Clares Técnico: José A. Hernán Diseño de cubierta: Equipo de diseño de Pearson Educación S.A. Impreso por: IMPRESO EN ESPAÑA - PRINTED IN SPAIN Este libro ha sido impreso con papel y tintas ecológicos Nota sobre enlaces a páginas web ajenas: Este libro puede incluir enlaces a sitios web gestionados por terceros y ajenos a PEARSON EDUCACIÓN S.A. que se incluyen sólo con finalidad informativa. PEARSON EDUCACIÓN S.A. no asume ningún tipo de responsabilidad por los daños y perjuicios derivados del uso de los datos personales que pueda hacer un tercero encargado del mantenimiento de las páginas web ajenas a PEARSON EDUCACIÓN S. A y del funcionamiento, accesibilidad o mantenimiento de los sitios web no gestionados por PEARSON EDUCACIÓN S.A. Las referencias se proporcionan en el estado en que se encuentran en el momento de publicación sin garantías, expresas o implícitas, sobre la información que se proporcione en ellas.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
V
— #5
i
Índice general
Prólogo
I
XI
Variables y distribuciones
1. Sucesos y probabilidad 1.1. Experimento Aleatorio . . 1.2. Sucesos . . . . . . . . . . 1.3. Probabilidad . . . . . . . . 1.4. Probabilidad Condicionada Apéndice . . . . . . . . . . . . Ejercicios . . . . . . . . . . . .
1 . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
3 . 3 . 4 . 6 . 7 . 9 . 10
2. Variables aleatorias 2.1. Variable Aleatoria y Función de Distribución . . . . . . . . . . 2.2. Propiedades de la Función de Distribución . . . . . . . . . . . . 2.3. Probabilidad de un Intervalo Real . . . . . . . . . . . . . . . . 2.4. Distribuciones Discretas y Absolutamente Continuas . . . . . . 2.5. Variable Aleatoria Bidimensional . . . . . . . . . . . . . . . . . 2.6. Distribuciones Bivariantes Discretas y Absolutamente Contínuas 2.7. Distribuciones Marginales . . . . . . . . . . . . . . . . . . . . 2.8. Independencia Estocástica de Variables Aleatorias . . . . . . . . 2.9. Distribuciones Condicionadas . . . . . . . . . . . . . . . . . . Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
19 19 23 25 25 30 31 32 34 36 37 40
3. Parámetros de una variable aleatoria 3.1. Esperanza Matemática de una Variable Aleatoria 3.2. Varianza de una Variable Aleatoria . . . . . . . . 3.3. Covarianza de Dos Variables Aleatorias . . . . . 3.4. Dos Teoremas Importantes . . . . . . . . . . . . 3.5. Coeficiente de Correlación . . . . . . . . . . . . 3.6. Independencias Estocástica y Lineal . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
51 51 55 56 56 58 59 60
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . . .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
— #6
VI
i
VI INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
4. Transformación de variables aleatorias 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Transformación de Variables . . . . . . . . . . . . . . . . . . . . . 4.2.1. Caso discreto, univariante y biyectivo . . . . . . . . . . . . 4.2.2. Caso discreto, univariante y no biyectivo . . . . . . . . . . 4.2.3. Caso discreto, bivariante y biyectivo . . . . . . . . . . . . . 4.2.4. Caso discreto, bivariante y no biyectivo . . . . . . . . . . . 4.2.5. Caso continuo, univariante y biyectivo . . . . . . . . . . . . 4.2.6. Caso continuo, univariante y no biyectivo . . . . . . . . . . 4.2.7. Caso continuo, bivariante y biyectivo . . . . . . . . . . . . 4.2.8. Caso continuo, bivariante y no biyectivo . . . . . . . . . . . 4.3. Funciones Generadoras de Momentos . . . . . . . . . . . . . . . . 4.3.1. Propiedades de la función generadora de momentos . . . . 4.3.2. Momentos y funciones generadoras de momentos conjuntos Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Funciones de distribución más usuales 5.1. Introducción . . . . . . . . . . . . . . . . . . . . . 5.2. Distribución de Bernoulli . . . . . . . . . . . . . . 5.3. Distribución Binomial . . . . . . . . . . . . . . . 5.4. Distribución de la Frecuencia Relativa de un Suceso 5.5. Distribución Multinomial . . . . . . . . . . . . . . 5.6. Distribución Hipergeométrica . . . . . . . . . . . . 5.7. Distribución Geométrica o de Pascal . . . . . . . . 5.8. Distribución Binomial Negativa . . . . . . . . . . 5.9. Distribución Serie Logarítmica . . . . . . . . . . . 5.10. Distribución de Poisson . . . . . . . . . . . . . . . 5.11. Distribución Uniforme . . . . . . . . . . . . . . . 5.11.1. Transformada integral de probabilidad . . . 5.12. Distribución Gamma . . . . . . . . . . . . . . . . 5.12.1. Distribución exponencial . . . . . . . . . . 5.12.2. Distribución ji-cuadrado . . . . . . . . . . 5.12.3. Distribución ji-cuadrado no centrada . . . . 5.13. Distribución Beta . . . . . . . . . . . . . . . . . . 5.14. Distribución Normal . . . . . . . . . . . . . . . . 5.15. Distribución LogNormal . . . . . . . . . . . . . . 5.16. Distribución Doble Exponencial . . . . . . . . . . 5.17. Distribución Normal Bivariante . . . . . . . . . . . 5.18. Mixtura de Dos Distribuciones Normales . . . . . 5.19. Modelos Jerárquicos . . . . . . . . . . . . . . . . Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . 5.20. Manejo de las Tablas de Distribuciones . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
65 65 66 66 67 68 69 70 73 75 77 80 80 85 87
. . . . . . . . . . . . . . . . . . . . . . . . . .
93 93 93 94 97 98 99 101 103 105 107 108 109 110 111 113 114 115 116 122 123 124 126 127 131 135 137
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
VII
— #7
i
ÍNDICE GENERAL
II
Inferencia estadística
VII
145
6. Distribución muestral 6.1. Introducción y Definiciones . . . . . . . . . . . . . . . 6.2. Muestra Aleatoria Simple . . . . . . . . . . . . . . . . 6.3. Estadístico y Distribución Muestral . . . . . . . . . . . 6.4. Teorema Central del Límite . . . . . . . . . . . . . . . 6.5. Ley Débil de los Grandes Números . . . . . . . . . . . 6.6. Distribución de la Varianza Muestral . . . . . . . . . . 6.7. Distribución t de Student . . . . . . . . . . . . . . . . 6.7.1. Distribución de Cauchy . . . . . . . . . . . . . 6.7.2. Distribución t de Student no centrada . . . . . 6.8. Distribución F de Fisher-Snedecor . . . . . . . . . . . 6.8.1. Distribución F de Fisher-Snedecor no centrada 6.9. Estadísticos de Orden o Posición . . . . . . . . . . . . Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
147 147 148 149 149 152 154 154 157 158 159 161 161 165 174
7. Estimación puntual 7.1. Introducción . . . . . . . . . . . . . . 7.2. Propiedades de un Estimador Puntual 7.2.1. Insesgamiento . . . . . . . . 7.2.2. Error cuadrático medio . . . . 7.2.3. Consistencia . . . . . . . . . 7.2.4. Suficiencia . . . . . . . . . . 7.3. Obtención de Estimadores Puntuales . 7.3.1. Máxima verosimilitud . . . . 7.3.2. Momentos muestrales . . . . 7.3.3. Estimadores bayesianos . . . Apéndice . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
179 179 180 180 180 184 186 195 195 201 202 207 209
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
213 213 214 215 216 219 219
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
221 224 224 226 227 236 238
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
8. Estimación por intervalo 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Intervalo de Confianza . . . . . . . . . . . . . . . . . . . . . . . 8.3. Cantidad Pivotante . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1. Método de la cantidad pivotante . . . . . . . . . . . . . . 8.4. Intervalos de Confianza para la Esperanza Matemática . . . . . . 8.4.1. Intervalo de confianza para E(X) . . . . . . . . . . . . . . 8.4.2. Intervalo de confianza para la diferencia de dos esperanzas matemáticas . . . . . . . . . . . . . . . . . . . . . . . . . 8.5. Intervalos de Confianza para la Varianza . . . . . . . . . . . . . . 8.5.1. Intervalo de confianza para una varianza . . . . . . . . . . 8.5.2. Intervalo de confianza para el cociente de dos varianzas . . 8.6. Construcción de Intervalos de Confianza por el Método Estadístico Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
VIII
— #8
i
VIII INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
9. Contraste de hipótesis 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Contrastes basados en el Cociente de Verosimilitudes . . . . . . . . . . . 9.3. Método del Intervalo de Confianza . . . . . . . . . . . . . . . . . . . . . 9.4. Contrastes basados en los Métodos Intersección-Unión y Unión-Intersección . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5. Contrastes Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.6. Calidad de un Contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.6.1. Función potencia, tamaño y nivel de significación . . . . . . . . . 9.6.2. Contrastes potentes . . . . . . . . . . . . . . . . . . . . . . . . . 9.6.3. Contrastes insesgados . . . . . . . . . . . . . . . . . . . . . . . 9.6.4. Tamaño de los contrastes intersección-unión y unión-intersección 9.7. Intervalos de Confianza y Contrastes de Hipótesis . . . . . . . . . . . . . 9.8. Contrastes de Hipótesis Basados en el Estadístico Ji-Cuadrado . . . . . . 9.8.1. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . 9.8.2. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10. Introducción a la teoría de la decisión 10.1. Introducción y Definiciones . . . . . . . . . . . . . . . . . . . 10.2. Teoría de la Decisión en Estimación y Contrastes de Hipótesis 10.2.1. Estimación puntual . . . . . . . . . . . . . . . . . . . 10.2.2. Estimación por intervalo . . . . . . . . . . . . . . . . 10.2.3. Contraste de hipótesis . . . . . . . . . . . . . . . . . 10.3. Reglas de Decisión Bayesianas . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
245 . . . . 245 . . . . 246 . . . . 250 . . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . .
. . . . . .
. . . . . . . . . . . .
250 254 256 256 265 274 279 282 286 287 290 295
. . . . . .
301 301 303 303 306 308 309
III Técnicas del análisis de datos 11. Análisis de la varianza 11.1. Introducción y Definiciones . . . . . . . . . . . . . . . . . . . . . 11.2. ANOVA de un FACTOR . . . . . . . . . . . . . . . . . . . . . . 11.2.1. Modelo equilibrado de efectos fijos . . . . . . . . . . . . 11.2.2. Modelo no equilibrado con efectos fijos . . . . . . . . . . 11.2.3. Modelo equilibrado de efectos aleatorios . . . . . . . . . 11.2.4. Comparaciones a posteriori . . . . . . . . . . . . . . . . . 11.2.5. Resolución del ANOVA mediante contrastes de parámetros 11.3. ANOVA de dos FACTORES . . . . . . . . . . . . . . . . . . . . 11.3.1. Estadísticos de contraste y distribuciones . . . . . . . . . 11.3.2. Caso con tamaño muestral uno . . . . . . . . . . . . . . . 11.4. Introducción al ANOVA Multifactorial . . . . . . . . . . . . . . . Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
315 . . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
317 317 318 318 323 324 326 337 338 342 343 345 345 349
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
— #9
IX
i
ÍNDICE GENERAL
12. Regresión lineal 12.1. Modelos Lineales . . . . . . . . . 12.2. Estimaciones Máximo Verosímiles 12.3. Distribución de los Estimadores . 12.4. Inferencias sobre los Parámetros . 12.4.1. Varianza . . . . . . . . . . 12.4.2. Parámetros centrales . . . 12.4.3. Pendiente de la recta . . . 12.4.4. Intersección con ordenadas 12.5. Otros Modelos de Regresión . . . 12.5.1. Modelo normal bivariante 12.5.2. Variables con error . . . . Ejercicios . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
357 357 358 360 363 363 364 365 368 368 369 370 372
13. Análisis de componentes principales 13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2. Obtención de las Componentes Principales . . . . . . . . . . 13.2.1. Componentes principales de la matriz de correlación 13.3. Interpretación de las Componentes Principales . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
377 377 378 379 380 381
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
14. Análisis multivariante de la varianza 14.1. Tres Distribuciones de Probabilidad Multivariantes . . . . . . . . . . 14.1.1. Distribución normal multivariante . . . . . . . . . . . . . . . 14.1.2. Distribución de Wishart . . . . . . . . . . . . . . . . . . . . 14.1.3. Distribución lambda de Wilks . . . . . . . . . . . . . . . . . 14.2. Análisis Multivariante de la Varianza . . . . . . . . . . . . . . . . . . 14.2.1. Obtención de las matrices de sumas de cuadrados y productos 14.2.2. Estadísticos de contraste . . . . . . . . . . . . . . . . . . . . 14.2.3. Homogeneidad de las matrices de varianzas covarianzas residuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.3. Dimensión de la Hipótesis Alternativa . . . . . . . . . . . . . . . . . 14.4. Análisis Canónico de Poblaciones . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. Análisis discriminante 15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.2. Función Discriminante . . . . . . . . . . . . . . . . . . . . . . . 15.2.1. Distribución del discriminador de Wald-Anderson . . . . 15.2.2. Discriminación con dos o más poblaciones de parámetros desconocidos . . . . . . . . . . . . . . . . . . . . . . . . 15.3. Otros Criterios de Asignación . . . . . . . . . . . . . . . . . . . 15.4. Dos Hipótesis Básicas a Contrastar . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
391 391 391 394 394 395 395 397
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
399 400 402 405
IX
407 . . . . . . . . 407 . . . . . . . . 408 . . . . . . . . 409 . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
411 412 414 414
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
X
— #10
i
X INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Apéndices A. Álgebra y Geometría de matrices A.1. Definiciones Básicas . . . . . . . . . . . . . . . . . . . A.2. Operaciones Elementales . . . . . . . . . . . . . . . . . A.3. Leyes del Álgebra . . . . . . . . . . . . . . . . . . . . . A.4. Matriz Traspuesta . . . . . . . . . . . . . . . . . . . . . A.5. Partición de Matrices . . . . . . . . . . . . . . . . . . . A.6. Transformaciones Lineales . . . . . . . . . . . . . . . . A.7. Formas Cuadráticas . . . . . . . . . . . . . . . . . . . . A.8. Matriz de Varianzas Covarianzas . . . . . . . . . . . . . A.9. Determinantes . . . . . . . . . . . . . . . . . . . . . . . A.10. Matriz Inversa . . . . . . . . . . . . . . . . . . . . . . A.11. Rango e Independencia Lineal . . . . . . . . . . . . . . A.12. Inversa Generalizada y Ecuaciones Lineales . . . . . . . A.13. Autovalores y Autovectores . . . . . . . . . . . . . . . A.14. Geometría de una Transformación Lineal . . . . . . . . A.14.1. Independencia lineal . . . . . . . . . . . . . . . A.14.2. Transformaciones ortogonales . . . . . . . . . . A.14.3. Otras transformaciones lineales . . . . . . . . . A.14.4. Transformaciones lineales y rango de una matriz A.14.5. Estructura geométrica de los autovectores . . . . A.15. Subapéndice . . . . . . . . . . . . . . . . . . . . . . .
421 . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
421 421 423 426 427 428 428 429 431 432 434 435 441 442 448 449 450 451 454 455 457
B. Tablas de Distribuciones
463
Bibliografía
475
Índice alfabético
479
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
XI
— #11
i
Prólogo Lo primero que uno se plantea cuando tiene la intención de escribir un libro tiene que ver con la razón por la que lo escribe. Si bien es cierto que no hay una sola razón, la más inmediata, no exenta de cierta inmodestia, está relacionada con el grado de insatisfacción que se tiene respecto a lo leído en otras obras que tratan la materia que aquí desarrollamos y están escritas en lengua española. Aunque sin respuesta convincente, también nos hemos preguntado qué es lo que hace a este libro diferente de otros ya publicados. Quizás, lo mejor que podemos decir en este sentido es que hemos trabajado intensamente para que el resultado final sea de nuestro agrado. En cualquier caso, tenemos la esperanza de que lo que exponemos pueda ser considerado satisfactorio tanto para profesionales como para estudiantes de las licenciaturas de Ciencias e Ingenierías. Hemos asumido que nuestro lector tiene una base matemática que, aproximadamente, es equivalente a la impartida en la enseñanza pre-universitaria. Algunos de los temas que desarrollamos exigen, no obstante, conocimientos matemáticos que sobrepasan dicha base. Para hacer más asequibles estos casos, así como aquellos relacionados con resultados más conocidos y, como consecuencia, en cierta medida más tediosos, hemos estructurado el libro de forma que, cuando ha sido necesario, se ha introducido al final de cada capítulo un apéndice en el que se desarrollan las demostraciones que permiten comprender totalmente el argumento del que se habla. Después de la explicación de casi todo nuevo concepto hemos incluido un ejemplo que pretendemos ilustre y haga entender satisfactoriamente la teoría expuesta, cuando la complejidad de ésta así lo requiere. Adicionalmente, al finalizar cada capítulo se ha propuesto un conjunto de ejercicios que creemos ayudarán al lector a afianzar el conocimiento teórico. Es importante, por tanto, tratar de resolver estos ejercicios, si bien se ofrecen las soluciones de aquellos que nosotros hemos considerado puedan servir de modelo de resolución para el resto. La mayor parte tanto de los ejemplos como de los ejercicios propuestos son de naturaleza biológica, lo que no es más que una consecuencia del campo de aplicación en el que trabajan los autores. El lector interesado puede encontrar en la Bibliografía una selección de libros sobre Inferencia Estadística y Análisis de Datos que pensamos son interesantes bien para profundizar bien para complementar su formación. Naturalmente, también en esta sección
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
XII
— #12
i
XII INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
se encuentran las referencias de los artículos científicos y los libros que se citan a lo largo de la exposición de los distintos temas que aquí se tratan. Los autores deseamos dejar patente las atenciones y facilidades prestadas por la Editorial Pearson Educación, sin cuya colaboración la realización de este libro hubiera sido más compleja, si no imposible. La responsabilidad de los errores que puedan haber sobrevivido a la tarea editorial, sin embargo, es enteramente nuestra. Uno de los autores, quien sin relación con sus méritos o mayor trabajo figura en primer lugar, desea agradecer al otro autor su constante apoyo personal y profesional. Madrid, Marzo de 2007
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page
II
— #2
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 1 — #13
i
Parte I
Variables y distribuciones
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 3 — #15
i
CAPÍTULO
1 Sucesos y probabilidad La materia de la que se compone este capítulo forma parte del soporte de los restantes capítulos de este libro. Como el lector puede fácilmente comprender, esto significa que tanto su importancia como su extensión son considerables. Tratar, sin embargo, con el debido rigor, la teoría de la probabilidad es una tarea inadmisible en una obra cuyos objetivos tienen que ver con la inferencia estadística y el análisis de datos. Existen, por otra parte, excelentes referencias en la bibliografía actual, por lo que el lector que lo crea necesario, siempre puede consultarlas. En nuestra opinión, dos de dichas referencias son A Course in Probability Theory (K.L. Chung) y An Introduction to Probabilistic Theory and Its Applications (W. Feller), en tanto que el libro Fundamentos de Probabilidad en Bioestadística (Alonso, G., Ocaña, J. y Cuadras, C.M.) constituye un buen punto de partida para adentrarse en los aspectos más formales de la probabilidad.
1.1 EXPERIMENTO ALEATORIO Definición 1.1 Un experimento es un estudio científico que genera datos y está caracterizado por dos componentes, el fenómeno a estudiar y el observador. Esta definición tiene que ver con el propósito que perseguimos en este capítulo y en los siguientes. En todo caso, según el diccionario de la Real Academia Española (RAE), un experimento es la acción y el efecto de experimentar, y experimentar - en su 4a acepción - consiste en realizar operaciones destinadas a descubrir, comprobar o demostrar determinados fenómenos o principios científicos. Notemos que el observador está dotado de cierta capacidad de controlar y analizar el fenómeno. Así, podemos estar interesados en estudiar un conjunto de personas reumáticas y es evidente que las observaciones hechas por un médico no serán las mismas que aquellas realizadas por un observador no especializado.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 4 — #16
i
4
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Por otro lado, el fenómeno a estudiar puede ser determinístico o aleatorio, lo que depende del modelo que trata de explicarlo. Entendiendo que el término modelo se emplea aquí en el sentido de un conjunto de ecuaciones y funciones - acudiendo nuevamente al diccionario de la RAE, en su cuarta acepción, puede verse que modelo es un esquema teórico, generalmente en forma matemática, de un sistema o de una realidad compleja que se elabora para facilitar su comprensión y el estudio de su comportamiento -, la trayectoria de una bala al ser disparada puede ser explicada desde una perspectiva determinística como la Mecánica clásica, o desde un punto de vista aleatorio al contemplar factores incontrolables como la velocidad del aire en el momento del disparo, las partículas en suspensión en el aire, etc. El estudio de poblaciones humanas, o la transmisión de caracteres hereditarios son también ejemplos de fenómenos aleatorios, o estocásticos, dado que resulta imposible conocer o controlar los factores que intervienen en dichos fenómenos. Definición 1.2 Un fenómeno se dice que es aleatorio cuando cumple las siguientes condiciones, a) puede repetirse indefinidamente, obteniéndose datos o resultados que pueden ser distintos en cada prueba o repetición, b) en cada prueba se obtiene un resultado perteneciente al conjunto de resultados posibles del experimento, c) antes de realizar una prueba es imposible saber el resultado de la misma, lo que se denomina condición de azar, d) la frecuencia relativa de cada resultado tiende a un número fijo al aumentar el número de repeticiones del experimento, lo que se denomina regularidad estadística.
1.2 SUCESOS Definición 1.3 Espacio muestral, Ω, es el nombre que se da al conjunto de resultados posibles de un experimento, y cada elemento de dicho conjunto se denomina punto muestral, ω. Es evidente que el número de puntos muestrales puede ser finito o infinito. Al lanzar una moneda al aire y ver el resultado, tenemos que Ω = {o, x} (o = cara, x = cruz), en tanto que al considerar el tiempo de reacción a determinado estímulo, tenemos que Ω = (0, ∞) ≡ R+ , la semirecta real positiva . Además, deben distinguirse, entre los espacios muestrales que son infinitos, aquellos que son numerables - sus elementos pueden ponerse en correspondencia uno a uno con los elementos del conjunto, o algún
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 5 — #17
i
CAPÍTULO 1. SUCESOS Y PROBABILIDAD
5
subconjunto, de los números naturales - de aquellos que son no numerables. Desde un punto de vista empírico, incluso filosófico, puede argumentarse que solo existen espacios muestrales numerables ya que las medidas no pueden realizarse con precisión infinita. Sobre un mismo espacio muestral pueden construirse diferentes experimentos, lo que depende de la capacidad de observación, o interés, del observador. Por ejemplo, al lanzamiento de un dado, Ω = {1, 2, ..., 6}, puede añadirse y observar si sale cara impar, o también y observar si sale como máximo un tres, etc. Es decir, que dicha capacidad de observación determina un conjunto de sucesos observables asociados al experimento. Definición 1.4 Suceso observable es un enunciado referente a los puntos muestrales de Ω con la condición de que en cada realización del experimento se pueda determinar si se ha cumplido o no el enunciado en cuestión. Un suceso observable es elemental cuando el enunciado hace referencia a un solo punto muestral. Puede identificarse un suceso observable con un subconjunto de Ω, un resultado consecuencia del teorema de Stone. Este teorema - que el lector interesado puede ver en Monk (1995) - indica que un conjunto de sucesos puede representarse mediante una colección de subconjuntos, o dicho más técnicamente, entre ambos conjuntos existen un isomorfismo —una aplicación uno a uno que conserva las relaciones de los elementos del conjunto de partida—. Supongamos que deseamos seleccionar un individuo de una población humana y nos interesan los enunciados A = individuo con ojos azules y B = individuo con astigmatismo. Es evidente que al realizar el experimento sabremos si el individuo seleccionado cumple o no los citados enunciados, con lo que A y B son sucesos observables. Pero también podremos saber si se cumple, por ejemplo, A ∧ B, es decir, individuo con ojos azules y astigmatismo, que es el suceso observable resultante de la conjunción lógica (intersección en teoría de conjuntos) entre A y B. Lo mismo podría decirse respecto de la disyunción lógica (∨) (unión), o de la negación (c ) (complementación). Es importante que estas operaciones lógicas cumplan ciertas propiedades con el propósito de facilitar su manejo. Al conjunto A de sucesos observables dotado de estructura de álgebra de Boole con respecto a las operaciones disyunción y negación lógicas se le denomina álgebra de sucesos, si el número de sucesos considerados es finito. Si dicho número es infinito, el álgebra de sucesos se dice que tiene estructura de σ− álgebra (o campo de Borel). Siendo Ac el suceso complemento de A, la siguiente definición recoge el caso más general. Definición 1.5 Una colección A de subconjuntos de Ω se denomina campo de Borel (σ− álgebra) si, 1. ∅ ∈ A, 2. A ∈ A ⇒ Ac ∈ A, 3. A1 , A2 , ... ∈ A ⇒ ∪∞ i=1 Ai ∈ A.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 6 — #18
i
6
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Tengamos presente que por las leyes de De Morgan, combinando las propiedades 2. y 3., la intersección de sucesos (o su conjunción) es un suceso de A. Dado un número finito de niveles de observación, es decir, un interés específico ante un conjunto de resultados finito, es fácil construir el álgebra de sucesos asociada a un experimento. En efecto, si suponemos que nos interesan solo dos sucesos A y B, construiremos en primer lugar el conjunto, Q = {A ∧ B, A ∧ B c , Ac ∧ B, Ac ∧ B c }, y, a continuación, el conjunto compuesto por todos los subconjuntos de Q, con 24 elementos, llamado partes de Q, P(Q), generado a partir de las sucesivas uniones de los cuatro elementos que componen Q. Es fácil demostrar que A = P(Q) es un álgebra de sucesos. La anterior construcción es un ejemplo sencillo de la generación de álgebras dados un experimento y un espacio muestral Ω. En efecto, de modo general, decimos que A es un álgebra engendrada por una colección de sucesos S = {A | A ⊂ Ω}, lo que se representa mediante A = g(S), si A contiene a S, es un álgebra de sucesos y toda álgebra A′ que contenga a S también contiene a A. Es decir, que A es la menor álgebra que contiene a S. Cuando el espacio muestral Ω no es finito, el álgebra de sucesos asociada puede ser finita o infinita. Usualmente, si el número de sucesos del álgebra es infinito, la descripción de A no es fácil. En efecto, en este caso, el álgebra de sucesos A se dice constituida por todo suceso que sea de interés en el experimento. Por ejemplo, si Ω = R, la recta real, los elementos del campo de Borel son, dados cualesquiera x e y reales, conjuntos de la forma (x, y), (x, y], [x, y), [x, y], (−∞, x), [x, ∞), etc. En el siguiente capítulo, insistiremos en álgebras no finitas.
1.3 PROBABILIDAD Definición 1.6 Dados Ω y A, a la aplicación P de A sobre el conjunto de los números reales R, P :A→R A → P (A), se denomina probabilidad si cumple (axiomas de Kolmogorov), Axioma 1.1 P (A) ≥ 0, ∀A ∈ A, Axioma 1.2 P (Ω) = 1, Axioma 1.3 A1 , A2 , ... ∈ .A, y disjuntos dos a dos, P (∪∞ i=1 Ai ) =
P∞
i=1 P (Ai ).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 7 — #19
i
CAPÍTULO 1. SUCESOS Y PROBABILIDAD
7
Son fácilmente derivables de estos axiomas, siendo A, B ∈ A dos sucesos cualesquiera, 1. P (Ac ) = 1 − P (A), 2. P (∅) = 0, 3. A ⊂ B ⇒ P (A) ≤ P (B), 4. 0 ≤ P (A) ≤ 1, 5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B), ∀A, B ∈ A. Definición 1.7 Se llama espacio de probabilidad a la terna (Ω, A, P ). Resulta evidente, por otra parte, que el concepto axiomático de la aplicación llamada probabilidad no ofrece modo alguno de determinar el valor numérico de la probabilidad de un suceso, y tampoco hace referencia a algún método para calcularla. Cuando se considera un espacio de probabilidad con sucesos elementales equiprobables, tenemos, Ω = {w1 , ..., wn } : P ({w1 }) = ... = P ({wn }, y es fácil ver que puede justificarse la siguiente manera de calcular una probabilidad, P (A) =
Af , ∀A ∈ A, c(Ω)
donde Af denota el número de resultados favorables del suceso A y c(Ω) el número de resultados posibles de la experiencia, es decir, el cardinal del espacio muestral.
1.4 PROBABILIDAD CONDICIONADA En el anterior cociente que define el cálculo de una probabilidad, el número de resultados posibles podemos referirlo a algún subconjunto - suceso - de Ω. El resultado especifica la probabilidad de un suceso condicionado al suceso definido por el anterior subconjunto. La idea se ilustra en el siguiente ejemplo. Ejemplo 1.1 Sea un experimento consistente en capturar al azar un conejo - equiprobabilidad en la captura - y observar A = conejo macho y B = conejo de color blanco. Sean n conejos, nA conejos machos, nB conejos blancos y nAB conejos machos blancos. De aquí, P (A) =
nA nB nAB , P (B) = , P (A ∩ B) = . n n n
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 8 — #20
i
8
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
También podremos escribir, nAB nAB /n P (A ∩ B) = = = P (A | B), ∀B : P (B) 6= 0, nB nB /n P (B) la probabilidad del suceso A condicionado al suceso B. En nuestro ejemplo, otras formas de referirse a este tipo de probabilidad son, dado que el conejo será de color blanco ¿cuál es la probabilidad de que además sea macho? O también, de entre los conejos de color blanco ¿cuál es la probabilidad de ser macho? O más directamente, ¿cuál es la probabilidad de ser macho dado que se es de color blanco? El concepto de probabilidad condicionada es importante como veremos a lo largo de este libro, especialmente al desarrollar la denominada estadística bayesiana. Definición 1.8 Dos sucesos son estocásticamente independientes (A ⊥ B) si se cumple que P (A | B) = P (A) y P (B | A) = P (B). Son fácilmente derivables las siguientes proposiciones. Proposición 1.1 (Principio de las probabilidades compuestas) P (A ∩ B) = P (B)P (A | B) = P (A)P (B | A). Proposición 1.2 (Regla del producto) A ⊥ B ⇒ P (A ∩ B) = P (A)P (B). En el Apéndice al final del capítulo pueden verse algunas consecuencias de ser A y B independientes. Definición 1.9 Una colección compuesta de k sucesos de A que cumplan con los requisitos de ser disjuntos, Ai ∩ Aj = ∅, i 6= j, i, j = 1, ..., k y que su unión sea el suceso seguro, k [ Ai = Ω i=1
se denomina partición finita de Ω. Se habla de partición finita propia si ningún Ai es el vacío. El siguiente teorema indica la probabilidad de un suceso cualquiera S ∈ A considerando una partición finita como la anterior. Teorema 1.1 (Teorema de las probabilidades totales) Sea la partición finita {A1 , ..., Ak }, Ai ∈ A, i = 1, ..., k.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 9 — #21
i
CAPÍTULO 1. SUCESOS Y PROBABILIDAD
9
Dado un suceso S ∈ A se verifica, P (S) =
k X i=1
P (Ai )P (S | Ai ).
Prueba . La prueba es inmediata considerando, P (S) = P (Ω ∩ S) = P [(A1 ∪ ... ∪ Ak ) ∩ S] = P (A1 ∩ S) + ... + P (Ak ∩ S),
y el principio de las probabilidades compuestas.
Más transcendente es el teorema de Bayes - recuérdese el anterior comentario sobre la estadística bayesiana -, que habla de la probabilidad condicionada de Ah ∈ {A1 , ..., Ak } dado S, Teorema 1.2 (Teorema de Bayes) Sea {A1 , ..., Ak }, Ai ∈ A, i = 1, ..., k, una partición finita de Ω. Suponiendo que se presentará S, la probabilidad de que proceda del suceso Ah ∈ {A1 , ..., Ak } es, P (Ah | S) =
P (Ah )P (S | Ah )
k P
i=1
,
P (Ai )P (S | Ai )
Prueba . Es fácil la prueba de este teorema dados tanto el anterior Teorema 1.1 como la definición de probabilidad condicionada.
APÉNDICE Independencia estocástica Teorema 1.3 A ⊥ B ⇔ P (A∩B) = P (A)P (B). Además, si A ⊥ B entonces también A ⊥ B c , Ac ⊥ B y Ac ⊥ B c .
Prueba . La implicación ⇒ se obtiene directamente de la regla del producto. Para demostrar la implicación ⇐ consideraremos que, P (A | B) =
P (A ∩ B) P (A ∩ B) = P (A) y P (B | A) = = P (B), P (B) P (A)
es decir, A ⊥ B. Respecto a la segunda parte del teorema, vemos que, A ∪ B = B ∪ (A ∩ B c ) ⇒ P (A ∪ B) = P (B) + P (A ∩ B c ),
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 10 — #22
i
10
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
pues B ∩ (A ∩ B c ) = ∅, y como, P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = P (A)[1 − P (B)] + P (B), por ser A ⊥ B, resulta, P (A ∩ B c ) = P (A)P (B c ) ⇔ A ⊥ B c . La demostración para Ac ⊥ B es análoga. Por último, Ac ∩ B c = (A ∪ B)c ⇒ P (Ac ∩ B c ) = 1 − P (A ∪ B) = P (Ac )P (B c ).
EJERCICIOS 1.1. Un experimento consiste en capturar al azar y observar un individuo de una población Ω de conejos. Supongamos estamos interesados en los siguientes niveles de observación A = el conejo capturado es macho y B = el conejo capturado es de color blanco. Suponiendo que, P (A) = 1/3, P (B) = 1/5, P (A ∩ B) = 1/15, a) Determínese el álgebra de sucesos observables en base a estos dos niveles de observación. b) Calcúlense las probabilidades de cada uno de los sucesos que componen el álgebra de sucesos anterior. 1.2. Se consideran en el espacio de probabilidad (Ω, A, P ) tres sucesos observables que designamos por A, B y C. Supóngase que, p1 = P (A) + P (B) + P (C), p2 = P (A ∩ B) + P (B ∩ C) + P (A ∩ C), p3 = P (A ∩ B ∩ C). Exprésese con ayuda de p1 , p2 y p3 , a) La probabilidad de que se realice solamente uno de los tres sucesos. b) La probabilidad de que se realicen al menos dos de los tres sucesos. 1.3. Dada un álgebra de sucesos A, demuéstrese que, a) Si A1 , ..., An ∈ A, entonces, P
n [
i=1
Ai
!
≤
n X
P (Ai ).
i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 11 — #23
i
CAPÍTULO 1. SUCESOS Y PROBABILIDAD
b) Si A1 , ..., An ∈ A, de forma que, P
n−1 \ i=1
Ai
!
11
> 0,
entonces, P
n \
i=1
Ai
!
= P (A1 )P (A2 | A1 ) P (A3 | [A1 ∩ A2 ]) ... ...P (An | [A1 ∩ ... ∩ An−1 ]) .
1.4. Supóngase que A, B y C son tres sucesos tales que A y B son disjuntos, A y C son independientes y además B y C son independientes. Supóngase, además, que, 4P (A) = 2P (B) = P (C) > 0, P (A ∪ B ∪ C) = 5P (A). Determínese el valor de P (A). 1.5. Sean A, B y C tres sucesos cualesquiera de un álgebra de sucesos. Supóngase que C contiene a A y a B, y que estos dos sucesos A y B son estocásticamente independientes. Si P (A) = p1 , P (B) = p2 y P (C) = p3 , calcúlese, a) P ([A ∩ B] | C).
b) P (C ∩ Ac ∩ B c ).
* Indicación: con la ayuda de A, B , C y sus complementarios constrúyase una partición de Ω compuesta por cinco sucesos.
1.6. En determinada área de producción, 1/3 de los productos hechos son defectuosos. Si tres productos fueran seleccionados al azar, calcúlese la probabilidad de que, a) Solamente uno de ellos sea defectuoso. b) Al menos uno de ellos sea defectuoso. 1.7. En una población se estudiaron la presencia de un estreptococo patógeno y el tamaño de las amígdalas, considerándose de forma convencional que dicho tamaño era normal, hipertrofiado y muy hipertrofiado. Supóngase la experiencia de seleccionar un individuo al azar de determinada población y observar la presencia en él de los sucesos observables antes aludidos. Se pide, a) Constrúyase el álgebra de sucesos de la experiencia aleatoria. b) Calcúlese la probabilidad de que el individuo seleccionado presente estreptococo, así como la probabilidad de que no presente el estreptococo y sus amígdalas sean no normales. Téngase presente que la población consta de 1398 individuos de los que 19 presentan el estreptococo y tienen las amígdalas normales, 29 presentan el estreptococo y sus amígdalas son hipertrofiadas y 24 presentan el estreptococo y tienen amígdalas muy hipertrofiadas. Además, de entre los que no presentan el estreptococo, 560 son normales y 269 tienen amígdalas hipertrofiadas.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 12 — #24
i
12
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
1.8. En una determinada población, el 40 % de los individuos son varones, el 25 % tiene los ojos azules y el 15 % son varones de ojos azules. Se selecciona un individuo al azar de esa población, a) Si dicho individuo fuera varón, ¿cuál es la probabilidad de que tenga ojos azules? b) ¿Cuál es la probabilidad de que no sea varón y no tenga ojos azules? 1.9. Una compañía farmacéutica A suministró 300 unidades de un medicamento de las cuales 10 eran defectuosas, la compañía B entregó 100 unidades con 20 defectuosas, y la compañía C entregó 200 de las cuales 25 eran defectuosas. Supóngase que se almacenan todas las unidades al azar y se selecciona aleatoriamente una unidad. Calcúlese, a) b) c) d)
La probabilidad de que la citada unidad sea de la compañía A. La probabilidad de que sea de A y no defectuosa. La probabilidad de que sea defectuosa. Si la unidad fuera defectuosa, ¿cuál es la probabilidad de que sea de la compañía C?
1.10. La probabilidad de que cualquier niño de una familia determinada tenga ojos azules es 1/4, y esta característica es heredada por cada niño de la familia, independientemente de los demás. Si en la familia hubiera tres niños, a) ¿Cuál es la probabilidad de que solo un niño tenga ojos azules? b) ¿Cuál es la probabilidad de que los tres niños tengan ojos azules? 1.11. En un estudio sobre la riqueza de especies en las regiones tropicales, se llega a la conclusión de que dicha riqueza aumenta debido a la presencia de tres factores mutuamente excluyentes: competencia, depredación y heterogeneidad espacial. La probabilidad de que haya competencia es 0.2, mientras que la probabilidad de que tengan lugar la depredación y heterogeneidad espacial es 0.5 y 0.3, respectivamente. En el caso de la competencia y la depredación, cuando están presentes, la probabilidad de que aumente la riqueza de especies es 0.1 y 0.3, respectivamente, mientras que esta probabilidad es 0.2 en el caso de la heterogeneidad espacial. a) ¿Cuál es la probabilidad de que aumente la riqueza de especies? b) Si aumentara la riqueza de especies, ¿cuál es la probabilidad de que el factor causal sea la competencia?, ¿y cuál la de que el factor causal sea la heterogeneidad espacial? 1.12. En un ecosistema conviven tres poblaciones de hormigas A, B y C. Las hormigas de las poblaciones A y B han desarrollado un polimorfismo a causa del cual el 30 % de las hormigas de A y el 50 % de las de B tienen las mandíbulas muy desarrolladas. Las hormigas de C no presentan las mandíbulas desarrolladas. Si las proporciones de las tres poblaciones en el ecosistema son 20 % de A, 50 % de B y 30 % de C, calcúlese la probabilidad de que, elegida una hormiga al azar, no tenga las mandíbulas desarrolladas. 1.13. La probabilidad de que un individuo de determinada población sea tuberculoso es 0.01. Sabiendo que la probabilidad de que cierto aparato de rayos X detecte que un individuo de la anterior población sea tuberculoso, cuando realmente lo es, es 0.97 y que esta probabilidad es 0.001 cuando el individuo no es tuberculoso, ¿cuál es la probabilidad de que, dado que el aparato detecta tuberculosis en un individuo elegido al azar, dicho individuo sea tuberculoso?
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 13 — #25
i
CAPÍTULO 1. SUCESOS Y PROBABILIDAD
13
1.14. Un análisis para detectar la rabia en los perros descarta la enfermedad en un 99.9 % de los casos en los que el animal está sano, y diagnostica la enfermedad en un 99 % de los perros que la padecen. Si el 5 % de los perros padecen rabia y un perro es tomado al azar, ¿cuál es la probabilidad de que, supuesto que el diagnóstico fuera rabia, dicho perro sea rabioso? 1.15. En cierto bosque, la población de roedores está constituida por un 20 % de ratas, un 75 % de ratones y un 5 % de ardillas. Se coloca un cepo y se sabe que la probabilidad de ser atraído por el cepo es de 0.1 para las ratas, 0.2 para los ratones y 0.02 para las ardillas. Si un animal cayera en el cepo, ¿cuál es la probabilidad de que sea de cada una de las tres especies citadas? 1.16. Se consideran 5 cajas, designadas por U1 , ..., U5 , respectivamente, cada una conteniendo 10 ratas. La caja Ui , i = 1, ..., 5, contiene i ratas blancas. La experiencia aleatoria consiste en escoger una caja al azar y posteriormente una rata de la caja seleccionada. a) Establézcase la partición finita propia del espacio muestral correspondiente a los niveles de observación de la experiencia aleatoria y calcular la probabilidad de los distintos sucesos que integran dicha partición. b) Si la rata seleccionada fuera blanca, ¿cuál es la probabilidad de que proceda de la caja U3 o de la U5 ? 1.17. Se supone que el albinismo es un carácter gobernado por un alelo recesivo (a). Considerando una pareja de no albinos con genotipos Aa, a) ¿Cuál es la probabilidad de que el primer hijo sea albino? b) ¿Cuál es la probabilidad de que el segundo hijo sea albino? c) ¿Cuál es la probabilidad de que, suponiendo que la pareja antes citada vaya a tener tres hijos, todos sean albinos? 1.18. En una población de Tribolium cuyo efectivo es de 100 individuos, 60 son de la especie T. confusum y 40 son de la especie T. castanea. El 10 % de T. castanea y el 5 % de T. confusum son portadores de ojos perla. Si tomáramos un individuo al azar, a) ¿Cuál es la probabilidad de que sea T. castanea y no tenga ojos perla? b) ¿Cuál es la probabilidad de que sea T. confusum y tenga ojos perla? c) Si el individuo tomado al azar fuera portador de ojos perla, ¿cuál es la probabilidad de que sea T. castanea? 1.19. En una prueba de diagnóstico, en epidemiología clínica, se denomina coeficiente falso positivo (α) a la probabilidad de que la prueba resulte positiva sin que la enfermedad exista, y coeficiente falso negativo (β) a la probabilidad de que la prueba resulte negativa supuesto que exista tal enfermedad. En un cierto estudio se ha establecido que ambos coeficientes valen 0.05 para una enfermedad que tiene una incidencia de un 4 %. Calcúlese el porcentaje de enfermos y el de los que no lo están que puede esperarse de entre los que, al ser examinados por medio de la prueba, hayan dado positivo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 14 — #26
i
14
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
SOLUCIONES Ejercicio 1.1. a) En primer lugar construiremos una partición de Ω , considerando los dos citados niveles de observación, que será, {A ∩ B, Ac ∩ B, A ∩ B c , Ac ∩ B c }. Los sucesos que componen el álgebra A se obtienen formando0 0todas las posibles uniones de los cuatro elementos de la partición de Ω, es decir, A está formada por los siguientes sucesos, - Sucesos formados por la unión de ningún elemento de la partición: ∅, - Sucesos formados por la unión de un elemento de la partición: A ∩ B, Ac ∩ B, A ∩ B c , Ac ∩ B c , - Sucesos formados por la unión de dos elementos de la partición: (A ∩ B) ∪ (Ac ∩ B) = (A ∪ Ac ) ∩ B = Ω ∩ B = B, (A ∩ B) ∪ (A ∩ B c ) = A, (A ∩ B) ∪ (Ac ∩ B c ), (Ac ∩ B) ∪ (A ∩ B c ), c (A ∩ B) ∪ (Ac ∩ B c ) = Ac , (A ∩ B c ) ∪ (Ac ∩ B c ) = B c , - Sucesos formados por la unión de tres elementos de la partición: (A ∩ B) ∪ (Ac ∩ B) ∪ (A ∩ B c ) = B ∪ (A ∩ B c ) = A ∪ B, (A ∩ B) ∪ (Ac ∩ B) ∪ (Ac ∩ B c ) = B ∪ (Ac ∩ B c ) = Ac ∪ B, (A ∩ B) ∪ (A ∩ B c ) ∪ (Ac ∩ B c ) = A ∪ (Ac ∩ B c ) = A ∪ B c , (Ac ∩ B) ∪ (A ∩ B c ) ∪ (Ac ∩ B c ) = B c ∪ (Ac ∩ B) = Ac ∪ B c , - Sucesos formados por la unión de los cuatro elementos de la partición: (A ∩ B) ∪ (Ac ∩ B) ∪ (A ∩ B c ) ∪ (Ac ∩ B c ) = Ω. b) Las probabilidades de cada uno de los sucesos que componen el álgebra son, - P (∅) = 0, - P (A ∩ B) = 1/15, - P (Ac ∩ B) = P (B) − P (A ∩ B) = 2/15, ya que, B = (A ∩ B) ∪ (Ac ∩ B), - P (A ∩ B c ) = P (A) − P (A ∩ B) = 4/15, ya que, A = (A ∩ B) ∪ (A ∩ B c ),
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 15 — #27
i
CAPÍTULO 1. SUCESOS Y PROBABILIDAD
15
- P (Ac ∩ B c ) = 8/15, ya que Ω = (A ∩ B) ∪ (Ac ∩ B) ∪ (A ∩ B c ) ∪ (Ac ∩ B c ), -
P (B) = 1/5, P (A) = 1/3, P ([A ∩ B] ∪ [Ac ∩ B c ]) = P (A ∩ B) + P (Ac ∩ B c ) = 9/15, P ([Ac ∩ B] ∪ [A ∩ B c ]) = P (Ac ∩ B) + P (A ∩ B c ) = 6/15, P (Ac ) = 2/3, P (B c ) = 4/5, P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 7/15, P (Ac ∪ B) = P (B ∪ [Ac ∩ B c ]) = 11/15, P (A ∪ B c ) = P (A ∪ [Ac ∩ B c ]) = 13/15, P (Ac ∪ B c ) = P (B c ∪ [Ac ∩ B]) = 14/15, P (Ω) = 1.
Ejercicio 1.3. a) Se aplica el método de inducción completa que consiste en los dos siguientes pasos. - Se demuestra que la expresión es cierta para n = 2. En efecto, P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) ≤ P (A1 ) + P (A2 ), ya que P (A1 ∩ A2 ) ≥ 0. - Supuesto que la expresión es cierta para un n cualquiera se demuestra que también lo es para n + 1, es decir, apoyándonos en que, P
[n
n X P (Ai ), Ai ≤
i=1
i=1
tenemos que, S Sn n+1 P i=1 Ai = P ([ i=1 Ai ] ∪ An+1 ) = Sn Sn = P ( i=1 Ai ) + P (An+1 ) − P ([ i=1 Ai ] ∩ An+1 ),
y en virtud del primer paso, y según la hipótesis de inducción, P
S
n+1 i=1
P n Sn P (Ai ) + P (An+1 ) − P ([ i=1 Ai ] ∩ An+1 ) ≤ Ai ≤ i=1
≤
dado que, P
h[n
n+1 P
i=1
P (Ai ),
i=1
i Ai ∩ An+1 ≥ 0,
al ser la probabilidad de un suceso siempre mayor o igual que cero. b) Se demuestra de forma análoga por el método de inducción.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 16 — #28
i
16
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejercicio 1.6. a) Sean los sucesos Di = producto defectuoso elegido en i-ésimo lugar, i = 1, 2, 3. Al ser los productos elegidos al azar, los sucesos Di son independientes, con lo que, P (Di ∩ Dj ∩ Dk ) = P (Di )P (Dj )P (Dk ), i 6= j 6= k; i, j, k ∈ {1, 2, 3}. Además, P (Di ) = 1/3, i = 1, 2, 3. La probabilidad pedida es, P (D1 ∩ D2c ∩ D3c ) + P (D1c ∩ D2 ∩ D3c ) + P (D1c ∩ D2c ∩ D3 ) = = P (D1 )P (D2c )P (D3c ) + P (D1c )P (D2 )P (D3c ) + P (D1c )P (D2c )P (D3 ) = = 3(1/3)(2/3)(2/3) = 4/9. b) La probabilidad que nos piden en este caso es, P (D1 ∪ D2 ∪ D3 ) = P (D1 ) + P (D2 ) + P (D3 ) − P (D1 ∩ D2 )− −P (D1 ∩ D3 ) − P (D2 ∩ D3 ) + P (D1 ∩ D2 ∩ D3 ) = = 1 − 3/32 + 1/33 = 19/27. Ejercicio 1.7. a) Para cada nivel de observación establecemos una partición de Ω, esto es, P1 = {E, E c }, siendo E = presencia de estreptococo y, P2 = {N, H, M H}, donde N = amígdala normal, H = amígdala hipertrofiada y M H = amígdala muy hipertrofiada. La partición de Ω que tiene en cuenta los dos niveles de observación establecidos es, P1 × P2 = {E ∩ N, E ∩ H, E ∩ M H, E c ∩ N, E c ∩ H, E c ∩ M H}. El álgebra de sucesos de la experiencia aleatoria se construye con las uniones sucesivas de los elementos de dicha partición, es decir, A = {∅, E ∩ N, ..., E c ∩ M H, (E ∩ N ) ∪ (E ∩ H), ..., Ω}. b) En primer lugar, nos piden la probabilidad del suceso, P (E) = P (E ∩ Ω) = P (E ∩ [N ∪ H ∪ M H]) = = P (E ∩ N ) + P (E ∩ H) + P (E ∩ M H) = = 19/1 398 + 29/1 398 + 24/1 398 = 72/1 398. En segundo lugar, calculemos la probabilidad del siguiente suceso, P (E c ∩ N c ) = P (E c ∩ [H ∪ M H]) = P (E c ∩ H) + P (E c ∩ M H). Por un lado, como el número de individuos que no presentan el estreptococo y tienen amígdalas hipertrofiadas es de 269, resulta P (E c ∩ H) = 269/1 398. Por otro lado,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 17 — #29
i
CAPÍTULO 1. SUCESOS Y PROBABILIDAD
17
al ser 1398 el número total de individuos, el número de ellos que no presentan estreptococo y tienen amígdalas muy hipertrofiadas es 1398 − 19 − 29 − 24 − 560 − 269 = 497. Así, P (E c ∩ M H) = 497/1 398, y de esta forma, P (E c ∩ N c ) = 766/1 398. Ejercicio 1.8. a) Consideremos los sucesos V = individuo varón, y O = individuo con ojos azules, de manera que P (V ) = 0.4, P (O) = 0.25 y P (V ∩ O) = 0.15. La probabilidad pedida es, P (O ∩ V ) P (O | V ) = = 0.375. P (V ) b) Debemos calcular, P (V c ∩ Oc ) = 1 − P (V ∪ O) = 1 − P (V ) − P (O) + P (V ∩ O) = 0.5. Ejercicio 1.10. a) Definamos los siguientes sucesos O1 = el primer niño tiene ojos azules, O2 = el segundo niño tiene ojos azules y O3 = el tercer niño tiene ojos azules. Estos sucesos son independientes con P (O1 ) = P (O2 ) = P (O3 ) = 1/4. Calcular la probabilidad de que solamente un niño tenga ojos azules, supone el cálculo de la probabilidad de la unión de tres sucesos disjuntos, teniendo en cuenta que el niño con ojos azules puede ser el primero, el segundo o el tercero, esto es, P ([O1 ∩ O2c ∩ O3c ] ∪ [O1c ∩ O2 ∩ O3c ] ∪ [O1c ∩ O2c ∩ O3 ]) = = P (O1 ∩ O2c ∩ O3c ) + P (O1c ∩ O2 ∩ O3c ) + P (O1c ∩ O2c ∩ O3 ) = = P (O1 )P (O2c )P (O3c ) + P (O1c )P (O2 )P (O3c ) + P (O1c )P (O2c )P (O3 ) = = 3(1/4)(3/4)2 = 27/64, en donde se ha aplicado el concepto de independencia de sucesos. b) Se trata de calcular la siguiente probabilidad, P (O1 ∩ O2 ∩ O3 ) = P (O1 )P (O2 )P (O3 ) = 1/64, teniendo en cuenta la independencia de los sucesos considerados. Ejercicio 1.12. a) Sean los sucesos A = aumenta la riqueza de especies, C = hay competencia, D = hay depredación y H = hay heterogeneidad espacial. Los datos que conocemos son los siguientes: P (C) = 0.2, P (D) = 0.5, P (H) = 0.3, P (A | C) = 0.1, P (A | D) = 0.3 y P (A | H) = 0.2. Aplicando el teorema de las probabilidades totales, podemos expresar la probabilidad pedida, P (A), de la forma, P (A) = P (C)P (A | C) + P (D)P (A | D) + P (H)P (A | H) = 0.23.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 18 — #30
i
18
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
b) Aplicando el teorema de Bayes, P (C)P (A | C) = 0.087; P (A) P (H)P (A | H) P (H | A) = = 0.26. P (A)
P (C | A) =
Ejercicio 1.14. Consideremos los sucesos T = el individuo es tuberculoso, y D = el aparato de rayos X detecta tuberculosis en un individuo elegido al azar. Según los datos datos tenemos P (T ) = 0.01, P (D | T ) = 0.97 y P (D | T c ) = 0.001. La probabilidad pedida se puede calcular aplicando el teorema de Bayes, P (T | D) =
P (T ∩ D) P (T )P (D | T ) = = 0.9. p(D) P (T )P (D | T ) + P (T c )P (D | T c )
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 19 — #31
i
CAPÍTULO
2 Variables aleatorias 2.1 VARIABLE ALEATORIA Y FUNCIÓN DE DISTRIBUCIÓN En el anterior capítulo hemos visto que un experimento aleatorio queda caracterizado por los sucesos que lo componen y la probabilidad de dichos sucesos. Sin embargo, lo que usualmente analizamos en un experimento aleatorio es el número de veces que se realiza un determinado resultado, o bien la medida de alguna característica de dicho resultado, que sea de interés para el experimentador. Ejemplo 2.1 Consideremos el experimento que consiste en lanzar dos veces una misma moneda y observar el número de caras obtenidas. El espacio muestral puede escribirse Ω2 = Ω×Ω = {(o, o), (o, x), (x, o), (x, x)}, con Ω = {o, x}, y los resultados posibles son entonces {0, 1, 2}. Si construimos la función X que hace corresponder a los puntos muestrales de Ω2 los números reales {0, 1, 2}, X : Ω2 → R (o, o) → 2 (o, x) → 1 (x, o) → 1 (x, x) → 0 diremos que X es una función numérica.
A esta función se le llama variable aleatoria, definida sobre los puntos muestrales del espacio muestral asociado a un experimento. Se suele designar con letras mayúsculas, y a un valor específico de la variable con letra minúscula; así, en el ejemplo anterior, para ω ∈ Ω2 asociamos X(ω) = x ∈ R.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 20 — #32
i
20
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
La definición es realmente útil, pues no solo establece la conexión entre puntos muestrales y la descripción numérica de los resultados de un experimento, sino que también permite definir la probabilidad de un valor numérico. En efecto, P [(o, o)] = P [(ω ∈ Ω2 | X(ω) = 2)] = P (X = 2). No obstante, así expresada, la función es incompleta. Imaginemos que nuestro interés es la medida de la altura de las personas de cierta comunidad. Dicha medida es un número real cuya precisión depende del aparato con el que se mide, es decir, que resulta conveniente pensar en intervalos de la recta real dentro de los cuales se localicen determinadas alturas. El problema es entonces cómo calcular la probabilidad de un intervalo de R, por ejemplo, la probabilidad de (179, 180]. Sean Ω = R, la recta real, y S el conjunto de todos los intervalos reales de la forma (−∞, x), con x cualquier número real. La σ− álgebra generada por S, B = g(S), se denomina σ− álgebra de Borel de R, y contiene como elementos intervalos de la forma (x, y), [x, y], (x, y], [x, y), (−∞, x], (x, ∞), [x, x], etc. obtenidos a partir de la unión, intersección, y/o complementación de (−∞, x) y los intervalos resultantes de estas operaciones. Al par (Ω, A), siendo A una σ− álgebra, se le llama espacio medible o probabilizable, de forma que, dados dos espacios medibles (Ω, A) y (Ω′ , A′ ) se dice que la aplicación f, f : Ω → Ω′ , es una función medible si, f −1 (A′ ) ∈ A , ∀A′ ∈ A′ . El siguiente teorema lo enunciamos sin demostración (véase, por ejemplo, Alonso y col, 1989). Teorema 2.1 Sean (Ω, A) y (Ω′ , A′ ) dos espacios medibles y sea f una función medible. Se verifica, 1. Ae = f −1 (A′ ) ⊂ A es una σ− álgebra,
2. si f es exhaustiva, A′ y Ae son isomorfas.
Al álgebra Ae se la llama álgebra inducida de A′ en Ω mediante la función f.
Ejemplo 2.2
Sea una población animal Ω cuyos individuos muestran dos fenotipos, hn y hr , para un determinado carácter, el cual parece estar gobernado por dos formas alélicas de un gen, A y a. Es decir, supongamos que los genotipos AA y Aa producen el fenotipo hn , en tanto que el genotipo aa es responsable del fenotipo hr . En esta situación, parece
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 21 — #33
i
CAPÍTULO 2. VARIABLES ALEATORIAS
21
obvio indicar que existe alguna técnica capaz de diferenciar los tres genotipos, pero supongamos que dicha técnica no está al alcance de cierto estudioso de la población Ω, que, por tanto, solo puede distinguir individuos hn e individuos hr . Bajo el nivel de observación de quien dispone la técnica, {AA, Aa, aa} es una partición de Ω. Sea A el álgebra engendrada por esta partición, compuesta por 23 elementos, y (Ω, A) el espacio medible correspondiente. Para el estudioso de la población anteriormente citado, sean Ω′ = {hn , hr } y A′ = {∅, {hn }, {hr }, Ω′ }, con (Ω′ , A′ ) el espacio medible asociado. Definamos la aplicación, f : Ω −→ Ω′ , de forma que, f (ω) =
hn , si ω ∈ AA, o ω ∈ Aa hr , si ω ∈ aa.
Tenemos que, f −1 (A′ ) = {f −1 (∅), f −1 ({hn }), f −1 ({hr }), f −1 (Ω′ )} = e = {∅, {AA ∪ Aa}, {aa}, Ω} = A,
que puede demostrarse fácilmente que es un álgebra de sucesos. Además, puede verse que las imágenes inversas de todos los elementos de A′ son elementos de A, Ae ⊂ A, por lo que f es una función medible. Por último, es obvio que Ae yA′ son isomorfas. Observemos que el estudioso solo puede conocer una parte del álgebra A y, por tanto, cualquier afirmación que no se corresponda con los sucesos Ω, {AA ∪ Aa}, {aa} y ∅, está fuera de contexto. Como queda patente en el anterior Ejemplo 2.2, una función medible f permite pasar de un álgebra (A) a otra (A′ ), siendo ésta última isomorfa (caso de ser f exhaustiva) e Esto indica que estamos ante un conjunto (A′ con un subconjunto de la primera ( A). ) con menos sucesos que el conjunto de sucesos original (A), pero también supone que manejamos un conjunto cuya estructura es bien conocida - normalmente, A′ es una σ− álgebra de Borel -. No es difícil ver que una función medible f permite transportar la probabilidad de un espacio medible a otro. En efecto, si (Ω, A, P ) es un espacio de probabilidad, puede definirse, sobre el espacio (Ω′ , A′ ), la siguiente probabilidad, P ′ : A′ −→ [0, 1], de forma que, si A′ ∈ A′ , P ′ (A′ ) = P (f −1 (A′ )) = P (A), con A ∈ A. A P ′ se le denomina probabilidad inducida por f.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 22 — #34
i
22
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Definición 2.1 Dados los espacios medibles (Ω, A) y (R, B), se llama variable aleatoria X a la función medible de Ω en R, X:Ω→R ω → X(ω) = x, de forma que, {ω ∈ Ω | X(ω) ≤ x} ∈ A, ∀x ∈ R, es decir, X −1 ((−∞, x]) ∈ A, ∀x ∈ R. Al suceso {ω ∈ Ω | X(ω) ≤ x} ∈ A se le suele designar abreviadamente (X ≤ x), y a la probabilidad de este tipo de sucesos se le denomina función de distribución F asociada a la variable aleatoria X. Definición 2.2 Se llama función de distribución F de la variable aleatoria X, a la aplicación, F : R → [0, 1] x → F (x) = P ({ω ∈ Ω | X(ω) ≤ x}) = P (X ≤ x). Como veremos, a partir de la Definición 2.1 puede calcularse la probabilidad de cualquier intervalo en R. Ejemplo 2.3 Consideraremos los individuos de una población que pueden presentar dos genes codominantes, A y a, en cierto locus de algún cromosoma. Supongamos que estamos interesados en contar el número de genes A presentes en un individuo ω de la población Ω, X:Ω→R ω → X(ω) = número de genes A en ω, es decir, X(AA) = 2, X(Aa) = 1, X(aa) = 0. Esta variable aleatoria está asociada a un experimento en el que interesa observar la presencia de A, o no (Ac = a), y puesto que analizamos un par de cromosomas por individuo, será Q = {A∧A, A∧a, a∧a}, o abreviadamente {AA, Aa, aa}, obteniéndose el álgebra de sucesos, A = P(Q) = {∅, {AA}, ..., {AA} ∪ {Aa}, ..., {AA} ∪ {Aa} ∪ {aa} = Ω}. Entendiendo que, por ejemplo, escribiremos {AA} ∪ {Aa} = {AA, Aa}, veamos si se verifica, {ω ∈ Ω | X(ω) ≤ x} ∈ A, ∀x ∈ R.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 23 — #35
i
CAPÍTULO 2. VARIABLES ALEATORIAS
23
En efecto, x < 0 ⇒ {ω ∈ Ω | X(ω) ≤ x} = ∅ ∈ A 0 ≤ x < 1 ⇒ {ω ∈ Ω | X(ω) ≤ x} = {aa} ∈ A 1 ≤ x < 2 ⇒ {ω ∈ Ω | X(ω) ≤ x} = {Aa, aa} ∈ A x ≥ 2 ⇒ {ω ∈ Ω | X(ω) ≤ x} = Ω ∈ A y, por tanto, X es una variable aleatoria.
2.2 PROPIEDADES DE LA FUNCIÓN DE DISTRIBUCIÓN El papel de la función de distribución de una variable aleatoria es fundamental puesto que la caracteriza. Dicho en otras palabras, es la ley que gobierna su conducta probabilística. Es importante, como consecuencia, conocer las propiedades de una función de distribución. 1. 0 ≤ F (x) ≤ 1, ∀x ∈ R.
En efecto, al ser F una probabilidad tomará valores en el intervalo [0, 1].
2.
l´ım F (x) = 0; l´ım F (x) = 1. x→∞
x→−∞
Ya que, l´ım F (x) = l´ım P (X ≤ x) = P (X ≤ −∞) = 0,
x→−∞
x→−∞
l´ım F (x) = l´ım P (X ≤ x) = P (X ≤ ∞) = 1.
x→∞
x→∞
3. ∀x1 , x2 ∈ R | x1 < x2 : F (x1 ) ≤ F (x2 ).
Dicho de otra manera, F es no decreciente. En efecto, x1 < x2 ⇔ {ω ∈ Ω | X(ω) ≤ x1 } ⊂ {ω ∈ Ω | X(ω) ≤ x2 } ⇒ ⇒ P (X ≤ x1 ) = F (x1 ) ≤ P (X ≤ x2 ) = F (X ≤ x2 ), considerando el tercer resultado derivable de los axiomas que definen probabilidad.
4. P (a < X ≤ b) = F (b) − F (a), ∀a, b ∈ R | a < b.
Escribiendo en adelante, como vimos anteriormente, el suceso {ω ∈ Ω | X(ω) ≤ x} como (X ≤ x), se tiene, (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) ⇒ ⇒ P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b), al ser sucesos disjuntos, y de aquí la propiedad enunciada.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 24 — #36
i
24
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
5. l´ım F (x) = F (a), ∀a ∈ R. x→a+
Es decir, que la función F es continua por la derecha en todo punto de R. En efecto, supongamos que x es un punto a la derecha de a, l´ım F (x) = l´ım P (X ≤ x) =
x→a+
x→a+
= l´ım P (X ≤ a) + l´ım P (a < X ≤ x) = x→a+
x→a+
= P (X ≤ a) + P (∅) = F (a),
teniendo en cuenta que (X ≤ x) = (X ≤ a) ∪ (a < X ≤ x), y que al ser a < X es imposible que un valor x de X alcance el punto a. Observemos que considerando ahora que x es un punto a la izquierda de a, l´ım F (x) = l´ım P (X ≤ x) =
x→a−
x→a−
= l´ım P (X ≤ a) − l´ım P (x < X ≤ a) = x→a−
x→a−
= F (a) − P (X = a),
dado que ahora X ≤ a. Es decir, que F no es necesariamente continua a la izquierda en todo punto de R puesto que P (X = a) puede no ser cero. El aspecto general de una función F de distribución puede verse en la Figura 2.1. Resaltamos que el número de discontinuidades por la izquierda puede ser finito o infinito numerable.
Figura 2.1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 25 — #37
i
CAPÍTULO 2. VARIABLES ALEATORIAS
25
2.3 PROBABILIDAD DE UN INTERVALO REAL Sea X una variable aleatoria sobre (Ω, A, P ). Con a, b ∈ R | a < b, puede verse en el Apéndice al final del capítulo la demostración de los siguientes resultados, 1. P (a < X < b) = l´ım F (x) − F (a). x→b−
2. P (a ≤ X < b) = l´ım F (x) − l´ım F (x). x→b−
x→a−
3. P (a ≤ X ≤ b) = F (b) − l´ım F (x). x→a−
4. P (X = a) = F (a) − l´ım F (x). x→a−
5. P (X < a) = l´ım F (x). x→a−
2.4 DISTRIBUCIONES DISCRETAS Y ABSOLUTAMENTE CONTINUAS Distribuciones discretas Definición 2.3 Dado un espacio de probabilidad (Ω, A, P ), se dice que una variable aleatoria X sobre dicho espacio es discreta si su recorrido X(Ω), es decir, el conjunto imagen de la aplicación X, es finito o infinito numerable. A la función de distribución F asociada a X se le llama función de distribución discreta. Definición 2.4 Sea X(Ω) = {x1 , ..., xn , ...} el recorrido de una variable aleatoria discreta X. A la aplicación, f : R → [0, 1] x → f (x) = P (X = x), se le denomina función de densidad de X. Propiedades de la función de densidad 1. 0 ≤ f (x) ≤ 1, ∀x ∈ R.
En efecto, f coincide con la probabilidad de un suceso.
2. Se verifica,
Pn
i=1 f (xi )
P∞
i=1 f (xi )
= 1, X(Ω) = {x1 , ..., xn },
= 1, X(Ω) = {x1 , ..., xn , ...}.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 26 — #38
i
26
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Considerando un recorrido finito, Ω=
n [
(X = xi ),
i=1
y como, (X = xi ) ∩ (X = xj ) = ∅, ∀i, j = 1, ..., n, i 6= j, resulta, 1 = P (Ω) = P
n [
(X = xi )
i=1
3. F (x) =
P
xi ≤x
!
=
n X
P (X = xi ) =
i=1
n X
f (xi ).
i=1
f (xi ), ∀x ∈ R.
En efecto, dado que, F (x) = P (X ≤ x) = P (X = x1 ) + ... + P (X = x) =
X
f (xi ).
xi ≤x
Observemos, por otro lado, que, f (x) = P (X = x) = 0, ∀x ∈ / X(Ω). Ejemplo 2.4 Al lanzar una moneda tres veces y observar el número de caras obtenidas, tenemos, Ω3 = {(o, o, o), (o, o, x), (o, x, o), (x, o, o), (o, x, x), (x, o, x), (x, x, o), (x, x, x)}, de forma que, por ejemplo, X(o, x, o) = 2, etc. Vemos que, 1 f (0) = P (X = 0) = P [(x, x, x)] = , 8 3 f (1) = P (X = 1) = P [(o, x, x) ∪ (x, o, x) ∪ (x, x, o)] = , 8 3 f (2) = P (X = 2) = P [(o, o, x) ∪ (o, x, o) ∪ (x, o, o)] = , 8 1 f (3) = P (X = 3) = P [(o, o, o)] = . 8 Las funciones de densidad de variables aleatorias discretas suelen representarse como en la Figura 2.2(a), donde cada barra vertical tiene una altura igual o proporcional al valor de la probabilidad del punto de abscisas donde se origina.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 27 — #39
i
CAPÍTULO 2. VARIABLES ALEATORIAS
27
La función de distribución, llamada también función de probabilidad acumulada, es, 1 F (0) = P (X ≤ 0) = P (X = 0) = f (0) = , 8 1 F (0.8) = P (X ≤ 0.8) = P (X = 0) = f (0) = , 8 1 F (1) = P (X ≤ 1) = f (0) + f (1) = , 2 7 F (2) = P (X ≤ 2) = f (0) + f (1) + f (2) = , 8 F (3) = P (X ≤ 3) = f (0) + f (1) + f (2) + f (3) = 1,
cuya representación gráfica es la Figura 2.2(b).
(a)
(b) Figura 2.2
Distribuciones continuas Definición 2.5 Una variable aleatoria definida sobre (Ω, A, P ) se dice continua si su función de distribución no presenta discontinuidades. Una variable aleatoria continua X se dice que tiene una distribución absolutamente continua F si existe una función f tal que, Z x
F (x) =
f (t)dt,
−∞
llamándose f función de densidad de probabilidad de X. Propiedades de la función de densidad f 1.
dF (x) = f (x), ∀x ∈ R siempre que f sea continua en x. dx Como sabemos, es una propiedad conocida del cálculo integral.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 28 — #40
i
28
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Por otro lado, como también es sabido, F (x + ∆x) − F (x) dF (x) = l´ım = ∆x→0 dx ∆x P (x < X ≤ x + ∆x) = l´ım = f (x), ∆x→0 ∆x por lo que puede pensarse que f (x)dx = dF (x) representa la probabilidad infinitesimal de que X tome valores en el intervalo semicerrado (x, x + ∆x]. 2. f (x) ≥ 0, ∀x ∈ R. En efecto, como,
x < x + ∆x ⇒ F (x) ≤ F (x + ∆x) ⇒ F (x + ∆x) − F (x) ≥ 0 ⇒ F (x + ∆x) − F (x) = f (x) ≥ 0. ∆x→0 ∆x
⇒ l´ım 3.
R∞
−∞ f (x)dx
= 1.
Efectivamente, Z
f (x)dx = l´ım
Z
4. P (a < X ≤ b) = F (b) − F (a) =
Rb
∞
x→∞ −∞
−∞
En efecto,
F (b) =
x
Rb
−∞ f (x)dx
a
x→∞
f (x)dx, ∀a, b ∈ R | a < b.
Rb −∞ f (x)dx + a f (x)dx Rb F (a) = a f (x)dx.
=
⇒ F (b) −
f (t)dt = l´ım F (x) = 1.
Ra
⇒
Es importante resaltar que toda variable aleatoria tiene función de distribución pero no siempre función de densidad. Son solo las variables aleatorias discretas y aquellas con distribución absolutamente continua las que tienen función de densidad. En la Figura 2.3 puede verse la función de distribución de una variable aleatoria continua. Por otra parte, dado que una variable aleatoria continua no presenta discontinuidades en su función de distribución, y recordando la probabilidad de los diferentes intervalos de la recta real, resulta que, P (a < X ≤ b) = P (a < X < b) = P (a ≤ X ≤ b) = = P (a ≤ X < b) = F (b) − F (a), P (X ≤ a) = P (X < a) = F (a), P (X = a) = 0. Puede comprenderse, por tanto, que,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 29 — #41
i
CAPÍTULO 2. VARIABLES ALEATORIAS
29
Figura 2.3
i) cuando la variable aleatoria tiene distribución absolutamente continua, la función de densidad en un punto no puede identificarse con la probabilidad en el mismo, contrariamente a lo que sucede en el caso de que la variable aleatoria sea discreta, ii) la función de densidad de una variable aleatoria con distribución absolutamente continua puede modificarse a voluntad en algunos valores puntuales del recorrido de la variable, sin que por ello resulte alterada su función de distribución. Ejemplo 2.5 Sea
1 + x2 ,0 < x < 3 f (x) = 0, 12 en el resto,
y hagamos arbitrariamente que f (1) = 20. Calculemos, por ejemplo, Z 2 1 + x2 7 F (2) = dx = . 12 18 0 Puede comprobarse que cuando f (1) = 20, Z 1 Z 2 1 + x2 1 + x2 7 F (2) = dx + dx = . 12 12 18 0 1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 30 — #42
i
30
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
2.5 VARIABLE ALEATORIA BIDIMENSIONAL Definición 2.6 Dada la terna (Ω, A, P ) y dos variables aleatorias X e Y sobre Ω, se denomina variable aleatoria bidimensional a la aplicación, (X, Y ) : Ω → R2 ω → [X(ω), Y (ω)] = (x, y), de forma que se verifica, {ω ∈ Ω | X(ω) ≤ x} ∩ {ω ∈ Ω | Y (ω) ≤ y} ∈ A, ∀(x, y) ∈ R2 . Definición 2.7 Se llama función de distribución conjunta bivariante de X e Y a la aplicación, F : R2 → [0, 1] (x, y) → F (x, y) = P [(X ≤ x) ∩ (Y ≤ y)].
Propiedades de la distribución bivariante 1. 0 ≤ F (x, y) ≤ 1, ∀(x, y) ∈ R2 . 2.
l´ım F (x, y) = l´ım F (x, y) = 0,
x→−∞
y→−∞
l´ım F (x, y) = 1.
x→∞ y→∞
En efecto, l´ım P [(X ≤ x) ∩ (Y ≤ y)] = P [(X ≤ −∞) ∩ (Y ≤ y)] = P (∅) = 0,
x→−∞
y, l´ım P [(X ≤ x) ∩ (Y ≤ y)] = P (Ω ∩ Ω) = 1.
x→∞ y→∞
3. x1 < x2 ⇒ F (x1 , y) ≤ F (x2 , y), ∀y ∈ R, y1 < y2 ⇒ F (x, y1 ) ≤ F (x, y2 ), ∀x ∈ R.
La función es, por tanto, no decreciente. En efecto, si x1 < x2 , (X ≤ x1 ) ∩ (Y ≤ y) ⊂ (X ≤ x2 ) ∩ (Y ≤ y) ⇒ F (x1 , y) ≤ F (x2 , y). 4. Se verifica, P [(a < X ≤ b) ∩ (c < Y ≤ d)] = = F (b, d) − F (b, c) − F (a, d) + F (a, c), ∀a, b, c, d ∈ R | a < b, c < d, cuya demostración puede verse en el Apéndice.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 31 — #43
i
CAPÍTULO 2. VARIABLES ALEATORIAS
31
2.6 DISTRIBUCIONES BIVARIANTES DISCRETAS Y ABSOLUTAMENTE CONTÍNUAS Caso discreto Definición 2.8 Se dice que una variable aleatoria bidimensional es discreta si su recorrido (X, Y )(Ω) es finito o infinito numerable. Definición 2.9 Se define función de densidad conjunta discreta de las variables X e Y, a la aplicación, f : R2 → [0, 1] (x, y) → f (x, y) = P [(X = x) ∩ (Y = y)], y, como en el caso univariante, (x, y) ∈ / (X, Y )(Ω) ⇒ f (x, y) = 0. Propiedades de la función de densidad f 1. 0 ≤ f (x, y) ≤ 1, ∀(x, y) ∈ R2 . P P 2. f ((x, y) = 1. x∈X(Ω) y∈Y (Ω)
3. F (x, y) =
P P
xi ≤x yj ≤y
f ((xi , yj ), ∀(x, y) ∈ R2 .
La demostración de estas propiedades es análoga a las correspondientes al caso univariante.
Caso Contínuo Definición 2.10 Si la variable aleatoria bidimensional (X, Y ) tiene función de distribución sin discontinuidades, entonces dicha variable es continua. Se dice que tiene función de distribución bivariante absolutamente continua si existe f tal que, Z x Z y F (x, y) = f (u, v)dudv, −∞
−∞
llamándose f función de densidad de probabilidad conjunta de X e Y . En la Figura 2.4 puede verse un ejemplo de función de densidad de probabilidad bivariante.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 32 — #44
i
32
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 2.4
Propiedades de la función de densidad f 1.
∂ 2 F (x, y) = f (x, y), ∀(x, y) ∈ R2 , siempre que f sea continua en (x, y). ∂x∂y
2. f (x, y) ≥ 0, ∀(x, y) ∈ R2 . R∞ R∞ 3. −∞ −∞ f (x, y)dxdy = 1. 4. Se verifica,
=
RbRd a
c
P [(a < X ≤ b) ∩ (c < Y ≤ d)] = f (x, y)dxdy, ∀a, b, c, d ∈ R | a < b, c < d.
Estas propiedades se demuestran de manera similar al caso univariante.
2.7 DISTRIBUCIONES MARGINALES A partir de la distribución conjunta de dos variables aleatorias X e Y se pueden obtener las distribuciones de X e Y, respectivamente, que llamamos marginales. Definición 2.11 Se llama función de distribución marginal de X a la aplicación, FX : R → [0, 1] x → FX (x) = l´ım F (x, y), ∀x ∈ R, y→∞
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 33 — #45
i
CAPÍTULO 2. VARIABLES ALEATORIAS
33
e igualmente la distribución marginal de Y, FY : R → [0, 1] y → FY (y) = l´ım F (x, y), ∀y ∈ R. x→∞
Es fácil ver que, FX (x) = P (X ≤ x), FY (y) = P (Y ≤ y),
es decir, las distribuciones marginales coinciden con las distribuciones univariantes de las variables.
Función de densidad marginal discreta Definición 2.12 Dadas dos variables aleatorias discretas X e Y con función de densidad conjunta f , se define función de densidad marginal de X a, fX : R → [0, 1] x → fX (x) =
P
f (x, yi ),
yi ∈Y (Ω)
y análogamente la función de densidad marginal de Y, fY : R → [0, 1] y → fY (y) = Es fácil ver también que,
P
f (xi , y).
xi ∈X(Ω)
fX (x) = P (X = x), fY (y) = P (Y = y), por lo que la función de densidad marginal de una variable aleatoria discreta coincide con su función de densidad.
Función de densidad marginal contínua Definición 2.13 Dadas dos variables aleatorias continuas X e Y con función de distribución conjunta absolutamente continua F y función de densidad conjunta f, se define función de densidad marginal de X a, Z ∞ fX (x) = f (x, y)dy, ∀x ∈ R, −∞
y análogamente, función de densidad marginal de Y, Z ∞ fY (y) = f (x, y)dx, ∀y ∈ R. −∞
Puede comprobarse que la función de densidad marginal de una variable aleatoria continua coincide con su función de densidad.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 34 — #46
i
34
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
2.8 INDEPENDENCIA ESTOCÁSTICA DE VARIABLES ALEATORIAS Definición 2.14 Dado (Ω, A, P ), dos variables aleatorias X e Y se dicen estocásticamente independientes cuando para todo par de intervalos reales, I y J, los sucesos, A = {ω ∈ Ω | X(ω) ∈ I}, B = {ω ∈ Ω | Y (ω) ∈ J}, son estocásticamente independientes, es decir, P (A ∩ B) = P (A)P (B).
Función de distribución de variables independientes Teorema 2.2 Simbolizando independencia (estocástica) entre variables aleatorias del siguiente modo, X ⊥ Y, se verifica, X ⊥ Y ⇔ F (x, y) = FX (x)FY (y), ∀(x, y) ∈ R2 .
Prueba . Véase el Apéndice.
Función de densidad de variables independientes Caso discreto Teorema 2.3 Se verifica, siendo X e Y variables aleatorias discretas, X ⊥ Y ⇔ f (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2 ,
Prueba . Consúltese el Apéndice.
Caso contínuo Teorema 2.4 Se verifica, siendo X e Y variables aleatorias continuas, X ⊥ Y ⇔ f (x, y) = fX (x)fY (y), ∀(x, y) ∈ R2 ,
Prueba . Véase el Apéndice.
Si X es una variable aleatoria, cualquier función g de la variable, resulta ser una variable aleatoria.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 35 — #47
i
CAPÍTULO 2. VARIABLES ALEATORIAS
35
Teorema 2.5 Sea f la función de densidad conjunta de dos variables aleatorias X e Y. Se dice que la variables aleatorias X e Y son independientes si y solo si existen las funciones g(x) y h(y) tales que, f (x, y) = g(x)h(y), ∀x, y.
Prueba . La condición necesaria se prueba fácilmente haciendo que g(x) = fX (x) y h(y) = fY (y). Para probar la condición suficiente, consideremos variables continuas. Supongamos que, Z Z ∞
g(x)dx = k1 , y
−∞
∞
h(y)dy = k2 ,
−∞
por lo que,
Además,
R R ∞ ∞ k1 k2 = −∞ g(x)dx h(y)dy = −∞ R∞ R∞ R∞ R∞ = −∞ −∞ g(x)h(y)dxdy = −∞ −∞ f (x, y)dxdy = 1. fX (x) = fY (y) =
En consecuencia,
R∞
−∞ g(x)h(y)dy
= g(x)k2 ,
−∞ g(x)h(y)dx
= h(y)k1 .
R∞
f (x, y) = g(x)h(y) =
fX (x)fY (y) = fX (x)fY (y). k2 k1
Sustituyendo integrales por sumas, el teorema se prueba para variables aleatorias discretas. Teorema 2.6 Sean X e Y variables aleatorias independientes y sean g y h funciones tales que g(X) = U y h(Y ) = V son también variables aleatorias y solo dependen de X e Y, respectivamente. Entonces las variables U y V son independientes.
Prueba . Asumiremos que U y V son variables aleatorias continuas. Definimos, Xu = {x : g(x) ≤ u} e Yv = {y : h(y) ≤ v}. De aquí, FU,V (u, v) = P [(U ≤ u) ∩ (V ≤ v)] = = P [(X ∈ Xu ) ∩ (Y ∈ Yv )] = P (X ∈ Xu )P (Y ∈ Yv ), y la función de densidad conjunta es,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 36 — #48
i
36
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
∂ 2 FU,V (u, v) d d fU,V (u, v) = = P (X ∈ Xu ) P (Y ∈ Yv ) = ∂u∂v du dv d d P (U ≤ u) P (V ≤ v) = fU (u)fV (v). = du dv
2.9 DISTRIBUCIONES CONDICIONADAS Variables aleatorias discretas Definición 2.15 La aplicación, X | [Y = y0 ] : Ω → R2 ω → (X(ω), y0 ), representa la variable X condicionada al suceso {ω ∈ Ω | Y (ω) = y0 } = [Y = y0 ]. Definición 2.16 La función de densidad de X condicionada a [Y = y0 ], hX|y0 , es, hX|y0 (x | Y = y0 ) =
f (x, y0 ) , fY (y0 ) > 0, fY (y0 )
siendo f la función de densidad conjunta de X e Y, y fY la función de densidad marginal de Y. Definición 2.17 La función de distribución de X condicionada a [Y = y0 ] es, HX|y0 (x | Y = y0 ) =
X
xi ≤x
hX|y0 (xi | Y = y0 ).
De forma similar pueden obtenerse las funciones de densidad hY |x0 y distribución HY |x0 de la variable aleatoria Y | X = x0 .
Variables aleatorias continuas Definición 2.18 La función de densidad de X condicionada a [Y = y0 ], hX|y0 , es, hX|y0 (x | Y = y0 ) =
f (x, y0 ) , fY (y0 ) > 0, fY (y0 )
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 37 — #49
i
CAPÍTULO 2. VARIABLES ALEATORIAS
37
Definición 2.19 La función de distribución condicionada HX de la variable aleatoria X | [Y = y0 ] es, Z x HX|y0 (x | Y = y0 ) = hX|y0 (u | Y = y0 )dx. −∞
Análogamente se definen las funciones de distribución y densidad condicionadas de Y | X = x0 . Es evidente que tanto en el caso discreto como en el continuo, X ⊥ Y ⇒ hX|y0 (x | Y = y0 ) = fX (x), hY |x0 (y | X = x0 ) = fY (y).
APÉNDICE Probabilidad de un intervalo real 1. P (a < X < b) = l´ım F (x) − F (a), x→b−
puesto que, (a < X ≤ b) = (a < X < b) ∪ (X = b) ⇒ ⇒ P (a < X ≤ b) = P (a < X < b) + P (X = b) ⇒ ⇒ P (a < X < b) = F (b) − F (a) − P (X = b) = = l´ım F (x) − F (a). x→b−
2. P (a ≤ X < b) = l´ım F (x) − l´ım F (x), x→b−
x→a−
dado que, (a ≤ X < b) = (a < X < b) ∪ (X = a) ⇒ ⇒ P (a ≤ X < b) = P (a < X < b) + P (X = a) = = l´ım F (x) − F (a) − P (X = a) = l´ım F (x) − l´ım F (x). x→b−
x→b−
x→a−
3. P (a ≤ X ≤ b) = F (b) − l´ım F (x), x→a−
en efecto, (a ≤ X ≤ b) = (a < X ≤ b) ∪ (X = a) ⇒ ⇒ P (a ≤ X ≤ b) = P (a < X ≤ b) + P (X = a) = = F (b) − F (a) + P (X = a) = F (b) − l´ım F (x). x→a−
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 38 — #50
i
38
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
4. P (X = a) = F (a) − l´ım F (x), x→a−
ya que,
(X = a) = (a ≤ X ≤ a) ⇒ P (X = a) = P (a ≤ X ≤ a) = = F (a) − l´ım F (x). x→a−
5. P (X < a) = l´ım F (x), pues,
x→a−
(X ≤ a) = (X < a) ∪ (X = a) ⇒ ⇒ P (X ≤ a) = P (X < a) + P (X = a) ⇒ ⇒ P (X < a) = F (a) − P (X = a) = l´ım F (x). x→a−
Propiedades de la distribución bivariante Denotemos, P (A − B) = P (A ∩ B c ) = P (A) − P (A ∩ B).
Así, si B ⊂ A, entonces P (A − B) = P (A) − P (B). Resulta que,
[(a < X ≤ b) ∩ (Y ≤ d)] − [(a < X ≤ b) ∩ (Y ≤ c)] = [(a < X ≤ b) ∩ (Y ≤ d)] ∩ [(a < X ≤ b) ∩ (Y ≤ c)]c = = [(a < X ≤ b) ∩ (Y ≤ d)] ∩ [(X ∈ / (a, b]) ∪ (Y > c)] = = [(a < X ≤ b) ∩ (Y ≤ d)] ∩ (X ∈ / (a, b])∪ ∪[(a < X ≤ b) ∩ (Y ≤ d)] ∩ (Y > c) = = [(a < X ≤ b) ∩ (Y ≤ d)] ∩ (Y > c) = = (a < X ≤ b) ∩ (c < Y ≤ d). Como, tenemos,
[(a < X ≤ b) ∩ (Y ≤ c)] ⊂ [(a < X ≤ b) ∩ (Y ≤ d)], P [(a < X ≤ b) ∩ (c < Y ≤ d)] = = P [(a < X ≤ b) ∩ (Y ≤ d)] − P [(a < X ≤ b) ∩ (Y ≤ c)].
Por otro lado, con el mismo razonamiento anterior, [(a < X ≤ b) ∩ (Y ≤ d)] = [(X ≤ b) ∩ (Y ≤ d)] − [(X ≤ a) ∩ (Y ≤ d)], y, por lo que,
[(X ≤ a) ∩ (Y ≤ d)] ⊂ [(X ≤ b) ∩ (Y ≤ d)], P [(a < X ≤ b) ∩ (c < Y ≤ d)] = = P [(X ≤ b) ∩ (Y ≤ d)] − P [(X ≤ a) ∩ (Y ≤ d)]− −P [(X ≤ b) ∩ (Y ≤ c)] + P [(X ≤ a) ∩ (Y ≤ c)].
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 39 — #51
i
CAPÍTULO 2. VARIABLES ALEATORIAS
39
Independencia estocástica entre variables Función de distribución i) X ⊥ Y ⇒ F (x, y) = FX (x)FY (y), ya que entonces,
F (x, y) = P [(X ≤ x) ∩ (Y ≤ y)] = = P (X ≤ x)P (Y ≤ y) = FX (x)FY (y). ii) F (x, y) = FX (x)FY (y) ⇒ X ⊥ Y,
pues si, por ejemplo, A = (a < X ≤ b) y B = (c < Y ≤ d), P [(a < X ≤ b) ∩ (c < Y ≤ d)] = = F (b, d) − F (b, c) − F (a, d) + F (a, c) = = FX (b)FY (d) − FX (b)FY (c) − FX (a)FY (d) + FX (a)FY (c) = = [FX (b) − FX (a)][FY (d) − FY (c)] = P (a < X ≤ b)P (c < Y ≤ d).
Funciones de densidad 1. Caso discreto i) X ⊥ Y ⇒ f (x, y) = fX (x)fY (y), pues, f (x, y) = P [(X = x) ∩ (Y = y)] = = P (X = x)P (Y = y) = fX (x)fY (y). ii) f (x, y) = fX (x)fY (y) ⇒ X ⊥ Y. Sea, como anteriormente con funciones de distribución, P [(a < X ≤ b) ∩ (c < Y ≤ d)] = = F (b, d) − F (b, c) − F (a, d) + F (a, c). Si demostramos que, por ejemplo, F (b, d) = FX (b)FY (d) entonces queda probada la independencia entre variables aleatorias. En efecto, X X X X F (b, d) = f (xi , yj ) = fX (xi ) fY (yj ) = FX (b)FY (d). xi ≤b yj ≤d
xi ≤b
yj ≤d
2. Caso continuo i) X ⊥ Y ⇒ f (x, y) = fX (x)fY (y), pues entonces, ∂ 2 F (x, y) ∂FX (x) f (x, y) = = ∂x∂y ∂x
∂FY (y) ∂y
= fX (x)fY (y).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 40 — #52
i
40
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
ii) f (x, y) = fX (x)fY (y) ⇒ X ⊥ Y, pues, Rx Ry Fh (x, y) = −∞i −∞ f (u, v)dudv = Rx Ry = −∞ −∞ fY (v)dv fX (u)du = FX (x)FY (y).
EJERCICIOS 2.1. El recorrido de una variable aleatoria X es X(Ω) = {0, 1, 2, 3, 4, 5}. Dada la función f (x) = kx2 , a) Calcúlese el valor de k para que f sea función de densidad de probabilidad de X. b) ¿Cuál es la probabilidad de que X tome valores en el intervalo [0, 3]? c) Calcúlese la función de distribución F de la variable aleatoria X. d) Represéntense gráficamente f y F. 2.2. Sea X una variable aleatoria continua cuya función de densidad de probabilidad es, k(1 + x2 ), 0 < x < 3 f (x) = 0, en el resto, a) Calcúlese el valor de k para que f sea función de densidad de probabilidad de X. b) Calcúlese la función de distribución F de la variable aleatoria X. c) Calcúlese P (1 < X < 2). d) Determínese el valor de la probabilidad P ({X < 2} | {X > 1}). 2.3. La variable aleatoria X tiene una función de densidad de probabilidad igual a, ( 1 , si a < x < b f (x) = b−a 0, en el resto, a) Calcúlese la función de distribución F de la variable aleatoria X. b) Calcúlese la probabilidad de que la variable aleatoria X tome valores entre 0 y 2, sabiendo que a = 0 y b = 4. 2.4. Supóngase que la acumulación de toxinas en cierta especie criada en determinado medio es tal que la variable X(ω) = edad (medida en unidades arbitrarias) del individuo ω en el momento de su muerte, tiene por función de densidad de probabilidad, cx, 1 < x < 2 f (x) = 0, en el resto, a) Calcúlese c y la función de distribución F de la variable aleatoria X. b) Represéntense gráficamente las funciones f y F .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 41 — #53
i
CAPÍTULO 2. VARIABLES ALEATORIAS
41
c) Si un individuo ha alcanzado la edad 1.5, ¿cuál es la probabilidad de que muera después de cumplir 1.7 de edad? ¿Cuál es la probabilidad de que cualquier individuo tomado al azar muera después de cumplir 1.7 de edad? 2.5. Dada la variable aleatoria X encontrar el valor de k para el que la función, kx2 , si − k < x < k f (x) = 0, en el resto, sea una función de densidad de probabilidad. 2.6. Sea f (x; θ) = θf1 (x) + (1 − θ)f2 (x), donde la constante θ ∈ (0, 1). Suponiendo que f1 y f2 son funciones de densidad de probabilidad, pruébese que f es una función de densidad. 2.7. La función de densidad de probabilidad de una variable aleatoria X es, ( 2(1 + x) , si 2 < x < 5 f (x) = 27 0, en el resto, a) Calcúlese P (X < 4). b) Determínese el valor de P (3 < X < 4). 2.8. La función de distribución de la variable aleatoria X = vida de las bacterias de una cierta cepa (tiempo transcurrido hasta su duplicación) es, 1 − e−λx , si x ≥ 0 F (x) = 0, en el resto, siendo λ > 0. a) Calcúlese la función de densidad de probabilidad de la variable aleatoria X. b) ¿Cuál es la probabilidad de que una bacteria tenga un tiempo de vida comprendido entre 2.7 horas y 3 horas, sabiendo que λ = 2.5? c) ¿Cuál es la probabilidad de que una bacteria viva menos de 3 horas, sabiendo que ya ha vivido más de 2.7 horas (λ = 2.5)? 2.9. Sean X e Y dos variables aleatorias con función de densidad de probabilidad conjunta dada por, 1 1 f (1, 1) = 0; f (1, 2) = ; f (1, 3) = ; 6 12 1 1 f (2, 1) = ; f (2, 2) = ; f (2, 3) = 0; 5 9 2 1 1 f (3, 1) = ; f (3, 2) = ; f (3, 3) = . 15 4 18 Calcúlense las funciones de densidad marginales. 2.10. Sean X e Y dos variables aleatorias cuya función de densidad conjunta es, 4x(1 − y), si 0 < x < 1, 0 < y < 1, f (x, y) = 0, en el resto.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 42 — #54
i
42
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
a) Hállese la función de densidad marginal de la variable aleatoria X. b) Calcúlese la función de distribución marginal de la variable aleatoria Y . 2.11. Sean dos variables aleatorias X e Y cuya función de densidad conjunta viene dada por, 1 ; 8 3 f (1, 0) = ; 8
f (0, 0) =
3 ; 8 1 f (1, 1) = . 8 f (0, 1) =
Calcúlese la función de densidad condicionada de la variable aleatoria Y | [X = 0]. 2.12. Las variables aleatorias X e Y tienen la siguiente función de densidad conjunta, 4xy, si 0 < x < 1, 0 < y < 1, f (x, y) = 0, en el resto. a) Calcúlese la función de densidad condicionada de la variable aleatoria X | [Y = y].
b) ¿Son las variables aleatorias X e Y estocásticamente independientes?
2.13. Sean X e Y dos variables aleatorias con función de densidad de probabilidad conjunta, k(x + y), si 0 ≤ x ≤ 2, 0 ≤ y ≤ 2, f (x, y) = 0, en el resto. a) Encuéntrese el valor de k. b) Calcúlese la función de distribución conjunta F de las variables X e Y . c) Calcúlese las funciones de densidad marginales y las funciones de distribución marginales ¿Son las dos variables aleatorias estocásticamente independientes? d) Calcúlese la función de densidad de probabilidad de X supuesto que [Y = 1]. 2.14. En una comunidad de 120 personas 58 son del grupo sanguíneo A, 32 del AB, 20 del grupo B y el resto del grupo O. Seleccionamos al azar 3 individuos de la comunidad y definimos las variables aleatorias X = número de individuos seleccionados del grupo A e Y = número de individuos seleccionados del grupo B. a) Constrúyase la función de densidad de probabilidad conjunta f de X e Y . b) Analícese si las variables aleatorias consideradas son estocásticamente independientes. c) Calcúlese, a partir de la función de densidad conjunta f , la probabilidad de que ningún individuo del grupo A haya sido seleccionado. 2.15. Considérese que, según cierto modelo teórico, la duración del combate ritual entre los machos de cierta especie es una variable aleatoria X con función de densidad de probabilidad: −hx ce , si x ≥ 0 f (x) = 0, en el resto, a) Determínese el signo de h y su valor en función de c.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 43 — #55
i
CAPÍTULO 2. VARIABLES ALEATORIAS
43
b) Calcúlese la función de distribución F de la variable aleatoria X. c) Represéntese gráficamente f y F cuando c = 1. 2.16. Una caja contiene 3 ratas negras, 2 blancas y 3 grises. Seleccionamos al azar un conjunto de 4 ratas y definimos las variables aleatorias X = número de ratas negras seleccionadas e Y = número de ratas blancas seleccionadas. Encuéntrese, a) La función de densidad de probabilidad conjunta de X e Y . b) P [(X, Y ) ∈ A] donde A = {(x, y) | x + y ≤ 2}.
c) La función de densidad condicionada hY |x (y | [X = 2]).
2.17. Consideremos la experiencia de extraer al azar dos individuos de una población y observar su genotipo respecto del sistema de grupos sanguíneos ABO. El primero es un receptor y el segundo un donante. Las proporciones de los diferentes genotipos en la población son para el grupo OO el 30 %, para AO el 10 %, para AA el 30 %, para BO el 15 %, para BB el 5 % y para AB el 10 %. Sobre el correspondiente espacio de probabilidad se consideran las variables aleatorias, X : Ω2 → R, 0, si ωr y ωd son de idéntico genotipo, 1, si ωr y ωd difieren respecto de un alelo, X(ωr , ωd ) = 2, si ωr y ωd difieren respecto de dos alelos. Y : Ω2 → R, Y (ωr , ωd ) =
0, si sus sangres son compatibles, 1, en caso contrario.
a) Determínese la función de densidad de probabilidad de la variable aleatoria bidimensional (X, Y ), y las funciones de densidad marginales. b) Determínese la función de densidad de probabilidad de la variable aleatoria Y en el supuesto de que los individuos difieran en un alelo. Calcúlese la función de densidad de la variable aleatoria X suponiendo compatibilidad sanguínea. c) Analícese si se puede concluir que, al conocer la compatibilidad sanguínea de dos individuos, aumenta la probabilidad de que sean idénticos genotípicamente, disminuye la de que difieran en un alelo y disminuye todavía más la de que difieran en dos alelos. 2.18. Dos variables aleatorias X e Y tienen una función de densidad de probabilidad conjunta definida por, 4xy, si 0 < x < 1, 0 < y < 1, f (x, y) = 0, en el resto. Encuéntrese, a) P ([0 ≤ X ≤ 0.75] ∩ [0.125 ≤ Y ≤ 0.5]).
b) P (Y > X).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 44 — #56
i
44
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
2.19. Dos variables aleatorias X e Y tienen función de densidad de probabilidad conjunta dada por, k(x2 + y 2 ), si 0 < x < 2, 1 < y < 4, f (x, y) = 0, en el resto. Calcúlese, a) k. b) P (1 ≤ X ≤ 2).
c) P ([Y + X] > 4).
2.20. Supongamos que X e Y son dos variables aleatorias cuya función de densidad de probabilidad conjunta viene dada por, f (1, 1) = 0; 1 ; 5 2 f (3, 1) = ; 15 f (2, 1) =
1 ; 6 1 f (2, 2) = ; 9 1 f (3, 2) = ; 4 f (1, 2) =
f (1, 3) =
1 ; 12
f (2, 3) = 0; f (3, 3) =
1 . 18
Calcúlense las funciones de densidad condicionadas ¿Son X e Y variables aleatorias independientes? 2.21. Sean X e Y dos variables aleatorias cuyos recorridos son X(Ω) = {1, 3, 5} e Y (Ω) = {2, 6, 8}, respectivamente. Sabiendo que la función de densidad de probabilidad marginal de X es, fX (1) = 0.2, fX (3) = 0.45, fX (5) = 0.35, y conociendo las siguientes funciones de densidad condicionadas, Y fY |x (y | [X = 1]) fY |x (y | [X = 3]) fY |x (y | [X = 5])
2 0.3 0.15 0.2
6 0.3 0.45 0.2
8 0.4 0.4 0.6
calcúlense fY (2) y P ([X = 3] | [Y = 6]). 2.22. La función de densidad de probabilidad conjunta de las variables aleatorias X, Y y Z viene dada por, ( 4 xyz 2 , si 0 < x < 1, 0 < y < 1, 0 < z < 3 f (x, y, z) = 9 0, en el resto. Encuéntrese, a) La función de densidad de probabilidad marginal conjunta de Y y Z. b) La función de densidad de probabilidad marginal de Y . c) P ([0.25 < X < 0.5] ∩ [Y > 0.3] ∩ [1 < Z < 2]).
d) F ([0.5] | {[Y = 0.25] ∩ [Z = 2]}), siendo F la función de distribución de la variable aleatoria X condicionada al suceso {[Y = 0.25] ∩ [Z = 2]}.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 45 — #57
i
CAPÍTULO 2. VARIABLES ALEATORIAS
45
SOLUCIONES Ejercicio 2.2. a) Dado que,
Z
∞
f (x)dx = 1,
−∞
tenemos, 1=k
Z
3
(1 + x2 )dx = 12k =⇒ k =
0
b) Como, F (x) =
Z
1 . 12
x
f (t)dt,
−∞
entonces, si x ≤ 0, F (x) = 0, 1 Rx x3 1 2 si 0 < x < 3, F (x) = x+ , (1 + t )dt = 12 0 12 3 R 1 3 si x ≥ 3, F (x) = (1 + t2 )dt = 1. 12 0 c) P (1 < X < 2) = F (2) − F (1) =
5 . 18
d) La probabilidad pedida es, P ([X < 2] ∩ [X > 1]) = P (X > 1) 5 P (1 < X < 2) = . = 1 − F (1) 16
P ([X < 2] | [X > 1]) =
Ejercicio 2.3. a) Si x ≤ a entonces, F (x) =
Z
x
f (t)dt = 0,
−∞
ya que f (x) = 0 en este intervalo. Si a < x < b se tiene que, Z x Z F (x) = f (t)dt = −∞
F (x) =
1 x−a dt = . b−a b−a
a
Finalmente si b ≤ x, entonces,
Z
x
x
−∞
f (t)dt =
Z
a
b
1 dt = 1. b−a
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 46 — #58
i
46
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Consecuentemente, si x ≤ a, 0, x−a , si a < x < b, F (x) = b−a 1, si x ≥ b.
b) Siendo a = 0 y b = 4 se tiene que,
P (0 < X < 2) = F (2) − F (0) =
1 . 2
Ejercicio 2.9. Como,
X
fX (x) =
f (x, yi ),
yi ∈Y (Ω)
resulta, fX (1) = f (1, 1) + f (1, 2) + f (1, 3) = 3/12, fX (2) = f (2, 1) + f (2, 2) + f (2, 3) = 14/45, fX (3) = f (3, 1) + f (3, 2) + f (3, 3) = 237/540. Análogamente,
X
fY (y) =
f (xi , y),
xi ∈X(Ω)
de donde, fY (1) = f (1, 1) + f (2, 1) + f (3, 1) = 5/15, fY (2) = f (1, 2) + f (2, 2) + f (3, 2) = 19/36, fY (3) = f (1, 3) + f (2, 3) + f (3, 3) = 5/36. Ejercicio 2.10. a) Dado que, fX (x) =
Z
∞
f (x, y)dy,
−∞
se tiene para 0 < x < 1, 0 < y < 1, fX (x) =
Z
0
1
4x(1 − y)dy = 2x,
que se expresa de la forma, fX (x) =
2x, si 0 < x < 1, 0, en el resto.
b) Calculemos en primer lugar la función de distribución conjunta F , Z x Z y Z xZ y F (x, y) = f (u, v)dudv = 4 u(1 − v)dudv = −∞
−∞
0
0
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 47 — #59
i
CAPÍTULO 2. VARIABLES ALEATORIAS
=4
Z
x
u 0
Z
y
0
(1 − v)dv du = 4 2
=4 y−
y 2
2 x
u 2
0
Z
x 0
47
y v2 du = u v− 2 0
= 2yx2 − y 2 x2 ,
siendo 0 < x < 1, 0 < y < 1. De esta manera, 0, si x ≤ 0 o y ≤ 0, 2yx2 − y 2 x2 , si 0 < x, y < 1, F (x, y) = 1, si x, y ≥ 1.
En consecuencia, y como,
FY (y) = l´ım F (x, y), x→∞
cuando 0 < y < 1, se tiene que, FY (y) = l´ım (2yx2 − y 2 x2 ) = 2y − y 2 . x→1
Con lo que podemos expresar, 0, si y ≤ 0, 2y − y 2 , si 0 < y < 1, FY (y) = 1, si y ≥ 1.
Ejercicio 2.11. Como Y (Ω) = {0, 1} se tiene que,
hY |x (0 | [X = 0]) =
f (0, 0) 1 = , fX (0) 4
ya que, fX (0) = f (0, 0) + f (0, 1) =
1 . 2
Análogamente, hY |x (1 | [X = 0]) =
f (0, 1) 3 = . fX (0) 4
Ejercicio 2.12. a) Localicemos, en primer lugar, la función de densidad marginal de la variable aleatoria Y . Si 0 < y < 1, entonces, Z 1 fY (y) = 4xydx = 2y, 0
con fY (y) = 0, en el resto. De esta forma, hX|y (x | [Y = y]) =
f (x, y) 4xy = = 2x, si 0 < x < 1, fY (y) 2y
siendo igual a cero en el resto.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 48 — #60
i
48
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
b) Calculemos la función de densidad marginal fX para comprobar la independencia de las variables aleatorias. Si 0 < x < 1, entonces, Z 1 fX (x) = 4xydy = 2x, 0
con fX (x) = 0, en el resto. Se observa que, f (x, y) = 4xy = fX (x)fY (y), y, en consecuencia, las variables X e Y son estocásticamente independientes. Ejercicio 2.13. a) Como,
Z
∞
−∞
tenemos que, 1=k
Z
0
2
Z
Z
∞
f (x, y)dxdy = 1,
−∞
2
(x + y)dxdy = k
0
Z
2
(2 + 2y)dy = 8k,
0
de donde k = 0.125. b) Si x o y son inferiores a 0, entonces, Z x Z F (x, y) = −∞
y
f (u, v)dudv = 0,
−∞
ya que en ese campo de variación f (x, y) = 0. Si x e y varían entre 0 y 2 tenemos, Z Z Z 1 x y2 1 x y (u + v)dudv = yu + du = F (x, y) = 8 0 0 8 0 2 1 (yx2 + xy 2 ). 16 Si x e y son mayores que 2, entonces, Z Z 1 2 2 (u + v)dudv = 1. F (x, y) = 8 0 0 =
c) La función de densidad marginal de X es, si 0 ≤ x ≤ 2, Z ∞ Z 1 1 2 fX (x) = f (x, y)dy = (x + y)dy = (x + 1), 8 4 −∞ 0 siendo fX (x) = 0 en los restantes valores de x. Análogamente se calcula, Z 1 2 1 fY (y) = (x + y)dx = (y + 1), si 0 ≤ y ≤ 2 , 8 0 4
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 49 — #61
i
CAPÍTULO 2. VARIABLES ALEATORIAS
49
con fY (y) = 0 en los restantes valores de y. Puesto que, fX (x)fY (y) =
1 1 (x + 1)(y + 1) 6= (x + y) = f (x, y), 16 8
las variables aleatorias X e Y no son estocásticamente independientes. La función de distribución marginal de X es, Z Z x 1 x2 1 x (u + 1)du = + x , 0 ≤ x ≤ 2, FX (x) = fX (u)du = 4 0 4 2 −∞ además, FX (x) = 0, x < 0 FX (x) = 1, x > 2. Análogamente se calcula FY (y). d) Si 0 ≤ x ≤ 2, la función de densidad de X condicionada al suceso [Y = 1] es, hX|y (x | [Y = 1]) =
f (x, 1) x+1 = , fY (1) 4
siendo hX|y cero en los restantes valores de x. Ejercicio 2.16. a) Siendo X(Ω) = {0, 1, 2, 3} e Y (Ω) = {0, 1, 2}, puesto que son cuatro las ratas seleccionadas al azar, tenemos que el recorrido de la variable bidimensional (X, Y ) es, (X, Y )(Ω) = {(0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2), (3, 0), (3, 1)}. Para cualquier par (x, y) del recorrido (X, Y )(Ω) se obtiene el valor de la función de densidad de probabilidad de la forma siguiente, 3 2 3 x y 4−x−y f (x, y) = P ([X = x] ∩ [Y = y]) = . 8 4 b) La probabilidad pedida es, P [(X, Y ) ∈ A] = P ({(x, y) ∈ (X, Y )(Ω) | x + y ≤ 2}) = 1 = f (0, 1) + f (0, 2) + f (1, 0) + f (1, 1) + f (2, 0) = . 2 c) Tenemos que la función de densidad de Y condicionada al suceso [X = 2] se obtiene de la forma, f (2, y) hY |x (y | [X = 2]) = , fX (2)
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 50 — #62
i
50
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y al ser, fX (2) = P (X = 2) = f (2, 0) + f (2, 1) + f (2, 2) =
3 , 7
podemos concluir para los diferentes valores de y que, hY |x (0 | [X = 2]) = 3/10, hY |x (1 | [X = 2]) = 3/5, hY |x (2 | [X = 2]) = 1/10. Ejercicio 2.18. a) La probabilidad que debemos calcular es, 3 1 1 P 0≤X≤ ∩ ≤Y ≤ = 4 8 2 R3R1 15 R 34 135 = 04 12 4xydxdy = xdx = . 8 32 0 1024
b) Siendo 0 < x < 1 e 0 < y < 1, y > x supone que (0 < x < 1) ∩ (x < y < 1). En consecuencia, P (Y > X) = P ([0 < X < 1] ∩ [X < Y < 1]) = i R 1 hR 1 R1 1 = 4 0 x x ydy dx = 2 0 x(1 − x2 )dx = . 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 51 — #63
i
CAPÍTULO
3 Parámetros de una variable aleatoria 3.1 ESPERANZA MATEMÁTICA DE UNA VARIABLE ALEATORIA Existen algunos valores numéricos, llamados parámetros, que asociados a una variable aleatoria y su distribución ayudan a caracterizarla. La esperanza matemática es una medida de centralización, es decir, un parámetro que tiende a situarse en el centro de un conjunto de datos de naturaleza probabilística. También se le denomina parámetro de localización. Definición 3.1 Si X es una variable aleatoria sobre (Ω, A, P ) y f su función de densidad, llamamos esperanza matemática de X, E(X), a P xi f (xi ), x E(X) = i ∈X(Ω) R R xf (x)dx,
dependiendo de si la variable aleatoria es discreta o con distribución absolutamente continua, respectivamente. La esperanza matemática de una variable aleatoria no siempre existe. Es necesario que las anteriores serie e integral sean absolutamente convergentes, lo que significa que la siguiente serie y la integral, Z X |xi | f (xi ) y |x| f (x)dx, xi ∈X(Ω)
R
sean convergentes. A E(X) se le suele denominar también valor esperado, o media de X, así como esperanza matemática, valor esperado o media de la distribución de X.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 52 — #64
i
52
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Propiedades de la esperanza matemática Esperanza de una función de variable aleatoria Ejemplo 3.1 Sea X una variable aleatoria discreta con función de densidad f y recorrido X(Ω) = {−1, 0, 1, 2}. Hagamos Y = u(X) = X 2 , una variable aleatoria con Y (Ω) = {0, 1, 4}, y calculemos la función de densidad g de Y . g(0) = P (Y = 0) = P (X 2 = 0) = P (X = 0) = f (0), g(1) = P (Y = 1) = P (X = −1) + P (X = 1) = f (−1) + f (1), g(4) = P (Y = 4) = P (X = 2) = f (2). De aquí, E(Y ) = E[u(X)] =
P
yi g(yi ) = 0f (0) + 1[f (−1) + f (1)] + 4f (2) =
yi ∈Y (Ω)
= u(0)f (0) + u(−1)fP(−1) + u(1)f (1) + u(2)f (2) = = u(xi )f (xi ). xi ∈X(Ω)
El resultado puede generalizarse para cualquier función u de una variable aleatoria discreta. Nuevamente, la esperanza existirá cuando la serie sea absolutamente convergente. No es dificil comprender por ello, la siguiente definición. Definición 3.2 Sea X una variable aleatoria y u una función tal que u(X) es variable aleatoria. La esperanza de u(X) es, P u(xi )f (xi ), caso discreto, xiR∈X(Ω) E[u(X)] = R u(x)f (x)dx, caso continuo,
siendo f la función de densidad de probabilidad de X. Tanto en el caso discreto como en el continuo, puede observarse que la esperanza de la nueva variable aleatoria u(X) se calcula sin necesidad de conocer su función de densidad. Ejemplo 3.2 Sea,
x2 , −1 < x < 2, f (x) = 0,3 en el resto.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 53 — #65
i
CAPÍTULO 3. PARÁMETROS DE UNA VARIABLE ALEATORIA
53
Entonces la esperanza de Y = 2X − 1 es, E(Y ) =
1 3
Z
2
3 (2x − 1)x2 dx = . 2 −1
Esperanza de una función de dos variables aleatorias Definición 3.3 Sean X e Y dos variables aleatorias discretas y f su función de densidad conjunta. Si Z = u(X, Y ) es una variable aleatoria, su esperanza matemática es, X X E(Z) = u(xi , yj )f (xi , yj ). xi ∈X(Ω) yj ∈Y (Ω)
Si (X, Y ) es una variable aleatoria bidimensional con distribución absolutamente continua, Z = u(X, Y ) tiene como esperanza matemática, Z Z E(Z) = u(x, y)f (x, y)dxdy, R2
siendo f la función de densidad conjunta de X e Y.
Ejemplo 3.3 Sea,
x(1 + 3y 2 ) , 0 < x < 2, 0 < y < 1, f (x, y) = 0, en4el resto.
La esperanza de
Z= es, E(Z) =
Z
0
2Z 1 0
Y , X
yx(1 + 3y 2 ) 5 dxdy = . 4x 8
Otras propiedades de la esperanza matemática 1. E(aX + b) = aE(X) + b, ∀a, b ∈ R. En efecto,
R E(aX + b) = R (ax + b)f (x)dx = R R = a R xf (x)dx + b R f (x)dx = aE(X) + b.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 54 — #66
i
54
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
2. Se verifica, E[u(X, Y ) ± v(X, Y )] = E[u(X, Y )] ± E[v(X, Y )]. Esta propiedad se denomina linealidad de la esperanza matemática, y es demostrable fácilmente teniendo en cuenta la anterior propiedad 1. 3. X ⊥ Y ⇒ E(XY ) = E(X)E(Y ). En efecto,
=
R
E(XY ) =
RR
R
R2
xyf (x, y)dxdy =
R xfX (x)dx R yfY (y)dy
= E(X)E(Y ).
Al sustituir sumatorios por integrales, estas tres últimas propiedades son aplicables a variables aleatorias de tipo discreto. Definición 3.4 Siendo X una variable aleatoria, la esperanza de X k , k ∈ N, P xk f (x), caso discreto, X(Ω) E(X k ) = R xk f (x)dx, caso continuo, R
se denomina momento de orden k respecto al origen, simbolizándose µk (si k = 1, entonces µ1 = E(X) = µ). Definición 3.5 La esperanza matemática de (X − µ)k , k ∈ N, P (x − µ)k f (x), caso discreto, k X(Ω) E[(X − µ) ] = R (x − µ)k f (x)dx, caso continuo, R
se llama momento de orden k respecto a la media.
Definición 3.6 Una variable aleatoria X se dice centrada si E(X) = 0. Si Y es una variable aleatoria con E(Y ) no nula, entonces X = Y − E(Y ) es centrada aplicando la anterior propiedad 1. Simbolizando mediante νk el momento de orden k respecto a la media, Definición 3.7 El sesgo α3 y la curtosis α4 de una distribución, se definen, ν3 α3 = p 3 , ν2 ν4 α4 = 2 , ν2 respectivamente.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 55 — #67
i
CAPÍTULO 3. PARÁMETROS DE UNA VARIABLE ALEATORIA
55
El coeficiente α3 mide la asimetría de la distribución, y α4 , aunque más dificil de interpretar, mide la altura de la distribución. Así, una distribución platicúrtica es una distribución poco alta, una leptocúrtica es una distribución más alta y, por último, una mesocúrtica es una distribución típica.
3.2 VARIANZA DE UNA VARIABLE ALEATORIA La varianza de una variable aleatoria es un parámetro que mide la dispersión de un conjunto de datos en torno a la esperanza matemática. A su raíz cuadrada positiva se le llama desviación típica. Definición 3.8 La varianza de una variable aleatoria X es el momento de orden dos respecto a la media, simbolizándose σ 2 , o var(X). La raíz cuadrada positiva, σ, se llama desviación típica. Una expresión de cálculo para la varianza se obtiene desarrollando la diferencia cuadrática (X − µ)2 , es decir, E[(X − µ)2 ] = E(X 2 ) − E 2 (X). A σ también se le denomina parámetro de escala.
Propiedades de la varianza 1. σ 2 ≥ 0.
Resulta evidente pensando que (X − µ)2 ≥ 0.
2. X ⊥ Y ⇒ var(X + Y ) = var(X) + var(Y ). Suponiendo variables aleatorias continuas,
E{[(X + Y ) − (µX + µY )]2 } = E{[(X − µX ) + (Y − µY )]2 } = = E[(X − µX )2 ] + E[(Y − µY )2 ] + Q, donde, µX = E(X), µY = E(Y ), RR Q = 2 R2 (x − µX )(y − µY )f (x, y)dxdy = R R = 2 R (x − µX )fX (x)dx R (y − µY )fY (y)dy = 0.
3. var(cX) = c2 var(X), ∀c ∈ R. En efecto,
E[(cX − cµX )2 ] = E{[c(X − µX )]2 } = c2 E[(X − µX )2 ].
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 56 — #68
i
56
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
4. var(c + X) = var(X). Ya que, E{[(c + X) − µc+X ]2 } = E[(X − µX )2 ].
3.3 COVARIANZA DE DOS VARIABLES ALEATORIAS Definición 3.9 La covarianza de dos variables aleatorias X e Y es, E[(X − µX )(Y − µY )], simbolizándose σXY , o cov(X, Y ). Proporciona una medida del grado de dependencia estocástica entre dos variables aleatorias, pues se comprueba fácilmente que, E[(X − µX )(Y − µY )] = E(XY ) − E(X)E(Y ), es decir, X ⊥ Y ⇒ cov(X, Y ) = 0, cov(X, Y ) 6= 0 ⇒ X 6⊥ Y .
Siendo X e Y dos variables aleatorias, se verifica,
var(aX + bY ) = a2 var(X) + b2 var(Y ) + 2abcov(X, Y ), como puede comprobarse fácilmente, recordando lo expuesto en la propiedad 2 de la varianza de una variable aleatoria.
3.4 DOS TEOREMAS IMPORTANTES Teorema 3.1 (Teorema de Tchebychev) Sea una variable aleatoria X sobre (Ω, A, P ) con E(X) = µ y var(X) = σ 2 , se verifica, P (µ − kσ < X < µ + kσ) ≥ 1 −
1 , ∀k ∈ R+ . k2
Prueba . Considerando variables aleatorias continuas, R R µ−kσ σ 2 = R (x − µ)2 f (x)dx = −∞ (x − µ)2 f (x)dx+ R µ+kσ R∞ + µ−kσ (x − µ)2 f (x)dx + µ+kσ (x − µ)2 f (x)dx ≥ R µ−kσ R∞ ≥ −∞ (x − µ)2 f (x)dx + µ+kσ (x − µ)2 f (x)dx.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 57 — #69
i
CAPÍTULO 3. PARÁMETROS DE UNA VARIABLE ALEATORIA
57
Dado que en la primera integral, x ≤ µ − kσ ⇒ (x − µ)2 ≥ k 2 σ 2 , y que en la segunda, igualmente, x ≥ µ + kσ ⇒ (x − µ)2 ≥ k 2 σ 2 , se tiene, σ2 ≥
R µ−kσ
R∞ k 2 σ 2 f (x)dx + µ+kσ k 2 σ 2 f (x)dx = R µ+kσ = k 2 σ 2 1 − µ−kσ f (x)dx ,
−∞
es decir que,
1 ≥ 1 − P (µ − kσ < X < µ + kσ), k2
como se quería demostrar. Otras expresiones de este teorema son, P (|X − µ| < kσ) ≥ 1 − P (|X − µ| ≥ kσ) ≤
1 , k2
1 . k2
Teorema 3.2 (Teorema de Schwarz) Se consideran dos variables aleatorias X e Y sobre (Ω, A, P ). Se verifica, E 2 (XY ) ≤ E(X 2 )E(Y 2 ).
Prueba . Sea Z = (aX +Y )2 = X 2 a2 +2XY a+Y 2 , a ∈ C, el conjunto de los números complejos. Al ser Z no negativa, será E(Z) = E(X 2 )a2 + 2E(XY )a + E(Y 2 ) = W (a) ≥ 0, donde W es un polinomio en a de segundo grado. En consecuencia, W (a) > 0 ⇒ 4E 2 (XY ) − 4E(X 2 )E(Y 2 ) < 0 ⇔ E 2 (XY ) < E(X 2 )E(Y 2 ),
W (a) = 0 ⇒ 4E 2 (XY ) − 4E(X 2 )E(Y 2 ) = 0 ⇔ E 2 (XY ) = E(X 2 )E(Y 2 ).
Notemos que con E(Z) = 0, debe ser Z = (aX + Y )2 = 0 dada la definición de esperanza matemática. De aquí que aX + Y = 0, es decir, que X e Y se relacionan linealmente, Y = tX, t = −a.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 58 — #70
i
58
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
3.5 COEFICIENTE DE CORRELACIÓN 2 y σ 2 no nulas. Definición 3.10 Sean X e Y dos variables aleatorias con varianzas σX Y Se llama coeficiente de correlación entre X e Y a,
ρXY =
cov(X, Y ) . σX σY
Propiedades del coeficiente de correlación 1. −1 ≤ ρXY ≤ 1.
Aplicando el teorema de Schwarz a las variables U = X − µX y V = Y − µY , 2 2 E 2 (U V ) ≤ E(U 2 )E(V 2 ) ⇔ cov 2 (X, Y ) ≤ σX σY ⇔ ρ2XY ≤ 1.
2. ρ2XY = 1 ⇔ Y = tX + b, t, b ∈ C.
Veamos la implicación primera. Considerando U y V de la anterior propiedad, ρ2XY =
cov 2 (X, Y ) = 1 ⇔ E 2 (U V ) = E(U 2 )E(V 2 ) ⇔ V = tU, 2 σ2 σX Y
recordando el teorema de Schwarz, y en consecuencia, Y = tX − tµX + µY = tX + b, b una constante. Por otro lado, si Y = tX + b, 2 cov(X, Y ) = E{(X − µX )[tX + b − E(tX + b)]} = tσX ,
y, 2 σY2 = t2 σX .
Por ello, resulta, ρ2XY =
cov 2 (X, Y ) = 1. 2 σ2 σX Y
Analizaremos ahora el signo de t.
2a) Si ρXY = 1 entonces t > 0. En efecto, de un lado, ρXY = 1 ⇒ cov(X, Y ) > 0,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 59 — #71
i
CAPÍTULO 3. PARÁMETROS DE UNA VARIABLE ALEATORIA
59
y, por otro lado, según acabamos de ver, ρ2XY = 1 ⇔ E 2 (U V ) = E(U 2 )E(V 2 ) ⇔ V = tU, con t = −a, según se vio en el teorema de Schwarz. De aquí, a=−
cov(X, Y ) E(U V ) =− < 0 ⇒ t > 0. 2 E(U 2 ) σX
2b) Análogamente, si ρXY = −1 entonces t < 0, pues cov(X, Y ) < 0 y a > 0. 3. Cuando ρXY = 0 las variables X e Y se dicen incorrelacionadas.
3.6 INDEPENDENCIAS ESTOCÁSTICA Y LINEAL Veamos, para finalizar este capítulo, un teorema que relaciona las independencias estocástica y lineal. Teorema 3.3 Independencia estocástica (⊥E ) entre dos variables aleatorias X e Y implica independencia lineal (⊥L ) entre las variables aleatorias, X ⊥E Y ⇒ X ⊥L Y.
Prueba . En efecto, según acabamos de ver, ρ2XY = 1 ⇔ X 6⊥L Y, por tanto, ρXY ∈ (−1, 1) ⇔ X ⊥L Y. Por otro lado, en la definición de covarianza vimos, X ⊥E Y ⇒ cov(X, Y ) = 0 ⇔ ρXY = 0 ∈ (−1, 1) y así, X ⊥E Y ⇒ X ⊥L Y.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 60 — #72
i
60
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
EJERCICIOS 3.1. Sea X una variable aleatoria cuya función de densidad de probabilidad es, f (0) =
1 3 2 , f (1) = , f (2) = . 6 6 6
Calcúlese la esperanza matemática de la variable aleatoria X. 3.2. Sea X una variable aleatoria cuya función de densidad viene dada por, 2(1 − x), si 0 < x < 1 f (x) = 0, en el resto. Calcúlese la esperanza matemática de X. 3.3. Considerando la variable aleatoria del Ejercicio 1., determínese la esperanza matemática de la variable aleatoria Y = X 2 . 3.4. Sean X e Y dos variables aleatorias cuya función de densidad de probabilidad conjunta es, 1 2 1 1 . f (0, 0) = , f (0, 1) = , f (1, 0) = , f (1, 1) = 5 5 5 15 Calcúlese la esperanza matemática de la variable aleatoria Z = X + Y . 3.5. Supóngase que X e Y son variables aleatorias independientes con función de densidad de probabilidad, ( 8 , si x > 2 f (x) = x3 0, en el resto, 2y, si 0 < y < 1 g(y) = 0, en el resto. Calcúlese la esperanza matemática de la variable aleatoria Z = XY .
3.6. Calcúlese la varianza de la variable aleatoria X propuesta en el Ejercicio 1. 3.7. Calcúlese la varianza de una variable aleatoria X cuya función de densidad de probabilidad es, 2(x − 1), si 1 < x < 2 f (x) = 0, en el resto. 3.8. Sean X e Y variables aleatorias discretas con función de densidad de probabilidad conjunta, 1 1 1 1 f (0, 1) = , f (0, −1) = , f (1, 0) = , f (−1, 0) = . 4 4 4 4 ¿Son X e Y variables aleatorias independientes? Calcúlese la covarianza de X e Y . 3.9. Si X e Y son dos variables aleatorias, a) Probar que cov(aX, bY ) = abcov(X, Y ), siendo a y b constantes. b) Si X e Y son independientes con varianzas var(X) = 5 y var(Y ) = 3, hállese la varianza de la variable aleatoria Z = −2X + 4Y − 3.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 61 — #73
i
CAPÍTULO 3. PARÁMETROS DE UNA VARIABLE ALEATORIA
61
3.10. Sea X una variable aleatoria con media µ = 2 y varianza var(X) = 4. Determínese una cota inferior para la probabilidad del suceso, P (−1 < X < 5) . 3.11. Sea X una variable aleatoria, a) Si E(X) = 3 y E(X 2 ) = 13, utilícese la desigualdad de Tchebychev para determinar una cota inferior de P (−2 < X < 8). b) Si E(X) = µ, demuéstrese que P (X > 2µ) ≤ 0.5, sabiendo que P (X ≤ 0) = 0. 3.12. Sea X una variable aleatoria con media µ = 10 y varianza σ 2 = 4. Utilizando la desigualdad de Tchebychev, hállese, a) una cota de P (| X − 10 |≥ 3) , b) una cota de P (5 < X < 15) , c) el valor de c tal que P (| X − 10 |≥ c) ≤ 0.04. 3.13. Sean X e Y las variables aleatorias del Ejercicio 4. Calcúlese el coeficiente de correlación ρ de X e Y . 3.14. Sean X e Y dos variables aleatorias cuya función de densidad de probabilidad conjunta es, x(1 + 3y 2 ) , si 0 < x < 2, 0 < y < 1, f (x, y) = 0, en4el resto. Determínese el coeficiente de correlación ρ de las variables X e Y .
3.15. Las variables X e Y tienen como función de densidad de probabilidad conjunta, ( xy , si 0 < x < 2, 0 < y < 2, f (x, y) = 4 0, en el resto. a) Calcúlese su coeficiente de correlación. b) ¿Son variables aleatorias independientes? 3.16. Sean X e Y dos variables aleatorias respectivamente, f (x) = g(y) =
independientes cuyas funciones de densidad son, e−x , si x > 0 0, en el resto, y2 , si − 1 < y < 2 3 0, en el resto.
Calcúlese la varianza de la variable aleatoria Z = 3X + 2Y − 5.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 62 — #74
i
62
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
3.17. Calcúlese la esperanza matemática y la varianza de la variable aleatoria X que tiene la siguiente función de distribución, 0, si x < 0 x , si 0 ≤ x < 2 8 F (x) = x2 , si 2 ≤ x < 4 16 1, si x ≥ 4.
3.18. Sean X e Y dos variables aleatorias cuya función de densidad de probabilidad conjunta es, 2 4 3 f (1, 1) = , f (1, 2) = , f (1, 3) = , 15 15 15 1 1 4 f (2, 1) = , f (2, 2) = , f (2, 3) = , 15 15 15 y cero en el resto. Determínese el coeficiente de correlación ρ entre dichas variables aleatorias.
SOLUCIONES Ejercicio 3.1. Dado que X es una variable aleatoria de tipo discreto se tiene que, 1 3 2 7 E(X) = 0 +1 +2 = . 6 6 6 6 Ejercicio 3.2. Como X es una variable con distribución absolutamente continua tenemos que, E(X) =
Z
0
1
2x(1 − x)dx =
1 . 3
Ejercicio 3.6. Calculemos en primer lugar, 1 3 2 11 E(X ) = 0 +1 +4 = , 6 6 6 6 2
y como, 7 , 6 según el resultado del Ejercicio 3.1., resulta que, E(X) =
σ 2 = E(X 2 ) − E 2 (X) =
17 . 36
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 63 — #75
i
CAPÍTULO 3. PARÁMETROS DE UNA VARIABLE ALEATORIA
63
Ejercicio 3.7. Utilizando la expresión σ 2 = E(X 2 ) − E 2 (X), se tiene,
con lo que,
R2
5 , 3 R 17 2 E(X 2 ) = 1 2x2 (x − 1)dx = , 6 E(X) =
1
2x(x − 1)dx =
σ2 =
1 . 18
Ejercicio 3.13. Como cov(X, Y ) = E(XY ) − E(X)E(Y ), y se trata de variables de tipo discreto tenemos, 1 2 1 1 1 E(XY ) = 0 +0 +0 +1 = , 5 5 5 5 5 3 2 2 E(X) = 0 +1 = , 5 5 5 3 3 2 +1 = , E(Y ) = 0 5 5 5
con lo que,
cov(X, Y ) = −
1 . 25
Calculemos las correspondientes varianzas, 2 σX =
6 2 6 ,σ = , 25 Y 25
al ser, E(X 2 ) =
2 3 , E(Y 2 ) = . 5 5
Así, podemos concluir, ρXY =
cov(X, Y ) 1 =− . σX σY 6
Ejercicio 3.14. Dado que estamos ante un caso de tipo continuo, Z 2Z 1 2 Z 2 5 5 yx (1 + 3y 2 ) dxdy = x2 dx = . E(XY ) = 4 16 6 0 0 0 Por otro lado,
5 4 , E(Y ) = , 3 8 ya que las funciones de densidad de X e Y son, R1 x fX (x) = 0 f (x, y)dy = , si 0 < x < 2, 2 R2 1 + 3y 2 fY (y) = 0 f (x, y)dx = , si 0 < y < 1. 2 E(X) =
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 64 — #76
i
64
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Como puede apreciarse, las variables X e Y son estocásticamente independientes ya que, f (x, y) = fX (x)fY (y). En consecuencia, cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0 y ρXY = 0.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 65 — #77
i
CAPÍTULO
4 Transformación de variables aleatorias 4.1 INTRODUCCIÓN En este capítulo introducimos el método que permite calcular la distribución de una función de una, dos, o más variables aleatorias. Así, por ejemplo, siendo X e Y dos variables aleatorias independientes, se trata de obtener la función de distribución de Z = u(X, Y ) = XY . Como veremos más adelante, en los capítulos correspondientes a Inferencia estadística, existen ciertas distribuciones como la t de Student o la F de Fisher-Snedecor, sobre las que se basa gran parte de la teoría relacionada con la estimación y el contraste de hipótesis. También en los modelos lineales como el análisis de la varianza y de la regresión lineal, estas distribuciones tienen gran importancia. Pues bien, dichas dos distribuciones son el resultado de la transformación de dos variables aleatorias independientes, específicamente, del cociente entre ellas. De aquí la importancia de comprender las técnicas por las que, dadas unas variables aleatorias y alguna operación algebraica entre ellas, podemos encontrar la distribución de la variable aleatoria resultante. Existen diversos métodos para localizar la distribución de una función de una o más variables aleatorias. Restringiremos su estudio a dos, el cambio o la transformación de variables, y la función generadora de momentos. En cualquier caso, resaltamos que algunos de los conceptos que a continuación se emplean requieren un buen conocimiento de resultados que pertenecen al ámbito del análisis matemático, cuya formulación rigurosa nosotros aquí no podemos describir dado el objetivo de este libro, pero que el lector interesado puede encontrar en, por ejemplo, las obras de Apóstol (1991) y Rudin (1976).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 66 — #78
i
66
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
4.2 TRANSFORMACIÓN DE VARIABLES Nos limitaremos a considerar los casos univariante y bivariante. Así, dada X hallaremos la distribución de Y = u(X), o también, dadas X e Y calcularemos la distribución conjunta de Z = u(X, Y ) y T = v(X, Y ). Veremos en primer lugar el caso discreto y luego el continuo. En cada caso, exponemos primero el estudio de variables aleatorias univariantes, y a continuación las bivariantes. Por último, también en cada caso, veremos transformaciones biyectivas y después los casos no biyectivos. El procedimiento a seguir será desarrollar un ejemplo, enunciar el teorema correspondiente y demostrarlo.
4.2.1.
Caso discreto, univariante y biyectivo
Ejemplo 4.1 Sea X una variable aleatoria con, ( x+1 , x = 0, 1, 2, 3, 4, 5 f (x) = 21 0, en el resto. Sea Y = u(X) = X − 2, la variable aleatoria cuya función de densidad queremos calcular. Definimos los recorridos de X e Y como A = {0, 1, 2, 3, 4, 5} y B = {−2, −1, 0, 1, 2, 3}. Observamos que ∀x ∈ A obtenemos mediante u un solo valor y ∈ B, y ∀y ∈ B también un solo valor x ∈ A, calculado de, X = w(Y ) = Y + 2, la transformación inversa de u. En consecuencia, u es una biyección entre los puntos de A y los de B. Llamando g a la función de densidad de la variable Y, g(y) = P (Y = y) = P (X − 2 = y) = y+3 = P (X = y + 2) = , y ∈ B. 21 Teorema 4.1 Sea X una variable aleatoria discreta con función de densidad f y A = {x | f (x) > 0}. Supongamos que Y = u(X) define una transformación biyectiva de A
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 67 — #79
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
67
en B = Y (Ω), siendo X = w(Y ) su inversa. La función de densidad de Y viene dada por, f [w(y)], y ∈ B g(y) = 0, en el resto.
Prueba . Dado que u es una transformación biyectiva, los sucesos {u(X) = y} y {X = w(y)} tienen la misma probabilidad, de forma que llamando g la función de densidad de Y, tenemos, g(y) = P (Y = y) = P [u(X) = y] = = P [X = w(y)] = f [w(y)], y ∈ B, siendo B = Y (Ω). Si y ∈ / B, entonces g(y) = 0.
4.2.2.
Caso discreto, univariante y no biyectivo
Ejemplo 4.2 Supongamos que en el ejemplo anterior definimos, Y = u(X) = (X − 2)2 . Ahora B = {0, 1, 4, 9}, y distintos valores de A se proyectan en el mismo valor de B; por ejemplo, x = 0 y x = 4 se transforman en y = 4. Por tanto, u no es biyectiva. Siendo g la función de densidad de Y, 3 , 21 6 g(1) = P [(X − 2)2 = 1] = P (X = 1) + P (X = 3) = f (1) + f (3) = , 21 6 g(4) = P [(X − 2)2 = 4] = P (X = 0) + P (X = 4) = f (0) + f (4) = , 21 6 g(9) = P [(X − 2)2 = 9] = P (X = 5) = f (5) = . 21 g(0) = P (Y = 0) = P [(X − 2)2 = 0] = f (2) =
Notemos que para los valores y ∈ B que son imagen de más de un x ∈ A, g(y) es la suma de las funciones de densidad f en cada una de dichas x ∈ A. Teorema 4.2 Sea X una variable aleatoria discreta con función de densidad f y A = {x | f (x) > 0}. Supongamos que Y = u(X) define una transformación no biyectiva de A en B = Y (Ω). La función de densidad de Y viene dada por, X g(y) = f (xi ), y ∈ B. {i|u(xi )=y}
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 68 — #80
i
68
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Prueba . En efecto, cuando y ∈ B, la probabilidad del suceso {Y = y} es la misma que la del suceso que es unión de los sucesos {X = xi | u(xi ) = y}. Así, =P
g(y) = P (Y = y) = P [u(X) = y] = P {X = xi | u(xi ) = y} = P (X = xi ) = i {i|u(xi )=y} P = f (xi ), y ∈ B.
S
{i|u(xi )=y}
4.2.3.
Caso discreto, bivariante y biyectivo
Ejemplo 4.3 Sean X e Y dos variables aleatorias con función de densidad de probabilidad conjunta, f (x, y) =
exp[−(µ1 + µ2 )]µx1 µy2 x = 0, 1, 2, ... , y = 0, 1, 2, ... x!y!
Calcularemos la función de densidad conjunta de Z = u(X, Y ) = X + Y y T = v(X, Y ) = Y. Notemos que X = u−1 (Z, T ) = Z − T, la inversa de u, debe ser positiva o cero, es decir, Z ≥ T. Observamos, además, que u y v definen una transformación biyectiva de A = {(x, y) | x, y = 0, 1, 2, ...} en B = {(z, t) | z = 0, 1, 2, ...; t = 0, 1, ..., z}. Con la misma argumentación que en el caso univariante, la función de densidad conjunta g de Z y T es, g(z, t) = f [u−1 (z, t), v −1 (z, t)] = f (z − t, t) = =
t exp[−(µ1 + µ2 )]µz−t 1 µ2 z = 0, 1, 2, ... , t = 0, 1, ..., z (z − t)!t!
Este procedimiento para calcular la función de densidad conjunta de dos variables aleatorias es útil para resolver el siguiente problema, planteado con frecuencia. Ejemplo 4.4 Siendo X, Y y f las variables aleatorias y función de densidad conjunta, respectivamente, definidas en el anterior Ejemplo 4.3, se nos pide calcular la función de densidad de la variable Z = X + Y. Puesto que originariamente tratamos con dos variables X e Y, para resolver el problema deberemos generar otra variable, por ejemplo T, que sea la función más simple
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 69 — #81
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
69
posible de X e Y, sea T = Y. A continuación hallamos la función de densidad conjunta de Z y T - la función g del Ejemplo 4.3 - y, finalmente, la función de densidad marginal de Z. En este caso, por tanto, gZ (z) =
z P
z exp[−(µ1 + µ2 )] P z! t µz−t 1 µ2 = z! (z − t)!t! t=0 t=0 z z exp[−(µ1 + µ2 )] P t µz−t = 1 µ2 = z! t=0 t
=
g(z, t) =
exp[−(µ1 + µ2 )] (µ1 + µ2 )z , z = 0, 1, 2, ... z!
Observemos la importancia de determinar correctamente el conjunto B para obtener la función de densidad marginal. Teorema 4.3 Sean X e Y dos variables aleatorias discretas con función de densidad conjunta f y A = {(x, y) | f (x, y) > 0}. Supongamos que Z = u(X, Y ) y T = v(X, Y ) definen una transformación biyectiva de A en B = (Z, Y )(Ω). Siendo X = u−1 (Z, T ) e Y = v −1 (Z, T ) la transformación inversa, la función de densidad conjunta de Z y T es, g(z, t) = f [u−1 (z, t), v −1 (z, t)], (z, t) ∈ B.
Prueba . La demostración de este resultado no tiene dificultad teniendo en cuenta lo dicho en el caso univariante.
4.2.4.
Caso discreto, bivariante y no biyectivo
Ejemplo 4.5 Sean X e Y dos variables aleatorias discretas con función de densidad conjunta dada por, A (0, 0) (0, 1) (1, 0) (1, 1) 1 3 1 1 f (x, y) 6 6 6 6 Calcúlese la función de densidad conjunta de Z = u(X, Y ) = X + Y y T = v(X, Y ) = |Y − X| . El conjunto B de imágenes de la transformación es {(0, 0), (1, 1), (2, 0)}, pudiéndose observar que no es una biyección pues (0, 1) y (1, 0) proyectan en la misma imagen
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 70 — #82
i
70
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
(1, 1). La función de densidad g de Z y T es entonces, 1 6 4 g(1, 1) = f (0, 1) + f (1, 0) = 6 1 g(2, 0) = f (1, 1) = 6 g(0, 0) = f (0, 0) =
Nótese que la función de densidad g en el punto de B que es imagen de más de un punto de A se calcula sumando los valores que toma f en los puntos de A. Teorema 4.4 Sean X e Y dos variables aleatorias discretas con función de densidad f y A = {(x, y) | f (x, y) > 0}. Supongamos que Z = u(X, Y ) y T = v(X, Y ) es una transformación no biyectiva de A en B = (Z, T )(Ω). La función de densidad conjunta g de las variables aleatorias Z y T es, X g(z, t) = f (x, y), (z, t) ∈ B. {(x,y)|u(x,y)=z,v(x,y)=t}
Prueba . La demostración es análoga a la expuesta en el caso univariante.
4.2.5.
Caso continuo, univariante y biyectivo
Ejemplo 4.6 Sea X una variable aleatoria continua con función de densidad dada por, f (x) = 2x, 0 < x < 1, y sea A = {x | f (x) > 0} = (0, 1). Definamos la variable aleatoria Y = u(X) = X 2 con conjunto imagen B √ = {y | 0 < y < 1}, siendo la transformación u biyectiva, con inversa X = w(Y ) = + Y . En consecuencia, ∀a, b ∈ B : 0 < a < b < 1, la √ probabilidad del suceso (a < Y < √ b) es la misma que la del suceso (+ a < X < + b), como puede apreciarse en la Figura 4.1. Llamando g a la función de densidad de Y, tenemos, Z b Z + √b √ √ P (a < Y < b) = g(y)dy = P (+ a < X < + b) = √ f (x)dx, a
+ a
que haciendo el siguiente cambio de variable, √ x = w(y) = + y dy dx = √ , 2 y
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 71 — #83
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
71
Figura 4.1
queda, P (a < Y < b) =
Z
b
g(y)dy = a
Z
b a
Z b √ f (+ y)dy dy. = √ 2 y a
Dado que la función de densidad de Y es la única que verifica la anterior igualdad, debe ser g(y) = 1, 0 < y < 1. Teorema 4.5 Sea X una variable aleatoria continua con función de densidad f y A = {x | f (x) > 0}. Supongamos que Y = u(X) define una transformación biyectiva de A en B = Y (Ω), siendo X = w(Y ) su inversa. Si la derivada dw(y)/dy = w′ (y) es continua y no nula en todo y ∈ B, la función de densidad de Y es, g(y) =
f [w(y)] |w′ (y)| , y ∈ B 0, en el resto.
Prueba . Como u es biyectiva, existe su inversa w que será estrictamente creciente o decreciente. Demostraremos el teorema en ambos casos. Sea w una función estrictamente creciente, como veíamos en la Figura 4.1. Entonces ∀a, b ∈ B : a < b, se tiene que la probabilidad de los sucesos (a < Y < b) y [w(a) < X < w(b)] es la misma. Por tanto, Z
a
b
g(y)dy = P (a < Y < b) = P [w(a) < X < w(b)] =
Z
w(b)
f (x)dx, w(a)
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 72 — #84
i
72
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
que efectuando el cambio de variable x = w(y), queda, Z b Z b g(y)dy = f [w(y)]w′ (y)dy. a
a
Esta integral existe ya que la derivada de w es continua en B. Concluimos, por tanto, que g(y) = f [w(y)]w′ (y) ya que g(y) ≥ 0 al ser f función de densidad y w′ > 0, pues con w estrictamente creciente, w′ (y) = l´ım
h→0
w(y + h) − w(y) > 0. h
Supongamos ahora que w es estrictamente decreciente. Como puede verse en la Figura 4.2, se verifica, ∀a, b ∈ B | a < b : P (a < Y < b) = P [w(b) < X < w(a)], es decir,
Z
b
g(y)dy = a
Z
w(a)
f (x)dx. w(b)
Figura 4.2
Con el cambio de variable x = w(y) queda, Z b Z a Z b ′ f [w(y)]w (y)dy = − f [w(y)]w′ (y)dy, g(y)dy = a
b
a
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 73 — #85
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
73
al ser a < b. Al igual que antes, esta integral existe dado que w′ es continua. De aquí que g(y) = −f [w(y)]w′ (y). Subrayamos que g(y) ≥ 0, pues al ser w estrictamente decreciente, w(y + h) − w(y) < 0. h→0 h
w′ (y) = l´ım
Considerando, por ello, tanto el caso estrictamente creciente como el estrictamente decreciente, tenemos, f [w(y)] |w′ (y)| , y ∈ B g(y) = 0, en el resto, como se quería demostrar.
4.2.6.
Caso continuo, univariante y no biyectivo
Ejemplo 4.7 Sea X una variable aleatoria con función de densidad de probabilidad, 2 x exp − 2 √ f (x) = , −∞ < x < ∞, 2π y consideremos la variable aleatoria Y = u(X) = X 2 , cuya función de densidad g deseamos localizar. La transformación u asocia a cada elemento x ∈ A = {x | f (x) > 0} = R un elemento y ∈ B = {y | 0 ≤ y < ∞}. Sin embargo, a cada y ∈ B le corresponden √ x = ± y, excepto y = 0 y, en consecuencia, u no es biyectiva. Estableceremos entonces una partición de A en dos subconjuntos A1 y A2 , con la condición de que A = A1 ∪ A2 y que u aplique biyectivamente Ai , i = 1, 2, en B. Así, A1 = {x | −∞ < x < 0}, A2 = {x | 0 ≤ x < ∞}. Es evidente que A1 no se aplica en B, sino en {y | 0 < y < ∞}. Una manera de resolver problemas como éste es cambiar f de forma que f (0) = 0. Como vimos, esto no altera la función de distribución de X al ser una variable con distribución absolutamente continua. Por tanto, A = {x | f (x) > 0} = R − {0}, A1 = {x | −∞ < x < 0}, A2 = {x | 0 < x < ∞}, B = {y | 0 < y < ∞}.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 74 — #86
i
74
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
√ La transformación u de A1 en B tiene como inversa X = w (Y ) = − Y , en tanto 1 √ que u de A2 en B define la inversa X = w2 (Y ) = + Y . Como se aprecia en la Figura 4.3, ocurre que, √ √ √ √ P (a < Y < b) = P (− b < X < − √a) + P ( a < X < b) = R b R − √a = √ f (x)dx + √a f (x)dx. − b
Figura 4.3
√ √ Haciendo x = − y en la primera integral, y x = y en la segunda,
√ √ R a f (− y) R b f ( y) P (a < Y < b) = a g(y)dy = − b √ dy + a √ dy = 2 y 2 y √ √ R b f (− y) + f ( y) = a dy, ∀a, b ∈ B | a < b. √ 2 y Rb
Dado que la función de densidad de Y es la única que verifica esta igualdad, concluimos que, y √ √ exp − f (− y) + f ( y) g(y) = = √ 2 , y > 0. √ 2 y 2πy Teorema 4.6 Sea X una variable aleatoria continua con función de densidad f y A = {x | f (x) > 0}. Supongamos que Y = u(X) es una transformación no biyectiva de A en B = Y (Ω) y que puede establecerse en A una partición de k clases {A1 , ..., Ak } de
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 75 — #87
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
75
manera que u defina una transformación biyectiva de cada Ai , i = 1, ..., k en B. Si las inversas X = wi (Y ) de u para x ∈ Ai , i = 1, ..., k tienen derivada continua y no nula en B, la función de densidad g de Y es, g(y) =
k X i=1
f [wi (y)] wi′ (y) , y ∈ B.
Prueba . En efecto, sean a, b ∈ B | a < b. Las inversas wi serán funciones estrictamente crecientes o decrecientes. Imaginemos que w1 es estrictamente creciente, w2 es estrictamente decreciente, w3 es estrictamente creciente, etc. Entonces, Rb P (a < Y < b) = a g(y)dy = = P [w1 (a) < X < w1 (b)] + P [w2 (b) < X < w2 (a)] + ... Si wi es estrictamente creciente, P [wi (a) < X < wi (b)] =
Z
wi (b)
f (x)dx = wi (a)
Z
a
b
f [wi (y)]wi′ (y)dy,
existe por ser wi′ continua y mayor que cero. Si wi es estrictamente decreciente, R w (a) P [wi (b) < X < wi (a)] = wii(b) f (x)dx = Rb Rb = − a f [wi (y)]wi′ (y)d = a f [wi (y)] |wi′ (y)| dy.
En consecuencia,
k R Rb P b ′ P (a < Y < b) = a g(y)dy = a f [wi (y)] |wi (y)| dy = i=1 k Rb P ′ = a f [wi (y)] |wi (y)| dy, ∀a, b ∈ B | a < b. i=1
De aquí,
g(y) =
k X i=1
4.2.7.
f [wi (y)] wi′ (y) , y ∈ B.
Caso continuo, bivariante y biyectivo
Ejemplo 4.8 Sean X e Y dos variables aleatorias con función de densidad, f (x, y) = 4xy, 0 < x < 1, 0 < y < 1.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 76 — #88
i
76
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Hállese la función de densidad conjunta de las variables Z = u(X, Y ) = X 2 y T = v(X, Y ) = XY. Las transformaciones inversas, u−1 y v −1 , de las dadas, son, √ X = u−1 (Z, T ) = + Z, T Y = v −1 (Z, T ) = √ , + Z √ con Z(Ω) = (0, 1) y T (Ω) = (0, + z) pues 0 < y =
t √ < 1. + z Notemos que la transformación dada es biyectiva de, A = {(x, y) | 0 < x < 1, 0 < y < 1},
en,
√ B = {(z, t) | 0 < z < 1, 0 < t < + z}. De forma similar al caso univariante, g(z, t) = f [u−1 (z, t), v −1 (z, t)] |J| ,
donde J, el jacobiano de la transformación inversa, es, ∂u−1 ∂u−1 ∂z ∂t . J = −1 −1 ∂v ∂v ∂z ∂t En el ejemplo propuesto,
por lo que,
1 +2√z J = − t 2z 3/2 g(z, t) = f
√
0 = 1 = |J| , 1 2z √ + z
t z, √ + z
1 2t = , (z, t) ∈ B. 2z z
Teorema 4.7 Sean X e Y variables aleatorias de tipo continuo con función de densidad conjunta f y A = {(x, y) | f (x, y) > 0}. Supongamos que Z = u(X, Y ) y T = v(X, Y ) definen una transformación biyectiva de A en B = (Z, T )(Ω), siendo X = u−1 (Z, T ) e Y = v −1 (Z, T ) su inversa. Si las derivadas parciales de primer orden de
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 77 — #89
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
77
u−1 y v −1 son continuas en B, y el jacobiano de la transformación inversa J, definido por el determinante, ∂u−1 ∂u−1 ∂z ∂t , J = −1 −1 ∂v ∂v ∂z ∂t es distinto de cero en B, entonces la función de densidad conjunta g de Z y T es, g(z, t) = f [u−1 (z, t), v −1 (z, t)] |J| , (z, t) ∈ B.
Prueba . La demostración de este resultado no presenta dificultades teniendo en cuenta la demostración efectuada en el caso univariante continuo biyectivo. Al igual que ocurre con el caso discreto bivariante, puede hallarse la función de densidad marginal de una de las variables aleatorias integrando la función de densidad conjunta respecto a la otra variable. En otras palabras, puede resolverse el problema de hallar la función de densidad de una variable aleatoria que es función de otras dos, conocida la función de densidad conjunta de éstas.
4.2.8.
Caso continuo, bivariante y no biyectivo
Ejemplo 4.9 Sean X e Y dos variables aleatorias con la siguiente función de densidad, 2 x + y2 exp − 2 f (x, y) = , (x, y) ∈ R2 . 2π Localícese la función de densidad conjunta de, X +Y , 2 2 (X − Y ) . T = v(X, Y ) = 2 Z = u(X, Y ) =
Llamando A = {(x, y) | f (x, y) > 0} = R2 , la transformación inversa es, √ 2T X=Z± 2 √ 2T Y =Z∓ . 2
Como se aprecia, la transformación no es biyectiva, de forma que seguiremos un procedimiento similar al empleado en el caso continuo univariante no biyectivo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 78 — #90
i
78
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Notemos que, dadas u y v, −∞ < Z < ∞ y T ≥ 0. De aquí que el punto del plano real con coordenadas, √ √ ! 2t 2t x=z+ ,y = z − , 2 2 es tal que x > y, en tanto que en el punto de coordenadas, √ √ ! 2t 2t x=z− ,y = z + , 2 2 sucede que x < y. En consecuencia, en A puede definirse la siguiente partición, A1 = {(x, y) | −∞ < x, y < ∞ : x ≤ y} A2 = {(x, y) | −∞ < x, y < ∞ : x > y}. El conjunto A1 se proyecta en el conjunto {(z, t) | −∞ < z < ∞, t ≥ 0}, mientras que el conjunto A2 se aplica en {(z, t) | −∞ < z < ∞, t > 0}, distinto del anterior. La diferencia reside en t = 0, esto es en los pares (x, y) tales que x = y. Como en el caso univariante, hacemos f (x, y) = 0, ∀(x, y) ∈ A | x = y; como sabemos, esto no altera la función de distribución conjunta de X e Y. Por tanto, tenemos, A = {(x, y) | −∞ < x, y < ∞ : x 6= y}, A1 = {(x, y) | −∞ < x, y < ∞ : x < y}, A2 = {(x, y) | −∞ < x, y < ∞ : x > y}, B = {(z, t) | −∞ < z < ∞, t > 0}, siendo B el conjunto imagen de A, A1 y A2 . Entre A1 y B existe una transformación biyectiva, cuya inversa es, √ 2T −1 X = u1 (Z, T ) = Z − 2 √ 2T Y = v1−1 (Z, T ) = Z + , 2 con, 1 1 − √ 1 2 2t J1 = = √2t = |J1 | , 1 1 √ 2 2t siendo J1 el jacobiano de la transformación inversa. Entre A2 y B existe una transformación biyectiva, cuya inversa es, √ 2T −1 X = u2 (Z, T ) = Z + 2 √ 2T Y = v2−1 (Z, T ) = Z − , 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 79 — #91
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
79
con, 1 √ 1 2 2t J2 = 1 − √1 2 2t
= − √1 ⇒ |J2 | = √1 , 2t 2t
siendo J2 el jacobiano de la transformación inversa. La función de densidad conjunta g de Z y T es,
−1 −1 −1 g(z, t) = f [u−1 1 (z, t), v1 (z, t)] |J1 | + f [u2 (z, t), v2 (z, t)] |J2 | =
2z 2 + t exp − 2 √ = , (z, t) ∈ B. π 2t
Teorema 4.8 Sean X e Y dos variables aleatorias continuas con función de densidad conjunta f y A = {(x, y) | f (x, y) > 0}. Sea Z = u(X, Y ) y T = v(X, Y ) una transformación no biyectiva de A en B = (Z, T )(Ω). Supongamos que puede establecerse una partición de A en {A1 , ..., Ak } de manera que la transformación es biyectiva de −1 cada Ai , i = 1, ..., k en B. Si las inversas X = u−1 i (Z, T ), Y = vi (Z, T ), i = 1, ..., k de B en Ai tienen derivadas parciales de primer orden continuas en B y los jacobianos de dichas transformaciones inversas, ∂u−1 i ∂z Ji = ∂v −1 i ∂z
∂u−1 i ∂t ∂vi−1 ∂t
, 1 ≤ i ≤ k,
son distintos de cero en B, entonces la función de densidad conjunta g de Z y T es,
g(z, t) =
k X i=1
−1 f [u−1 i (z, t), vi (z, t)] |Ji | , (z, t) ∈ B.
Prueba . El procedimiento para demostrar este teorema es análogo al ya visto para el caso continuo univariante no biyectivo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 80 — #92
i
80
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
4.3 FUNCIONES GENERADORAS DE MOMENTOS Definición 4.1 Si X es una variable aleatoria, la función generadora de momentos, MX (t), de X es, P exp(txi )f (xi ), ∀t | −h < t < h, h ∈ R+ , xR i ∈X(Ω) MX (t) = E[exp(tX)] = ∞ exp(tx)f (x)dx, ∀t | −h < t < h, h ∈ R , + −∞
siendo f la función de densidad de X.
La función MX (t) existe solo si las anteriores suma e integral son absolutamente convergentes. Proposición 4.1 Sea X una variable aleatoria, y sea MX (t) su función generadora de momentos. El momento respecto del origen de orden r, µr , de la variable aleatoria X es, ∂ r MX (t) r µr = E(X ) = . ∂tr t=0 Prueba . Si la función generadora de momentos existe, es continuamente diferenciable en algún entorno de cero. Así, P xr exp(txi )f (xi ), caso discreto, r ∂ MX (t) xi ∈X(Ω) i = ⇒ ∂tr R ∞ xr exp(tx)f (x)dx, caso continuo. −∞ P xri f (xi ), r ∂ MX (t) xi ∈X(Ω) ⇒ = µr = ∂tr t=0 R ∞ xr f (x)dx. −∞
4.3.1.
Propiedades de la función generadora de momentos
Cuando la función generadora de momentos existe, caracteriza un conjunto infinito de momentos, µr , r = 0, 1, 2, ... De aquí que surja la pregunta de si este conjunto infinito de momentos respecto al origen caracteriza univocamente una función de distribución. Veámoslo con un ejemplo. Ejemplo 4.10 Consideremos dos variables aleatorias con las siguientes funciones de densidad, ! 1 [ln(x)]2 f1 (x) = √ exp − ,0 ≤ x < ∞ 2 x 2π f2 (x) = f1 (x)(1 + sen[2π ln(x)]), 0 ≤ x < ∞.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 81 — #93
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
81
Se verifica, como vimos, que siendo f1 (x) la función de densidad de X1 , X1 ∼ f1 (x), Z ∞ E(X1r ) = xr f1 (x)dx. 0
Llamando X2 ∼ f2 (x), tenemos,
R∞ E(X2r ) = 0 Rxr f1 (x)(1 + sen[2π ln(x)])dx = ∞ = E(X1r ) + 0 xr f1 (x) sen[2π ln(x)]dx =
que con el cambio de variable,
y = ln(x) − r, será, = E(X1r ) +
R∞
−∞ exp[(r
+ 1)(y + r)]f1 [exp(y + r)] sen[2π(y + r)]dy = = E(X1r ),
pues en el integrando tenemos una función impar - recordemos que esto supone f (x) = −f (−x) - por toda la recta real, lo que implica que la integral es cero. Por tanto, X1 y X2 tienen distintas funciones de densidad pero iguales momentos. La gráfica de estas dos funciones puede verse en la Figura 4.4.
Figura 4.4
A continuación exponemos dos teoremas cuyas demostraciones se basan en la teoría de las transformadas de Laplace (consúltese, por ejemplo, [17]). La función generadora
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 82 — #94
i
82
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
de momentos de una variable aleatoria es un ejemplo de transformada de Laplace de la función f , Z MX (t) =
∞
exp(tx)f (x)dx.
−∞
Interesa destacar ahora que una de las propiedades más importantes de las transformadas de Laplace es su univocidad. Es decir, si se cumple que, ∀t | −h < t < h, h ∈ R+ , la función MX (t) existe, entonces hay una sola f que la satisface. Creemos que con estas consideraciones previas, los dos teoremas que siguen, cuyas demostraciones rigurosas se basan en cuestiones técnicas que omitiremos, resultan bastante razonables. Teorema 4.9 Sea X e Y dos variables aleatorias con funciones de distribución FX y FY , respectivamente. Si MX (t) y MY (t) existen y ∀t ∈ (−h, h), h ∈ R+ se verifica que MX (t) = MY (t), entonces las funciones de distribución de las variables aleatorias son iguales, FX = FY . Teorema 4.10 Si el recorrido de las distribuciones FX y FY está acotado, entonces FX = FY si y solo si E(X r ) = E(Y r ) para todo r = 0, 1, 2, ...
Proposición 4.2 MX+a (t) = exp(at)MX (t), a ∈ R. Prueba . MX+a (t) = E[exp(t[X + a])] = exp(at)E[exp(tX)].
Proposición 4.3 MaX (t) = MX (at), a ∈ R. Prueba . MaX (t) = E[exp(t[aX])] = E[exp([at]X)].
Proposición 4.4 Si X e Y son dos variables aleatorias independientes con funciones generadoras de momentos MX (t) y MY (t), entonces Z = X + Y tiene función generadora de momentos definida como, MZ (t) = MX (t)MY (t).
Prueba . Haremos la demostración suponiendo variables aleatorias continuas. R∞ R∞ MZ (t) = E[exp(t[X R ∞ R ∞+ Y ])] = −∞ −∞ exp[t(x + y)]f (x, y)dxdy = = R exp(ty)fX (x)fY (y)dxdy R = −∞ −∞ exp(tx) = R exp(tx)fX (x)dx R exp(ty)fY (y)dy = MX (t)MY (t).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 83 — #95
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
83
Si en vez de dos variables aleatorias tenemos k > 2 variables aleatorias independientes, es fácil comprobar que la función generadora de momentos de Z=
k X
Xi ,
k Y
MXi (t).
i=1
es, MZ (t) =
i=1
Basándonos en estas proposiciones, la función generadora de momentos permite localizar la función de distribución de una variable aleatoria que es combinación lineal de variables aleatorias independientes. Ejemplo 4.11 Sean X e Y dos variables aleatorias independientes ambas con función de densidad, " # 1 q − µQ 2 exp − 2 σQ √ f (q) = , −∞ < q < ∞. σQ 2π Localícese la función de densidad de la variable aleatoria Z = aX + bY, con a, b ∈ R. La función generadora de momentos de Z es MZ (t) = MX (at)MY (bt), por tanto, calcularemos la función generadora de momentos de Q. " # 1 q − µQ 2 exp(tq) exp − 2 σQ R∞ √ MQ (t) = −∞ dq = σQ 2π " # 2 )q + µ2 q 2 − 2(µQ + tσQ Q exp − 2 2σQ R∞ √ = −∞ dq = σQ 2π " # 2) 2 q − (µQ + tσQ 1 exp − ! 2 σQ 2 t2 σ Q R∞ √ = exp µQ t + dq = −∞ 2 σQ 2π ! 2 t2 σ Q = exp µQ t + , 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 84 — #96
i
84
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
teniendo en cuenta que con el cambio de variable, r=
⇒
R∞
−∞
2) q − (µQ + tσQ
σQ
"
2 1 q − (µQ + tσQ ) exp − 2 σQ √ σQ 2π
#2
dq =
⇒
R∞
−∞
1 2 exp − r 2 √ dr = 1, 2π
pues R es una variable aleatoria con igual distribución que Q pero con parámetros µR = 0, σR = 1. En consecuencia, 2 b2 t2 σY2 a2 t2 σX exp µY bt + = MZ (t) = exp µX at + 2 2 2 2 + b2 σ 2 ) t . = exp (aµX + bµY )t + (a2 σX Y 2 Si comparamos esta función generadora de momentos de Z con la de Q, observamos que ambas son la misma, excepción hecha de los términos que multiplican a los argumentos, t y t2 /2, en la función exponencial. Lo que significa, dado el Teorema 4.9, que la función de densidad de Z es, 2 1 z − [aµX + bµY ] exp − q 2 2 + b2 σ 2 a2 σX Y q g(z) = , −∞ < z < ∞. 2 + b2 σ 2 ) 2π(a2 σX Y
Ejemplo 4.12 Sean Xi , i = 1, ..., n variables aleatorias independientes con la misma función de densidad, f (x) = px (1 − p)1−x , x = 0, 1; 0 < p < 1. Encuéntrese la función de densidad de la variable aleatoria, Y =
n X
Xi .
i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 85 — #97
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
85
La función generadora de momentos de Y será, MY (t) =
n Y
MXi (t),
i=1
por tanto, debe localizarse la función generadora de momentos de X. P MX (t) = 1x=0 exp(tx)px (1 − p)1−x = p exp(t) + 1 − p ⇒ ⇒ MY (t) = [p exp(t) + q]n , q = 1 − p. Resulta que siendo Z una variable aleatoria con función de densidad, n z n−z g(z) = p q , z = 0, 1, ..., n; 0 < p < 1, q = 1 − p, z su función generadora de momentos es, n n X X n n z n−z MZ (t) = exp(tz)p q = [p exp(t)]z q n−z = [p exp(t) + q]n , z z z=0
z=0
recordando el binomio de Newton. En consecuencia, comparando las funciones generadoras de momentos de Y y Z, concluimos que Y tiene la siguiente función de densidad, n y n−y h(y) = p q , y = 0, 1, ..., n; 0 < p < 1, q = 1 − p. y Como es evidente a la vista de estos ejemplos, deducir, empleando funciones generadoras de momentos, la función de densidad de una variable aleatoria que es combinación lineal de otras variables aleatorias independientes, tiene el inconveniente de tener que saber previamente la función generadora de momentos de algunas variables aleatorias.
4.3.2.
Momentos y funciones generadoras de momentos conjuntos
Finalizamos el capítulo con las siguientes definiciones que constituyen una generalización razonable del concepto de momentos y funciones generadoras de momentos. Definición 4.2 El momento conjunto de las variables aleatorias X1 , ..., Xk es, Z Z E(X1r1 ...Xkrk ) = · · · xr11 ...xrkk f (x1 , ..., xk )dx1 ...dxk , Rk
con ri , i = 1, ..., k, un número entero positivo o cero, y f la función de densidad conjunta de X1 , ..., Xk . Además, E[(X1 − µ1 )...(Xk − µk )], es el momento conjunto respecto a las medias µ1 , ..., µk de las variables X1 , ..., Xk , respectivamente.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 86 — #98
i
86
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Definición 4.3 Se denomina función generadora de momentos conjunta de las variables X1 , ..., Xk a, " !# k X MX1 ,...,Xk (t1 , ..., tk ) = E exp ti Xi , i=1
si la esperanza existe para todo ti , i = 1, ..., k, −h < ti < h, h > 0. En consecuencia, E(Xir ) y,
∂ r MX1 ,...,Xk (t1 , ..., tk ) = , ∂tri t1 =0,...,tk =0
r ∂sM ∂ (t , ..., t ) 1 X ,...,X k 1 k E(Xir Xjs ) = r s ∂ti ∂tj
. t1 =0,...,tk =0
Por otro lado, por ejemplo considerando X1 ,
MX1 (t1 ) = MX1 ,...,Xk (t1 , 0, ..., 0). Teorema 4.11 Dos variables aleatorias X e Y son independientes si y solo si, MX,Y (t1 , t2 ) = MX (t1 )MY (t2 ), ∀ti : −h < ti < h, i = 1, 2, h > 0.
Prueba . i) X ⊥ Y ⇒ MX,Y (t1 , t2 ) = MX (t1 )MY (t2 ), pues, en efecto, MX,Y (t1 , t2 ) =
RR
R2
exp(t1 x) exp(t2 y)fX (x)fY (y)dxdy =
= MX (t1 )MY (t2 ).
ii) MX,Y (t1 , t2 ) = MX (t1 )MY (t2 ) ⇒ X ⊥ Y, ya que en este caso, RR
exp(t1 x + t2 y)f (x, y)dxdy = R = R exp(t1 x)fX (x)dx R exp(t2 y)fY (y)dy = RR = R2 exp(t1 x + t2 y)fX (x)fY (y)dxdy, R
R2
probando que f (x, y) = fX (x)fY (y).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 87 — #99
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
87
EJERCICIOS 4.1. Sea X una variable aleatoria con función de densidad de probabilidad dada por, 3 f (x) = (0.4)x (0.6)3−x , x = 0, 1, 2, 3. x Hállese la función de densidad de probabilidad de la variable aleatoria Y = X 2 . 4.2. La función de densidad de probabilidad de una variable aleatoria X es, x2 ,0 < x < 3 f (x) = 0,9 en el resto. Encuéntrese la función de densidad de la variable aleatoria Y = X 2 .
4.3. Sean X e Y dos variables aleatorias discretas con función de densidad conjunta definida por, ( xy , x = 1, 2; y = 1, 2, 3 f (x, y) = 18 0, en el resto. Hállese la función de densidad de la variable aleatoria Z = XY . 4.4. Sean X1 y X2 dos variables aleatorias independientes, ambas con función de densidad, x exp − 2 ,x > 0 f (x) = 0, en2el resto. a) Calcúlese la función de densidad de la variable aleatoria, Y =
X1 − X2 . 2
b) Calcúlese la función de densidad de la variable aleatoria, Z=
X1 . X2
4.5. Se consideran dos variables aleatorias X e Y cuya función de densidad conjunta es, 24xy, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, x + y ≤ 1 f (x, y) = 0, en el resto. Calcúlese la función de densidad de la variable aleatoria Z = X + Y . 4.6. Sean X1 y X2 dos variables aleatorias independientes, ambas con función de densidad, exp(−x), x > 0 f (x) = 0, en el resto.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 88 — #100
i
88
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Demuéstrese que las variables aleatorias, Y1 = X1 + X2 , Y2 =
X1 , X1 + X2
son estocásticamente independientes. 4.7. Sea X una variable aleatoria con función de densidad, f (x) =
(
1+x , −1 < x < 1 2 0, en el resto.
Hállese la función de densidad de la variable aleatoria Y = X 2 . 4.8. Sean X1 y X2 dos variables aleatorias con la siguiente función de densidad conjunta, 2 x + x22 exp − 1 2 f (x1 , x2 ) = , (x1 , x2 ) ∈ R2 2π Encuéntrese la función de densidad conjunta de las variables aleatorias Y1 = X1 + X2 e Y2 = X22 . 4.9. Sea X una variable aleatoria discreta con función de densidad, f (x) =
(
1 , x = 1, 2, ..., n n 0, en el resto.
Encuéntrese la función generadora de momentos de la variable aleatoria X. 4.10. Dada la variable aleatoria X cuya función de densidad es, x−1 q p, x = 1, 2, 3, ...; p + q = 1, p > 0, q > 0 f (x) = 0, en el resto. Calcúlese su función generadora de momentos y, utilizándola, determínese la esperanza matemática y la varianza de X. 4.11. Sean X1 , X2 , ..., Xn variables aleatorias discretas e independientes, todas con la misma función de densidad de probabilidad, f (x) =
(
exp(−λ)λx , x = 0, 1, 2, ... x! 0, en el resto,
con λ > 0. Encuéntrese la función de densidad de la variable aleatoria, Y =
n X
Xi .
i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 89 — #101
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
89
4.12. Sea X una variable aleatoria cuya función de densidad es, " 2 # 1 x−µ exp − 2 σ √ , −∞ < x < ∞. f (x) = σ 2π Demuéstrese que µ y σ 2 son la esperanza matemática y la varianza de X, respectivamente, utilizando la función generadora de momentos de X. 4.13. Sean X1 , X2 , ..., Xn variables aleatorias independientes, todas con la misma función de densidad, " 2 # 1 x − µi exp − 2 σi √ f (x) = , −∞ < x < ∞; i = 1, ..., n, σi 2π con µi y σi2 la esperanza matemática y la varianza de Xi , respectivamente, i = 1, ..., n. Calcúlese la función de densidad de la variable aleatoria, Y =
n X
ai Xi ,
i=1
donde a1 , a2 , ..., an , son constantes. 4.14. Sea X una variable aleatoria cuya función de densidad es, n x n−x f (x) = p q , x = 0, 1, ..., n; p + q = 1, p > 0, q > 0. x Encuéntrese la función generadora de momentos de X y, utilizándola, calcúlese la esperanza matemática y la varianza de X. 4.15. Dada la variable aleatoria X cuya función de densidad es, f (x) = (1 − α)αx , x = 0, 1, 2, ...; 0 < α < 1. Calcúlese la esperanza matemática de X a partir de su función generadora de momentos.
SOLUCIONES Ejercicio 4.3. Como la variable aleatoria Z = XY es función de dos variables aleatorias, para calcular su función de densidad definimos una nueva variable, por ejemplo, W = X. Calculemos en primer lugar la función de densidad conjunta de las variables Z y W . Las funciones inversas de, Z = XY, W = X,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 90 — #102
i
90
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
vienen dadas por,
(
X = W, Z Y = . W Por otro lado, los recorridos de las variables Z y W son, Z(Ω) = {1, 2, 3, 4, 6}, W (Ω) = {1, 2}. Teniendo en cuenta que el recorrido de la variable, Y (Ω) =
Z (Ω) = {1, 2, 3} W
podemos obtener el recorrido de la variable bidimensional (Z, W ), (Z, W )(Ω) = {(1, 1), (2, 1), (3, 1), (2, 2), (4, 2), (6, 2)}. Según el método de transformación de variables para el caso discreto bidimensional, se tiene que la función de densidad conjunta de Z y W es, h z i = g(z, w) = P ([Z = z] ∩ [W = w]) = P [X = w] ∩ Y = w z z = f w, = . w 18 La función de densidad de la variable Z se obtiene de la forma siguiente, X gZ (z) = g(z, w), w∈W (Ω)
y puesto que Z(Ω) = {1, 2, 3, 4, 6}, tenemos que, 1 4 gZ (1) = g(1, 1) = ; gZ (2) = g(2, 1) + g(2, 2) = ; 18 18 3 4 6 gZ (3) = g(3, 1) = ; gZ (4) = g(4, 2) = ; gZ (6) = g(6, 2) = . 18 18 18 Ejercicio 4.5. Dado que la variable Z = X + Y es una función de dos variables aleatorias, para calcular su función de densidad definimos otra variable, por ejemplo W = Y . En primer lugar, vamos a calcular la función de densidad conjunta de las variables Z y W . Las funciones inversas de la transformación vienen dadas por, X = w1 (z, w) = Z − W, Y = w2 (z, w) = W. Por otro lado, como la función de densidad conjunta f de X e Y está definida como f (x, y) = 24xy, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, siendo además x + y ≤ 1, tendremos que, 0 ≤ z = x + y ≤ 1, 0 ≤ w ≤ 1.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 91 — #103
i
CAPÍTULO 4. TRANSFORMACIÓN DE VARIABLES ALEATORIAS
91
Sin embargo, dado que, x = z − w ≥ 0, se tendrá que verificar la relación, w ≤ z. Según el método de transformación de variables para el caso continuo bidimensional se tiene que la función de densidad conjunta de las variables Z y W es, g(z, w) = f (w1 (z, w), w2 (z, w)) |J| = f (z − w, w) |J| , donde |J| es el valor absoluto del jacobiano de la transformación inversa. El jacobiano J de la transformación inversa resulta ser, 1 −1 = 1 = |J| , J = 0 1
y por consiguiente,
g(z, w) = f (z − w, w) |J| = 24(z − w)w, 0 ≤ z ≤ 1, 0 ≤ w ≤ 1, w ≤ z. En segundo lugar, calculamos a partir de la función de densidad conjunta de las variables Z y W, la función de densidad de la variable aleatoria Z. Dado que las variables son de tipo continuo, esta función de densidad se obtiene de la forma siguiente, 3 Z ∞ Z z z z3 − = 4z 3 , 0 ≤ z ≤ 1. gZ (z) = g(z, w)dw = 24 (z − w)wdw = 24 2 3 −∞ 0 Ejercicio 4.11. Calculemos en primer lugar la función generadora de momentos de la variable aleatoria X, ∞ exp(tx) exp(−λ)λx P MX (t) = E [exp(tX)] = = x! x=0 x ∞ [λ exp(t)] P = exp(−λ) = exp [λ (exp(t) − 1)] , x! x=0 recordando que el desarrollo en serie de Mac-Laurin de una función exponencial es, h′′ (0)z 2 h′ (0)z + + ... = exp(z) = h(z) = h(0) + 1! 2! 2 a ∞ P z z =1+z+ + ... = . 2! a=0 a!
Puesto que X1 , X2 , ..., Xn tienen la misma distribución que X y son independientes, la función generadora de momentos de Y será, MY (t) = MX1 (t)MX2 (t)...MXn (t) = = exp [λ (exp(t) − 1)] ... exp [λ (exp(t) − 1)] = exp [nλ (exp(t) − 1)] , que corresponde a la función generadora de momentos de una variable aleatoria con distribución igual a la de X, pero en lugar de considerar λ tenemos nλ, es decir, y
g(y) =
exp(−nλ) [nλ] si y = 0, 1, 2, ... y!
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 92 — #104
i
92
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejercicio 4.14. Como X es una variable de tipo discreto con función de densidad de probabilidad f conocida, podemos calcular su función generadora de momentos de la siguiente forma, P MX (t) = E [exp(tX)] = exp(tx)f (x) = x∈X(Ω) n n P P n x n−x n x n = exp(tx) p q = [p exp(t)] q n−x = (p exp(t) + q) , x x x=0 x=0
teniendo en cuenta la expresión del Binomio de Newton (desarrollo de la potencia de un binomio), esto es, n X n x n−x n (a + b) = a b . x x=0 A partir de MX (t) vamos a calcular la esperanza matemática y la varianza de X.
Puesto que la derivada de orden k de MX (t) en el punto t = 0 coincide con el momento de orden k respecto al origen de la variable X, esto es, ∂ k MX (t) k E(X ) = , ∂tk t=0
se tiene que,
∂MX (t) n−1 = np (p + q) = np, E(X) = ∂t t=0
ya que p + q = 1. Por otro lado,
∂ 2 MX (t) E(X ) = = np [(n − 1)p + 1] , ∂t2 t=0 2
con lo que la varianza de X es entonces,
2
2 σX = E(X 2 ) − [E(X)] = npq.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 93 — #105
i
CAPÍTULO
5 Funciones de distribución más usuales 5.1 INTRODUCCIÓN Como se ha visto, una variable aleatoria queda caracterizada por su función de distribución. En las aplicaciones, una gran parte de los fenómenos estudiados se ajustan con razonable precisión a ciertas leyes o modelos probabilísticos conocidos. Dicho de otro modo, esos fenómenos pueden describirse probabilísticamente mediante una función de distribución conocida. Por tanto, resulta de especial interés estudiar con algún detenimiento estas leyes probabilísticas. Estudiaremos en primer lugar las distribuciones más usuales de variables aleatorias de tipo discreto y a continuación, las de tipo absolutamente continuo. En la resolución de los ejemplos propuestos para cada distribución, haremos referencia a una serie de tablas —impresas en el Apéndice B— que son los valores que las diferentes funciones de distribución toman en algunos puntos del recorrido, o abscisas, de la variable aleatoria, y cuyo manejo se explica al final de este capítulo. En dichas tablas se describen también dos distribuciones, las denominadas t de Student y F de Fisher-Snedecor, que se verán en el siguiente capítulo.
5.2 DISTRIBUCIÓN DE BERNOULLI Definición 5.1 Sean (Ω, A, P ) y A ∈ A, con A = 6 ∅ y A 6= Ω. Sea X una variable aleatoria definida del siguiente modo, 1, si ω ∈ A X(ω) = 0, si ω ∈ / A.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 94 — #106
i
94
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
La variable así definida se llama variable aleatoria de Bernoulli, es discreta y tiene recorrido X(Ω) = {0, 1}. También se dice que es una variable dicotómica o variable indicador del suceso A, ya que expresa si dicho suceso se ha realizado o no. Al suceso A se le llama éxito y a Ac fracaso. Supongamos que P (A) = p. La función de densidad f de X será, f (0) = P (X = 0) = P (Ac ) = 1 − p, f (1) = P (X = 1) = P (A) = p, lo que puede escribirse, f (x) = px (1 − p)1−x , x = 0, 1. Su función de distribución F es,
Por otro lado,
0, x < 0 1 − p, 0 ≤ x < 1 F (x) = 1, x ≥ 1. E(X) = var(X) = E(X 2 ) −
1 P
xf (x) = p
x=0 E 2 (X)
= p − p2 = p(1 − p).
Definición 5.2 Un ensayo Bernoulli es un experimento en el que se presentan solo dos sucesos mutuamente excluyentes.
5.3 DISTRIBUCIÓN BINOMIAL Sean (Ω, A, P ) y A ∈ A, con A 6= ∅ y A 6= Ω. Sea, además, P (A) = p y supongamos que se realizan n ensayos o pruebas Bernoulli independientes. Al completarse las n pruebas tendremos una n-epla (ω1 , ..., ωn ) ∈ Ωn donde ωi , i = 1, ..., n es el resultado del ensayo i, es decir, bien A o bien Ac . Simbolizaremos mediante Ωn al conjunto formado por todas las n-eplas constituidas por elementos de la forma, Ai = {A en el ensayo i-ésimo}, i = 1, ..., n. Por ejemplo, una particular n-epla podría ser (A1 ∩ A2 ∩ Ac3 ∩ ...Acn ).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 95 — #107
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
95
Definición 5.3 Sea X una variable aleatoria definida, X: Ωn → R (ω1 , ..., ωn ) → X(ω1 , ..., ωn ) = x donde x representa el número de veces que aparece A en la n-epla. Por tanto, X(Ω) = {0, 1, ..., n} y X es discreta. Observemos que, f (x) = P (X = x) = P ({(ω1 , ..., ωn ) ∈ Ωn | X(ω1 , ..., ωn ) = x}), es decir, para calcular la función de densidad de esta variable debemos calcular la probabilidad de un suceso que es la unión de todos los sucesos que son n-eplas con x resultados A y n − x resultados Ac . Dichos sucesos son disjuntos. En efecto, basta considerar, por ejemplo, {A1 ∩ A2 ∩ Ac3 } y {A1 ∩ Ac2 ∩ A3 }, donde apreciamos, {A1 ∩ A2 ∩ Ac3 } ∩ {A1 ∩ Ac2 ∩ A3 } = {A1 ∩ ∅} = {∅}. En consecuencia, la probabilidad que queremos calcular será la suma de las probabilidades de cada una de las n-eplas con x resultados A y n − x resultados Ac . Al ser ensayos Bernoulli independientes, la probabilidad de una cualesquiera de estas n-eplas es, P (A1 ∩ Ac2 ∩ ... ∩ Acn ) = P (A1 )P (Ac2 )...P (Acn ) = px (1 − p)n−x . Por otro lado, el número de estas n-eplas con x veces el suceso A y n − x veces Ac será, n n! x,n−x = , P Rn = x!(n − x)! x por lo que la función de densidad de X tiene la siguiente expresión, n x f (x) = p (1 − p)n−x , x = 0, 1, ..., n. x La función de distribución es, 0, x < 0 P n pk (1 − p)n−k , 0 ≤ x < n F (x) = k k≤x 1, x ≥ n.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 96 — #108
i
96
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Una variable aleatoria con esta distribución se simboliza X ∼ B(n, p). De aquí que X ∼ B(1, p) represente un fenómeno Bernoulli de parámetro p. Siendo X ∼ B(n, p), podemos expresar, X=
n X
Xi ,
i=1
donde Xi ∼ B(1, p) es una variable aleatoria, independiente de las restantes n − 1 variables aleatorias, que indica si en la i-ésima componente de una n-epla se presenta A o Ac . De este modo, X representará la suma de las veces que aparece A en la n-epla. En consecuencia,
n P
E(X) = E Xi = np, i=1 n P var(X) = var Xi = np(1 − p). i=1
Proposición 5.1 Sean Xi , i = 1, ..., m variables aleatorias independientes con distribuciones B(ni , p). Se verifica, Y =
m X i=1
m X
Xi ∼ B
!
ni , p .
i=1
Prueba . El Ejemplo 4.12 del capítulo anterior nos sirve de prueba. En efecto, con Z una variable aleatoria con función de densidad, n z g(z) = p (1 − p)n−z , z = 0, 1, ..., n; 0 < p < 1, z resultaba que su función generadora de momentos era, MZ (t) = (p exp(t) + q)n , q = 1 − p. Reconociendo ahora que Z ∼ B(n, p), tenemos que, MXi (t) = (p exp(t) + q)ni , y, por tanto, MY (t) =
m Y i=1
Pm
MXi (t) = (p exp(t) + q)
i=1
ni
⇒Y ∼B
m X i=1
!
ni , p .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 97 — #109
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
97
Ejemplo 5.1 Sabiendo que el 20 % de los ratones incubados con un suero que contiene el germen de cierta enfermedad contraen dicha enfermedad, hállese la probabilidad de que de 20 ratones incubados con el suero, exactamente 4 contraigan la enfermedad. Siendo X = ”número de ratones, entre 20 incubados, que contraen la enfermedad”, entonces X ∼ B(20,0.2), por lo que, 20 P (X = 4) = 0.24 (0.8)16 = 0.2182, 4 según puede verse en la tabla de la distribución binomial.
5.4 DISTRIBUCIÓN DE LA FRECUENCIA RELATIVA DE UN SUCESO Definición 5.4 Si X ∼ B(n, p), podemos definir, Y =
X , n
que representa la frecuencia relativa de un suceso A en n ensayos Bernoulli independientes. El recorrido es
1 2 Y (Ω) = 0, , , ..., 1 , n n
y su función de densidad g, g(y) = P (Y = y) = P (X = ny) = f (ny), siendo f la función de densidad de X. Así, n 1 g(y) = pny (1 − p)n(1−y) , y = 0, , ..., 1. ny n Los parámetros de esta distribución son,
X E(Y ) = E =p n X pq var(Y ) = var = . n n
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 98 — #110
i
98
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejemplo 5.2 Supongamos que a un estudiante se le presenta un test compuesto de 10 preguntas, de forma que por pregunta se le ofrecen dos respuestas, una verdadera y otra falsa. Si el estudiante no ha estudiado ¿cuál es la probabilidad de que acierte el 80 % de las preguntas? Sea Y = ”frecuencia relativa de aciertos en el test”. Como la probabilidad de acertar es p =0.5, 10 P (Y = 0.8) = 0.58 (0.5)2 = 0.044, 8 según puede verse en la tabla de la distribución binomial.
5.5 DISTRIBUCIÓN MULTINOMIAL Puede considerarse una generalización de la binomial. Sea (Ω, A, P ), {A1 , ..., Ak } una partición finita propia de Ω, y P (Ai ) = pi con, evidentemente, p1 +...+pk = 1. Supongamos que realizamos n pruebas independientes, de forma que en cada una se puede presentar uno de los k sucesos que componen la anterior partición. Al finalizar las n pruebas independientes, obtendremos una n-epla (ω1 , ..., ωn ) cuyas componentes serán los sucesos Ai , i = 1, ..., k. Definición 5.5 Sea la variable multidimensional (X1 , ..., Xk ) donde, X i : Ωn → R (ω1 , ..., ωn ) → Xi (ω1 , ..., ωn ) = xi , i = 1, ..., k, y xi es el número de veces que aparece el suceso Ai en la n-epla (ω1 , ..., ωn ), con, k X
xi = n.
i=1
La función de densidad de (X1 , ..., Xk ) viene dada por, f (x1 , ..., xk ) = P [(X1 = x1 ) ∩ (X2 = x2 ) ∩ ... ∩ (Xk = xk )]. El suceso cuya probabilidad queremos calcular es igual a la unión de los sucesos formados por las n-eplas que contienen xi veces el suceso Ai , i = 1, ..., k. Con un razonamiento similar al caso de la distribución binomial deducimos que la probabilidad de dicha unión es igual a la suma de las probabilidades de cada n-epla, ya que la intersección de dos cualesquiera de ellas es vacía.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 99 — #111
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
99
La probabilidad de una de estas n-eplas es, considerando que las n pruebas son independientes y modificando ligeramente la notación, P (A11 , ..., A1x1 , A21 , ..., A2x2 , ..., Ak1 , ..., Akxk ) = px1 1 px2 2 ...pxk k . El número de n-eplas diferentes con xi veces el suceso Ai , i = 1, ..., k es, P Rnx1 ,...,xk =
n! , x1 !...xk !
por lo que la función de densidad buscada es, f (x1 , ..., xk ) =
n! px1 px2 ...pxk k , (x1 , ..., xk ) ∈ (X1 , ..., Xk )(Ωn ). x1 !...xk ! 1 2
En particular, cada Xi , i = 1, ..., k se distribuye separadamente como B(n, pi ). Ejemplo 5.3 Se sabe que la probabilidad de que se produzca un accidente de tráfico en viernes es 0.3, en sábado 0.1, en domingo 0.2 y en cada uno de los restantes días de la semana 0.1. Si en una semana se producen 9 accidentes ¿cuál es la probabilidad de que se hayan producido 2 en viernes, 3 en sábado, ninguno en miércoles y 1 en los restantes días de la semana? Sea Xi = ”número de accidentes en el día i”, i = 1, ..., 7 (1 = lunes, ..., 7 = domingo). Así, f (1, 1, 0, 1, 2, 3, 1) =
9! (0.1)6 ( 0.2)(0.3)2 = 0.00054. 1!1!0!1!2!3!1!
5.6 DISTRIBUCIÓN HIPERGEOMÉTRICA Definición 5.6 Sea (Ω, A, P ), y un suceso A ∈ A con A 6= ∅ y A 6= Ω. Consideraremos la misma situación planteada en el caso binomial salvo que ahora los n ensayos Bernoulli son dependientes. La resultante variable aleatoria se dice tiene distribución hipergeométrica. El procedimiento para localizar la función de densidad de esta nueva variable aleatoria es el mismo que en caso binomial excepto en lo que hace referencia al cálculo de la probabilidad de una n-epla en la que se observan x veces el suceso A. En efecto, dado que los ensayos Bernoulli son dependientes, la probabilidad del suceso A no se mantendrá constante de un ensayo a otro.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 100 — #112
i
100
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Con el cambio de notación aludido anteriormente, calcularemos la probabilidad del suceso (A1 , ..., Ax , Acx+1 , ..., Acn ), de tal forma que supondremos que el espacio muestral Ω consta de N elementos, de los que m tienen la característica A, y N − m la característica Ac . Así, P (A1 , ..., Ax , Acx+1 , ..., Acn ) = = P (A1 )P (A2 | A1 )P [A3 | (A1 ∩ A2 )]...P [Acn | (A1 ∩ ... ∩ Acn−1 )] = =
m m − 1 N − m N − m − (n − x − 1) ... ... = N N − 1 N − x N − x − (n − x − 1) m! (N − m)! (m − x)! [N − m − (n − x)]! = . N! (N − n)!
Observemos que cualquiera de las n-eplas con el suceso A repetido x veces tiene la misma probabilidad. Por otro lado, como se vio en el caso binomial, el número de n-eplas con x veces el suceso A es P Rnx,n−x , por lo que la función de densidad f de una variable hipergeométrica es, m! (N − m)! n! (m − x)! [N − m − (n − x)]! = f (x) = N! x!(n − x)! (N − n)! m N −m n−x x , x = 0, ..., n. = N n En el Apéndice puede verse la deducción de, nm E(X) = , N nm(N − m)(N − n) var(X) = . N 2 (N − 1) Ejemplo 5.4 Supongamos que la quinta parte de las semillas de un lote de 40 no se encuentra en buenas condiciones. Si se seleccionaran sin reemplazamiento 20 semillas de las 40, ¿cuál es la probabilidad de que 7 de estas semillas seleccionadas no estén en buenas condiciones? Sea X = ”número de semillas en malas condiciones de entre las 20 seleccionadas”. Al seleccionar sin reemplazamiento, la probabilidad de encontrar una semilla en malas
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 101 — #113
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
101
condiciones no permanece constante de una semilla a otra, es decir, los ensayos Bernoulli consistentes en ver si la semilla está en buenas condiciones, no son independientes. De aquí, 8 32 7 13 P (X = 7) = = 0.02. 40 20
5.7 DISTRIBUCIÓN GEOMÉTRICA O DE PASCAL Sea (Ω, A, P ), y A ∈ A. Consideremos que P (A) = p y supongamos que realizamos ensayos Bernoulli independientes hasta que aparece por vez primera el suceso A. Simbolizaremos el espacio muestral mediante Ωg = {ω1 , ω2 , ω3 , ...}, en donde ωi , i = 1, 2, ... será el suceso Ac , salvo que ωi sea el último, que entonces es el suceso A. Definición 5.7 Definimos la variable aleatoria, Xi : Ωg → R (ω1 , ω2 , ...) → X(ω1 , ω2 , ...) = x donde x representa el número del ensayo Bernoulli en el que aparece por primera vez el suceso A. El recorrido de X es X(Ωg ) = {1, 2, ...}. Para calcular la función de densidad f (x) de esta variable aleatoria, pensaremos en el suceso (Ac1 , Ac2 , ..., Ax ) formado por una única x-epla cuya probabilidad es, P (Ac1 , Ac2 , ..., Ax ) = f (x) = (1 − p)x−1 p, x = 1, 2, ...; 0 < p < 1 denominada función de densidad geométrica o de Pascal. Si definimos Y = X − 1, siendo X una variable aleatoria con distribución geométrica, hablaremos del número de veces que aparece Ac antes de realizarse A, o el número de fracasos que anteceden al primer éxito. Su función de densidad será, g(y) = f (y + 1) = (1 − p)y p, y = 0, 1, 2, ... siendo f la función de densidad geométrica o de Pascal. En el Apéndice puede verse la prueba de que, 1 E(X) = , p 1−p , var(X) = p2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 102 — #114
i
102
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y, en consecuencia, E(Y ) = var(Y ) =
1−p , p 1−p . p2
La distribución geométrica posee una interesante propiedad. En efecto, con s > t, s, t ∈ N, observemos que P (X > s) = (1 − p)s pues en s ensayos no se ha realizado el suceso A; en efecto, F (x) =
X
f (xi ) = p
xi ≤x
y,
X
xi ≤x
(1 − p)xi −1 ,
P (X > s) = 1 − F (s) = =1−p De aquí,
P
xi ≤s
(1 − p)xi −1 = (1 − p)s .
P (X > s | X > t) = =
P [(X > s) ∩ (X > t)] = P (X > t)
P (X > s) = (1 − p)s−t = P (X > s − t). P (X > t)
La anterior expresión sugiere la siguiente interpretación. Dado que Ac se ha observado t veces, que se observe Ac otras s − t veces adicionales (lo que hace un total de s veces) tiene la misma probabilidad que observar s − t veces el suceso Ac desde el principio del experimento. En otras palabras, la distribución geométrica olvida lo que ha pasado. Es importante por tanto resaltar que la distribución geométrica no puede modelizar experimentos en los que se supone que la probabilidad de Ac , el fracaso, se espera aumente con el tiempo. Ejemplo 5.5 Un zoólogo desea capturar un ejemplar de cierta especie de arácnido en un paraje en el que se sabe que dicha especie supone el 15 % de los arácnidos presentes ¿Cuál es la probabilidad de que tenga que capturar 5 ejemplares para obtener el arácnido deseado? Siendo X = ”número de la captura en la que se obtiene el ejemplar deseado” y dado que p = 0.15, P (X = 5) = (0.85)4 (0.15) = 0.0783.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 103 — #115
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
103
5.8 DISTRIBUCIÓN BINOMIAL NEGATIVA Definición 5.8 Con los mismos supuestos que en la distribución geométrica, definimos la variable aleatoria X que representa el número del ensayo Bernoulli en el que se presenta el suceso A por k-ésima vez, k ∈ N. De este modo, el recorrido X(Ωm ) = {k, k + 1, k + 2, ...}. Localizar su función de densidad supone en primer lugar hallar la probabilidad del suceso {(ω1 , ω2 , ...) ∈ Ωm | X(ω1 , ω2 , ...) = x}. El suceso indicado es la unión de los sucesos formados por x-eplas, en donde A se presenta k veces. Todas estas x-eplas difieren en la ordenación de sus elementos, salvo el último que ocupa el lugar x-ésimo y que es siempre A. Por tanto, la probabilidad de la unión es igual a la suma de las probabilidades de cada uno de estos sucesos. La probabilidad de uno cualquiera de dichos sucesos es, P (Ac1 , ..., Acx−k , Ax−(k+1) , ..., Ax ) = (1 − p)x−k pk , dado que los ensayos Bernoulli son independientes. Además, el número de x-eplas con el suceso A repetido k veces siendo siempre el x-ésimo A, es, (x − 1)! x−1 x−k,k−1 P Rx−1 = . = k−1 (x − k)!(k − 1)! En consecuencia, la función de densidad de esta variable aleatoria se escribe, x−1 k f (x) = p (1 − p)x−k , x = k, k + 1, ... k−1 denominándose función de densidad binomial negativa. En el caso particular de que k = 1 obtenemos la distribución geométrica o de Pascal. El nombre de la distribución se debe a una doble causa. En primer lugar, la función de densidad puede deducirse considerando un fenómeno binomial. En efecto, el suceso {X = x} se realiza si se ha observado k − 1 veces el suceso A en x − 1 ensayos, cuya probabilidad es, x − 1 k−1 p (1 − p)x−k , k−1
y, adicionalmente, en el ensayo x-ésimo se observa A, con probabilidad p. Al multiplicar estas probabilidades obtenemos f. En segundo lugar, al definir Y = “número de veces que se observa Ac antes de la k-ésima vez que se observa A” tenemos que Y = X − k. De aquí, y+k−1 k p (1 − p)y , y = 0, 1, 2, ... P (Y = y) = k−1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 104 — #116
i
104
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Resulta que (véase [16]), y+k−1 y+k−1 y −k = = (−1) . y k−1 y Por tanto,
−k g(y) = (−1) pk (1 − p)y , y = 0, 1, 2, ... y y
Esta función de densidad, probabilísticamente equivalente a f, es la más utilizada para describir fenómenos binomiales negativos, simbolizándose Y ∼ BN (k, p). La función generadora de momentos de esta variable aleatoria puede verse en la sección Modelos jerárquicos. La esperanza de la distribución de Y es, ∞ P y+k−1 k E(Y ) = y p (1 − p)y = y y=0 ∞ P y+k−1 k = k p (1 − p)y , y − 1 y=1 que con z = y − 1,
z+k k p (1 − p)z+1 = z z=0 ∞ k(1 − p) P z + k k+1 k(1 − p) = p (1 − p)z = ⇒ p k p z=0 k ⇒ E(X) = , p E(Y ) =
∞ P
k
teniendo en cuenta que la última suma infinita es igual a uno al observar que el sumando es la función de densidad de una ley binomial negativa. La varianza de esta distribución puede derivarse de forma similar, resultando, var(Y ) =
k(1 − p) = var(X). p2
Ejemplo 5.6 Calcúlese la probabilidad de que el zoólogo del anterior ejemplo esté interesado en capturar el tercer ejemplar de la citada especie de arácnido en la octava captura. Siendo X = ”número del ensayo Bernoulli en el que obtenemos el tercer ejemplar de arácnido”, con p = 0.15 tenemos, 7 P (X = 8) = (0.15)3 (0.85)5 = 0.0314. 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 105 — #117
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
105
5.9 DISTRIBUCIÓN SERIE LOGARÍTMICA Definición 5.9 Una distribución discreta se dice truncada si se elimina algún elemento de su recorrido. Proposición 5.2 En particular, si X(Ω) = {0, 1, 2, ...} y se elimina 0, la variable aleatoria, truncada en 0, tiene como función de densidad, fT (x) =
P (X = x) , x = 1, 2, ... P (X > 0)
Prueba . En efecto, se puede observar que, ∞ X x=1
∞
X 1 P (X > 0) fT (x) = f (x) = = 1. P (X > 0) P (X > 0) x=1
Sea X ∼ BN (r, p). Teniendo en cuenta que, como se vio antes, x−r+1 x−r+1 = , r−1 x la función de densidad f de la variable aleatoria binomial negativa, truncada en 0, es, x+r−1 r p (1 − p)x x f (x) = , x = 1, 2, ... 1 − pr Si r → 0 observamos que,
x+r−1 1 →− , x x
de forma que,
(1 − p)x pr , x = 1, 2, ... x 1 − pr Resulta que al sumar por el recorrido de X y derivar respecto de p el primer cociente del anterior producto, ∞ ∞ P ∂ P (1 − p)x − = (1 − p)x−1 = ∂p x=1 x x=1 ∞ P 1−p 1 x−1 = 1+ (1 − p) = 1+ = , p p x=2 f (x) → −
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 106 — #118
i
106
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
recordando la expresión de la suma de una progresión geométrica con razón inferior a la unidad. Como sabemos, ∞
X (1 − p)x 1 d ln(p) = ⇒ = − ln(p). dp p x x=1
En consecuencia, la siguiente función g, g(x) = −
(1 − p)x , x = 1, 2, ... x ln(p)
es una función de densidad obtenida a partir de la función f haciendo r → 0. Definición 5.10 Sea X una variable aleatoria con función de densidad f dada por, f (x) = −
(1 − p)x , x = 1, 2, ... x ln(p)
Esta variable aleatoria se dice tiene distribución serie logarítmica de parámetro p, SL(p). La función generadora de momentos de esta variable es, E[exp(tX)] = −
∞
1 X [exp(t)(1 − p)]x , ln(p) x x=1
donde llamando S a la suma infinita, tenemos, ∞ P ∂S = − exp(t) [exp(t)(1 − p)]x−1 = ∂p x=1 exp(t) =− ⇒ S = − ln[1 − exp(t)(1 − p)], 1 − exp(t)(1 − p)
siempre que exp(t)(1 − p) < 1 ⇔ t < − ln(1 − p). Por ello, ln[1 − exp(t)(1 − p)] MX (t) = E[exp(tX)] = . ln(p) De aquí que la esperanza matemática sea, E(X) = −
1−p , p ln(p)
y la varianza, 1−p var(X) = − 2 p ln(p)
1−p 1+ . ln(p)
En [55] puede verse una detallada discusión de esta distribución que describe con razonable precisión la abundancia de especies.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 107 — #119
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
107
5.10 DISTRIBUCIÓN DE POISSON Sea (Ω, A, P ), y X una variable aleatoria discreta con recorrido X(Ω) = {0, 1, 2, ...} de modo que se verifica que para todo x es P (X = x) 6= 0. Definición 5.11 Se dice que X tiene una distribución Poisson de parámetro λ, P(λ), si su función de densidad es, exp(−λ)λx , x = 0, 1, 2, ... x! Un experimento Poisson, en las aplicaciones, se caracteriza porque puede contarse el número de veces que se realiza un determinado suceso A en un intervalo de tiempo o región del espacio específicos. Más concretamente, un experimento Poisson satisface las siguientes condiciones, f (x) =
i) La probabilidad de que ocurra exactamente un suceso en un pequeño intervalo de tiempo, o región del espacio, de magnitud h es proporcional a h. ii) La probabilidad de que se realice un suceso dos o más veces en h es prácticamente cero. iii) La realización de un suceso en un intervalo de tiempo, o región del espacio, de magnitud h es independiente de la realización del mismo suceso en cualquier otro intervalo de tiempo, o región del espacio, de magnitud h y disjunto con el anterior. La demostración de los dos siguientes resultados concernientes a la esperanza matemática y la varianza de esta variable aleatoria, puede consultarse en el Apéndice, E(X) = λ. var(X) = λ. La función generadora de momentos es, ∞ exp(tx) exp(−λ)λx ∞ [λ exp(t)]x P P MX (t) = = exp(−λ) = x! x! x=0 x=0 = exp(−λ) exp[λ exp(t)] = exp[λ(exp(t) − 1)],
haciendo uso del desarrollo en serie Mac-Laurin (véase el Apéndice). Proposición 5.3 La distribución de Y =
n X
Xi ,
i=1
con Xi ∼ P(λ) e independientes, es P(nλ). Prueba . Efectivamente,
MY (t) = MX1 (t)...MXn (t) = exp[nλ(exp(t) − 1)].
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 108 — #120
i
108
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Aproximación binomial a la Poisson Sea un intervalo de tiempo cualesquiera donde puede realizarse un número determinado de veces el suceso A (y/o Ac ), siendo P (A) = p. Supongamos que dividimos dicho intervalo de tiempo en un número n de subintervalos iguales tales que en cada uno de ellos solo pueda realizarse A, o su complemento Ac . Cada subintervalo puede representar un ensayo Bernoulli, y por iii) los ensayos son independientes. Haciendo n cada vez mayor, n → ∞, los subintervalos tendrían longitud cada vez menor, y por i) p → 0. Suponiendo que np → λ, en el Apéndice puede verse que en esta situación límite, n x exp(−λ)λx l´ım p (1 − p)n−x = , np→λ x x!
es decir, con n suficientemente grande y p pequeño, una distribución binomial B(n, p) se aproxima a una Poisson P(λ). En la práctica, la aproximación es aceptable con n ≥ 30, p < 0.1 y np < 5. Consideremos ahora que el intervalo de tiempo inicial lo aumentamos t veces. En esta situación, cada uno de los n subintervalos también aumentará t veces, por lo que la probabilidad p del suceso A se transformará en p′ = pt. En consecuencia, en la situación límite en la que n → ∞ y p′ → 0 tendremos una ley Poisson P(np′ = λ′ = λt). En otras palabras, al aumentar t veces el intervalo de tiempo, o región del espacio, inicial de un modelo Poisson, obtenemos un nuevo modelo Poisson con parámetro aumentado también t veces.
5.11 DISTRIBUCIÓN UNIFORME Definición 5.12 Sea X una variable aleatoria con X(Ω) = (a, b) ⊂ R, a < b. Se dice que X tiene distribución uniforme, U(a, b), si su función de densidad es, f (x) =
y,
1 , x ∈ (a, b). b−a
Un ejemplo de esta función de densidad puede verse en la Figura 5.1. La función de distribución es, x ≤ a, 0, x−a , a < x < b, F (x) = b−a 1, x ≥ b, R b xdx b+a , a b−a = 2 (b − a)2 var(X) = E(X 2 ) − E 2 (X) = . 12 E(X) =
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 109 — #121
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
109
Figura 5.1
5.11.1.
Transformada integral de probabilidad
Veamos una transformación de variables aleatorias especial, y muy útil, a veces denominada transformada integral de probabilidad. Teorema 5.1 Sea X una variable aleatoria continua con distribución F, y sea la variable aleatoria, Y = F (X). Entonces, Y ∼ U(0, 1), es decir, P (Y ≤ y) = y, 0 < y < 1.
Prueba . En efecto, tendremos que X = F −1 (Y ), siendo F −1 no decreciente como F. Así, P (Y ≤ y) = P [F (X) ≤ y] = P F −1 [F (X)] ≤ F −1 (y) = = P [X ≤ F −1 (y)] = F [F −1 (y)] = y. Resaltamos que F −1 [F (X)] = X se verifica siempre definiendo la inversa del siguiente modo, F −1 (y) = ´ınf{x : F (x) ≥ y}, pues así se resuelve el problema de aquellos intervalos de X en los que F es constante. Es decir, si x ∈ (x1 , x2 ) y F (x1 ) = F (x2 ) = y, entonces para todo x en este intervalo, F −1 (y) = x1 ⇒ F −1 [F (x)] = x1 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 110 — #122
i
110
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Una aplicación de este teorema es la generación de muestras aleatorias seleccionadas de una específica distribución. Así, para generar una observación de una población con distribución F, generaremos un número y del intervalo aleatorio uniforme [0, 1] y resolveremos en x la ecuación F (x) = y.
5.12 DISTRIBUCIÓN GAMMA Definición 5.13 Siendo r ∈ R+ , Γ(r) =
Z
∞
xr−1 exp(−x)dx,
0
se denomina función gamma. Haciendo
u = xr−1 , du = (r − 1)xr−2 dx, dv = exp(−x)dx, v = − exp(−x),
obtenemos, Γ(r) = [−xr−1 exp(−x)]∞ 0 + R ∞ r−2 +(r − 1) 0 x exp(−x)dx = (r − 1)Γ(r − 1), si r > 1.
Si repetimos el proceso de integración por partes, y suponiendo que r ∈ N, r > 1, Γ(r) = (r − 1)Γ(r − 1) = (r − 1)(r − 2)Γ(r − 2) = = (r − 1)(r − 2)...Γ(1) = (r − 1)!, pues es fácil comprobar que Γ(1) = 1. Definición 5.14 La variable aleatoria X continua se dice tiene distribución gamma si, f (x) =
αr exp(−αx)xr−1 , x > 0, α > 0, r > 0, Γ(r)
simbolizándose G(α, r). Al parámetro α se le llama parámetro de escala ya que tiene influencia sobre la dispersión de la distribución, y al parámetro r se le denomina parámetro de forma, puesto que determina la curtosis de la función de densidad.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 111 — #123
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
111
En el Apéndice puede verse que, E(X) = var(X) =
r , αr α2
.
La función generadora de momentos de X ∼ G(α, r) es, Z ∞ Z ∞ r αr exp(−αx)xr−1 α exp[−(α − t)x]xr−1 MX (t) = exp(tx) dx = dx, Γ(r) Γ(r) 0 0 que con z = (α − t)x, αr MX (t) = Γ(r)(α − t)r
Z
∞
0
z r−1 exp(−z)dz = αr (α − t)−r , t < α.
Proposición 5.4 Sean Xi , i = 1, ..., n variables aleatorias independientes con distribución G(α, ri ). La variable aleatoria, S=
n X i=1
Xi ∼ G(α, r), r =
n X
ri .
i=1
Prueba . Empleando funciones generadoras de momentos, MS (t) =
n Y i=1
αri (α − t)−ri = αr (α − t)−r , r =
n X i=1
ri ⇒ S ∼ G(α, r).
5.12.1.
Distribución exponencial
Cuando r = 1, f (x) = α exp(−αx), x > 0, la función es G(α, 1) y se denomina función de densidad exponencial de parámetro α. En la Figura 5.2 pueden verse algunos ejemplos de esta función de densidad (α = 0.3,0.8,1.5). En las aplicaciones, X puede representa el ”tiempo que transcurre hasta que se realiza el suceso A”. Los parámetros central y de dispersión de esta variable aleatoria son, consecuentemente, 1 E(X) = , α 1 var(X) = 2 . α
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 112 — #124
i
112
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 5.2
Relación entre las distribuciones poisson y exponencial Sea un modelo Poisson P(λ) donde λ representa la media del número de veces que se realiza el suceso A en un intervalo de tiempo que denominaremos unitario. Como vimos, al aumentar x veces este intervalo de tiempo, se obtiene P(λx), es decir, la de una variable aleatoria Y que podemos definir como ”número de veces que se realiza A en un intervalo de tiempo de longitud x”. Sea ahora X la variable aleatoria definida como ”tiempo que transcurre hasta que se produce el suceso A”. Esta variable aleatoria tiene distribución exponencial con parámetro λ. En efecto, la distribución de X es, F (x) = 1 − P (X > x), y esta última probabilidad es la probabilidad de que el tiempo que transcurre hasta observar A es superior a x, o lo que es lo mismo, que en el tiempo x no se observa A. Por tanto, P (X > x) = P (Y = 0) = exp(−λx), considerando que Y ∼ P(λx). De aquí,
F (x) = 1 − exp(−λx) ⇒ F ′ (x) = f (x) = λ exp(−λx), x > 0.
Corolario 5.1 Sean Xi , i = 1, ..., n variables aleatorias independientes con distribución exponencial de parámetro α, G(α, 1). Entonces, la variable aleatoria, S=
n X i=1
Xi ∼ G(α, n).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 113 — #125
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
113
Prueba . Considérese la Proposición 5.4.
Esta propiedad nos permite saber la distribución de una variable aleatoria que mide el ”tiempo que transcurre hasta que el suceso A se realiza n veces”. En efecto, si Xi , i = 1, ..., n es el ”tiempo que transcurre entre la (i-1)-ésima y la i-ésima realización del suceso A” entonces Xi ∼ G(α, 1), y en consecuencia el ”tiempo que transcurre hasta observar n veces el suceso A” será G(α, n). Ejemplo 5.7 Se sabe que la media del tiempo de vida de ciertos microorganismos es de 3 días. Calcúlese la probabilidad de que la vida de un microorganismo sea superior a 7 días. El tiempo de vida en días X de un microorganismo se distribuirá según una G(α, 1) al asimilarlo a ”tiempo que transcurre hasta la muerte del microorganismo”. Al ser E(X) = 3 = α−1 , 7 = 0.0969. P (X > 7) = 1 − F (7) = 1 − 1 − exp − 3
5.12.2.
Distribución ji-cuadrado
Cuando,
1 n α = , r = , n ∈ N, 2 2 se obtiene una variable aleatoria con distribución, 1 n G , 2 2 denominada ji-cuadrado con n grados de libertad, simbolizándose χ2(n . En la Figura 5.3 pueden verse distintas funciones de densidad de esta distribución (n = 4, 8, 14, 20). Los parámetros central y de dispersión de esta variable aleatoria son, por tanto, E(X) = n, var(X) = 2n. Corolario 5.2 Sean Xi , i = 1, ..., n variables aleatorias independientes con distribución ji-cuadrado de parámetros ki , 1 ki G , , i = 1, ..., n. 2 2 Entonces la variable aleatoria, S=
n X i=1
Xi ∼ G
1 k , 2 2
≡ χ2(k , k =
n X
ki .
i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 114 — #126
i
114
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 5.3
Prueba . Considérese la Proposición 5.4.
Proposición 5.5 Sea X ∼ G(α, r) con r ∈ N. Siendo Y ∼ P(αx), se verifica, P (X ≤ x) = P (Y ≥ r).
Prueba . En efecto, al ser r ∈ N, Γ(r) = (r − 1)!, y Z x αr P (X ≤ x) = tr−1 exp(−αt)dt. (r − 1)! 0 Integrando por partes, se obtiene, exp(−αt) x r − 1 R x r−2 αr r−1 P (X ≤ x) = −t exp(−αt)dt = + α 0 t (r − 1)! α 0 αr−1 R x r−2 = t exp(−αt)dt − P (Y = r − 1). (r − 2)! 0 Si el procedimiento se repite sucesivamente, obtenemos el resultado indicado.
5.12.3.
Distribución ji-cuadrado no centrada
Definición 5.15 Una variable aleatoria X se dice que tiene distribución χ2 no centrada con n grados de libertad y parámetro de no centralización θ, simbolizándose χ2(n (θ),
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 115 — #127
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
115
cuando su función generadora de momentos MX (t) es, tθ 1 −n MX (t) = (1 − 2t) 2 exp , t < , θ > 0. 1 − 2t 2 Evidentemente, cuando θ = 0, la variable aleatoria tiene distribución χ2(n . [32] y [56] han publicado tablas de la distribución χ2 no centrada.
5.13 DISTRIBUCIÓN BETA Definición 5.16 Una variable aleatoria X se dice que pertenece a la familia indexada por los parámetros α y β de distribuciones beta, X ∼ BE (α, β), cuando su función de densidad de probabilidad f es, f (x) =
xα−1 (1 − x)β−1 , 0 < x < 1, α > 0, β > 0, B(α, β)
donde B(α, β) es la función beta definida del siguiente modo, Z 1 B(α, β) = xα−1 (1 − x)β−1 dx. 0
Las funciones beta y gamma se relacionan de la siguiente manera, B(α, β) =
Γ(α)Γ(β) . Γ(α + β)
La distribución beta es una de las pocas distribuciones que toman valores en un intervalo de longitud finita, empleándose a menudo en modelos que involucran proporciones o probabilidades, cuyo recorrido es precisamente el intervalo (0, 1). Si α = β = 1, la distribución beta es uniforme, por lo que esta última distribución puede considerarse un elemento de la familia beta. En la Figura 5.4 pueden verse las funciones de densidad de algunos elementos de esta familia, (α, β) = {(3, 1), (5, 4), (3, 3), (3, 5), (1, 3)} siendo simétrica respecto a 0.5 si α = β. Es fácil calcular los momentos µk de esta distribución pues, Z 1 1 B(α + n, β) E(X n ) = x(α+n)−1 (1 − x)β−1 dx = , B(α, β) 0 B(α, β) de donde se deduce que, α , α+β αβ var(X) = . (α + β)2 (α + β + 1) E(X) =
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 116 — #128
i
116
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 5.4
5.14 DISTRIBUCIÓN NORMAL Definición 5.17 Una variable aleatoria X se dice que tiene distribución normal si su función de densidad es,
(x − µ)2 exp − 2σ 2 √ f (x) = , −∞ < x < ∞, −∞ < µ < ∞, σ > 0, σ 2π simbolizándose X ∼ N (µ, σ 2 ). Los parámetros µ y σ 2 son, como luego veremos, los parámetros central y de dispersión. La representación gráfica de esta función corresponde a la llamada campana de Gauss. En la Figura 5.5 pueden verse las funciones de densidad de las distribuciones normales µ = 0 y σ 2 = 1, 4, 16. Esta función de densidad tiene un máximo en µ y dos puntos de inflexión en µ − σ y µ + σ. La función es simétrica respecto a µ, es decir, 1 P (X ≤ µ) = P (X ≥ µ) = . 2 La esperanza matemática y la varianza de esta variable aleatoria las calcularemos a partir de su función generadora de momentos. Recordemos que en el anterior capítulo
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 117 — #129
i
CAPÍTULO 5. FUNCIONES DE DISTRIBUCIÓN MÁS USUALES
117
Figura 5.5
correspondiente a transformación de variables aleatorias, en el Ejemplo 4.11 hallamos la función generadora de momentos de una variable con función de densidad dada por, (x − µ)2 exp − 2σ 2 √ f (x) = , −∞ < x < ∞, σ 2π que ahora reconocemos es una N (µ, σ 2 ). La función generadora de momentos correspondiente era, σ 2 t2 MX (t) = exp µt + , 2 por lo que, ∂MX (t) E(X) = = µ, ∂t t=0 ∂ 2 MX (t) E(X 2 ) = = µ2 + σ 2 ⇒ var(X) = σ 2 . ∂t2 t=0
La función de distribución tiene la forma, 1 F (x) = √ σ 2π
Z
(t − µ)2 exp − dt, 2σ 2 −∞ x
que no tiene forma explícita conocida.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 118 — #130
i
118
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Llamando Z a la variable aleatoria con distribución normal y µ = 0, σ = 1, Z ∼ N (0, 1), su función de distribución G es, 2 Z z t 1 exp − dt, G(z) = √ 2 2π −∞ y esta integral ha sido valorada numéricamente, mediante un polinomio de aproximación, para distintas abscisas de la variable aleatoria. En adelante, simbolizaremos por zα al valor de Z tal que P (Z > zα ) = α. Por la simetría de la distribución, se verifica z1−α = −zα . Supongamos que queremos calcular, P (x1 < X < x2 ) = F (x2 ) − F (x1 ), X ∼ N (µ, σ 2 ). En la Proposición 5.8 que veremos más adelante en este capítulo, se muestra la prueba, por otro lado inmediata, de que, Z=
X −µ ∼ N (0, 1). σ
Así, P (x1 < X < x2 ) = P
x1 − µ x2 − µ 2. c(r − 2) r−2
Distribución F Función de densidad Al ser U y V variables aleatorias independientes con distribución χ2 de r1 y r2 grados de libertad, respectivamente, la función de densidad conjunta de dichas variables es, r1 r2 u+v exp − u 2 −1 v 2 −1 2 r r , u > 0, v > 0. h(u, v) = r1 +r2 1 2 2 2 Γ Γ 2 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 172 — #184
i
172
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
La transformación de variables, su inversa y el jacobiano son, ( r1 r2 U U = FW r1 w F = r2 , J= = |J| . r1 V , W =V r2 V =W
Por tanto, la función de densidad conjunta g de F y W es,
r1 r1 2 r1 f w 1 + r1 −1 r1 +r2 −1 r r2 f 2 w 2 2r r exp , f > 0, w > 0. r1 +r2 − 1 2 2 2 2 Γ Γ 2 2
De aquí,
R
g(f, w)dw = r1 2 r1 w 1 + r2 f r1 +r2 −1 R∞ r1 r2 −1 w 2 2 = r1 +r2 r r f dw, 0 exp − 1 2 2 2 2 Γ Γ 2 2
gF (f ) =
r1
R+
que con el cambio de variable, r1 w 1+ f r2 z= , 2 r1 1+ f r 2 dz = dw, 2
queda,
r1 r1 2 Z ∞ r1 +r2 r1 r2 −1 2 exp(−z)z 2 −1 dz. r1 +r2 f r r 0 2 r1 1 2 Γ Γ 1+ f 2 2 r2
En resumen,
gF (f ) =
r1 + r2 r1 Γ f 2 −1 2 r r r1 +r2 , f > 0. 1 2 2 Γ Γ r1 2 2 1+ f r2
r1 r2
r1 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 173 — #185
i
CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL
173
Esperanza y varianza Dadas las definiciones de U y V, r2 E(F ) = E(U )E r1
1 V
= r2 E
1 . V
Calculemos, por tanto, v r2 exp − v 2 −1 R 1 1 2 r dv = E = R+ r2 2 V v 22Γ 2 v r2 −2 v 2 −1 exp − R 1 2 dv = , = R+ r2 −2 r2 − 2 r2 − 2 r2 − 2 2 2 2 Γ 2 2
ya que estamos integrando por el recorrido de una χ2(r2 −2 . De aquí, r2 E(F ) = , si r2 > 2. r2 − 2 Calcularemos la varianza de F de la expresión, var(F ) = E(F 2 ) − E 2 (F ). Como,
r2 E(F ) = 22 E(U 2 )E r1 2
1 V2
r2 (2 + r1 ) = 2 E r1
1 , V2
teniendo en cuenta que E(U 2 ) = var(U ) + E 2 (U ), localicemos el valor de, v r2 Z exp − v 2 −1 1 1 2 r dv. E = r2 2 2 V2 R+ v 22Γ 2
Esta integral puede resolverse de forma análoga a la expuesta para encontrar el valor −1 de E V , es decir, 1 1 E = . 2 V (r2 − 2)(r2 − 4) En consecuencia,
E(F 2 ) = y var(F ) =
r22 (2 + r1 ) , r1 (r2 − 2)(r2 − 4)
2r22 (r1 + r2 − 2) , si r2 > 4. r1 (r2 − 2)2 (r2 − 4)
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 174 — #186
i
174
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
EJERCICIOS 6.1. La media del número de huevos puestos en una hora por una hembra de Drosophila melanogaster es 6. De una población suficientemente grande se extrae una muestra aleatoria de 100 hembras y se mide el tiempo que tarda cada hembra en poner el primer huevo (T ), así como el número de huevos puestos en 6 horas (X). Calcúlense, 12 P T > , P X < 36.6 . 60 6.2. Sean dos muestras aleatorias independientes de tamaños n1 y n2 extraídas de dos poblaciones con distribuciones N (µ1 , σ12 ) y N (µ2 , σ22 ), respectivamente. Dedúzcase la función de densidad de probabilidad de la variable aleatoria X 1 − X 2 . 6.3. La media de la vida de los individuos de una especie A es de 6.5 años, y su desviación típica de 0.9 años, en tanto que estos parámetros en la especie B toman los valores 6 y 0.8 años, respectivamente ¿Cuál es la probabilidad de que una muestra aleatoria de 36 individuos, extraída de la especie A, tenga una vida media mayor en al menos un año que la vida media de una muestra aleatoria compuesta de 49 individuos extraída de B? 6.4. Dada la siguiente función de densidad de probabilidad de la variable aleatoria X, f (x) =
(
1 , x = 0, 1, 2, 3, 4 0, en el resto,
hállese la probabilidad de que una muestra aleatoria de tamaño 36, seleccionada con reemplazamiento, tenga una media muestral comprendida entre 1.45 y 1.75. 6.5. Sea T una variable aleatoria con distribución t de Student con r grados de libertad. Demuéstrese que la variable aleatoria T 2 tiene una distribución F(1,r . 6.6. En un yacimiento de fósiles de micromamíferos se recogen aleatoriamente 15 sacos de sedimento. Una vez lavado este sedimento, se considera la variable aleatoria X = "peso en gramos del material óseo contenido en cada saco", que se sabe se distribuye normalmente con esperanza matemática 40 y varianza 36. De otra parte, existen en el mercado tres tipos de cajas especiales para transportar fósiles de micromamíferos con capacidades de 550, 672 y 700 gramos, respectivamente. Decídase qué tipo de caja es el más idóneo para el transporte del material óseo obtenido, conviniendo que se elegirá el tipo más pequeño capaz de contener el total de las 15 extracciones de material óseo. 6.7. Sean X1 , X2 y X3 variables aleatorias independientes con distribuciones N (1, 1), N (2, 4) y N (3, 9), respectivamente. Utilizando únicamente estas tres variables, se pide, a) Constrúyase un ejemplo de estadístico con distribución χ2(3 . b) Constrúyase un ejemplo de estadístico con distribución t(2 . c) Constrúyase un ejemplo de estadístico con distribución F(1,2 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 175 — #187
i
CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL
175
6.8. Un estudio de la flora arbustiva de cierta zona en los alrededores de Madrid reveló que el 30 % de los matorrales lo constituían jaras de la especie Cistus ladaniferus, siendo ésta la especie más numerosa entre las encontradas. ¿Cuál es la probabilidad de que en una nueva recolección en la que se tomen muestras de 500 matorrales encontremos que entre 100 y 130 pertenecen a la citada especie? 6.9. En un experimento etológico se dispone de un laberinto en forma de T , de manera que las dos ramas superiores de la T son completamente iguales. La prueba consiste en dejar una rata en la base de la T y comprobar por cuál de los dos brazos de la T se decide, suponiendo que no hay motivación alguna para que la rata prefiera uno de los dos especialmente. Si se repite la experiencia 1000 veces en condiciones de independencia e igualdad de circunstancias, ¿cuál es la probabilidad de que el número de veces que recorre el brazo derecho de la T esté comprendido entre 490 y 510 veces? 6.10. Del estudio de determinados restos fósiles se ha podido concluir que la media del número de caracteres adaptativos presentes en una población animal de la especie B, a lo largo de 1 milicron (1000 años), es igual a 3. Calcúlense, a) La probabilidad de que el tiempo medio que tarda en aparecer un carácter adaptativo sea superior a 0.375, suponiendo que se analizan 36 poblaciones independientes de la especie B. b) La probabilidad de que el número medio de caracteres adaptativos presentes en una población de la especie B, a lo largo de 3 milicrones, sea inferior a 9.5, igualmente considerando las anteriores 36 poblaciones independientes. 6.11. Se desean capturar 14 gacelas jóvenes con destino a una reserva animal. Para la expedición se dispone de tres vehículos que pueden transportar una carga de 500, 750 y 1000 kg., respectivamente. Decídase qué vehículo es el más idóneo para la expedición, conviniendo que se elegirá el vehículo más ligero capaz de transportar las 14 gacelas. Se sabe que el peso de una gacela sigue una distribución N (50, 36). 6.12. En una población de mariposas de una determinada especie, el 30 % de las mismas presentan lunares de color brillante en las alas. Si se seleccionaran aleatoriamente 100 mariposas de dicha población, ¿cuál es la probabilidad de que el número de ejemplares con la característica antes citada sea mayor o igual que 8 y menor o igual que 35?
SOLUCIONES Ejercicio 6.1. Consideremos la variable aleatoria Y = "número de huevos puestos en una hora por una hembra" cuya distribución es P(λ = 6). La variable X = "número de huevos puestos en 6 horas", seguirá entonces una distribución P(6λ = 36), cuya media y varianza valdrán 36. Por otro lado, la variable T = "tiempo que tarda cada hembra en poner el primer huevo", se distribuye exponencialmente con parámetro 6, siendo su media 6−1 y su varianza 36−1 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 176 — #188
i
176
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
a) La variable media muestral T obtenida para muestras de tamaño 100 se distribuye, según el teorema central del límite, como una, 1 1 , . N 6 3600 De esta forma,
donde,
12 1 − 12 P T > = 1 − P Z ≤ 60 6 = 0.0228, 1 60 60
Z=
T−
1 60
1 6 ∼ N (0, 1).
b) La media muestral X según el teorema central del límite tiene una distribución, 36 N 36, , 100 pues el tamaño muestral es 100. La probabilidad pedida es, 36.6 − 36 P X < 36.6 = P Z < = 0.8413, 6 10
siendo,
Z=
X − 36 ∼ N (0, 1). 6 10
Ejercicio 6.3. Para la muestra aleatoria de tamaño 36 extraída de la especie A podemos definir el estadístico media muestral X 1 cuya distribución es, según el teorema central del límite, 0.81 N 6.5, 36 Análogamente para la muestra de tamaño 49 podemos definir el estadístico media muestral X 2 cuya distribución es, 0.64 N 6, . 49 De esta forma, la diferencia X 1 − X 2 tendrá una distribución, 0.81 0.64 N 0.5, + . 36 49
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 177 — #189
i
CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL
177
La probabilidad pedida es, P X 1 ≥ 1 + X 2 = P X 1 − X 2 ≥ 1 = 1 − P (Z < 2.67) = 0.0038, donde,
Z=
X 1 − X 2 − 0.5 √ ∼ N (0, 1). 0.035
Ejercicio 6.6. Sean las variables aleatorias Xi = "peso en gramos del material óseo contenido en el saco i”, con i = 1, ..., 15, igualmente distribuidas con distribución N (40, 36). El peso total correspondiente a los 15 sacos vendrá dado por la variable S = X1 + ... + X15 cuya distribución es N (600, 540). Para resolver qué tipo de caja es el más idóneo calcularemos las siguientes probabilidades, 550 − 600 P (S ≤ 550) = P Z ≤ √ = 0.0158, 540 P (S ≤ 672) = P (Z ≤ 3.09) = 0.999, P (S ≤ 700) = P (Z ≤ 4.3) = 1, siendo Z una variable con distribución N (0, 1). A la vista de los resultados puede concluirse que la caja más pequeña capaz de contener el total de las 15 extracciones corresponde a la que tiene una capacidad de 672 gramos puesto que 0.999 es una probabilidad suficientemente próxima a 1. Ejercicio 6.8. Definamos el suceso A = "jaras de la especie Cistus ladaníferus" cuya probabilidad es P (A) = 0.3. La variable aleatoria X = "número de muestras con A en n = 500"tiene una distribución binomial B(500, 0.3), que por el teorema de Laplace-De Moivre puede aproximarse a una N (150, 105). De esta forma, la probabilidad pedida es, P (100 < X < 130) = P (−4.92 < Z < −1.9) = 0.0287, siendo Z variable con distribución N (0, 1).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 178 — #190
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 179 — #191
i
CAPÍTULO
7 Estimación puntual 7.1 INTRODUCCIÓN La estimación es un método inferencial cuyo objetivo es conocer el valor de uno o más parámetros de la distribución de una variable aleatoria. A diferencia del contraste de hipótesis, que veremos en un capítulo posterior, no es obligado tener una idea preconcebida —realizar un supuesto— sobre el valor del o de los parámetros a estimar. El procedimiento empleado, o bien ofrece un único valor del parámetro, o bien ofrece un rango de valores. A la primera alternativa se la llama estimación puntual, en tanto que la segunda se la llama estimación por intervalo. En este capítulo nos ocupamos de la primera alternativa, si bien adelantamos que la estimación por intervalo es más aconsejable ya que el grado de precisión, o confianza, de la estimación se conoce de antemano. Definición 7.1 Estimador puntual es una función T = u(X1 , ..., Xn ) de una muestra aleatoria, no dependiente de parámetro alguno desconocido. Definición 7.2 La estimación puntual t de un parámetro θ es un valor del estimador puntual T. Un estimador puntual es, por tanto, un estadístico al que también se denomina función de decisión, siendo la estimación la acción tomada por dicha función de decisión. Por ejemplo, el valor x del estadístico X, calculado a partir de una muestra de cierto tamaño, es una estimación puntual del parámetro µ. En este caso, la elección del estimador parece una consecuencia natural dado el parámetro a estimar. No siempre es así, sin embargo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 180 — #192
i
180
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
7.2 PROPIEDADES DE UN ESTIMADOR PUNTUAL Lo deseable es que un estimador genere una estimación lo más próxima posible al parámetro desconocido. Esto es lo mismo que decir que lo más razonable es esperar que el estimador estime un parámetro con cierto error. Puesto que los estimadores de un mismo parámetro pueden ser varios y el parámetro es desconocido, elegir uno antes que otro se basa en criterios teóricos que veremos a continuación.
7.2.1.
Insesgamiento
Definición 7.3 Un estimador T del parámetro θ se dice insesgado si E(T ) = θ. Si E(T ) > θ el estimador es sesgado positivo, y negativo si E(T ) < θ.
Ejemplo 7.1 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población con media µ. Observamos que, ! n X 1 E(X) = E Xi = µ, n i=1
al ser Xi igualmente distribuidas. Por tanto X es un estimador insesgado de µ.
Ejemplo 7.2 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población con media µ y varianza σ 2 . Se tiene, n X i=1
(Xi − X)2 =
n X i=1
[(Xi − µ) − (X − µ)]2 =
n X (Xi − µ)2 − n(X − µ)2 , i=1
con lo que, "
# n X 1 1 E(S 2 ) = E (Xi − X)2 = (nσ 2 − σ 2 ) = σ 2 , n−1 n−1 i=1
es decir, que S 2 es un estimador insesgado de σ 2 .
7.2.2.
Error cuadrático medio
Definición 7.4 Sea T = u(X1 , ..., Xn ) un estimador de θ. La siguiente esperanza, =
R
E[(T − θ)2 ] = ECMT (θ) = · · · Rn [u(x1 , ..., xn ) − θ]2 f (x1 )...f (xn )dx1 ...dxn , R
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 181 — #193
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
181
se denomina error cuadrático medio del estimador T, siendo f la función de densidad de la población de la que se extrae la muestra (Sustituimos integrales por sumatorios en caso de considerar variables aleatorias discretas). Es evidente que en caso de ser T insesgado, el error cuadrático medio de T es su varianza, var(T ) = ECMT (θ) ⇔ E(T ) = θ. Definición 7.5 Sean T1 y T2 dos estimadores insesgados del mismo parámetro θ con varianzas var( T1 ) y var( T2 ). Si var(T1 ) < var(T2 ), entonces diremos que T1 es más eficiente que T2 . Definición 7.6 Sean T1 y T2 dos estimadores sesgados del mismo parámetro θ. Si ECMT1 (θ) < ECMT2 (θ), entonces T1 es más eficiente que T2 . Definición 7.7 Se dice que un estimador T del parámetro θ es insesgado y de mínima ′ ′ varianza, T es EIMV, cuando verifica E(T ) = θ y var(T ) ≤ var(T ), siendo T cualquier otro estimador insesgado de θ. Para localizar un estimador EIMV, es fundamental poder establecer una cota inferior para la varianza del estimador insesgado. En este sentido, sea el vector n-dimensional X = (X1 , ..., Xn ), supongamos que T = u(X1 , ..., Xn ) es un estimador insesgado de θ ∈ R y que estamos muestreando de una población con función de densidad f dependiente del parámetro θ, lo que suele simbolizarse escribiendo f (x; θ). Los siguientes supuestos se conocen como condiciones de regularidad, (i)
∂ ln[f (X; θ)] existe ∀X, θ. ∂θ
R Q ∂ R · · · Rn u(x1 , ..., xn ) ni=1 f (xi ; θ)dx1 ...dxn = ∂θ R R ∂ Qn = · · · Rn u(x1 , ..., xn ) f (xi ; θ)dx1 ...dxn . ∂θ i=1 ( 2 ) ∂ (iii) 0 < E ln{f (X; θ)} < ∞, ∀θ ∈ R. ∂θ (ii)
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 182 — #194
i
182
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Teorema 7.1 (Teorema de Cramér-Rao) Suponiendo se cumplen las condiciones de regularidad (i) a (iii) anteriores, y E(T) = θ, se verifica, var(T ) ≥
nE
(
1
2 ) , ∂ ln[f (X; θ)] ∂θ
siendo X cualquiera de las variables aleatorias Xi .
Prueba . La demostración es una consecuencia del teorema de Schwarz. En efecto, siendo U y V dos variables aleatorias cualesquiera, recordemos que entonces se verifica, cov 2 (U, V ) ≤ var(U )var(V ). Hagamos, U = T, ∂ V = ln[f (X; θ)], ∂θ y calculemos E(V ). Así, ∂ f (X; θ) ∂ E ln[f (X; θ)] = E ∂θ = ∂θ f (X; θ)
=
R
∂ f (x1 , ..., xn ; θ) · · · Rn ∂θ f (x1 , ..., xn ; θ)dx1 ...dxn = f (x1 , ..., xn ; θ) R ∂ R = · · · Rn f (x1 , ..., xn ; θ)dx1 ...dxn = 0, ∂θ R
al ser f una función de densidad. Por tanto, es fácil ver, ∂ ∂ cov(U, V ) = cov T, ln[f (X; θ)] = E T ln[f (X; θ)] , ∂θ ∂θ y así,
=
∂ T f (X; θ) ∂ cov T, ln[f (X; θ)] = E ∂θ = ∂θ f (X; θ)
R ∂ R ∂ E(T ) = 1, · · · Rn tf (x1 , ..., xn ; θ)dx1 ...dxn = ∂θ ∂θ
al ser E(T ) = θ.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 183 — #195
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
183
Por otro lado, ( 2 ) ∂ ∂ ∂ ln[f (X; θ)] = 0 ⇒ var ln[f (X; θ)] = E ln[f (X; θ)] . E ∂θ ∂θ ∂θ Siendo X una muestra aleatoria, las variables Xi se distribuyen idénticamente, por lo que, f (X; θ) =
n Y i=1
n
f (Xi ; θ) ⇒
X ∂ ∂ ln[f (X; θ)] = ln[f (Xi ; θ). ∂θ ∂θ i=1
De este modo, ( ( 2 ) 2 ) n P ∂ ∂ E ln[f (X; θ)] = E ln[f (Xi ; θ)] + ∂θ ∂θ i=1 P ∂ ∂ +2 E ln[f (Xi ; θ)] ln[f (Xj ; θ)] , ∂θ ∂θ i6=j,i 0.
n→∞
Es lo mismo que decir que a medida que aumentamos el tamaño de una muestra la estimación será más fiable. Parece razonable, entonces, seleccionar estimadores cuya calidad mejore al aumentar el tamaño muestral.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 185 — #197
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
185
Ejemplo 7.4 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población con media µ y varianza σ 2 . El estimador X es un estimador consistente de µ, como se vio en el Teorema 6.2. Ejemplo 7.5 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población N (µ, σ 2 ). El estimador S 2 es un estimador consistente de σ 2 , como se vio en la demostración de la Proposición 6.3. Proposición 7.1 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población con media µ y varianza σ 2 . El estimador S 2 es un estimador consistente de σ 2 . Prueba . Véase el Apéndice. Proposición 7.2 Si T es un estimador insesgado de θ, E(T ) = θ, y su varianza, var(T ) = ECMT (θ) → 0, cuando el tamaño muestral n es grande, entonces T es un estimador consistente. Prueba . Efectivamente, aplicando Tchebychev, p 1 P |T − θ| ≤ k var(T ) ≥ 1 − 2 , k ∈ R+ , k p y con ε = k var(T ), var(T ) = 0. n→∞ ε2
l´ım P (|T − θ| > ε) ≤ l´ım
n→∞
Definición 7.9 Un estimador T de un parámetro θ se dice consistente, eficiente y asintóticamente normal, T es ECEAN, si y solo si se cumplen las siguientes condiciones, √ i) Si n, el tamaño muestral, es suficientemente grande, entonces n(T − θ) ∼ N (0, σ 2 ), ii) l´ım P (|T − θ| > ε) = 0, n→∞
iii) Si T1 es otro estimador consistente de θ, y suficientemente grande, entonces σ12 ≥ σ 2 .
√
n(T1 − θ) ∼ N (0, σ12 ), siendo n
Al seleccionar muestras de N (µ, σ 2 ), el estimador X, por ejemplo, es ECEAN para µ. También, no obstante, seleccionando de la misma población, n
1 X T = Xi , n+1 ∗
i=1
por ejemplo, es otro estimador ECEAN para µ.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 186 — #198
i
186
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
7.2.4.
Suficiencia
Definición 7.10 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población con función de densidad dependiente de un parámetro θ. El estadístico T es suficiente si y solo si la distribución condicionada de (X1 , ..., Xn ) dado T = t es independiente de θ, para cualquier valor t de T. Es importante entender la idea que subyace en la definición. Dos aspectos deben resaltarse en este sentido, i) un estadístico, como función de la muestra aleatoria (X1 , ..., Xn ), es una variable unidimensional más fácil manejar que la muestra, que es una variable ndimensional (n ≥ 1). Evidentemente, existen muchas funciones muestrales, de forma que elegir una u otra dependerá de la calidad informativa de la función, y, ii) considerando que la única información disponible del parámetro desconocido θ se encuentra en la muestra, la definición de estadístico suficiente indica que si conocemos el valor de dicho estadístico, entonces el conocimiento de los valores muestrales resulta innecesario, ya que no aportan información extra sobre el parámetro θ. Decimos que el estadístico suficiente ha absorbido la información de θ contenida en la muestra. Tal como se ha indicado anteriormente, un estadístico, como función u de la muestra aleatoria (X1 , ..., Xn ), tiene la ventaja evidente de reducir la dimensión del problema estudiado. Otra ventaja es la de reducir el recorrido del problema. Es decir, si el recorrido de (X1 , ..., Xn ), X , tiene un número de elementos igual a m, entonces T = u(X1 , ..., Xn ) induce una partición en X , siendo el número de elementos de la partición inferior a m. Por ejemplo, si seleccionamos una muestra de tamaño tres de una población B(1, p), resulta, X = {(0, 0, 0), (0, 0, 1), ..., (1, 1, 1)}, que tiene ocho elementos. Definamos T = X1 + X2 + X3 . Entonces T (Ω) = {0, 1, 2, 3}, y la partición de cuatro elementos inducida es, {{(0, 0, 0)}, {(0, 0, 1), (0, 1, 0), (1, 0, 0)}, {(0, 1, 1), (1, 0, 1), (1, 1, 0)}, {(1, 1, 1)}}. Un estadístico suficiente es, por ello, un estadístico que en el proceso de reducción de la dimensión y el recorrido de un problema, no genera pérdida de información sobre el parámetro θ desconocido.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 187 — #199
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
187
Ejemplo 7.6 Sea (X1 , X2 , X3 ) una muestra aleatoria extraída de una población con distribución Bernoulli de parámetro p. Definamos los estadísticos, T1 = X 1 + X 2 + X 3 , T2 = X 1 X 2 + X 3 . Veamos que T1 es suficiente y que T2 no lo es. Sea X el recorrido de la muestra (X1 , X2 , X3 ), es decir, el conjunto de ocho elementos, X = {(0, 0, 0), (0, 0, 1), ..., (1, 1, 0), (1, 1, 1)}, y calculemos la función de densidad condicionada h(X1 ,X2 ,X3 )|t1 de (X1 , X2 , X3 ) dado T1 = t 1 . Observamos que T1 (Ω) = {0, 1, 2, 3}, de forma que, por ejemplo, para T1 = 1, se tiene, h(X1 ,X2 ,X3 )|t1 [(0, 0, 1) | T1 = 1] = P [(X1 = 0) ∩ (X2 = 0) ∩ (X3 = 1) ∩ (T1 = 1)] = = P (T1 = 1) 1 (1 − p)2 p = = = 3 3 p(1 − p)2 1 = h(X1 ,X2 ,X3 )|t1 [(0, 1, 0) | T1 = 1] = h(X1 ,X2 ,X3 )|t1 [(1, 0, 0) | T1 = 1] , considerando, de una parte, que, {(X1 = 0) ∩ (X2 = 0) ∩ (X3 = 1)} ⊂ {T1 = 1}, dado que 1 se obtiene de otras dos maneras además de sumar (0, 0, 1), y de otra parte, que T1 ∼ B(3, p). Efectuando cálculos similares para los restantes puntos de T1 (Ω) y X , se observa que, h(X1 ,X2 ,X3 )|t1 [(X1 , X2 , X3 ) | T1 = t1 ] = k ∈ [0, 1], por lo que T1 es un estimador suficiente, al no depender h(X1 ,X2 ,X3 )|t1 del parámetro p. Sin embargo, si por ejemplo, T2 = 0, se tiene, P [(X1 = 0) ∩ (X2 = 1) ∩ (X3 = 0)] = P (T2 = 0) (1 − p)p(1 − p) p = = = (1 − p)3 + 2p(1 − p)2 1+p = h(X1 ,X2 ,X3 )|t2 [(0, 0, 0) | T2 = 0] = h(X1 ,X2 ,X3 )|t2 [(1, 0, 0) | T2 = 0] ,
h(X1 ,X2 ,X3 )|t2 [(0, 1, 0) | T2 = 0] =
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 188 — #200
i
188
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
es decir, la distribución condicionada h(X1 ,X2 ,X3 )|t2 depende del parámetro p, y T2 no es suficiente. Del anterior ejemplo se deduce que la función de densidad condicionada h(X1 ,...,Xn )|t es, fX1 ,...,Xn (x1 , ...xn ; θ) , h(X1 ,...,Xn )|t [(x1 , ..., xn ) | T = t] = fT (t; θ) donde, para resaltar la dependencia respecto de θ en las funciones que dependen de dicho parámetro, es decir fX1 ,...,Xn y fT , se ha introducido θ entre sus argumentos, y, adicionalmente, observando que, fX1 ,...,Xn ,T (x1 , ...xn , t) = fX1 ,...,Xn (x1 , ...xn ; θ), puesto que (x1 , ..., xn ) ⊆ {(x1 , ..., xn ) : u(x1 , ..., xn ) = t}. El siguiente teorema se comprenderá mejor teniendo en cuenta estas consideraciones. Teorema 7.2 (Teorema de la Factorización de Neyman) Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población con función de densidad f dependiente de un parámetro θ, que puede ser un vector. Un estadístico T es suficiente si y solo si existen las funciones g y q no negativas tales que, fX1 ,...,Xn (x1 , ..., xn ; θ) = g(t; θ)q(x1 , ..., xn ).
Prueba . Si T es suficiente podemos elegir, g(t; θ) = fT (t; θ), q(x1 , ..., xn ) = h(X1 ,...,Xn )|t [(x1 , ..., xn ) | T = t] , con lo que se cumple la condición señalada en el enunciado. Por otro lado, si se verifica, fX1 ,...,Xn (x1 , ..., xn ; θ) = g(t; θ)q(x1 , ..., xn ), integremos (o sumemos) ambos lados de la igualdad por el conjunto de valores, C = {(x1 , ..., xn ) : u(x1 , ..., xn ) = t}. Así, teniendo en cuenta el anterior Ejemplo 7.6 y el comentario posterior, R R R R · · · C fX1 ,...,Xn (x1 , ..., xn ; θ)dx1 ...dxn = = · · · C fX1 ,...,Xn ,T (x1 , ..., xn , t; θ)dx1 ...dxn = fT (t; θ).
Llamando,
Z
···
Z
q(x1 , ..., xn )dx1 ...dxn = Q(t),
C
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 189 — #201
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
189
tenemos, g(t; θ) =
fT (t; θ) , Q(t)
y, por tanto, para cualquier (x1 , ..., xn ) tal que u(x1 , ..., xn ) = t, fX1 ,...,Xn (x1 , ..., xn ; θ) =
fT (t; θ) q(x1 , ..., xn ). Q(t)
En consecuencia, h(X1 ,...,Xn )|t [(x1 , ..., xn ) | T = t] =
fX1 ,...,Xn (x1 , ..., xn ; θ) q(x1 , ..., xn ) = , fT (t; θ) Q(t)
que no depende de θ. De aquí que T sea un estimador suficiente.
Resaltamos que la función g no es necesariamente la función de densidad del estadístico T. Ejemplo 7.7 Sea (X1 , ..., X9 ) una muestra aleatoria extraída de una población N (µ, 72 ). Localicemos un estadístico suficiente para µ. ! 9 1 1 X 2 (xi − µ) , fX1 ,...,X9 (x1 , ..., x9 ; µ) = √ exp − 2 2(7 ) (7 2π)9 i=1 y puesto que, 9 X i=1
podemos escribir,
2
(xi − µ) =
9 X i=1
(xi − x)2 + 9(x − µ)2 ,
1 P9 2 exp − 2 (xi − x) 9(x − µ)2 2(7 ) i=1 √ fX1 ,...,X9 (x1 , ..., x9 ; µ) = exp − , 2(72 ) (7 2π)9
lo que puede expresarse, fX1 ,...,X9 (x1 , ..., x9 ; µ) = g(x; µ)q(x1 , ..., x9 ), y, por tanto, X es un estimador suficiente de µ según el teorema de factorización de Neyman. Observemos que g no es la función de densidad de X. Definición 7.11 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una población con función de densidad dependiente de un parámetro θ. Los estadísticos T1 , ..., Tr se dice son conjuntamente suficientes si y solo si la distribución condicionada de (X1 , ..., Xn ) dados T1 = t1 , ..., Tr = tr es independiente de θ.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 190 — #202
i
190
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
El correspondiente teorema de factorización tendrá la forma, fX1 ,...,Xn (x1 , ..., xn ; θ) = g(t1 , ..., tr ; θ)q(x1 , ..., xn ), donde g y q son funciones no negativas, la primera dependiente de θ. Ejemplo 7.8 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de N (µ, σ 2 ) siendo ambos parámetros desconocidos, θ = (µ, σ 2 ). La función de densidad conjunta es, n 1 P fX1 ,...,Xn (x1 , ..., xn ; µ, σ 2 ) = (2π)− 2 σ −n exp − 2 ni=1 [xi − µ]2 = 2σ P P n 1 n n − 2 −n 2 2 . = (2π) σ exp − 2 i=1 xi − 2µ i=1 xi + nµ 2σ Haciendo q(x1 , ..., xn ) = 1, podemos pensar en, T1 = T2 =
Pn
i=1 Xi ,
Pn
2 i=1 Xi ,
como estadísticos conjuntamente suficientes. Ejemplo 7.9
Sea (X1 , ..., Xn ) una muestra aleatoria extraída de una distribución uniforme en el intervalo [θ1 , θ2 ]. Denotando por I(a,b) (x) la función indicadora de la variable aleatoria X, es decir, 1, si x ∈ (a, b), I(a,b) (x) = 0, si x ∈ / (a, b), tenemos,
siendo,
n Q
1 I[θ1 ,θ2 ] (xi ) = i=1 θ2 − θ1 n Q 1 1 = I (xi ) = I (y1 )I[y1 ,θ2 ] (yn ), n (θ2 − θ1 ) i=1 [θ1 ,θ2 ] (θ2 − θ1 )n [θ1 ,yn ] fX1 ,...,Xn (x1 , ..., xn ; θ1 , θ2 ) =
y1 = m´ın(x1 , ..., xn ), yn = m´ax(x1 , ..., xn ). Haciendo q(x1 , ..., xn ) = 1, vemos que los estadísticos de orden Yn e Y1 son conjuntamente suficientes.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 191 — #203
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
191
Cuando θ1 = k ∈ R y θ2 = θ, observamos, fX1 ,...,Xn (x1 , ..., xn ; θ1 , θ2 ) =
1 I (y1 )I[y1 ,θ] (yn ), (θ − k)n [k,yn ]
por lo que con q(x1 , ..., xn ) = I[k,yn ] (y1 ), concluimos que el estadístico de orden Yn es suficiente. Por la misma razón, con θ1 = θ y θ2 = k ∈ R, fX1 ,...,Xn (x1 , ..., xn ; θ1 , θ2 ) =
1 I (y1 )I[y1 ,k] (yn ), (k − θ)n [θ,yn ]
y, por tanto, Y1 es suficiente haciendo q(x1 , ..., xn ) = I[y1 ,k] (yn ).
Recordando que la característica importante de un estadístico es que induce una partición en el recorrido X de (X1 , ..., Xn ), el siguiente teorema resulta evidente. Teorema 7.3 Si T1 , ..., Tr son estadísticos conjuntamente suficientes, entonces cualquier conjunto de funciones biyectivas de dichos estadísticos es conjuntamente suficiente. Así, siendo,
n X
Xi y
i=1
conjuntamente suficientes, entonces,
1 X y S2 = n−1
n X
Xi2 ,
i=1
n X i=1
Xi2 − nX
2
!
son conjuntamente suficientes. El estadístico suficiente, o conjunto de estadísticos suficientes, que induce la partición en el recorrido X de (X1 , ..., Xn ) con menor cardinal es un estadístico que debe tratarse de localizar. La definición de tal estadístico es la siguiente. Definición 7.12 Un estadístico suficiente, o un conjunto de estadísticos suficientes, se dice mínimo suficiente si es una función de cualquier otro estadístico suficiente, o conjunto de estadísticos suficientes. El lector interesado puede ver en [33] el teorema que permite encontrar estadísticos mínimo suficientes. No obstante, el teorema de factorización de Neyman genera este tipo de estadísticos suficientes, cuando es correctamente usado. Por ejemplo, el conjunto (X, S 2 ) es mínimo suficiente cuando la muestra (X1 , ..., Xn ) procede de N (µ, σ 2 ). Por otro lado, podemos construir estimadores que sean función de estadísticos suficientes y al mismo tiempo EIMV. El siguiente teorema indica el modo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 192 — #204
i
192
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Teorema 7.4 (Rao-Blackwell) Sea (X1 , ..., Xn ) una muestra extraída de una población con función de densidad f y sean T1 , ..., Tk estadísticos conjuntamente suficientes. Supongamos que T es un estimador insesgado de θ, y definamos S = E(T | T1 , ..., Tk ). Se verifica, i) S es una función de estadísticos suficientes independiente de θ, ii) S es estimador insesgado de θ, y var(S) ≤ var(T ).
Prueba . Veamos, en primer lugar, el significado de E(T | T1 , ..., Tk ). Sean X e Y dos variables aleatorias cualesquiera. Podemos calcular E(X | y) que será, en general, una función de y, llamémosla g(y). Al considerar los diferentes valores que toma la variable Y, la función g(Y ) = E(X | Y ) es una variable aleatoria definida como la esperanza de una variable X condicionada a cualquier valor de otra Y . Por ejemplo, siendo, f (x, y) = exp(−y), 0 < x < y, tenemos, fY (y) =
Z
y
exp(−y)dx = y exp(−y), y > 0,
0
y, fX|y (x | y) =
1 f (x, y) = , 0 < x < y. fY (y) y
Por tanto, 1 E(X | Y = y) = y
Z
y
0
xdx =
y Y ⇒ E(X | Y ) = , 0 < x < y. 2 2
Por otro lado, S es una función de estadísticos suficientes dada su definición. Que no dependa de θ es consecuencia de que T y T1 , ..., Tk son estadísticos, funciones muestrales no dependientes de parámetro alguno. Por tanto, S es un estimador. Considerando el Teorema 5.2, E(S) = E[E(T | T1 , ..., Tk )] = E(T ) = θ. Además - véase el Apéndice -, var(T ) = var[E(T | T1 , ..., Tk )] + E[var(T | T1 , ..., Tk )] = = var(S) + E[var(T | T1 , ..., Tk )] ≥ var(S).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 193 — #205
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
193
El siguiente teorema demuestra un importante resultado. Teorema 7.5 Si T es un estimador EIMV de θ, entonces T es único.
Prueba . Supongamos que S es otro estimador EIMV, y definamos, 1 R = (T + S) ⇒ E(R) = θ. 2 Resulta que, 1 1 1 var(R) = var(T ) + var(S) + cov(T, S) ≤ 4 4 2 1 1 1 1 ≤ var(T ) + var(S) + [var(T )var(S)] 2 = var(T ), 4 4 2 como consecuencia del teorema de Schwarz y dado que T y S son EIMV, es decir, var(T ) = var(S). Como T es EIMV, debe ser var(R) = var(T ) y, por tanto, 1 1 var(R) = var(T ) + cov(T, S) = var(T ) ⇒ cov(T, S) = var(T ). 2 2 Dado que cov(T, S) = [var(T )var(S)]1/2 , las variables T y S verifican por el teorema de Schwarz, S = aT + b, y por tanto, cov(T, S) = cov(T, aT + b) = avar(T ), lo que implica que a = 1. Al ser S estimador EIM V , E(S) = θ ⇒ E(aT + b) = E(T ) + b = θ ⇒ b = 0 ⇒ S = T, y así, T es único.
Una condición necesaria y suficiente para que un estimador sea EIMV se enuncia a continuación. Teorema 7.6 T es un estimador EIMV de un parámetro θ si y solo si T está incorrelacionado con cualquier estimador insesgado de cero.
Prueba . Sea U un estimador tal que E(U ) = 0. Entonces, se puede construir el estimador, R = T + aU, a ∈ R ⇒ E(R) = θ, y, var(R) = var(T ) + a2 var(U ) + 2acov(T, U ).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 194 — #206
i
194
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Observemos que, var(R) ≤ var(T ) ⇒ a2 var(U ) + 2acov(T, U ) ≤ 0, en cuyo caso T no sería EIMV. Estudiemos esta posibilidad, a2 var(U ) + 2acov(T, U ) ≤ 0 ⇔ a ≤ −
2cov(T, U ) . var(U )
En caso de que, cov(T, U ) < 0 ⇒ −
2cov(T, U ) > 0, var(U )
de forma que se puede elegir, 0 0, es decir la plausibilidad, o verosimilitud, de θ1 es k1 veces la de θ2 . Si el Principio es cierto, l(θ; x) = l(θ; y)k, ∀θ por lo que podemos escribir, l(θ1 ; x) = l(θ1 ; y)k, l(θ2 ; x) = l(θ2 ; y)k, es decir, l(θ1 ; y) = k1 l(θ2 ; y). Por tanto, es indiferente observar (x1 , ..., xn ) o (y1 , ..., yn ), la verosimilitud de θ1 es k1 veces la de θ2 . Teorema 7.8 (Principio de Suficiencia) Un estadístico T es suficiente si y sólo si se cumple que l(θ; x) ∝ l(θ; t), donde la constante de proporcionalidad no depende de θ, y x = (x1 , ..., xn ).
Prueba . Si T es suficiente, l(θ; x) = fX1 ,...,Xn (x1 , ..., xn ; θ) = = g(t; θ)h(X1 ,...,Xn )|t [(x1 , ..., xn ) | t] ∝ l(θ; t), ya que la función l(θ; t), verosimilitud de t puede, o bien ser g, o bien ser proporcional a esta función. Al contrario, si se verifica l(θ; x) ∝ l(θ; t), entonces, fX1 ,...,Xn (x1 , ..., xn ; θ) = l(θ; x) ∝ l(θ; t) ∝ g(t; θ), por lo que puede encontrarse una función h tal que, fX1 ,...,Xn (x1 , ..., xn ; θ) = g(t; θ)h(X1 ,...,Xn )|t [(x1 , ..., xn ) | t] . Ejemplo 7.13 Sea (X1 , ..., Xn ) una muestra aleatoria extraída de P(λ). De aquí, fX1 ,...,Xn (x1 , ..., xn ; λ) =
Pn 1 exp(−nλ)λ i=1 xi . x1 !...xn !
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 199 — #211
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
199
Por el Teorema de la Factorización de Neyman, el estadístico, T =
n X
Xi ,
i=1
es suficiente pues,
h(X1 ,...,Xn )|t [(x1 , ..., xn ) | t] =
1 , x1 !...xn !
y, g(t; λ) = λt exp(−nλ). Por otro lado, T ∼ P(nλ) ⇒ fT (t) =
nt t λ exp(−nλ), t = 0, 1, ... t!
Así, l(λ; x) = fX1 ,...,Xn (x1 , ..., xn ; λ) ∝ l(λ; t) = fT (t; λ), siendo la constante de proporcionalidad, t! . nt x1 !...xn ! En consecuencia, se cumple el Principio de Suficiencia.
Propiedades de los estimadores máximo verosímiles Teorema 7.9 Los estimadores máximo verosímiles son funciones de estadísticos suficientes.
Prueba . Sean T1 , ..., Tk estadísticos conjuntamente suficientes. Podemos escribir, dado el teorema de la factorización y la definición de función de verosimilitud, l(θ; x1 , ..., xn ) =
n Y
f (xi ; θ) = g(t1 , ..., tk ; θ)q(x1 , ..., xn ).
i=1
Por tanto, como funciones de θ, l y g alcanzarán su máximo en el mismo punto. Hemos visto que algunos estimadores máximo verosímiles son insesgados. También, que algunos de estos estimadores son EIMV. Por ejemplo, siendo X ∼ N (µ, 1), X es el estimador máximo verosímil de µ, y es un estimador EIMV. Otra propiedad, entre las más conocidas, de los estimadores máximo verosímiles es su invariancia. Si una distribución está indexada por un parámetro θ, y se trata de estimar una función g de θ, g(θ), la invariancia de un estimador indica que si la estimación b entonces g(θ) b será la estimación máximo verosímil de máximo verosímil de θ es θ, g(θ). Si g es una función uno a uno, no hay dificultad alguna en imaginar la prueba. Cuando no es así, se necesita el concepto de función de verosimilitud inducida.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 200 — #212
i
200
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Definición 7.16 Sea g una función cualquiera, y θ un parámetro. Si a g(θ) la simbolizamos por κ, g(θ) = κ, la función de verosimilitud inducida, l∗ , se define, l∗ (κ; x1 , ..., xn ) =
sup
l(θ; x1 , ..., xn ).
{θ:g(θ)=κ}
Con el propósito de aclarar la definición, sea g(θ) = µ2 . Esto supone que el conjunto de µ que genera µ2 es, siendo µ ∈ R, {−µ, µ}. Supongamos que l(−µ; x1 , ..., xn ) > l(µ; x1 , ..., xn ). De aquí, l∗ (µ2 ; x1 , ..., xn ) = l(−µ; x1 , ..., xn ). El valor κ b que maximiza l∗ se llama estimación máximo verosímil de κ = g(θ), y de la anterior definición, y a la vista del ejemplo anterior, se deduce que los máximos de l∗ y l coinciden. Teorema 7.10 (Invariancia de Estimadores Máximo Verosímiles) Si θb es la estimación máximo verosímil de θ, se verifica que, para cualquier función g de θ, la estimación b máximo verosímil de g(θ) es g( θ).
Prueba . Sea κ b el valor que maximiza l∗ (κ; x1 , ..., xn ). Tenemos, l∗ (b κ; x1 , ..., xn ) = sup
sup
κ {θ:g(θ)=κ}
l(θ; x1 , ..., xn ) = sup l(θ; x1 , ..., xn ), θ
ya que, en definitiva, localizamos el máximo en θ. Por tanto, b x1 , ..., xn ). l∗ (b κ; x1 , ..., xn ) = l(θ;
b =κ Dado que κ = g(θ), tendremos que g(θ) b, y, por tanto,
b x1 , ..., xn ). l∗ (b κ; x1 , ..., xn ) = l∗ [g(θ);
Con este resultado, la estimación máximo verosímil de µ2 , el cuadrado de la media de una normal, es x2 . Y, también por ejemplo, la estimación máximo p verosímil de p p(1 − p), con p la probabilidad de un suceso en un ensayo Bernoulli, es pb(1 − pb). Citaremos, por último, el siguiente teorema cuya demostración puede verse en detalle en [31]. Teorema 7.11 Sea f la función de densidad de una población dependiente de un parámetro θ. Conviniendo que T = u(X1 , ..., Xn ) es el estimador máximo verosímil del parámetro θ, se verifica, bajo ciertas condiciones de regularidad,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 201 — #213
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
i) T es asintóticamente normal,
T ∼ N θ,
nE
201
2 , ∂ ln[f (X; θ)] ∂θ 1
con X cualesquiera de las variables Xi , i = 1, ..., n ii) T es ECEAN.
El teorema indica que cuando la muestra es suficientemente grande, el mejor estimador es el estimador máximo verosímil. Considerando (i), T es asintóticamente EIMV, pues además de ser E(T ) = θ, su varianza es la cota inferior de Cramér-Rao. Debido a (ii), T es consistente.
7.3.2.
Momentos muestrales
Definición 7.17 Dada una muestra aleatoria de tamaño n, se denomina momento muestral de orden k, mk , a, n 1X k xi . mk = n i=1
Recordemos que µk = E(X k ), de manera que si los momentos µk dependen de los parámetros que estamos interesados en estimar, una forma, en apariencia simple, de obtener las estimaciones de dichos parámetros es, µk = mk , k = 1, 2, ... utilizando tantas ecuaciones como sean necesarias para obtener una solución única de los parámetros de interés. Ejemplo 7.14 Sea (3, 8, 5, 2, 4) una muestra aleatoria extraída de P(λ). Tenemos, 22 1 m1 = (3 + ... + 4) = , 5 5 que al hacer m1 = µ1 = µ = λ, es, b = x, λ
y el estimador puntual de µ, por el procedimiento de los momentos, es el mismo que el obtenido por máxima verosimilitud.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 202 — #214
i
202
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejemplo 7.15 Sea (x1 , ..., xn ) una muestra aleatoria extraída de una población con función de densidad, f (x; θ) = θxθ−1 , 0 < x < 1, θ > 0. Estimemos θ por el método de los momentos. Tenemos que, Z 1 µ = E(X) = θ xθ dx = 0
θ , θ+1
por lo que, dado que m1 = x, x=
x θ ⇒ θb = . θ+1 1−x
Si estimamos θ máximo verosímilmente,
L(θ; x1 , ..., xn ) = n ln(θ) + (θ − 1) ln(x1 ...xn ), por lo que, ∂L n = 0 ⇒ θb = − , ∂θ ln(x1 ...xn )
no coincidente, por tanto, con el obtenido por el método de los momentos.
7.3.3.
Estimadores bayesianos
Hasta este punto hemos venido desarrollando lo que puede denominarse punto de vista clásico de la Estadística. El llamado punto de vista bayesiano es, sin duda, diferente. Desde la perspectiva clásica, el parámetro θ a estimar se considera una constante. El punto de vista bayesiano, por el contrario, supone que θ es una cantidad cuya variación puede describirse mediante una ley probabilística, a la que se llama distribución a priori. Se dice que es una distribución subjetiva puesto que, en general, se formula considerando la experiencia que sobre el problema a estudiar tiene el investigador. El término a priori alude a que es definida antes de la realización del experimento, o de la obtención de los datos muestrales. Así definido, el modelo bayesiano recuerda los modelos jerárquicos vistos en Funciones de Distribución más Usuales. El propósito bayesiano puede resumirse de la siguiente manera. Seleccionada la muestra aleatoria de una población indexada por θ, la distribución a priori es actualizada por dicha muestra. En otras palabras, siendo Θ la variable aleatoria cuyo recorrido lo forman los valores θ, el resultado del análisis de la muestra es la obtención de la distribución de Θ condicionada a las observaciones muestrales, distribución denominada posterior.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 203 — #215
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
203
En esta sección la notación será algo diferente. Como en ocasiones precedentes, simbolizaremos una muestra aleatoria mediante el vector X = (X1 , ..., Xn ), y una muestra específica mediante x = (x1 , ..., xn ). Además, para resaltar que la función de densidad de una población está definida por un valor concreto θ de la variable aleatoria Θ, en vez de fX (x), escribiremos fX|θ (x | θ), o lo que es lo mismo, consideramos que la función de densidad muestral fX|θ es la función de densidad condicionada de la variable aleatoria X | Θ = θ. La función de densidad a priori de Θ la simbolizaremos mediante π(θ), y la función de densidad conjunta, f, de Θ y X será, f (x, θ) = fX|θ (x | θ)π(θ). De aquí, m(x) =
Z
f (x, θ)dθ,
Θ(Ω)
que es la función de densidad marginal de X, evidentemente no dependiente de θ. Esta función, también simbolizada m(x | π), se dice es la distribución predicha de X una vez conocida la distribución π de Θ. Encontrar la distribución posterior, πc , de Θ | X = x es fácil recordando el teorema de Bayes, πc (θ | x) = R
fX|θ (x | θ)π(θ) f (x, θ) = , m(x) 6= 0. m(x) Θ f (x, θ)dθ
Desde la perspectiva bayesiana, esta distribución es todo lo que se necesita saber para hacer inferencias. Definición 7.18 La estimación máximo verosímil generalizada de θ es la moda de πc (θ | x), es decir, el valor que maximiza la distribución posterior.
Ejemplo 7.16 Sean X | θ ∼ N (θ, σ 2 ) y Θ ∼ N (µ, τ 2 ) con σ 2 , µ, τ 2 conocidos. Localicemos la estimación máximo verosímil generalizada de θ cuando la muestra es de tamaño uno. La función de densidad conjunta f de X y Θ es, f(x, θ) = f2X|θ (x | θ)π(θ) = 1 1 (θ − µ) (x − θ)2 = exp − + , −∞ < x, θ < ∞. 2πστ 2 τ2 σ2 Haciendo, κ=
1 1 + 2, 2 τ σ
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 204 — #216
i
204
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
no es dificil ver que,
y, por tanto,
1 (θ − µ)2 (x − θ)2 = + 2 τ2 σ2 2 µ 1 1 1 x µ x2 2 = θ −2 2 + 2 θ+ = + + 2 2 τ 2 σ 2 τ σ τ2 σ 1 1µ x 2 (µ − x)2 = κ θ− , + + 2 κ τ 2 σ2 2(σ 2 + τ 2 ) ( ) 1 1µ 1 x 2 exp − κ θ − f (x, θ) = + 2πστ 2 κ τ 2 σ2 (µ − x)2 , −∞ < x, θ < ∞. exp − 2(σ 2 + τ 2 )
En consecuencia, R m(x) = R f (x, θ)dθ = (µ − x)2 1 1 √ √ exp − = 2 2 στ 2(σ + τ ) 2π κ 1 R 1 1µ x 2 θ− + 2 dθ. exp − R √ 2 1 1 κ τ σ 2π √ 2 κ κ
Como en la integral tenemos la función de densidad de una distribución, 1 µ x 1 N + , , κ τ 2 σ2 κ resulta,
es decir que,
1 (x − µ)2 √ exp − m(x) = √ 2(σ 2 + τ 2 ) σ 2 + τ 2 2π X ∼ N µ, (σ 2 + τ 2 ) ,
recordando que σ 2 , µ, τ 2 son conocidos. La distribución posterior de Θ | X = x es, 2 f (θ, x) 1 1 1µ x πc (θ | x) = = exp − θ− + ⇒ 1 √ m(x) κ τ 2 σ2 21 √ 2π κ κ 1µ x 1 1 1 ⇒Θ|X=x∼N + , ,κ = 2 + 2. κ τ 2 σ2 κ τ σ
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 205 — #217
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
205
En consecuencia, la moda coincide con la media, y el estimador bayesiano es, 1 µ X . E(Θ | X) = + κ τ 2 σ2 Observemos que este estimador puede expresarse como una combinación lineal de la media µ de la distribución a priori y la información muestral X, pues, E(Θ | X) =
τ2 σ2 X + µ. σ2 + τ 2 σ2 + τ 2
Si la varianza τ 2 de la distribución a priori tiende a infinito, el estimador bayesiano tiende a la información muestral, lo que puede interpretarse pensando que cuando la información a priori es vaga o imprecisa - la distribución normal es entonces prácticamente una distribución uniforme - el estimador bayesiano da más peso a la información muestral. Si, por el contrario, la información a priori verifica que τ 2 < σ 2 , la media µ de la distribución a priori caracteriza mejor al estimador bayesiano. Una distribución a priori uniforme, se llama no informativa. Ejemplo 7.17 Sea una muestra aleatoria de tamaño uno extraída de, fX|θ (x | θ) = exp[−(x − θ)], x ≥ θ, y consideremos que la distribución de Θ tiene función de densidad, π(θ) =
1 , −∞ < θ < ∞, c = 3.1415... (1 + θ2 )c
Llamando m a la función de densidad marginal de X, no dependiente de θ, tenemos que, exp(−x) exp(θ) πc (θ | x) = , θ ≤ x. m(x)c 1 + θ2
Para localizar el estimador bayesiano de θ, maximizamos esta función respecto de θ. Así, ∂ exp(−x) exp(θ)(θ − 1)2 πc = . ∂θ m(x)c (1 + θ2 )2
Esta derivada se anula en θ = 1, así como la derivada segunda, aunque no la tercera. Por tanto, en θ = 1 hay un punto de inflexión. Sin embargo, observemos que la primera derivada es una función siempre positiva, por lo que πc es creciente cuando θ ≤ x. De aquí que el máximo se alcance en θ = x. El estimador bayesiano de θ es, por tanto, X. Existen otras estimaciones bayesianas de θ.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 206 — #218
i
206
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Definición 7.19 El estimador bayesiano de θ es E(Θ | X). El estimador bayesiano por excelencia es precisamente esta esperanza, si bien se aconseja calcular ambos, moda y media, y compararlos especialmente en lo que hace referencia a su robustez frente a cambios en la distribución a priori. Esto significa que se debe analizar el comportamiento de dichos estimadores frente los cambios en la distribución mencionada, de forma que si el estimador permanece prácticamente inalterado, se dice que es robusto. Ejemplo 7.18 Sean X | θ ∼ B(n, θ) y Θ ∼ BE (α, β) con n, α, β conocidos. A la vista de una observación de B(n, θ), localizaremos el estimador bayesiano de θ. La distribución conjunta de X y Θ es, n Γ(α + β) x+α−1 f (x, θ) = θ (1 − θ)n−x+β−1 , x = 0, ..., n; 0 < θ < 1, x Γ(α)Γ(β) de donde, m(x) =
Z
1
f (x, θ)dθ = 0
n Γ(α + β) Γ(x + α)Γ(n − x + β) . x Γ(α)Γ(β) Γ(n + α + β)
La distribución posterior es, πc (θ | x) =
Γ(n + α + β) θx+α−1 (1 − θ)n−x+β−1 . Γ(x + α)Γ(n − x + β)
es decir, Θ | X ∼ BE (x + α, n − x + β). En consecuencia, el estimador bayesiano de θ es, E(Θ | X) =
X +α . n+α+β
La distribución obtenida para m(x) en este ejemplo se denomina beta-binomial.
Por otra parte, la elección de la distribución a priori es importante. En efecto, en el ejemplo anterior, hemos visto que eligiendo una distribución beta para describir Θ, no solo hemos obtenido una distribución posterior que pertenece a la misma familia de distribuciones beta, sino que el estimador bayesiano puede definirse explícitamente, es decir, es una expresión que no depende de integrales que deban resolverse numéricamente. El Ejemplo 7.16, donde se localizaba el estimador bayesiano del parámetro central de una población normal, es otro caso de las mismas características.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 207 — #219
i
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
207
Definición 7.20 Sea F la clase o familia de funciones de densidad fX|θ (x | θ), indexada por θ. La clase Π de distribuciones a priori π, se llama familia conjugada de F, si la distribución posterior πc pertenece a la clase Π, ∀fX|θ ∈ F, ∀π ∈ Π, ∀x ∈ X.
APÉNDICE El estimador varianza muestral es consistente La varianza de S 2 es var(S 2 ) = E(S 4 ) − E 2 (S 2 ). Calculemos E(S 4 ). Ya que, Pn P µ)2 = ni=1 [(Xi − X) + (X − µ)]2 = i=1 (Xi −P = ni=1 (Xi − X)2 + n(X − µ)2 ,
y,
X −µ= se tiene,
1 Xn (Xi − µ), i=1 n
P P 1 P (n − 1)S 2 = ni=1 (Xi − X)2 = ni=1 (Xi − µ)2 − [ ni=1 (Xi − µ)]2 = n n − 1 Pn 2P 2 = (Xi − µ)(Xj − µ). i=1 (Xi − µ) − n n i x + 1) = P (Y ≥ p), que finaliza la demostración del teorema. Adicionalmente, no es dificil comprobar que, P (X ≥ x) = P (V ≤ p), siendo X la misma ley binomial y V ∼ BE (x, n − x + 1), sin más que sustituir x − 1 por x en la primera igualdad de la proposición. Proposición 8.2 Sea X ∼ F(m,n . Se verifica que,
m m n X . , Y = n m ∼ BE 2 2 1+ X n
Prueba . No es dificil comprobar el resultado considerando, Y X= m , (1 − Y ) n 1 J = |J| = m . (1 − y)2 n Veamos, ahora, la construcción del intervalo de confianza para el parámetro p en una situación general. Ejemplo 8.9 Siendo (X1 , ..., Xn ) una muestra aleatoria extraída de una Bernoulli B(1, p), la variable aleatoria n X Y = Xi ∼ B(n, p), i=1
es un estadístico suficiente que nos permite construir un intervalo de confianza para p. Dada la observación y tenemos, y P α n k = p (1 − p)n−k , 2 k=0 k n P α n k = p (1 − p)n−k . 2 k=y k
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 234 — #246
i
234
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
De la primera ecuación deducimos, α = P (Y ≤ y) = P (U ≥ p) = P V ≥ v(2[y+1],2[n−y]; α , 2 2 siendo, 2(y + 1) 2(n − y) , , U ∼ BE 2 2 V ∼ F(2[y+1],2[n−y] ,
y con v(2[y+1],2[n−y]; α la abscisa de una F(2[y+1],2[n−y] que deja a su derecha un área 2 igual a la mitad de α. De aquí, y+1 v( α 2 n−y pS = . y+1 v( α 1+ 2 n−y Por otro lado, de la segunda ecuación, α ′ ′ = P (Y ≥ y) = P (Y > y − 1) = P (U < p) = P (U ≤ p) = 2 ′ ′ = P V ≥ v 2(y−1),2[n−y+2];1− α , ( 2 con,
2y 2(n − y + 1) U ∼ BE , , 2 2 ′ V ∼ F(2(y−1),2[n−y+2] . ′
Por tanto,
y−1 ′ v α n − y + 2 (1− 2 pI = . y−1 ′ v 1+ n − y + 2 (1− α2
En conclusión, un intervalo aleatorio para el parámetro p de una ley binomial con confianza 100(1 − α) % es,
Y −1 Y +1 ′ v α v( α 2 n − Y + 2 (1− 2 n−Y , Y −1 Y + 1 ′ 1+ v 1+ v( α 2 n − Y + 2 (1− α2 n−Y
.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 235 — #247
i
CAPÍTULO 8. ESTIMACIÓN POR INTERVALO
235
INTERVALOS BAYESIANOS Como se explicó en la Introducción del capítulo, no tiene sentido concluir, construido un intervalo estimación para un parámetro, que dicho parámetro está con confianza 100(1− α) % dentro del citado intervalo. Una forma de expresar la situación es considerar que el intervalo estimación cubre al parámetro, es decir, que el intervalo calculado es uno de los 100(1 − α) de cada 100 que contienen el valor real del parámetro. Desde la perspectiva bayesiana, donde los parámetros son variables aleatorias, la forma de entender un intervalo de confianza es bien distinta. Hablar de que, con cierta confianza, el parámetro estará dentro del intervalo sí tiene sentido pues el cálculo del intervalo es el cálculo de la probabilidad, considerando la distribución posterior, de que una variable aleatoria - el parámetro - tome valores en un intervalo específico. De hecho, las estimaciones por intervalo bayesianas se denominan conjuntos creíbles, en vez de conjuntos o intervalos de confianza. De esta manera, si x = (x1 , ..., xn ) es una muestra aleatoria, πc es la distribución posterior de Θ | (X = x), y A ⊂ Θ, entonces, P ((Θ ∈ A) | x) =
Z
A
πc (θ | x)dθ,
siendo A un conjunto creíble de θ. El cálculo del conjunto A se obtiene considerando la región de mayor masa probabilística de la distribución posterior, o región HPD (highest posterior density). La región HPD 1 − α viene dada por el conjunto {θ : πc (θ | x) ≥ k} donde k es la mayor constante que verifica, 1−α=
Z
{θ:πc (θ|x)≥k}
πc (θ | x)dθ.
La construcción de tal región HPD es óptima en el sentido del Teorema 8.1, pues genera el menor intervalo de todos los intervalos posibles dada una probabilidad 1 − α, siempre que la función de densidad sea unimodal. Es decir, por construcción, obtenemos dos abscisas θi y θs tales que πc (θi | x) = πc (θs | x) = k, y 1−α=
Z
θs
θi
πc (θ | x)dθ.
Como se observa, la construcción y la interpretación de un conjunto creíble bayesiano es mucho más directa que las correspondientes construcción e interpretación de un intervalo de confianza. Recordemos, no obstante, que el punto de vista bayesiano requiere obtener más información acerca del experimento, a saber la de la distribución a priori.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 236 — #248
i
236
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejemplo 8.10 Sea X ∼ P(λ) y asumamos que λ ∈ Λ ∼ G(a, r). Con el propósito de no complicar los cálculos, supongamos que obtenemos una muestra aleatoria x de tamaño uno. No es difícil ver que la marginal m de X es, Z ar Γ(x + r) m(x) = fX (x | λ)π(λ)dλ = , x = 0, 1, 2, ... (a + 1)x+r x!Γ(r) R+ y, por tanto, fX (x | λ)π(λ) = m(x) (a + 1)x+r exp[−(a + 1)λ]λx+r−1 = ,λ > 0 ⇒ Γ(x + r) ⇒ Λ | x ∼ G(a + 1, x + r). πc (λ | x) =
Si elegimos a = r = 1, entonces la distribución a priori π de Λ es una exponencial de parámetro 1 y la distribución posterior πc de Λ | x es una gamma G(2, x + 1). Supongamos que x = 3 y que α = 0.1. Considerando el Teorema 8.1, buscamos k con la condición de que πc (λi ) = πc (λs ) = k y, Z λs 4 2 exp (−2λ) λ3 dλ. 0.9 = Γ(4) λi Mediante prueba y error, puede verse que k = 0.105, λi = 0.4633, λs = 3.4937, y por tanto, el conjunto creíble bayesiano para λ es (0.4633,3.4937). Si, con estos datos, obtenemos el correspondiente intervalo de confianza al 90 % para λ según el método estadístico de Mood y col., resulta que el intervalo estimación es (0.82,7.75). En la siguiente Figura 8.2 pueden apreciarse ambos intervalos.
APÉNDICE Teorema 8.1 Supongamos que existe un intervalo [c, d] tal que d − c < b − a. Probaremos que entonces, Z d f (x)dx < 1 − α. c
La demostración se hará considerando que c ≤ a, lo que implica tener en cuenta bien que d ≤ a, bien que a < d. Señalamos que la demostración para el caso a < c es similar. Sea c ≤ a y d ≤ a. Entonces, c ≤ d ≤ a ≤ xm y, Z d Z b f (x)dx ≤ f (d)(d − c) ≤ f (a)(d − c) < f (a)(b − a) ≤ f (x)dx = 1 − α. c
a
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 237 — #249
i
CAPÍTULO 8. ESTIMACIÓN POR INTERVALO
237
Figura 8.2
Sea ahora c ≤ a y a < d. Entonces, c ≤ a < d < b pues en caso contrario no sería d − c < b − a. De aquí, R Rd Rb Rb a f (x)dx = f (x)dx + f (x)dx − f (x)dx = c a c d R Rb a = 1 − α + c f (x)dx − d f (x)dx . Tenemos que,
Z
a
f (x)dx ≤ f (a)(a − c),
c
y que,
Z
b
d
por lo que,
Ra c
f (x)dx ≥ f (b)(b − d),
f (x)dx −
Rb d
f (x)dx ≤
≤ f (a)(a − c) − f (b)(b − d) = f (a)[(d − c) − (b − a)], ya que f (a) = f (b). Ahora bien, (d − c) − (b − a) < 0, y por ello, Z
d c
f (x)dx < 1 − α.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 238 — #250
i
238
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
EJERCICIOS 8.1. Sea X el crecimiento (en milímetros) durante 15 días que experimenta un tumor inducido en el ratón. Supóngase, además, que X tiene una distribución N (µ, σ 2 ). Sabiendo que en una muestra aleatoria de 9 ratones se han obtenido un crecimiento medio de 4.3 mm. y una desviación típica de 1.2 mm., calcúlese un intervalo estimación de confianza del 90 % para el parámetro µ. Si, por otra parte, la varianza σ 2 resulta ser 1.96, hállese el tamaño muestral requerido para que con la misma confianza del 90 % el error máximo cometido al estimar µ sea de 0.01 mm. 8.2. En un estudio sobre hábitos de alimentación en murciélagos, se marcaron 25 hembras y 11 machos elegidos aleatoriamente y se les siguió por radio. Una variable de interés para estudiar es la distancia que recorren en busca de alimento. En las hembras se obtuvo una media de 205 metros con desviación típica muestral de 100 metros, mientras que en los machos se observó una media de 135 metros con una desviación típica de 90 metros. Suponiendo que la distribución de las distancias recorridas es normal tanto en machos como en hembras, y que las varianzas en estas poblaciones son desconocidas pero se piensa que iguales, localícese un intervalo estimación de confianza del 90 % para µh − µm , siendo µh y µm las medias relativas a las poblaciones de hembras y machos, respectivamente. 8.3. Un experimento que trata de comparar los tiempos de reacción humanos hacia las luces roja y verde, se diseña de la siguiente manera. Cuando a un individuo se le enciende la luz (roja o verde), debe pulsar un interruptor que la apaga y en ese momento se para un reloj que ha tomado el tiempo de esta reacción en segundos. Si la siguiente tabla de datos ilustra los tiempos de reacción de 8 individuos, Individuo 1 2 3 4 5 6 7 8
Luz roja (X) 0.3 0.23 0.41 0.53 0.24 0.36 0.38 0.51
Luz verde (Y ) 0.43 0.32 0.58 0.46 0.27 0.41 0.38 0.61
¿se puede afirmar, con una confianza del 95 %, que los tiempos de reacción hacia las luces roja y verde son, en promedio, no diferenciables en la especie humana? 8.4. Para estimar por intervalo la varianza en la concentración de cobre en plantas de un determinado valle, se seleccionó una muestra de 16 plantas que fueron quemadas, procediéndose posteriormente al análisis de las cenizas. Los datos que se obtuvieron sobre la concentración de cobre en partes por millón fueron 5, 3, 34, 18, 27, 14, 8, 50, 38, 43, 35, 20, 70, 25, 60 y 19. Suponiendo que la distribución de la variable aleatoria estudiada es normal, calcúlese un intervalo estimación de confianza del 90 % para la varianza σ 2 . 8.5. En un estudio sobre la longitud de los coleópteros de una determinada especie, se seleccionaron de forma independiente dos muestras aleatorias de tamaños n1 = 6 y n2 = 16 de dos poblaciones de la citada especie de Coleópteros. Las desviaciones típicas muestrales que se obtuvieron fueron s1 = 0.46 y s2 = 0.62. Calcúlese un intervalo estimación de confianza del 90 % para el cociente de las varianzas poblacionales.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 239 — #251
i
CAPÍTULO 8. ESTIMACIÓN POR INTERVALO
239
8.6. El contenido en celulosa de 6 frutos tomados al azar de determinada especie es, en unidades arbitrarias, 10.2, 10.4, 9.8 10.8, 10.2 y 9.6. a) Calcúlese un intervalo estimación de confianza del 95 % para la media del contenido en celulosa, suponiendo que se trata de una variable aleatoria con distribución normal. b) ¿Cuántas observaciones necesitaríamos para, con confianza del 95 %, el error máximo cometido por la estimación puntual sea 0.1 suponiendo que la varianza de la población es 0.2? 8.7. En determinada prueba bioquímica efectuada en 50 hembras y 75 machos de una determinada especie se obtuvieron, para el fenómeno en estudio, 6 8 xh = 76, sh = √ , xm = 82, sm = √ . 50 75 a) Calcúlese un intervalo estimación de confianza del 95 % para µm − µh . b) Si queremos cometer un error de como máximo una unidad al efectuar la estimación, ¿qué tamaños deben tener las muestras, supuesto que ambos son iguales y que las 2 varianzas poblacionales son σm = 64/75 y σh2 = 36/50? 8.8. La dureza del caparazón de ciertos insectos se evaluó, en unidades arbitrarias, en dos muestras de insectos criados con distintas dietas. En la primera, de tamaño 9, se obtuvieron x1 = 64 y s1 = 6, en tanto que en la otra, de tamaño 16, x2 = 59 y s2 = 5. Especifíquese qué suposiciones son necesarias para calcular un intervalo estimación de confianza del 95 % para µ1 − µ2 , y calcúlese. 8.9. Calcúlese un intervalo estimación de confianza del 98 % para la relación de varianzas de la variable aleatoria del ejercicio anterior. Especifíquense las condiciones en que tiene validez este intervalo. 8.10. La presión arterial en diástole en una serie de 14 pacientes se evaluó antes y después de la administración de cierto tratamiento, obteniéndose los siguientes datos, Paciente Antes Después
1 10 9
2 9 9
3 7 6
4 9 7
5 8 9
6 10 8
7 11 10
8 10 9
9 8 8
10 9 7
11 9 6
12 8 7
13 9 9
14 10 8
Calcúlese un intervalo estimación de confianza del 90 % para la media de las diferencias en la presión arterial antes y después del tratamiento. ¿Qué suposición se ha realizado? 8.11. En un estudio se determinó el contenido de elementos esenciales en tomates frescos y enlatados por medio de espectrofotometría de absorción atómica. El contenido de cobre en los tomates frescos comparado con el contenido de este elemento en los mismos tomates después de ser enlatados, fue el siguiente,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 240 — #252
i
240
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Par 1 2 3 4 5 6 7 8 9 10
T. fresco (X) 0.066 0.079 0.069 0.076 0.071 0.087 0.071 0.073 0.067 0.062
T. enlatado (Y ) 0.085 0.088 0.091 0.096 0.093 0.095 0.079 0.078 0.065 0.068
D =Y −X 0.019 0.009 0.022 0.02 0.022 0.008 0.008 0.005 -0.002 0.006
Determínese un intervalo estimación de confianza del 98 % para el parámetro central de la diferencia entre el contenido de cobre en los tomates enlatados y el de los tomates frescos, suponiendo que la distribución de las diferencias es normal. 8.12. En 1983 se realizó un estudio en la Universidad de Virginia acerca del desarrollo del ectomicorrizal, una relación simbiótica entre raíces de árboles y un tipo de hongo en la cual se transportan minerales de los hongos a los árboles y azúcares de los árboles a los hongos. Para dicho estudio, se plantaron en un invernadero 20 vástagos de roble rojo del norte de USA con hongos Pisolithus tinctorus. En todos los casos se tuvo el mismo tipo de suelo y se proporcionó la misma cantidad de luz solar y agua. Para servir como control, la mitad no recibió nitrógeno en el momento de la plantación y la otra mitad recibió 368 ppm. de nitrógeno en forma de NaNO3 . Los pesos de los troncos sin nitrógeno (A) y con nitrógeno (B), en gramos, después de 140 días, fueron los siguientes, A B
0.32 0.26
0.53 0.43
0.28 0.47
0.37 0.49
0.47 0.52
0.43 0.75
0.36 0.79
0.42 0.86
0.38 0.62
0.43 0.46
Encuéntrese un intervalo estimación de confianza del 95 % para la diferencia de las medias en los pesos del tronco entre los vástagos que no recibieron nitrógeno y los que recibieron 368 ppm. de este elemento. Supóngase que las poblaciones están distribuidas normalmente, con varianzas iguales. 8.13. En la medición de cierta característica morfológica de 25 plantas se encontraron una media muestral de 2.3 y una desviación típica muestral de 0.1. Constrúyase un intervalo estimación de confianza para la media poblacional, suponiendo que la población se distribuye normalmente, en cada uno de los casos siguientes, a) el nivel de significación es del 1 %, b) el nivel de significación es del 5 %. 8.14. Con la misma media y desviación típica muestrales, repítase el ejercicio anterior para una muestra de 400 plantas. A la vista de los resultados obtenidos en ambos ejercicios, ¿qué puede apreciarse al aumentar el tamaño muestral?, ¿y al aumentar el nivel de significación?
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 241 — #253
i
CAPÍTULO 8. ESTIMACIÓN POR INTERVALO
241
SOLUCIONES Ejercicio 8.1. Puesto que la confianza es del 90 %, tenemos que α = 0.1 y t(n−1; α = t(8;0.05 = 1.86 2 para una t de Student con 8 grados de libertad. Así, el intervalo estimación de confianza pedido es, s s x − √ t(n−1; α , x + √ t(n−1; α = 2 2 n n 1.2 1.2 = 4.3 − √ 1.86, 4.3 + √ 1.86 = (3.556, 5.044). 9 9 Por otro lado, si sabemos que σ 2 = 1.96 y que X tiene una distribución N (µ,1.96) entonces z( α = z(0.05 = 1.645, y el número de ratones n que se necesitan para que la 2 estimación de µ no difiera de este parámetro en más de 0.01 mm. es, n=
σ z α em ( 2
2
=
1.96 2.706 ≃ 53 038. 0.0001
Ejercicio 8.2. En este caso, la variable aleatoria que vamos a utilizar es la siguiente, dado que las muestras son independientes, T =
X h − X m − (µh − µm ) r ∼ t(nh +nm −2 , 1 1 Sp + nh nm Sp2 =
2 (nh − 1)Sh2 + (nm − 1)Sm . nh + nm − 2
Así, el intervalo estimación de confianza tendrá extremos, r 1 xh − xm − t(nh +nm −2; α sp + 2 nh r 1 xh − xm + t(nh +nm −2; α sp + 2 nh
1 , nm 1 , nm
y con los datos proporcionados, este intervalo es, (12.17, 127.83), donde t(nh +nm −2; α = t(34;0.05 = 1.645 (obsérvese que t(34;0.05 = z(0.05 ). 2
Una forma de interpretar este resultado es la siguiente. Puesto que el intervalo estimación obtenido no incluye al cero, se deduce con confianza del 90 % que la media de la distancia recorrida por las hembras en busca de alimento es mayor que la correspondiente distancia para machos.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 242 — #254
i
242
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejercicio 8.3. Puesto que es el mismo individuo al que se le toman los tiempos de reacción ante las luces roja y verde, las variables aleatorias X e Y no pueden considerarse independientes. Por ello, pensamos en la variable aleatoria D = X − Y , diferencia entre los tiempos de reacción a la luz roja y a la luz verde. Con los datos proporcionados, resulta que d = −0.0625 seg. y sD = 0.0765 seg., de forma que un intervalo estimación de confianza del 95 % para el parámetro µD = µX − µY , suponiendo que D se distribuye normalmente, es, sD sD d − √ t( α , d + √ t( α = n 2 n 2 0.0765 0.0765 −0.0625 − √ 2.365, −0.0625 + √ 2.365 = 8 8 = (−0.1265, 0.0015) , ya que, t( α = t(0.025 = 2.365, 2
para una t de Student con 7 grados de libertad. Dado que 0 está incluido en el anterior intervalo podemos concluir, con confianza del 95 %, que los tiempos de reacción hacia las luces roja y verde son, en la especie humana, no diferenciables. Ejercicio 8.7. Teniendo en cuenta los tamaños muestrales, el estimador a emplear es, Z=
X m − X h − (µm − µh ) s ∼ N (0, 1). 2 Sm Sh2 + nm nh
a) Con α = 0.05 y z(0.025 = 1.96, el intervalo de confianza pedido es, (5.685, 6.315) . b) Con nm = nh = n, em = 1 = z( α 2
r
z2 α 2 σm + σh2 ( =⇒ n = 2 2 2 ≃ 6. n σm + σh
Ejercicio 8.9. Considerando que se supone normalidad en ambas poblaciones, un intervalo de confianza para el cociente de varianzas con α = 0.02 es, 2 s21 s1 u u , α , α s22 (n2 −1,n1 −1;1− 2 s22 (n2 −1,n1 −1; 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 243 — #255
i
CAPÍTULO 8. ESTIMACIÓN POR INTERVALO
243
que con, u(n2 −1,n1 −1; α = 5.52, 2 1 = 0.25, u(n2 −1,n1 −1;1− α = 2 u(n1 −1,n2 −1; α 2
valores de una distribución F con grados de libertad los indicados, obtenemos el intervalo, (0.36, 7.95) .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 244 — #256
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 245 — #257
i
CAPÍTULO
9 Contraste de hipótesis 9.1 INTRODUCCIÓN Nos ocupamos ahora de un método inferencial cuyo objetivo es conocer el valor de uno o más parámetros de la distribución de una variable aleatoria; el método también proporciona una vía para conocer la forma de la función de distribución de una variable aleatoria. A diferencia de lo expuesto en estimación de parámetros, sin embargo, en virtud del conocimiento que tenemos de la población bajo examen, realizamos supuestos sobre el valor paramétrico, o el tipo de función de distribución, que deseamos conocer. Definición 9.1 Una hipótesis es un supuesto, o una afirmación, sobre algún parámetro de una población. Naturalmente, el parámetro al que hace referencia la anterior definición es desconocido, y el objetivo al construir tales hipótesis es, teniendo en cuenta los valores muestrales, seleccionar como cierta una de dos hipótesis complementarias. Así planteado, el método inferencial que se deriva de construir dos hipótesis enfrentadas y elegir una de ellas, se llama contraste de hipótesis. Definición 9.2 Las dos hipótesis complementarias de un contraste se llaman hipótesis nula e hipótesis alternativa, simbolizadas H0 y H1 , respectivamente. Si denotamos por Θ el conjunto de valores que puede tomar el parámetro θ, es decir, el espacio paramétrico, la notación general de un contraste de hipótesis es, H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 , siendo Θ0 ⊂ Θ, y Θc0 algún conjunto complementario de Θ0 . Por ejemplo, si θ simboliza la media del cambio en la presión sanguínea de un paciente después de ingerir un
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 246 — #258
i
246
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
medicamento, se puede estar interesado en contrastar, H0 : θ = 0, H1 : θ 6= 0, es decir, que el medicamento, en promedio, no tiene efecto alguno — hipótesis nula — o si — hipótesis alternativa —. En un contraste de hipótesis, se debe decidir, después de observar los valores muestrales, si aceptar H0 como cierta y considerar que H1 es falsa, o bien si rechazar H0 creyéndola falsa y decidir que H1 es la hipótesis cierta. Definición 9.3 Un contraste de hipótesis es una regla de decisión que especifica, i) cuáles valores muestrales generan la decisión "H0 es cierta", ii) cuáles valores muestrales generan la decisión "H1 es cierta". El conjunto de valores muestrales que producen el rechazo de H0 como cierta se llama región de rechazo. La región complementaria de ésta, se llama región de aceptación. Definición 9.4 Se denomina estadístico de contraste a un estadístico T = u(X1 , ..., Xn ) que permite resolver un contraste. El estadístico de contraste, en consecuencia, es una función muestral que genera una decisión respecto a las dos hipótesis enfrentadas de un contraste. Así, por ejemplo, un contraste puede consistir en decidir que H0 sea rechazada si X = u(X1 , ..., Xn ) es mayor que 3; en este caso, por tanto, la región de rechazo es {(x1 , ..., xn ) : x > 3}. El capítulo lo hemos estructurado de forma que, en primer lugar, estudiaremos algunos estadísticos de contraste y las regiones de rechazo que generan. En segundo lugar, veremos algunos criterios para evaluar la calidad de un contraste de hipótesis.
9.2 CONTRASTES BASADOS EN EL COCIENTE DE VEROSIMILITUDES El cociente de verosimilitudes es en contrastes de hipótesis lo que el método de máxima verosimilitud es en estimación puntual. Recordemos que la función de verosimilitud l, dada una muestra x = ( x1 , ..., xn ), es, n Y l(θ; x) = fX (x; θ) = f (xi ; θ), i=1
con X = (X1 , ..., Xn ).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 247 — #259
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
247
Definición 9.5 Siendo Θ el espacio paramétrico y Θ0 ⊂ Θ, el cociente de verosimilitudes que resuelve, H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 , es un estadístico de contraste definido de la siguiente manera, sup l(θ; x) λ(x) =
Θ0
sup l(θ; x)
.
Θ
Un contraste basado en el cociente de verosimilitudes (CCV) es un contraste cuya región de rechazo es, {(x1 , ..., xn ) : λ(x) ≤ k}, 0 ≤ k ≤ 1. La elección de k será estudiada en la sección correspondiente a criterios para evaluar la calidad de un contraste. Lo que interesa ahora resaltar es que la lógica de un CCV consiste en pensar que si el cociente λ supera k, entonces la muestra indica que la hipótesis nula es cierta. Sea θb la estimación máximo verosímil del parámetro θ, obtenida maximizando l en el espacio paramétrico Θ. Si denotamos por θb0 la estimación máximo verosímil obtenida maximizando l en el subconjunto Θ0 , la relación entre CCV y estimación máximo verosímil es clara ya que entonces, λ(x) = Veamos algunos ejemplos.
l(θb0 ; x) . b x) l(θ;
Ejemplo 9.1 Siendo (x1 , ..., xn ) una muestra aleatoria extraída de N (θ, 1), sea el contraste, H 0 : θ = θ0 , H1 : θ 6= θ0 . En este caso, sup l(θ; x) = l(θ0 ; x), Θ0
y, b x) = l(x; x), sup l(θ; x) = l(θ; Θ
como vimos en el capítulo correspondiente a estimación puntual.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 248 — #260
i
248
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Por tanto, Pn 2 i=1 (xi − θ0 ) exp − 2 λ(x) = Pn 2 = i=1 (xi − x) exp − 2 Pn Pn 2 2 i=1 (xi − θ0 ) − i=1 (xi − x) = exp − = 2 n(x − θ0 )2 = exp − . 2 Dado que la región de rechazo es, {(x1 , ..., xn ) : λ(x) ≤ k} ⇒ r n(x − θ0 )2 2 ln(k) ⇒ exp − ≤ k ⇔ |x − θ0 | ≥ − . 2 n En conclusión, un CCV indica, en este caso, que cuando la diferencia entre la media muestral y el valor del parámetro en H0 sea mayor que un número especificado dependiente de k y n, se rechaza la hipótesis nula. Observemos que partiendo de un estadístico de contraste como λ(x), la región de rechazo se puede expresar mediante un estadístico más simple, en este ejemplo X − θ0 .
Ejemplo 9.2
Sea (x1 , ..., xn ) una muestra aleatoria seleccionada de, f (x) = exp[−(x − θ)], x ≥ θ, −∞ < θ < ∞. La función de verosimilitud es, dado y1 = m´ın(x1 , ..., xn ), ! n X xi + nθ , θ ≤ y1 , l(θ; x) = exp − i=1
Sea el contraste,
H 0 : θ ≤ θ0 , H1 : θ > θ 0 .
Dado que la función de verosimilitud es creciente en θ, sup l(θ; x) = l(y1 ; x) = exp − Θ
n X i=1
xi + ny1
!
.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 249 — #261
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
249
Por otro lado, atendiendo a H0 , distinguiremos dos casos para obtener el máximo de la función de verosimilitud. Si y1 ≤ θ0 , entonces, sup l(θ; x) = l(y1 ; x), y1 ≤ θ0 . Θ0
Si y1 > θ0 , entonces, sup l(θ; x) = l(θ0 ; x) = exp − Θ0
Por tanto, λ(x) =
n X
xi + nθ0
i=1
!
, y1 > θ0 .
1, y1 ≤ θ0 exp[−n(y1 − θ0 )], y1 > θ0 ,
y la región de rechazo es, ln(k) . (x1 , ..., xn ) : y1 ≥ θ0 − n La presencia, en un contraste de hipótesis, de parámetros sobre los que no hacemos afirmación alguna genera CCV con estructura similar a la de los contrastes sin dichos parámetros, si bien la región de rechazo es distinta como vemos en el siguiente ejemplo. Estos parámetros que no centran nuestro interés en un determinado problema inferencial se denominan parámetros molestos, o ruidosos. Ejemplo 9.3 Sea (x1 , ..., xn ) una muestra aleatoria extraída de N (θ, σ 2 ), y sea el contraste, como en el Ejemplo 9.1, H 0 : θ = θ0 , H1 : θ 6= θ0 . Notemos que el parámetro σ 2 es un parámetro ruidoso. Resulta que −∞ < θ < ∞ y σ 2 ≥ 0, por lo que, sup l(θ, σ 2 ; x) = l(x, s2m ; x),
{(θ,σ 2 )}
siendo x y s2m los estimadores máximo verosímiles de θ y σ 2 . Por otro lado, considerando H0 , sup {(θ,σ 2 )∈H0 }
l(θ, σ 2 ; x) = l(θ0 , σ b02 ; x),
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 250 — #262
i
250
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
siendo,
Por tanto,
n
σ b02
1X (xi − θ0 )2 . = n i=1
1 snm exp − 2 nσ02 2σ0 sn = m λ(x) = = 1 σ b0n n 2 σ bm exp − 2 nsm 2sm n2 (n − 1)s2 P = , n 2 i=1 [(xi − x) + (x − θ0 )]
siendo s2 la varianza muestral. De aquí que el CCV tenga una región de rechazo definida por, 1 n(x − θ0 )2 ⇔ {(x1 , ..., xn ) : λ(x) ≤ k} ⇒ ≥ (n − 1) 2 − 1 2 n k s s (n − 1)s2 1 ⇔ |x − θ0 | ≥ , 2 n kn − 1 que es distinta a la del Ejemplo 9.1.
9.3 MÉTODO DEL INTERVALO DE CONFIANZA Supongamos se desea contrastar,
H 0 : θ = θ0 , H1 : θ 6= θ0 .
Dada una muestra aleatoria, si se puede construir un intervalo estimación para θ, entonces podemos rechazar H0 cuando θ0 no pertenezca a dicho intervalo; aceptarla, en caso contrario. En la última sección de este capítulo veremos la estrecha relación existente entre intervalos de confianza y contrastes de hipótesis.
9.4 CONTRASTES BASADOS EN LOS MÉTODOS INTERSECCIÓN-UNIÓN Y UNIÓN-INTERSECCIÓN Estos contrastes suelen describir situaciones experimentales con hipótesis nulas complejas. El método consiste en expresar dichas hipótesis como la intersección, o la unión, de otras hipótesis nulas más simples.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 251 — #263
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
251
Método de la intersección-unión Existen ocasiones en las que la hipótesis nula puede definirse como una intersección de hipótesis Θω , \ H0 : Θω , ω∈Ω
donde Ω es un conjunto de índices arbitrario, finito o infinito. Sea, H0ω : θ ∈ Θω , H1ω : θ ∈ Θcω ,
el contraste correspondiente a un específico ω ∈ Ω, con región de rechazo CCV definida por, {(x1 , ..., xn ) : λω (x) ≤ kω }. Entonces, la región de rechazo del contraste, \ H0 : Θω , ω∈Ω
es,
[
ω∈Ω
{(x1 , ..., xn ) : λω (x) ≤ kω } .
Es decir, si al menos una de las hipótesis H0ω es rechazada, entonces H0 debe rechazarse. Dicho de otro modo, H0 se acepta como verdadera solo si se aceptan ciertas cada una de H0ω , ω ∈ Ω. Ejemplo 9.4 Sea (X1 , ..., Xn ) una muestra aleatoria de N (µ, σ 2 ), y consideremos, H0 : {µ : µ ≤ µ0 } ∩ {µ : µ ≥ µ0 }, H1 : {µ : µ > µ0 } ∪ {µ : µ < µ0 } , que, evidentemente, es lo mismo que,
H0 : µ = µ0 , H1 : µ 6= µ0 .
La región de rechazo CCV de,
H0i : µ ≤ µ0 , H1i : µ > µ0 ,
es, como vimos en el anterior Ejemplo 9.3, X − µ0 √ ≥ ti , ti ∈ R+ . (X1 , ..., Xn ) : S/ n
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 252 — #264
i
252
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
De forma análoga, la región de rechazo CCV correspondiente a, H0s : µ ≥ µ0 , H1s : µ < µ0 , puede deducirse con facilidad que es, también considerando el Ejemplo 9.3, X − µ0 √ ≤ ts = −ti , ti ∈ R+ . (X1 , ..., Xn ) : S/ n En conclusión, la región de rechazo para H0 es, X − µ0 X − µ0 √ ≥ ti ∪ (X1 , ..., Xn ) : √ ≤ −ti ⇔ (X1 , ..., Xn ) : S/ n S/ n ( ) X − µ0 √ ⇔ (X1 , ..., Xn ) : ≥ ti . S/ n
Método de la unión-intersección En esta situación, la hipótesis nula puede expresarse como unión de hipótesis, [ H0 : Θω . ω∈Ω
Supongamos, como anteriormente, que para el contraste, H0ω : θ ∈ Θω , H1ω : θ ∈ Θcω , con un específico ω ∈ Ω, tenemos la región de rechazo CCV definida por, {(x1 , ..., xn ) : λω (x) ≤ kω }. La región de rechazo del contraste, H0 :
[
Θω ,
ω∈Ω
es,
\
ω∈Ω
{(x1 , ..., xn ) : λω (x1 , ..., xn ) ≤ kω } .
Es decir, la hipótesis nula H0 se rechaza como falsa siempre y cuando sean rechazadas todas y cada una de las hipótesis H0ω .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 253 — #265
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
253
Ejemplo 9.5 Sean θ1 y θ2 los parámetros de las poblaciones N (θ1 , σ 2 ) y B(1, θ2 ), es decir, la esperanza matemática de una normal y la probabilidad de realización de un suceso en un ensayo Bernoulli. Supongamos deseamos contrastar, H0 : {θ1 : θ1 ≤ θ0 } ∪ {θ2 : θ2 ≤ p}, H1 : {θ1 : θ1 > θ0 } ∩ {θ2 : θ2 > p}. Con este propósito, sea una muestra aleatoria (x1 , ..., xn ) extraída de N (θ1 , σ 2 ). La región de rechazo CCV del contraste, H0i : θ1 ≤ θ0 , H1i : θ1 > θ0 , es, como hemos visto en el Ejemplo 9.3, X − θ0 √ ≥ t , t ∈ R+ . (X1 , ..., Xn ) : S/ n Sea, ahora, un conjunto de m ensayos Bernoulli independientes de parámetro θ2 . Recordemos que, l(θ2 ; y1 , ..., ym ) =
θ2y (1
m−y
− θ2 )
,y =
m X
yi ,
i=1
en donde yi = 1, i = 1, ..., m en caso de realizarse el suceso, e yi = 0 en caso contrario. De aquí que la región de rechazo CCV del contraste, H0s : θ2 ≤ p, H1s : θ2 > p, en el caso de que,
y > p, m
sea, py (1 − p)m−y λ(y1 , ..., ym ) = y = y y m−y 1− m m
Puesto que,
mp y
y
m(1 − p) m−y
m−y
≤ k.
y mp >p⇒ < 1, m y
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 254 — #266
i
254
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y, 1−
y m(1 − p) 1, m m−y
puede deducirse fácilmente que, al tomar logaritmos en la expresión de λ(y1 , ..., ym ), la región de rechazo del contraste tiene la forma, ( ) m X (Y1 , ..., Ym ) : Y = Yi ≥ b , b ∈ R+ . i=1
En conclusión, H0 es rechazada cuando, ) ( m X X − µ0 √ ≥ t ∩ (Y1 , ..., Ym ) : Y = (X1 , ..., Xn ) : Yi ≥ b . S/ n i=1
9.5 CONTRASTES BAYESIANOS Recordemos de nuevo que el paradigma bayesiano establece que la información muestral debe combinarse con la información a priori para obtener, utilizando el teorema de Bayes, la distribución posterior. Toda inferencia sobre el parámetro es el resultado de conocer esta distribución. Así, en el contraste de hipótesis, H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 , la distribución posterior πc se emplea para calcular las probabilidades de H0 y H1 , suponiendo que son ambas ciertas, es decir, R π [θ | (x1 , ..., xn )]dθ = P [H0 es cierta | (x1 , ..., xn )], Rθ∈Θ0 c θ∈Θc πc [θ | (x1 , ..., xn )]dθ = P [H1 es cierta | (x1 , ..., xn )]. 0
Llama la atención el hecho de que, desde esta perspectiva, ambas hipótesis sean ciertas. Sin embargo, tengamos presente que un mismo punto muestral pertenece al recorrido de dos o más poblaciones, aunque con diferente verosimilitud, como puede apreciarse en la Figura 9.1, donde se ilustran las verosimilitudes de una única abscisa en tres poblaciones. Notemos, por el contrario, que la metodología clásica, o no bayesiana, considera que una hipótesis es, o bien cierta, o bien falsa. En otras palabras, en el contraste planteado anteriormente, cualesquiera que sea la muestra aleatoria, P (H0 es cierta) = 1, θ ∈ Θ0 ⇒ P (H1 es cierta) = 0,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 255 — #267
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
255
Figura 9.1
ya que la veracidad de la hipótesis no depende de la muestra. Naturalmente, el valor de estas probabilidades es el opuesto si θ ∈ Θc0 . Desde la perspectiva bayesiana, una forma de rechazar H0 es, simplemente, Z Z πc [θ | (x1 , ..., xn )]dθ > πc [θ | (x1 , ..., xn )]dθ, θ∈Θc0
θ∈Θ0
donde el estadístico del contraste es πc [θ | (x1 , ..., xn )], y la región de rechazo es, ( ) Z (x1 , ..., xn ) : πc [θ | (x1 , ..., xn )]dθ > 0.5 . θ∈Θc0
Otra forma de resolver un contraste puede ser, ( ) Z (x1 , ..., xn ) : πc [θ | (x1 , ..., xn )]dθ > 0.95 , θ∈Θc0
es decir, rechazar H0 solo con valores altos para la probabilidad de la hipótesis alternativa. Ejemplo 9.6 Sea una muestra aleatoria extraída de N (λ, σ 2 ) y sea la distribución a priori Λ ∼ N (µ, τ 2 ), con σ 2 , µ, τ 2 conocidos. Para contrastar, H 0 : λ ≤ λ0 , H1 : λ > λ0 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 256 — #268
i
256
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
debemos recordar la distribución posterior de Λ | X = x - véase el Capítulo 7 -. No es difícil ver, por ello, que, nxτ 2 + σ 2 µ σ2τ 2 Λ|x∼N . , nτ 2 + σ 2 nτ 2 + σ 2 Empleando la región de rechazo, ( Z (x1 , ..., xn ) :
{λ:λ>λ0 }
)
πc (λ | x)dλ > 0.5 ,
y teniendo en cuenta que la distribución posterior es normal, concluimos que, nxτ 2 + σ 2 µ σ 2 (λ0 − µ) > λ 0 ⇔ x > λ0 + . 2 2 nτ + σ nτ 2 Si adscribimos, bajo el modelo Λ ∼ N (µ, τ 2 ), igual probabilidad a las hipótesis nula y alternativa, es decir µ = λ0 , entonces la región de rechazo es, {(x1 , ..., xn ) : x > λ0 } .
9.6 CALIDAD DE UN CONTRASTE Al decidir, desde la perspectiva clásica, que la hipótesis nula de un contraste es cierta, podemos estar cometiendo un error, simplemente porque desconocemos el valor del parámetro que estamos contrastando. Lo mismo puede argumentarse en caso de que la hipótesis nula sea rechazada, concluyendo que es falsa. Generalmente, evaluar la calidad de un contraste consiste en comparar con otros contrastes la probabilidad de cometer errores de este tipo.
9.6.1.
Función potencia, tamaño y nivel de significación
Dado el contraste,
H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 ,
se pueden cometer dos tipos de error. El primero se llama error tipo I y se produce cuando se rechaza H0 siendo θ ∈ Θ0 . El segundo se llama error tipo II y lo cometemos al aceptar H0 cuando θ ∈ Θc0 . En adelante, simbolizaremos mediante R la región de rechazo de un contraste. Puesto que al calcular probabilidades debemos considerar alguna de las distribuciones implícitas en las hipótesis que constituyen un contraste, denotaremos por Pθ0 la probabilidad
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 257 — #269
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
257
de un evento calculada considerando la distribución con parámetro θ0 . Por tanto, Pθ∈Θ0 es la probabilidad de un evento calculada con cualquiera de las distribuciones con parámetro θ en el conjunto Θ0 . Si se verifica que θ ∈ Θ0 entonces la probabilidad de cometer un error tipo I es, con X = (X1 , ..., Xn ), Pθ∈Θ0 (X ∈ R). Si, por el contrario, θ ∈ Θc0 entonces la probabilidad de cometer un error tipo II es, Pθ∈Θc0 (X ∈ Rc ). Evidentemente, Pθ∈Θ0 (X ∈ Rc ) = 1 − Pθ∈Θ0 (X ∈ R), es la probabilidad de tomar una decisión correcta, así como también, Pθ∈Θc0 (X ∈ R) = 1 − Pθ∈Θc0 (X ∈ Rc ), a la que suele denominarse potencia de un contraste. Tanto si el parámetro θ pertenece a uno u otro de los subconjuntos que definen las hipótesis nula y alternativa, está claro que la función en θ, Pθ (X ∈ R), es importante al analizar los errores que se pueden cometer en un contraste de hipótesis. Definición 9.6 La función potencia, β, de un contraste de hipótesis sobre un parámetro θ que tiene región de rechazo R, está definida del siguiente modo, β(θ) = Pθ (X ∈ R). Una función potencia es óptima cuando, Pθ∈Θ0 (X ∈ R) = 0, Pθ∈Θc0 (X ∈ R) = 1, es decir cuando las probabilidades de los errores tipo I y tipo II son nulas. No suele ser normal que la función tome estos valores, excepto en situaciones triviales. Se habla de un contraste cualitativamente bueno cuando la función potencia está próxima a la unidad en la mayor parte del conjunto {θ : θ ∈ Θc0 }, y próxima a cero en la mayoría de valores del conjunto {θ : θ ∈ Θ0 }. Ejemplo 9.7 Sea X ∼ B(5, θ) y sea el contraste,
H0 : θ ≤ 0.5, H1 : θ > 0.5.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 258 — #270
i
258
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 9.2
Suponiendo que R = {(X = 5)}, la función potencia de este contraste es, β1 (θ) = Pθ (X = 5) = θ5 , cuya gráfica se observa en la Figura 9.2. Si H0 es cierta, β1 (θ) ≤ 0.55 = 0.0312 lo que supone considerar una probabilidad del error tipo I, β1 (H0 ), ciertamente baja. Sin embargo, si H0 es falsa, θ > 0.5, la probabilidad de cometer un error tipo II, 1 − β1 (H1 ), es realmente alta para la mayor parte de los valores paramétricos superiores a 0.5. De hecho, la probabilidad de cometer un error tipo II es menor que 0.5 solo cuando θ > 0.51/5 = 0.87. Sea ahora R = {(X ≥ 3)}. Entonces, 5 X 5 i β2 (θ) = θ (1 − θ)5−i . i i=3
La gráfica de esta función se ilustra en la Figura 9.2, donde puede apreciarse que la probabilidad de cometer un error tipo II es más pequeña al ser mayor β2 cuando θ > 0.5. Sin embargo, este resultado es una consecuencia de haber aumentado considerablemente la probabilidad de cometer un error tipo I. Ejemplo 9.8 Sea (X1 , ..., Xn ) una muestra de N (θ, 25). El contraste, H 0 : θ ≤ θ0 , H1 : θ > θ 0 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 259 — #271
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
259
tiene, como vimos, una región de rechazo CCV definida por, √ n(X − θ0 ) > k, k ∈ R+ , (X1 , ..., Xn ) : 5 en donde, X∼N
25 θ, . n
En consecuencia, √ √ √ n(X − θ0 ) n(X − θ) n(θ0 − θ) β(θ) = Pθ > k = Pθ >k+ = 5 5 5 √ n(θ0 − θ) =P Z >k+ , Z ∼ N (0, 1). 5 Un ejemplo de esta función creciente en θ, se representa en la Figura 9.3.
Figura 9.3
En esta función observamos que, l´ım β(θ) = 0,
θ→−∞
l´ım β(θ) = 1,
θ→+∞
y con α arbitrario, si θ = θ0 , P (Z > k) = α ⇔ β(θ0 ) = α.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 260 — #272
i
260
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
En general, la función potencia de un contraste depende del tamaño muestral. Sin embargo, fijado un tamaño especifico, no es posible conseguir que las probabilidades de los errores tipo I y II sean, al mismo tiempo, arbitrariamente pequeñas. Lo usual es fijar la probabilidad del error tipo I y buscar el mejor contraste posible, es decir, el contraste con la probabilidad de error tipo II menor. Definición 9.7 Se dice que un contraste con función potencia β tiene tamaño α si sup β(θ) = α, 0 ≤ α ≤ 1. θ∈Θ0
Definición 9.8 Se dice que un contraste con función potencia β tiene nivel de significación α si sup β(θ) ≤ α, 0 ≤ α ≤ 1. θ∈Θ0
La razón para distinguir tamaño y nivel de significación α es que, en ocasiones, no es posible construir contrastes con tamaño especificado, debiendo entonces darnos por satisfechos construyendo un contraste con determinado nivel de significación. Notemos, en todo caso, que un contraste de tamaño α es uno de los contrastes de nivel de significación α. Usualmente, el nivel de significación se hace igual a 0.01, 0.05 o 0.1. Téngase presente que al fijar α, haciéndolo pequeño, lo que se valora puede describirse bien con el siguiente ejemplo. Supongamos que un laboratorio sintetiza una vacuna que pretende introducir en el mercado. Para dar el permiso correspondiente, el organismo oficial responsable construye un contraste en el que la hipótesis nula indica que la efectividad de la nueva vacuna es la misma que la de las existentes en el mercado, en tanto la hipótesis alternativa llamada en este contexto hipótesis de prueba - indica que su efectividad es superior. Valores muestrales que generen estimaciones no fuertemente discrepantes del parámetro definido en H0 , parece razonable pensar que supondrán la aceptación de ésta hipótesis del contraste. En consecuencia, que el nivel de significación del contraste sea pequeño implica que la región de rechazo se sitúe lejana del valor paramétrico descrito en H0 , y de aquí el nivel de exigencia del nuevo producto sea elevado. Por otro lado, es importante observar que, como hemos visto, un contraste resuelto mediante el cociente de verosimilitudes genera una región de rechazo que depende de una constante k; esto supone que consideremos un conjunto de contrastes indexado por esta constante. Al definir el tamaño de un contraste, lo que obtenemos es un elemento de dicho conjunto. En general, un CCV de tamaño α se construye eligiendo aquél valor k que verifique, sup Pθ [λ(x) ≤ k] = α.
θ∈Θ0
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 261 — #273
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
261
Ejemplo 9.9 En el Ejemplo 9.1 vimos que el contraste, H 0 : θ = θ0 , H1 : θ 6= θ0 , para el parámetro central de N (θ, 1), tiene una región de rechazo definida por, n o p √ (X1 , ..., Xn ) : n X − θ0 ≥ −2 ln(k) .
Notemos que H0 está definida por un solo valor paramétrico, y por tanto, √ p n X − θ0 ≥ −2 ln(k) = α. sup β(θ) = α ⇒ β(θ0 ) = α ⇒ Pθ0 θ∈Θ0
√
n(X − θ0 ) ∼ N (0, 1), tenemos, p P |Z| ≥ −2 ln(k) = α ⇔ p p ⇔ P Z ≤ − −2 ln(k) + P Z ≥ −2 ln(k) = α,
Siendo Z =
lo que implica considerar, recordando que,
p −2 ln(k) = z α2 ,
α . 2 Por tanto, siendo α el tamaño del contraste, el CCV tiene región de rechazo, o n √ (X1 , ..., Xn ) : n X − θ0 ≥ z α2 , P Z≥z
α 2
=
habiendo elegido,
k = exp −
z 2α 2
2
!
.
Ejemplo 9.10 En el Ejemplo 9.2 vimos que el contraste, H 0 : θ ≤ θ0 , H1 : θ > θ 0 , para el parámetro de localización de la densidad, f (x) = exp[−(x − θ)], x ≥ θ, −∞ < θ < ∞,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 262 — #274
i
262
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
tiene una región de rechazo CCV definida por, ln(k) (X1 , ..., Xn ) : Y ≥ θ0 − , Y = m´ın(X1 , ..., Xn ). n Recordemos - véase Estadísticos de Orden - que, g(y) = n exp[−n(y − θ)], y ≥ θ, por lo que también θ es un parámetro de localización para g. Observemos que, Pθ (Y ≥ y) = 1 − Pθ (Y < y) = exp[−n(y − θ)], de forma que, siendo a > 0, se tiene, Pθ−a (Y ≥ y) = exp[−n(y − θ)] exp(−na) < Pθ (Y ≥ y), lo que puede apreciarse en la Figura 9.4, donde se representan diferentes elementos de esta familia de densidades.
Figura 9.4
De aquí que, Pθ (Y ≥ y) ≤ Pθ0 (Y ≥ y), ∀θ ≤ θ0 . Por tanto, en un contraste de tamaño α, ln(k) sup β(θ) = α ⇒ Pθ0 Y ≥ θ0 − = α, n θ≤θ0
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 263 — #275
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
263
que, considerando el resultado Pθ (Y ≥ y) anterior, resulta, ln(k) − θ0 = k = α. exp −n θ0 − n Ejemplo 9.11 Para localizar el contraste de tamaño α del Ejemplo 9.4, debemos encontrar la constante ti ∈ R+ tal que, X − µ0 X − µ0 √ ≤ −ti ∪ √ ≥ ti Pµ0 = α. S/ n S/ n Como resulta que, T =
X − µ0 √ ∼ t(n−1 , S/ n
tenemos, ti = t(n−1; α , 2 −ti = t(n−1;1− α , 2
siendo,
α P T > t(n−1; α = . 2 2
Definición 9.9 Se llama p-valor del punto muestral (x1 , ..., xn ) al mínimo valor que debe tener α para que la hipótesis nula del contraste sea rechazada. Dicho en otras palabras, si, como es frecuente, la región de rechazo R de un contraste de tamaño α es, T (X) ≥ kα , siendo T el estadístico de contraste y kα una constante elegida para que el tamaño del contraste sea α, entonces, dado x = (x1 , ..., xn ), p − valor = sup Pθ [T (X) ≥ T (x)]. θ∈Θ0
Ejemplo 9.12 En el anterior Ejemplo 9.9, se vio que, n o √ R = (X1 , ..., Xn ) : n X − θ0 ≥ z α2 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 264 — #276
i
264
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
por tanto, suponiendo que x = 11.85, n = 25 y θ0 = 11.5, √ p − valor = Pθ0 [ n X − θ0 ≥ 5(0.35)] = P (|Z| ≥ 1.75) = 0.0802.
Sabiendo el p-valor de un punto muestral y elegido el tamaño del contraste, disponemos de un criterio para rechazar o no la hipótesis nula. Así, en el Ejemplo 9.12, si α = 0.1, entonces H0 será rechazada pues el punto muestral está en la región de rechazo del contraste al ser su p-valor menor que α. Por el contrario, si α = 0.05 entonces H0 será aceptada. En general, si el p-valor es menor que el tamaño de un contraste, la hipótesis nula se rechazará; se aceptará en caso contrario. Definición 9.10 Se dice que el contraste,
H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 ,
con función potencia β es insesgado si, β(θ′ ) ≥ β(θ′′ ), ∀θ′ ∈ Θc0 , ∀θ′′ ∈ Θ0 . Dicho en otras palabras, un contraste insesgado es un contraste tal que la probabilidad de rechazar H0 es mayor cuando θ ∈ Θc0 que cuando θ ∈ Θ0 . Las Figuras 9.2 y 9.3 describen la función potencia de contrastes insesgados. Ejemplo 9.13 Como se vio en el Ejemplo 9.8, la función potencia β del CCV, es,
H 0 : θ ≤ θ0 , H1 : θ > θ 0 ,
√ n(θ0 − θ) β(θ) = P Z > k + , Z ∼ N (0, 1). σ En la Figura 9.3 se aprecia que la función β es creciente en θ, por lo que, ∀θ′ > θ0 : β(θ′ ) > β(θ0 ) = sup β(θ′′ ), θ′′ ≤θ0
y el contraste es insesgado.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 265 — #277
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
9.6.2.
265
Contrastes potentes
Un contraste con nivel de significación α es un conjunto, o clase de contrastes, en el que la probabilidad de cometer un error tipo I es como máximo α. Interesa, una vez fijada esta probabilidad, seleccionar el contraste cuya probabilidad de cometer un error tipo II sea pequeña, o lo que es lo mismo, para todo valor paramétrico en la hipótesis alternativa, un contraste cuya función potencia sea mayor que las correspondientes funciones potencia de los demás contrastes en la clase. Definición 9.11 Sea C una clase de contrastes para, H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 . Se dice que un contraste con función potencia β perteneciente a la clase C es el más potente (CMP) si, β(θ) ≥ β ′ (θ), ∀θ ∈ Θc0 , siendo β ′ cualquier función potencia de la clase C. Se denominan hipótesis simples las hipótesis de un contraste que hacen referencia al parámetro de una sola distribución - lo que puede expresarse diciendo que ambas hipótesis están definidas mediante una igualdad - El siguiente teorema identifica contrastes CMP cuando las hipótesis son simples y la clase C la componen contrastes con nivel de significación α. Teorema 9.1 (Lema de Neyman-Pearson) Sea H 0 : θ = θ0 , H 1 : θ = θ1 , y sea f una función de densidad con parámetros θi , i = 0, 1. Con R la región de rechazo del contraste y k ≥ 0, si se verifica, siendo α = Pθ0 (X ∈ R), f (x; θ1 ) > kf (x; θ0 ) ⇒ x ∈ R, f (x; θ1 ) < kf (x; θ0 ) ⇒ x ∈ Rc , entonces, i) todo contraste que satisfaga las anteriores condiciones es CMP con nivel de significación α, ii) si, con k > 0, existe un contraste que satisfaga las anteriores condiciones, entonces dicho contraste es CMP de tamaño α.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 266 — #278
i
266
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Prueba . Definamos la función ϕ de la siguiente manera, 1, si x ∈ R, ϕ(x) = 0, si x ∈ Rc . A ϕ se le denomina función contraste y es, como se observa, la función indicador de la región de rechazo. Notemos que el contraste que verifique α = Pθ0 (X ∈ R) es un contraste de tamaño α, por tanto de nivel de significación α, pues, sup β(θ) = β(θ0 ) = Pθ0 (X ∈ R) = α.
θ∈Θ0
Supongamos que el contraste que satisface las condiciones del enunciado tiene una función contraste ϕ y una función potencia β. Su tamaño es α, consecuentemente. Sea otro contraste con nivel de significación α, cuyas funciones indicador de la región de rechazo (R′ ) y potencia son, respectivamente, ϕ′ y β ′ . Observemos que así definido, el tamaño de R′ es menor que el de R. Las dos desigualdades del enunciado implican, [ϕ(x) − ϕ′ (x)][f (x; θ1 ) − kf (x; θ0 )] ≥ 0, pues, dado que 0 ≤ ϕ′ (x) ≤ 1, f (x; θ1 ) − kf (x; θ0 ) > 0 ⇒ ϕ(x) = 1 ⇒ ϕ′ (x) ≤ 1, y, f (x; θ1 ) − kf (x; θ0 ) < 0 ⇒ ϕ(x) = 0 ⇒ 0 ≤ ϕ′ (x). De aquí, R 0 ≤ X(Ω) [ϕ(x) − ϕ′ (x)][f (x; θ1 ) − kf (x; θ0 )]dx = R R = X(Ω)∈R [f (x; θ1 ) − kf (x; θ0 )]dx− X(Ω)∈R′ [f (x; θ1 ) − kf (x; θ0 )]dx = = β(θ1 ) − β ′ (θ1 ) − k[β(θ0 ) − β ′ (θ0 )]. Puesto que el contraste con función indicador ϕ es un contraste con tamaño α, se verifica que, α = β(θ0 ) ≥ β ′ (θ0 ) ⇒ k[α − β ′ (θ0 )] ≥ 0, y, por tanto, 0 ≤ β(θ1 ) − β ′ (θ1 ) − k[α − β ′ (θ0 )] ≤ β(θ1 ) − β ′ (θ1 ). En conclusión, cuando θ = θ1 , el contraste con función indicador ϕ tiene función potencia β mayor o igual que la función potencia β ′ del contraste con función indicador ϕ′ . Dado que θ1 es el único punto de la hipótesis alternativa y que el contraste con
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 267 — #279
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
267
función ϕ′ era arbitrario, tenemos que el contraste con función ϕ es CMP con nivel de significación α, probando así la parte i) del teorema. Sea ϕ la función indicador del contraste que satisface las condiciones del enunciado. Por i) es un contraste CMP con nivel de significación α. Sea ϕ′ la función indicador de cualquier otro contraste CMP de nivel de significación α. Denominando β y β ′ las respectivas funciones potencia, tenemos que β(θ1 ) = β ′ (θ1 ), teniendo en cuenta H1 . Así, que se cumpla, 0 ≤ β(θ1 ) − β ′ (θ1 ) − k[β(θ0 ) − β ′ (θ0 )], y que ahora k > 0, supone, β(θ0 ) − β ′ (θ0 ) = α − β ′ (θ0 ) ≤ 0 ⇔ α ≤ β ′ (θ0 ). Por otro lado, como el contraste CMP con función ϕ′ es de nivel de significación α, ocurre que β ′ (θ0 ) ≤ α, lo que junto a α ≤ β ′ (θ0 ), supone que β ′ (θ0 ) = α. En otras palabras, el contraste con función indicador ϕ′ es un contraste CMP de tamaño α. Como β(θ1 ) = β ′ (θ1 ) y β(θ0 ) = β ′ (θ0 ) = α, tenemos, 0 = β(θ1 ) − β ′ (θ1 ) − k[β(θ0 ) − β ′ (θ0 )] = Z [ϕ(x) − ϕ′ (x)][f (x; θ1 ) − kf (x; θ0 )]dx, = X(Ω)
ϕ′
lo que implica que = ϕ, y consecuentemente que el contraste con función indicador ′ ϕ verifique las dos primeras condiciones del enunciado al igual que el contraste con función indicador ϕ. Queda así probado el apartado ii) del teorema. Cuando se consideran variables aleatorias discretas, la demostración se realiza sin más que sustituir integrales por sumas. Corolario 9.1 Sea
H 0 : θ = θ0 , H 1 : θ = θ1 ,
y sea f una función de densidad con parámetros θi , i = 0, 1. Sea T un estadístico suficiente y g su función de densidad. Un contraste basado en T cuya región de rechazo es RT , un subconjunto del recorrido de T, es un contraste CMP con nivel de significación α si satisface, para k ≥ 0, g(t; θ1 ) > kg(t; θ0 ) ⇒ t ∈ RT , g(t; θ1 ) < kg(t; θ0 ) ⇒ t ∈ RcT , siendo, α = Pθ0 (T ∈ RT ).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 268 — #280
i
268
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Prueba . Claramente, la región de rechazo R del contraste puede expresarse en función de la muestra X = (X1 , ..., Xn ) de la siguiente manera, considerando que T es el estadístico del contraste, R = {(x1 , ..., xn ) : T (x) ∈ RT }, por lo que, α = Pθ0 (T ∈ RT ) = Pθ0 (X ∈ R). Por otro lado, teniendo en cuenta el teorema de la factorización, f (x; θi ) = g(t; θi )h(x), i = 0, 1, h(x) ≥ 0, consecuentemente, con k ≥ 0, f (x; θ1 ) = g(t; θ1 )h(x) > kg(t; θ0 )h(x) = kf (x; θ0 ) ⇒ x ∈ R, f (x; θ1 ) = g(t; θ1 )h(x) < kg(t; θ0 )h(x) = kf (x; θ0 ) ⇒ x ∈ Rc . Así, el contraste basado en T es CMP según el apartado i) del lema de NeymanPearson. Contrastes como el definido en el lema de Neyman-Pearson se basan en hipótesis simples. En problemas que describen la realidad, sin embargo, las hipótesis de un contraste hacen referencia a más de una distribución. Tales hipótesis se denominan hipótesis compuestas y el siguiente corolario indica cómo reconocer un contraste CMP en estos casos. Corolario 9.2 Sea,
H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 ,
y supongamos que el contraste se basa en el estadístico suficiente T con región de rechazo RT . El contraste es CMP con nivel de significación α si satisface, a) es un contraste con nivel de significación α, b) existe θ0 ∈ Θ0 : Pθ0 (T ∈ RT ) = α, c) sea g la función de densidad de T ; se verifica ∀θ′ ∈ Θc0 y k ≥ 0, g(t; θ′ ) > kg(t; θ0 ) ⇒ t ∈ RT , g(t; θ′ ) < kg(t; θ0 ) ⇒ t ∈ RcT , siendo θ0 el mismo valor paramétrico que en b.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 269 — #281
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
269
Prueba . Sea β la función potencia del contraste con región de rechazo RT , y sea un θ′ ∈ Θc0 . Si consideramos el contraste, ′ H 0 : θ = θ0 , H1′ : θ = θ′ , el anterior corolario y las condiciones a), b) y c) de éste implican que β(θ′ ) ≥ β ′ (θ′ ), siendo β ′ la función potencia de un contraste con nivel de significación α para H0′ . Es evidente que, β ′ (θ0 ) ≤ sup β ′ (θ) ≤ α, θ∈Θ0
al ser H0′ un elemento de H0 . Es decir, que la función β ′ es la función potencia de un contraste con nivel de significación α para H0 . Como se ha elegido θ′ arbitrariamente, el resultado queda probado.
Ejemplo 9.14 Sea X ∼ B(2, p) y supongamos deseamos contrastar, H0 : p = 0.5, H1 : p = 0.75. Vemos que, f (0; 0.75) = 0.25, f (0; 0.5)
f (1; 0.75) = 0.75, f (1; 0.5)
f (2; 0.75) = 2.25. f (2; 0.5)
Si elegimos, 0.75 < k < 2.25, entonces el lema de Neyman-Pearson indica que el contraste con, R = {(X = 2)}, es un contraste CMP con nivel de significación α = Pp=0.5 (X = 2) = 0.25. Si elegimos, 0.25 < k < 0.75, entonces el lema de Neyman-Pearson indica que el contraste con, R = {(X = 1) ∪ (X = 2)}, es un contraste CMP con nivel de significación α = Pp=0.5 [(X = 1) ∪ (X = 2)] = 0.75.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 270 — #282
i
270
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Observemos que si, k = 0.75, entonces, R = {(X = 2)}, y, Rc = {(X = 0)}, dejando indeterminada la acción a tomar si X = 1. Ejemplo 9.15 Sea (X1 , ..., Xn ) una muestra aleatoria de N (µ, σ 2 ), siendo σ 2 conocida, y sea el contraste, H0 : µ = µ0 , H1 : µ = µ1 , con µ0 > µ1 . Como sabemos X ∼ N (µ, σ 2 n−1 ), y X es un estadístico suficiente. Tenemos, para k ≥ 0, g(x; µ1 ) > k, g(x; µ0 ) es decir, n(µ20 − µ21 ) − 2σ 2 ln(k) = 2n(µ0 − µ1 ) µ0 + µ1 σ2 = − ln(k) = m(k) ⇒ 2 n(µ0 − µ1 ) ⇒ x ∈ RX , x<
según el Corolario 9.1, y siendo RX la región de rechazo del contraste basado en X. La derivada primera respecto a k de la función m es negativa, por lo que dicha función es decreciente como puede apreciarse en la Figura 9.5. Tiene sentido que m sea decreciente pues a medida que k aumenta se necesita un cociente de funciones g mayor para rechazar H0 . Esto implica un mayor alejamiento, o diferencia, entre las densidades correspondientes de µ1 y µ0 . En resumen, parece razonable pensar que cuanto más diferenciadas estén dos hipótesis, menor deba ser la región de rechazo. Según el Corolario 9.1, tendremos un contraste CMP con nivel de significación α = Pµ0 [X < m(k)]. Si se especifica α, observemos que, √ n[m(k) − µ0 ] α=P Z< = P (Z < z1−α ) ⇒ σ σ σ ⇒ m(k) = µ0 + z1−α √ = µ0 − zα √ , n n
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 271 — #283
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
271
Figura 9.5
y, así,
σ X < µ0 − zα √ , n
es la región de rechazo. En la Figura 9.6 puede verse un ejemplo de esta situación, donde la región de rechazo se sitúa en la cola izquierda de la densidad correspondiente a µ0 .
Figura 9.6
Sea ahora,
H0 : µ ≥ µ0 , H1 : µ < µ0 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 272 — #284
i
272
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y consideremos el Corolario 9.2. Para analizar la condición a) notemos que una región de rechazo como, σ X < µ0 − zα √ , n supone una función potencia, √ σ n(µ0 − µ) =P Z< − zα , β(µ) = Pµ X < µ0 − zα √ σ n que es decreciente en µ, como puede verse en la Figura 9.7.
Figura 9.7
Por ello, α = sup β(µ) = β(µ0 ) = P (Z < −zα = z1−α ), µ≥µ0
y consecuentemente es un contraste de tamaño α, y de este mismo nivel de significación. La condición b) del Corolario 9.2 se cumple evidentemente. La condición c) de dicho corolario también se verifica pues al localizar la región de rechazo en el contraste, H0 : µ = µ0 , H1 : µ = µ1 ,
se razona considerando que µ1 < µ0 y, consecuentemente, para todo µ1 que cumpla que es menor que µ. Contrastes como,
H 0 : θ ≥ θ0 , H1 : θ < θ 0 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 273 — #285
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
273
se llaman contrastes unilaterales, o de una cola, en tanto que contrastes como, H 0 : θ = θ0 , H1 : θ 6= θ0 , se denominan contrastes bilaterales o de dos colas. Definición 9.12 Una familia de funciones de densidad {f (x; θ) : θ ∈ Θ} de una variable aleatoria X se dice que posee un cociente de verosimilitudes monótono (CVM) si ∀θ2 > θ1 se verifica que, f (x; θ2 ) , f (x; θ1 ) > 0, f (x; θ1 ) es no decreciente. Ejemplos son las distribuciones normal - varianza conocida -, binomial, o Poisson. De hecho, toda familia exponencial de la forma, f (x; θ) = g(x)h(θ) exp[w(θ)x], siendo w una función no decreciente, tiene CVM. Teorema 9.2 (Karlin-Rubin) Sea el contraste, H 0 : θ ≤ θ0 , H1 : θ > θ 0 , supongamos que T es un estadístico suficiente y que la familia de densidades {g(t; θ) : θ ∈ Θ} posee CVM. Se verifica que el contraste con región de rechazo R = {T > t0 }, es un contraste CMP con nivel de significación α = Pθ0 (T > t0 ).
Prueba . Al ser la familia de densidades CVM, ∀θ2 > θ1 :
g(t; θ2 ) ≥ 1. g(t; θ1 )
La función potencia es β(θ) = Pθ (T > t0 ), por tanto ∀θ2 > θ1 , Z ∞ Z ∞ β(θ2 ) = g(t; θ2 )dt ≥ g(t; θ1 )dt = β(θ1 ). t0
t0
En consecuencia, la función potencia es no decreciente y, sup β(θ) = β(θ0 ) = α.
θ≤θ0
El contraste tiene tamaño α y se cumple la condición a) del Corolario 9.2.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 274 — #286
i
274
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
La condición b) está explícita en el enunciado. Si g(t; θ) k = ´ınf , θ > θ0 , {t>t0 } g(t; θ0 ) se verifica la condición c) del Corolario 9.2 y el contraste es CMP con nivel de significación α. Se puede demostrar análogamente que el contraste, H 0 : θ ≥ θ0 , H1 : θ < θ 0 , con las mismas condiciones del enunciado y región de rechazo R = {T < t0 }, es un contraste CMP con nivel de significación α = Pθ0 (T < t0 ).
9.6.3.
Contrastes insesgados
Desafortunadamente, en muchas situaciones experimentales existen demasiados contrastes con nivel de significación α, de forma que ninguno de ellos es superior al resto respecto a la potencia del contraste. Lo que se hace entonces es centrarse en algún subconjunto de la clase de contrastes con nivel de significación α, y localizar en el subconjunto un contraste CMP. A continuación estudiaremos cómo obtener contrastes CMP en el subconjunto de contrastes insesgados con nivel de significación α, pero antes veremos un ejemplo típico en donde no existe un contraste CMP con nivel de significación α. Ejemplo 9.16 Sea (X1 , ..., Xn ) una muestra aleatoria de N (θ, 25), y sea el contraste, H 0 : θ = θ0 , H1 : θ 6= θ0 . Si consideramos θ1 < θ0 , el Ejemplo 9.15 muestra que un contraste CMP con nivel de significación α, es aquel que verifica, 5zα Pθ0 X < θ0 − √ ≤ α. n Consideremos ahora θ2 > θ0 . No es dificil ver, por analogía, que el contraste que cumple, 5zα Pθ0 X > θ0 + √ ≤ α, n
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 275 — #287
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
275
es un contraste con nivel de significación α. Veamos ahora el valor de su función potencia β2 en la hipótesis alternativa, entendiendo que β1 es la función potencia del contraste con θ < θ0 , 5zα = β2 (θ2 ) = Pθ2 X > θ0 + √ n √ n(θ0 − θ2 ) = P Z > zα + > P (Z > zα ) = P (Z < −zα ) > 5 √ n(θ0 − θ2 ) 5zα > P Z < −zα + = Pθ2 X < θ0 − √ = β1 (θ2 ), 5 n considerando que θ0 − θ2 < 0. En consecuencia, la función potencia β1 no corresponde a un contraste CMP cuando la hipótesis alternativa es H1 : θ 6= θ0 . La Figura 9.8 muestra que tampoco el contraste con función potencia β2 es CMP, ya que existen valores paramétricos en los que β1 > β2 .
Figura 9.8
En la Figura 9.8 también se ha dibujado la función potencia β3 de un contraste insesgado que es CMP. Resulta claro que, en conjunto, β3 es mejor que β1 y β2 . El lema de Neyman-Pearson nos enseña a maximizar una integral (o suma), la función potencia, cuando el máximo debe satisfacer una condición, es decir, que la probabilidad del error tipo I sea a lo sumo α. Para localizar un contraste CMP invariante y con nivel de significación α, lo que haremos es maximizar una integral (o suma) que satisfaga dos condiciones. El siguiente teorema muestra cómo maximizar una integral sujeta a m restricciones.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 276 — #288
i
276
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Teorema 9.3 Sean las constantes c1 , ..., cm y las funciones reales f1 , ..., fm+1 . Llamemos C a la clase de funciones ϕ tales que 0 ≤ ϕ(x) ≤ 1, y, Z ϕ(x)fi (x)dx = ci , i = 1, ..., m. Si ϕo ∈ C verifica, para las constantes ki , i = 1, ..., m, P fm+1 (x) > Pm i=1 ki fi (x) ⇒ ϕo (x) = 1, fm+1 (x) < m i=1 ki fi (x) ⇒ ϕo (x) = 0,
entonces,
sup ϕ∈C
Z
ϕ(x)fi (x)dx =
Z
ϕo (x)fi (x)dx.
Prueba . Sea ϕo la función que verifica las dos condiciones del teorema y sea ϕ ∈ C cualquier otra función de la clase. De manera análoga al lema de Neyman-Pearson, puede escribirse, " # m X [ϕo (x) − ϕ(x)] fm+1 (x) − ki fi (x) ≥ 0, ∀x. i=1
Así,
R
Pm [ϕ R o (x) − ϕ(x)] [fm+1 (x) R − i=1 ki fi (x)] dx = =P ϕo (x)f Rm+1 (x)dx − ϕ(x)f R m+1 (x)dx− − m k ϕ (x)f (x)dx − ϕ(x)fi (x)dx . o i i=1 i
0≤
Al ser ϕo ∈ C, esta última suma es cero ya que, Z Z ϕo (x)fi (x)dx − ϕ(x)fi (x)dx = ci − ci . Consecuentemente, 0≤
Z
ϕo (x)fm+1 (x)dx −
Z
ϕ(x)fm+1 (x)dx.
Revisitemos, a continuación, el Ejemplo 9.16. Ejemplo 9.17 Sea (X1 , ..., Xn ) una muestra aleatoria de N (θ, 25), y sea el contraste, H 0 : θ = θ0 , H1 : θ 6= θ0 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 277 — #289
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
277
Consideraremos el estadístico suficiente, 25 X ∼ N θ, . n
Siendo ϕ la función contraste, la integral, Z ϕ(x)f (x; θ0 )dx = α,
describe un contraste de tamaño α. Por otro lado, con θ1 6= θ0 , la función potencia de un contraste insesgado debe satisfacer, β(θ1 ) ≥ β(θ0 ), lo que supone pensar que la función potencia tiene un mínimo en θ0 y por tanto, ! Z d ∂ β(θ) f (x; θ) = 0 ⇒ ϕ(x) dx = 0. dθ ∂θ θ=θ0 θ=θ0 Llamemos,
f1 (x) = f (x; θ0 ), ∂ f (x; θ) f2 (x) = ∂θ
,
θ=θ0
f3 (x) = f (x; θ1 ).
Siendo m = 2, la primera de las dos condiciones del enunciado del teorema, ϕ0 (x) = 1, resulta, después de hacer algunas operaciones, (θ1 − θ0 )n nk2 θ0 nk2 n(θ12 − θ02 ) exp > k1 − x− + x. 25 25 25 25 La función exponencial en x es creciente, o decreciente, según θ1 > θ0 , o θ1 < θ0 . En ambos casos, se pueden seleccionar k1 y k2 de forma que la intersección entre las funciones exponencial y lineal en x sean los puntos, 5 x = θ0 + z α2 √ , n 5 α x = θ0 − z 2 √ . n Al observar las Figuras 9.9a y 9.9b, se aprecia que la función exponencial es mayor que la función lineal cuando, 5 x > θ0 + z α2 √ , n 5 x < θ0 − z α2 √ . n Si hacemos que la región de rechazo R del contraste esté constituida por estos intervalos de la recta real, se cumple,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 278 — #290
i
278
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
(a)
(b) Figura 9.9
a)
R ϕ(x)f (x; θ0)dx = P θ0 (X ∈ R) = 5 5 = Pθ0 X > θ0 + z α2 √ + Pθ0 X < θ0 − z α2 √ = α, n n
b)
! ∂ f (x; θ) dx = ∂θ θ=θ0
R
ϕ(x) n R θ0 −z α2 √5n = (x − θ0 )f (x; θ0 )dx+ 25 −∞ R∞ + θ0 +z α √5 (x − θ0 )f (x; θ0 )dx = 0, n
2
al ser f la densidad de una normal, es decir, simétrica respecto a θ0 , y considerar que, 5 5 ′ ′′ α α : ∃x ∈ θ0 + z 2 √ , ∞ , ∀x ∈ −∞, θ0 − z 2 √ n n que verifican,
′
′′
(x − θ0 ) = −(x − θ0 ). Así, la función potencia β tiene un mínimo en θ0 . El contraste es de nivel de significación α, pues considerando cualquier otro contraste CMP insesgado de tamaño α′ < α, ( −z α′ < −z α2 , 2 ∀α′ < α : z α′ > z α2 . 2
En otras palabras, la región de rechazo R′ de tamaño α′ es un subconjunto de la región de rechazo R de tamaño α. De aquí que, para todo θ, su función potencia sea menor que la función potencia del contraste CMP insesgado de tamaño α.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 279 — #291
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
279
En la Figura 9.8 puede verse la función potencia (β3 ) del contraste CMP insesgado con nivel de significación α. Dado que en la mayor parte de las situaciones experimentales, la varianza de la población normal es desconocida, no es difícil imaginar que el anterior contraste pueda resolverse empleando el estadístico X con distribución t(n−1 .
9.6.4.
Tamaño de los contrastes intersección-unión y unión-intersección
Consideraremos en primer lugar contrastes del tipo, H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 , donde Θ0 =
\
Θω .
ω∈Ω
Sea λ(x) el estadístico de contraste CCV de H0 , sup l(θ; x) λ(x) =
Θ0
sup l(θ; x)
,
Θ
con región de rechazo R = {x : λ(x) < k}. Sea, ahora, λω (x) el estadístico de contraste CCV de H0ω , H0ω : θ ∈ Θω , H1ω : θ ∈ Θcω , es decir, sup l(θ; x) λω (x) =
Θω
sup l(θ; x)
,
Θ
con región de rechazo Rω = {x : λω (x) < k}. Estando así definidas las regiones de rechazo, y llamando RI a, [ RI = Rω , ω∈Ω
no es difícil ver que, entonces, RI =
x : λi (x) = ´ınf λω (x) < k , ω∈Ω
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 280 — #292
i
280
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 9.10
como puede apreciarse en la Figura 9.10, donde se representa un ejemplo de tres funciones λ decrecientes en la semirecta real negativa, y tres funciones λ crecientes en la semirecta real positiva. En dicha figura también está representada una parte de las correspondientes regiones de rechazo. El siguiente teorema relaciona λ con λi , y R con RI . Teorema 9.4 Supongamos definidos H0 , λ, λi como en los párrafos precedentes. Se verifica, 1) λi (x) ≥ λ(x), 2) βλi (θ) ≤ βλ (θ), ∀θ ∈ Θ, siendo βλi y βλ las funciones potencia de los contrastes correspondientes a los estadísticos λi y λ, respectivamente, 3) si el contraste basado en λ es de nivel de significación α, el contraste basado en λi es de nivel de significación α.
Prueba . Puesto que, ∀ω : Θ0 =
\
ω∈Ω
Θω ⊂ Θω ⇒ λω (x) ≥ λ(x) ⇒ λi (x) ≥ λ(x).
A su vez, esto implica que la región de rechazo correspondiente al contraste basado en λ sea mayor que cualquiera de las regiones de rechazo correspondientes a λω (véase, por ejemplo, la Figura 9.10), es decir,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 281 — #293
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
281
{x : λi (x) < k} ⊂ {x : λ(x) < k} ⇒ ⇒ βλi (θ) = Pθ [λi (X) < k] ≤ Pθ [λ(X) < k] = βλ (θ). Dado este último resultado, se verifica, sup βλi (θ) ≤ sup βλ (θ) ≤ α. Θ0
Θ0
Veamos, en segundo lugar, contrastes del tipo,
H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 ,
donde Θ0 =
[
Θω .
ω∈Ω
Recordemos que la región de rechazo R tiene la forma, R=
\
ω∈Ω
Rω ,
siendo Rω la región de rechazo de H0ω : θ ∈ Θω . Teorema 9.5 Sean H0ω y H0 las hipótesis nulas de los contrastes definidos en el anterior párrafo. Si αω es el tamaño del contraste H0ω , entonces el contraste H0 tiene nivel de significación α = sup αω . ω∈Ω
Prueba . Sea θ ∈ Θ0 . Entonces existe Θω tal que θ ∈ Θω , por lo que, Pθ (X ∈ R) ≤ Pθ (X ∈ Θω ) = αω ≤ α. Dado que θ era arbitrario, el contraste H0 tiene nivel de significación α.
Normalmente, se eligen regiones de rechazo Rω de forma que αω = α.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 282 — #294
i
282
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
9.7 INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS Existe una estrecha correspondencia entre estimación por intervalo y contraste de hipótesis. En efecto, se puede decir que cada intervalo de confianza se corresponde con un contraste de hipótesis, y viceversa. Veamos un ejemplo. Ejemplo 9.18 Sea (X1 , ..., Xn ) una muestra aleatoria de N (µ, σ 2 ) y sea el contraste, H 0 : θ = θ0 , H1 : θ 6= θ0 . La región de rechazo,
σ x : |x − θ0 | > z α2 √ , n
define un contraste CMP e insesgado. Al ser también de tamaño α, la probabilidad de aceptar H0 , θ = θ0 , es, σ σ Pθ0 X − z α2 √ ≤ θ0 ≤ X + z α2 √ = 1 − α. n n Dado que esta afirmación es cierta para cualquier θ0 , podemos escribir, σ σ Pθ X − z α2 √ ≤ θ ≤ X + z α2 √ = 1 − α. n n De aquí que el intervalo estimación, σ σ x − z α2 √ , x + z α2 √ , n n obtenido “invirtiendo” la región de aceptación de un contraste con nivel de significación α, se considere un intervalo estimación 100(1 − α) %. En el anterior ejemplo, el conjunto del espacio muestral compuesto de valores x que generan la aceptación de H0 viene dado por, σ A(θ0 ) = x : |x − θ0 | ≤ z α2 √ . n El siguiente conjunto del espacio paramétrico, σ α C(x) = θ : |x − θ| ≤ z 2 √ , n es un conjunto de valores θ entre los que se espera se encuentre θ0 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 283 — #295
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
283
La siguiente expresión relaciona ambos conjuntos mediante una tautología, x ∈ A(θ0 ) ⇔ θ0 ∈ C(x). Un contraste de hipótesis, así como un intervalo de confianza, tratan de relacionar coherentemente estadísticos muestrales y parámetros. Un contraste de hipótesis fija el parámetro y busca los valores muestrales - región de aceptación - que son consistentes con el valor fijado del parámetro. El intervalo de confianza fija un valor muestral y busca los valores paramétricos que hacen el valor muestral más verosímil. Teorema 9.6 Para todo θ0 ∈ Θ, sea A(θ0 ) la región de aceptación del contraste H0 : θ = θ0 con nivel de significación α, y definamos para todo x, C(x) = {θ0 : x ∈ A(θ0 )}. El conjunto aleatorio C(X) es un intervalo de confianza 100(1 − α) %. Inversamente, sea C(X) un intervalo aleatorio de confianza 100(1 − α) %. Si definimos, A(θ0 ) = {x : θ0 ∈ C(x)}, ∀θ0 ∈ Θ, entonces A(θ0 ) es la región de aceptación del contraste H0 : θ = θ0 con nivel de significación α.
Prueba . Está claro que, Pθ0 [X ∈ / A(θ0 )] ≤ α ⇒ Pθ0 [X ∈ A(θ0 )] ≥ 1 − α. Puesto que esto sucede para todo θ0 , dada la definición de C(x), tenemos, Pθ [X ∈ A(θ)] = Pθ [θ ∈ C(X)] ≥ 1 − α. Por otro lado, tal y como se definen A(θ0 ) y C(X) en la segunda parte del enunciado, Pθ0 [X ∈ / A(θ0 )] = Pθ0 [θ0 ∈ / C(X)] ≤ α, y así, el contraste tiene nivel de significación α.
Un contraste de hipótesis con determinada propiedad genera un intervalo de confianza con la misma propiedad. Así, si un contraste es de calidad óptima porque se basa en un estadístico suficiente, el intervalo de confianza obtenido por inversión también es óptimo. Por otro lado, contrastes bilaterales o de dos colas generan intervalos de confianza bilaterales, es decir con dos extremos, en tanto que contrastes unilaterales o de una cola generan intervalos de confianza unilaterales o con un solo extremo finito.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 284 — #296
i
284
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejemplo 9.19 Supongamos deseamos obtener un intervalo de confianza bilateral al 100(1 − α) % para el parámetro β de un población exponencial. Empezaremos construyendo el contraste bilateral, H0 : β = β0 , H1 : β 6= β0 . Dada una muestra aleatoria de tamaño n, el estadístico CCV del contraste es, P β0n exp (−β0 ni=1 xi ) P λ(x) = = sup β n exp (−β ni=1 xi ) β P β0n exp (−β0 ni=1 xi ) n = = n Pn exp (−n) i=1 xi P P exp(n) , = (β0 ni=1 xi )n exp (−β0 ni=1 xi ) nn
por lo que la región de aceptación es, !n ! ) ( n n X X A(β0 ) = x : β0 xi exp −β0 xi ≥ k , i=1
i=1
siendo k tal que Pβ0 [X ∈ A(β0 )] = 1 − α. La Figura 9.11a muestra un ejemplo de esta región de aceptación, que es una función con argumento n X
xi ,
i=1
así como el subconjunto del espacio muestral que verifica que la función es al menos k. La inversión de la región de aceptación genera el conjunto, ( !n ! ) n n X X C(x) = β : β xi exp −β xi ≥ k , i=1
i=1
que, como se muestra en la siguiente Figura 9.11b, es un intervalo en el espacio paramétrico. Dado que el intervalo C(x) depende de la suma de los valores muestrales, podemos escribir, C (xs ) = {β : I (xs ) ≤ β ≤ S (xs )} , llamando, xs =
n X
xi ,
i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 285 — #297
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
(a)
285
(b) Figura 9.11
y donde I y S son funciones que satisfacen, Pβ0 [X ∈ A(β0 )] = Pβ [I (Xs ) ≤ β ≤ S (Xs )] = 1 − α, así como, [I (xs ) xs ]n exp [−I (xs ) xs ] = [S (xs ) xs ]n exp [−S (xs ) xs ] . te.
Para obtener un específico intervalo de confianza, debemos calcularlo numéricamen
Ejemplo 9.20 Sea (X1 , ..., Xn ) una muestra extraída de N (µ, σ 2 ). Supongamos deseamos construir un intervalo de confianza unilateral al 100(1 − α) % para el parámetro µ que tenga la forma C(x) = (−∞, S(x)]. En otras palabras, deseamos calcular una cota superior para dicho parámetro con confianza 100(1 − α) %. Invertiremos el contraste unilateral, H0 : µ = µ0 , H1 : µ < µ0 , ya que H1 especifica valores del parámetro menores que una cota. El contraste CCV de tamaño α rechaza H0 cuando, X − µ0 < −t(n−1,α , S √ n por lo que, A(µ0 ) =
s x : x ≥ µ0 − √ t(n−1,α , n
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 286 — #298
i
286
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y, C(x) = {µ : x ∈ A(µ0 )} = Es decir, Pµ y,
s µ : x + √ t(n−1,α ≥ µ0 . n
S −∞ < µ ≤ X + √ t(n−1,α n
= 1 − α,
S C(X) = −∞, X + √ t(n−1,α . n
Dada esta relación entre intervalos de confianza y contrastes de hipótesis, y a la vista de la construcción, expuesta en el anterior capítulo, de diferentes intervalos de confianza para la esperanza matemática y la varianza, resulta fácil obtener los correspondientes contrastes de hipótesis para estos parámetros.
9.8 CONTRASTES DE HIPÓTESIS BASADOS EN EL ESTADÍSTICO JI-CUADRADO Para finalizar el capítulo, consideraremos algunas aplicaciones del estadístico denominado ji-cuadrado, propuesto por Karl Pearson en 1900, cuya distribución es, aproximadamente, una ji-cuadrado. Para hacerse una idea del motivo por el que Pearson lo propuso, estudiaremos dicho estadístico en su acepción más simple. Sea Y1 ∼ B(n, p1 ), 0 < p1 < 1. Cuando n es suficientemente grande, Y1 ∼ N (np1 , np1 (1 − p1 )) ⇒ Z = p
Y1 − np1
np1 (1 − p1 )
∼ N (0, 1),
según el teorema central del límite. De aquí,
Q1 = Z 2 ∼ χ2(1 . Sea Y2 = n − Y1 , p2 = 1 − p1 . Entonces, Q1 = y como,
(Y1 − np1 )2 (Y1 − np1 )2 (Y1 − np1 )2 = + , np1 (1 − p1 ) np1 n(1 − p1 ) (Y1 − np1 )2 = (Y2 − np2 )2 ,
tenemos, 2
Q1 =
(Y1 − np1 )2 (Y2 − np2 )2 X (Yi − npi )2 + = ∼ χ2(1 . np1 np2 npi i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 287 — #299
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
287
Podemos interpretar esta variable aleatoria como una medida de la proximidad entre lo observado y lo esperado. En efecto, Y1 es el número de éxitos que se observan en un experimento binomial, y np1 es el número esperado, E(Y1 ) = np1 , de estos éxitos. Por idéntica razón, tendremos que Y2 y np2 se corresponden con el número de fracasos observados y esperados. La generalización consiste en suponer un experimento con k > 2 sucesos mutuamente excluyentes y exhaustivos, A1 , ..., Ak , P (Ai ) = pi , i = 1, ..., k. Si tenemos n ensayos independientes, con Yi la variable aleatoria que cuenta el número de veces que se presenta Ai en esos ensayos, resulta que Y1 , ..., Yk tienen una distribución multinomial de parámetros n, p1 , ..., pk . De aquí que un estadístico que mida la proximidad entre las veces que se observan los sucesos Ai y las veces que se esperan estos sucesos, npi , sea, k X (Yi − npi )2 Qk−1 = ∼ χ2(k−1 , npi i=1
cuando n es suficientemente grande. Si bien no expondremos la demostración de este resultado, resaltamos que se basa en que Y1 , ..., Yk tienen, aproximadamente, distribución normal multivariante, obtenida mediante una argumentación similar al caso k = 2. Por otro lado, es frecuente encontrar en la literatura especializada que la aproximación es buena cuando npi ≥ 5, i = 1, ..., k, aunque hay autores (véase, por ejemplo, Hogg y Tanis, 1993) que han sugerido npi ≥ 1, precisando que lo importante a considerar es que ningún npi sea demasiado pequeño respecto a los demás. Supongamos deseamos contrastar, en un experimento con A1 , ..., Ak sucesos mutuamente excluyentes, P (Ai ) = pi , i = 1, ..., k, las siguientes hipótesis, H0 : pi = pi0 , i = 1, ..., k, H1 : no H0 ,
siendo pi0 un número en el intervalo (0, 1). Al obtener una muestra de tamaño suficientemente grande n, observaremos el número de veces yi que se realiza el suceso Ai y lo compararemos con el número de veces que se espera ver este suceso, caso de ser cierta la hipótesis nula, npi0 . En el caso de que, k X (yi − npi0 )2 ≥ χ2(k−1;α , qk−1 = npi0 i=1
siendo α el nivel de significación del contraste, rechazaremos H0 .
9.8.1.
Bondad de ajuste
Decir que una muestra ha sido seleccionada de una específica población es una afirmación que se presenta en muchas situaciones experimentales, y que puede contrastarse.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 288 — #300
i
288
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejemplo 9.21 Supongamos que se lanzan aleatoriamente cuatro monedas y se observa el número de caras obtenidas. Si los lanzamientos son independientes y la probabilidad de realizarse cara es 0.5 en cada moneda, entonces X ∼ B(4,0.5) siendo X el número de caras obtenidas. Si el experimento se repite 100 veces, obteniéndose 7 veces 0 caras, 18 veces 1 cara, 40 veces 2 caras, 31 veces 3 caras y 4 veces 4 caras, ¿ha sido esta muestra seleccionada del modelo B(4,0.5)? Denotando mediante A1 = {0}, A2 = {1}, A3 = {2}, A4 = {3}, A5 = {4}, siendo X ∼ B(4,0.5), y pi0 = P (X ∈ Ai ), tenemos, 4 p10 = p50 = 0.54 = 0.0625, 0 4 p20 = p40 = 0.54 = 0.25, 1 4 p30 = 0.54 = 0.375. 2 Como y1 = 7, y2 = 18, y3 = 40, y4 = 31, y5 = 4, suponiendo que, H0 : pi = pi0 , i = 1, ..., 5, es cierta, tenemos que el estadístico ji-cuadrado Q4 toma el valor, q4 =
(7 − 6.25)2 (31 − 25)2 (4 − 6.25)2 + ... + + = 4.47. 6.25 25 6.25
Dado que χ2(4;0.05 = 9.488 > 4.47, H0 es aceptada con nivel de significación α = 0.05. Por tanto, la muestra ha sido seleccionada de B(4,0.5) con confianza 95 %. Sin embargo, es frecuente observar que pi0 , i = 1, ..., k dependen de parámetros desconocidos. Es decir, si, en el último ejemplo, en vez de suponer X ∼ B(4,0.5) tenemos que X ∼ B(4, p), 0 < p < 1, 4 pi0 = pi−1 (1 − p)5−i , i = 1, ..., 5, i−1 lo que implica que Q4 , al depender de un parámetro desconocido, no pueda calcularse. Un modo de resolver esta dificultad es estimar, empleando la muestra de datos, p. Supongamos que la estimación, pe, se realiza minimizando respecto a p la función Q4 —el estimador se suele denominar estimador ji-cuadrado mínimo—. El estadístico Q4 , suponiendo que la hipótesis nula es cierta, sigue teniendo una distribución aproximada χ2 si bien los grados de libertad son tres al haber tenido que estimar un parámetro. La demostración de este resultado es bastante compleja, por lo que la omitiremos, si bien precisamos que al disminuir los grados de libertad, exigimos diferencias menores entre
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 289 — #301
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
289
lo observado y lo esperado ya que la distribución con menos grados de libertad es más leptocúrtica. En una situación más general, si r son las estimaciones necesarias para calcular Qk−1 , entonces la distribución involucrada es aproximadamente χ2(k−1−r . Hacemos notar, no obstante, que la estimación ji-cuadrado mínima no es siempre factible, por lo que con frecuencia se emplea la estimación máximo verosímil. Ejemplo 9.22 Sea X el número de accidentes por día que se producen en una determinada ciudad. En n = 100 días, se observaron 40 días sin accidentes, 34 días con 1 accidente, 16 días con 2 accidentes, 7 días con 3 accidentes, 2 días con 1 accidente y 1 día con 5 accidentes. La muestra de tamaño 100 ¿se seleccionó de X ∼ P(λ)? b = x = 1. En primer lugar, estimaremos máximo verosímilmente λ, es decir, λ A continuación, establecemos la partición A1 = {0}, A2 = {1}, A3 = {2}, A4 = {3, 4, 5, ...} con objeto de que ninguna de las observaciones esperadas sea menor de 5. Así, siendo pi , oi y ei , i = 1, ..., 4 la probabilidad, bajo H0 : X ∼ P(1), de observar el suceso Ai , el número de veces que se observa y el número de veces que se espera, respectivamente, dicho suceso Ai , obtenemos,
pi oi ei
A1 A2 A3 A4 0.368 0.368 0.184 0.08 40 34 16 10 36.8 36.8 18.4 8
En consecuencia, q3 =
(40 − 36.8)2 (10 − 8)2 + ... + = 1.304, 36.8 8
y como χ2(2;0.05 = 5.99, aceptamos con confianza 95 % que la muestra ha sido seleccionada de la población P(1). Consideremos ahora el caso de que W sea una variable aleatoria continua y deseamos contrastar, siendo F la función de distribución de W,
H0 : F (w) = F0 (w), H1 : no H0 ,
con F0 una función de distribución continua conocida. Con objeto de emplear el estadístico ji-cuadrado, obtendremos una partición del dominio de W compuesta por k clases. Dicha partición puede generarse dividiendo el intervalo [0, 1] en k subintervalos con los puntos b0 = 0 < b1 < ... < bk = 1. A
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 290 — #302
i
290
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
continuación, definimos, ai = F0−1 (bi ), i = 1, ..., k − 1, A1 = (−∞, a1 ], Ai = (ai−1 , ai ], i = 2, ..., k − 1, Ak = (ak−1 , ∞), pi = P (W ∈ Ai ), i = 1, ..., k. Sea Yi el número de veces que se ha realizado W en el intervalo Ai , i = 1, ..., k, con n repeticiones independientes del experimento, es decir, con n valores aleatorios de W. Consecuentemente, la variable multidimensional Y1 , ..., Yk tiene una distribución multinomial de parámetros n, p1 , ..., pk . Finalmente, sea pi0 = P (W ∈ Ai ) cuando es cierta H0 , es decir, cuando la distribución de W es F0 . En estas circunstancias, lo que realmente contrastamos es, H00 : pi = pi0 , i = 1, ..., k, H10 : no H0 , que puede resolverse mediante el estadístico ji-cuadrado, Qk−1 =
k X (Yi − npi0 )2 i=1
npi0
∼ χ2(k−1 ,
en el supuesto de que n sea suficientemente grande. Téngase presente que si existe otra distribución F0′ para la que se verifica que p′i0 = pi0 , i = 1, ..., k, siendo p′i0 = P (W ∈ Ai ) cuando la distribución de W es F0′ , entonces la aceptación de H00 supone que la distribución de W puede ser F0 , o bien F0′ . No es dificil imaginar que para evitar estas indeterminaciones, debe considerarse k grande con la restricción de que ninguno de los números esperados en cada clase de la partición sea comparativamente pequeño. Como sucedía anteriormente, es frecuente que las distribuciones continuas dependan de parámetros desconocidos. Por ejemplo, si la hipótesis es H0 : W ∼ N (µ, σ 2 ), entonces, Z (w − µ)2 1 √ exp − pi0 = dw, i = 1, ..., k. 2σ 2 Ai σ 2π Habiendo estimado máximo verosímilmente los r parámetros desconocidos, Qk−1 =
k X (Yi − nb pi0 )2 i=1
9.8.2.
nb pi0
∼ χ2(k−1−r .
Tablas de contingencia
Una tabla de contingencia k x h es una tabla de datos con k filas y h columnas. El conjunto de filas - columnas - es el recorrido de una variable discreta especial que frecuentemente se denomina variable categórica; ejemplos de este tipo de variable son, sexo, color de pelo, estaciones del año, etc.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 291 — #303
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
291
En esta sección consideraremos la aplicación del estadístico ji-cuadrado sobre datos que se presentan en una tabla de contingencia. Los datos pueden proceder de dos o más distribuciones multinomiales, que deseamos contrastar si son iguales, lo que genera el denominado contraste de homogeneidad de la proporciones, o bien son datos procedentes de dos variables categóricas cuya independencia deseamos contrastar. Homogeneidad de proporciones Supongamos se realizan dos experimentos independientes cada uno compuesto de k sucesos A1 , ..., Ak , con, pij = P (Ai ), i = 1, ..., k, j = 1, 2. Supongamos que el primer experimento se repite n1 veces, y el segundo n2 veces. Sean, además, Y1j , ..., Ykj , j = 1, 2, las variables aleatorias que describen el número de veces que se observan los sucesos Ai , i = 1, ..., k, en las n1 y n2 repeticiones de los dos experimentos. Se puede entonces construir, k X (Yij − nj pij )2 , j = 1, 2, nj pij i=1
que, bajo ciertas condiciones, tiene una distribución aproximada χ2(k−1 . Puesto que los dos experimentos son independientes, 2 X k X (Yij − nj pij )2 ∼ χ2(2k−2 . nj pij j=1 i=1
Estamos interesados en contrastar, H0 : pi1 = pi2 , i = 1, ..., k, H1 : no H0 , es decir, las probabilidades de los sucesos Ai son las mismas en los dos experimentos. Siendo H0 cierta, la estimación máximo verosímil de pi1 = pi2 es, pbi1 = pbi2 =
yi1 + yi2 , i = 1, ..., k, n1 + n2
pues entonces los dos experimentos son solo uno y Ai se habrá observado yi1 +yi2 veces. Además, caso de ser cierta H0 , deberemos estimar k − 1 probabilidades, y, Qk−1 =
2 X k X (Yij − nj pbij )2 ∼ χ2(k−1 , nj pbij j=1 i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 292 — #304
i
292
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
siendo la región crítica de H0 ,
qk−1 ≥ χ2(k−1 .
La generalización a más de dos experimentos independientes es fácil. Siendo, pij = P (Ai ), i = 1, ..., k, j = 1, ..., h, deseamos contrastar,
H0 : pi1 = pi2 = ... = pih = pi , i = 1, ..., k, H1 : no H0 .
Ahora, tendremos, Q=
h X k X (Yij − nj pij )2 ∼ χ2(h[k−1] , nj pij j=1 i=1
y, suponiendo H0 cierta, pbi = Ph
h X
1
j=1 nj j=1
ya que,
yij , i = 1, ..., k − 1,
pbk = 1 −
Consecuentemente, Q(h−1)(k−1) =
k−1 X i=1
pbi .
h X k X (Yij − nj pbij )2 ∼ χ2([h−1][k−1] , nj pbij j=1 i=1
permitirá resolver el contraste propuesto. Ejemplo 9.23
Supongamos que al analizar la capacidad de aprendizaje de la rata, nos interesa comprobar si tres experimentos etológicos independientes, cada uno con tres recompensas posibles aunque iguales de un experimento a otro, difieren entre sí. La siguiente tabla de contingencia 3 x 3 recoge los datos obtenidos de 500 ratas,
R1 R2 R3
E1 82 93 25 200
E2 70 62 18 150
E3 62 67 21 150
214 222 64 500
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 293 — #305
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
293
donde Ei , i = 1, 2, 3, representa al experimento i, y Ri , i = 1, 2, 3 a la recompensa i. Construimos el contraste, H0 : pi1 = pi2 = pi3 = pi , i = 1, 2, 3, H1 : no H0 , y, por ejemplo, la estimación máximo verosímil de p2 es, pb2 = pb21 = pb22 = pb23 =
222 . 500
El estadístico ji-cuadrado toma el valor, q4 =
[82 - 200(0.428)]2 [21 - 150(0.128)]2 + ... + = 2.9, 200(0.428) 150(0.128)
y como χ2(4;0.05 = 9.488, aceptamos H0 , es decir los tres experimentos son iguales respecto a las recompensas obtenidas. Independencia Supongamos que se realiza un experimento aleatorio cuyo resultado puede asignarse a la intersección de dos de las categorías, o clases, de dos variables categóricas. Asumamos que una de las variables se compone de k clases, A1 , ..., Ak , y la otra de h clases, B1 , ..., Bh , así como que, pij = P (Ai ∩ Bj ), i = 1, ..., k; j = 1, ..., h. Si el experimento aleatorio se repite n veces independientes e Yij representa el número de realizaciones del suceso Ai ∩ Bj , el estadístico, Qkh−1
h X k X (Yij − npij )2 = ∼ χ2(kh−1 , npij j=1 i=1
siempre que n sea suficientemente grande. Supongamos que, P pi. = P (Ai ) = hj=1 pij , P p.j = P (Bj ) = ki=1 pij
y que deseamos contrastar, H0 : pij = pi. p.j , i = 1, ..., k; j = 1, ..., h H1 : no H0 , es decir, que las variables categóricas son independientes.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 294 — #306
i
294
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Para resolver este contraste podemos emplear el estadístico Qkh−1 , si bien tendremos en cuenta que pij , pi. y p.j son desconocidas. Sean, P yi. pbi. = , yi. = hj=1 yij , P yn.j pb.j = , y.j = ki=1 yij , n
es decir, que las realizaciones observadas del suceso Ai son yi. , y las del suceso Bj son y.j . Es evidente que el número de estimaciones independientes son k − 1 + h − 1 = k + h − 2, por lo que, Q(k−1)(h−1) =
h X k X (Yij − nb pi. pb.j )2 ∼ χ2([k−1][h−1] , nb pi. pb.j j=1 i=1
si es cierta H0 . En consecuencia, la región de rechazo del contraste con nivel de significación α viene definida mediante, q(k−1)(h−1) > χ2([k−1][h−1];α . Ejemplo 9.24 Supongamos que 238 individuos pertenecientes a 4 pueblos se asignan a uno de 3 clanes diferentes. La siguiente tabla muestra los resultados obtenidos de la asignación,
U1 U2 U3 U4
C1 31 4 39 10 84
C2 2 16 6 23 47
C3 43 46 16 2 107
76 66 61 35 238
en donde Cj y Ui representan clan j y pueblo i. Ser miembro de un clan ¿es independiente de tener residencia en uno de la pueblos? Dado que n = 238 y, por ejemplo,
tenemos que,
61 pb3. = Pb(U3 ) = , 238 47 pb.2 = Pb(C2 ) = , 238
q6 = 111.73 > χ2(6;0.05 = 12.59, por lo que rechazaremos H0 , admitiendo con confianza 95 % que pertenecer a un clan depende del pueblo en el que se resida.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 295 — #307
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
295
EJERCICIOS 9.1. Se sabe que las ratas criadas en un determinado laboratorio ganan, en promedio, 60 g. en los tres primeros meses de su vida. Durante este período de tiempo, se han alimentado 10 ratas recién nacidas en dicho laboratorio con la dieta A, observándose las siguientes ganancias (g.) en peso 50, 55, 62, 60, 59, 62, 54, 48, 58, 61. Suponiendo que la variable aleatoria ganancia en peso se distribuye normalmente, a) ¿puede afirmarse con un nivel de significación α = 0.05 que dicha dieta modifica el promedio de la ganancia de peso?, b) contrástese, con α = 0.05, si la varianza es superior a 12. 9.2. En el análisis de la misma variable aleatoria del ejercicio anterior, se quiere comprobar si la media de la ganancia de peso en ratas alimentadas con otra dieta B es superior a la media de la ganancia de peso en ratas alimentadas con la dieta A. Con este propósito, se alimentaron 8 ratas recién nacidas en el laboratorio citado con la dieta B, obteniéndose las siguientes ganancias (g.) en peso 62, 65, 58, 63, 61, 60, 63, 66. a) Contrástese, con α = 0.1, si las varianzas relativas a las ratas recién nacidas alimentadas con las dietas A y B difieren significativamente. b) A la vista de estos datos y los de la muestra estudiada en el ejercicio anterior, resuélvase con un nivel de significación del 5 % el contraste de hipótesis pertinente relativo a las medias de la ganancia de peso con las citadas dietas. 9.3. La hemoglobina en g./100 ml. en un grupo de tres individuos seleccionados aleatoriamente, antes y después de la administración de un fármaco fue, antes después
16 15.1
17.5 14.9
19.2 17
¿Se puede afirmar que, en promedio, la cantidad de hemoglobina ha variado significativamente con α = 0.05? ¿Qué supuestos se han realizado? 9.4. A partir de dos muestras aleatorias e independientes extraídas de poblaciones normales N (µ1 , σ12 ) y N (µ2 , σ22 ), ¿cómo se contrastaría la hipótesis nula H0 : µ1 = 2µ2 ? 9.5. El investigador del Ejercicio 8.7 quiere comprobar la hipótesis de que la media de la determinación bioquímica es superior en hembras que en machos. Realícese con un nivel de significación α = 0.05 el correspondiente contraste. 9.6. Con los datos del Ejercicio 8.9 y especificando las suposiciones a realizar, a) compruébese la hipótesis σ12 = σ22 con α = 0.1, b) compruébese además la hipótesis de que con la primera dieta se obtienen caparazones con una dureza superior como media en 10 unidades con respecto a la segunda dieta, c) compruébese si cada una de las varianzas es menor que 50.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 296 — #308
i
296
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
9.7. Compruébese la efectividad del tratamiento utilizado en el Ejercicio 8.11 como agente capaz de reducir la presión diastólica. 9.8. Un investigador quiere probar que un determinado producto farmacéutico origina como secuela cierta lentitud motriz. Si esta hipótesis es comprobada, el fármaco, que lleva tiempo en el mercado sin dar muestra de toxicidad alguna, será retirado del mismo. Con este propósito se mide la velocidad, en unidades arbitrarias, con la que recorren un laberinto 30 ratas no tratadas con el producto y 61 que sí han sido tratadas, obteniéndose n1 = 30, x1 = 4.2, s21 = 4; n2 = 61, x2 = 3.9, s22 = 5.64. a) Formúlese y resuélvase el correspondiente contraste de hipótesis (α = 0.05). b) Si la administración del fármaco redujese la media en 0.05 unidades, ¿cuál sería la potencia del contraste? c) Compruébese (α = 0.1) si las varianzas son distintas. 9.9. Se quiere comprobar la hipótesis de que el número esperado de tréboles de cuatro hojas en 100 m2 de cierta pradera es 4. Para ello se toman 100 m2 de pradera al azar, y se busca exhaustivamente tréboles, no encontrándose ejemplar alguno. Plantéese y resuélvase el correspondiente contraste de hipótesis. 9.10. El nivel en sangre de cierta hormona en determinados animales es una variable que tiene distribución normal con varianza σ 2 = 9. Un fisiólogo cree que la media del nivel de esta hormona es superior en invierno que en primavera, y quiere comprobar esta hipótesis de modo que cuando la media del nivel hormonal en invierno sea superior en 4 unidades respecto al de primavera, la probabilidad de detectar diferencias significativas sea 0.95. a) ¿Cuáles son el nivel de significación, el error de tipo II, su probabilidad β y la potencia de la prueba para la hipótesis alternativa concretada en el enunciado? b) ¿Cuántas observaciones tiene que hacer como mínimo en cada muestra (invierno, primavera) suponiendo que el número de observaciones es el mismo en ambas muestras? 9.11. El carácter longitud del ala de cierto insecto se mide en muestras independientes, una de una población consanguínea y otra de una población híbrida, obteniéndose n1 = 61, x1 = 2.6, s1 = 0.04, n2 = 121, x2 = 2.9, s2 = 0.25. Suponiendo que ambas variables son normales, analícese si la varianza es mayor en la población híbrida. 9.12. Para comprobar si la estatura media de los estudiantes de cierta Facultad es 1.75 m., se toma una muestra de 16 alumnos y se obtiene x = 1.72 y s = 0.1. Compruébese la hipótesis planteada con α = 0.05. 9.13. Sea (x1 , ..., x25 ) una muestra aleatoria extraída de una población normal N (µ, σ 2 = 25) que utilizaremos para realizar el siguiente contraste, H0 : µ = 36, H1 : µ > 36. Supóngase que disponemos de dos reglas alternativas de decisión, i) rechazamos H0 si X > 36.5, ii) rechazamos H0 si X > 37.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 297 — #309
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
297
a) Calcúlese en ambos casos el nivel de significación y la potencia del contraste si el verdadero valor de la media es 38. b) ¿Cuáles serían las ventajas y los inconvenientes de optar por cualquiera de las dos reglas de decisión? 9.14. Se estudia el efecto que ejerce una dieta excesivamente rica en grasas sobre la media de la concentración de ADN en las células hepáticas de cobayas. Nuestra hipótesis es que tal media es mayor que 18 unidades. Al extraer una muestra aleatoria de tamaño 30, encontramos x = 18.5 y s = 3.8. Diséñese y realícese el contraste de hipótesis adecuado y calcúlese su potencia en el supuesto de que la verdadera media fuera µ = 20 (α = 0.05).
SOLUCIONES Ejercicio 9.1. Suponiendo que la variable aleatoria ganancia en peso se distribuye normalmente: a) Se trata de resolver el siguiente contraste,
H0 : µ = 60, H1 : µ 6= 60,
y como el tamaño muestral n = 10 no es suficientemente grande, el estadístico adecuado es, T =
X − µ0 ∼ t(n−1 . S √ n
Dado que x = 56.9 y s2 = 24.76, resulta que t = −1.97. Siendo, t(9;0.975 = -2.262 y t(9;0.025 = 2.262, puede concluirse que no se rechaza H0 con confianza 95 %, esto es, la dieta A no modifica el promedio de la ganancia de peso. Y. b) El contraste a realizar es,
H0 : σ 2 = 12, H1 : σ 2 > 12,
que se resolverá con el estadístico, V =
(n − 1)S 2 ∼ χ2(n−1 . σ02
Dado que el valor de este estadístico es 18.57, y la abscisa de una χ2(9 que deja a su derecha un área igual a 0.05 es 16.92, se deduce que rechazamos H0 con confianza 95 %.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 298 — #310
i
298
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejercicio 9.2. Teniendo en cuenta los datos de las muestras de ratas alimentadas con la dieta A y B, a) el contraste a plantear es,
que se resuelve con el estadístico, U=
2 2 H0 : σ A = σB , 2 2 H1 : σA 6= σB , 2 SA ∼ F(nA −1,nB −1 . 2 SB
El valor del estadístico es u = 3.65, y los puntos críticos son 0.303 y 3.68, que corresponden a las abscisas de una F(9,7 que dejan a su izquierda y derecha, respectivamente, un área igual a 0.05. Consecuentemente, no se rechaza H0 con confianza 90 %. Además, b) el contraste a resolver es, H0 : µA − µB = 0, H1 : µA − µB < 0. Puesto que nA = 10, xA = 56.9, s2A = 24.76, nB = 8, xB = 62.25 y s2B = 6.78, y en el apartado a) hemos concluido que las varianzas poblacionales son iguales, el estadístico para resolver el contraste es, XA − XB r ∼ t(nA +nB −2 , 1 1 Sp + nA nB 2 2 (n − 1)S A A + (nB − 1)SB . Sp2 = nA + nB − 2
T =
Al ser t = −2.744, inferior a -1.746, esto es, la abscisa de una t(16 que deja a su izquierda un área igual a 0.05, se deduce que rechazamos H0 con confianza 95 %, es decir, la media de la ganancia de peso en ratas alimentadas con la dieta B es superior a la media de la ganancia de peso en ratas alimentadas con la dieta A. Ejercicio 9.3. Llamando D a la variable aleatoria que expresa la diferencia entre la hemoglobina antes y después de la administración del fármaco, el contraste a resolver es, H0 : µD = 0, H1 : µD 6= 0, y suponiendo que D se distribuye normalmente, el estadístico que utilizaremos es, T =
D ∼ t(n−1 . SD √ n
Como n = 3, d = 1.9 y s2D = 0.79, se obtiene t = 3.7 que comparado con los puntos críticos -4.303 y 4.303, esto es, las abscisas de una t(2 que dejan a su izquierda y derecha, respectivamente, un área igual a 0.025, resulta que no rechazamos H0 con confianza 95 %.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 299 — #311
i
CAPÍTULO 9. CONTRASTE DE HIPÓTESIS
299
Ejercicio 9.9. Sea la variable X = "número de tréboles de 4 hojas en 100 m2 ”. Entonces X ∼ P(λ). El contraste de hipótesis pertinente es, H0 : λ = 4 H1 : λ 6= 4, que resolveremos con un nivel de significación α = 0.05. Hallemos la probabilidad del suceso A = {X ≤ 0}, de forma que si P (A) ≤ 0.025 entonces el suceso A se considera raro, o en otras palabras, que no pertenece a una población con P(λ = 4). Esto supondría el rechazo de H0 . Así, P (A) = P (X ≤ 0 | λ = 4) = P (X = 0 | λ = 4) = e−4 = 0.0183, que, en efecto, es menor que 0.025. Por tanto, se rechaza H0 con confianza 95 %.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 300 — #312
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 301 — #313
i
CAPÍTULO
10 Introducción a la teoría de la decisión 10.1 INTRODUCCIÓN Y DEFINICIONES Tanto la estimación puntual como la estimación por intervalo y el contraste de hipótesis implican tomar decisiones. En un problema de contraste de hipótesis, por ejemplo, se debe elegir entre aceptar la hipótesis nula, o rechazarla. En este capítulo, describimos sucintamente los elementos básicos de la teoría de la decisión, apoyándolos con ejemplos. El lector interesado en profundizar en esta materia puede consultar las obras de Berger, J.O. (1980) y Bernardo y Smith (2000), o aunque no tan técnica, la excelente introducción de Hansson, S.O. (2005). Definición 10.1 La teoría de la decisión se ocupa del análisis de problemas inferenciales cuyos elementos son susceptibles de ser definidos formalmente. Los criterios de optimización empleados con el fin de comparar decisiones alternativas, son también objeto de estudio. Los elementos de un problema de teoría de la decisión son los siguientes. Definición 10.2 Los datos se describen mediante un vector aleatorio X = (X1 , ..., Xn ), el conjunto de cuyos valores es el espacio muestral X . Definición 10.3 El modelo es el conjunto de las distribuciones de probabilidad de X, indexado por un parámetro θ, desconocido y objeto de inferencia. Definición 10.4 El espacio paramétrico Θ es el conjunto de valores θ. De este modo, el modelo es el conjunto, {f (x; θ) : θ ∈ Θ}, donde f es una función de densidad en X .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 302 — #314
i
302
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Definición 10.5 El espacio de acciones A es el conjunto de las decisiones que pueden tomarse. Claramente, una vez se observan los datos, X = x, se debe tomar una decisión respecto a θ. El espacio de acciones es, precisamente, quien configura el tipo de problema inferencial a analizar. Así, en un contraste de hipótesis, tenemos dos posibles acciones, es decir, aceptar H0 o rechazarla. Escribiremos A = {a0 , a1 }, si simbolizamos por a0 la acción aceptar H0 y por a1 rechazarla. En una estimación por intervalo, la acción a tomar es la construcción de un intervalo estimación, o dicho de forma general, la construcción de subconjuntos del espacio paramétrico, por lo que A será el conjunto de todos los subconjuntos de Θ. Generalmente, A es igual que Θ cuando realizamos un estimación puntual ya que la acción a tomar es el cálculo de un valor de θ, siendo cualquier valor de θ un posible resultado a calcular. Definición 10.6 La función de pérdida L(θ, a) es una función que mide las consecuencias de haber tomado la acción a, considerando que el parámetro toma el valor θ. Por tanto, es una función de Θ × A en R que, normalmente, cuantifica las pérdidas provocadas por a, pero que también puede referirse a las ganancias generadas por dicha acción. En este último caso se denomina función de utilidad, y se define −L(θ, a). Valores altos de la función de pérdida indican una acción incorrecta, en tanto que L(θ, a) = 0 es una decisión correcta, en el caso de que el valor del parámetro sea θ. Definición 10.7 Una regla de decisión es una función δ de X en A que determina la acción a tomar una vez se han observado los datos. Así, en un contraste de hipótesis con región de rechazo R, a0 , ∀x ∈ / R, δ(x) = a1 , ∀x ∈ R. El conjunto de las reglas de decisión se denota D. Definición 10.8 La función de riesgo R mide la calidad de una regla de decisión y se define, R(θ, δ) = E{L[θ, δ(X)]}. R es, por tanto, la media de la pérdida que se espera cuando utilizamos la regla δ(X). De aquí que si comparamos dos reglas de decisión, se preferirá aquella con menor valor para R. Típicamente, las funciones R correspondientes a dos reglas de decisión intersectan, es decir, no existe una uniformemente preferible a la otra. Aun así, el elemento característico para distinguir la calidad de las reglas de decisión es su de función riesgo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 303 — #315
i
CAPÍTULO 10. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
303
10.2 TEORÍA DE LA DECISIÓN EN ESTIMACIÓN Y CONTRASTES DE HIPÓTESIS 10.2.1.
Estimación puntual
En esta situación, es característico que A = Θ. Es evidente que las reglas de decisión son los estimadores puntuales del parámetro θ desconocido. Las dos funciones de pérdida más empleadas son, |δ(x) − θ| , L[θ, δ(x)] = [δ(x) − θ]2 , denominándose, la primera, función de pérdida del error absoluto, y la segunda, función de pérdida del error cuadrático. En general, se prefiere esta segunda alternativa. Cuando la función de pérdida es la correspondiente al error cuadrático, la función de riesgo es el error cuadrático medio - véase el Capítulo 7 -, R(θ, δ) = E{[δ(X) − θ]2 } = var[δ(X)] + (E[δ(X)] − θ)2 , lo que puede comprobarse fácilmente sin más que sumar y restar E[δ(X)], la esperanza matemática del estimador puntual. De aquí se deduce que un buen estimador puntual es aquél con valores mínimos para su varianza y sesgo. Ejemplo 10.1 Sea una muestra aleatoria (X1 , ..., Xn ) de B(1, p). Compararemos dos reglas de decisión referentes al parámetro p, suponiendo que la función de pérdida elegida es la correspondiente al error cuadrático. La primera será X, cuya función de riesgo R1 es, R1 (p, X) = E(X − p)2 = var(X) =
p(1 − p) . n
La segunda regla de decisión será el estimador bayesiano de p según se desarrolló en el Ejemplo 7.18, es decir, con α y β los parámetros de una distribución beta,
Por tanto,
PbB =
Xn Y +α ,Y = Xi ∼ B(n, p). i=1 α+β+n
h i2 R2 p, PbB = var PbB + E PbB − p = =
np(1 − p) + (α + β + n)2
np + α −p α+β+n
2 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 304 — #316
i
304
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Si suponemos que α = β = R2
√
n/4, R2 es una función constante, n √ . p, PbB = 4(n + n)2
Cuando n = 4, la Figura 10.1 muestra R1 y R2 . Puede verse que la mejor opción es b PB , siempre que se tenga la convicción de que p no toma valores cercanos a 0 o a 1.
Figura 10.1
Cuando n = 400, la Figura 10.2, muestra que X es la mejor opción, a no ser que se crea que p toma valores próximos a 0.5. Ejemplo 10.2 Sea (X1 , ..., Xn ) una muestra aleatoria de N (µ, σ 2 ). Supongamos estamos interesados en estimar puntualmente σ 2 , empleando como función de pérdida la correspondiente al error cuadrático. Utilizaremos estimadores de la forma δk (X) = kS 2 , siendo k un número real positivo y S 2 la varianza muestral. Recordemos que, E(S 2 ) = σ 2 , y, con poblaciones normales, var(S 2 ) = La función de riesgo es,
2σ 4 . n−1
R(σ2 , kS 2 ) = var(kS 2) + [E(kS 2 ) − σ 2 ]2 = 2k 2 = + (k − 1)2 σ 4 = c(σ 2 )2 , c > 0. n−1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 305 — #317
i
CAPÍTULO 10. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
305
Figura 10.2
R es una función cuadrática en σ 2 de forma que, c < c′ ⇒ c(σ 2 )2 < c′ (σ 2 )2 . La constante c tiene un mínimo en, k=
n−1 , n+1
de donde el estimador, n
n−1 2 1 X Se2 = S = (Xi − X)2 , n+1 n+1 i=1
es aquel, entre los estimadores de la forma kS 2 , con función de riesgo menor. La Figura 10.3 muestra las funciones de riesgo de Se2 (R3 ), del estimador insesgado 2 2 (R ) cuando n = 5, observándose que el S (R1 ) y del estimador máximo verosímil Sm 2 estimador insesgado es el que genera mayor riesgo cualesquiera que sea el valor de σ 2 . Ejemplo 10.3 Supongamos que, ahora, estamos interesados en estimar puntualmente σ 2 cuando la muestra aleatoria (X1 , ..., Xn ) se extrae de cualquier población, y el estimador es asimismo de la forma kS 2 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 306 — #318
i
306
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 10.3
Definiremos una nueva función de pérdida L, denominada función de Stein, definida de la siguiente manera, a a L(σ 2 , a) = 2 − 1 − ln 2 . σ σ
Notemos que si a = σ 2 , la pérdida es cero, y que si a → 0, o a → ∞, entonces L(σ 2 , a) → ∞. En otras palabras, la subestimación o la sobrestimación están penalizadas igualmente, al contrario de lo que ocurre con la función de pérdida basada en el error cuadrático, donde la subestimación se penaliza finitamente, pero no la sobrestimación. La función de riesgo es, entonces, 2 kS 2 kS =E − 1 − ln = 2 2 σ 2σ S = k − ln(k) − 1 − E ln . σ2
R(σ 2 , kS 2 )
El valor de k que minimiza esta función es k = 1, por lo que, con la función de pérdida de Stein, el estimador con menor riesgo es S 2 , el estimador insesgado.
10.2.2.
Estimación por intervalo
En este caso, el espacio de acciones A está compuesto por subconjuntos del espacio paramétrico Θ. Simbolizaremos dichos subconjuntos mediante C. Una regla de decisión δ(x) especifica cuál elemento de C ∈ A será seleccionado como intervalo estimación de θ. Con la notación C(x) entendemos que la muestra x genera la estimación por intervalo C.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 307 — #319
i
CAPÍTULO 10. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
307
La función de pérdida tiene, normalmente, dos componentes. Uno es una función indicador, y el otro, especifica el tamaño del intervalo. Así, L(θ, C) = t(C)b − IC (θ), b > 0, donde t(C) es la longitud del intervalo, e IC (θ) es la función indicador de C, es decir, 1, θ ∈ C, IC (θ) = 0, θ ∈ / C. La constante b se emplea para dar peso a los dos componentes. Por ejemplo, si esta constante es grande, lo que interesa, principalmente, es la longitud del intervalo. La función de riesgo es, R(θ, C) = bE{t[C(X)]} − E[IC(X) (θ)] = = bE{t[C(X)]} − P [IC(X) (θ) = 1] = = bE{t[C(X)]} − P [θ ∈ C(X)]. Esta función indica que lo deseable es que el tamaño esperado del intervalo sea pequeño, y que la probabilidad de que el intervalo aleatorio contenga al parámetro sea grande. Ejemplo 10.4 2 ), σ 2 conocido. El estimador puntual típico de µ es X, con varianza Sea X ∼ N (µ, σX X 2 2 σ = σX /n. Siendo k ≥ 0, estudiaremos estimadores de la forma,
C(X) = (X − kσ, X + kσ). Tenemos, t[C(X)] = 2kσ, y, P [µ ∈ C(X)] = P (X − kσ ≤ µ ≤ X + kσ) = = P (−k ≤ Z ≤ k) = 2P (Z ≤ k) − 1, siendo Z ∼ N (0, 1). La función de riesgo es, R(µ, C) = 2kσb + 1 − 2P (Z ≤ k), que, al no depender de µ, es una constante cuyo valor mínimo se alcanza para algún k. Resulta que, 2 1 k ∂ R(µ, C) = 2bσ − 2 √ exp − , ∂k 2 2π
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 308 — #320
i
308
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
de forma que, ∂ R(µ, C) = 0 ⇒ k = ∂k
r
√ −2 ln bσ 2π .
√ Si bσ 2π > 1, entonces la función R es mínima en k = 0 - notemos que, entonces, R = 0 - De aquí que, C(x) = (x, x), lo que supone pensar que la √ mejor estimación por intervalo es la estimación puntual. Si, por el contrario, bσ 2π ≤ 1, entonces el mínimo de R se alcanza en k = q √ −2 ln bσ 2π , de forma que si elegimos α tal que z α2 = k, se obtiene un intervalo estimación al 100(1 − α) %. La dificultad de elegir b en la función de pérdida hace que la teoría de la decisión aplicada a problemas de estimación por intervalo no esté tan generalizada como su aplicación en la estimación puntual o en el contraste de hipótesis.
10.2.3.
Contraste de hipótesis
El espacio de acciones A se compone de dos elementos, A = {a0 , a1 }, denotando a0 la decisión de aceptar H0 , y a1 la de rechazarla. La regla de decisión δ(x) es una función en X que, por tanto, genera dos valores, a0 y a1 , siendo el conjunto {x : δ(x) = a0 }, la región de aceptación del contraste. En un contraste como, H0 : θ ∈ Θ0 , H1 : θ ∈ Θc0 , la función de pérdida más simple se llama pérdida 0-1, y se define,
0, θ 1, θ 1, θ L(θ, a1 ) = 0, θ L(θ, a0 ) =
∈ Θ0 , ∈ Θc0 , ∈ Θ0 , ∈ Θc0 .
Como se observa, los dos tipos de error que se pueden cometer tienen las misma consecuencias, o costos. Si se desea dar diferente costo a dichos errores, se emplea la pérdida 0-1 generalizada, definida,
0, θ ∈ Θ0 , c c II , θ ∈ Θ0 , cI , θ ∈ Θ0 , L(θ, a1 ) = 0, θ ∈ Θc0 ,
L(θ, a0 ) =
donde lo importante no es tanto el valor de cada costo como su cociente cII /cI .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 309 — #321
i
CAPÍTULO 10. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
309
Siendo R = {x : δ(x) = a1 } la región de rechazo de un contraste, recordemos que la potencia de dicho contraste β(θ) es, β(θ) = Pθ (X ∈ R) = P [δ(X) = a1 ]. De aquí que la función de riesgo sea, cI Pθ [δ(X) = a1 ] = cI β(θ), θ ∈ Θ0 , R(θ, δ) == cII Pθ [δ(X) = a0 ] = cII [1 − β(θ)], θ ∈ Θc0 . Ejemplo 10.5 Sea (X1 , ..., Xn ) una muestra de N (µ, σ 2 ), σ 2 conocido. El contraste CMP de nivel de significación α de,
H 0 : θ ≥ θ0 , H1 : θ < θ 0 ,
recordemos que tiene una región de rechazo R definida por, σ R = X : X < −zα √ + θ0 , n por lo que su función potencia es, √ n(θ0 − θ) β(θ) = Pθ Z < −zα + , Z ∼ N (0, 1). σ Con α = 0.1, cI = 8 y cII = 3, la Figura 10.4 muestra la función riesgo R, R(θ, δ) =
8β(θ), θ ≥ θ0 3β(θ), θ < θ0
con una discontinuidad en θ = θ0 , ya que en este punto la función R cambia de forma.
10.3 REGLAS DE DECISIÓN BAYESIANAS Como queda explicado, dos reglas de decisión se evalúan mediante sus funciones de riesgo. Sin embargo, hemos observado que la evaluación no siempre es fácil ya que las funciones de riesgo pueden intersectar (véase el Ejemplo 10.1). El resultado es que una regla de decisión es mejor para determinados valores del parámetro, y peor para otros. Dado que el verdadero valor del parámetro es desconocido, no está claro entonces cuál será la regla de decisión debemos seleccionar.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 310 — #322
i
310
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 10.4
Un modo de resolver este problema es redefinir la función de riesgo de forma que genere un único valor. De este modo, aquella regla de decisión que produzca un mínimo en esta nueva función será la óptima. Con este propósito, sea π la distribución a priori de la variable aleatoria Θ cuyo recorrido está formado por el conjunto de valores del parámetro θ desconocido. Definición 10.9 Se llama riesgo de Bayes, B, de una regla de decisión δ a, Z B(π, δ) = R(θ, δ)π(θ)dθ. Θ
Notemos que, así definido, el riesgo de Bayes es el riesgo esperado calculado sobre la función de densidad de Θ. Cuando π es discreta, la integral se sustituye por un sumatorio. Definición 10.10 La regla de decisión δπ que minimiza B(π, δ) se denomina regla de Bayes respecto a la distribución a priori π. Por tanto se verifica, B(π, δπ ) = ´ınf B(π, δ). δ∈D
Teorema 10.1 Para todo x ∈ X y todo a ∈ A, definimos, Z r(x, a) = L(θ, a)πc (θ | x)dθ, Θ
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 311 — #323
i
CAPÍTULO 10. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
311
siendo πc la distribución posterior de Θ | x. Supongamos que existe un ax ∈ A tal que, r(x, ax ) = ´ınf r(x, a), a∈A
y sea δπ una función de X en A tal que δπ (x) = ax . Si δπ ∈ D, entonces δπ es la regla de Bayes respecto a π.
Prueba . Considerando la definición de la distribución posterior πc , tenemos, R R R B(π, δ) (x | θ)dx π(θ)dθ = R =R Θ R(θ, δ)π(θ)dθ = Θ X L[θ, δ(x)]f R = Θ X L[θ, δ(x)]πc (θ | x)m(x)dxdθ = X r[x, δ(x)]m(x)dx. Al haber supuesto que existe ax = δπ (x), se verifica,
´ınf r[x, δ(x)] = r[x, δπ (x)].
δ∈D
De aquí que δπ minimice la anterior integral y sea la regla de Bayes.
Teorema 10.2 Consideremos la estimación puntual de un parámetro θ. Si la función de pérdida es la correspondiente al error cuadrático, entonces, δπ (x) = E(Θ | x), δπ ∈ D, es la regla de Bayes, también denominada estimador de Bayes.
Prueba . Si L(θ, a) = (θ − a)2 , Z r(x, a) = (θ − a)2 πc (θ | x)dθ = E[(Θ − a)2 | x]. Θ
Para simplificar la notación, sea X una variable aleatoria cualesquiera. Tenemos, E(X − a)2 = E[X − E(X) + E(X) − a]2 = = E[X − E(X)]2 + [E(X) − a]2 , de forma que si buscamos el valor de a que hace mínima E(X − a)2 , teniendo en cuenta que [E(X) − a]2 ≥ 0, será a = E(X). Transportando este resultado a r(x, a), ´ınf r(x, a) = ´ınf E[(Θ − a)2 | x] = r[x,E(Θ | x)].
a∈A
a∈A
Vemos entonces que la media de la distribución posterior es el estimador bayesiano cuando la función de pérdida es el error cuadrático.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 312 — #324
i
312
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Cuando Θ = A y es finito, puede ser que δπ (x) = E(Θ | x) ∈ / A por lo que el estimador bayesiano no sería una función de X en A, es decir, no sería un estimador legítimo. Ejemplo 10.6 Sea (X1 , ..., Xn ) una muestra de N (θ, σ 2 ) y sea Θ ∼ N (µ, τ 2 ), con σ 2 , µ y τ 2 conocidos. Teniendo en cuenta el resultado del Ejemplo 7.16, podemos escribir,
E(Θ | x) =
τ2 τ2
σ2 + n
σ2 n
x+ τ2
σ2 + n
µ,
de donde, cuando la función de pérdida es la correspondiente al error cuadrático, τ2
δπ (x) = τ2
σ2 + n
σ2 n
x+ τ2
σ2 + n
µ.
Teorema 10.3 Consideremos un contraste de hipótesis siendo la función de pérdida la correspondiente a la pérdida 0-1 generalizada. Dada la hipótesis nula H0 : θ ∈ Θ0 , la regla de Bayes, llamada contraste de Bayes, es el contraste con región de rechazo R definida por, cII R = x : P (Θ ∈ Θ0 | x) < . cI + cII
Prueba . Dado que el espacio de acciones es A = {a0 , a1 }, tenemos, R Rr(x, a0 ) = Θ L(θ, a0 )πc (θ | x)dθc = = Θc cII πc (θ | x)dθ = cII P (Θ ∈ Θ0 | x), 0
y,
R r(x, R a1 ) = Θ L(θ, a1 )πc (θ | x)dθ = = Θ0 cI πc (θ | x)dθ = cI P (Θ ∈ Θ0 | x).
Según la regla de Bayes, cuando se rechaza la hipótesis nula de un contraste es que debe verificarse r(x, a1 ) < r(x, a0 ). Así, la región de rechazo R queda definida mediante, {x : cI P(Θ ∈ Θ0 | x) < cII P (Θ ∈ Θc0 |x)} ≡ cII ≡ x : P (Θ ∈ Θ0 | x) < . cI + cII
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 313 — #325
i
CAPÍTULO 10. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
313
Ejemplo 10.7 Consideremos, nuevamente, una muestra aleatoria de tamaño n de N (θ, σ 2 ), con Θ ∼ N (µ, τ 2 ) siendo σ 2 , µ, τ 2 conocidos. Supongamos deseamos contrastar, H 0 : θ ≥ θ0 , H1 : θ < θ 0 , y que simbolizamos, κ=
σ2 . nτ 2 + σ 2
Como hemos visto, E(Θ | x) = (1 − κ)x + κµ, y, también considerando el Ejemplo 7.16, var(Θ | x) = κτ 2 . De aquí,
θ0 − (1 − κ)x − κµ √ P (Θ ≥ θ0 | x) = P Z ≥ , τ κ
siendo Z ∼ N (0, 1). Llamando, α= tenemos, P
cII , cI + cII
θ0 − (1 − κ)x − κµ √ Z≥ zα , ⇔ τ κ
o lo que es lo mismo,
√ κ(µ − θ0 ) − zα τ κ θ0 − > x. 1−κ Resaltamos el hecho de que este punto frontera entre las regiones de aceptación y rechazo de la hipótesis nula depende de los dos tipos de error que se pueden cometer en un contraste de hipótesis.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 314 — #326
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 315 — #327
i
Parte III
Técnicas del análisis de datos
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 316 — #328
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 317 — #329
i
CAPÍTULO
11 Análisis de la varianza 11.1 INTRODUCCIÓN Y DEFINICIONES Cuando tratamos de resolver problemas que involucran un número k de muestras estrictamente mayor que dos y cuya hipótesis nula H0 es, H0 : µ1 = ... = µk = µ, k > 2, emplearemos un procedimiento inferencial denominado análisis de la varianza, abreviadamente ANOVA. De manera más general, se llama contraste de la igualdad de múltiples medias, con hipótesis alternativa cualquiera enfrentada a la nula. En su formulación más estricta, el procedimiento se basa en los supuestos de que las muestras seleccionadas son independientes y las poblaciones implicadas son normales con igual varianza (condición de homocedasticidad), aunque desconocida. Box (1954) ha demostrado que la robustez del ANOVA al supuesto de normalidad depende de lo distintas que sean las varianzas. De otra parte, Kendall y Stuart (1979) han estudiado profusamente el problema Behrens-Fisher, que no es otro que un problema ANOVA con varianzas diferentes. Si convenimos, por ejemplo, que los colores del pelo son el resultado de un agente que categoriza, o clasifica discretamente, los individuos según su color de pelo, entonces estamos ante la presencia de un factor. Se denomina factor, por tanto, a una variable discreta, llamada nominal o categórica, donde cada valor, categoría, o clase de la variable puede denominarse tratamiento, nivel o población del factor. A la vista de la hipótesis nula anteriormente planteada, se trata de analizar si el factor tiene uno, o más de uno, niveles o tratamientos. Si las muestras independientemente seleccionadas son de igual tamaño, el modelo se llama equilibrado. En caso contrario, se habla de modelos no equilibrados. Si las k > 2 muestras no son la totalidad de las muestras a estudiar, sino solo un subconjunto de éstas, el modelo se denomina de efectos aleatorios. Por ejemplo, al estudiar la media
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 318 — #330
i
318
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
de la longitud del fémur en las distintas especies de primates, supongamos que son m, seleccionaremos solo k < m de ellas. En el modelo de efectos aleatorios, los resultados obtenidos, como veremos, son aplicables a todo el conjunto de especies de primates. Por otro lado, el modelo se llama de efectos fijos cuando las k muestras son todas las muestras a estudiar.
11.2 ANOVA DE UN FACTOR 11.2.1.
Modelo equilibrado de efectos fijos
En una situación de este tipo, los datos se organizan de la siguiente manera, siendo j = 1, ..., n, X1j X11 X12
X2j X21 X22
.. .
.. .
X1n X 1.
... ... ...
Xkj Xk1 Xk2 ,
.. .
X2n
... ...
Xkn
X 2.
...
X k.
X ..
de forma que, mediante (X1j , ..., Xkj ), representamos las k muestras de tamaño n extraídas de N (µi , σ 2 ), i = 1, ..., k. Con Xij , i = 1, ..., k, j = 1, ..., n denotamos la observación j de la muestra i, con X i. la media de la muestra i, y con X .. la media total de las kn observaciones, o de las k medias muestrales. En esta notación, se escriben puntos en los subíndices con el fin de hacer patente los elementos empleados en el cálculo de una media. Como consecuencia, se verifica, Xij ∼ N (µi , σ 2 ), σ2 X i. ∼ N µi , , n ! Pk 2 i=1 µi σ . X .. ∼ N µ = , k kn A la vista de la definición de µ, está claro que, µi = µ + γi , γi ∈ R, donde γi describe simplemente la desviación de µi respecto a µ. Es evidente que, ∀i : γi = 0 ⇒ µi = µ, es decir, que podemos escribir, H0 : γ1 = ... = γk = 0.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 319 — #331
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
319
La organización de datos en una tabla como la anteriormente expuesta es reveladora de dos tipos de variación - un término que se emplea para describir variabilidad En efecto, existe una variación intra-muestral, que es aleatoria y es la que explica que las observaciones dentro de las muestras no sean todas iguales. También se denomina variación dentro (within, en inglés), residuo o error. Por otro lado, podemos observar la variación inter-muestral, que es la resultante de no ser todas la medias muestrales iguales, y que se explica tanto por causas aleatorias - diferentes muestras extraídas de una misma población pueden dar lugar a diferentes medias muestrales - como porque las muestras hayan sido seleccionadas de más de una población. También se llama variación entre (between, en inglés), variación sistemática, o efecto. La lógica de la técnica denominada ANOVA reside en comparar ambos tipos de variación. Si la variación inter-muestral es significativamente mayor que la intra-muestral, rechazaremos la hipótesis nula, pues estamos poniendo de manifiesto la variación sistemática. Veamos cómo comparar ambas variaciones. Identidad de la suma de cuadrados La variación total de una situación experimental como la que estamos estudiando es la suma de las dos variaciones dentro y entre anteriormente aludidas. En efecto, k P n P
i=1 j=1
(Xij − X .. )2 = =
k P n P
i=1 j=1
k P n P
i=1 j=1
[(Xij − X i. ) + (X i. − X .. )]2 =
[(Xij − X i. )2 + n
k P
i=1
(X i. − X .. )2 ,
donde llamando,
se verifica,
P P SST = ki=1 nj=1 (Xij − X .. )2 , suma de cuadrados total, P SSB = n ki=1 (X i. − X .. )2 , suma de cuadrados entre, Pk Pn SSW = i=1 j=1 [(Xij − X i. )2 , suma de cuadrados dentro, SST = SSW + SSB,
denominada identidad de la suma de cuadrados. Esperanzas de SSB y SSW La esperanza de SSB es, "
E(SSB) = E n
k X i=1
2 X i.
−
2 kX ..
!#
,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 320 — #332
i
320
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y, recordando que siendo X una variable aleatoria, se verifica,
resulta,
var(X) = E X 2 − E 2 (X),
2 2 Pk σ σ 2 2 = + i=1 µi − k +µ E(SSB) = n k n kn 2 2 Pk σ σ 2 2 =n k = + i=1 (µ + γi ) − + kµ n n P = (k − 1)σ 2 + n ki=1 γi2 ,
considerando que, tal y como se ha definido γi , se verifica que, k X
γi = 0.
i=1
Supongamos que llamamos, 2 SB =
SSB , k−1
y que la hipótesis nula H0 es cierta. Se verifica,
2 E(SB ) = σ2. 2 es un estimador sesgado positivo de Naturalmente, cuando H0 es falsa, entonces SB 2 se le denomina varianza entre, o between. la varianza común σ 2 . Al estimador SB La esperanza matemática de SSW es, ! k P n k P P 2 2 −n E(SSW ) = E Xij X i. = i=1 j=1 i=1 2 k P n k P P σ 2 2 2 = (σ + µi ) − n + µi = k(n − 1)σ 2 . n i=1 j=1 i=1
Si denotamos, 2 SW =
SSW , k(n − 1)
se verifica, con independencia de la veracidad de la hipótesis nula, 2 E(SW ) = σ2,
llamándose a este estimador insesgado de la varianza común σ 2 varianza dentro, o within.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 321 — #333
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
321
Distribución del estadístico de contraste En el Apéndice al final del capítulo, puede verse que, 2 (k − 1)SB SSB = ∼ χ2(k−1 , σ2 σ2 2 k(n − 1)SW SSW = ∼ χ2[k(n−1) , 2 σ σ2 2 tiene la distribución ji-cuadrado mencionada notando que la variable que involucra a SB si la hipótesis nula es cierta. Podemos construir entonces el estadístico,
F =
2 SB 2 ∼ F[k−1,k(n−1) , SW
puesto que es el cociente de dos variables aleatorias independientes - véase a continuación - con distribución ji-cuadrado, divididas por sus respectivos grados de libertad. La independencia es una consecuencia de la Proposición 6.1. En efecto, recordemos que según esta proposición, X i. y
n X j=1
(Xij − X i. )2 ,
son variables aleatorias independientes; de aquí que, k X i=1
X i. − X ..
2
y
n X (Xij − X i. )2 , j=1
sean también independientes considerando el Teorema 2.4. El estadístico F permite comparar las varianzas entre y dentro de las muestras estudiadas, resolviendo la hipótesis nula del ANOVA. El contraste es unilateral a la derecha puesto que la región de rechazo está compuesta por valores del estadístico F resultantes de que la variabilidad entre medias muestrales es significativamente mayor que la residual. Por otro lado, es interesante preguntarse por la distribución del estadístico de contraste cuando la hipótesis nula no es cierta, principalmente, en el caso de querer calcular la potencia del contraste ANOVA. Con esta finalidad, sean X1 , ..., Xn variables aleatorias independientes con distribuciones N (µi , σ 2 ), i = 1, ..., n, y sea, Y =
n X X2 i
i=1
σ2
.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 322 — #334
i
322
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
En el supuesto de que ∀i : µi = 0, entonces, como vimos, Y ∼ χ2(n . Analicemos el caso en el que los parámetros centrales son no nulos. La función generadora de momentos de Y es, 2 n Y tXi . MY (t) = E exp σ2 i=1
Por tanto, calculemos, 2 Z 2 tXi 1 txi (xi − µi )2 √ E exp = exp dxi , − σ2 σ2 2σ 2 R σ 2π que, haciendo operaciones en la función exponencial, resulta, µi 2 x − 2 i R 1 tµ 1 1 − 2t dx = √ exp − exp 2 i i σ R σ (1 − 2t) 2 σ 2π √ 1 − 2t 2 tµ 1 1 ,t < , exp 2 i =√ σ (1 − 2t) 2 1 − 2t √ al multiplicar y dividir por 1 − 2t la integral, y apreciar que entonces el integrando es la función de densidad de una distribución, µi σ2 N , . 1 − 2t (1 − 2t) En consecuencia, −n 2
MY (t) = (1 − 2t) es decir, Y =
t exp (1 − 2t)
n X X2 i=1
i σ2
∼
χ2(n
Pn
2 i=1 µi ,t σ2
1 < , 2
Pn
2 i=1 µi , σ2
una ji-cuadrado no centrada con n grados de libertad y parámetro de no centralización P n 2 2 i=1 µi /σ . Además, k k X X 2 2 SSB = n (X i. − X .. )2 = n X i. − nkX .. , i=1
i=1
por lo que,
n
k P
2
X i.
i=1 σ2
2
=
SSB knX .. + , σ2 σ2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 323 — #335
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
siendo,
323
σ2 X i ∼ N µi , , n σ2 . X .. ∼ N µ, kn
Tendremos, por tanto, U=
n
Pk
2 i=1 X i. σ2
∼
n
χ2(k
2
knX .. V = ∼ χ2(1 σ2
Pk
2 i=1 µi. σ2
knµ2 . σ2
!
,
2 yX Puede demostrarse, análogamente a lo expuesto en la Proposición 6.1, que SB .. son variables aleatorias independientes, por lo que la función generadora de momentos de SSB/σ 2 es,
" # P n ki=1 (µi − µ)2 MU (t) t − k−1 M SSB (t) = = (1 − 2t) 2 exp , MV (t) (1 − 2t) σ2 σ2 lo que supone que, no siendo cierta la hipótesis nula del ANOVA, 2 (k − 1)SB SSB = ∼ χ2(k−1 σ2 σ2
n
! 2 (µ − µ) i i=1 . σ2
Pk
De aquí que se pueda construir, como en el caso de ser cierta la hipótesis nula del ANOVA, un estadístico F ′ con distribución F no centrada, es decir, ! Pk 2 2 S n (µ − µ) i i=1 F ′ = 2B ∼ F[k−1,k(n−1) . σ2 SW
11.2.2.
Modelo no equilibrado con efectos fijos
Sean ni , i = 1, ..., k, los tamaños de las k muestras independientes, y sea, N=
Xk
i=1
ni .
La identidad de la suma de cuadrados tiene ahora la siguiente forma, ni k X X i=1 j=1
(Xij − X .. )2 =
ni k X k X X (Xij − X i. )2 + ni (Xi. − X .. )2 . i=1 j=1
i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 324 — #336
i
324
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Considerando que, en esta situación, X .. =
Pk
i=1 ni X i. P k i=1 ni
∼N
µ=
Pk
no es dificil deducir que,
ni µi , Pi=1 k i=1 ni
σ2
Pk
i=1 ni
!
,
P E(SSB ′ ) = σ 2 (k − 1) + ki=1 ni (µi − µ)2 , E(SSW ′ ) = σ 2 (N − k), con,
P SSB ′ = ki=1 ni (Xi. − X .. )2 , P P i SSW ′ = ki=1 nj=1 (Xij − X i. )2 .
Análogamente al modelo equilibrado, siendo,
SSB ′ , k − 1′ SSW = , N −k
2 = SB ′ 2 SW ′
se demuestra, siempre que la hipótesis nula sea cierta, que, 2 (k − 1)SB ′ ∼ χ2(k−1 , 2 σ 2 (N − k)SW ′ ∼ χ2(N −k , σ2
de forma que se puede construir el estadístico de contraste, F =
11.2.3.
2 SB ′ ∼ F(k−1,N −k . 2 SW ′
Modelo equilibrado de efectos aleatorios
En esta situación tenemos k muestras, cada una de tamaño n. Adicionalmente, puede pensarse en una muestra de tamaño k, cuyos elementos son las muestras anteriores de tamaño n, seleccionada de un conjunto de niveles, o tratamientos, cuyo cardinal es mayor que k - en realidad se supone que el conjunto de tratamientos es infinito -. Esto implica, al igual que en el muestreo ordinario, que los niveles o tratamientos representados en la muestra de tamaño k no sean necesariamente los mismos de una muestra a otra. Como consecuencia, deberemos considerar que a la muestra que ocupa el lugar iésimo en la muestra de tratamientos de tamaño k, no siempre corresponde el mismo parámetro central. Esto es lo mismo que decir que, en este modelo, estamos considerando
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 325 — #337
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
325
una variable aleatoria con recorrido los parámetros centrales de los tratamientos. Al igual que en el muestreo aleatorio, podemos expresar, Mi = µ + Γi , i = 1, ..., k, obviamente diferente a lo definido en el modelo de efectos fijos, en donde, µi = µ + γi , i = 1, ..., k. Suponiendo, Γi ∼ N (0, σΓ2 ) ⇒ Mi ∼ N (µ, σΓ2 ), i = 1, ..., k, es decir, que la variable aleatoria M se distribuye N (µ, σΓ2 ). En el modelo de efectos fijos, una observación xij , i = 1, ..., k, j = 1, ..., n puede representarse, xij = µi + eij , donde el término eij mide simplemente la diferencia existente entre la observación y el parámetro central de la población a la que pertenece. En consecuencia, en el modelo de efectos fijos, Xij = µi + Eij = µ + γi + Eij ⇒ Eij ∼ N (0, σ 2 ). De aquí que en el modelo de efectos aleatorios tengamos, Xij = µ + Γi + Eij ⇒ Xij ∼ N (µ, σΓ2 + σ 2 ), suponiéndose que las variables Γi y Eij son independientes. Sin embargo, notemos que así definido, el modelo de efectos aleatorios implica que las variables Xij y Xij ′ no sean independientes. En efecto, cov(Xij , Xij ′ ) = cov(µ + Γi + Eij , µ + Γi + Eij ′ ) = = E(Γ2i ) + E(Γi Eij ′ ) + E(Eij Γi ) + E(Eij Eij ′ ) = σΓ2 . Es fácil deducir, entonces,
σ2 X i. = µ + Γi + E i. ∼ N + , n 2 2 σ σ X .. = µ + Γ. + E .. ∼ N µ, Γ + . k kn µ, σΓ2
En este modelo, el contraste de hipótesis que se plantea es, H0 : σΓ2 = 0, H1 : σΓ2 6= 0,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 326 — #338
i
326
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
de forma que si H0 es cierta, los niveles o tratamientos se reducen a uno con esperanza µ. No obstante haber cambiado los supuestos del análisis, la estructura de los datos permite pensar en la igualdad de la suma de cuadrados como procedimiento para resolver el contraste planteado. En efecto, puede comprobarse sin dificultad que, SSB = n
k X i=1
(X i. − X .. )2 ⇒ E(SSB) = (k − 1)(σ 2 + nσΓ2 ),
y, SSW =
k X n X i=1 j=1
(Xij − X i. )2 ⇒ E(SSW ) = k(n − 1)σ 2 .
Siendo H0 : σΓ2 = 0 cierta, de manera análoga al modelo de efectos fijos, se tiene, 2 y S2 , con las mismas definiciones de SB W 2 (k − 1)SB SSB = ∼ χ2(k−1 , 2 σ 2 σ2 k(n − 1)SW SSW = ∼ χ2[k(n−1) , 2 σ σ2
y se puede construir el estadístico, F =
2 SB 2 ∼ F[k−1,k(n−1) , SW
es decir, el mismo que el correspondiente a efectos fijos.
11.2.4.
Comparaciones a posteriori
Cuando se rechaza la hipótesis nula de un ANOVA se sabe, con cierta confianza, que las muestras analizadas proceden de más de una población. Veremos ahora cómo puede resolverse la cuestión que concierne al número exacto de poblaciones existentes. Contrastes ortogonales Definición 11.1 Sea {µ1 , ..., µk } un conjunto de parámetros centrales. Cualquier función lineal de la forma, Xk
i=1
ai µi ,
Xk
i=1
ai = 0, ai ∈ R,
se denomina contraste de los parámetros centrales.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 327 — #339
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
327
Por ejemplo, a1 = 1, a2 = −1, a3 = 0, ..., ak = 0, es el contraste µ1 − µ2 . Supongamos nos interesa un específico contraste de parámetros centrales definido por las constantes (a1 , ..., ak ). Deseamos resolver, ( P H0 : ki=1 ai µi = 0, P H1 : ki=1 ai µi 6= 0. Dados los supuestos del ANOVA no equilibrado, k X i=1
k X
ai X i. ∼ N
ai µi , σ
2
i=1
k X a2 i
i=1
ni
!
,
de forma que si H0 es cierta, k X i=1
y, por tanto,
ai X i. ∼ N P σ
Pk 2
i=1
i=1
i
a2i ni
ni
2
∼ χ2(1 ,
2
⇒
a2i ni
i=1 ai X i.
Pk
k X a2 i=1
k i=1 ai X i.
al ser el cuadrado de una N (0, 1). Al definir, P k SSC =
0, σ
2
!
,
SSC ∼ χ2(1 , σ2
denominándose SSC la suma de cuadrados del contraste de parámetros. Se puede construir entonces el estadístico, F =
SSC ∼ F(1,N −k , 2 SW
puesto que, 2 (N − k)SW ∼ χ2(N −k , σ2 2 la varianza dentro. Este estadístico permite resoles independiente de SSC, siendo SW ver, k X H0 : ai µi = 0, i=1
con región crítica en la cola derecha de la distribución F(1,N −k .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 328 — #340
i
328
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Definición 11.2 Dados dos contrastes de parámetros centrales, Pk P ai µi , ki=1 ai = 0, i=1 Pk Pk i=1 bi µi , i=1 bi = 0,
diremos que son ortogonales cuando se verifica, Xk
ai bi = 0, ni
Xk
ai bi = 0.
i=1
o, en particular, si el modelo es equilibrado, i=1
Teorema 11.1 Sean (a1 , ..., ak ) y (b1 , ..., bk ) dos contrastes ortogonales. Se verifica que los estimadores, Xk Xk ai X i. , , bi X i. i=1
i=1
son independientes.
Prueba . Hallaremos la covarianza de los estimadores. P Pk k X , b X cov a i=1 i i. = i=1 i i. hP i P k k =E a (X − µ ) b (X − µ ) = i. i l. l i=1 i l=1 l hP i P P k 2+ a b (X =E − µ ) a b (X − µ )(X − µ ) i. i i. i l. l . i=1 i i i l6=i i i
Al ser las variables aleatorias X i. independientes, ! k k k k X X X X ai bi cov ai X i. , bi X i. = ai bi E(X i. − µi )2 = σ 2 , ni i=1
i=1
i=1
i=1
y como los contrastes son ortogonales, cov
k X i=1
ai X i. ,
k X i=1
bi X i.
!
= 0.
Recordemos, por último, que los estimadores se distribuyen normalmente por lo que covarianza nula supone independencia. Dada una situación experimental concreta con k muestras de distintos tamaños, siempre es posible construir k − 1 contrastes de parámetros ortogonales. La definición de cada uno de estos contrastes depende de una situación a otra y, particularmente, del
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 329 — #341
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
329
conocimiento que el investigador tiene del problema que analiza, como veremos en el siguiente ejemplo. Puesto que la suma de cuadrados SSCi , i = 1, ..., k − 1 de cada contraste, dividida por σ 2 , suponiendo que la hipótesis nula es verdadera, se distribuye como una χ2(1 , y los contrastes son ortogonales, el anterior teorema permite concluir que la suma, k−1 1 X SSCi ∼ χ2(k−1 . σ2 i=1
Además, en un modelo ANOVA de un factor, la suma de cuadrados entre siempre puede descomponerse de la siguiente forma, Pk (X − X )2 = 2i=1 i. P.. 2 P k k a X X a i=1 (k−1)i i. i=1 1i i. + ... + = = 2 2 Pk a1i Pk a(k−1)i i=1 i=1 ni ni Pk−1 = i=1 SSCi , n
con la condición de que, k X i=1
ari = 0,
k X ari aqi i=1
ni
= 0, ∀r 6= q; r, q = 1, ..., k − 1, a ∈ R.
En otras palabras, dicha suma de cuadrados está formada por k − 1 sumandos que son contrastes ortogonales. Evidentemente, si dividimos la anterior expresión por σ 2 , tenemos que una variable aleatoria con distribución χ2(k−1 es la suma de k − 1 variables aleatorias, cada una con distribución χ2(1 . En resumen, es posible hacer una partición de la variación entre de forma que, cada una de las k −1 clases, es un contraste ortogonal. Como muestra el siguiente ejemplo, de este modo es posible deducir el número de poblaciones existentes en un modelo ANOVA, una vez se ha rechazado la hipótesis nula de dicho modelo. Los cálculos de este ejemplo, así como los de los restantes ejemplos propuestos tanto en técnicas del análisis de datos como en inferencia estadística, han sido resueltos con varios programas estadísticos, cuya utilización dependió de su disponibilidad y el sistema operativo usado en el momento de la redacción del libro. En el mercado existen muchos de estos programas, cuya calidad es diversa. Nosotros hemos empleado SPSS y Statgraphics cuando el sistema operativo era Windows XP Professional SP2, y S-Plus y Stata al trabajar en Linux (SuSe Linux Enterprise Desktop 10), referencias de los cuales pueden verse en la Bibliografía.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 330 — #342
i
330
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Ejemplo 11.1 Se han probado 4 fármacos en enfermos afectados por una determinada infección bacteriana. Cada fármaco se asignó a un grupo de 6 enfermos, registrándose el tiempo en horas de descenso notable de la fiebre. Los resultados fueron los siguientes, f1 2.1 3.1 3.6 2.5 3.5 3
f2 3.6 3.8 4.8 5 4.8 5.2
f3 5.4 5.6 6.2 6.3 5.6 6.6
f4 4.7 4.9 4 3.9 4 5.5
Analizaremos en primer lugar si, con nivel de significación α = 0.05, existen diferencias significativas entre los 4 fármacos. El modelo ANOVA es de efectos fijos y equilibrado, de forma que, entendiendo que se cumplen los supuestos propios del modelo, los resultados del análisis suelen presentarse del siguiente modo, F.Variación Efecto Error Total
S.Cuadrados 26.7246 7.10167 33.82627
G.libertad 3 20 23
E.Varianza 8.90819 0.355083
Estadístico f = 25.09
donde la primera columna corresponde a la fuente de variación, la segunda a la suma de cuadrados, la tercera a los grados de libertad, la cuarta a las estimaciones de la varianza σ 2 , y la última columna es el valor del estadístico con distribución F(3,20 . En esta distribución resulta que f(3,20;0.05 = 3.1, por lo que, efectivamente, existen diferencias entre las eficacias de los cuatro fármacos, con confianza 95 %. El análisis ulterior que puede hacerse se relaciona con el número exacto de fármacos con distinta efectividad. Las posibilidades de análisis son variadas, si bien el conocimiento cuidadoso de la situación experimental es lo más recomendable. Por ejemplo, habiendo estudiado la literatura existente sobre el problema, se puede sospechar que los fármacos f2 y f4 tienen efectos similares. El correspondiente contraste de parámetros es, H01 : µ2 − µ4 = 0,
lo que significa que las constantes del contraste son (0, 1, 0, −1). La suma de cuadrados correspondiente, llamémosla SSc1 , es 0.00333 y no produce diferencias significativas al 5 %. Por tanto, los fármacos f2 y f4 , como se sospechaba, son de igual eficacia. Esta conclusión implica que como máximo hay tres fármacos diferentes. Interesa ahora analizar las otras dos medias, µ1 y µ3 . El contraste que plantea si µ3 es diferente de µ2,4 — la media de los fármacos 2 y 4 —, siendo ortogonal con el anterior, es,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 331 — #343
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
331
1 1 H02 : − µ2 + µ3 − µ4 = 0, 2 2 con constantes (0, −0.5, 1, −0.5) . La suma de cuadrados SSc2 de este contraste es 8.217796, significativa al 5 %. Tenemos, por consiguiente, al menos dos fármacos, y µ3 es mayor que µ2,4 , como puede comprobarse observando las media muestrales. El último contraste que podemos construir, siendo ortogonal con los dos anteriores, se define, 1 1 1 H03 : µ1 − µ2 − µ3 − µ4 = 0, 3 3 3 de constantes (1, −1/3, −1/3, −1/3) , con suma de cuadrados SSc3 = 18.5035, significativa al 5 %. La efectividad del fármaco f1 es diferente y menor - véanse las medias muestrales - de la efectividad de f2,4,3 . Puesto que µ3 es mayor que µ2,4 , concluimos que µ1 difiere de µ3 , pero no podemos saber, con este conjunto de contrastes ortogonales, si µ1 es diferente de µ2,4 . Es obvio que, con el siguiente conjunto de contrastes ortogonales, ′ H01 : µ2 − µ4 = 0, ′ 1 1 H02 : µ1 − µ2 − µ4 = 0, 2 2 H ′ : − 1 µ − 1 µ + µ − 1 µ = 0, 1 2 3 4 03 3 3 3
podremos averiguar si µ1 es diferente de µ2,4 aunque, ahora, quedaría sin resolver si µ3 es diferente de µ2,4 . En resumen, para concluir que µ1 < µ2,4 < µ3 , son necesarios dos conjuntos de contrastes ortogonales. Desigualdad de Boole (Bonferroni) En la sección anterior se ha hecho necesaria la construcción de varias hipótesis nulas con objeto de tratarlas simultáneamente y obtener una conclusión conjunta. Si cada hipótesis se elabora con un nivel de significación α, podemos preguntarnos por el nivel de significación de la conclusión conjunta. Teorema 11.2 (Desigualdad de Boole) Siendo P una función de probabilidad, se verifica, ! ∞ ∞ [ X Ai ≤ P P (Ai ). i=1
i=1
Prueba . Sea el conjunto de sucesos B1 , B2 , ... definidos, B1 = A1 , Bi = Ai \
[i−1
j=1
Aj , i = 2, 3, ...
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 332 — #344
i
332
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Entonces,
∞ [
Bi =
i=1
∞ [
Ai ,
i=1
Los sucesos Bi son disjuntos pues, n S c o n S c o i−1 k−1 Bi ∩ Bk = Ai ∩ Aj ∩ Ak ∩ Aj = T j=1o n T j=1 o n k−1 c i−1 c ∩ Ak ∩ , = Ai ∩ j=1 Aj j=1 Aj
y si es i > k, entonces el primer suceso de la anterior intersección contiene a Ack , es decir, que la anterior intersección es vacía; si, por el contrario, i < k, el mismo argumento de aplica al segundo suceso de la intersección. Por tanto, ! ! ∞ ∞ ∞ [ [ X P Ai = P Bi = P (Bi ). i=1
i=1
i=1
Está claro que, por construcción, Bi ⊂ Ai ⇒ P (Bi ) ≤ P (Ai ), y así, ∞ X i=1
P (Bi ) ≤
∞ X
P (Ai ).
i=1
Al aplicar la desigualdad de Boole a una colección de complementos de n sucesos, ! n n X [ c P (Aci ), P Ai ≤ i=1
i=1
es decir, P
n T
≤ y de aquí, P
"
Ai
i=1 n P
i=1
n \
i=1
c
=1−P
P (Aci ) = n −
Ai
!#
≥
n X i=1
n P
n T
i=1
Ai
≤
P (Ai ),
i=1
P (Ai ) − (n − 1),
que se conoce con el nombre de desigualdad de Bonferroni y genera una cota inferior para la probabilidad del suceso intersección de varios sucesos.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 333 — #345
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
333
En consecuencia, si deseamos que la confianza de una conclusión conjunta, resultado de k conclusiones parciales, sea al menos 1 − α, llamando τ a la confianza de cada uno de k contrastes, tendremos, 1−α=
k X i=1
τ − (k − 1) ⇒ τ = 1 −
α . k
Comparaciones múltiples 1. Procedimiento de Scheffé. Este procedimiento, también llamado método S, permite comprobar simultáneamente la significación de varios contrastes. Es decir, permite calcular un nivel de confianza aplicable a todos los contrastes construidos y, por tanto, no se precisa sumar los niveles de significación de cada contraste para saber el nivel de significación de la conclusión conjunta. El método exige calcular el máximo de una forma cuadrática sujeta a una restricción. Dicho cálculo se ofrece en el siguiente lema, cuya demostración puede consultarse en el apéndice. Lema 11.1 Sea (x1 , ..., xk ) un conjunto de variables y (n1 , ..., nk ) un conjunto de constantes positivas. Siendo, Xk A = a = (a1 , ..., ak ) : ai = 0 , i=1
se verifica,
m´ax a∈A
con,
2 Pk i=1 ai xi
=
k X
a2i i=1 i=1 ni Pk ni xi x = Pi=1 . k i=1 ni
Pk
ni (xi − x)2 ,
El máximo se alcanza en cualquier a de la forma ai = kni (xi − x), k 6= 0. Recordemos ahora que bajo los supuestos del ANOVA, σ2 X i. ∼ N µi , ⇒ ni Pk Pk Pk a2i 2 ⇒ i=1 ai X i. ∼ N ⇒ i=1 ai µi , σ i=1 ni Pk P X i. − ki=1 ai µi i=1 ais ⇒ ∼ N (0, 1). Pk a2i σ i=1 ni
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 334 — #346
i
334
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Puesto que desconocemos σ, lo reemplazamos por el estimador, Pni Pk 2 2 j=1 (Xij − X i. ) 2 2 i=1 (ni − 1)Si , Si = . Sp = N −k ni − 1 2 del modelo no equilibrado de ANOVA. Observemos que Sp2 es SW
Además, (N − k)Sp2 (ni − 1)Si2 2 ∼ χ ⇒ ∼ χ2(N −k , (n −1 i σ2 σ2 al ser Si2 independientes. Por otro lado, Sp2 es independiente de cada X i. , por lo que podemos construir el estadístico, P Pk X i. − ki=1 ai µi i=1 ais Ta = ∼ t(N −k . Pk a2i Sp i=1 ni Es fácil ver entonces que, k X i=1
ai µi = 0 ⇒ Ta2 ∼ F(1,N −k ,
el estadístico con distribución F que permite resolver un contraste específico de parámetros centrales. Llamando Ui = X i. − µi , tenemos, P Ta2 =
Sp2
k i=1 ai Ui
Pk
i=1
2
a2i ni
,
y es evidente que maximizar Ta es equivalente a maximizar Ta2 . Teorema 11.3 Siendo Ta el estadístico definido anteriormente, Pk ni (Ui − U )2 2 sup Ta = i=1 = P Sp2 a: ki=1 ai =0 2 1 P = 2 ki=1 (X i. − X .. ) − (µi − µ) , Sp donde, ahora,
X .. =
Pk
i=1 ni X i. ,U P k i=1 ni
=
Pk
n i Ui ,µ Pi=1 k i=1 ni
Pk
i=1 = P k
ni µi.
i=1 ni
.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 335 — #347
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
335
Además, sup
P a: ki=1 ai =0
Ta2 ∼ (k − 1)F(k−1,N −k .
Prueba . Probar la expresión del supremo es consecuencia del Lema 11.1, teniendo en cuenta que Sp2 es irrelevante en la maximización. Para probar la distribución del supremo, vemos en primer lugar que numerador y denominador son independientes, dados los supuestos del ANOVA, así como que, σ2 χ2 . Sp2 ∼ N − k (N −k Además, teniendo en cuenta su definición, está claro que, Ui ∼ N
σ2 0, , ni
y son independientes. En consecuencia, es fácil ver que, k X i=1
ni (Ui − U )2 ∼ σ 2 χ2(k−1 .
En conclusión, al dividir por sus grados de libertad estas dos variables independientes distribuidas como ji-cuadrados, obtenemos la distribución enunciada en el teorema. El procedimiento de Scheffé se basa en el siguiente teorema. Teorema 11.4 Suponiendo se cumplen los supuestos del ANOVA, se verifica simultáneamente, (
∀a ∈ A = a = (a1 , ..., ak ) : que,
k X
)
ai = 0 ,
i=1
v u k k k X 2 u X X ai P ai X i. − ai µi ≤ Sf tSp2 = 1 − α, ni i=1
i=1
i=1
q cuando Sf = (k − 1)F(k−1,N −k;α .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 336 — #348
i
336
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Prueba . Considerando la definición de Ta2 anteriormente expuesta, existe ∀a ∈ A, P (Ta2 ≤ Sf2 ) = 1 − α. Como esta probabilidad debe ser cierta para todos los a, en particular, ! 1−α=P
de forma que, eligiendo,
sup
P a: ki=1 ai =0
Ta2 ≤ Sf2 ,
Sf2 = (k − 1)F(k−1,N −k;α , se verifica la probabilidad del enunciado.
2. Comparaciones por Parejas. Con este tipo de procedimiento, poner de manifiesto dos o más poblaciones, se basa en la comparación dos a dos de las medias muestrales. Un método se debe a Tukey, a veces llamado método Q, basado en la distribución de la variable, (X i. − X j. ) − (µi − µj ) , ∀i : ni = n. r Q = m´ax i,j 1 1 + S p n n
Si en vez de considerar el mismo tamaño muestral, se tiene ni 6= nj , reemplazaremos n en la anterior expresión por la media armónica nh , 1 1 1 1 = + , nh 2 ni nj véase [24].
Dos medias son diferentes, según este método, cuando el anterior cociente, supuesto µi = µj , es mayor que el punto crítico que separa las regiones significativa y no significativa de la variable Q. Análogamente al procedimiento de Scheffé, si el citado punto crítico se calcula con nivel de significación α, la conclusión conjunta tiene este nivel de significación. Otro método de comparaciones de medias dos a dos se denomina LSD (least significant difference) y se basa en, (X i. − X j. ) r > t(N −k; α . 2 1 1 S p n +n i j
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 337 — #349
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
337
Como se observa, cada contraste se hace con nivel de significación α, por lo que la conclusión conjunta tendrá un nivel de significación αk(k − 1)/2.
11.2.5.
Resolución del ANOVA mediante contrastes de parámetros
La hipótesis nula del ANOVA de un factor puede resolverse mediante contrastes de parámetros centrales. Como veremos, gran parte del procedimiento en el que se basa esta nueva vía de resolución ha sido expuesto con anterioridad en este capítulo. Teorema 11.5 Sea µ = (µ1 , ..., µk ) un vector de parámetros centrales. Se verifica, Xk µ1 = ... = µk = µ ⇔ ai µi = 0, ∀a ∈ A, i=1
siendo A el conjunto de constantes que satisface, Xk A = a = (a1 , ..., ak ) :
i=1
ai = 0 .
Prueba . Con,
µ1 = ... = µk = µ ⇒
Xk
i=1
ai µi = µ
Para probar la otra implicación, sean,
Xk
i=1
ai = 0.
a1 = (1, −1, 0, ..., 0), a2 = (0, 1, −1, 0, ..., 0), .. . ak−1 = (0, ..., 0, 1, −1). Es fácil comprobar que cualquier a ∈ A puede escribirse como combinación lineal de (a1 , a2 , ..., ak−1 ). Por otro lado, a1 ⇒ µ1 = µ2 , a2 ⇒ µ2 = µ3 , ..., ak−1 ⇒ µk−1 = µk , lo que conjuntamente implica que µ1 = µ2 = ... = µk = µ.
Está claro entonces que el contraste de hipótesis de un ANOVA puede expresarse como un contraste de parámetros centrales, ( P P H0 : ki=1 ai µi = 0, ∀(a1 , ..., ak ) : ki=1 ai = 0, P P H1 : ki=1 ai µi 6= 0, ∃(a1 , ..., ak ) : ki=1 ai = 0. Si para cada a definimos, ( Ma =
µ = (µ1 , ..., µk ) :
k X i=1
)
ai µi = 0 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 338 — #350
i
338
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
tenemos, considerando el Teorema 11.5, µ ∈ {µ : µ1 = ... = µk = µ} ⇔ µ ∈ Ma , ∀a ∈ A, lo que también se expresa como, µ∈
\
Ma .
a∈A
Es decir, el contraste de hipótesis de un ANOVA de un factor puede expresarse como una intersección de hipótesis nulas, T Ma , H0 : µ ∈ a∈A T Ma . H1 : µ 6∈ a∈A
El estadístico Ta construido anteriormente permite resolver, dado un específico a, el siguiente contraste, H0a : µ ∈ Ma , H1a : µ 6∈ Ma ,
y así, la región de rechazo de la hipótesis nula está definida por |Ta | > k, siendo k una constante. Recordemos que en la intersección de un conjunto de hipótesis nulas, la región de rechazo está constituida por la unión de las regiones de rechazo de cada contraste individual. Dado que estas regiones de rechazo individuales son de la forma |Ta | > k, su unión tiene la forma |supa Ta | > k. En efecto, si el supremo no es mayor que k, entonces no existe un Ta que lo sea. Además, si al menos un Ta es mayor que k, entonces el supremo también lo es. Por tanto , resolver la hipótesis nula de un ANOVA supone considerar supa Ta . El Teorema 11.3 indica la forma de este supremo y su distribución, por lo que, suponiendo cierta H0 , rechazamos H0 si, Pk 2 i=1 ni (X i. − X .. ) > F(k−1,N −k;α . (k − 1)Sp2
11.3 ANOVA DE DOS FACTORES Existen situaciones experimentales en las que sobre la variable respuesta X actúan dos factores. Por ejemplo, el modo de enseñar - mediante exposición oral, computador, televisión, etc. - y el tamaño de la clase pueden influir en la nota de examen de los estudiantes. El ANOVA resultante se denomina de dos factores, vías o clasificaciones.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 339 — #351
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
339
Consideraremos el modelo con n replicaciones, es decir, las muestras independientes extraídas de poblaciones normales con igual varianza, tienen todas tamaño n > 1. Que el tamaño muestral deba ser estrictamente mayor que uno tiene que ver con los grados de libertad de una de las distribuciones implicadas, como más adelante se verá. Supondremos que uno de los factores, Va , tiene a niveles o tratamientos, y el otro, Vb , tendrá b niveles. En consecuencia, habrá ab muestras aleatorias independientes, cada una de tamaño n, y por tanto, nab observaciones o puntos muestrales. Los datos pueden organizarse como en la siguiente tabla,
Va
1 .. . a
Vb ... ...
1 (x111 , ..., x11n ) .. . (xa11 , ..., xa1n ) x.1..
... ... ...
b (x1b1 , ..., x1bn ) .. .
x1.. .. .
(xab1 , ..., xabn ) x.b.
xa.. x...
siendo xijk la k-ésima observación de la muestra ij, i = 1, ..., a; j = 1, ..., b, y, xij. = xi.. = x.j. = x... =
Pn
k=1 xijk
Pb
n
j=1 xij.
Pa b
i=1 xij.
Pa a
i=1 xi..
a
,
, , .
El modelo supone, Xijk ∼ N (µij , σ 2 ), y, µij = µ + τi + υj , con, 1 Pa Pb µ= µij , ab i=1 j=1 Pa Pb i=1 τi = j=1 υj = 0,
análogamente al ANOVA de un factor. Sin embargo, ahora debe apreciarse que cada factor tiene un efecto, τi para Va y υj para Vb , que actuando conjuntamente generan como resultado la suma de los efectos individuales. De aquí que el modelo así planteado se denomine aditivo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 340 — #352
i
340
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Observemos que, dado un modelo aditivo, Pb j=1 µij = µi. = µ + τi ⇒ τi = µi. − µ, Pa b j=1 µij = µ.j = µ + υj ⇒ υj = µ.j − µ. a Considerando estos resultados, µij = µi. + µ.j − µ =
τi + µ.j ⇒ µij − µ.j = τi , υj + µi. ⇒ µij − µi. = υj .
En resumen, τi = µi. − µ = µij − µ.j , υj = µ.j − µ = µij − µi. , es decir, que efecto en este modelo significa desviación, respecto de una media, tanto de las medias marginales de los niveles de un factor (µi. o µ.j respecto de µ), como de medias de celdas en un nivel de un factor (µij respecto de µi. o de µ.j ). En consecuencia, la hipótesis nula de un ANOVA de dos factores, H0 : µij = µ, ∀i = 1, ..., a; ∀j = 1, ..., b, es equivalente a, H0Va : τi = 0, ∀i = 1, ..., a, H0Vb : υj = 0, ∀j = 1, ..., b,
observándose que se analizan separadamente el efecto fila (factor Va ) y el efecto columna (factor Vb ). Un modelo aditivo supone además que las diferencias entre medias µij de dos niveles cualesquiera de un factor, por todos los niveles del otro factor, permanecen constantes. Es decir, sean por ejemplo los niveles b1 y b4 del factor Vb , entonces, µib1 − µib4 = µ + τi + υb1 − (µ + τi + υb4 ) = υb1 − υb4 , ∀i = 1, ..., a. El modelo ANOVA de dos factores así definido es un modelo que no siempre explica correctamente la situación experimental estudiada. Por ejemplo, supongamos que se toman los siguientes datos, a1 a2 a3
b1 4.4 7.5 9.7 7.2
b2 8.8 8.5 7.9 8.4
b3 5.2 2.4 0.8 2.8
6.13 6.13 6.13
donde en cada celda de la tabla, el valor corresponde a una media muestral xij. Dado que dichos valores son las estimaciones puntuales de los correspondientes parámetros
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 341 — #353
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
341
centrales, puede sospecharse que el conjunto de datos de esta situación experimental no sigue la pauta de un modelo aditivo. En efecto, si observamos los niveles b1 y b3 , las diferencias entre las medias muestrales, -0.8,5.1 y 8.9, lejos de permanecer constantes, aumentan considerablemente. En estos casos se habla de modelos ANOVA de dos factores no aditivos, o modelos con interacción. Un modelo no aditivo se define de la siguiente manera, µij = µ + τi + υj + γij , con, Xa
i=1
γij =
Xb
j=1
γij = 0,
donde el nuevo término γij se llama interacción de los niveles i y j. La consecuencia inmediata es que el efecto conjunto de dos niveles de dos factores no es la simple suma de efectos individuales. Puede decirse que en un modelo no aditivo, la interacción de los niveles correspondientes a dos factores genera una respuesta incomprensible. Así, por ejemplo, en una situación experimental como la anterior, observamos que el nivel óptimo del factor Vb es b2 - entendiendo que, en este caso, ser óptimo significa tener la mayor media - Dado que los niveles del factor Va son igualmente óptimos, deberíamos obtener la mayor media del experimento entre las medias del nivel b2 , en el supuesto de seguir la pauta de un modelo aditivo. Es evidente que no es el caso. Por otra parte, supongamos que hacemos caso omiso de la interacción y contrastamos, H0Va : τi = 0, es decir, no existen diferencias significativas entre los niveles ai , i = 1, 2, 3, de la anterior experiencia. Como vamos a ver inmediatamente en la siguiente sección, el estadístico que permite resolver el contraste planteado está definido mediante las medias marginales de las filas, xi.. , que en este caso son todas iguales a 6.13. Parece obvio entonces que H0Va no se rechazaría. Sin embargo, notemos que se pueden observar diferencias importantes entre las medias muestrales en el nivel b3 del factor Vb . Se habla así de que la interacción entre factores enmascara el efecto individual de dichos factores. De aquí que, supuesto que el modelo no sea aditivo, no parezca razonable analizar ni H0Va , ni H0Vb , caso de que alguna de estas hipótesis sea aceptada. De hecho, es práctica frecuente entre la mayor parte de los expertos, no proseguir el análisis de un ANOVA de dos factores cuando se demuestra interacción y se ha aceptado alguna de las hipótesis nulas correspondientes a los efectos individuales.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 342 — #354
i
342
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
11.3.1.
Estadísticos de contraste y distribuciones
Está claro que, a partir de la anterior discusión, la secuencia de hipótesis nulas a contrastar es, H0Vab : γij = 0, ∀i, j, i = 1, ..., a; j = 1, ..., b, H0Va : τi = 0, ∀i = 1, ..., a, H0Vb : υj = 0, ∀j = 1, ..., b.
Si se acepta la primera hipótesis nula, se contrastarán las dos siguientes. Si se rechaza H0Vab , habremos concluido que al menos dos medias µij son diferentes dada la definición del modelo con interacción. Por último, si se rechaza H0Vab y se acepta alguna de las otras dos hipótesis nulas, se continúa el análisis de la hipótesis nula H0Vr , r = a, b rechazada. El procedimiento para contrastar las anteriores hipótesis nulas es similar al seguido en el ANOVA de un factor. La variación total habida en el muestreo puede descomponerse de la siguiente manera, Pa Pb Pn 2 i=1 j=1 k=1 (Xijk − X ... ) = Pa Pb Pn k=1 [(Xijk − X ij. ) + (X i.. − X ... )+ j=1 i=1 +(X .j. − X ... ) + (X ij. − X i.. − X .j. + X ... )]2 = P P P P = ai=1 bj=1 nk=1 (Xijk − X ij. )2 + nb ai=1 (Xi.. − X ... )2 + P P P +na bj=1 (X.j. − X ... )2 + n ai=1 bj=1 (X ij. − X i.. − X .j. + X ... )2 ,
ya que los seis productos dobles son iguales a cero. Podemos escribir, por tanto, SST = SSW + SSVa + SSVb + SSVab , con,
Pb Pn 2 i=1 j=1 k=1 (Xijk − X ... ) , Pa Pb Pn SSW = i=1 j=1 k=1 (Xijk − X ij. )2 , P SSVa = nb ai=1 (Xi.. − X ... )2 , P SSVb = na bj=1 (X.j. − X ... )2 , P P SSVab = n ai=1 bj=1 (X ij. − X i.. − X .j. + X ... )2 , SST =
Pa
denominadas suma de cuadrados total, dentro, del factor Va , del factor Vb y de la interacción, respectivamente. No resulta difícil demostrar lo siguiente, E(SSW ) = ab(n − 1)σ 2 , P E(SSVa ) = (a − 1)σ 2 + nb ai=1 τi2 , P E(SSVb ) = (b − 1)σ 2 + na bj=1 υj2 , P P 2, E(SSVab ) = (a − 1)(b − 1)σ 2 + n ai=1 bj=1 γij
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 343 — #355
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
343
y, mediante un procedimiento análogo al ANOVA de un factor, siendo, SSW , ab(n − 1) SSVa SV2a = , a−1 SSVb , SV2b = b−1 SSVab , SV2ab = (a − 1)(b − 1) 2 = SW
construir los estadísticos, suponiendo ciertas las hipótesis nulas, FVab = FVa FVb
SV2ab
2 ∼ F[(a−1)(b−1),ab(n−1) , SW S2 = V2a ∼ F[a−1,ab(n−1) , SW SV2 = 2b ∼ F[b−1,ab(n−1) , SW
que contrastan, respectivamente, H0Vab , H0Va y H0Vb .
11.3.2.
Caso con tamaño muestral uno
Existen circunstancias experimentales, que se ajustan al modelo ANOVA de dos factores, en las que las muestras contienen una sola observación. En dichas circunstancias, resolver el modelo ANOVA supone considerarlo aditivo. Así, definido el modelo, µij = µ + τi + υj , con, a X i=1
τi =
b X
υj = 0,
j=1
como anteriormente, las hipótesis a contrastar son, H0Va : τi = 0, ∀i = 1, ..., a, H0Vb : υj = 0, ∀j = 1, ..., b. Dado que, X ∼ N (µij , σ 2 ), Pbij σ2 j=1 Xij X i. = ∼ N µi. , , b Pa b Xij σ2 X .j = i=1 ∼ N µ.j , , a a Pa P b σ2 i=1 j=1 Xij X .. = ∼ N µ, , ab ab
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 344 — #356
i
344
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
tenemos, P P SST = ai=1 bj=1 (Xij − X .. )2 = P P = ai=1 bj=1 [(Xij − X i. − X .j + X .. ) + (X i. − X .. ) + (X .j − X .. )]2 = P P = ai=1 bj=1 (Xij − X i. − X .j + X .. )2 + P P +b ai=1 (X i. − X .. )2 + a bj=1 (X .j − X .. )2 = = SSW + SSVa + SSVb , puesto que los tres productos dobles son cero. De esta partición de la variación total, llama la atención la forma de SSW si bien podemos escribir,
=
i=1
Pa
Pb
− X i. − X .j + X .. )2 = 2 j=1 [(Xij − (X i. − X .. ) − (X .j − X .. ) − X .. )] ,
SSW = Pa Pb
i=1
j=1 (Xij
y notar la similitud de esta última expresión con, Xij − µij = Xij − τi − υj − µ. No es dificil ver que,
de forma que con,
E(SSW ) = σ 2 (a − 1)(b − 1), P E(SSVa ) = σ 2 (a − 1) + b ai=1 τi2 , P E(SSVb ) = σ 2 (b − 1) + a bj=1 υj2 , SSW , (a − 1)(b − 1) SSVa SV2a = , a−1 SSVb , SV2b = b−1
2 = SW
se pueden construir los estadísticos, caso de ser ciertas las hipótesis nulas, FVa = FVb =
SV2a 2 ∼ F[a−1,(a−1)(b−1) , SW SV2b 2 SW
∼ F[b−1,(a−1)(b−1) ,
que contrastan H0Va y H0Vb .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 345 — #357
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
345
11.4 INTRODUCCIÓN AL ANOVA MULTIFACTORIAL La generalización a modelos con más de dos factores no es difícil conceptualmente. Al igual que en el modelo ANOVA de dos factores, es importante secuenciar los contrastes. Así, analizaremos en primer lugar la interacción entre los tres factores observando si el valor del estadístico FVabc es significativo. Caso de no serlo, procederíamos a examinar las interacciones dos a dos de los factores, aplicando la lógica estudiada en la sección anterior. La siguiente tabla recoge, en el caso de considerar tres factores, el primero con a niveles, el segundo con b niveles y el tercero con c niveles, suponiendo que cada una de las muestras abc tiene n observaciones, las distribuciones de los estadísticos de contraste. SS
Grados Libertad
SSVabc
t = (a − 1)(b − 1)(c − 1)
SSVab
d1 = (a − 1)(b − 1)
SSVac
d2 = (a − 1)(c − 1)
SSVbc
d3 = (b − 1)(c − 1)
SSVa
u1 = a − 1
SSVb
u2 = b − 1
SSVc
u3 = c − 1
SSW
w = abc(n − 1)
SST
abcn − 1
Estimador SSVabc = t SSVab 2 SVab = d1 SSV ac SV2ac = d2 SSVbc SV2bc = d3 SSVa 2 S Va = u1 SSVb 2 SVabc = u2 SSVc 2 SVabc = u3 SSW 2 SVabc = w
SV2abc
Estad´ıstico SV2abc FVabc = ∼ F(t,e 2 SW 2 SV FVab = 2ab ∼ F(d1 ,e SW SV2ac FVac = 2 ∼ F(d2 ,e SW SV2bc FVbc = 2 ∼ F(d3 ,e SW SV2a FVa = 2 ∼ F(u1 ,e SW SV2b FVb = 2 ∼ F(u2 ,e SW SV2c FVc = 2 ∼ F(u3 ,e SW
Los modelos con cuatro o más factores se resuelven de igual modo. El lector interesado puede consultar [11].
APÉNDICE Distribución de SSB y SSW Tenemos,
=
k P
i=1
k P
i=1
(X i. − µi )2 =
(X i. − X ..
)2
+
k P
i=1
k P
i=1
(X i. − X .. + X .. − µi )2 =
(X .. − µi )2 + 2
k P
i=1
(X i. − X .. )(X .. − µi ),
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 346 — #358
i
346
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
que, suponiendo que la hipótesis nula es cierta, queda, k X i=1
2
(X i. − µi ) =
k X i=1
(X i. − X .. )2 + k(X .. − µ)2 .
Por tanto, k X
2
X i. − µi = σ √ i=1 n
n
k P
i=1
(X i. − X .. )2 σ2
y considerando los supuestos del modelo, tenemos, 2
2
X .. − µ + σ , √ kn
k P X i. − µi ∼ χ2(k , σ i=1 √ n 2
X .. − µ σ ∼ χ2(1 . √ kn
En consecuencia, recordando la Proposición 6.1 y el Teorema 6.3, 2 (k − 1)SB SSB = ∼ χ2(k−1 . σ2 σ2
Análogamente, tenemos, k P n P
(Xij − µi )2 =
i=1 j=1
=
k P n P
i=1 j=1
y, de aquí,
Como,
k P n P
i=1 j=1
(Xij − X i. + X i. − µi )2 =
(Xij − X i. )2 + n
k P
i=1
(X i. − µi )2 ,
2 2 k k X n X X Xij − µi SSW X i. − µi = + . σ 2 σ σ √ i=1 i=1 j=1 n Xij − µi 2 ∼ χ2(kn , σ i=1 j=1 2 k P n P
k P X i. − µi ∼ χ2(k , σ i=1 √ n
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 347 — #359
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
347
recordando nuevamente la Proposición 6.1 y el Teorema 6.3, tenemos, 2 k(n − 1)SW SSW = ∼ χ2[k(n−1) . σ2 σ2
Maximización de una forma cuadrática Sea, B=
(
b = (b1 , ..., bk ) :
i=1
de forma que, bi = s Se verifica que,
P
k i=1 ai xi
Pk
Si definimos,
k X
i=1
a2i ni
2
N=
) k X b2i bi = 0, =1 , ni i=1
ai Pk
i=1
=
a2i ni
k X
.
bi xi
i=1
k X
!2
.
ni ,
i=1
tenemos, 1 N2
k X i=1
bi xi
!2
=
"
k X bi i=1
ni
xi
n i
N
#2
.
Definamos ahora dos variables aleatorias B y X que verifican, bi ni P B = , X = xi = , i = 1, ..., k, ni N es decir, dos variables discretas con función de densidad conjunta ni /N. De aquí, P bi bi ni P B= = X(Ω) P B = , X = , i = 1, ..., k ⇒ ni N i n Pk bi ni 1 Pk ⇒ E(B) = i=1 = bi = 0. ni N N i=1 Puede comprobarse que, también, X ni P (X = xi ) = P (B, X = xi ) = , i = 1, ..., k. N B(Ω)
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 348 — #360
i
348
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
En consecuencia, " y,
k X bi ni
i=1
xi
n i
N
#2
= E 2 (BX),
cov(B, X) = E{[B − E(B)][X − E(X)]} = E{B[X − E(X)]} = E(BX) − E(X)E(B) = = E(BX) ⇒ E 2 (BX) = cov 2 (B, X).
Aplicando el teorema de Schwarz, 2 Pk bi ni xi = cov 2 (B, X) ≤ var(B)var(X) = i=1 n N i " 2 # h i Pk Pk bi ni 2 ni = (x − x) , i=1 i=1 i ni N N
siendo,
Pk
x = Pi=1 k
ni xi
i=1 ni
.
Considerando la definición de B, resulta, !2 k k X X ≤ ni (xi − x)2 . bi xi i=1
i=1
Sea, ai = kni (xi − x), k 6= 0,
entonces, según el Lema 11.1, a ∈ A, y,
por lo que,
kni (xi − x) ni (xi − x) bi = s = qP , k 2 Pk [kni (xi − x)]2 n (x − x) i=1 i i i=1 ni Pk i=1 ni (xi − x)xi = i=1 bi xi = qP k 2 x) n (x − i i i=1 Pk qP 2 n (x − x) i i k i=1 2 = qP = i=1 ni (xi − x) . k 2 i=1 ni (xi − x) Pk
De aquí que,
k X i=1
bi xi
!2
=
k X i=1
ni (xi − x)2 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 349 — #361
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
349
Recapitulando, tenemos, P
k i=1 ai xi
Pk
i=1
a2i ni
2
k X
=
bi xi
i=1
!2
k X
≤
i=1
ni (xi − x)2,
de forma que si, ai = kni (xi − x), k 6= 0, entonces, k X
bi xi
i=1
!2
=
k X i=1
ni (xi − x)2 .
Por tanto,
m´ax a∈A
como se quería demostrar.
2 Pk i=1 ai xi
Pk
i=1
a2i ni
=
k X i=1
ni (xi − x)2 ,
EJERCICIOS 11.1. Un experimento que formó parte de un proyecto más amplio de investigación (Richardson, 1951), consistía en comparar tres dosis de vitamina B12 en relación con la ganancia de peso del cerdo. A tal efecto, cada una de las tres dosis de vitamina se incluyeron en la alimentación de tres cerdos (peso de cada cerdo aproximadamente 75 libras o 34.05 kg.), resultando las siguientes ganancias medias en peso por día, 5 mg/lb 1.52 1.56 1.54
10 mg/lb 1.63 1.57 1.54
20 mg/lb 1.44 1.52 1.63
¿Existen diferencias significativas (α = 0.05) entre las tres dosis de vitamina B12 en cuanto a su influencia en la media de la ganancia de peso en el cerdo? 11.2. Se experimentan sobre una serie de ratas cuatro regímenes dietéticos. Seleccionando los animales aleatoriamente, los resultados en ganancia de peso (g.) al final del experimento son,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 350 — #362
i
350
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
R1 15 20 35 40 42 23 14 16 15
R2 50 52 63 45 44 37 36 25 45 46 50 53
R3 20 25 36 24 30 28 32 25
R4 33 35 46 47 38 40
Se quiere averiguar si con un nivel de significación del 5 % existen diferencias significativas entre los 4 regímenes dietéticos en relación a la media de la ganancia en peso de la rata. 11.3. En un experimento se trata de analizar la incidencia que tiene la sustitución de tocino fresco por rancio en la alimentación de ratas. Los datos obtenidos se refieren a la comida ingerida en gramos durante 73 días por 12 ratas de edades entre 30 y 34 días al comenzar el experimento. Dichos datos (Powick, 1925) están clasificados según dos factores: factor sexo con niveles macho (m) y hembra (h), y factor grasa con niveles tocino fresco (f ) y tocino rancio (r), m
h
f 709 679 699 657 594 677
r 592 538 476 508 505 539
Compruébese con α = 0.05 la significación de las distintas fuentes de variación. 11.4. En un experimento se estudia la edad en la que alcanzan 20 g. de peso un ratón. Para ello se muestrean aleatoriamente cuatro familias (f 1, f 2, f 3, f 4) de ratones y posteriormente 3 ratones de cada familia, obteniéndose los datos de la tabla siguiente, f1 28 27 30
f2 24 21 22
f3 26 30 28
f4 31 30 22
Contrástese con un nivel de significación del 5 % la hipótesis de que la media de la edad en la que alcanzan los ratones 20 g. de peso es la misma para cada familia ¿Qué supuestos se han realizado? 11.5. Se desea estudiar la aparición de extrasístoles, durante una operación quirúrgica, en pacientes a los que se les ha suministrado los fármacos B o C. Para ello se toman aleatoriamente 18 pacientes que se reparten al azar en tres grupos de seis. Un grupo se trata con un placebo A, otro con el fármaco B y otro con el C. En cada paciente se anotan las extrasístoles en 20 minutos. Como tres pacientes mueren antes de finalizar este período se obtienen solo los siguientes datos,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 351 — #363
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
A
B
C
4 7 6 6
5 1 3 5 3 4
8 6 8 9 5
351
¿Existe alguna posible objeción para la realización de un análisis de la varianza? Suponiendo que se cumple el modelo implícito en el análisis de la varianza, compruébese si hay diferencias significativas entre los tres grupos con un nivel de significación del 5 %. 11.6. Con objeto de comparar la efectividad de cinco analgésicos (A, B, C, D y E), se dividen al azar en cinco grupos de 5 individuos los 25 pacientes de cierta clínica, administrándose en cada grupo un analgésico diferente. Los tiempos (en horas) de recesión del dolor después de la administración del fármaco fueron los siguientes, A
B
C
D
E
5 4 8 6 3
9 7 8 6 9
3 5 2 3 7
2 3 4 1 4
7 6 9 4 7
Compruébese si existen diferencias significativas entre los cinco analgésicos. En caso afirmativo, sabiendo que se sospecha que los analgésicos B y E son similares en su acción, determínese qué conjuntos de analgésicos son equivalentes. 11.7. Un estudio comprueba el efecto de la dosis de agua de riego y la variedad de planta en la altura del tallo del guisante, utilizando dos variedades y tres dosis de agua. Con un diseño de 6 replicaciones se obtienen los siguientes datos,
Var1
Var2
baja 69 71.3 73.2 75.1 74.4 75 71.1 69.2 70.4 73.2 71.2 70.9
Dosis media 96.1 102.3 107.5 103.6 100.7 101.8 81 85.8 86 87.5 88.1 87.6
alta 121 122.9 123.1 125.7 125.2 120.1 101.1 103.2 106.1 109 109.7 106.9
Determínense las condiciones bajo las cuales puede realizarse un análisis de la varianza y compruébese la significación de las distintas fuentes de variación (α = 0.05). 11.8. Un ecólogo se interesa en el estudio del tamaño de la hoja de una determinada especie vegetal que se encuentra en 8 tipos de suelo diferentes. A tal efecto, selecciona aleatoriamente tres tipos de suelo A, B y C de entre los 8 objeto de estudio y recoge muestras de 6 hojas en dichos suelos, obteniendo los resultados,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 352 — #364
i
352
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
A
B
C
3.3 3.6 3.5 3.5 3.4 3.3
3.1 3 3.5 3.2 3.2 3.3
3.1 3.6 3.5 3.5 3.4 3.6
Compruébese si, para el carácter estudiado, existen diferencias significativas (α = 0.05) entre los tipos de suelo que el ecólogo analiza. 11.9. Wilkinson (1954) realizó un experimento para estudiar la influencia del tiempo de sangría y el dietilestilbestrol (un componente estrogénico) sobre el fosfolípido del plasma en corderos. Asignó al azar 5 corderos a cada uno de los siguientes 4 grupos: tiempo de sangría por la mañana (SM ), tiempo de sangría por la tarde (ST ), corderos tratados con dietilestilbestrol (DEB) y corderos sin este tratamiento (N DEB), obteniendo,
SM
ST
N DEB
DEB
8.53 20.53 12.53 14 10.8 39.14 26.2 31.33 45.8 40.2
17.53 21.07 20.8 17.33 20.07 32 23.8 28.87 25.06 29.33
Compruébese con α = 0.05 la significación de las distintas fuentes de variación. 11.10. Las longitudes de los sépalos de 15 ejemplares de tres especies de flores del género Iris, I. setosa, I. versicolor e I.virgínica son las siguientes, I. set. 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 5.4 4.8 4.8 4.3 5.8
I. ver. 7 6.4 6.9 5.5 6.5 5.7 6.3 4.9 6.6 5.2 5 5.9 6 6.1 5.6
I. vir. 6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3 6.7 7.2 6.5 6.4 6.8 5.7 5.8
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 353 — #365
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
353
Compruébese con α = 0.05 si existen diferencias significativas entre las tres especies en relación a la media de la longitud del sépalo. 11.11. En un tratamiento contra la hipertensión, se seleccionaron 40 enfermos de características similares. Se formaron 4 grupos de 10 enfermos de manera que el grupo A tomó un fármaco inocuo, y los grupos B, C y D tomaron, respectivamente, diferentes fármacos. Para valorar la eficacia de los tratamientos se registró el descenso de la presión diastólica desde el inicio del tratamiento hasta pasada una semana. Los resultados obtenidos, registrándose algunas bajas, fueron los siguientes, A
B
C
D
10 0 15 -20 0 15 -5
20 25 32 25 30 18 27 0 35 20
15 10 25 30 15 35 25 22 11 25
10 5 -5 15 20 20 0 10
Analícese si existen diferencias significativas entre los tratamientos ¿Qué supuestos se han realizado? 11.12. Los siguientes datos (Thomas, P. A.) corresponden a una serie de medidas morfológicas de la anchura (en micras) del scutum (escudo dorsal) de muestras de larvas de la garrapata Haemaphysalis leporispalustris, extraídas de 4 huéspedes diferentes (conejos americanos). Estos 4 huéspedes (H1, H2, H3 y H4) se obtuvieron al azar en una localidad, no sabiéndose nada de sus orígenes o de su constitución genética y representan una muestra aleatoria de los huéspedes de la citada localidad. Los resultados obtenidos fueron los siguientes, H1
H2
H3
H4
380 376 360 368 372 366 374 382
350 356 358 376 338 342 366 350 344 364
354 360 362 352 366 372 362 344 342 358 351 348 348
376 344 342 372 374 360
Analícese con un nivel de significación del 5 %, si existen diferencias significativas entre los huéspedes de dicha localidad en relación a la característica estudiada.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 354 — #366
i
354
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
SOLUCIONES Ejercicio 11.1. Suponiendo que se verifican las hipótesis de normalidad e igualdad de varianzas propias del modelo, se obtienen los siguientes resultados, F.Variación Efecto Error Total
S.Cuadrados 0.0042 0.0232 0.0274
G.libertad
2 6 8
E.Varianza 0.0021 0.0039
Estadístico
f = 0.5385
Para α = 0.05, resulta que la abscisa de la distribución F(2,6 que deja a su derecha un área igual a 0.05 es f0.05;2,6 = 5.14, superior al valor f = 0.5385 resultante del estadístico de contraste. Por tanto, no puede rechazarse la hipótesis nula, o lo que es lo mismo, las tres dosis de vitamina B12 estudiadas no producen medias de ganancias en el peso de los cerdos significativamente diferentes. Ejercicio 11.2. La tabla del análisis de la varianza resultante es la siguiente, F.Variación Efecto Error Total
S.Cuadrados 2 915.94 2 416.06 5 332
G.libertad 3 31 34
E.Varianza 971.98 77.94
Estadístico f = 12.47
en donde se ha considerado que se cumplen los supuestos propios del modelo ANOVA. Para α = 0.05, f0.05;3,31 = 2.92 que es menor que f = 12.47. En consecuencia, se rechaza la hipótesis nula y se concluye que los regímenes dietéticos analizados proporcionan diferentes medias de ganancias de peso en el tipo de ratas estudiadas. Un subsecuente análisis podría ser averiguar el número de dietas diferentes. La prueba de Scheffé efectuada sobre el conjunto de datos obtenidos muestra que las dietas R1 y R3 pertenecen a una población, las R3 y R4 a otra, y finalmente las R4 y R2 a otra. Con estos resultados es evidente que la dieta R3 actúa de “puente”, o es común, a dos poblaciones, por lo que debe ser clasificada en una sola de ellas mediante algún criterio. Es frecuente, en estos casos, tomar como criterio el de la proximidad entre medias muestrales. Así, como la media muestral de R3 (27.5) es más similar a la de R1 (24.44) que a la de R4 (39.83), regímenes dietéticos significativamente diferentes hay dos, R1 + R3, por un lado, y R4 + R2, por otro. Ejercicio 11.3. Estamos ante un modelo ANOVA de dos factores con dos niveles cada uno y n = 3 replicaciones. Suponiendo que se verifican las hipótesis propias del modelo, la tabla de resultados es la siguiente, F.Variación Efecto A Efecto B Interacción Error Total
S.Cuadrados 3 780.75 61 204.08 981.75 11 666.7 77 633.28
G.libertad 1 1 1 8 11
E.Varianza 3 780.75 61 204.08 981.75 1 458.34
Estadístico 2.59 41.96 0.67
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 355 — #367
i
CAPÍTULO 11. ANÁLISIS DE LA VARIANZA
355
El primer estadístico a analizar es el correspondiente a la interacción FVab . Para un nivel de significación α = 0.05, la abscisa de la distribución F(1,8 vale f0.05;1,8 = 5.32, que al ser superior a 0.67 permite concluir que no hay interacción entre los factores. Por consiguiente, estudiemos los dos contrastes restantes. Al ser 2.59 inferior a f0.05;1,8 = 5.32, resulta que no podemos rechazar H0Va , es decir, no es presenciable el efecto del sexo. Finalmente, como 41.96 es superior a f0.05;1,8 , debemos rechazar H0Vb y concluir que el efecto grasa sí es perceptible, o lo que es lo mismo, las ratas de uno y otro sexo ingieren distinta cantidad de comida según tenga ésta tocino fresco o rancio. Ejercicio 11.6. Supongamos que se cumplen los supuestos propios del modelo. La tabla de resultados es la siguiente, F.Variación Efecto Error Total
S.Cuadrados 79.44 57.6 137.04
G.libertad 4 20 24
E.Varianza 19.86 2.88
Estadístico f = 6.896
Para α = 0.05 la abscisa de la distribución F(4,20 es f0.05;4,20 = 2.87, que al ser inferior al valor del estadístico f = 6.896 supone el rechazo de la hipótesis nula, es decir, aceptamos que hay al menos dos analgésicos diferentes. Puesto que se sospecha que los analgésicos B y E son similares en su acción, plantearemos, teniendo en cuenta que SSB tiene 4 grados de libertad, las cuatro comparaciones ortogonales siguientes, µB + µE µA + µC + µD − , 2 3 β2 = µB − µE , β3 = µA + µC − 2µD , β4 = µA − µC . β1 =
Seguidamente procederemos a contrastar la significación de las mismas, es decir, resolveremos los contrastes cuyas hipótesis nulas son las siguientes, H01 H02 H03 H04
: β1 : β2 : β3 : β4
= 0; = 0; = 0; = 0.
Teniendo en cuenta que podemos expresar SSB = SSC1 + SSC2 + SSC3 + SSC4 , siendo SSCi la suma de cuadrados de la comparación βi , i = 1, ..., 4, calcularemos las sumas de cuadrados que corresponden a las comparaciones ortogonales elegidas. Así, SSc1 = 61.44, SSc2 = 3.6, SSc3 = 10.8, SSc4 = 3.6. Puede observarse que la mayor parte de la suma de cuadrados de los efectos, 79.44, es debida a la comparación β1 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 356 — #368
i
356
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Los valores de los estadísticos, Fi =
SSCi 2 , i = 1, ..., 4, SW
que nos van a permitir resolver los contrastes planteados son los siguientes, f1 = 21.33, f2 = 1.25, f3 = 3.75, f4 = 1.25. Al comparar estos valores con f0.05;1,20 = 4.35, que corresponde a la abscisa de la distribución F(1,20 que deja a su derecha un área igual a α = 0.05, resulta que se rechaza H01 y se aceptan las hipótesis H02 , H03 y H04 . Consecuentemente, los analgésicos A, C y D no difieren significativamente entre sí, y B y E tampoco presentan diferencias significativas entre sí. Sin embargo, el grupo formado por los analgésicos A, C y D difiere significativamente del grupo constituido por los analgésicos B y E. En resumen, hay dos analgésicos significativamente diferentes.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 357 — #369
i
CAPÍTULO
12 Regresión lineal 12.1 MODELOS LINEALES Consideraremos una variable aleatoria Y , denominada respuesta, que depende de otra variable x cuya naturaleza no es aleatoria y se denomina predictiva o independiente. Por ejemplo, supongamos que el resultado (Y ) de un experimento es dependiente de la temperatura (x) en la que se realiza, y que dicha temperatura es controlada por el experimentador, quien sabe que con la misma temperatura se pueden obtener resultados diferentes. Así, la variable Y no solo depende de una ley probabilística cuyos parámetros son desconocidos, sino también de otra variable x controlada arbitrariamente. En presencia de n repeticiones o ensayos independientes para la variable aleatoria, tendremos n pares (xi , yi ), i = 1, ..., n, utilizados para hacer inferencias sobre los parámetros desconocidos. Resaltamos que a diferencia de lo hasta ahora tratado en muestras aleatorias, las variables Yi no son igualmente distribuidas. El modelo que a continuación exponemos, supone específicamente que sus parámetros centrales son diferentes. En efecto, observemos, en primer lugar, que tal y como se ha expuesto la experiencia anterior, para cada valor de la variable independiente xi , existe un conjunto de valores que constituyen el recorrido de la variable aleatoria Yi . En otras palabras, están implicadas n distribuciones que no son necesariamente iguales dada la relación de dependencia entre x e Y . Esta relación se define de la siguiente manera, µYi = µY |xi = δ + γxi , i = 1, ..., n, que, como vemos, significa estamos analizando la relación de dependencia lineal entre las esperanzas matemáticas de la variables aleatorias Yi y la variable x cuyos valores fijamos arbitrariamente. El modelo es lineal en los parámetros δ y γ, denominándose modelo de regresión lineal simple. De aquí que, por ejemplo, δ 2 + γx no sea lineal, si bien δ + γx2 si se
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 358 — #370
i
358
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
considera lineal en esta situación. Recordando que un modelo ANOVA de dos factores se define, µij = µ + τi + υj + γij , se comprende que, con cierta frecuencia, tanto ANOVA como regresión se estudien bajo el epígrafe modelos lineales.
12.2 ESTIMACIONES MÁXIMO VEROSÍMILES Denotando mediante µ bYi , δb y γ b las estimaciones de µYi , δ y γ, respectivamente, tendremos que un punto de la recta de regresión estimada es, µ bYi = δb + γ bxi , i = 1, ..., n,
simbolizándose la estimación de toda la recta de regresión, µ bY = δb + γ bx.
Las estimaciones son calculadas mediante el método de estimación puntual por excelencia, es decir, el método de máxima verosimilitud. No obstante, la expresión de estas estimaciones es coincidente con un procedimiento meramente matemático, denominado de mínimos cuadrados, consistente en minimizar la función que mide la distancia entre ordenadas de los puntos correspondientes a los datos y la recta a calcular. Es decir, llamando d y g al punto de corte con ordenadas y a la pendiente, respectivamente, de la recta estimada, y xi , yi a los datos muestrales, se calcula, n X m´ın [yi − (d + gxi )]2 . d,g
i=1
Resulta que, por alguna razón desconocida para los autores, cuando se hace referencia a las estimaciones de los parámetros de regresión lineal simple, generalmente se habla de estimaciones mínimo cuadráticas. El modelo de regresión lineal simple supone que, Yi ∼ N (µYi = δ + γxi , σ 2 ), i = 1, ..., n,
por lo que la función de verosimilitud, dada la muestra (x1 , y1 ), ..., (xn , yn ), es, ( ) n n 1 1 X 2 √ l(δ, γ, σ; y1 , ..., yn ) = exp − 2 [yi − (δ + γxi )] . 2σ σ 2π i=1
Tomando logaritmos neperianos, ln l = L, derivando respecto a δ y γ, e igualando a cero, tenemos,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 359 — #371
i
CAPÍTULO 12. REGRESIÓN LINEAL
359
∂L 1 P = 2 ni=1 [yi − (δ + γxi )] = 0, ∂δ σ P 1 ∂L = 2 ni=1 [yi − (δ + γxi )]xi = 0, ∂γ σ
de donde se obtienen las llamadas ecuaciones normales, ( Pn Pn i=1 yi = nδ + γ i=1 xi , Pn Pn Pn 2 i=1 xi yi = δ i=1 xi + γ i=1 xi . Multiplicando la primera por,
X
y la segunda por n, resulta,
γ b=
siendo, Sxy =
Pn
xi ,
Sxy , Sxx
P P 1 P − x)(yi − y) = (n ni=1 xi yi − ni=1 xi ni=1 yi ) , nh i P P P 1 = ni=1 (xi − x)2 = n ni=1 x2i − ( ni=1 xi )2 . n
i=1 (xi
Sxx
Por otra parte, de la primera ecuación normal, tenemos, y = δ + γx ⇒ δb = y − γ bx.
Ejemplo 12.1
Insistiendo con la experiencia descrita al principio del capítulo, supongamos que se han obtenido los siguientes datos al aumentar la temperatura ambiente de cierto laboratorio y medir la pérdida de agua en 9 animales experimentales, x Y
1.5 4.8
1.8 5.7
2.4 7
3 8.3
3.5 10.9
3.9 12.4
4.4 13.1
4.8 13.6
5 . 15.3
Resulta que, empleando cualquiera de los programas aludidos en el capítulo anterior, µ bY = 0.2568 + 2.9303x.
Observemos, por otro lado, que el punto de coordenadas (x, y) pertenece a la recta estimada (δb + γ bx = y − γ bx + γ bx = y).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 360 — #372
i
360
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
12.3 DISTRIBUCIÓN DE LOS ESTIMADORES Estimador G Denominando G al estimador máximo verosímil de γ, Pn n (xi − x)(Yi − Y ) X (xi − x) i=1 Pn Pn Yi , G= = 2 2 i=1 (xi − x) i=1 (xi − x) i=1
en donde se escriben con mayúsculas las variables con carácter aleatorio. Puesto que Yi ∼ N (δ + γxi , σ 2 ), i = 1, ..., n, y son independientes, la distribución de G será normal, con parámetros, n X (xi − x) Pn E(G) = (δ + γxi ) = γ, 2 i=1 (xi − x) i=1
y,
var(G) =
n X i=1
De este modo,
(x − x) Pn i 2 i=1 (xi − x)
G ∼ N γ, Pn
2
σ2 . 2 i=1 (xi − x)
σ 2 = Pn
σ2 , 2 i=1 (xi − x)
y es insesgado, en consecuencia.
Estimador D Llamando D al estimador máximo verosímil de δ, dado que, n X 1 (xi − x) P D = Y − Gx = − n x Yi , 2 n i=1 (xi − x) i=1
tendremos que su distribución es normal. Los parámetros de esta distribución son, n
E(D) =
1X E(Yi ) − xE(G) = δ, n i=1
y, var(D) = σ
2
Pn 2 2 (xi − x) i=1 xi P P − n x = σ2. n 2 2 n x) n (x − x) (x − i=1 i i=1 i
n X 1 i=1
Así, también este estimador es insesgado, y, Pn x2i 2 i=1 D ∼ N δ, Pn σ . 2 i=1 (xi − x)
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 361 — #373
i
CAPÍTULO 12. REGRESIÓN LINEAL
361
Estimador de la varianza Tomando logaritmos neperianos de la función de verosimilitud, derivando respecto a σ 2 , e igualando a cero, n ∂L n 1 X [yi − (δ + γxi )]2 = 0, = − + ∂σ 2 2σ 2 2σ 4 i=1
por lo que, σ b2 =
n
n
i=1
i=1
1X SSr 1X [yi − (δb + γ bxi )]2 = (yi − µ bYi )2 = , n n n
siendo SSr la suma de cuadrados residuales y (yi − µ bYi ) el residuo i-ésimo. Dados los supuestos del análisis, la observación aleatoria que ocupa el lugar i-ésimo será, yi = δ + γxi + εi , representando εi una desviación respecto a la media, denominada error. Por tanto, Yi = δ + γxi + Ei , i = 1, ..., n, siendo la variable aleatoria Ei ∼ N (0, σ 2 ). La Figura 12.1 muestra la diferencia entre residuo y error.
Figura 12.1
Con objeto de localizar la distribución del estimador del parámetro σ 2 , que simbolizaremos SSR, definamos, D−δ U= , σ G−γ V = , σ SSR W = , σ2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 362 — #374
i
362
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
siendo, SSR =
n X i=1
[Yi − (D + Gxi )]2 .
Calcularemos, a continuación, la función generadora de momentos conjunta de estas tres variables aleatorias - véase la Definición 4.3 - Así, MU,V,W (t1 , t2 , t3 ) = E[exp(t1 U + t2 V + t3 W )] = R R = · · · Rn exp(t1 u + t2 v + t3 w)l(y1 , ..., yn )dy1 ...dyn ,
siendo l la función de verosimilitud, ( ) n n 1 X 1 2 √ l(y1 , ..., yn ) = exp − 2 [yi − (δ + γxi )] , 2σ σ 2π i=1 ya que U, V y W son funciones de Y1 , ..., Yn . Resolver la integral en Rn no resulta complicado en exceso si escribimos el integrando en función de solo yi y xi , de forma que tenemos, n−2
MU,V,W (t1 , t2 , t3 ) = (1 − 2t3 )− 2 Pn x2i 2 1 1 i=1 2 exp Pn t1 − 2xt1 t2 + t2 , t3 < . 2 2 i=1 (xi − x) n 2
Observemos que, entonces, podemos escribir,
MU,V,W (t1 , t2 , t3 ) = MW (t3 )MU,V (t1 , t2 ), y que, por tanto, según el Teorema 4.11, las variables aleatorias U, V son independientes de W. Es decir, los estimadores máximo verosímiles de δ y γ, D y G, son conjuntamente independientes del estimador máximo verosímil de σ 2 , SSR. Recordando la Proposición 5.14, notemos que la función MU,V (t1 , t2 ) corresponde a la función generadora de momentos conjunta de dos variables con distribución normal bivariante, cuyo parámetro central es el vector (0, 0), y cuya matriz de varianzas covarianzas es, Pn x2i x i=1 n Pn (x − x)2 − Pn (x − x)2 σU2 cov(U, V ) . i=1 i i=1 i = x 1 cov(U, V ) σV2 Pn − Pn 2 2 i=1 (xi − x) i=1 (xi − x) De aquí que la distribución conjunta de D y G sea normal bivariante, con parámetro central (δ, γ) y matriz de varianzas covarianzas, 2 σD cov(D, G) σU2 cov(U, V ) 2 =σ , 2 cov(D, G) σG cov(U, V ) σV2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 363 — #375
i
CAPÍTULO 12. REGRESIÓN LINEAL
363
Finalmente, tenemos que, SSR ∼ χ2(n−2 , σ2 observando la forma de MW . Es evidente entonces que, E
SSR σ2
= n − 2,
por lo que simbolizando, 2 SR =
SSR 2 ⇒ E(SR ) = σ2, n−2
y, así, 2 (n − 2)SR ∼ χ2(n−2 . σ2
12.4 INFERENCIAS SOBRE LOS PARÁMETROS 12.4.1.
Varianza
2 , caso de desear construir un Dada la forma de la distribución de la variable aleatoria SR intervalo estimación de confianza (1 − α)100 % para el parámetro σ 2 , escribiremos,
2
P χ(n−2;1− α 2
2 (n − 2)SR ≤ ≤ χ2(n−2; α σ2 2
= 1 − α,
de donde se deduce,
2 2)SR
(n − P 2 χ n−2; α ( 2
≤ σ2 ≤
2 2)SR
(n − = 1 − α, χ2n−2;1− α ( 2
es decir, que un intervalo estimación de confianza (1 − α)100 % para σ 2 será,
2)s2R
2)s2R
(n − (n − . , χ2n−2; α χ2n−2;1− α ( ( 2 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 364 — #376
i
364
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
12.4.2.
Parámetros centrales
Puesto que el modelo de regresión lineal supone, µYi = δ + γxi , i = 1, ..., n, un estimador del parámetro µYi será D + Gxi , que simbolizaremos por Mi y se suele denominar respuesta media. Podemos escribir, teniendo en cuenta la expresión de la estimación máximo verosímil δb de δ, Mi = D + Gxi = Y − G(x − x i ) = n P 1 (x − xi )(xk − x) − Yk . = Sxx k=1 n De aquí que la distribución de Mi sea normal. Veamos sus parámetros. E(Mi ) = E(D + Gxi ) = δ + γxi = µYi , y, var(Mi ) = σ
2
n X 1 k=1
En resumen,
(x − xi )(xk − x) − n Sxx
Mi ∼ N
2
=σ
2
1 (x − xi )2 . + n Sxx
1 (x − xi )2 µYi , σ 2 . + n Sxx
2. Según hemos visto anteriormente, D y G son conjuntamente independientes de SR 2 Es fácil ver entonces que Mi es independiente de SR , pues con,
R=
2 (n − 2)SR , σ2
tenemos, MD+Gxi ,R (t1 , t2 ) = (d, g, r)dddgdr = = R2 R+ exp [t1 (d + gxi ) + t2 r] f RR R = exp [t (d + gx )] f (d, g)dddg 1 i DG R2 R+ exp(t2 r)fR (r)dr = = MD+Gxi (t1 )MR (t2 ). RR
R
Por tanto,
σ TM i =
s
Mi − µYi
1 (x − xi )2 + n Sxx M − µYi v s i = ∼ t(n−2 , u (n − 2)S 2 2 u 1 (x − x ) R i t SR + σ2 n Sxx n−2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 365 — #377
i
CAPÍTULO 12. REGRESIÓN LINEAL
365
al ser el cociente de dos variables aleatorias independientes, una con distribución normal reducida, y otra la raíz cuadrada de una variable con distribución ji-cuadrado dividida por sus grados de libertad. Como sabemos, se puede entonces construir el intervalo estimación de confianza (1 − α)100 % para la media de la respuesta, µYi , i = 1, ..., n,
mi − t
(n−2; α2 sR
s
)2
1 (x − xi + , mi + t(n−2; α sR 2 n Sxx
s
)2
1 (x − xi + . n Sxx
Si calculamos los n intervalos estimación de confianza y unimos sus extremos, se origina la denominada banda de confianza de al menos (1 − α)100 % para la recta de regresión µY = δ + γx, según puede verse en la siguiente Figura 12.2, entendiendo que, aplicando la desigualdad de Bonferroni, cada uno de los n intervalos se calculan con confianza [(1 − α)/n]100 %.
Figura 12.2
El lector interesado puede consultar Scheffé (1959) si desea estudiar la obtención de una banda de confianza, para todo x simultáneamente, de la recta de regresión lineal.
12.4.3.
Pendiente de la recta
Que D y G sean estimadores conjuntamente independientes de R, implica que G y R sean independientes. En efecto, al integrar por el recorrido de D ambos lados de la siguiente igualdad, f (d, g, r) = fDG (d, g)fR (r), tenemos,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 366 — #378
i
366
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Z
f (d, g, r)dd = fGR (g, r),
D(Ω)
y,
Z
fDG (d, g)fR (r)dd = fG (g)fR (r).
D(Ω)
Como,
σ2 G ∼ N γ, , Sxx 2 (n − 2)SR ∼ χ2(n−2 , σ2
se puede construir el estadístico, G−γ σ √ Sxx
G−γ TG = v ∼ t(n−2 , = u (n − 2)S 2 S u √R R t Sxx σ2 n−2
y, consecuentemente, un intervalo estimación de confianza (1 − α)100 % para el parámetro γ es, sR sR g − t(n−2; α √ , g + t(n−2; α √ . 2 2 Sxx Sxx Por otro lado, para resolver el contraste, H 0 : γ = γ0 , H1 : no H0 , se emplea el mismo estadístico TG , de forma que rechazaremos H0 cuando, |tG | ≥ t(n−2; α , si H1 : γ 6= γ0 , 2
tG ≥ t(n−2;α , si H1 : γ > γ0 , tG ≤ −t(n−2;α , si H1 : γ < γ0 .
Con cierta frecuencia, se analiza γ0 = 0, que es tanto como decir que, al ser la pendiente de la recta nula, el único valor, δ, que toma µYi , i = 1, ..., n, es independiente de los valores xi . Ejemplo 12.2 Los datos que se muestran en la siguiente tabla corresponden a las puntuaciones, entre 0 y 100, obtenidas por 10 estudiantes de una determinada asignatura, donde x es la nota
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 367 — #379
i
CAPÍTULO 12. REGRESIÓN LINEAL
367
de un examen parcial, e Y la nota correspondiente al examen final, x Y
70 77
74 94
72 88
68 80
58 71
54 76
82 88
64 80
80 90
61 . 69
Suponiendo que se cumplen los supuestos del modelo de regresión lineal simple, con α = 0.01, analicemos el contraste, H0 : γ = 0 H1 : γ 6= 0. La recta de regresión estimada es, µ bY = 30.6214 + 0.724x,
y, de otra parte, t(8,0.005 = 3.355, que comparado con, tG = |tG | = 3.911,
supone que, con el nivel de significación elegido, rechacemos H0 : γ = 0.
Como se vio en la sección de Ejercicios del Capítulo 6, es fácil deducir que el cuadrado de una variable con distribución t de Student es una variable con distribución F de Fisher, con grados de libertad la unidad y los grados de libertad de la variable con distribución t de Student. De este modo, suponiendo que H0 : γ = 0 es cierta, TG2 =
G2 Sxx ∼ F(1,n−2 . 2 SR
Observemos que, P G2 Sxx = ni=1 [G(xi − x)]2 = P P = ni=1 [D + Gxi − (D + Gx)]2 = ni=1 (Mi − Y )2 .
Este último sumatorio de diferencias cuadráticas se asocia a la variabilidad del modelo debida a recta de regresión estimada, que puede interpretarse de siguiente manera. A la vista de la expresión de las estimaciones máximo verosímiles de la recta de regresión, el punto (x, y) es un punto de dicha recta; dado que los puntos cuyas ordenadas son mi también son puntos de la recta estimada, la idea que ofrece la diferencia (mi − y) se relaciona con la pendiente de dicha recta. De aquí que TG2 sea una medida de la comparación entre la variabilidad generada por la recta de regresión - o la pendiente de la recta estimada - y la variabilidad residual defi2 - o variación entre los datos y la recta estimada - La analogía con el ANOVA nida por SR de un factor es clara considerando que, en definitiva, las variables Mi son estimadores de parámetros centrales.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 368 — #380
i
368
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
En el caso de que, TG2 < F(1,n−2;α , ambas variabilidades no son diferentes significativamente y aceptaremos H0 : γ = 0, con nivel de significación α. Resaltamos que, por tanto, para rechazar esta hipótesis nula se necesita que la variación debida a la regresión, la pendiente de la recta, sea significativamente mayor que la variación residual. Notemos en todo caso que el denominado ANOVA asociado a la regresión no es más que un caso particular, γ = 0, del caso más general γ = γ0 .
12.4.4.
Intersección con ordenadas
Mediante un procedimiento análogo al expuesto en la anterior sección, siendo, Pn 2 i=1 xi 2 σ , D ∼ N δ, nSxx 2 (n − 2)SR ∼ χ2(n−2 , σ2 e independientes, tenemos, TD = SR
D−δ sP n
2 i=1 xi nSxx
∼ t(n−2 .
Este estadístico nos permitirá construir un intervalo estimación de confianza (1 − α)100 % para δ, sP sP n n 2 2 i=1 xi i=1 xi d − t , , d + t(n−2; α sR (n−2; α2 sR 2 nSxx nSxx o contrastar,
H0 : δ = δ0 , H1 : no H0 .
12.5 OTROS MODELOS DE REGRESIÓN El modelo hasta ahora considerado, sobre el que se ha basado la teoría para realizar inferencias, se denomina modelo normal condicionado. Existen, no obstante, otros modelos inferenciales en regresión lineal simple. El término regresión fue introducido por Francis Galton en el siglo XIX (véase [54]). Galton estudiaba la relación entre la altura de padres e hijos. Halló que padres altos tienden a tener hijos altos y que padres bajos tienden a tener hijos bajos. Sin embargo, también descubrió que padres muy altos tendían a tener hijos menos altos y que padres muy
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 369 — #381
i
CAPÍTULO 12. REGRESIÓN LINEAL
369
bajos tendían a tener hijos menos bajos. Galton denominó a este fenómeno regresión hacia la media, empleando el término en su sentido usual, es decir, como el retroceso o retorno hacia la media de las alturas. Como en el ejemplo estudiado por Galton, existen experiencias de regresión en las que parece poco razonable pensar que una de las variables no es aleatoria. Se necesitan modelos, por tanto, en los que tanto la variable predictiva como la variable respuesta sean de naturaleza aleatoria.
12.5.1.
Modelo normal bivariante
En esta situación, los datos (x1 , y1 ), ..., (xn , yn ) son valores de los vectores aleatorios (X1 , Y1 ), ..., (Xn , Yn ), independientes entre sí. La distribución conjunta de (Xi , Yi ) 2 , σ 2 , ρ, y la distribución conjunta de es normal bivariante de parámetros µX , µY , σX Y (X1 , Y1 ), ..., (Xn , Yn ) es el producto de n densidades normales bivariantes. En un problema de regresión lineal simple, sin embargo, nuestro interés sigue siendo que x sea un valor predictivo, o lo que es lo mismo, deseamos conocer la variable Y una vez se ha observado x. Esto supone que el modelo inferencial sea el de la distribución condicionada de Y dado que X = x. Sea f la función de densidad de probabilidad bivariante normal, fX la función de densidad marginal normal de X, y hY |x la función de densidad condicional de Y | X = x. Entonces, 1 p hY |x (y | X = x) = √ 2πσY 1 − ρ2 2 ρσY (x − µX ) 1 y − µY + σ X p exp − , 2 σ Y 1 − ρ2
es decir,
ρσY (x − µX ) 2 2 Y | (X = x) ∼ N µY + , σY (1 − ρ ) . σX
El modelo normal bivariante implica que los parámetros centrales de Yi son una función lineal de xi , ya que, ρσY (x − µX ) E(Y | x) = µY + = σX
σY σY µY − ρ µX + ρ x, σX σX
de forma que ahora no es necesario hacer esta suposición. Por otro lado, como en el modelo normal condicionado, la varianza de la variable respuesta no depende de x, var(Y | x) = σY2 (1 − ρ2 ).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 370 — #382
i
370
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
En resumen, en el modelo normal bivariante, el hecho de que x1 , ..., xn sean observaciones de variables aleatorias es irrelevante. Lo importante es que estas observaciones actúan como sucesos condicionantes, y ello implica que razonemos como si estuviéramos ante un modelo normal condicionado, si bien para obtener la distribución condicionada de Y | X = x se ha debido considerar la distribución normal bivariante de X e Y . Por tanto, las inferencias relacionadas con estimadores puntuales, con estimadores por intervalo, o con contrastes de hipótesis, son las mismas en ambos modelos (véase [12]).
12.5.2.
Variables con error
Existe otro modelo de regresión que también supone aceptar que tanto Y como X son variables aleatorias, si bien es claramente diferente del modelo normal bivariante. Fuller (1987) es el texto de referencia. Los pares (xi , yi ), i = 1, ..., n constituyen una muestra aleatoria de las variables (Xi , Yi ) cuyas medias satisfacen, E(Yi ) = δ + γE(Xi ), o, siendo E(Yi ) = µi y E(Xi ) = ξi , µi = δ + γξi . Este modelo, denominado modelo de variables con error, en realidad supone considerar dos tipos de modelos. Uno se llama modelo lineal de relación funcional, y el otro, modelo lineal de relación estructural. Aunque la elección de los términos no parece muy afortunada, uno y otro se diferencian netamente, como a continuación vemos. Si consideramos el modelo funcional, observamos pares (Xi , Yi ), i = 1, ..., n, conforme a, 2 ), Yi = δ + γξi + EYi , EYi ∼ N (0, σE Y 2 ), Xi = ξi + EXi , EXi ∼ N (0, σE X siendo ξi parámetros desconocidos, y EYi y EXi variables aleatorias independientes. Los parámetros δ y γ son los parámetros sobre los que realizar inferencias. Con este propósito, se emplea la distribución conjunta de (X1 , Y1 ), ..., (Xn , Yn ), dependiente de ξ1 , ..., ξn . En el modelo estructural, tenemos un modelo funcional y el supuesto de que ξi , i = 1, ..., n, constituyen una muestra aleatoria de la variable Ξ. Así, 2 ), Yi = δ + γξi + EYi , EYi ∼ N (0, σE Y 2 ), Xi = ξi + EXi , EXi ∼ N (0, σE X Ξi ∼ N (ξ, σΞ2 ).
Como en el modelo funcional, EYi , EXi y Ξi son independientes, y los parámetros de interés son δ y γ. Contrariamente al modelo funcional, sin embargo, la distribución que se emplea para realizar inferencias es la conjunta de (X1 , Y1 ), ..., (Xn , Yn ), obtenida hallando la marginal de (Xi , Yi , Ξi ), no dependiente, por ello, de ξ1 , ..., ξn .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 371 — #383
i
CAPÍTULO 12. REGRESIÓN LINEAL
371
Estimaciones máximo verosímiles 1. Modelo funcional. Dadas las observaciones (x, y) = [(x1 , y1 ), ..., (xn , yn )], la función de verosimilitud es, 2 , σ 2 ; (x, y)) = l(δ, γ, ξ1 , ..., ξn , σE EY X " # n xi − ξi 2 1 1P = exp − 2 σ2 ) n 2 i=1 σ EX 2 (2π)n (σE E X
"
Y
n 1P exp − 2 i=1
yi − (δ + γξi ) σ EY
2 # .
Solari (1969) demostró que esta función no tiene máximo, de forma que para resolver este inconveniente debemos hacer alguna suposición extra. La más usual 2 2 , λ conocido, siendo entonces la función de verosimilitud, es que σE = λσE X Y 2 ; (x, y)) = l(δ, γ, ξ1 , ..., ξn , σE X ( 2 ) n n λ2 (xi − ξi )2 + λ[yi − (δ + γxi )]2 1P = . 2 )n exp − 2 σ EX (2π)n (σE i=1 X
El procedimiento para maximizar esta función no es complicado, dando como resultado,
γ b=
δb = y − γ bx, q 2 −(Sxx − λSyy ) + (Sxx − λSyy )2 + 4λSxy
2 σ bE = X
λ 2n(1 + λ)b γ2
2λSxy i2 Pn h b bxi ) . i=1 yi − (δ + γ
,
El lector interesado puede consultar los detalles en [18]. 2. Modelo estructural.
La distribución empleada para realizar inferencias es la marginal (Xi , Yi ), obtenida integrando respecto a ξi la conjunta (Xi , Yi , Ξi ), producto de tres normales. Casella y Berger (1990) han demostrado que la marginal (Xi , Yi ) es, dados los supuestos del modelo, una normal bivariante. En Fuller (1987) se puede ver la expresión de las estimaciones máximo verosímiles, expresión que depende de realizar algunas restricciones sobre los parámetros. Hacemos notar, en todo caso, que las estimaciones δb y γ b son las mismas que en el modelo funcional.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 372 — #384
i
372
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Finalmente, digamos que la construcción de intervalos de confianza, o de contrastes de hipótesis, es difícil cuando se considera este tipo de modelos. Los trabajos de Gleser y Hwang (1987) y Fuller (1987), exponen estas dificultades que, en cualquier caso, se basan en conocimientos que aquí no hemos desarrollado.
EJERCICIOS 12.1. Un investigador ha medido la pérdida de agua en ml. (Y ) de 9 animales al aumentar la temperatura ambiente de su laboratorio (x). Los datos obtenidos fueron, x Y
1.5 4.8
1.8 5.7
2.4 7.0
3.0 8.3
3.5 10.9
3.9 12.4
4.4 13.1
4.8 13.6
5.0 15.3
a) Calcúlese la recta de regresión estimada. b) Contrástese, H0 : γ = 0 H1 : γ 6= 0,
con un nivel de significación del 5 %. c) ¿Qué pérdida media de agua se puede esperar cuando el aumento de temperatura es de 4.2?
12.2. En cierto tipo de caja de caramelos sea x = número de caramelos que contiene la caja e Y = peso total de los caramelos de la caja. Con los datos mostrados en la siguiente tabla (dividida en dos por causa del espacio disponible), x Y
54 48.8
54 49.4
54 49.2
54 50.4
55 49.5
55 49
x Y
56 50.8
56 50.9
57 50.7
57 51.6
57 51.3
57 50.8
55 50.2
55 48.9
58 52.1
58 51.3
56 49.9
58 51.4
56 50.1
58 52
a) Calcúlese la recta de regresión estimada. b) Dibújese un diagrama de dispersión de los datos muestrales, así como la recta de regresión estimada. c) Hállese la estimación puntual de σ 2 y un intervalo estimación de confianza del 95 % para el coeficiente γ. 12.3. Sean x e Y las longitudes (en pulgadas) del pie y de la mano, respectivamente. La siguiente tabla (dividida en dos) muestra las anteriores mediciones en 15 mujeres, x Y
9 6.5
8.5 6.25
x Y
9.5 7
9.25 7.25
9.25 7
9.75 7
9 6.75
10 7
10 7.5
10 7.25
9.75 7.25
9.5 6.5
9 7
9.25 7
9.5 7.25
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 373 — #385
i
CAPÍTULO 12. REGRESIÓN LINEAL
373
a) Estímese la recta de regresión. b) Hállese la estimación puntual de la varianza σ 2 . c) Constrúyanse intervalos estimación de confianza del 95 % para los parámetros δ, γ y σ2 . 12.4. La dureza (Y ) de las cáscaras de los huevos puestos por ciertas gallinas se piensa que tiene una relación lineal con la cantidad (x) de determinada sustancia presente en el pienso comido por las gallinas. Con los siguientes datos, x Y
0.12 0.7
0.21 0.98
0.34 1.16
0.61 1.75
0.13 0.76
0.17 0.82
0.21 0.95
0.34 1.24
0.62 1.75
0.71 1.95
a) Calcúlese la recta de regresión estimada. b) Contrástese,
H0 : γ = 0 H1 : γ 6= 0,
con un nivel de significación del 5 %. 12.5. La siguiente tabla (dividida en dos) muestra las puntuaciones de 15 estudiantes en el área de Ciencias del examen de Selectividad (x) y en el examen final (de 0 a 200 puntos) de Matemáticas del primer curso de cierta licenciatura de Ciencias (Y ), x Y
25 138
20 84
x Y
26 104
25 143
26 112
26 141
28 88
28 161
28 132 25 124
29 90 31 118
32 183
20 100
30 168
a) Calcúlese la recta de regresión estimada. b) Contrástese,
H0 : γ = 0 H1 : γ 6= 0,
con un nivel de significación del 2.5 %. c) Realícese el análisis de la varianza asociado a la regresión. d) Hállese un intervalo estimación de confianza del 95 % para la media de la respuesta cuando xj = 20, y cuando xj = 30. 12.6. De la observación de la cantidad de agua (Y ), en cl., que ingieren diariamente 10 individuos de cierta especie de ave sometidos a distintas temperaturas (x), en grados centígrados, se obtienen los siguientes datos (suponiendo que hay agua continuamente en exceso), x ( x 10) Y
75 0
100 0.65
100 0.5
120 1
130 0.95
160 1.3
190 2.8
200 2.5
240 4.3
250 4.5
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 374 — #386
i
374
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
a) Dibújese el diagrama de dispersión de los datos muestrales y la recta de regresión estimada. b) Contrástese,
H0 : γ = 0 H1 : γ 6= 0,
con un nivel de significación del 5 %. c) ¿Qué consumo medio de agua se espera obtener cuando la temperatura ambiente es de 15o C? 12.7. Los resultados de las medidas de flexibilidad (Y ) y anchura (x) de 6 palmeras son, x Y
0.2 0.182
0.143 0.143
0.1 0.118
0.067 0.1
0.05 0.091
0.033 0.08
a) Calcúlese la recta de regresión estimada. b) Constrúyase un intervalo estimación de confianza del 95 % para los coeficientes δ y γ. c) Realícese el análisis de la varianza asociado a la regresión. 12.8. Los pesos (g.) de las valvas derecha (x) e izquierda (Y ) de 7 ostras son los siguientes, x Y
35 36
37 36
41 40
33 34
34 33
35 34
40 39
a) Calcúlese la recta de regresión estimada. b) Realícese un análisis de la varianza asociado a la regresión explicando las conclusiones que se derivan del resultado. c) Hállese un intervalo estimación de confianza del 95 % para la media del peso de la valva izquierda cuando xj = 31 y cuando xj = 42.
SOLUCIONES Ejercicio 12.5. a) La recta de regresión estimada es, µ bY = δb + γ bx = 6.477 + 4.483x.
b) Con un nivel de significación del 2.5 % y n = 15, se tiene que, r r SSr 9490.1866 sR = = = 27.018 n −P2 13 15 2 Sxx = i=1 (xi − x) = 167.6,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 375 — #387
i
CAPÍTULO 12. REGRESIÓN LINEAL
375
por lo que el estadístico, TG =
G , SR √ Sxx
toma el valor tG = 2.14817, que comparado con t(13;0.025 = 2.16 para una distribución t de Student con 13 grados de libertad, supone no rechazar H0 : γ = 0. c) La correspondiente tabla ANOVA asociada a la regresión es, Variación Regresión Residuo Total
donde
S.Cuadrados 3 368.746 9 490.186 12 858.932
G.l.
1 13 14
E.Varianza 3 368.746 730.014
Estadístico f = 4.614
Suma de cuadrados Regresión = g 2 Sxx , P15 Suma de cuadrados Residuo = i=1 (yi − µ bYi )2 , P15 Suma de cuadrados Total = i=1 (yi − y)2 .
Puesto que con un nivel de significación del 5 %, la abscisa f0.05;1,13 = 4.667 para la distribución F(1,13 , se concluye que H0 : γ = 0 no se rechaza, o lo que es lo mismo, que la variabilidad presente en la muestra obtenida no puede explicarse por un modelo lineal de regresión. d) Recordando que el intervalo estimación de confianza del (1 − α)100 % para µYj tiene la forma, s 1 (x − xj )2 mj ± t(n−2; α2 sR + , n Sxx con x = 26.6 y los cálculos hechos en los anteriores apartados de este problema, se tiene que para xj = 20 el correspondiente intervalo estimación de confianza del 95 % para la media de la respuesta es, (62.787, 129.487), en tanto que para xj = 30 el intervalo estimación de confianza del 95 % para este parámetro es, (119.4738, 162.4602). Ejercicio 12.7. Puesto que δb = d = 0.0596 y γ b = g = 0.601, a) La recta de regresión estimada es,
µ bY = δb + γ bx = 0.0596 + 0.601x.
b) Recordando que el intervalo estimación de confianza del (1 − α)100 % para el parámetro δ es: sP sP n n 2 2 x x i=1 i i=1 i d − t(n−2; α sR , d + t(n−2; α2 sR , 2 nSxx nSxx
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 376 — #388
i
376
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y teniendo en cuenta que n = 6, α = 0.05 y la abscisa de una t de Student con 4 grados de libertad t(4;0.025 = 2.776, el intervalo estimación de confianza pedido es: (0.055, 0.064). Procediendo análogamente, el intervalo estimación de confianza del 95 % para γ es: sR sR g − t(n−2; α2 √ , g + t(n−2; α2 √ = (0.562, 0.639). Sxx Sxx c) La tabla ANOVA asociada a la regresión resulta ser, Variación Regresión Residuo Total
S.Cuadrados 0.0072 0.000016 0.007216
G.l. 1 4 5
E.Varianza 0.0072 0.000004
Estadístico f =1800
Así, con un nivel de significación del 5 % y como para la distribución F(1,4 la abscisa f0.05;1,4 = 7.71, al ser f = 1800 > 7.71, se debe rechazar H0 : γ = 0. Por tanto, los datos analizados pueden ajustarse a un modelo de regresión lineal simple como el más arriba estimado.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 377 — #389
i
CAPÍTULO
13 Análisis de componentes principales La materia relacionada con las técnicas del análisis multivariante que comenzamos a estudiar en este capítulo requiere que se empleen algunos conceptos y propiedades correspondientes a la teoría de matrices. Remitimos al lector interesado en recordar algunos resultados de dicha teoría, imprescindibles para la comprensión de las técnicas multivariantes, así como al lector que desee profundizar en su conocimiento del álgebra matricial, al Apéndice A que hemos situado al final del libro. En dicho apéndice, con la finalidad de mejorar la comprensión de la teoría expuesta, ofrecemos una interpretación geométrica de los resultados obtenidos que, en lo que respecta a la obtención de autovalores y autovectores, creemos es de gran ayuda dada la frecuencia de su cálculo en las técnicas de análisis multivariante aquí analizadas.
13.1 INTRODUCCIÓN La técnica de análisis de datos que explicamos en este capítulo tiene como principal objetivo reemplazar las p variables que definen una observación - se dice que la observación es un vector con p componentes - por otras nuevas variables cuyo número es menor que p. En síntesis, la técnica no es más que una transformación ortogonal de las p variables originales con el resultado de que se genera un conjunto de p nuevas variables incorrelacionadas, denominadas componentes principales, obtenidas en orden decreciente de importancia. El término importancia es en este contexto equivalente a varianza, de modo que una variable es más importante que otra cuando su varianza es mayor. Las p componentes principales obtenidas son combinaciones lineales de las p variables medibles - se dice que son variables compuestas de éstas -. Lo que se espera es conseguir que la variabilidad de unas pocas de dichas componentes principales, las
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 378 — #390
i
378
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
primeras en orden de obtención, es decir, las más importantes, sea, o explique, la mayor parte de la variabilidad presente en los datos originales. Se habla entonces de que la dimensionalidad de los datos se ha reducido. Dicho de otro modo, cuando existe una alta correlación entre algunas de las p variables medibles, dichas variables expresan lo mismo, por lo que puede pensarse que existan restricciones lineales sobre ellas. Notemos que el análisis de componentes principales no supone especificar un modelo probabilístico en las variables medibles. En este sentido, se dice que es una técnica exploratoria de la estructura de los datos, como veremos a continuación.
13.2 OBTENCIÓN DE LAS COMPONENTES PRINCIPALES Supongamos,
σ12 σ12 X1 σ2p σ 2 2 .. X = . , Σ = . .. . . . Xp σp1 σp2
... σ1p ... σ2p .. . ... . ...
σp2
Se trata de calcular un conjunto de variables, Y1 , ..., Yp , incorrelacionadas, con, Yj = a1j X1 + ... + apj Xp = atj X, j = 1, ..., p, var(Y1 ) ≥ var(Y2 ) ≥ ... ≥ var(Yp ), siendo atj un vector de constantes. Conviene normalizar los p vectores de constantes, es decir, Xp a2ij = atj aj = 1, j = 1, ..., p i=1
ya que la expresión de Yj contiene un factor de escala arbitrario. Esto equivale a decir que al multiplicar la expresión de Yj por una constante, obtenemos la misma componente aumentada, o disminuida, dependiendo de la constante. Dado que, var(Y1 ) = var(at1 X) = at1 Σa1 , de lo que trata es de maximizar esta función sujeta a la restricción atj aj = 1. Véase, en el Apéndice A, “Optimización de la matriz de varianzas covarianzas”. Observemos que el cálculo de las componentes principales asume que la matriz Σ es conocida, lo que generalmente no es el caso. En la mayoría de las ocasiones, por tanto, se trabaja con la matriz de varianzas-covarianzas muestral S, obteniéndose las componentes principales calculando los autovectores de S. Puesto que S es semidefinida positiva, los autovalores son positivos o cero, y representan una estimación de las varianzas de las componentes principales.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 379 — #391
i
CAPÍTULO 13. ANÁLISIS DE COMPONENTES PRINCIPALES
379
Como se ha indicado en la Introducción, el cálculo de las componentes principales no supone que la población desde la que se extrae la muestra analizada tenga una específica distribución de probabilidad. Esto implica que no puedan derivarse propiedades muestrales de los estimadores. En algunos casos (véase Morrison, 1976), no obstante, se ha supuesto que las observaciones proceden de una distribución normal multivariante (véase el capítulo “Análisis discriminante”), aunque nos gustaría aclarar que la teoría muestral resultante es aplicable solo a casos asintóticos, n → ∞, siendo n el tamaño muestral. También hacemos notar que, generalmente, resulta poco probable el supuesto de normalidad multivariante.
13.2.1.
Componentes principales de la matriz de correlación
Supongamos que en una observación x se mide el peso en libras, la altura en pies y la edad en años, y que denotamos la matriz de varianzas covarianzas resultante de un conjunto de observaciones como la anterior x mediante Sx . Si en la misma anterior observación medimos las tres variables citadas en kilogramos, metros y meses, denotándola z, tenemos, z = Kx, 1 0 2.2 1 K= 0 3.28 0 0
0 , 0 12
ya que, por ejemplo, un kilogramo son 2.2 libras. Siendo Sz la matriz de varianzas covarianzas de las observaciones z, puesto que K t = K, resulta, Sz = KSx K. Es evidente, en consecuencia, que autovalores y autovectores de Sx y Sz serán, en general, diferentes. Cuando a un conjunto de observaciones x las multiplicamos por, 1 s1 0 ... 0 1 0 ... 0 s2 , K= . .. .. .. . ... . 1 0 ... 0 sp
siendo si , i = 1, ..., p la desviación estándar muestral de la variable i, obtenemos un conjunto de observaciones z, definidas, z = Kx,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 380 — #392
i
380
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
cuya matriz de varianzas covarianzas es la matriz de correlaciones muestrales. Por tanto, autovalores y autovectores de las matrices de varianzas covarianzas y correlaciones son, en general, diferentes. Observemos que obtener las componentes principales de la matriz de correlaciones supone considerar, mediante la transformación K anterior, que todas las variables tienen varianza unidad, es decir, tienen la misma importancia. Parece claro que tal circunstancia es, al menos, arbitraria. Sin embargo, es un hecho que cuando una de las variables analizadas, sea Xj , tiene una varianza mucho mayor que el resto de las variables, la primera componente principal obtenida de la matriz de varianzas covarianzas queda prácticamente caracterizada por dicha variable. Esto significa que el elemento aj1 del autovector domina a los demás elementos del autovector, denominados component loadings, o pesos del componente. De aquí que se considere que la condición ideal para realizar un análisis de componentes principales es aquella en la que todas las variables analizadas tengan aproximadamente la misma variabilidad.
13.3 INTERPRETACIÓN DE LAS COMPONENTES PRINCIPALES Los principales objetivos de un análisis de componentes principales son dos. El primero es la identificación, y significado, de las nuevas variables denominadas componentes principales, y el segundo es la reducción de la dimensionalidad de los datos originales. Calculados los autovalores de la matriz de varianzas (o correlaciones), lo que se suele examinar es si las primeras componentes - la confianza es que sean pocas - explican gran parte de la variabilidad presente en los datos. Evidentemente, esto implica decidir qué autovalores son grandes y cuáles son pequeños, de forma que las componentes principales correspondientes a estos últimos puedan desconsiderarse. El problema es que no existe un procedimiento objetivo para tomar tal decisión. Posiblemente, la mejor idea sea explorar si entre los autovalores existe un modelo tal que permita saber el punto que actúa de frontera entre los autovalores grandes y los restantes. Por ejemplo, si como en la Figura 13.1, representamos en ordenadas los autovalores y en abscisas las componentes principales, podemos unir los puntos que representan la magnitud de los autovalores de cada componente principal y ver, si es posible, configuraciones como la de la figura, en la que destaca, por su magnitud, el primer autovalor respecto al resto. En algunas situaciones experimentales, las componentes principales correspondientes a grandes autovalores tratan de identificarse con alguna característica subyacente de la población. Por ejemplo, si la covarianza de todas las variables es positiva, la primera componente principal tiene pesos que son todos positivos, y se considera mide el tamaño de los individuos analizados.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 381 — #393
i
CAPÍTULO 13. ANÁLISIS DE COMPONENTES PRINCIPALES
381
Figura 13.1
Por otro lado, el análisis de componentes principales es un análisis que evalúa la dimensión real de un conjunto de datos. En el caso de que en unas pocas componentes principales, las primeras, tengan una variabilidad semejante a la de los datos originales, resulta una buena idea emplear las coordenadas de las observaciones sobre estas componentes principales en subsecuentes análisis de las observaciones. Dichas coordenadas, llamadas component scores, o puntuaciones del componente, se obtienen fácilmente de, yr = At xr , siendo At la matriz de autovectores, e yr la observación xr referida al espacio cartesiano de las componentes principales. Si, por ejemplo, las dos primeras componentes principales explican una gran parte de la variabilidad total, podemos, como en la Figura 13.2, representar en el plano cartesiano las observaciones mediante sus puntuaciones, y explorar si existe entre ellas agrupaciones, o elementos extremos o inhabituales.
EJERCICIOS 13.1. Jolicoeur y Mosimann (1960) hicieron un estudio sobre la variación del tamaño y la forma en tortugas pintadas. Para ello consideraron las variables (medidas en mm.), X1 = longitud del caparazón, X2 = anchura del caparazón y X3 = altura del caparazón, en 17 hembras (h) y 17 machos (m). Los datos que obtuvieron pueden verse en la tabla al final del capítulo. Interprétense las combinaciones lineales de X1 , X2 y X3 obtenidas, así como la localización, en el espacio de dimensión reducida, de los individuos estudiados.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 382 — #394
i
382
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 13.2
13.2. Sobre una muestra de 15 mujeres de entre 20 y 23 años, se efectuaron las siguientes medidas X1 = peso en kg., X2 = altura en cm., X3 = diámetro de hombros en cm. y X4 = diámetro de caderas en cm. Para medir las dos últimas variables, se utilizó una regla milimetrada con dos topos corredizos, que obtenía el diámetro desde los extremos bi-acromiales y bi-crestales. Los datos que se obtuvieron pueden verse en la tabla al final del capítulo. Analícese, mediante una técnica multivariante exploratoria, la relación entre las mujeres estudiadas, interpretándola a la vista de la caracterización de las variables compuestas obtenidas. 13.3. Con objeto de explorar la relación de similitud entre 6 individuos im , m = 1, ..., 6 de la especie V. crabro, se desean representar dichos individuos en un espacio euclídeo bidimensional, considerando que en cada uno de estos individuos se han medido longitud del cuerpo (V1 ), longitud del abdomen (V2 ), longitud de alas (V3 ) y longitud de la trompa (V4 ). La siguiente tabla muestra dichas medidas, V1 V2 V3 V4
i1
i2
i3
i4
i5
i6
30 18 12 26
28 17 11 24
24 13 7 21
26 17 10 23
27 16 9 24
28 16 10 24
Coméntense los resultados obtenidos, la definición de las variables que definen los ejes del espacio euclídeo, y dígase el porcentaje de variabilidad original perdido en el paso a dicho espacio. 13.4. Un zoólogo desea examinar diferencias en la estructura corporal de los individuos pertenecientes a tres muestras (mi , i = 1, 2, 3) que considera representativas de tres poblaciones animales. A tal efecto, midió en cada animal dos variables, altura (H) y anchura (W ), cuyos datos pueden consultarse en las tablas al final del capítulo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 383 — #395
i
CAPÍTULO 13. ANÁLISIS DE COMPONENTES PRINCIPALES
383
Coméntese la diferencia en la estructura corporal de los individuos de las tres muestras seleccionadas a la vista de la definición de las combinaciones lineales obtenidas y la representación de los individuos en el espacio euclídeo generado por estas combinaciones lineales. 13.5. Con el propósito de analizar si nueve medicamentos (m1 , ..., m9 ) diferentes son similares en cuanto a su efectividad, se han medido, por medicamento, cuatro índices (E1 , ..., E4 ) de efectividad, cada uno con escala propia. La siguiente tabla muestra estas mediciones, m1 m2 m3 m4 m5 m6 m7 m8 m9
E1
E2
E3
E4
6 5 3 6 4 4 3 3 2
19 20 28 20 28 27 26 26 15
110 107 119 108 121 119 118 120 101
48 44 75 49 71 74 73 72 40
Razónese, a la vista de los resultados obtenidos empleando la técnica multivariante más apropiada al caso, si el número de medicamentos debería ser reducido. 13.6. Con el fin de realizar un análisis preliminar sobre la relación de semejanza entre 10 observaciones multidimensionales, se obtuvieron los siguientes datos, X1 X2 X3
o1
o2
o3
o4
o5
o6
o7
o8
o9
o10
5.1 3.2 1.4
4 3 0.6
4.9 3.2 1.3
5.1 3.5 1.5
5 3.3 1.4
5.3 3.4 1.6
5.2 3.6 1.5
4.2 3 0.6
4.2 2.9 0.6
6.4 5 2.3
Aplíquese una técnica multivariante exploratoria para reducir la dimensión del problema, examinando tanto la relación entre observaciones como la influencia de las variables medidas en los ejes del espacio euclídeo resultante.
SOLUCIONES Ejercicio 13.1. En el conjunto de datos estudiados, las tres variables analizadas no son homogéneas respecto a su variabilidad, vd ar(X1 ) = 411.954, vd ar(X2 ) = 168.332, vd ar(X3 ) = 69.59.
Conviene, por ello, pensar en la transformación de los datos. La transformación logarítmica es monótona, y, vd ar(ln(X1 )) = 0.025, vd ar(ln(X2 )) = 0.017, vd ar(ln(X3 )) = 0.028.
Es costumbre considerar que en tanto ninguna de las variables tenga una varianza muestral que sea el doble que la varianza muestral de alguna otra, el problema es de variabilidad
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 384 — #396
i
384
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
homogénea. En consecuencia, trabajaremos con datos transformados. En la siguiente tabla se recogen los resultados obtenidos con el paquete Statgraphics, Componente 1 2 3
Autovalor 0.0685 0.0013 0.0004
% varianza 97.464 1.904 0.632
% acumulado 97.464 99.368 100.00
teniendo en cuenta que las componentes se han extraído de la matriz de varianzas covarianzas de los datos transformados. Llama la atención el autovalor de la primera componente, que supone el 97.464 % de la variabilidad total de los datos. Este alto porcentaje indica que en el espacio unidimensional constituido por dicha componente principal pueden representarse con bastante fiabilidad los datos transformados, y que el paso de un problema con dimensión tres a otro con dimensión uno, se produce con solo una pérdida de aproximadamente 2.5 % de la variabilidad original. La caracterización de cada componente mediante los pesos del logaritmo de las variables originales resultó ser, ln(X1 ) ln(X2 ) ln(X3 )
CP 1
CP 2
CP 3
0.5966 0.4877 0.6372
-0.4156 -0.4914 0.7653
-0.6864 0.7215 0.0904
y así, por ejemplo, CP 1 = 0.5966 ln(X1 ) + 0.4877 ln(X2 ) + 0.6372 ln(X3 ). De esta última tabla de resultados se deduce que la influencia de las tres variables en la primera componente (CP 1) es similar. No así en la segunda componente, en donde ln(X3 ) no solo tiene el mayor peso sino también distinto signo que las otras dos variables medidas. Jolicoeur y Mosimann, entre otros, han sugerido que resultados como éstos, con pesos todos positivos en CP 1 y pesos con distinto signo sobre CP 2, pueden interpretarse pensando que CP 1 es una combinación lineal que recoge la información referente al tamaño de los individuos estudiados, en tanto que CP 2 se relacionaría con su forma. En cualquier caso, resaltamos de nuevo que la variabilidad - información - presente en el conjunto de datos está casi en su totalidad explicada por CP 1, es decir, que si CP 2 describe la forma de los individuos, las diferencias en forma entre éstos son escasas. En la Figura 13.3 se muestra, en el plano cartesiano constituido por las dos primeras componentes principales, las 34 tortugas analizadas. Puede apreciarse claramente que las mayores diferencias entre tortugas se producen sobre CP 1. Aproximadamente la mitad derecha de la nube de puntos corresponde a tortugas hembra, lo que indica que en esta especie parece obvio que las hembras tienen mayor tamaño que los machos. En efecto, tanto la longitud como la anchura y la altura de los ejemplares hembra son, en general, mayores que estas mismas medidas en los machos, y los puntos extremos de la nube de puntos de la anterior representación corresponden a (93, 74, 37), un macho, y (177, 132, 67), una hembra.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 385 — #397
i
CAPÍTULO 13. ANÁLISIS DE COMPONENTES PRINCIPALES
385
Figura 13.3
Ejercicio 13.3. A la vista de que, vd ar(V1 ) = 4.166, vd ar(V2 ) = 2.967, vd ar(V3 ) = 2.966, vd ar(V4 ) = 2.667,
obtendremos las componentes principales de la matriz de varianzas covarianzas. Las dos primeras componentes son, CP 1 = 0.575V1 + 0.47V2 + 0.485V3 + 0.46V4 , CP 2 = − 0.557V1 + 0.67V2 + 0.344V3 − 0.35V4 ,
y sus autovalores λ1 = 11.9384, λ2 = 0.6616, que suponen un porcentaje de varianza igual a 93.5 y 5.18, respectivamente. En consecuencia, el porcentaje de varianza perdida en el paso al espacio bidimensional euclídeo es de solo 1.3. Notemos que las cuatro variables originales V1 , ..., V4 influyen de manera similar en la definición del primer componente, el cual explicaría el tamaño de las observaciones, en tanto que en el segundo, cuya importancia en todo caso es bastante menor que la del primero, vemos que hay coeficientes positivos y negativos, lo que puede interpretarse como una variable compuesta que recoge información debida a la forma. En este sentido, diríamos que V2 y V3 tienen influencia de signo opuesto a la de las variables V1 y V4 , observando en cualquier caso que, en esta segunda componente, las variables más influyentes son V1 y V2 . Por último, la representación en el plano de los 6 individuos analizados muestra tres grupos, {i1 }, {i3 } y {i2 , i4 , i5 , i6 }, de similitudes morfológicas, como puede apreciarse en la Figura 13.4.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 386 — #398
i
386
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura 13.4
Ejercicio 13.4. Resulta que, ar(H) = 226.571 y vd ar(W ) = 236.052, vd
por lo que la extracción de las componentes principales se realiza de la matriz de varianzas covarianzas de las variables originales. De este modo, CP 1 = - 0.698H + 0.715W ; CP 2 = 0.715H − 0.698W,
en donde observamos que la influencia de las variables altura y anchura es aproximadamente la misma en la caracterización de las componentes. El primer autovalor es 432.925, y el segundo 29.6988, que representan el 93.58 % y 6.42 %, respectivamente, de la variabilidad presente en el problema. En consecuencia, el paso a un espacio cartesiano de una sola dimensión, supone la pérdida de alrededor 6.5 % de la varianza original. La Figura 13.5 muestra la disposición en dicho espacio de los individuos pertenecientes a las tres muestras seleccionadas. Puede observarse que los individuos de una muestra cualquiera son semejantes entre sí, así como que las observaciones de la muestra m1 se proyectan en la región negativa, entre -30 y -20 aproximadamente, de la primera componente principal, las observaciones de la muestra m3 proyectan en la vecindad de 0 y, por último, las observaciones de la muestra m2 tienen coordenadas en dicha componente que están entre 20 y 30. Puede concluirse, por ello y a la vista de la definición de la primera componente, que los individuos de m1 son más altos que anchos, lo contrario que los individuos correspondientes a la muestra m2 , en tanto que los que forman la muestra m3 son aproximadamente igual de altos que anchos. Es evidente, que esta conclusión podría derivarse directamente de la observación de la tabla de datos. La intención aquí ha sido instruir, con un conjunto de datos simple, sobre el funcionamiento de esta técnica multivariante exploratoria
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 387 — #399
i
CAPÍTULO 13. ANÁLISIS DE COMPONENTES PRINCIPALES
387
Figura 13.5
Ejercicio 13.5. La extracción de componentes principales puede ser útil para resolver este problema. En efecto, en primer lugar, observamos que, vd ar(E1 ) = 2, vd ar(E2 ) = 22.69, vd ar(E3 ) = 52.5, vd ar(E4 ) = 221.5,
lo que supone considerar un problema sin varianzas homogéneas. La transformación logarítmica no resuelve dicha heterogeneidad en relación a las varianzas, por lo que resulta aconsejable extraer las componentes principales de la matriz de correlación de las variables E1 a E4 . La siguiente tabla muestra los autovalores de las componentes y el porcentaje de variabilidad explicado, CP 1 CP 2 CP 3 CP 4
Autovalor 3.04 0.92 0.024 0.016
% varianza 76.038 22.95 0.598 0.412
.
Observemos que con las dos primeras componentes la variabilidad explicada es casi 99 % de la contenida en los datos. No obstante, tengamos presente que hemos estandarizado las variables originales - y como resultado trabajamos con la matriz de correlaciones - Como sabemos, esto significa que la varianza de las variables estandarizadas es igual a la unidad. No parece oportuno, por ello, seleccionar una componente principal cuya varianza, su autovalor, sea inferior a la unidad ya que supondría considerar una variable compuesta de importancia inferior a las variables originales. La tabla de puntuaciones de los medicamentos en el espacio unidimensional generado por la primera componente es la siguiente, CP 1
m1
m2
m3
m4
m5
m6
m7
m8
m9
1.57
1.68
-1.67
1.57
-1.52
-1.37
-1.29
-1.4
2.43
,
en donde pueden apreciarse tres grupos de medicamentos, {m1 , m2 , m4 }, {m3 , m5 , m6 , m7 , m8 } y {m9 }, de similar efectividad. Esta conclusión se obtiene considerando que la variabilidad explicada por CP 1 es tal que se pierde casi el 25 % de la variabilidad original. Dicha pérdida puede suponer que se tengan dudas razonables sobre la fiabilidad de la conclusión. Sin embargo, considerando la segunda componente principal, cuyo autovalor es próximo a la unidad, el porcentaje de variabilidad original perdido es aproximadamente 1 y, representando los medicamentos en el plano cartesiano resultante, resulta que la composición de los anteriormente citados tres grupos es invariable.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 388 — #400
i
388
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
X1
h X2
X3
X1
m X2
X3
98 105 123 123 133 133 136 138 138 141 147 153 155 155 158 162 77
81 86 92 95 99 102 102 98 99 105 108 107 115 117 115 124 132
38 42 50 46 51 51 49 51 51 53 57 56 63 60 62 61 67
93 101 103 104 106 112 114 116 117 117 119 120 121 125 127 131 135
74 84 81 83 83 89 86 90 90 91 93 93 95 93 96 95 106
37 39 37 39 39 40 40 43 41 41 41 44 42 45 45 46 47
Tabla de datos correspondiente a la longitud, anchura y altura de tortugas pintadas del Ejercicio 13.1.
X1
X2
X3
X4
54.25 64.8 44.2 65 63.4 45.8 68.3 58.9 55.6 52.9 54.61 53.5 57.3 75.5 68.3
161.73 167.1 155.4 167.4 166.8 160.7 164.2 165.8 163.8 158.7 166.7 160.6 167.9 153.4 173.5
36.53 38.1 34.4 37.8 36.9 35.7 38.2 37.1 35.2 36.4 36.3 35.4 36.6 34.2 36.3
30.1 31.2 29.6 31.3 31.9 29.9 32.5 31.4 31.7 30.8 31.2 29.8 31.2 32.5 30.8
Tabla de datos correspondientes a las medidas de quince mujeres del Ejercicio 13.2.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 389 — #401
i
CAPÍTULO 13. ANÁLISIS DE COMPONENTES PRINCIPALES
m1 :
i1,1 i2,1 i3,1 i4,1 i5,1 i6,1 i7,1 i8,1 i9,1 i10,1
h
w
53.1 49.8 51.9 54.3 52.2 53.9 58.5 52.1 49.9 53.5
19.1 18.2 17 13.1 14.9 13.7 17.6 15.6 16.2 14.8
m3 :
i1,3 i2,3 i3,3 i4,3 i5,3 i6,3 i7,3 i8,3 i9,3 i10,3
i1,2 i2,2 i3,2 i4,2 i5,2 i6,2 i7,2 i8,2 i9,2 i10,2
m2 :
h
w
43.1 39.8 41.9 44.3 42.2 43.9 38.9 42.1 39.9 43.5
42.9 37.6 40.9 43 41.2 42.6 36.7 40.2 37.9 40.1
h
w
20.6 22.7 16.5 14.2 20.1 14.7 15.3 18.6 17.4 19
50 58.3 53 48.6 51.3 50.1 45.7 54.6 47.1 57.2
389
Tablas de datos correspondientes al Ejercicio 13.4.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 390 — #402
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 391 — #403
i
CAPÍTULO
14 Análisis multivariante de la varianza 14.1 TRES DISTRIBUCIONES DE PROBABILIDAD MULTIVARIANTES Tanto en este capítulo como en el siguiente expondremos tres procedimientos que se basan en la distribución normal multivariante. Conviene, por tanto, detenerse brevemente en el análisis de esta distribución, así como en la definición de otras dos distribuciones relacionadas con ella.
14.1.1.
Distribución normal multivariante
Si X ∼ N (µ, σ 2 ), se verifica, X = µ + σY, Y ∼ N (0, 1). La generalización al caso normal bivariante es, X1 = µ1 + a11 Y1 + a12 Y2 X2 = µ2 + a21 Y1 + a22 Y2 , con Y1 ∼ N (0, 1), Y2 ∼ N (0, 1), e independientes. Se dice, entonces, que X1 y X2 siguen una distribución normal bivariante de parámetros µ1 , µ2 , σ12 , σ22 , ρ, que son, así definidos, µ1 = E(X1 ), µ2 = E(X2 ), σ12 = var(X1 ) = a211 + a212 , σ22 = var(X2 ) = a221 + a222 , σ12 = cov(X1 , X2 ) = ρσ1 σ2 = = E[(a11 Y1 + a12 Y2 )(a21 Y1 + a22 Y2 )] = = a11 a21 + a12 a22 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 392 — #404
i
392
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
ya que E(Yi2 ) = 1, i = 1, 2 y E(Y1 Y2 ) = 0. Si denominamos, a11 a12 A= , a21 a22 resulta que, Σ=
σ12 σ12 σ12 σ22
= AAt ,
siendo Σ la matriz de varianzas covarianzas de X1 y X2 . La generalización n-dimensional, n > 2, es, Xi = µi + ai1 Y1 + ... + ain Yn , Yi ∼ N (0, 1), i = 1, ..., n. Siendo,
a11 .. A= .
... a1n .. , ... .
an1 ... ann
una matriz cuadrada de orden n, no singular, Σ = AAt , la matriz de varianzas covarianzas, definida positiva, y µ = (µ1 , ..., µn )t , el vector de parámetros centrales, se dice que X = (X1 , ..., Xn )t se distribuye normalmente, simbolizándose, X ∼ Nn (µ, Σ). Por tanto, con Y = (Y1 , ..., Yn )t , Yi ∼ N (0, 1), i = 1, ..., n, X = AY + µ. Propiedades 1. La función de densidad conjunta de (X1 , ..., Xn ) es, −1 1 Σ 2 1 t −1 f (x1 , ..., xn ) = (x − µ) , x = (x1 , ..., xn )t . n exp − (x − µ) Σ 2 (2π) 2 En efecto, dadas las anteriores definiciones, sea y = (y1 , ..., yn )t . Ya que Y1 , ..., Yn son independientes, 1 t exp − y y 2 g(y1 , ..., yn ) = . n (2π) 2 La transformación que pasa de (Y1 , ..., Yn ) a (X1 , ..., Xn ) es lineal, pudiéndose ver sin dificultad que el jacobiano de la transformación inversa es, 1 J = A−1 ⇒ |J| = Σ−1 2 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 393 — #405
i
CAPÍTULO 14. ANÁLISIS MULTIVARIANTE DE LA VARIANZA
393
Por último, considerando que, t yt y = A−1 (x − µ) A−1 (x − µ) = (x − µ)t Σ−1 (x − µ), se obtiene f.
2. La distribución marginal de Xi , i = 1, ..., n es normal univariante. 3. La distribución de toda variable compuesta, V = v1 X1 + ... + vn Xn es también normal univariante. 4. Si X = (X1 , ..., Xn )t ∼ Nn (µ, Σ), B es una matriz cuadrada de orden n, y U es un vector columna con n componentes, se verifica, Z = BX + U ∼ Nn (Bµ + U, BΣB t ). En efecto, siendo X = AY + µ, Z = BAY + Bµ + U, por lo que, E(Z) = Bµ + U, Σz = BAAt B t = BΣB t . 5. Si Σ es diagonal –si las variables son incorrelacionadas– entonces X1 , ..., Xn son independientes estocásticamente. Esta propiedad es fácil demostrar sin más que examinar la función de densidad conjunta, que en este caso, es igual al producto de las marginales. 6. Si X ∼ Nn (µ, σ 2 In ), es decir, las variables Xi son independientes con igual varianza, entonces, siendo T una matriz ortogonal, Z = T X, supone que Zi sean también independientes, lo que se deriva fácilmente de la propiedad 4. 7. Si X ∼ Nn (µ, Σ), entonces,
(X − µ)t Σ−1 (X − µ) ∼ χ2(n ,
pues si definimos, 1
Z = Σ− 2 (X − µ) ⇒ Z ∼ Nn (0, In ), considerando la propiedad 4. En consecuencia, (X − µ)t Σ−1 (X − µ) = Zt Z = Z12 + ... + Zn2 , es la suma de los cuadrados de n variables aleatorias independientes con distribución normal reducida.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 394 — #406
i
394
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
14.1.2.
Distribución de Wishart
Es una distribución que siguen algunas matrices simétricas, con papel similar a la distribución ji-cuadrado del caso univariante. Como acabamos de ver en la propiedad 7, siendo Z = (Z1 , ..., Zp )t un vector de p observaciones independientes distribuidas N (0, 1), entonces, Zt Z =
p X i=1
Zi2 ∼ χ2(n .
De forma similar, que no igual, podemos definir la matriz aleatoria, Z11 Z12 ... Z1n .. .. , Z = ... . ... . Zp1 Zp2 ... Zpn
cuyas filas siguen la distribución normal multivariante, Zi ∼ Nn (µi , Σ), i = 1, ..., p, y son independientes. Entonces, la matriz simétrica, W = Z t Z ∼ Wn (Σ, p; M ), se dice que tiene una distribución Wishart no centrada con parámetros Σ y p, siendo M = (µ1 , ..., µp )t . En caso de que µi = 0, i = 1, ..., p la distribución Wishart es centrada, Wn (Σ, p). La función de densidad de una distribución Wishart centrada cuando Σ es definida positiva es, p−n−1 1 −1 2 |W | exp − tr ΣW 2 f (W ) = pn n(n−1) . p Q n 2 2 π 4 |W | 2 i=1 Γ 12 (p + 1 − i) En Anderson (1958) pueden verse las propiedades de esta distribución.
14.1.3.
Distribución lambda de Wilks
Puede considerarse la versión multivariante de la distribución F de Fisher-Snedecor. Supongamos que, A ∼ Wn (Σ, s), B ∼ Wn (Σ, t), y que A y B son independientes, con s ≥ n. Entonces, Λ=
|A| ∼ Λ(n,s,t , |A + B|
sigue una distribución lambda de Wilks de parámetros n, s, t.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 395 — #407
i
CAPÍTULO 14. ANÁLISIS MULTIVARIANTE DE LA VARIANZA
395
El lector interesado puede consultar en Anderson (1958) las propiedades de esta distribución. Cuando n = 1, o n = 2, la distribución lambda de Wilks es equivalente a una F(t,s , o F(2t,2(s−1) , respectivamente, así como cuando t = 1, o t = 2, que es F(n,s−n+1 , o F(2n,2(s−n+1) . Para otros valores de n y t, la siguiente aproximación asintótica de Rao (1951), 1 ab − 2c 1 − Λ b V = , 1 nt Λb siendo,
n+t+1 , 2 2 2 n t −4 b2 = 2 2 , n t −5 nt − 2 c= , 4 se distribuye aproximadamente como una F(nt,ab−2c . En Johnson y Kotz (1970) puede verse que, a=s+t−
m
−1 Y 1 |A| , = In + A−1 B = |A + B| 1 + λi i=1
siendo λ1 , ..., λm los valores propios no nulos de A−1 B.
14.2 ANÁLISIS MULTIVARIANTE DE LA VARIANZA Tanto las ideas como los cálculos - no su magnitud, claramente - del análisis multivariante de la varianza (MANOVA) son esencialmente similares a los vistos para el ANOVA. Sin embargo, el contraste de hipótesis y la interpretación de resultados son más complicados.
14.2.1.
Obtención de las matrices de sumas de cuadrados y productos
En un MANOVA p-dimensional hay p sumas de cuadrados totales que se descomponen, como en el ANOVA, en la suma de cuadrados de uno o más tratamientos y la suma de cuadrados de los residuos, o suma de cuadrados dentro de muestras. Sin embargo, al considerar p variables, además debemos calcular p(p − 1)/2 covarianzas entre pares de variables. De igual manera que las sumas de cuadrados aluden a varianzas, el término suma de productos hace referencia a las covarianzas. Estas medidas de las varianzas y covarianzas forman la matriz de suma de cuadrados y productos total. Como en el caso univariante, dicha matriz se descompone en matrices de sumas de cuadrados y productos de las diferentes fuentes de variación. Todas las matrices son simétricas.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 396 — #408
i
396
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
La obtención de estas matrices quedarán mejor ilustrados mediante un ejemplo. Ejemplo 14.1 Con el propósito de estudiar el efecto que la temperatura ambiental tiene sobre el crecimiento de tumores inducidos subcutáneamente en la rata, se criaron tres animales de cada sexo en tres temperaturas diferentes. La variables medidas fueron X1 , el peso inicial del animal, X2 , el peso final (descontando el peso del tumor) y X3 , el peso del tumor. Las tres tablas al final del capítulo, corresponden a datos recogidos (T1), medias muestrales (T2), y matrices de sumas de cuadrados y productos obtenidas (T3). Con objeto de exponer del modo más sencillo el cálculo de los elementos de estas últimas matrices, damos a continuación algunos ejemplos de resolución. La varianza muestral de X1 para el efecto temperatura, 4.8161, se obtiene a partir de la siguiente suma de cuadrados, SCto X1 = (19.092 − 19.669)2 + (20.347 − 19.669)2 + (19.568 − 19.669)2 . La varianza muestral de X2 para la interacción entre temperatura y sexo, 2.5163, es proporcional a, SCto sX2 = (18.617 − 19.098 − 19.139 + 19.513)2 + +(19.58 − 19.098 − 19.887 + 19.513)2 + ...+ +(18.94 − 18.42 − 19.887 + 19.513)2 . Por otro lado, la covarianza muestral de las variables X1 y X2 para los residuos, 7.0094, es proporcional a la suma de productos, SP rX1 X2 = (18.15 − 18.79)(16.51 − 18.617)+ +(18.68 − 18.79)(19.5 − 18.617) + ...+ +(20.85 − 19.817)(19.9 − 18.94), y la covarianza muestral de las variables X2 y X3 para la interacción, 0.08818, es proporcional a la suma de productos, SP to sX2 X3 = (18.617 − 19.098 − 19.139 + 19.513) (0.16 − 0.218 − 0.321 + 0.263) + ...+ +(18.94 − 18.112 − 19.887 + 19.513) (0.217 − 0.275 − 0.206 + 0.263).
Las constantes de proporcionalidad que permiten obtener varianzas y covarianzas muestrales en el anterior ejemplo son, como en el ANOVA, los grados de libertad asociados a cada fuente de variación. Dado que éstos se deducen a partir del diseño de la situación experimental, es decir, considerando el tamaño muestral, la existencia de uno o más
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 397 — #409
i
CAPÍTULO 14. ANÁLISIS MULTIVARIANTE DE LA VARIANZA
397
factores y los niveles de cada factor, siendo el caso que dicho diseño no se relaciona con el hecho de medir una o más variables, los grados de libertad en un ANOVA y un MANOVA son los mismos. Por tanto, en el anterior ejemplo, los grados de libertad del efecto temperatura son dos, los del efecto sexo uno, los de la interacción dos y los correspondientes a los residuos doce.
14.2.2.
Estadísticos de contraste
Análogamente al caso univariante, considerando dos factores con a y b niveles respectivamente, el modelo supone, Xij = µ + τi + υj + (τ υ)ij + Eij , i = 1, ..., a, j = 1, ..., b, con Eij ∼ Np (0, Σ), e independientes. Denominemos R a la matriz de sumas de cuadrados y productos residual, y H a cualquiera de las matrices de sumas de cuadrados y productos de los tratamientos, o la interacción entre ellos. Anderson (1958) demuestra que las raíces de la ecuación, |H − θR| = 0, son estadísticos invariantes ante cambios de origen y escala, que contrastan las fuentes de variación en un MANOVA. En el citado texto de Anderson también puede verse que las raíces θi , i = 1, ..., p, son tales que θi ≥ 0, y que si r(H) < p, entonces p − r(H) de las raíces son cero. Notemos que la anterior ecuación puede escribirse, HR−1 − θI = 0,
siendo HR−1 una matriz no simétrica. De aquí que θi sean los autovalores de la matriz HR−1 y que si p = 1, el único autovalor θ1 de la ecuación es igual a H/R, que es proporcional al estadístico correspondiente con distribución F de Fisher de un ANOVA. Sin embargo, el estadístico que más frecuentemente se emplea para resolver un contraste MANOVA es el denominado Λ de Wilks, definido del siguiente modo, Λ=
|R| . |R + H|
Hacemos notar que la matriz R + H es la matriz de residuos bajo alguna hipótesis nula. Para ilustrarlo de modo sencillo, consideremos un ANOVA de dos factores aditivo, Xij = µ + τi + υj + Eij , cuya suma de cuadrados residuales denotamos mediante R. Si T, H1 y H2 se corresponden con las sumas de cuadrados total y de los efectos de los factores, respectivamente, tenemos, T = H1 + H2 + R.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 398 — #410
i
398
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Bajo la hipótesis nula de que los efectos de uno de los tratamientos - sean los correspondientes a H2 - son cero, la suma de cuadrados total, que debe permanecer constante, será la suma de cuadrados del otro tratamiento, también la misma, y una nueva suma de cuadrados residual, T = H 1 + R0 , siendo, entonces R0 = H2 + R. Es fácil ver que el estadístico Λ se relaciona con los autovalores θi de la matriz HR−1 . En efecto, |H − θR| = 0, puede escribirse, |(1 + θ)R − (H + R)| = 0, es decir,
R(H + R)−1 − λI = 0, λ =
1 . 1+θ
Notemos que si θi = 0, entonces λi = 1, y que 0 ≤ λi ≤ 1, de forma que valores pequeños de λ, es decir, valores grandes de θ, suponen el rechazo de la hipótesis nula. Sean p, h y r, el número de variables, y los grados de libertad de las matrices correspondientes a algún tratamiento y la residual. Entonces, p−h+1 ln Λ ∼ χ2(ph , − r− 2 una aproximación propuesta por Bartlett (1947). Rao (1973) ha demostrado que, bajo el supuesto de normalidad, Λp,h,r se distribuye como el producto de variables independientes con distribución beta, si la hipótesis nula es cierta. Ejemplo 14.2 Contrastemos las tres hipótesis nulas del Ejemplo 14.1. H0 : (τ υ)ij = 0, i = 1, 2, 3, j = 1, 2 H1 : no H0 . Con |R| = 15.9336, |R + H| = 24.6405, r = 12, p = 3, h = 2, tenemos Λ3,2,12 = 0.772, y −11 ln Λ = 2.85. Puesto que en una χ2(6 , el p-valor correspondiente a 2.85 es 0.827425, concluimos que no existe interacción entre los efectos de los factores temperatura y sexo. En consecuencia, procedemos a contrastar las hipótesis nulas correspondientes a los efectos de los factores. H0 : τi = 0, i = 1, 2, 3 H1 : no H0 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 399 — #411
i
CAPÍTULO 14. ANÁLISIS MULTIVARIANTE DE LA VARIANZA
399
Siendo, ahora, |R + H| = 60.8862, Λ3,2,12 = 0.2617 y −11 ln Λ = 14.75, tenemos que en una χ2(6 , el p-valor de 14.75 es 0.0222. Por tanto, todo tamaño de la región de rechazo superior a 2.22 % producirá el rechazo de la hipótesis nula. H0 : υj = 0, j = 1, 2 H1 : no H0 . Como, en este contraste, |R + H| = 47.2451, Λ3,1,12 = 0.3373 y −10.5ln Λ = 11.41, el p-valor de 11.41 en una χ2(3 es 0.0097. De aquí que se rechace la hipótesis nula para todo tamaño de la región crítica igual o superior al 1 %.
14.2.3.
Homogeneidad de las matrices de varianzas covarianzas residuales
Como en un ANOVA, uno de los supuestos del MANOVA es que las poblaciones en estudio tienen iguales matrices de varianzas covarianzas residuales. Cuando el análisis de la varianza es multivariante, este supuesto se contrasta utilizando el cociente de verosimilitudes. Sea Θ el espacio paramétrico constituido por k vectores de medias µi y matrices de covarianzas Σi , i = 1, ..., k. En Anderson (1958) puede verse que los estimadores b i , es decir, los vectores de medias y las matrices puntuales de estos parámetros son Xi y Σ de varianzas covarianzas muestrales. El máximo de la función de verosimilitud es, − pN 2
b = (2π) L(Θ)
k ni Y pN b − 2 exp − , Σi 2 i=1
siendo ni el tamaño de la muestra i, y,
N=
k X
ni .
i=1
Por otro lado, el espacio paramétrico Θ0 constituido por los k vectores de medias µi y la matriz de varianzas covarianzas común Σ, tiene como estimadores máximo verosímiles los vectores de medias muestrales Xi y la siguiente matriz muestral de varianzas covarianzas, N −kb Σ, N siendo, Xk b= 1 b i. Σ ni Σ i=1 N −k Ahora, el máximo de la función de verosimilitud es, − N 2 pN N − k pN − b 0 ) = (2π) 2 b L(Θ Σ exp − . N 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 400 — #412
i
400
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Por tanto, el cociente de verosimilitudes es, n Qk b 2i Σ i=1 i λ= N , N −k b 2 N Σ
y el contraste se resuelve con el estadístico, X k N − k b b i ) ∼ χ2 (k−1)p(p+1) , −2 ln(λ) = N ln Σ − ni ln(Σ N 2 i=1
cuya distribución es asintótica.
14.3 DIMENSIÓN DE LA HIPÓTESIS ALTERNATIVA De igual modo que en un ANOVA, si se rechaza alguna hipótesis nula del MANOVA cabe preguntarse por el número exacto de poblaciones existentes en la situación experimental analizada. Se dice, entonces, que nos preguntamos por la dimensión real de la hipótesis alternativa. Supongamos un experimento en el que se analiza un factor con tres niveles, y las observaciones son trivariantes. Sean µi , i = 1, 2, 3 los parámetros centrales de los tres tratamientos, y representemos estos parámetros como tres puntos en un espacio cartesiano tridimensional cuyos ejes son las tres variables medidas. Es evidente que tres puntos definen un subespacio de dos dimensiones ya que siempre se puede construir un plano que los contenga. De aquí que, haciendo el supuesto H1 : µ1 6= µ2 6= µ3 , digamos que esta hipótesis es bidimensional. Supongamos, ahora, que los tres puntos que representan a los vectores de medias son colineales, es decir, que, por ejemplo, se da el caso H1 : µ1 = µ2 6= µ3 . En esta situación, los tres puntos forman un subespacio de una dimensión, y diremos que la hipótesis es unidimensional, contrariamente al caso anterior. Obviamente, cuando los tres puntos coinciden, la hipótesis nula, H0 : µ1 = µ2 = µ3 , es cierta. Sea rΣ la matriz de varianzas covarianzas, común a los tres tratamientos, multiplicada por los grados de libertad de su matriz estimación R. Sea, además, Hµ la matriz de suma de cuadrados y productos referente al efecto del factor con tres tratamientos, calculada considerando los parámetros µi , i = 1, 2, 3, en vez de los vectores de medias muestrales. En la ecuación, |Hµ − θrΣ| = 0,
el rango de Hµ, por tanto el número de autovalores no nulos de la ecuación, dependerá de la dimensión real que generan los parámetros µi . Es decir, dos raíces no nulas de la
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 401 — #413
i
CAPÍTULO 14. ANÁLISIS MULTIVARIANTE DE LA VARIANZA
401
anterior ecuación indicarán que los tres parámetros forman un subespacio bidimensional y son distintos entre sí. Un autovalor no nulo supone que los tres parámetros son colineales, forman un subespacio unidimensional, y existen dos de ellos diferentes. Por último, todos los autovalores nulos implica que la hipótesis nula es cierta. Supongamos, ahora, que analizamos una situación experimental con un factor de cuatro niveles, y las observaciones son bivariantes. Es evidente que los cuatro parámetros centrales serán representables en un espacio bidimensional, y por tanto, que su dimensión real no puede ser mayor que dos. En general, siendo h los grados de libertad de la matriz de efectos - recuérdese que h es el número de niveles del factor menos uno -, y p el número de variables, la dimensión máxima de la hipótesis alternativa es m´ın(h, p), y la dimensión real de dicha hipótesis es el número de autovalores no nulos de la ecuación anterior. Por otro lado, en un problema con al menos dos factores, si la interacción es significativa, lo razonable será comparar las medias de las celdas antes que las medias de filas o columnas. En cualquier caso, es evidente que tanto Hµ como Σ son desconocidas, por lo que las raíces de la ecuación paramétrica deben ser estimadas de la ecuación, |H − θR| = 0. En consecuencia, se hace necesario un contraste que determine el número de autovalores no nulos de la anterior ecuación. Habiendo obtenido θ1 ≥ θ2 ≥ ... ≥ θp , supongamos que pensamos en la hipótesis de que la dimensión del problema es d. Bartlett (1947) indica que, bajo el supuesto de que es cierta la hipótesis realizada, entonces, p p−h+1 X ln λi ∼ χ2[(p−d)(h−d) , − r− 2 i=d+1
siendo, como vimos, λi =
1 . 1 + θi
En consecuencia, # " Y p p−h+1 r− ln (1 + θi ) ∼ χ2[(p−d)(h−d) , 2 i=d+1
Ejemplo 14.3 En el Ejemplo 14.2, al concluir que la interacción entre los efectos de los dos factores no es significativa, el modelo es aditivo, µij = µ + τi + υj ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 402 — #414
i
402
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y resulta por ello que la matriz de sumas de cuadrados y productos de los tratamientos es, H = T o + S, con 2 + 1 = 3 grados de libertad, donde T o es la correspondiente matriz de efectos debidos a la temperatura y S la de efectos debidos al sexo.. Los tres autovalores obtenidos de la ecuación HR−1 − θI = 0, son 2.68, 1.408 y 0.1095. Sea la hipótesis d = 2, o sea, la dimensión de la hipótesis alternativa es dos. Entonces, con r = 12, p = 3, h = 3 y 1 + θ3 = 1.1095, tenemos 12.5ln(1.1095) = 1.3 . Dado que χ2(1;0.05 = 3.84, aceptamos que d = 2 y, por tanto, existen dos autovalores distintos de cero, o lo que es lo mismo, θ3 = 0.1095 no difiere de cero significativamente. Sea la hipótesis d = 1. Ahora tenemos 12.5ln[2.408(1.1095)] = 12.28. Como 2 χ(4;0.05 = 9.49, rechazamos que d = 1. Por último, sea d = 0. Como 12.5ln[3.68(2.408)1.1095] = 28.57 y χ2(9;0.05 = 16.91, también rechazamos que d = 0.
14.4 ANÁLISIS CANÓNICO DE POBLACIONES Una vez concluido que la dimensión de la hipótesis alternativa es d, el subsecuente análisis consiste en identificar las poblaciones existentes, es decir, sabiendo que son d, asignaremos las muestras objeto de análisis a cada una de las d poblaciones. La técnica denominada análisis canónico de poblaciones permite dicha identificación en el subespacio de dimensión d. Consideremos Z = at X, una combinación lineal del vector de variables X. Como hemos visto, entonces var(Z) = at Σa. Al realizar un ANOVA tomando como datos los correspondientes a esta combinación lineal Z, compararemos la matriz at Ha de sumas de cuadrados y productos correspondiente a algún efecto, con la matriz residual at Ra. Con esta finalidad, construiremos el cociente varianzas, at Ha/h , at Ra/r siendo h y r los grados de libertad de H y R. La combinación lineal que maximiza dicho cociente de varianzas, Z1 , se denomina primera variable canónica. La segunda variable canónica, Z2 , es la combinación lineal que maximiza el anterior cociente de varianzas sujeta a la restricción cov(Z c 1 , Z2 ) = 0. El proceso continúa hasta calcular d variables canónicas en iguales circunstancias. Resulta que el cociente de varianzas es el mismo si en vez de a introducimos ka, k una constante. De aquí que añadamos la restricción, b = at at Ra = r ⇒ vd ar(Z) = at Σa
R a = 1. r
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 403 — #415
i
CAPÍTULO 14. ANÁLISIS MULTIVARIANTE DE LA VARIANZA
403
En consecuencia, al cumplirse esta restricción, calcularemos a de forma que at Ha sea máximo. La técnica de los multiplicadores de Lagrange, descrita en el subapéndice del Apéndice A, puede también comprenderse de la siguiente forma. La función, L1 (a) = at Ha + θ(r − at Ra), al ser derivada respecta a a, ∂L1 = 2Ha−2θRa, ∂a supone que un punto extremo debe cumplir, (H − θR)a = 0. Existe solución si |H − θR| = 0, por lo que nos encontramos nuevamente con la ecuación que resuelve un MANOVA. Observemos que esta última ecuación puede escribirse, premultiplicando por at , at Ha = θat Ra = θr. De aquí que el valor máximo de at Ha se obtenga eligiendo el primer - por ello, el mayor - autovalor θ1 y el correspondiente autovector a1 de la matriz HR−1 . El multiplicador de Lagrange para la segunda variable canónica, considerando que, cov(Z c 1 , Z) =
es,
at1 Ra = 0, r
L2 (a) = at Ha + θ(r − at Ra) − ω(at1 Ra). Siguiendo el mismo procedimiento que el empleado en la obtención de la primera variable canónica, la segunda variable canónica es el autovector a2 correspondiente al segundo autovalor θ2 de HR−1 , ya que, ∂L2 = 2Ha−2θRa−ωRa1 = ∂a = 2(H − θR)a − ωRa1 = 0 ⇒ , ω ⇒ at Ha = θr − at Ra1 = θr. 2 Las restantes variables canónicas se calculan análogamente. Ejemplo 14.4 Como hicimos notar en el anterior ejemplo, con H = T o + S, de tres grados de libertad, la dimensión del problema es dos. Esto implica que θ1 y θ2 son autovalores distintos de cero, y los correspondientes autovectores definen las variables canónicas, Z1 = 0.306X1 − 0.333X2 + 18.474X3 , Z2 = 0.107X1 + 0.609X2 + 2.938X3 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 404 — #416
i
404
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
A la vista de estas definiciones, la variable X3 es la que mayor influencia aporta a la interpretación de las variables canónicas, fundamentalmente en la primera estas variables. Las coordenadas de los vectores de medias de los tratamientos sobre las variables canónicas son, 4o C 20o C 34o C Machos (4.24,14.1) (6.02,16.39) (6.32,13.58) Hembras (2.81,14.54) (3.2,15.69) (3.77,14.3) Recordando que vd ar(Z) = 1, el error típico del vector aleatorio de medias mues√ trales es 1/ n, n el tamaño muestral (con tamaños muestrales diferentes, en lugar de n tendríamos ni para la muestra i). De aquí que, al ser las variables canónicas incorrelacionadas, con distribución normal, se puedan construir regiones de confianza circulares para los parámetros centrales, √ con centro en las medias muestrales y radio k/ n, k dependiendo del nivel de confianza que queramos obtener. Si k = 1, la confianza es de aproximadamente 68 %, ya que siendo el nivel de significación α ≃ 0.32, tenemos que α/2 ≃ 0.16 y P Z ≥ z(0.16 ≃ 0.16 ⇒ z(0.16 ≃ 1. Si k = 2, la confianza es aproximadamente 95 %. La Figura 14.1 muestra, para k = 2, la representación de los intervalos de confianza para los parámetros centrales analizados, apreciándose que existen diferencias significativas entre el grupo de temperaturas (4o , 34o ) y la temperatura 20o , así como entre sexos (h = hembras, m = machos).
Figura 14.1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 405 — #417
i
CAPÍTULO 14. ANÁLISIS MULTIVARIANTE DE LA VARIANZA
405
EJERCICIOS Ejercicios de MANOVA y Análisis Canónico de Poblaciones pueden verse en la sección Ejercicios del siguiente capítulo correspondiente a Análisis Discriminante. Tablas del Ejemplo 14.1 T1
4o C
20o C
34o C
Machos 18.68 18.15 19.54 16.51 19.5 19.84 0.24 0.32 0.2 21.27 19.57 20.15 23.3 22.3 18.95 0.33 0.45 0.35 17.2 20.74 20.02 16.69 19.26 15.9 0.41 0.28 0.31
Hembras 19.15 18.35 20.68 19.49 19.81 19.44 0.16 0.17 0.22 18.87 20.66 21.56 22 21.08 20.34 0.25 0.2 0.2 20.22 18.38 20.85 19 17.92 19.9 0.18 0.3 0.17
T2
4o C
20o C
34o C
Machos 18.79 18.617 0.16 20.33 21.517 0.377 19.32 17.283 0.333 19.48 19.139 0.321
Hembras 19.393
19.58 0.183
20.363 21.14 0.217 19.817 18.94 0.217 19.858 19.887 0.206
19.092
19.098 0.218 20.347
21.328 0.297 19.568
18.112
0.275 19.669
19.513 0.263
T3 Fuente Temperatura
Sexo
Interacción
Residuo
Total
4.8161
0.6422
1.2712 2.5163
0.2755
0.816 2.5163
MSCP 9.664 32.5867
19.3264
7.0094 26.6988
25.0602
18.7606 65.0072
0.284437 0.37693 0.019633 -0.19644 -0.38884 0.060089 0.03818 0.08818 0.006078 -0.19063 0.20847 0.0392 -0.06453 0.28473 0.125
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 406 — #418
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 407 — #419
i
CAPÍTULO
15 Análisis discriminante 15.1 INTRODUCCIÓN En su acepción más simple, la técnica del análisis discriminante se emplea cuando se desea asignar una observación, sea p-dimensional, a una de dos o más poblaciones conocidas. Consideremos inicialmente dos poblaciones, fi (x), i = 1, 2, así como que el error cometido al hacer una asignación equivocada está cuantificado - hablamos, por tanto, de una función de pérdida -. Anderson (1958) ha propuesto la siguiente regla de decisión para realizar asignaciones en situaciones como la ahora estudiada. Designando mediante πi la probabilidad a priori de que la observación x pertenezca a la población i, y mediante c(i | j) la pérdida, o el coste, de asignar erróneamente un individuo de la población j a la población i, tenemos, f1 (x) π2 c(1 | 2) ≥ ⇒ x ∈ f1 (x), f2 (x) π1 c(2 | 1) f1 (x) π2 c(1 | 2) < ⇒ x ∈ f2 (x). f2 (x) π1 c(2 | 1) Observemos que la anterior regla de decisión se puede escribir,
f1 (x)π1 c(2 | 1) ≥ f2 (x)π2 c(1 | 2) ⇒ x ∈ f1 (x), de forma que cuando π1 c(2 | 1) = π2 c(1 | 2), entonces la decisión es, sencillamente, asignar la observación problema a la población con mayor verosimilitud. Ejemplo 15.1 Supongamos que se sabe que el 2 % de los individuos de cierta población tienen una determinada enfermedad. Además, consideremos que cuando se prueba un test que detecta
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 408 — #420
i
408
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
la enfermedad, el coste de asignar un individuo enfermo entre los sanos es diez veces mayor que el coste de incluir un individuo sano entre los enfermos. Sea f1 la densidad de la población de individuos sanos, y f2 la densidad de la población de individuos enfermos. La regla de decisión de Anderson es, f1 (x) 0.02(10) ≥ ≃ 0.2 ⇒ x ∈ f1 (x), f2 (x) 0.98(1) f1 (x) . 0.2 ⇒ x ∈ f2 (x), f2 (x)
que, como se observa, indica que el cociente de verosimilitudes debe ser bastante menor que la unidad en orden a asignar un individuo a una de las poblaciones.
15.2 FUNCIÓN DISCRIMINANTE Supongamos que las dos poblaciones consideradas son normales, con igual matriz de varianzas covarianzas, X ∼ Np (µi , Σ), i = 1, 2. Entonces, se deduce fácilmente, 1 f1 (x) = xt Σ−1 (µ1 − µ2 ) − (µ1 − µ2 )Σ−1 (µ1 + µ2 ), ln f2 (x) 2 de forma que si, k = ln
π2 c(1 | 2) , π1 c(2 | 1)
tenemos que la regla de decisión de Anderson es, con L = Σ−1 (µ1 − µ2 ), 1 Lt x − Lt (µ1 + µ2 ) ≥ k ⇒ x ∈ f1 (x), 2 Lt x − 1 Lt (µ + µ ) < k ⇒ x ∈ f (x). 1 2 2 2 Al producto,
Lt x se le denomina función discriminante de Fisher, que, como se ve, no es sino el producto de la observación x por la diferencia, ponderada por la matriz de varianzas covarianzas, de las medias poblacionales. A la función, 1 Lt x − Lt (µ1 + µ2 ), 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 409 — #421
i
CAPÍTULO 15. ANÁLISIS DISCRIMINANTE
409
se la llama discriminador de Wald-Anderson y es la función discriminante de Fisher y un término constante compuesto por la diferencia cuadrática de las medias poblacionales ponderada por la matriz de varianzas covarianzas. Comúnmente, al discriminador de Wald-Anderson se le denomina función de clasificación, lo que, en nuestra opinión, es un error pues el problema de clasificar es diferente al de asignar. En efecto, cuando se clasifica no se tienen inicialmente dos o más poblaciones conocidas sino más bien un conjunto de elementos con los que debemos construir una partición. Notemos que si, π2 c(1 | 2) = 1 ⇒ k = 0, π1 c(2 | 1) de forma que la regla de decisión es, entonces, 1 Lt x − Lt (µ1 + µ2 ) ≥ 0 ⇒ x ∈ f1 (x), 2 1 Lt x − Lt (µ + µ ) < 0 ⇒ x ∈ f (x). 1 2 2 2
15.2.1.
Distribución del discriminador de Wald-Anderson
Dado que X se distribuye normalmente, se puede deducir la distribución del discriminador de Wald-Anderson. En efecto, sea, 1 U = Lt X − Lt (µ1 + µ2 ), 2 entonces, con, ψ = Lt (µ1 − µ2 ) = (µ1 − µ2 )t Σ−1 (µ1 − µ2 ), resulta que,
pues, por ejemplo,
1 ψ, ψ , X ∈ f1 ⇒ U1 ∼ N 2 1 X ∈ f1 ⇒ U2 ∼ N − ψ, ψ , 2
1 E(U1 ) = Lt E(X) − Lt (µ1 + µ2 ) = 2 1 t −1 = (µ1 − µ2 ) Σ µ1 − (µ1 − µ2 )t Σ−1 (µ1 + µ2 ) = 2 1 1 t = (µ1 − µ2 ) Σ−1 (µ1 − µ2 ) = ψ, 2 2 y, var(U1 ) = (µ1 − µ2 )t Σ−1 ΣΣ−1 (µ1 − µ2 ) = ψ.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 410 — #422
i
410
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
A ψ se le denomina distancia de Mahalanobis entre las poblaciones de parámetros centrales µ1 y µ2 . En la Figura 15.1 puede verse un ejemplo de la representación de U1 y U2 . Las áreas sombreadas indican la probabilidad de asignar erróneamente, es decir, P (1 | 2) = P (U2 > k), P (2 | 1) = P (U1 < k),
de forma que en el caso de que k = 0, tenemos,
P (1 | 2) = P (2 | 1), ya que,
con,
ψ P (U2 > 0) = P Z > √ , 2 ψ ψ P (U1 < 0) = P Z < − √ , 2 ψ Z ∼ N (0, 1).
Figura 15.1
Por otro lado, designando mediante pg a, pg = π1 P (2 | 1) + π2 P (1 | 2), entonces pg puede interpretarse como la probabilidad total de asignar erróneamente. Cuando k = 0, se verifica, pg = π1 P (U (U2 > 0) 1 < 0) + π2 P = P (U1 < 0) = −ψ/2 1√ =P Z< √ =G − ψ , 2 ψ
siendo G la función de distribución de una N (0, 1).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 411 — #423
i
CAPÍTULO 15. ANÁLISIS DISCRIMINANTE
411
Finalmente, notemos que la constante k, es decir, el punto a partir del cual se toma una decisión u otra, es la abscisa donde intersectan las funciones fi (u)πi c(j | i), i = 1, 2. En efecto, sea ue la abscisa tal que, f1 (ue )π1 c(2 | 1) = f2 (ue )π2 c(1 | 2). Tomando logaritmos neperianos y resolviendo en ue , se verifica, π2 c(1 | 2) = k. ue = ln π1 c(2 | 1)
15.2.2.
Discriminación con dos o más poblaciones de parámetros desconocidos
Hasta el momento hemos venido asumiendo que la distribución de X es conocida. En la práctica, que la distribución sea normal es un supuesto, y sus parámetros son estimados mediante los datos, cuya procedencia - de una u otra población - debe conocerse. La regla de decisión es, entonces, Lt x − 1 Lt (x1 + x2 ) ≥ k ⇒ x ∈ f1 (x), 2 1 Lt x − Lt (x1 + x2 ) < k ⇒ x ∈ f2 (x), 2 siendo,
b 1 − x2 ). L = Σ(x
La evaluación de k presenta algunos problemas. En primer lugar, porque las probabilidades a priori son desconocidas. Si, no obstante, ni , el tamaño de la muestra seleccionada de la población i, se considera suficientemente grande, entonces, ni π bi = P2
i=1 ni
.
En segundo lugar, evaluar los costes de cometer un error es, en general, dificil. Una solución consiste en sustituir dichos costes por las probabilidades de asignar erróneamente, si bien debemos tener en cuenta que al desconocerse los parámetros de la distribución de X, las distribuciones de U1 y U2 son complicadas de definir. En muchas aplicaciones, los costes se suponen iguales, así como las probabilidades a priori, por lo que el problema se reduce a considerar que k = 0. Por otra parte, recordemos que la regla de decisión de Anderson puede escribirse del siguiente modo, f1 (x)π1 c(2 | 1) ≥ f2 (x)π2 c(1 | 2) ⇒ x ∈ f1 (x).
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 412 — #424
i
412
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
A f1 (x)π1 c(2 | 1) = s1 se le denomina puntuación discriminante de la observación x sobre la población f1 - comúnmente conocida por el término inglés discriminant score - y permite, de hecho, generalizar la teoría del análisis discriminante a más de dos poblaciones, simplemente enunciando que la observación problema se asigna a la población con mayor puntuación discriminante. Supongamos que tratamos poblaciones normales con igual matriz de varianzas covarianzas y costes de asignación errónea también iguales. Recordando que, p 1 fi (x) = (2π) 2 |Σ|−1 exp − (x − µi )t Σ−1 (x − µi ) , 2 al sustituir los parámetros por sus estimaciones puntuales y tomar logaritmos, resulta, 1 b −1 (x − xi ) = si = ln(b πi ) − (x−xi )t Σ 2 1 b −1 b −1 x− 1 xt Σ b −1 xi . = ln(b πi ) − x t Σ x + xti Σ 2 2 i
b −1 xi , y teniendo en cuenta que el último término de la anterior exSiendo Li = Σ presión es el mismo para todo si , resulta,
1 si = Lti x− Lti xi + ln(πbi ), i = 1, ..., m 2 en el supuesto que estemos tratando con m poblaciones o grupos. De aquí que el procedimiento para asignar una observación problema consista, desde esta perspectiva, en calcular si para cada población y asignar el individuo desconocido a la población para la que si es mayor. Resaltamos que este procedimiento constituye la base de la mayor parte de los algoritmos que resuelven el análisis discriminante en los paquetes de programas estadísticos para ordenadores personales.
15.3 OTROS CRITERIOS DE ASIGNACIÓN Citaremos solo tres de dichos criterios para asignar observaciones de origen desconocido a dos o más poblaciones. 1. Análisis canónico de poblaciones. Supongamos se realiza un análisis canónico de poblaciones sobre datos que se sabe provienen de dos o más poblaciones. Como hemos visto en el capítulo anterior, entonces se calculan las coordenadas de los vectores de medias muestrales en un espacio de dimensión mínima. En consecuencia, también se pueden calcular las coordenadas de la observación problema, de forma que la asignaremos a la población cuyo vector de medias esté más próximo. Dado que el espacio en el que trabajamos es euclidiano, la medida que establece proximidad entre objetos es la distancia euclídea.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 413 — #425
i
CAPÍTULO 15. ANÁLISIS DISCRIMINANTE
413
2. Criterio geométrico. Similar al anterior en el sentido de que asigna individuos a la población más próxima, si bien en este caso, se emplean distancias de Mahalanobis. Definimos, δx,fi = (x − µi )t Σ−1 (x − µi ), i = 1, ..., m como la distancia Mahalanobis del individuo x a la población fi . Consecuentemente, si, δx,fi = m´ın{δx,f1 , ..., δx,fm } ⇒ x ∈ fi . Caso de considerar dos poblaciones, resulta que, δx,f2 − δx,f1 = 2xt Σ−1 (µ1 − µ2 ) + (µ2 − µ1 )Σ−1 (µ1 + µ2 ), una expresión parecida a la del discriminador de Wald-Anderson. En consecuencia, ( 2Lt x + Lt (µ1 + µ2 ) > 0 ⇒ x ∈ f1 (x), 2Lt x + Lt (µ1 + µ2 ) ≤ 0 ⇒ x ∈ f2 (x).
3. Regla de Bayes. Basada en el teorema de Bayes, indica que siendo, πi fi (x) P (fi | x) = Pm , i = 1, ..., m j=1 πj fj (x)
la probabilidad condicionada de que el objeto x pertenezca a la población fi , la regla consiste en asignar x a la población con mayor P (fi | x), o lo que es lo mismo, si πi fi (x) = m´ax{π1 f1 (x), ..., πm fm (x)} ⇒ x ∈ fi (x). En el caso de dos poblaciones, dado que, π1 f1 (x) ≥ 1 ⇔ π1 f1 (x) = m´ax{π1 f1 (x), π2 f2 (x)}, π2 f2 (x) la regla de Bayes es, π1 ≥ 0 ⇒ x ∈ f1 (x), ln[f1 (x)] − ln[f2 (x)] + ln π 2 π1 ln[f (x)] − ln[f (x)] + ln < 0 ⇒ x ∈ f2 (x). 1 2 π2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 414 — #426
i
414
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
15.4 DOS HIPÓTESIS BÁSICAS A CONTRASTAR Parece oportuno resaltar que para aplicar correctamente un análisis discriminante, se debe contrastar, por un lado, la hipótesis de homogeneidad de las matrices de varianzas covarianzas, que debe ser aceptada, y por otro lado, la hipótesis de igualdad de los vectores de medias, que debe ser rechazada. En el capítulo precedente correspondiente al análisis multivariante de la varianza y el análisis canónico de poblaciones, se han explicado dichos contrastes y los estadísticos que permiten resolverlos.
EJERCICIOS 15.1. Conviniendo en que por π1 se simboliza la especie Iris setosa, por π2 la especie Iris versicolor y por π3 a Iris virginica, Anderson (1939) realizó cuatro medidas en cada una de 50 plantas por especie. Dichas medidas fueron longitud del sépalo (X1 ), anchura del sépalo (X2 ), longitud del pétalo (X3 ) y anchura del pétalo (X4 ). A la vista de la tabla de datos mostrada al final del capítulo, donde se recogen las medidas de solo 15 ejemplares por especie, a) Detéctese qué variables contribuyen mejor a explicar las diferencias entre las especies del género Iris. b) Asígnese a una de las tres especies π1 , π2 o π3 las plantas cuyas medidas son (5,3.2,1.8,0.5), (6.8,3.3,4.1,1.6) y (7.5,2.4,6.3,2.2). 15.2. En la siguiente tabla se recogen las medidas de la altura (X1 ), el contorno del pecho (X2 ) y el contorno del brazo (X3 ) de 6 niños (o) y 4 niñas (a) de una región asiática, o1 o2 o3 o4 o5 o6 a1 a2 a3 a4
X1
X2
X3
78 76 92 89 81 82 76 75 78 75
60.6 58.1 63.2 62 60.8 59.5 58.4 58.1 58 57.4
16.5 15.5 14.5 14 15.5 15 14 14 14.5 13
¿Qué variables más contribuyen a diferenciar uno de otro sexo infantiles? Séxese la observación (77, 58.5, 15). 15.3. Mytilicola intestinalis es un copépodo parásito del mejillón que en estado larvario presenta diferentes estadios de crecimiento. Sin embargo, el estadio 1, denominado nauplius, y el estadio 2, denominado metanauplius, son de dificil identificación. En el contexto de un
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 415 — #427
i
CAPÍTULO 15. ANÁLISIS DISCRIMINANTE
415
estudio sobre las diferencias entre ambos estadios, se lograron identificar 17 ejemplares del estadio 1 y 17 ejemplares del estadio 2, en los que se midieron las variables (en micras) longitud del cuerpo (L) y anchura del cuerpo (A). Los datos obtenidos se muestran en la tabla al final del capítulo. Detéctense la(s) variable(s) que contribuye mejor a explicar las diferencias entre los citados estadios de crecimiento, y asígnese la observación (215.07,147.31) 15.4. En el contexto de una investigación sobre dimorfismo sexual en la tortuga Baula, se midieron longitud del caparazón (V1 ), anchura del caparazón (V2 ) y altura del caparazón (V3 ). La siguiente tabla muestra los datos obtenidos en 6 machos (mi , i = 1, ..., 6) y 7 hembras (hi , i = 1, ..., 7) de la citada especie, m1 m2 m3 m4 m5 m6 h1 h2 h3 h4 h5 h6 h7
V1
V2
V3
93 94 96 101 102 103 109 113 103 105 109 123 123
74 78 80 84 85 81 91 88 86 86 88 92 95
37 35 35 34 38 37 41 42 42 42 44 50 46
Analícese si el dimorfismo sexual observado es significativo al 5 %, y compruébese si la tortuga de medidas (102, 83, 41) corresponde a un macho. 15.5. Se han medido - en unidades arbitrarias - tamaño del hueso ilíaco (V1 ), dimensión del acetábulo (V2 ) y longitud de la sínfisis púbica (V3 ) en la pelvis de 3 especies de Primates que muestran un fuerte dimorfismo sexual en relación a este hueso. La siguiente tabla de datos (dividida en dos por razones de espacio) muestra estas medidas en 16 de dichos primates,
V1 V2 V3
o11
o21
o31
o41
V1 V2 V3
30 15 20
37 12 25
31 14 19
32 17 20
o51 36 12
26
o12
o22
o32
o42
o52
o13
o23
o33
o43
o53
o63
32 18 20
36 11 26
37 12 27
31 16 20
37 11 25
30 16 20
32 15 20
40 10 29
41 10 29
40 9 28
31 17 19
donde oij , i = 1, ..., 6, j = 1, 2, 3, representa la observación i-ésima de la especie j-ésima. Considerando, por un lado, que en las muestras de las tres especies examinadas hay tanto machos como hembras - cuyos códigos se han extraviado - y, por otro lado, que el tamaño de la pelvis es mayor en hembras, se pide sexar los primates seleccionados determinando
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 416 — #428
i
416
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
el número de grupos que forman, comprobar si los grupos difieren significativamente entre sí indicando las variables que más influyen en la diferencia y, finalmente, indicar a cuál especie y sexo pertenece la observación (39, 11, 30). 15.6. En el contexto de un estudio cuya finalidad es asignar el individuo i21 a uno de una serie de grupos diferentes de plantas, un botánico ha medido (en unidades arbitrarias) longitud del peciolo (V1 ), dimensión transversal de la hoja (V2 ) y dimensión longitudinal de la hoja (V3 ) en cada uno de 21 ejemplares de la especie Magnolia grandiflora. La siguiente tabla de datos (dividida en dos por razones de espacio) muestra dichas medidas, V1 V2 V3
V1 V2 V3
i1
i2
i3
i4
i5
i6
i7
i8
i9
i10
5 15 30
3 11 28
9 19 35
6 15 31
6 15 30
8 18 36
2 12 27
8 18 34
3 12 26
5 16 32
i11
i12
i13
i14
i15
i16
i17
i18
i19
i20
i21
6 16 31
9 19 34
3 12 27
3 11 26
8 20 34
6 15 32
10 18 35
2 12 28
9 19 36
1 12 26
7 20 39
El botánico, sin embargo, cuando se dispone a realizar el análisis observa que ha perdido los códigos de pertenencia a grupo de cada uno de los individuos i1 , ..., i20 . Se pide, empleando una técnica multivariante exploratoria, indicar el número de grupos que forman los individuos i1 , ..., i20 , así como la composición de dichos grupos - individuos que los integran - Compruébese si los grupos difieren significativamente entre sí y determínese, en su caso, las variables responsables de la diferencia entre grupos. Finalmente, asígnese i21 a uno de los grupos obtenidos.
SOLUCIONES Ejercicio 15.2. Veamos, en primer lugar, los resultados obtenidos referentes al MANOVA de una vía, en el supuesto de que las muestras sean extraídas de poblaciones normales bivariantes, con matrices de varianzas covarianzas iguales.. El estadístico lambda de Wilks toma el valor λ = 0.01756 y su aproximación a una distribución F es f = 867.153, con p-valor cero. En consecuencia, las dos muestras estudiadas pertenecen a poblaciones diferentes. Considerando que no se han tenido en cuenta costes por asignar erróneamente y que las probabilidades a priori son iguales, los discriminadores de Wald-Anderson resultantes son, DW Ae1 (x) = 79.8L − 77.9A − 3299.8, DW Ae2 (x) = 95.02L − 93.57A − 4547.23. Estas funciones permiten asignar las larvas desconocidas, y así, obtenemos de la observación (215.07,147.31), DW Ae1 (215.07, 147.31) = 2390.73, DW Ae2 (215.07, 147.31) = 2106.16.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 417 — #429
i
CAPÍTULO 15. ANÁLISIS DISCRIMINANTE
417
Por tanto, la larva de medidas (215.07,147.31) se asigna al estadio 1. Por otro lado, con la finalidad de examinar las variables originales que más contribuyen en la diferencia entre poblaciones, haremos una análisis canónico de poblaciones. Resulta evidente que el número de variables canónicas, o la dimensión del problema propuesto, es uno al tener dos niveles, estadio 1 y estadio 2, el factor del MANOVA resuelto. La definición de dicha variable canónica es, Z1 = −5.26L + 5.04A, lo que implica que la influencia de las dos variables medidas es aproximadamente la misma, aunque de signo opuesto, en orden a diferenciar los dos estadios de crecimiento. Ejercicio 15.4. Suponiendo se cumplen los requisitos para realizar un MANOVA de un factor con dos niveles, los sexos, obtenemos, λ = 0.1579, para una lambda de Wilks, con aproximación a una F de Fisher f = 15.996, con p-valor igual a 0.00059. Por tanto, con los datos analizados, los dos sexos difieren significativamente si α = 0.05. Los discriminadores de Wald-Anderson obtenidos son, DW Am (x) = − 6.433V1 + 12.5649V2 + 10.9138V3 − 386.057, DW Ah (x) = − 7.4817V1 + 14.1871V2 + 13.2112V3 − 505.251, y, DW Am (102, 83, 41) = 448.084, DW Ah (102, 83, 41) = 450.801, es decir, que la observación (102, 83, 41) es una tortuga hembra. Ejercicio 15.5. La resolución de este ejercicio supone, en primer lugar y como el enunciado indica, establecer los grupos que los 16 primates forman. Haremos, por ello, un análisis de componentes principales con la esperanza de que en el espacio cartesiano resultante, los animales estudiados constituyan grupos de similitud morfológica inconfundibles. Se comprueba que, vd ar(V1 ) = 14.8, vd ar(V2 ) = 8.4, vd ar(V3 ) = 14.9,
por lo que podemos pensar que estamos ante un problema homogéneo en relación a la variabilidad de las variables medidas - véase el primer ejercicio resuelto del capítulo correspondiente a análisis de componentes principales -. Los autovectores de la matriz de varianzas covarianzas muestral tienen asociados los siguientes autovalores, λ1 = 38.21, λ2 = 1.1, λ3 = 0.53, lo que supone el 96 %, 2.8 % y 1.2 %, respectivamente, de la variabilidad presente en los datos. Además, estos autovectores son, CP 1 = 0.62V1 − 0.438V2 + 0.65V3 , CP 2 = 0.298V1 + 0.898V2 + 0.32V3 , CP 3 = − 0.726V1 − 0.004V2 + 0.687V3 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 418 — #430
i
418
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
La Figura 15.2 muestra la recta real donde se han representado las observaciones correspondientes a los 16 primates estudiados, explicando el 98.8 % de la variabilidad. Pueden apreciarse claramente tres grupos, {o11 , o31 , o41 , o12 , o42 , o13 , o23 , o63 }, {o21 , o51 , o22 , o32 , o52 }, {o33 , o43 , o53 }, en donde en el primer grupo hay representantes de las tres espacies, en el segundo de las especies 1 y 2 y, en el tercer grupo, solo animales de la especie 3. Teniendo en cuenta tanto la definición de CP 1 como que la pelvis es mayor en hembras, se deduce que en el primer grupo solo hay machos, mientras en los segundo y tercer grupos solo hembras.
Figura 15.2
En el MANOVA de un factor realizado sobre estos tres grupos se obtuvo una lambda de Wilks igual a 0.0067, con p-valor = 7.52(10−11 ), por lo que los tres grupos analizados pertenecen como mínimo a dos poblaciones. Analizaremos a continuación la dimensión del problema (véase el capítulo anterior) con la intención de especificar cuántas poblaciones hay exactamente. Considerando que los grados de libertad de la matriz de los residuos es r = 13, los grados de libertad de la matriz de los efectos es h = 2, el número de variables es p = 3, y que tenemos dos variables canónicas cuyos autovalores son, respectivamente, 127.89 y 0.15, obtenemos los siguientes resultados. Realicemos el supuesto de que la dimensión real es d = 1. Resulta que 12 ln(1.15) = 1.715, y P (W > 1.715) = 0.4242, W ∼ χ2(2 , lo que supone que aceptemos que d = 1. Al hacer el supuesto de que d = 0, obtenemos que P (W > 59.98) = 9.44(10−14 ), por lo que rechazamos esta hipótesis. En conclusión, el autovalor 0.15 no es significativamente diferente de cero, y las observaciones y los vectores de medias de los tres grupos analizados pueden representarse en un espacio canónico de una dimensión. La siguiente tabla, indica las coordenadas de dichos vectores de medias - centroides sobre la primera variable canónica, así como los intervalos estimación de confianza 95 % para los correspondientes vectores paramétricos (véase el capítulo anterior), gm gh1 gh2
Centroides − 9.74 6.46 15.21
Intervalo de confianza 95 % (− 10.44, − 9.04) (5.57, 7.35) (14.06, 16.36)
con gm = {o11 , o31 , o41 , o12 , o42 , o13 , o23 , o63 }, gh1 = {o21 , o51 , o22 , o32 , o52 }, y gh2 = {o33 , o43 , o53 }. Concluiremos, por tanto, que hay tres poblaciones al no solapar los intervalos estimación obtenidos (véase Ipiña y Durand, 2004), es decir, que el dimorfismo sexual en las tres especies de Primates es significativo, siendo el caso que las hembras de la especie tercera difieren significativamente de las hembras de las especies primera y segunda. Véase la Figura 15.2.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 419 — #431
i
CAPÍTULO 15. ANÁLISIS DISCRIMINANTE
419
Por último, indiquemos que con los discriminadores de Wald-Anderson obtenidos, DW Am (x) = 63.83V1 − 10.08V2 + 53.94V3 − 1446.5, DW Ah1 (x) = 79.9V1 − 21.65V2 + 74.46V3 − 2298.27, DW Ah2 (x) = 89.97V1 − 27.65V2 + 84.33V3 − 2890.64, la observación de origen desconocido se asigna al grupo gh2 . Tabla de datos de las medidas efectuadas en plantas del género Iris del Ejercicio 15.1. π1
π2
π3
X1
X2
X3
X4
X1
X2
X3
X4
X1
X2
X3
X4
4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 5.4 4.8 4.8 4.3 5.8 5.7 5.1 5.7
3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 3.7 3.4 3 3 4 4.4 3.5 3.8
1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.4 1.7
0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 0.2 0.2 0.1 0.1 0.2 0.4 0.3 0.3
6.4 6.9 5.5 6.5 5.7 6.3 4.9 6.6 5.2 5 5.9 6 6.1 5.6 6.7 5.8 6.2
3.2 3.1 2.3 2.8 2.8 3.3 2.4 2.9 2.7 2 3 2.2 2.9 2.9 3.1 2.7 2.2
4.5 4.9 4 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4 4.7 3.6 4.4 4.1 4.5
1.5 1.5 1.3 1.5 1.3 1.6 1 1.3 1.4 1 1.5 1 1.4 1.3 1.4 1 1.5
5.8 7.1 6.3 6.5 7.6 4.9 7.3 6.7 7.2 6.5 6.4 6.8 5.7 5.8 6.4 7.7 7.7
2.7 3 2.9 3 3 2.5 2.9 2.5 3.6 3.2 2.7 3 2.5 2.8 3.2 3.8 2.6
5.1 5.9 5.6 5.8 6.6 4.5 6.3 5.8 6.1 5.1 5.3 5.5 5 5.1 5.3 6.7 6.9
1.9 2.1 1.8 2.2 2.1 1.7 1.8 1.8 2.5 2 1.9 2.1 2 2.4 2.3 2.2 2.3
Tabla de datos de los estadios 1 y 2 del copépodo parásito estudiado en el Ejercicio 15.2. Estadio 1
Estadio 2
L
A
L
A
219.05 218.3 220.4 220.08 225.1 222.14 220.7 210.03 211.06 213.75 212.9 214.8 224.6 223.14 227.09 225.07 217.46
138.73 138.05 141.4 140.92 145.03 144.1 142.7 132.02 133.11 135.41 132.09 135.9 144.3 143.71 147.93 145.12 136.83
241.03 242.15 243.08 243.9 245.09 250.01 240.27 238.09 239.11 234.81 233.06 241.99 247.51 249.03 244.1 243.76 235.01
147.9 148.14 149.08 150.2 152.71 155.04 146.03 144.62 145.7 143.09 140.07 148.1 153.66 154.23 152.02 150.12 143.21
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 420 — #432
i
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 421 — #433
i
APÉNDICE
A Álgebra y Geometría de matrices Desarrollaremos, aunque solo sea en parte, algunos conceptos y propiedades del álgebra de matrices necesarios para el correcto estudio de las técnicas multivariantes expuestas en este libro. Además, con la finalidad de mejorar la comprensión de los conceptos, ofrecemos una interpretación geométrica que, en lo que respecta a la obtención de autovalores y autovectores, creemos es de gran ayuda dada la frecuencia de su cálculo en las técnicas de análisis multivariante.
A.1 DEFINICIONES BÁSICAS Definición A.1 Una matriz es un conjunto de números reales o complejos, o de funciones de una o más variables, llamados elementos o términos de la matriz, dispuestos en filas y columnas formando una estructura rectangular, o cuadrada. Las filas son de igual longitud, así como las columnas. El álgebra de matrices es el álgebra de estos conjuntos, tratados como entidades individuales y denotados por símbolos únicos. Dicho álgebra también tiene en cuenta los elementos de la matriz aunque, sin embargo, lo que realmente define el álgebra matricial es el uso de las matrices como entidades individualizadas. Por ejemplo, a11 a12 a13 a21 a22 a23 A= a31 a32 a33 , a41 a42 a43
es una matriz a la que se ha dado el nombre A, cuyos elementos están diferenciados por su localización dentro de la matriz. Así, a32 es el elemento que ocupa la tercera fila y
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 422 — #434
i
422
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
la segunda columna, lo que, generalizado, puede escribirse aij , expresando que éste es el elemento en la fila i-ésima y la columna j-ésima. De aquí que otra notación para la anterior matriz sea, A = {aij }, i = 1, 2, 3, 4; j = 1, 2, 3. Definición A.2 El orden, o la dimensión, de una matriz es el número de filas y columnas que tiene. Si las filas son f y las columnas c, se escribe Af c para denotar que la matriz A tiene orden f por c. Definición A.3 Una matriz se llama cuadrada cuando el número de filas es igual al número de columnas. Por tanto, Af es la matriz cuadrada de orden f. Definición A.4 Se llama elemento diagonal de una matriz aquél con subíndices iguales. Así, a33 es un elemento diagonal y, en general, aii , será el símbolo para denotar los elementos que se sitúan en la diagonal (principal) de una matriz cuadrada. Definición A.5 Se llama traza de una matriz cuadrada A a, tr(A) =
f X
aii .
i=1
Definición A.6 Se denomina matriz diagonal a una matriz cuadrada cuyos elementos no diagonales son cero. Por ejemplo,
32 0 0 A = 0 −12 0, 0 0 3
es una matriz cuadrada diagonal de orden tres.
Definición A.7 Una matriz cuadrada es triangular cuando los elementos por encima, o debajo, de la diagonal son todos cero. Así,
1 −3 −23 45 , C = 0 9 0 0 −12
es un ejemplo de este tipo de matrices.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 423 — #435
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
423
Definición A.8 Un vector es una matriz con una sola columna, o una sola fila. Los denotaremos por letras minúsculas en negrita. Así, x1 x = x2 , x3
es un vector columna, mientras,
y t = y1 y2 y3 ,
es un ejemplo de vector fila.
Definición A.9 Un escalar es un número, o una matriz de orden 1. Definición A.10 Dos matrices son iguales cuando son iguales elemento a elemento. Es lo mismo que decir que, si A y B son dos matrices iguales, tenemos, A − B = {aij − bij = 0}. Definición A.11 Una matriz se llama nula, o cero, cuando todos sus elementos son cero. Naturalmente, no existe una única matriz nula, pues dado un orden de matriz, existe la correspondiente matriz nula.
A.2 OPERACIONES ELEMENTALES Suma de matrices Dos matrices del mismo orden se suman elemento a elemento, A + B = {aij + bij }, i = 1, ..., f ; j = 1, ..., c. Sea κ un escalar. Entonces, κA = A + ..(κ .. + A, lo que supone, κA = {κaij }, que se define como multiplicación por un escalar. De este modo puede definirse la diferencia entre dos matrices A y B del mismo orden, A − B = A + (−1)B = {aij − bij }, i = 1, ..., f ; j = 1, ..., c.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 424 — #436
i
424
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Producto de matrices Producto de vectores El caso más sencillo es el producto de vectores. Siendo x e y dos vectores del mismo orden, se define, y1 n . X t x y = x1 ... xn .. = xi yi = κ, i=1 yn
un escalar. También,
x1 x1 y1 ... x1 yn .. = A , xyt = ... y1 ... yn = ... n ... . xn xn y1 ... xn yn
una matriz cuadrada de orden n. Observemos en estos productos que, denotando mediante x1n e yn1 los correspondientes vectores fila y columna del primer producto de los dos anteriores, los subíndices segundo del primer vector y primero del segundo vector coinciden. Dicho de otra forma, para poder multiplicarse, la regla a considerar es que el número de columnas del primer vector y el de filas del segundo vector deben coincidir. Como vamos a ver, esta regla se aplica universalmente cuando se trata de obtener un producto. Producto de una matriz por un vector El producto de una matriz A por un vector x debe seguir la regla anterior, y se efectúa multiplicando los vectores fila de A por el vector columna x. El producto y = Ax es un vector columna, es decir, con, A = {aij }, i = 1, ..., f ; j = 1, ..., c, x = {xj }, j = 1, ..., c, tenemos, y = Ax =
c X
j=1
aij xj
, i = 1, ..., f.
Se habla entonces de la postmultiplicación de A por un vector. El producto de un vector x por una matriz A, la premultiplicación de A por un vector, sigue nuevamente la regla de columnas y filas citada anteriormente, y se efectúa multiplicando el vector fila x por los vectores columna de la matriz A. Así, A = {aij }, i = 1, ..., f ; j = 1, ..., c, xt = {xi }, i = 1, ..., f,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 425 — #437
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
425
supondrá, t
t
y =xA=
( f X
aij xi
i=1
un vector fila.
)
, j = 1, ..., c,
Producto de dos matrices El producto de dos matrices A y B es una generalización de los anteriores productos en el sentido de que se resuelve pensando en A compuesta de vectores fila que se multiplican por los vectores columna de B. Por ejemplo, con, a11 a12 b11 b12 A = a21 a22 , B = , b21 b22 a31 a32
tenemos,
a11 b11 + a12 b21 a11 b12 + a12 b22 AB = a21 b11 + a22 b21 a21 b12 + a22 b22 . a31 b11 + a32 b21 a31 b12 + a32 b22
En general, siendo,
A = {aij }, i = 1, ..., f ; j = i, ..., c, B = {bij }, i = 1, ..., c; j = 1, ..., d, tenemos, AB =
( c X
aik bkj
k=1
)
, i = 1, ..., f ; j = 1, ..., d.
Si la matriz A es de orden f c, entonces, 1. AB y BA existen si B es de orden cf. 2. A2 existe cuando A es cuadrada. 3. AB y BA existen siempre si ambas son cuadradas del mismo orden. En este caso, AB y BA no son necesariamente iguales. Producto por una matriz diagonal La matriz A premultiplicada por la matriz diagonal D genera una matriz cuyas filas son las de A multiplicadas por el correspondiente elemento diagonal de D que ocupa la misma fila. Así, 1.3 0 2 −1 7 D= ,A = , 0 2.1 −1 0 1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 426 — #438
i
426
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
produce, como resultado de multiplicarlas, 2.6 -1.3 9.1 DA = . -2.1 0 2.1 Análogamente, la postmultiplicación por D resulta en una matriz cuyas columnas se multiplican por el correspondiente elemento diagonal de D que ocupa la misma columna.
A.3 LEYES DEL ÁLGEBRA Citaremos solo las más importantes leyes relacionadas con la suma y la multiplicación. 1. La suma de matrices es asociativa, A + (B + C) = (A + B) + C. 2. El producto de matrices es también asociativo. 3. Se verifica la ley distributiva, A(B + C) = AB + AC. 4. La suma de matrices es conmutativa, A + B = B + A. 5. El producto de matrices no es conmutativo, en general. El producto si es conmutativo en los siguientes casos. a) Una de las matrices es la nula, y así, Af 0f = 0f Af = 0f . También, Af c 0c = 0f c = 0f Af c . b) Una de las matrices es la matriz identidad, If , es decir, la matriz diagonal de orden f con elementos diagonales todos la unidad, Af If = If Af = Af . La matriz κI, κ un escalar, se llama matriz escalar. c) Una de las matrices es escalar, κIA = {κaij } = {aij κ} = AκI. Definición A.12 Una matriz A se llama idempotente cuando A2 = A. Lo que implica A3 = A, A4 = A, y así sucesivamente. Definición A.13 Una matriz A se llama nilpotente cuando Ak = 0, k cualquier entero positivo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 427 — #439
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
427
A.4 MATRIZ TRASPUESTA Definición A.14 La matriz traspuesta At de una matriz dada A es aquella con columnas las filas de A y, en consecuencia, con filas las columnas de la matriz original. Por tanto, si Af c es una matriz, entonces Atcf , la matriz traspuesta, es de orden cf. Si A = {aij } entonces At = {aji }. 1. Trasponer una matriz es una operación reflexiva, (At )t = A. 2. El traspuesto de un vector fila es un vector columna, y viceversa. 3. Se verifica, (AB)t = B t At , pues, suponiendo, AB = C = {cij } = tenemos,
(
X
)
aik bkj ,
k
P t = {ct } = {c } = { C jk bki } = ij k ao nP o jinP t t t t t t = k akj bik = k bik akj = B A .
Definición A.15 Una matriz A se denomina simétrica cuando A = At . Una matriz simétrica es, evidentemente, cuadrada. 1. El producto de dos matrices simétricas no es, en general, una matriz simétrica, (AB)t = B t At = BA, y BA, en general, no es igual a AB. 2. El producto de una matriz simétrica y su traspuesta es una matriz simétrica, (AAt )t = AAt y (At A)t = At A. 3. El producto de un vector fila por un vector columna es simétrico, (xt y)t = yt x = κ, un escalar.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 428 — #440
i
428
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
A.5 PARTICIÓN DE MATRICES Una matriz puede pensarse constituida por dicha matriz. Por ejemplo, a11 a12 a13 a21 a22 a23 A= a31 a32 a33 a41 a42 a43 siendo,
a11 A1 = a21 a31 A3 = a41
submatrices que forman una partición de a14 a24 = A1 A2 , a34 A3 A4 a44
a12 a13 ,A = a22 2 a23 a32 a33 , A4 = a42 a43
a14 , a24 a34 . a44
El producto de dos matrices en las que se han hecho particiones de submatrices apropiadas para la multiplicación, se obtiene tratando a las submatrices como elementos de una matriz normal. Así, con, A1 A2 B1 A= ,B = , A3 A4 B2 tenemos, AB =
A1 B1 + A2 B2 . A3 B1 + A4 B2
A.6 TRANSFORMACIONES LINEALES Según vimos, el postproducto de una matriz A por un vector x es otro vector y, c X y = Ax = aij xj , i = 1, ..., f. j=1
Como podemos observar, los elementos de y son combinaciones lineales de los elementos de x, es decir, y es una transformación de x. Se dice entonces que la matriz A representa la transformación lineal de x en y.
Ejemplo A.1 Al considerar un solo locus de un cromosoma compuesto por dos alelos A y a, son posibles tres genotipos AA = a1 , Aa = a2 y aa = a3 . Anderson y Kempthorne (1954),
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 429 — #441
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
429
definen el efecto del gen mediante una media µ, una medida α de sustitución del gen, y una medida de dominancia δ, del siguiente modo, 1 1 1 µ = a1 + a2 + a3 , 4 2 4 1 1 α = a1 − a3 , 4 4 1 1 1 δ = − a1 + a2 − a3 , 4 2 4 lo que en notación matricial puede escribirse, 1 4 µ α = 1 4 δ 1 − 4
1 4 a1 1 a2 , − 4 a3 1 − 4
1 2 0 1 2
es decir, ǫ = T a. Vemos, por tanto, el modo en el que la matriz T transforma linealmente el vector de genotipos a en el vector de efectos del gen ǫ. Es obvio que si x = Bz, entonces y = Ax = ABz.
A.7 FORMAS CUADRÁTICAS Definición A.16 Siendo x e y dos vectores cuyos n elementos son escalares, y A una matriz cuadrada de orden n, se denomina forma bilineal al producto, t
x Ay =
n X n X
aij xi yj .
j=1 i=1
Definición A.17 Si en una forma bilineal reemplazamos uno de los vectores por el otro, obtenemos una forma cuadrática, X XX xt Ax = aii x2i + (aij + aji )xi yj . i
j
i 0, siendo ljt el j-ésimo vector fila de L. Por tanto, la matriz simétrica ΣX es definida positiva.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 432 — #444
i
432
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
A.9 DETERMINANTES Definición A.19 El determinante de una matriz cuadrada A es una cantidad escalar |A| asociada a la matriz. El procedimiento que obtiene tal valor escalar se denomina evaluación del determinante, y en el caso más simple - sin considerar una matriz de orden uno cuyo determinante coincide con el valor del único elemento que la compone - se obtiene mediante el siguiente cálculo, a11 a12 = a11 a22 + (−1)a12 a21 . |A| = a21 a22 El determinante de una matriz cuadrada de orden tres, un determinante de orden tres, es una función lineal de tres determinantes de orden dos. Así, a11 a12 a13 |A| = a21 a22 a23 = a31 a32 a33 a21 a23 a a 22 23 1+1 1+2 + (−1) a12 + = (−1) a11 a32 a33 a31 a33 a a +(−1)1+3 a13 21 22 , a31 a32
donde los determinantes de orden dos se llaman menores del correspondiente elemento matricial aij , obtenidos eliminando la fila y la columna del elemento, y multiplicados por (−1)i+j . El procedimiento se llama evaluación del determinante por sus menores, y el resultado es el mismo para cualquier aij . La evaluación de un determinante de orden n mediante sus menores, es la generalización de la evaluación de un determinante de orden tres empleando un proceso iterativo, y es una suma con n! sumandos. Así, |A| =
n X j=1
(−1)i+j aij |Mij | , ∀i = 1, ..., n,
siendo |Mij | el menor de aij . Aitken (1948) demuestra que cada sumando es un producto con un único elemento de cada fila y columna, y ninguno de estos productos se repite.
Propiedades El hecho de que cada producto en la evaluación de un determinante tenga un solo elemento de cada fila y columna, genera una serie de propiedades fáciles de demostrar.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 433 — #445
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
433
1. At = |A| .
2. Siendo B una matriz con dos filas, o dos columnas, intercambiadas de la matriz A, |B| = − |A| . a) Si una matriz tiene dos filas iguales, o dos columnas iguales, su determinante es cero, pues al intercambiarlas se debe verificar que |A| = − |A| ⇒ |A| = 0. 3. Sea κ el factor común de los elementos de una fila, o una columna, de la matriz A. Entonces κ es un factor común del determinante de A. El proceso puede aplicarse a varias filas, o columnas, simultáneamente, y así, sea, 3 p p2 q 0 A = p2 q pq pq 2 , 0 pq 2 q 3 donde podemos sacar factor común a p2 en la tercera, p 3 3 p q p 0
en la primera fila, pq en la segunda y q 2 q 0 1 q , p q
y p en la primera columna y q en la tercera columna, resultando, 1 q 0 p4 q 4 1 1 1 = p4 q 4 (1 − p − q). 0 p 1
a) Si una fila, o columna, de una matriz es igual a otra por una constante, el determinante es cero, pues al sacar factor común quedarían dos filas iguales. b) Si una matriz tiene una fila, o columna, con todos los elementos cero, el determinante es cero al ser cero factor común de la fila o columna. c) Con κ un escalar y A una matriz de orden n, |κA| = κn |A| pues κ es factor común de las n filas de κA.
4. Al sumar a una fila (columna) de una matriz otra fila (columna) de la matriz multiplicada por una constante, el determinante no varía. En efecto, por ejemplo, si, a1 b1 c1 a1 + κa2 b1 + κb2 c1 + κc2 = |A|, a2 b2 c2 |A| = a2 b2 c2 ⇒ a3 b3 c3 a3 b3 c3 sin más que desarrollar el nuevo determinante.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 434 — #446
i
434
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
5. En general, |A| + |B| 6= |A + B| . 6. |AB| = |A| |B| = |BA| .
A.10 MATRIZ INVERSA La división, en su sentido más común, no existe en el álgebra de matrices. Cuando se quiere “dividir” por una matriz A, el concepto se reemplaza por el de multiplicación por una matriz denominada inversa. Definición A.20 La matriz inversa A−1 de una matriz cuadrada A de orden r es la matriz cuadrada del mismo orden que verifica A−1 A = I, AA−1 = I y es única. Un modo de calcular la inversa de una matriz cuadrada A de orden n es, ϕ11 ... ϕn1 1 . .. , A−1 = .. . |A| ϕ1n ... ϕnn
donde ϕij = (−1)i+j |Mij | se denomina cofactor de aij y, como se observa, es el menor de aij con signo. A la matriz de cofactores - obsérvese que es la matriz A cuyos elementos se han sustituido por sus cofactores y luego se ha traspuesto - se la llama adjunta de A. Es obvio que A−1 existe solo si |A| 6= 0. Definición A.21 Una matriz cuadrada se denomina singular si su determinante es cero. En consecuencia, solo las matrices no singulares admiten inversa.
Propiedades de la inversa 1 1. A−1 = , |A| 2. A−1 6= 0,
3. (A−1 )−1 = A, 4. (At )−1 = (A−1 )t , 5. At = A ⇒ (A−1 )t = A−1 , 6. (AB)−1 = B −1 A−1 .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 435 — #447
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
435
Las propiedades 1 y 2 se demuestran de, |A| A−1 = AA−1 = |I| = 1. Las propiedades 3, 4 y 5 derivan de,
I = A−1 A, pues premultiplicando por (A−1 )−1 resulta 3. Además, trasponiendo obtenemos que I = At (A−1 )t , y premultiplicando por (At )−1 queda 4. Si en esta última propiedad hacemos At = A, obtenemos 5. Finalmente, B −1 A−1 AB = B −1 IB = B −1 B = I, y postmultiplicando por (AB)−1 tenemos 6. Definición A.22 Si la matriz A es tal que A−1 = At , se dice que A es ortogonal. Por tanto, si A es ortogonal, AAt = I.
A.11 RANGO E INDEPENDENCIA LINEAL Siendo x e y dos vectores, el primero con elementos desconocidos y el segundo con elementos conocidos, la ecuación, y = Ax, con A una matriz de elementos conocidos, tiene la solución, x = A−1 y. Es importante, por ello, saber si la matriz A admite inversa, es decir, si es singular o no singular. Definición A.23 Los vectores del mismo orden x1 , ..., xn se dice que son linealmente independientes si para que se verifique, κ1 x1 + ... + κn xn = 0, las constantes κ1 = ... = κn = 0. Es importante considerar que dependencia lineal implica que al menos uno de los vectores puede expresarse como combinación lineal de los otros. En efecto, supongamos que κ1 6= 0. Dado que al menos otra constante debe ser distinta de cero, x1 = −
κ2 κn x2 − ... − xn . κ1 κ1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 436 — #448
i
436
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Teorema A.1 Si los vectores columna, o fila, de una matriz cuadrada son linealmente dependientes, entonces la matriz es singular.
Prueba . Sea A una matriz cuadrada de orden n cuyas columnas son los vectores xi , i = 1, ..., n. Si, n n X X xi = xj , j 6= i ⇒ xi − xj = 0. j=1
j=1
Recordemos ahora que el determinante de una matriz no varía si a una columna se le suma otra multiplicada por una constante. Aplicando iterativamente esta propiedad y considerando que el determinante es cero si una columna se compone de ceros, el enunciado queda demostrado. Es evidente, por tanto, que una matriz cuadrada debe tener un número de filas independientes igual al de columnas. Teorema A.2 Un conjunto de vectores de orden n no nulos linealmente independientes contiene como máximo n vectores no nulos linealmente independientes.
Prueba . Sea {u1 , ..., un } un conjunto de vectores no nulos de orden n y linealmente independientes. Entonces, n X i=1
κi ui = 0 ⇒ κ1 = ... = κn = 0.
Sea un+1 otro vector de orden n cualquiera, y sea, n+1 X
λi ui = 0,
i=1
con λi , i = 1, ..., n + 1 escalares. Si λn+1 = 0, n X λi ui = 0 ⇒ λi = κi = 0, i = 1, ..., n, i=1
y tendríamos el conjunto de vectores del que partíamos. Si λn+1 6= 0, al menos alguna de las restantes λ debe no ser cero, por lo que, λ1 λn u1 + ... + un = −un+1 , λn+1 λn+1 es decir, con, ci =
λi , λn+1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 437 — #449
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
es, u1
437
c1 . ... un .. = −un+1 . cn
Dado que los vectores u1 , ..., un son independientes, la matriz u1 ... un de orden n es no singular, y la anterior ecuación tiene una solución en ci , i = 1, ..., n distinta de cero. Consecuentemente, un+1 es una combinación lineal de los vectores independientes u1 , ..., un . Corolario A.1 Un conjunto de m vectores no nulos de orden n es linealmente independiente solo si m ≤ n. Teorema A.3 El número de filas independientes de una matriz es igual al número de sus columnas independientes.
Prueba . Sea Apq y supongamos que tiene k filas independientes y m columnas independientes. Resaltemos que la propiedad de que las filas o columnas de una matriz sean independientes no se relaciona con el orden que dichas filas o columnas tienen en la matriz. De aquí que se permita suponer que las k primeras filas y las m primeras columnas de A son independientes. Por tanto, podemos hacer la partición de A, Xkm Yk(q−m) A= . Z(p−k)m V(p−k)(q−m) Supongamos que las m columnas de X son dependientes - recordando que son las X m columnas de A las independientes - Si denominamos cX 1 , ..., cm a los vectores que componen las m columnas de X, se verifica, m X
λi c X i = 0,
i=1
siendo algún λi 6= 0. Por construcción, las k primeras filas de A son independientes, lo que supone que las (p − k) filas restantes de A sean combinación lineal de dichas k filas. Es decir, que si denotamos por fi , i = 1, ..., p los vectores fila de A, y por aij los elementos de esta matriz, k X fj = λij fi , j = k + 1, ..., p, i=1
y así, por ejemplo,
t fk+1 = a(k+1)1 ... a(k+1)q ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 438 — #450
i
438
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
donde, a(k+1)1 = a(k+1)q =
Pk
i=1 λi(k+1) ai1 ,
.. .
Pk
i=1 λi(k+1) aiq .
Z Si llamamos cZ 1 , ..., cm a los vectores que componen las m columnas de Z, entonces las componentes de estos vectores, es decir, aij , i = k + 1, ..., p; j = 1, ..., m, son X combinaciones lineales de las componentes de los vectores cX 1 , ..., cm , según acabamos de ver. Consecuentemente, se verifica, para algún λi 6= 0, m X
λi c Z i = 0,
i=1
y también, para algún λi 6= 0, m X
λi
i=1
cX i cZ i
= 0.
Dado que considerar las columnas de X y Z es considerar las columnas de A, la anterior expresión supone concluir la falacia de que dichas columnas de A son dependientes. De aquí que el supuesto de que las m columnas de X sean dependientes sea falso. Finalmente, observemos que las m columnas de X son vectores independientes de orden k, por tanto, m ≤ k según el último corolario. Con argumento similar, se puede mostrar que las k filas de X son vectores independientes de orden m, por lo que k ≤ m. En definitiva, k = m. Definición A.24 El rango de una matriz A, r(A), es el número de filas, o columnas, linealmente independientes.
Propiedades 1. r(A) = 0 ⇔ A es la matriz nula. 2. r(Apq ) ≤ m´ın(p, q). 3. r(An ) ≤ n. 4. r(An ) < n ⇒ A−1 no existe. 5. Si r(A) = r, existe al menos un menor no singular de orden r de A, y los menores de orden mayor que r son cero. 6. r(Apq ) = r ⇒ Apq = Xpr Yrq .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 439 — #451
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
439
Estas propiedades no son difíciles de demostrar, salvo la última. Supongamos que las r primeras filas de A son independientes. Entonces, las (p − r) filas restantes son combinación lineal (L) de las r primeras, y en la matriz A puede hacerse la siguiente partición de dos submatrices, Mrq Apq = , N(p−r)q donde N(p−r)q = L(p−r)r Mrq . Supongamos también que las r primeras columnas de A son independientes. Como antes, podemos hacer la partición, Apq = Rpr Sp(q−r) ,
donde Sp(q−r) = Rpr Kr(q−r) . Por tanto, al considerar las particiones conjuntamente, Apq =
Br
Cr(q−r)
D(p−r)r E(p−r)(q−r)
,
y, N(p−r)q = L(p−r)r Br Cr(q−r) = L(p−r)r Br =D(p−r)r L = (p−r)r Cr(q−r) = E(p−r)(q−r) , Br Kr(q−r) = Cr(q−r) Br Kr(q−r) = , Sp(q−r) = L(p−r)r Br L(p−r)r Br Kr(q−r) = E(p−r)(q−r) es decir,
Br Kr(q−r) = Apq = L(p−r)r Br L(p−r)r Br Kr(q−r) Ir Br Br Kr(q−r) = Xpr Yrq . = L(p−r)r Br
Por otro lado, el procedimiento para calcular el rango de una matriz consiste en manipular filas o columnas de la matriz de forma tal que, (i) dicha manipulación no altere el rango, (ii) obtengamos una matriz con ceros bajo la diagonal principal. La condición (i) supone que las manipulaciones son de tres tipos: intercambiar dos filas, multiplicar una fila o columna por una constante, y sumar a una fila otra fila multiplicada por una constante. Se comprueba fácilmente que el número de filas o columnas independientes permanece entonces inalterado. Con la condición (ii) obtenemos una matriz en la que el número de elementos no nulos en la diagonal representan el tamaño del menor no nulo de la matriz, y por ello, su rango.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 440 — #452
i
440
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
La matriz original y la resultante del proceso de esta manipulación se denominan matrices equivalentes. De hecho, siendo r(A) = r siempre se puede obtener una matriz equivalente a A de forma que, Dr 0 A≃ , 0 0 siendo ≃ un símbolo que expresa esta relación de equivalencia, Dr una matriz diagonal con r elementos no nulos y 0 las matrices nulas de orden apropiado. De aquí que, siendo r(Apq ) = r, Ir 0r(q−r) Apq ≃ = C, 0(p−r)r 0(p−r)(q−r) con Ir la matriz identidad de orden r. A la matriz equivalente C se le denomina forma canónica equivalente de A. Teorema A.4 r(Amq Bqn ) ≤ m´ın[r(Amq ), r(Bqn )].
Prueba . Daremos una prueba no totalmente formalizada, con objeto de no introducir más conceptos. Supongamos que r(A) = t. No es difícil imaginar que la forma canónica de A pueda escribirse, It 0t(q−t) Mm Amq Nq = , 0(m−t)t 0(m−t)(q−t) donde M y N son matrices - en realidad productos de matrices - que operan sobre A de forma que ésta es manipulada como anteriormente se explicaba, es decir, intercambiando dos filas, multiplicar una fila por una constante, o sumar a una fila otra multiplicada por una constante. Por construcción, son matrices no singulares. Así, It 0 It 0 Stn −1 −1 MA = N ⇒ M AB = N B= , 0 0 0 0 0 donde el orden de Stn es consecuencia de estar efectuando productos por las matrices nulas 0. Dada la naturaleza de M y N , es decir, obsérvese que r(M AN ) = r(It ) = t = r(A), y por ello, r(M AB) = r(AB). Así, Stn r(AB) = r ≤ t = r(A), 0 puesto que si n > t el rango es como mucho t, y si n < t, es obvia la desigualdad. Análogamente, puede demostrarse que, r(AB) ≤ r(B)
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 441 — #453
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
441
A.12 INVERSA GENERALIZADA Y ECUACIONES LINEALES Definición A.25 (Searle, 1966) Dada cualquier matriz A, se dice que la matriz G es su inversa generalizada si AGA = A. Resulta evidente que, siendo A cuadrada, AA−1 A = A, por tanto que la inversa es un caso particular de inversa generalizada. Por simplicidad, en ocasiones se denomina H = GA, con las siguientes propiedades.
A−1
1. r(H) = r(A), ya que siendo H = GA, r(H) ≤ r(A) y siendo A = AGA = AH, r(A) ≤ r(H). 2. H es idempotente, pues H 2 = GAGA = GA = H. 3. Si la matriz A es cuadrada de orden q y r(A) = r, entonces r(H − Iq ) = q − r, pues si A tiene rango r puede calcularse su forma canónica equivalente, y, Ir 0 r(H − Iq ) = r − Iq = q − r. 0 0 El concepto de matriz inversa generalizada es necesario para resolver la ecuación, Ax = y, en donde el vector x tiene como elementos las incógnitas de la ecuación, y siendo A una matriz de cualquier orden. Sin embargo, para simplificar el desarrollo, supondremos que A es cuadrada, resaltando que para que el procedimiento que sigue sea aplicable a matrices rectangulares, las modificaciones a efectuar son mínimas. Teorema A.5 x = Gy es la solución de la ecuación Ax = y si y solo si AGA = A.
Prueba . Sea aj la columna j-ésima de A y consideremos la ecuación Ax = aj . Es evidente que el vector x que tiene como elementos todos cero salvo el j-ésimo igual a la unidad, es una solución de esta ecuación. Por consiguiente, si x = Gy es solución de Ax = y, entonces x = Gaj será solución de Ax = aj . Es decir, AGaj = aj . Puesto que j ha sido elegido arbitrariamente, será cierto para todo j, y así, AGA = A. Por otro lado, si AGA = A, entonces AGAx = Ax, y si Ax = y, tendremos AGy = y. Llamando x = Gy, será una solución de la ecuación Ax = y. Se tiene que si r(Aq ) < q, entonces el número de soluciones de la ecuación Ax = y es infinito. Su demostración requiere solo un simple ejemplo que no exponemos porque el carácter de ser simple no es proporcional al espacio que se necesita para su desarrollo. El siguiente teorema muestra el modo de calcular dichas soluciones.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 442 — #454
i
442
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Teorema A.6 Sea Aq , AGA = A y H = GA. Entonces xs = Gy + (H − Iq )z, siendo z un vector arbitrario de orden q, es una solución de Ax = y.
Prueba . En efecto, Axs = AGy + A(H − Iq )z = = AGy + (AGA − A)z = Ax = y,
dado el Teorema A.5.
Teorema A.7 Sea r(Aq ) = r e y un vector no nulo. El número de soluciones no nulas y linealmente independientes de Ax = y, es q − r + 1.
Prueba . Por el Teorema A.6, xs = Gy + (H − Iq )z es una solución de la ecuación. Dado que r(H − Iq ) = q − r, tendremos q − r vectores de la forma (H − Iq )z que son linealmente independientes. Sin embargo, como se ha visto en el Teorema A.5, Gy es también solución de la ecuación. Supongamos que esta solución es linealmente dependiente de las xsi , i = 1, ..., q − r. Entonces, Gy =
q−r X i=1
λi xsi = Gy
q−r X i=1
λi +
q−r X i=1
λi (H − Iq )zi ,
será cierta con al menos un λi no cero. Es claro, según el Teorema A.5, que Gy no dependía de vector arbitrario alguno, es decir, que el segundo sumando deberá ser cero. Como (H − Iq )zi son independientes, λ1 = ... = λq−r = 0, en contra de lo supuesto. En resumen, Gy es otra solución no nula linealmente independiente. Supongamos la ecuación Ax = 0, es decir, y = 0. Entonces, 1. Según el Teorema A.7, habrá q−r soluciones no nulas linealmente independientes. Es decir, estas soluciones existen solo cuando r < q. 2. q = r ⇒ r(H − Iq ) = 0 y, por tanto, la única solución de la ecuación es el vector nulo de orden q.
A.13 AUTOVALORES Y AUTOVECTORES Como vimos, siendo A una matriz cuyos elementos son escalares y x un vector, Ax = y representa la transformación lineal del vector x en otro y. Existen situaciones especiales de esta transformación lineal en las que el vector x se transforma en sí mismo multiplicado por un término constante, λx, λ un escalar, de las que nos ocupamos ahora e introduciremos con un ejemplo.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 443 — #455
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
443
Supongamos el vector, xtm = x0m ... xkm ,
donde xim , i = 0, 1, ..., k representa el número de individuos de una población que en el tiempo m tienen la edad i. Por tanto, el vector representa la distribución de edades de la población en el tiempo m. Un problema que frecuentemente se plantea es encontrar los elementos del vector xm+1 e investigar su relación con xm . Para resolverlo debemos considerar, de un lado, la probabilidad de que una mujer con edad i en el tiempo m alcance el tiempo m + 1, y de otro lado, el número de hijas de una mujer con edad i en el tiempo m que están vivas en el tiempo m + 1 y nacieron en el intervalo [m, m + 1). La definición de los elementos de la matriz cuadrada A de orden k + 1 que representa la transformación de xm en xm+1 , xm+1 = Axm , pueden consultarse, por ejemplo, en [34]. Si se entiende por población estable aquella en la que, aparte un factor de proporcionalidad, al observar tiempos diferentes encontramos iguales vectores de distribución de edades, ¿se alcanza un tiempo en el que la distribución de edades se hace estable? En otras palabras, xm+1 = λxm ⇒ Axm = λxm . Formulado de modo general, dada una matriz cuadrada A, un vector x, y un escalar λ, ¿se verifica Ax = λx? Es evidente que entonces, (A − λI)x = 0, de forma que, como hemos visto en la anterior sección, esta ecuación tiene una solución no nula si r(A − λI) es menor que el orden de la matriz A, es decir, si, |A − λI| = 0. A esta última ecuación se le denomina ecuación característica. Si el orden de A es n, la ecuación característica es un polinomio en λ de grado n, por lo que, en general, tendrá λ1 , ..., λn soluciones, llamadas autovalores. Para cada autovalor tendremos, Axi = λi xi , i = 1, ..., n, es decir, n vectores que satisfacen la ecuación y se denominan autovectores. Observemos que premultiplicando por A, A2 xi = λi Axi = λ2i xi , lo que puede generalizarse fácilmente, Ak xi = λki xi , k ∈ Z.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 444 — #456
i
444
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Teorema A.8 Si los autovalores de una matriz son diferentes, los autovectores correspondientes son linealmente independientes.
Prueba . Supongamos que los vectores xi son dependientes. Entonces, κ1 x1 + ... + κn xn = 0, y al menos un κi 6= 0. Si multiplicamos sucesivamente por A, A2 , ..., An−1 esta ecuación, teniendo en cuenta el resultado formulado inmediatamente antes de este teorema, obtenemos, 1 ... 1 κ1 xt1 λ1 ... λn κ2 xt 2 .. = 0. .. . . λn−1 ... λn−1 n 1
κn xtn
Asumiendo que todos los autovalores son diferentes, puede comprobarse que la primera matriz es no singular y, por ello, admite inversa. Premultiplicando por ésta, κ1 xt1 κ2 xt 2 In . = 0 ⇒ κ1 x1 = ... = κn xn = 0, . . κn xtn
y por tanto, κ1 = ... = κn = 0, en contra de lo supuesto.
Entendiendo que los autovalores son diferentes, y denotando, X = x1 ... xn ,
entonces X es una matriz cuadrada de orden n compuesta por los autovectores de A, y r(X) = n, es decir, admite inversa. Por tanto, Axi = λi xi , i = 1, ..., n, puede escribirse, AX = XD, siendo,
λ1 ... 0 .. D= , . 0 ... λn
una matriz diagonal de orden n con los autovalores λ1 , ..., λn en la diagonal. De aquí, A = XDX −1 , D = X −1 AX. Esta descomposición de la matriz A en un producto de tres matrices, la diagonal de autovalores y la compuesta por los autovectores y su inversa, es muy importante como veremos posteriormente. A la matriz D se la denomina forma canónica A.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 445 — #457
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
445
Teorema A.9 Sea A una matriz cuadrada de orden n cuyos autovalores son λ1 , ..., λh repetidos m1 , ..., mh veces, respectivamente. La condición necesaria y suficiente para que X −1 AX = D, siendo D la matriz diagonal de orden n con todos los autovalores, es que r(A − λi I) = n − mi , i = 1, ..., h.
Prueba . Veamos las dos implicaciones. (i) X −1 AX = D ⇒ r(A − λi I) = n − mi .
Es claro que por construcción, la matriz (D − λi I) es diagonal de orden n en cuya diagonal principal hay mi ceros, y por tanto, r(D − λi I) = n − mi . Dado que X −1 AX = D supone que A = XDX −1 , (A − λi I) = X(D − λi I)X −1 .
Recordando lo explicado en la demostración del Teorema A.4, r(A − λi I) = r(D − λi I) = n − mi . (ii) r(A − λi I) = n − mi ⇒ X −1 AX = D.
Puesto que r(A−λi I) = n−mi , la ecuación (A−λi I)x = 0 tiene n−(n−mi ) = mi soluciones no nulas linealmente independientes. En consecuencia, por cada λi existen mi autovectores independientes.
Veamos que estos conjuntos compuestos de mi autovectores independientes, un conjunto por cada autovalor λi , son conjuntos independientes. Supongamos inicialmente que son dependientes, y que un conjunto lo componen z1 , ..., zma autovectores e v2 es un autovector de otro conjunto cualquiera. Entonces, v2 =
ma X
γi z i ,
i=1
con algún γi 6= 0. De aquí, Av2 =
ma X i=1
γi Azi ⇒ λk v2 =
ma X i=1
γi λl zi = λl v2 , l 6= k,
siendo λk y λl los autovalores diferentes correspondientes a los dos conjuntos de autovectores. Por tanto, al ser λk 6= λl , la anterior expresión es falsa y el supuesto del que partíamos también. En resumen, tenemos h conjuntos independientes de autovectores, cada conjunto con mh autovectores independientes. De este modo podemos construir la matriz X cuyas columnas son estos autovectores y X −1 existe. Además, AX = DX y X −1 AX = D.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 446 — #458
i
446
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Es evidente, como consecuencia del anterior teorema, que si mi = 1, i = 1, .., h, entonces h = n, todos los autovalores son diferentes, y por cada autovalor existe un autovector. Ejemplo A.3 Sea,
La ecuación característica es,
2 −1 1 A = 3 3 −2 . 4 1 0 λ3 − 5λ2 + 7λ − 3 = 0,
que tiene las soluciones λ1 = 3, λ2 = λ3 = 1. Por tanto, para λ1 = 3, −ξ1 − ζ1 + ι1 = 0, 3ξ1 − 2ι1 = 0, (A − 3I)x1 = 0 ⇒ 4ξ1 + ζ1 − 3ι1 = 0, que, para el valor arbitrario ξ1 = 2, se obtiene xt1 = 2 1 3 . Análogamente, para λ2 = 1, ξ2 − ζ2 + ι2 = 0, 3ξ2 + 2ζ2 − 2ι2 = 0, (A − I)x2 = 0 ⇒ 4ξ2 + ζ2 − ι2 = 0, y una solución es xt2 = 0 1 1 . Para λ3 = 1 = λ2 se obtendría una solución xt3 no independiente de xt2 , dado De aquí que se debe emplear el−1mismo sistema de ecuaciones. −1 que X = x1 x2 x3 no admitiría inversa X , es decir, la forma D = X AX no existiría. Sin embargo, si fuera el caso que r = r(A − I) = 1, entonces, como vimos en el Teorema A.7, la ecuación (A − I)x2 = 0 admite dos soluciones independientes (q = 3 ⇒ q − r = 2) y, consecuentemente, se podría construir X de forma que admitiría inversa. Se hace imprescindible comprobar el rango de la matriz A − I, 1 −1 1 A − I = 3 2 −2, 4 1 −1 donde se observa fácilmente que la tercera fila es suma de las dos primeras, es decir, que tiene rango dos. En resumen, dado que λ2 = 1 se repite dos veces, r(A − I) = 2 6= n − m2 = 3 − 2 = 1, y consecuentemente, X −1 AX = D no existe.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 447 — #459
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
447
Notemos que, como ha quedado apuntado más arriba, según lo visto en la prueba del Teorema A.4, X −1 AX = D ⇒ r(A) = r(D), y puesto que en D están los autovalores de A, resulta que si r(A) = r entonces habrá r autovalores no nulos. Por otro lado, si el número de autovalores no nulos es n, el orden de D es n y r(A) = n.
Autovalores de matrices simétricas Teorema A.10 Cuando A es simétrica, la reducción X −1 AX = D puede efectuarse t AX = D. calculando una matriz XN que es ortogonal, es decir, que entonces XN N
Prueba . Demostraremos este resultado suponiendo que los autovalores de A son todos diferentes, no presentando grandes dificultades el caso de autovalores repetidos (véase, por ejemplo, [21]). Sean λj y λk dos autovalores diferentes, con xj y xk los correspondientes autovectores. Cuando A = At , λj xtk xj = xtk λj xj = xtk Axj = xtj Axk = = xtj λk xk = xtk λk xj = λk xtk xj , teniendo en cuenta que xtk Axj = xtj Axk puesto que el traspuesto de un escalar es el mismo escalar. En consecuencia, dado que λj 6= λk , para que λj xtk xj = λk xtk xj se necesita que xtk xj = 0. Si X = x1 ... xn es la matriz con columnas los autovectores, entonces el producto de una columna por otra diferente es cero. Si normalizamos cada uno de estos n autovectores, es decir, ! xin xi1 q q ... Pn Pn i = 1, ..., n, xtiN = 2 2 h=1 xih h=1 xih
el resultado es que xtjN xjN = 1, como puede comprobarse fácilmente – con esta normalización se sigue verificando xtjN xkN = 0. t AX = D. En conclusión, siendo XN = x1N ... xnN , se verifica XN N Teorema A.11 Si A es simétrica y no tiene elementos complejos, los autovalores son reales.
Prueba . Supongamos que algún autovalor λ es complejo, siendo x el correspondiente autovector, x = (r + ib) = {rj + ibj }, j = 1, ..., n,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 448 — #460
i
448
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y sea xc = {rj − ibj } el conjugado de x. Entonces, xtc Ax = xtc λx = λxtc x. A la izquierda de la primera igualdad tenemos una forma bilineal que desarrollada produce, n X k n n X X X ajk (xjc xk + xkc xj ) = λ xjc xj . ajj xjc xj + j=1
k=1 j=1
j=1
Sustituyendo en estos elementos por su forma compleja, n X j=1
ajj (rj2
+
b2j )
+2
j n X X
ajk (rj rk + bj bk ) = λ
j=1 k=1
n X
(rj2 + b2j ).
j=1
Observemos que a la izquierda de la igualdad tenemos un número real, por lo que λ no puede ser complejo. Teorema A.12 Los autovalores no nulos de una matriz definida positiva son reales positivos.
Prueba . Sean r(A) = r y z = xt Ax una forma cuadrática con A simétrica. Los autovalores de A son reales y, suponiendo que A se puede expresar como X t AX = D, entonces, Dr 0 D= , 0 0 al ser r(A) = r, con Dr la matriz diagonal con los autovalores de A no nulos. Entonces, t t DXx = yt Dy = z = xt Ax =xX P Dr 0 t =y y = ri=1 λi yi2 . 0 0
Al ser z > 0, deben ser λi > 0, i = 1, ..., r.
A.14 GEOMETRÍA DE UNA TRANSFORMACIÓN LINEAL Es suficientemente conocido que un vector a con n componentes puede representarse en un sistema de n ejes cartesianos sin más que considerar que las componentes del vector representan un punto en el correspondiente espacio de dimensión n. Por ejemplo, si at = a1 a2 a3 ,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 449 — #461
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
449
este vector se representa en un espacio tridimensional con un extremo del vector en el origen de coordenadas y el otro extremo en el punto de coordenadas (a1 , a2 , a3 ). Es cierto que no todos los vectores tienen uno de sus extremos en el origen de coordenadas, si bien mediante una traslación paralela siempre puede situarse en dicho origen de coordenadas. La anterior representación vectorial supone la existencia de un conjunto no vacío compuesto por n vectores no nulos, simbolizados ei , i = 1, ..., n, de longitud unitaria y dirección la de cada uno de los ejes coordenados, además de un vector nulo 0, que representa el origen de coordenadas. Así, en un espacio tridimensional, tendríamos el conjunto, {et1 = 1 0 0 , et2 = 0 1 0 , et3 = 0 0 1 }. A tal conjunto de vectores se le llama base estándar, y cualquier otro vector del espacio es una combinación lineal de dicha base. Siguiendo con los ejemplos propuestos, at = a1 et1 + a2 et2 + a3 et3 . Puede establecerse una correspondencia biyectiva entre un vector como objeto geométrico, dotado de longitud y dirección, y un vector como objeto algebraico - una n-tupla ordenada de números La longitud de un vector a, también llamada su norma, ||a|| , es la raíz cuadrada del producto del vector por sí mismo, at a, llamado producto escalar o producto interior. Para definir su dirección se emplean los cosenos directores, que son los cosenos de los ángulos formados por el vector y los ejes coordenados, calculándose mediante el cociente entre la respectiva componente y la norma del vector. De esta manera, llamando α1 , α2 , α3 a los tres ángulos del vector a en un espacio tridimensional, a1 cos α1 = , ||a|| a cos α2 = 2 , ||a|| a3 cos α3 = . ||a||
A.14.1.
Independencia lineal
El concepto de independencia lineal, desde un punto de vista geométrico, está relacionado con la dimensión del espacio en el que se encuentran los vectores analizados. Un conjunto de vectores linealmente independientes genera un espacio de vectores que se expresan como combinación lineal de ellos. Así, si {a1 , ..., an } es un conjunto de vectores linealmente independientes de orden n, cualquier otro vector b del espacio ndimensional es, n X b= κi ai , i=1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 450 — #462
i
450
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
y el conjunto {a1 , ..., an } se denomina base del n-espacio. En consecuencia, lo que hemos llamado base estándar es solo un tipo de base del espacio que, como es bien conocido, constituye el sistema cartesiano de coordenadas rectangulares. Es la base de referencia preferida por su carácter intuitivo, y es una clase de base llamada ortonormal. Una base ortonormal está compuesta por vectores de longitud unitaria y mutuamente ortogonales, es decir, su producto escalar es cero. Son vectores perpendiculares y, consecuentemente, independientes linealmente. El procedimiento denominado ortonormalización de Gram-Schmidt es un algoritmo para transformar una base arbitraria en otra ortonormal (véase, por ejemplo, [20]).
A.14.2.
Transformaciones ortogonales
Consideremos el vector x = 2e1 + e2 del plano real, y supongamos estamos interesados en rotar los ejes cartesianos 30o en sentido contrario a las agujas del reloj, entendiendo que los nuevos ejes rotados también son perpendiculares - rotación rígida - y los representamos mediante los vectores unitarios f1 y f2 . Al simbolizar por θij el ángulo que el eje ei forma con el eje fj , tenemos, cos θ11 = cos 30o = 0.867, cos θ21 = cos 60o = 0.5, cos θ12 = cos 120o = − 0.5, cos θ22 = cos 30o = 0.867. Podemos entonces expresar los vectores f1 y f2 mediante las siguientes combinaciones lineales, observando que al ser fi , i = 1, 2 vectores unitarios los cosenos directores coinciden con sus componentes, 0.867 , f1 = cos θ11 e1 + cos θ21 e2 = 0.5 − 0.5 f2 = cos θ12 e1 + cos θ22 e2 = . 0.867 Notamos que f1 y f2 constituyen una base ortonormal, de aquí que, por la misma razón pero efectuando una rotación rígida en el sentido de las agujas del reloj, podamos expresar e1 y e2 mediante, 0.867 , e1 = cos θ11 f1 + cos θ12 f2 = −0.5 0.5 . e2 = cos θ21 f1 + cos θ22 f2 = 0.867 Dado que x = 2e1 + e2 , calcular las coordenadas de este vector en la nueva base f1 , f2 es inmediato, xT = 2(cos θ11 f1 + cos θ12 f2 ) + (cos θ21 f1 + cos θ22 f2 ) = 0.867 0.5 2 2.23 = = , − 0.5 0.867 1 − 0.13
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 451 — #463
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
451
en donde vemos que la matriz de la transformación es ortogonal - ortogonalidad ahora supone, además, que los vectores columna son unitarios - y con filas los vectores f1 y f2 . Se verifica entonces, siendo, cos θ11 cos θ21 T = , cos θ12 cos θ22 que, xT = T x. Es fácil ver que otra manera de obtener el mismo resultado consiste en considerar que los ejes cartesianos permanecen inmóviles y que es el vector el que gira 30o en el sentido de las agujas del reloj. Las nuevas coordenadas del vector xT , respecto a la base e1 , e2 , son, igualmente, 2.23 y − 0.13, obtenidas premultiplicando el vector por la matriz ortogonal de la transformación, como más arriba. Con estas mismas ideas, resulta sencillo mostrar que cuando la rotación de 30o de los ejes es en el sentido de las agujas del reloj, la matriz ortogonal de la transformación es, 0.867 − 0.5 t T = , 0.5 0.867 la transpuesta de la matriz de la rotación en sentido contrario. Como anteriormente, los resultados coinciden si en lugar de rotar la base estándar, es el vector el que gira 30o en el sentido contrario a las agujas del reloj. Considerar rotaciones en más de dos dimensiones no implica ideas nuevas, si bien la notación se complica. En todo caso, la transformación lineal ligada a una matriz ortogonal es una rotación, bien en el sentido de las agujas del reloj, bien en el opuesto. Las denominadas rotaciones impropias son el resultado de considerar matrices ortogonales en las que un número impar de sus filas son multiplicadas por la unidad negativa. La rotación va seguida, entonces, por la reflexión - una rotación de 180o - de tantos ejes como productos por la unidad negativa hayamos encontrado.
A.14.3.
Otras transformaciones lineales
Restringiremos el estudio a las transformaciones más usuales y, con objeto de facilitar su comprensión, considerando matrices de transformación que, en la mayor parte de los casos, son cuadradas de orden dos. Translación Este tipo de matrices se relaciona con problemas en los que un conjunto de puntos está referido a un específico origen en el espacio, distinto del origen de coordenadas. Así, por ejemplo, sea, 1 2 3 1 2 3 1 2 3 t X = , 0 0 0 1 1 1 2 2 2
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 452 — #464
i
452
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
la matriz con filas nueve puntos en el plano cartesiano, y sea, 1 1 1 1 1 1 1 1 1 t XT = , 2 2 2 2 2 2 2 2 2 la matriz de transformación. La traslación del origen de coordenadas al punto (1, 2) se efectúa del siguiente modo, 0 1 2 0 1 2 0 1 2 t t X − XT = . −2 −2 −2 −1 −1 −1 0 0 0 Las traslaciones en análisis multivariante se realizan con frecuencia cuando, por ejemplo, a los datos se les resta su media para calcular la matriz de varianzas covarianzas. Los datos transformados de este modo se dicen centrados en un punto denominado centroide, es decir, la media de las coordenadas en cada dimensión del espacio. Reflexión La matriz de la transformación es la unitaria en la que alguno de los unos de la diagonal se multiplica por la unidad negativa. Por ejemplo, si queremos reflejar los nueve puntos anteriores descritos mediante X, teniendo como eje de reflexión el de ordenadas, cada abscisa se multiplicará por la unidad negativa, es decir, −1 0 −1 −2 −3 −1 −2 −3 −1 −2 −3 t X = . 0 1 0 0 0 1 1 1 2 2 2 Expansión uniforme Esta transformación implica considerar una matriz escalar. Si los elementos idénticos de la diagonal son mayores estrictamente que uno, se habla expansión uniforme en sentido estricto; si dichos elementos diagonales son inferiores a la unidad, entonces hablaríamos de una contracción. Un ejemplo es, 2 0 , 0 2 lo que generaría que cada coordenada original se hiciera doble. Elongación Puede considerarse que esta transformación es una expansión no uniforme, o diferencial, de aquí que esté involucrada una matriz diagonal con la particularidad de que los elementos diagonales son diferentes. Por ejemplo, si, 2 0 , 0 1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 453 — #465
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
453
es aplicada a X, la configuración en cuadrado de estos nueve puntos se transforma en una configuración rectangular en la que la primera dimensión es el doble que la original. Si alguno de los elementos diagonales es cero, la correspondiente dimensión desaparecería en la configuración transformada. Si alguno de estos elementos diagonales es negativo, obtendríamos una elongación seguida de reflexión. Transformaciones compuestas Sea T una matriz de transformación lineal, y sea la matriz S otra transformación lineal que obtiene una imagen de cada imagen de T . Si X es la matriz sobre la que se ha aplicado T, diremos que calculamos una imagen, X ∗ , de X mediante la transformación lineal compuesta T y S, cuando a X la postmultiplicamos por T S, X ∗ = XT S. Obviamente, el orden en el que aplicamos las transformaciones es importante. Veamos algunos ejemplos: Elongación y rotación. Al multiplicar las matrices, 2 0 0.707 0.707 , 0 1 −0.707 0.707 obtenemos,
1.414 1.414 , −0.707 0.707
que es una matriz compuesta que en primer lugar implica una elongación y a continuación una rotación de ejes de 45o en el sentido contrario a las agujas del reloj. Rotación, elongación y rotación. Consideraremos un giro de ejes de 45o en el sentido contrario a las agujas del reloj, seguido de una elongación y finalizando con otra rotación de ejes de 30o en el mismo sentido anterior. El producto de matrices correspondientes es, 0.707 0.707 2 0 0.867 0.5 0.87 1.32 = . −0.707 0.707 0 1 −0.5 0.867 −1.58 −0.1 Transformación arbitraria. Sea la matriz, 1 2 T = . 3 4 Esta matriz puede descomponerse en el producto de las siguientes tres matrices, −0.41 −0.91 5.47 0 −0.58 −0.82 , −0.91 0.41 0 0.37 0.82 −0.58
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 454 — #466
i
454
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
que llamándolas U, V, W respectivamente, representan una rotación de ejes de 66o en el sentido de las agujas del reloj seguida por una reflexión de la primera dimensión (U ), una elongación (V ), y una última rotación de ejes de 125o en el sentido de las agujas del reloj (W ). Así, T = U V W. Como veremos a continuación, mediante la descomposición de matrices aparentemente complejas en el producto de matrices cuyo significado geométrico conocemos, se puede comprender el efecto global de la matriz de apariencia complicada. De hecho, toda matriz no singular cuyos elementos son números reales puede descomponerse en el producto de tres matrices que representan o bien una rotación, seguida de elongación, seguida de otra rotación, o bien de una rotación con reflexión, seguida de elongación, seguida de rotación. El lector comprenderá ahora que al calcular los autovalores y autovectores de una matriz, descomponemos ésta en un producto de tres matrices, dos ortogonales y una diagonal, cuyo significado geométrico conocemos.
A.14.4.
Transformaciones lineales y rango de una matriz
Consideremos la matriz,
1 0 , S= 0 0
y hallemos la transformación del vector xt = 1 2 , 1 xT = Sx = , 0 así como la del vector yt = 1 1 , que es, yTt = 1 0 , o la de zt = 2 1 , es decir, ztT = 2 0 .
Observamos que, en cualquier caso, todo punto del plano real se transforma en un punto de la recta real, y también que r(S) = 1. Por otro lado, si la matriz de la transformación es, 1 0 R = 0 1, 0 1
notamos que r(R) = 2, y R es una matriz ortogonal que rota 45o en sentido de las agujas del reloj el plano formado por el primer y segundo ejes. Esto significa que cualquier
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 455 — #467
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
455
punto de este plano se transforma en otro punto del plano rotado 45o . Por tanto, la imagen de la transformación es un plano, de dimensión dos, es decir, el número de vectores linealmente independientes, o rango de la matriz de la transformación. En conclusión, el rango de una matriz de transformación nos ofrece información sobre la dimensionalidad original que es salvaguardada en la transformación.
A.14.5.
Estructura geométrica de los autovectores
Vectores en una nueva base Sea T una matriz de transformación lineal no necesariamente ortogonal. Como hemos visto con anterioridad, las filas de esta matriz son los vectores de una nueva base del espacio, siempre y cuando dichas filas sean independientes. Siendo F la matriz con columnas dichos vectores, la siguiente expresión es una obviedad, F = ET t = T t , siendo E la matriz identidad del apropiado orden, compuesta por los vectores de la base estándar. Cuando xE es un vector referido a la base estándar E, tenemos, considerando la transformación T, xoE = T xE , donde xoE es el vector resultante de la transformación T aplicada a xE y referido a la base E. Calcularemos ahora las coordenadas del vector xE sobre la nueva base F definida por la transformación T, designémosle xTF . Es evidente que estamos tratando el mismo punto del espacio, aunque referenciándolo a dos bases, por lo que, F xTF = ExE = xE . Resolviendo en xTF ,
xTF = F −1 xE = (T t )−1 xE ,
que en el caso particular de que T sea ortogonal, es xTF = T xE , como vimos. Sea ahora la misma transformación T anterior, pero introduzcamos como elemento nuevo que la base estándar E cambia a una nueva base F mediante otra transformación arbitraria, digamos R. Con T, el vector xE referido a E se transforma, como hemos visto, en, xoE = T xE . R
Buscamos calcular xoF , es decir, el vector xoE sobre la nueva base F definida por R. Considerando la expresión hallada para xTF , R
xoF = (Rt )−1 xoE = (Rt )−1 T xE .
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 456 — #468
i
456
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Dado que xE es, en la base F definida por R, t −1 xR F = (R ) xE ,
resulta que, R
xoF = (Rt )−1 T Rt xR F. En resumen, en el espacio de la nueva base F definida por una matriz arbitraria R, un oR t −1 t vector xR F se transforma en otro xF mediante la matriz de transformación (R ) T R , siempre que R pueda invertirse. Caso de que R sea ortogonal, tendríamos que la matriz de la transformación es RT Rt . Optimización de la matriz de varianzas covarianzas Supongamos una matriz de datos Xmn compuesta de una serie de observaciones multidimensionales, es decir, con m filas que representan los objetos medidos y n columnas que son las variables medidas en esos objetos. Supongamos, además, para facilitar la exposición, que la matriz X ha sido corregida mediante un cambio de origen, situando éste en la media de cada variable, y por ello, la media de las columnas de la matriz es cero. Llamemos ΣX a la correspondiente matriz de varianzas covarianzas. Deseamos calcular combinaciones lineales de las variables originales correlacionadas Xi , con la peculiaridad de que dichas combinaciones lineales tengan varianza máxima. Es decir, n X Uk = uik Xi , k = 1, ..., n, i=1
utk uk
con = 1, var(Uk ) máxima, y var(U1 ) ≥ ... ≥ var(Un ). El que la longitud de los vectores u sea la unidad obedece al hecho de que de esta manera var(Uk ) no pueda hacerse arbitrariamente grande sin más que aumentar las componentes de uk . Como vimos, llamando ΣU a la matriz de varianzas covarianzas de las combinaciones lineales, ΣU = U t ΣX U. Consideremos la primera combinación lineal u1 . Se trata de maximizar la función, ut1 ΣX u1 , sujeta a la restricción normalizante ut1 u1 = 1, para lo que emplearemos el procedimiento denominado multiplicadores de Lagrange (véase el Subapéndice al final del capítulo). Así, maximizaremos, ut1 ΣX u1 − λ(ut1 u1 − 1), donde λ es el multiplicador de Lagrange. Derivando e igualando a cero, ∂ [ut ΣX u1 − λ(ut1 u1 − 1)] = 2(ΣX − λ)u1 = 0. ∂u1 1
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 457 — #469
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
457
En consecuencia, para encontrar otra solución distinta al vector nulo, |ΣX − λI| = 0, la ecuación característica de, ΣX u1 = λu1 . En conclusión, tratamos de encontrar los autovalores y autovectores (normalizados) de la matriz simétrica de varianzas covarianzas ΣX . Si llamamos U a la matriz ortogonal de autovectores y Λ a la matriz diagonal con los autovalores, entonces, Λ = U t ΣX U ⇔ ΣX = U ΛU t . En otras palabras, hemos construido una nueva base, mediante rotación de la antigua (U es ortogonal), constituida por los autovectores de longitud unitaria y perpendiculares, y en el espacio correspondiente las transformaciones son elongamientos (Λ es diagonal con elementos que, sin entrar en su examen riguroso, son diferentes entre sí y de la unidad). Finalmente, observemos que la matriz de varianzas covarianzas ΣU de las combinaciones lineales es la matriz diagonal Λ. Esto implica que la varianza de cada combinación lineal Ui , i = 1, ..., n, coincide con el autovalor λi , i = 1, ..., n. Por otra parte, como consecuencia de que la transformación lineal asociada es una elongación, los autovalores son menores sucesivamente. Además, es también evidente que, tr(ΣX ) = tr(Λ) =
Xn
i=1
λi ,
es decir, que la suma de varianzas de las variables originales - la variabilidad total - y la suma de las varianzas de las combinaciones lineales Ui son iguales.
A.15 SUBAPÉNDICE Multiplicadores de Lagrange Este método de obtención de los máximos y mínimos de una función sujeta a una restricción se emplea cuando la función es multivariante. Lo desarrollaremos con un ejemplo y considerando una función bivariante. Previamente veremos algunos conceptos básicos de cálculo vectorial que posteriormente vamos a necesitar. Una función bivariante z = f (x, y) es una superficie que usualmente se representa en el sistema de ejes cartesianos tridimensional como puede verse, considerando un ejemplo concreto, en la Figura A.1.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 458 — #470
i
458
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura A.1
La Figura A.2a muestra otro modo de representar z = f (x, y). La gráfica se denomina representación mediante curvas de nivel. Las populares isobaras en los mapas del tiempo son curvas de nivel, en las que los puntos con la misma presión se unen generando una curva. Más generalmente, se dice que las curvas de nivel de una función z = f (x, y) constituyen una familia de curvas en el plano XY en las que se verifica f (x, y) = c, siendo c una constante llamada nivel o contorno. Evidentemente, por tanto, una curva con nivel c es el conjunto de puntos sobre la superficie f (x, y) con la misma coordenada z = c. De otra parte, la posición de un punto en una curva cualquiera queda perfectamente definida por la función univariante f (x) que representa a la curva. Extrapolando este concepto a funciones de más de una variable, tenemos que para localizar un punto en una superficie f (x, y) se necesitarán dos funciones, para localizar un punto en una función trivariante f (x, y, z), se necesitan tres funciones, y así sucesivamente. Sobre esta idea se basa el concepto de función vectorial. Un ejemplo de función vectorial bidimensional es, v(t) = h2 cos t, sen ti , 0 ≤ t ≤ 2π, en la que la coordenada x es 2 cos t, en tanto que la coordenada y es sen t. Para cada valor de t, v(t) toma un valor que se corresponde con un punto en el plano XY. La Figura A.2b representa la elipse que corresponde a v cuando 0 ≤ t ≤ 2π, ya que,
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 459 — #471
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
459
recordando la ecuación de una elipse, se verifica, x2 + y 2 = cos2 t + sen2 t = 1. 4
(a)
(b) Figura A.2
En esta figura también puede verse representado el vector v(1), de forma que v(t) se dice que es un conjunto de vectores. Finalmente, antes de desarrollar los multiplicadores de Lagrange, veamos el concepto de gradiente de una función de varias variables. El gradiente ∇f de una función f (x, y) es la función vectorial, ∂f ∂f . , ∇f = ∂x ∂y Supongamos que f (x, y) = 4x2 + y 2 . Entonces, ∇f = h8x, 2yi . La representación gráfica de f mediante curvas de nivel se muestra en √ la Figura A.3, donde√también puede verse el vector gradiente h8x, 2yi en los puntos ( 1.25, 0), (1, 1) y (0, 5). Observemos que el vector gradiente en el punto (x, y) es perpendicular a la curva de nivel en dicho punto, un resultado no dificil de demostrar - se trata de comprobar que la recta tangente a la curva de nivel con pendiente su derivada y que pasa por el punto (x, y), es perpendicular al vector gradiente -. Veamos ahora un ejemplo del cálculo de los puntos extremos de una función bivariante sujeta a una restricción. Sea f (x, y) = 6x + 8y, y sea la restricción g(x, y) = x2 + y 2 − 1 = 0.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 460 — #472
i
460
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
Figura A.3
En la Figura A.4 puede verse la representación gráfica mediante curvas de nivel de la función objetivo f, así como la función g. La función f se ha dibujado considerando 6x + 8y = c, siendo c = −20, −15 − 10, −5, 0, 5, 10, 15, 20. Obviamente, la función g es la circunferencia de radio unidad centrada en el origen de coordenadas.
Figura A.4
Como podemos apreciar, los puntos (x, y) pertenecientes a f y que al mismo tiempo verifican g se localizan entre las rectas 6x+8y = −10 y 6x+8y = 10. En consecuencia, el máximo de la función f es 10 y el mínimo de dicha función es −10, es decir, donde f y g intersectan. También podemos apreciar otra caracterización de los puntos extremos calculados.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 461 — #473
i
APÉNDICE A. ÁLGEBRA Y GEOMETRÍA DE MATRICES
461
En efecto, el máximo y el mínimo se alcanzan en puntos del plano en donde la perpendicular a la función objetivo f y la perpendicular a la función restricción g coinciden. Esto implica, como hemos visto anteriormente, que los vectores gradiente ∇f y ∇g tienen la misma dirección. Consecuentemente, un vector es múltiplo del otro, ∇f = λ∇g, donde λ se denomina multiplicador de Lagrange. Puesto que, ∇f = h6, 8i , ∇g = h2x, 2yi , tendremos el sistema,
6 = 2λx 8 = 2λy , 2 x + y2 = 1
donde la tercera ecuación es la restricción g. Resolviendo, resulta, λ = 5 ⇒ (x = 0.6, y = 0.8), λ = −5 ⇒ (x = −0.6, y = −0.8). En general, para el caso bidimensional, la técnica de los multiplicadores de Lagrange consiste en el siguiente sistema de tres ecuaciones, siendo f la función objetivo y g la restricción, ∂f ∂g =λ ∂x ∂x ∂f ∂g . =λ ∂y ∂y g(x, y) = 0 Es fácil imaginar la generalización a más de dos dimensiones.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 462 — #474
i
462
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 463 — #475
i
APÉNDICE
B Tablas de Distribuciones
n 2
3
4
5
n 6
7
8
x 0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5
x 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8
0,1 0,8100 0,9900 1,0000 0,7290 0,9720 0,9990 1,0000 0,6561 0,9477 0,9963 0,9999 1,0000 0,5905 0,9185 0,9914 0,9995 1,0000 1,0000
0,1 0,5314 0,8857 0,9842 0,9987 0,9999 1,0000 1,0000 0,4783 0,8503 0,9743 0,9973 0,9998 1,0000 1,0000 1,0000 0,4305 0,8131 0,9619 0,9950 0,9996 1,0000 1,0000 1,0000 1,0000
0,15 0,7225 0,9775 1,0000 0,6141 0,9393 0,9966 1,0000 0,5220 0,8905 0,9880 0,9995 1,0000 0,4437 0,8352 0,9734 0,9978 0,9999 1,0000
0,2 0,6400 0,9600 1,0000 0,5120 0,8960 0,9920 1,0000 0,4096 0,8192 0,9728 0,9984 1,0000 0,3277 0,7373 0,9421 0,9933 0,9997 1,0000
Distribución BINOMIAL p 0,25 0,3 0,5625 0,4900 0,9375 0,9100 1,0000 1,0000 0,4219 0,3430 0,8438 0,7840 0,9844 0,9730 1,0000 1,0000 0,3164 0,2401 0,7383 0,6517 0,9492 0,9163 0,9961 0,9919 1,0000 1,0000 0,2373 0,1681 0,6328 0,5282 0,8965 0,8369 0,9844 0,9692 0,9990 0,9976 1,0000 1,0000
0,35 0,4225 0,8775 1,0000 0,2746 0,7183 0,9571 1,0000 0,1785 0,5630 0,8735 0,9850 1,0000 0,1160 0,4284 0,7648 0,9460 0,9947 1,0000
0,4 0,3600 0,8400 1,0000 0,2160 0,6480 0,9360 1,0000 0,1296 0,4752 0,8208 0,9744 1,0000 0,0778 0,3370 0,6826 0,9130 0,9898 1,0000
0,45 0,3025 0,7975 1,0000 0,1664 0,5748 0,9089 1,0000 0,0915 0,3910 0,7585 0,9590 1,0000 0,0503 0,2562 0,5931 0,8688 0,9815 1,0000
0,5 0,2500 0,7500 1,0000 0,1250 0,5000 0,8750 1,0000 0,0625 0,3125 0,6875 0,9375 1,0000 0,0313 0,1875 0,5000 0,8125 0,9688 1,0000
0,15 0,3771 0,7765 0,9527 0,9941 0,9996 1,0000 1,0000 0,3206 0,7166 0,9262 0,9879 0,9988 0,9999 1,0000 1,0000 0,2725 0,6572 0,8948 0,9786 0,9971 0,9998 1,0000 1,0000 1,0000
Distribución BINOMIAL p 0,2 0,25 0,3 0,2621 0,1780 0,1176 0,6554 0,5339 0,4202 0,9011 0,8306 0,7443 0,9830 0,9624 0,9295 0,9984 0,9954 0,9891 0,9999 0,9998 0,9993 1,0000 1,0000 1,0000 0,2097 0,1335 0,0824 0,5767 0,4449 0,3294 0,8520 0,7564 0,6471 0,9667 0,9294 0,8740 0,9953 0,9871 0,9712 0,9996 0,9987 0,9962 1,0000 0,9999 0,9998 1,0000 1,0000 1,0000 0,1678 0,1001 0,0576 0,5033 0,3671 0,2553 0,7969 0,6785 0,5518 0,9437 0,8862 0,8059 0,9896 0,9727 0,9420 0,9988 0,9958 0,9887 0,9999 0,9996 0,9987 1,0000 1,0000 0,9999 1,0000 1,0000 1,0000
0,35 0,0754 0,3191 0,6471 0,8826 0,9777 0,9982 1,0000 0,0490 0,2338 0,5323 0,8002 0,9444 0,9910 0,9994 1,0000 0,0319 0,1691 0,4278 0,7064 0,8939 0,9747 0,9964 0,9998 1,0000
0,4 0,0467 0,2333 0,5443 0,8208 0,9590 0,9959 1,0000 0,0280 0,1586 0,4199 0,7102 0,9037 0,9812 0,9984 1,0000 0,0168 0,1064 0,3154 0,5941 0,8263 0,9502 0,9915 0,9993 1,0000
0,45 0,0277 0,1636 0,4415 0,7447 0,9308 0,9917 1,0000 0,0152 0,1024 0,3164 0,6083 0,8471 0,9643 0,9963 1,0000 0,0084 0,0632 0,2201 0,4770 0,7396 0,9115 0,9819 0,9983 1,0000
0,5 0,0156 0,1094 0,3438 0,6563 0,8906 0,9844 1,0000 0,0078 0,0625 0,2266 0,5000 0,7734 0,9375 0,9922 1,0000 0,0039 0,0352 0,1445 0,3633 0,6367 0,8555 0,9648 0,9961 1,0000
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 464 — #476
i
464
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
n 9
10
n 11
x 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10
0,1 0,3874 0,7748 0,9470 0,9917 0,9991 0,9999 1,0000 1,0000 1,0000 1,0000 0,3487 0,7361 0,9298 0,9872 0,9984 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,2316 0,5995 0,8591 0,9661 0,9944 0,9994 1,0000 1,0000 1,0000 1,0000 0,1969 0,5443 0,8202 0,9500 0,9901 0,9986 0,9999 1,0000 1,0000 1,0000 1,0000
Distribución BINOMIAL p 0,2 0,25 0,3 0,1342 0,0751 0,0404 0,4362 0,3003 0,1960 0,7382 0,6007 0,4628 0,9144 0,8343 0,7297 0,9804 0,9511 0,9012 0,9969 0,9900 0,9747 0,9997 0,9987 0,9957 1,0000 0,9999 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,1074 0,0563 0,0282 0,3758 0,2440 0,1493 0,6778 0,5256 0,3828 0,8791 0,7759 0,6496 0,9672 0,9219 0,8497 0,9936 0,9803 0,9527 0,9991 0,9965 0,9894 0,9999 0,9996 0,9984 1,0000 1,0000 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
x 0 1 2 3 4 5 6 7 8 9 10 11
0,1 0,3138 0,6974 0,9104 0,9815 0,9972 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,1673 0,4922 0,7788 0,9306 0,9841 0,9973 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
0,2 0,0859 0,3221 0,6174 0,8389 0,9496 0,9883 0,9980 0,9998 1,0000 1,0000 1,0000 1,0000
Distribución BINOMIAL p 0,25 0,3 0,0422 0,0198 0,1971 0,1130 0,4552 0,3127 0,7133 0,5696 0,8854 0,7897 0,9657 0,9218 0,9924 0,9784 0,9988 0,9957 0,9999 0,9994 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,35 0,0088 0,0606 0,2001 0,4256 0,6683 0,8513 0,9499 0,9878 0,9980 0,9998 1,0000 1,0000
0,4 0,0036 0,0302 0,1189 0,2963 0,5328 0,7535 0,9006 0,9707 0,9941 0,9993 1,0000 1,0000
0,45 0,0014 0,0139 0,0652 0,1911 0,3971 0,6331 0,8262 0,9390 0,9852 0,9978 0,9998 1,0000
0,5 0,0005 0,0059 0,0327 0,1133 0,2744 0,5000 0,7256 0,8867 0,9673 0,9941 0,9995 1,0000
0,35 0,0057 0,0424 0,1513 0,3467 0,5833 0,7873 0,9154 0,9745 0,9944 0,9992 0,9999 1,0000 1,0000
0,4 0,0022 0,0196 0,0834 0,2253 0,4382 0,6652 0,8418 0,9427 0,9847 0,9972 0,9997 1,0000 1,0000
0,45 0,0008 0,0083 0,0421 0,1345 0,3044 0,5269 0,7393 0,8883 0,9644 0,9921 0,9989 0,9999 1,0000
0,5 0,0002 0,0032 0,0193 0,0730 0,1938 0,3872 0,6128 0,8062 0,9270 0,9807 0,9968 0,9998 1,0000
Distribución BINOMIAL p 0,25 0,3 0,0238 0,0097 0,1267 0,0637 0,3326 0,2025 0,5843 0,4206 0,7940 0,6543 0,9198 0,8346 0,9757 0,9376 0,9944 0,9818 0,9990 0,9960 0,9999 0,9993 1,0000 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,35 0,0037 0,0296 0,1132 0,2783 0,5005 0,7159 0,8705 0,9538 0,9874 0,9975 0,9997 1,0000 1,0000 1,0000
0,4 0,0013 0,0126 0,0579 0,1686 0,3530 0,5744 0,7712 0,9023 0,9679 0,9922 0,9987 0,9999 1,0000 1,0000
0,45 0,0004 0,0049 0,0269 0,0929 0,2279 0,4268 0,6437 0,8212 0,9302 0,9797 0,9959 0,9995 1,0000 1,0000
0,5 0,0001 0,0017 0,0112 0,0461 0,1334 0,2905 0,5000 0,7095 0,8666 0,9539 0,9888 0,9983 0,9999 1,0000
n 12
x 0 1 2 3 4 5 6 7 8 9 10 11 12
0,1 0,2824 0,6590 0,8891 0,9744 0,9957 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,1422 0,4435 0,7358 0,9078 0,9761 0,9954 0,9993 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
Distribución BINOMIAL p 0,2 0,25 0,3 0,0687 0,0317 0,0138 0,2749 0,1584 0,0850 0,5583 0,3907 0,2528 0,7946 0,6488 0,4925 0,9274 0,8424 0,7237 0,9806 0,9456 0,8822 0,9961 0,9857 0,9614 0,9994 0,9972 0,9905 0,9999 0,9996 0,9983 1,0000 1,0000 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
n 13
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13
0,1 0,2542 0,6213 0,8661 0,9658 0,9935 0,9991 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,1209 0,3983 0,6920 0,8820 0,9658 0,9925 0,9987 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,2 0,0550 0,2336 0,5017 0,7473 0,9009 0,9700 0,9930 0,9988 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000
0,35 0,0207 0,1211 0,3373 0,6089 0,8283 0,9464 0,9888 0,9986 0,9999 1,0000 0,0135 0,0860 0,2616 0,5138 0,7515 0,9051 0,9740 0,9952 0,9995 1,0000 1,0000
0,4 0,0101 0,0705 0,2318 0,4826 0,7334 0,9006 0,9750 0,9962 0,9997 1,0000 0,0060 0,0464 0,1673 0,3823 0,6331 0,8338 0,9452 0,9877 0,9983 0,9999 1,0000
0,45 0,0046 0,0385 0,1495 0,3614 0,6214 0,8342 0,9502 0,9909 0,9992 1,0000 0,0025 0,0233 0,0996 0,2660 0,5044 0,7384 0,8980 0,9726 0,9955 0,9997 1,0000
0,5 0,0020 0,0195 0,0898 0,2539 0,5000 0,7461 0,9102 0,9805 0,9980 1,0000 0,0010 0,0107 0,0547 0,1719 0,3770 0,6230 0,8281 0,9453 0,9893 0,9990 1,0000
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 465 — #477
i
APÉNDICE B. TABLAS DE DISTRIBUCIONES
n 14
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0,1 0,2288 0,5846 0,8416 0,9559 0,9908 0,9985 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,1028 0,3567 0,6479 0,8535 0,9533 0,9885 0,9978 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Distribución BINOMIAL p 0,2 0,25 0,3 0,0440 0,0178 0,0068 0,1979 0,1010 0,0475 0,4481 0,2811 0,1608 0,6982 0,5213 0,3552 0,8702 0,7415 0,5842 0,9561 0,8883 0,7805 0,9884 0,9617 0,9067 0,9976 0,9897 0,9685 0,9996 0,9978 0,9917 1,0000 0,9997 0,9983 1,0000 1,0000 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
n 15
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0,1 0,2059 0,5490 0,8159 0,9444 0,9873 0,9978 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,0874 0,3186 0,6042 0,8227 0,9383 0,9832 0,9964 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,2 0,0352 0,1671 0,3980 0,6482 0,8358 0,9389 0,9819 0,9958 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,35 0,0024 0,0205 0,0839 0,2205 0,4227 0,6405 0,8164 0,9247 0,9757 0,9940 0,9989 0,9999 1,0000 1,0000 1,0000
0,4 0,0008 0,0081 0,0398 0,1243 0,2793 0,4859 0,6925 0,8499 0,9417 0,9825 0,9961 0,9994 0,9999 1,0000 1,0000
0,45 0,0002 0,0029 0,0170 0,0632 0,1672 0,3373 0,5461 0,7414 0,8811 0,9574 0,9886 0,9978 0,9997 1,0000 1,0000
0,5 0,0001 0,0009 0,0065 0,0287 0,0898 0,2120 0,3953 0,6047 0,7880 0,9102 0,9713 0,9935 0,9991 0,9999 1,0000
Distribución BINOMIAL p 0,25 0,3 0,0134 0,0047 0,0802 0,0353 0,2361 0,1268 0,4613 0,2969 0,6865 0,5155 0,8516 0,7216 0,9434 0,8689 0,9827 0,9500 0,9958 0,9848 0,9992 0,9963 0,9999 0,9993 1,0000 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,35 0,0016 0,0142 0,0617 0,1727 0,3519 0,5643 0,7548 0,8868 0,9578 0,9876 0,9972 0,9995 0,9999 1,0000 1,0000 1,0000
0,4 0,0005 0,0052 0,0271 0,0905 0,2173 0,4032 0,6098 0,7869 0,9050 0,9662 0,9907 0,9981 0,9997 1,0000 1,0000 1,0000
0,45 0,0001 0,0017 0,0107 0,0424 0,1204 0,2608 0,4522 0,6535 0,8182 0,9231 0,9745 0,9937 0,9989 0,9999 1,0000 1,0000
0,5 0,0000 0,0005 0,0037 0,0176 0,0592 0,1509 0,3036 0,5000 0,6964 0,8491 0,9408 0,9824 0,9963 0,9995 1,0000 1,0000
465
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 466 — #478
i
466
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
x 0 1 2 3 4 5 6 7
0,1 0,9048 0,9953 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000
0,2 0,8187 0,9825 0,9989 0,9999 1,0000 1,0000 1,0000 1,0000
0,3 0,7408 0,9631 0,9964 0,9997 1,0000 1,0000 1,0000 1,0000
Distribución POISSON l 0,4 0,5 0,6 0,6703 0,6065 0,5488 0,9384 0,9098 0,8781 0,9921 0,9856 0,9769 0,9992 0,9982 0,9966 0,9999 0,9998 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,7 0,4966 0,8442 0,9659 0,9942 0,9992 0,9999 1,0000 1,0000
0,8 0,4493 0,8088 0,9526 0,9909 0,9986 0,9998 1,0000 1,0000
0,9 0,4066 0,7725 0,9371 0,9865 0,9977 0,9997 1,0000 1,0000
1 0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000
1,7 0,1827 0,4932 0,7572 0,9068 0,9704 0,9920 0,9981 0,9996 0,9999 1,0000
1,8 0,1653 0,4628 0,7306 0,8913 0,9636 0,9896 0,9974 0,9994 0,9999 1,0000
1,9 0,1496 0,4337 0,7037 0,8747 0,9559 0,9868 0,9966 0,9992 0,9998 1,0000
2 0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989 0,9998 1,0000
Distribución POISSON l 3 3,2 0,0498 0,0408 0,1991 0,1712 0,4232 0,3799 0,6472 0,6025 0,8153 0,7806 0,9161 0,8946 0,9665 0,9554 0,9881 0,9832 0,9962 0,9943 0,9989 0,9982 0,9997 0,9995 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
3,4 0,0334 0,1468 0,3397 0,5584 0,7442 0,8705 0,9421 0,9769 0,9917 0,9973 0,9992 0,9998 0,9999 1,0000 1,0000
3,6 0,0273 0,1257 0,3027 0,5152 0,7064 0,8441 0,9267 0,9692 0,9883 0,9960 0,9987 0,9996 0,9999 1,0000 1,0000
3,8 0,0224 0,1074 0,2689 0,4735 0,6678 0,8156 0,9091 0,9599 0,9840 0,9942 0,9981 0,9994 0,9998 1,0000 1,0000
4 0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786 0,9919 0,9972 0,9991 0,9997 0,9999 1,0000
Distribución POISSON l 5 5,2 0,0067 0,0055 0,0404 0,0342 0,1247 0,1088 0,2650 0,2381 0,4405 0,4061 0,6160 0,5809 0,7622 0,7324 0,8666 0,8449 0,9319 0,9181 0,9682 0,9603 0,9863 0,9823 0,9945 0,9927 0,9980 0,9972 0,9993 0,9990 0,9998 0,9997 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
5,4 0,0045 0,0289 0,0948 0,2133 0,3733 0,5461 0,7017 0,8217 0,9027 0,9512 0,9775 0,9904 0,9962 0,9986 0,9995 0,9998 0,9999 1,0000 1,0000
5,6 0,0037 0,0244 0,0824 0,1906 0,3422 0,5119 0,6703 0,7970 0,8857 0,9409 0,9718 0,9875 0,9949 0,9980 0,9993 0,9998 0,9999 1,0000 1,0000
5,8 0,0030 0,0206 0,0715 0,1700 0,3127 0,4783 0,6384 0,7710 0,8672 0,9292 0,9651 0,9841 0,9932 0,9973 0,9990 0,9996 0,9999 1,0000 1,0000
6 0,0025 0,0174 0,0620 0,1512 0,2851 0,4457 0,6063 0,7440 0,8472 0,9161 0,9574 0,9799 0,9912 0,9964 0,9986 0,9995 0,9998 0,9999 1,0000
x 0 1 2 3 4 5 6 7 8 9
1,1 0,3329 0,6990 0,9004 0,9743 0,9946 0,9990 0,9999 1,0000 1,0000 1,0000
1,2 0,3012 0,6626 0,8795 0,9662 0,9923 0,9985 0,9997 1,0000 1,0000 1,0000
1,3 0,2725 0,6268 0,8571 0,9569 0,9893 0,9978 0,9996 0,9999 1,0000 1,0000
Distribución POISSON l 1,4 1,5 1,6 0,2466 0,2231 0,2019 0,5918 0,5578 0,5249 0,8335 0,8088 0,7834 0,9463 0,9344 0,9212 0,9857 0,9814 0,9763 0,9968 0,9955 0,9940 0,9994 0,9991 0,9987 0,9999 0,9998 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2,2 0,1108 0,3546 0,6227 0,8194 0,9275 0,9751 0,9925 0,9980 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
2,4 0,0907 0,3084 0,5697 0,7787 0,9041 0,9643 0,9884 0,9967 0,9991 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000
2,6 0,0743 0,2674 0,5184 0,7360 0,8774 0,9510 0,9828 0,9947 0,9985 0,9996 0,9999 1,0000 1,0000 1,0000 1,0000
2,8 0,0608 0,2311 0,4695 0,6919 0,8477 0,9349 0,9756 0,9919 0,9976 0,9993 0,9998 1,0000 1,0000 1,0000 1,0000
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
4,2 0,0150 0,0780 0,2102 0,3954 0,5898 0,7531 0,8675 0,9361 0,9721 0,9889 0,9959 0,9986 0,9996 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
4,4 0,0123 0,0663 0,1851 0,3594 0,5512 0,7199 0,8436 0,9214 0,9642 0,9851 0,9943 0,9980 0,9993 0,9998 0,9999 1,0000 1,0000 1,0000 1,0000
4,6 0,0101 0,0563 0,1626 0,3257 0,5132 0,6858 0,8180 0,9049 0,9549 0,9805 0,9922 0,9971 0,9990 0,9997 0,9999 1,0000 1,0000 1,0000 1,0000
4,8 0,0082 0,0477 0,1425 0,2942 0,4763 0,6510 0,7908 0,8867 0,9442 0,9749 0,9896 0,9960 0,9986 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 467 — #479
i
APÉNDICE B. TABLAS DE DISTRIBUCIONES
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
6,3 0,0018 0,0134 0,0498 0,1264 0,2469 0,3988 0,5582 0,7017 0,8148 0,8939 0,9437 0,9723 0,9873 0,9945 0,9978 0,9992 0,9997 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
6,7 0,0012 0,0095 0,0371 0,0988 0,2022 0,3406 0,4953 0,6433 0,7673 0,8596 0,9214 0,9591 0,9801 0,9909 0,9961 0,9984 0,9994 0,9998 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
7 0,0009 0,0073 0,0296 0,0818 0,1730 0,3007 0,4497 0,5987 0,7291 0,8305 0,9015 0,9467 0,9730 0,9872 0,9943 0,9976 0,9990 0,9996 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
Distribución POISSON l 7,3 7,7 8 0,0007 0,0005 0,0003 0,0056 0,0039 0,0030 0,0236 0,0174 0,0138 0,0674 0,0518 0,0424 0,1473 0,1181 0,0996 0,2640 0,2203 0,1912 0,4060 0,3514 0,3134 0,5541 0,4956 0,4530 0,6892 0,6343 0,5925 0,7988 0,7531 0,7166 0,8788 0,8445 0,8159 0,9319 0,9085 0,8881 0,9642 0,9496 0,9362 0,9824 0,9739 0,9658 0,9918 0,9873 0,9827 0,9964 0,9941 0,9918 0,9985 0,9974 0,9963 0,9994 0,9989 0,9984 0,9998 0,9996 0,9993 0,9999 0,9998 0,9997 1,0000 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
8,3 0,0002 0,0023 0,0109 0,0346 0,0837 0,1653 0,2781 0,4119 0,5507 0,6788 0,7850 0,8652 0,9207 0,9561 0,9771 0,9887 0,9947 0,9977 0,9990 0,9996 0,9998 0,9999 1,0000 1,0000
8,7 0,0002 0,0016 0,0079 0,0262 0,0660 0,1352 0,2355 0,3602 0,4958 0,6269 0,7409 0,8311 0,8965 0,9403 0,9675 0,9832 0,9918 0,9962 0,9983 0,9993 0,9997 0,9999 1,0000 1,0000
9,5 0,0001 0,0008 0,0042 0,0149 0,0403 0,0885 0,1649 0,2687 0,3918 0,5218 0,6453 0,7520 0,8364 0,8981 0,9400 0,9665 0,9823 0,9911 0,9957 0,9980 0,9991 0,9996 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
Distribución POISSON l 10,5 11 10 0,0000 0,0000 0,0000 0,0005 0,0003 0,0002 0,0028 0,0018 0,0012 0,0103 0,0071 0,0049 0,0293 0,0211 0,0151 0,0671 0,0504 0,0375 0,1301 0,1016 0,0786 0,2202 0,1785 0,1432 0,3328 0,2794 0,2320 0,4579 0,3971 0,3405 0,5830 0,5207 0,4599 0,6968 0,6387 0,5793 0,7916 0,7420 0,6887 0,8645 0,8253 0,7813 0,9165 0,8879 0,8540 0,9513 0,9317 0,9074 0,9730 0,9604 0,9441 0,9857 0,9781 0,9678 0,9928 0,9885 0,9823 0,9965 0,9942 0,9907 0,9984 0,9972 0,9953 0,9993 0,9987 0,9977 0,9997 0,9994 0,9990 0,9999 0,9998 0,9995 1,0000 0,9999 0,9998 1,0000 1,0000 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
11,5 0,0000 0,0001 0,0008 0,0034 0,0107 0,0277 0,0603 0,1137 0,1906 0,2888 0,4017 0,5198 0,6329 0,7330 0,8153 0,8783 0,9236 0,9542 0,9738 0,9857 0,9925 0,9962 0,9982 0,9992 0,9996 0,9998 0,9999 1,0000 1,0000
12 0,0000 0,0001 0,0005 0,0023 0,0076 0,0203 0,0458 0,0895 0,1550 0,2424 0,3472 0,4616 0,5760 0,6815 0,7720 0,8444 0,8987 0,9370 0,9626 0,9787 0,9884 0,9939 0,9970 0,9985 0,9993 0,9997 0,9999 0,9999 1,0000
9 0,0001 0,0012 0,0062 0,0212 0,0550 0,1157 0,2068 0,3239 0,4557 0,5874 0,7060 0,8030 0,8758 0,9261 0,9585 0,9780 0,9889 0,9947 0,9976 0,9989 0,9996 0,9998 0,9999 1,0000
467
9,3 0,0001 0,0009 0,0049 0,0172 0,0456 0,0986 0,1808 0,2900 0,4168 0,5479 0,6699 0,7730 0,8529 0,9100 0,9480 0,9715 0,9852 0,9927 0,9966 0,9985 0,9993 0,9997 0,9999 1,0000
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 468 — #480
i
468
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
12,5 0,0000 0,0001 0,0003 0,0016 0,0053 0,0148 0,0346 0,0698 0,1249 0,2014 0,2971 0,4058 0,5190 0,6278 0,7250 0,8060 0,8693 0,9158 0,9481 0,9694 0,9827 0,9906 0,9951 0,9975 0,9988 0,9994 0,9997 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
Distribución POISSON l 13 13,5 14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0001 0,0001 0,0011 0,0007 0,0005 0,0037 0,0026 0,0018 0,0107 0,0077 0,0055 0,0259 0,0193 0,0142 0,0540 0,0415 0,0316 0,0998 0,0790 0,0621 0,1658 0,1353 0,1094 0,2517 0,2112 0,1757 0,3532 0,3045 0,2600 0,4631 0,4093 0,3585 0,5730 0,5182 0,4644 0,6751 0,6233 0,5704 0,7636 0,7178 0,6694 0,8355 0,7975 0,7559 0,8905 0,8609 0,8272 0,9302 0,9084 0,8826 0,9573 0,9421 0,9235 0,9750 0,9649 0,9521 0,9859 0,9796 0,9712 0,9924 0,9885 0,9833 0,9960 0,9938 0,9907 0,9980 0,9968 0,9950 0,9990 0,9984 0,9974 0,9995 0,9992 0,9987 0,9998 0,9996 0,9994 0,9999 0,9998 0,9997 1,0000 0,9999 0,9999 1,0000 1,0000 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
14,5 0,0000 0,0000 0,0001 0,0003 0,0012 0,0039 0,0105 0,0239 0,0484 0,0878 0,1449 0,2201 0,3111 0,4125 0,5176 0,6192 0,7112 0,7897 0,8530 0,9012 0,9362 0,9604 0,9763 0,9863 0,9924 0,9959 0,9979 0,9989 0,9995 0,9998 0,9999 1,0000 1,0000
15 0,0000 0,0000 0,0000 0,0002 0,0009 0,0028 0,0076 0,0180 0,0374 0,0699 0,1185 0,1848 0,2676 0,3632 0,4657 0,5681 0,6641 0,7489 0,8195 0,8752 0,9170 0,9469 0,9673 0,9805 0,9888 0,9938 0,9967 0,9983 0,9991 0,9996 0,9998 0,9999 1,0000
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 469 — #481
i
APÉNDICE B. TABLAS DE DISTRIBUCIONES
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
0,01 0,0002 0,0201 0,1148 0,2971 0,5543 0,8721 1,2390 1,6465 2,0879 2,5582 3,0535 3,5706 4,1069 4,6604 5,2293 5,8122 6,4078 7,0149 7,6327 8,2604
0,01 8,8972 9,5425 10,1957 10,8564 11,5240 12,1981 12,8785 13,5647 14,2565 14,9535 22,1643 29,7067 37,4849 45,4417 53,5401 61,7541 70,0649
0,025 0,0010 0,0506 0,2158 0,4844 0,8312 1,2373 1,6899 2,1797 2,7004 3,2470 3,8157 4,4038 5,0088 5,6287 6,2621 6,9077 7,5642 8,2307 8,9065 9,5908
0,025 10,2829 10,9823 11,6886 12,4012 13,1197 13,8439 14,5734 15,3079 16,0471 16,7908 24,4330 32,3574 40,4817 48,7576 57,1532 65,6466 74,2219
0,05 0,0039 0,1026 0,3518 0,7107 1,1455 1,6354 2,1673 2,7326 3,3251 3,9403 4,5748 5,2260 5,8919 6,5706 7,2609 7,9616 8,6718 9,3905 10,1170 10,8508
0,05 11,5913 12,3380 13,0905 13,8484 14,6114 15,3792 16,1514 16,9279 17,7084 18,4927 26,5093 34,7643 43,1880 51,7393 60,3915 69,1260 77,9295
Distribución CHI CUADRADO (abscisas) P(X = x) 0,1 0,25 0,9 0,95 0,0158 0,1015 2,7055 3,8415 0,2107 0,5754 4,6052 5,9915 0,5844 1,2125 6,2514 7,8147 1,0636 1,9226 7,7794 9,4877 1,6103 2,6746 9,2364 11,0705 2,2041 3,4546 10,6446 12,5916 2,8331 4,2549 12,0170 14,0671 3,4895 5,0706 13,3616 15,5073 4,1682 5,8988 14,6837 16,9190 4,8652 6,7372 15,9872 18,3070 5,5778 7,5841 17,2750 19,6751 6,3038 8,4384 18,5493 21,0261 7,0415 9,2991 19,8119 22,3620 7,7895 10,1653 21,0641 23,6848 8,5468 11,0365 22,3071 24,9958 9,3122 11,9122 23,5418 26,2962 10,0852 12,7919 24,7690 27,5871 10,8649 13,6753 25,9894 28,8693 11,6509 14,5620 27,2036 30,1435 12,4426 15,4518 28,4120 31,4104
Distribución CHI CUADRADO (abscisas) P(X = x) 0,1 0,25 0,9 0,95 13,2396 16,3444 29,6151 32,6706 14,0415 17,2396 30,8133 33,9244 14,8480 18,1373 32,0069 35,1725 15,6587 19,0373 33,1962 36,4150 16,4734 19,9393 34,3816 37,6525 17,2919 20,8434 35,5632 38,8851 18,1139 21,7494 36,7412 40,1133 18,9392 22,6572 37,9159 41,3371 19,7677 23,5666 39,0875 42,5570 20,5992 24,4776 40,2560 43,7730 29,0505 33,6603 51,8051 55,7585 37,6886 42,9421 63,1671 67,5048 46,4589 52,2938 74,3970 79,0819 55,3289 61,6983 85,5270 90,5312 64,2778 71,1445 96,5782 101,8795 73,2911 80,6247 107,5650 113,1453 82,3581 90,1332 118,4980 124,3421
0,975 5,0239 7,3778 9,3484 11,1433 12,8325 14,4494 16,0128 17,5345 19,0228 20,4832 21,9200 23,3367 24,7356 26,1189 27,4884 28,8454 30,1910 31,5264 32,8523 34,1696
0,975 35,4789 36,7807 38,0756 39,3641 40,6465 41,9232 43,1945 44,4608 45,7223 46,9792 59,3417 71,4202 83,2977 95,0232 106,6286 118,1359 129,5612
0,99 6,6349 9,2103 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093 24,7250 26,2170 27,6882 29,1412 30,5779 31,9999 33,4087 34,8053 36,1909 37,5662
0,99 38,9322 40,2894 41,6384 42,9798 44,3141 45,6417 46,9629 48,2782 49,5879 50,8922 63,6907 76,1539 88,3794 100,4252 112,3288 124,1163 135,8067
469
0,999 10,8276 13,8155 16,2662 18,4668 20,5150 22,4577 24,3219 26,1245 27,8772 29,5883 31,2641 32,9095 34,5282 36,1233 37,6973 39,2524 40,7902 42,3124 43,8202 45,3147
0,999 46,7970 48,2679 49,7282 51,1786 52,6197 54,0520 55,4760 56,8923 58,3012 59,7031 73,4020 86,6608 99,6072 112,3169 124,8392 137,2084 149,4493
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 470 — #482
i
470
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
P(F = f) 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99
r2 1
2
3
4
5
6
7
8
1 161,4476 647,7890 4052,1807 18,5128 38,5063 98,5025 10,1280 17,4434 34,1162 7,7086 12,2179 21,1977 6,6079 10,0070 16,2582 5,9874 8,8131 13,7450 5,5914 8,0727 12,2464 5,3177 7,5709 11,2586
P(F = f) 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99
r2 9
10
12
13
14
15
16
17
2 199,5000 799,5000 4999,5000 19,0000 39,0000 99,0000 9,5521 16,0441 30,8165 6,9443 10,6491 18,0000 5,7861 8,4336 13,2739 5,1433 7,2599 10,9248 4,7374 6,5415 9,5466 4,4590 6,0595 8,6491
1 5,1174 7,2093 10,5614 4,9646 6,9367 10,0443 4,7472 6,5538 9,3302 4,6672 6,4143 9,0738 4,6001 6,2979 8,8616 4,5431 6,1995 8,6831 4,4940 6,1151 8,5310 4,4513 6,0420 8,3997
Distribución F de FISHER (abscisas) r1 3 4 5 6 215,7073 224,5832 230,1619 233,9860 864,1630 899,5833 921,8479 937,1111 5403,3520 5624,5833 5763,6496 5858,9861 19,1643 19,2468 19,2964 19,3295 39,1655 39,2484 39,2982 39,3315 99,1662 99,2494 99,2993 99,3326 9,2766 9,1172 9,0135 8,9406 15,4392 15,1010 14,8848 14,7347 29,4567 28,7099 28,2371 27,9107 6,5914 6,3882 6,2561 6,1631 9,9792 9,6045 9,3645 9,1973 16,6944 15,9770 15,5219 15,2069 5,4095 5,1922 5,0503 4,9503 7,7636 7,3879 7,1464 6,9777 12,0600 11,3919 10,9670 10,6723 4,7571 4,5337 4,3874 4,2839 6,5988 6,2272 5,9876 5,8198 9,7795 9,1483 8,7459 8,4661 4,3468 4,1203 3,9715 3,8660 5,8898 5,5226 5,2852 5,1186 8,4513 7,8466 7,4604 7,1914 4,0662 3,8379 3,6875 3,5806 5,4160 5,0526 4,8173 4,6517 7,5910 7,0061 6,6318 6,3707
Distribución F de FISHER (abscisas) r1 3 4 5 6 3,8625 3,6331 3,4817 3,3738 5,0781 4,7181 4,4844 4,3197 6,9919 6,4221 6,0569 5,8018 3,7083 3,4780 3,3258 3,2172 4,8256 4,4683 4,2361 4,0721 6,5523 5,9943 5,6363 5,3858 3,4903 3,2592 3,1059 2,9961 4,4742 4,1212 3,8911 3,7283 5,9525 5,4120 5,0643 4,8206 3,4105 3,1791 3,0254 2,9153 4,3472 3,9959 3,7667 3,6043 5,7394 5,2053 4,8616 4,6204 3,3439 3,1122 2,9582 2,8477 4,2417 3,8919 3,6634 3,5014 5,5639 5,0354 4,6950 4,4558 3,2874 3,0556 2,9013 2,7905 4,1528 3,8043 3,5764 3,4147 5,4170 4,8932 4,5556 4,3183 3,2389 3,0069 2,8524 2,7413 4,0768 3,7294 3,5021 3,3406 5,2922 4,7726 4,4374 4,2016 3,1968 2,9647 2,8100 2,6987 4,0112 3,6648 3,4379 3,2767 5,1850 4,6690 4,3359 4,1015
2 4,2565 5,7147 8,0215 4,1028 5,4564 7,5594 3,8853 5,0959 6,9266 3,8056 4,9653 6,7010 3,7389 4,8567 6,5149 3,6823 4,7650 6,3589 3,6337 4,6867 6,2262 3,5915 4,6189 6,1121
7 236,7684 948,2169 5928,3557 19,3532 39,3552 99,3564 8,8867 14,6244 27,6717 6,0942 9,0741 14,9758 4,8759 6,8531 10,4555 4,2067 5,6955 8,2600 3,7870 4,9949 6,9928 3,5005 4,5286 6,1776
7 3,2927 4,1970 5,6129 3,1355 3,9498 5,2001 2,9134 3,6065 4,6395 2,8321 3,4827 4,4410 2,7642 3,3799 4,2779 2,7066 3,2934 4,1415 2,6572 3,2194 4,0259 2,6143 3,1556 3,9267
8 3,2296 4,1020 5,4671 3,0717 3,8549 5,0567 2,8486 3,5118 4,4994 2,7669 3,3880 4,3021 2,6987 3,2853 4,1399 2,6408 3,1987 4,0045 2,5911 3,1248 3,8896 2,5480 3,0610 3,7910
8 238,8827 956,6562 5981,0703 19,3710 39,3730 99,3742 8,8452 14,5399 27,4892 6,0410 8,9796 14,7989 4,8183 6,7572 10,2893 4,1468 5,5996 8,1017 3,7257 4,8993 6,8400 3,4381 4,4333 6,0289
9 240,5433 963,2846 6022,4732 19,3848 39,3869 99,3881 8,8123 14,4731 27,3452 5,9988 8,9047 14,6591 4,7725 6,6811 10,1578 4,0990 5,5234 7,9761 3,6767 4,8232 6,7188 3,3881 4,3572 5,9106
9 3,1789 4,0260 5,3511 3,0204 3,7790 4,9424 2,7964 3,4358 4,3875 2,7144 3,3120 4,1911 2,6458 3,2093 4,0297 2,5876 3,1227 3,8948 2,5377 3,0488 3,7804 2,4943 2,9849 3,6822
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 471 — #483
i
APÉNDICE B. TABLAS DE DISTRIBUCIONES
P(F = f) 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99
P(F = f) 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99
r2 1
2
3
4
5
6
7
8
r2 18
19
20
25
30
40
60
100
10 241,8817 968,6274 6055,8467 19,3959 39,3980 99,3992 8,7855 14,4189 27,2287 5,9644 8,8439 14,5459 4,7351 6,6192 10,0510 4,0600 5,4613 7,8741 3,6365 4,7611 6,6201 3,3472 4,2951 5,8143
1 4,4139 5,9781 8,2854 4,3807 5,9216 8,1849 4,3512 5,8715 8,0960 4,2417 5,6864 7,7698 4,1709 5,5675 7,5625 4,0847 5,4239 7,3141 4,0012 5,2856 7,0771 3,9361 5,1786 6,8953
12 243,9060 976,7079 6106,3207 19,4125 39,4146 99,4159 8,7446 14,3366 27,0518 5,9117 8,7512 14,3736 4,6777 6,5245 9,8883 3,9999 5,3662 7,7183 3,5747 4,6658 6,4691 3,2839 4,1997 5,6667
Distribución F de FISHER (abscisas) r1 2 3 4 5 6 3,5546 3,1599 2,9277 2,7729 2,6613 4,5597 3,9539 3,6083 3,3820 3,2209 6,0129 5,0919 4,5790 4,2479 4,0146 3,5219 3,1274 2,8951 2,7401 2,6283 4,5075 3,9034 3,5587 3,3327 3,1718 5,9259 5,0103 4,5003 4,1708 3,9386 3,4928 3,0984 2,8661 2,7109 2,5990 4,4613 3,8587 3,5147 3,2891 3,1283 5,8489 4,9382 4,4307 4,1027 3,8714 3,3852 2,9912 2,7587 2,6030 2,4904 4,2909 3,6943 3,3530 3,1287 2,9685 5,5680 4,6755 4,1774 3,8550 3,6272 3,3158 2,9223 2,6896 2,5336 2,4205 4,1821 3,5894 3,2499 3,0265 2,8667 5,3903 4,5097 4,0179 3,6990 3,4735 3,2317 2,8387 2,6060 2,4495 2,3359 4,0510 3,4633 3,1261 2,9037 2,7444 5,1785 4,3126 3,8283 3,5138 3,2910 3,1504 2,7581 2,5252 2,3683 2,2541 3,9253 3,3425 3,0077 2,7863 2,6274 4,9774 4,1259 3,6490 3,3389 3,1187 3,0873 2,6955 2,4626 2,3053 2,1906 3,8284 3,2496 2,9166 2,6961 2,5374 4,8239 3,9837 3,5127 3,2059 2,9877
Distribución F de FISHER (abscisas) r1 15 20 25 30 245,9499 248,0131 249,2601 250,0951 984,8668 993,1028 998,0808 1001,4144 6157,2846 6208,7302 6239,8251 6260,6486 19,4291 19,4458 19,4558 19,4624 39,4313 39,4479 39,4579 39,4646 99,4325 99,4492 99,4592 99,4658 8,7029 8,6602 8,6341 8,6166 14,2527 14,1674 14,1155 14,0805 26,8722 26,6898 26,5790 26,5045 5,8578 5,8025 5,7687 5,7459 8,6565 8,5599 8,5010 8,4613 14,1982 14,0196 13,9109 13,8377 4,6188 4,5581 4,5209 4,4957 6,4277 6,3286 6,2679 6,2269 9,7222 9,5526 9,4491 9,3793 3,9381 3,8742 3,8348 3,8082 5,2687 5,1684 5,1069 5,0652 7,5590 7,3958 7,2960 7,2285 3,5107 3,4445 3,4036 3,3758 4,5678 4,4667 4,4045 4,3624 6,3143 6,1554 6,0580 5,9920 3,2184 3,1503 3,1081 3,0794 4,1012 3,9995 3,9367 3,8940 5,5151 5,3591 5,2631 5,1981
7 2,5767 3,0999 3,8406 2,5435 3,0509 3,7653 2,5140 3,0074 3,6987 2,4047 2,8478 3,4568 2,3343 2,7460 3,3045 2,2490 2,6238 3,1238 2,1665 2,5068 2,9530 2,1025 2,4168 2,8233
8 2,5102 3,0053 3,7054 2,4768 2,9563 3,6305 2,4471 2,9128 3,5644 2,3371 2,7531 3,3239 2,2662 2,6513 3,1726 2,1802 2,5289 2,9930 2,0970 2,4117 2,8233 2,0323 2,3215 2,6943
40 251,1432 1005,5981 6286,7821 19,4707 39,4729 99,4742 8,5944 14,0365 26,4108 5,7170 8,4111 13,7454 4,4638 6,1750 9,2912 3,7743 5,0125 7,1432 3,3404 4,3089 5,9084 3,0428 3,8398 5,1156
471
9 2,4563 2,9291 3,5971 2,4227 2,8801 3,5225 2,3928 2,8365 3,4567 2,2821 2,6766 3,2172 2,2107 2,5746 3,0665 2,1240 2,4519 2,8876 2,0401 2,3344 2,7185 1,9748 2,2439 2,5898
60 252,1957 1009,8001 6313,0301 19,4791 39,4812 99,4825 8,5720 13,9921 26,3164 5,6877 8,3604 13,6522 4,4314 6,1225 9,2020 3,7398 4,9589 7,0567 3,3043 4,2544 5,8236 3,0053 3,7844 5,0316
100 253,0411 1013,1748 6334,1100 19,4857 39,4879 99,4892 8,5539 13,9563 26,2402 5,6641 8,3195 13,5770 4,4051 6,0800 9,1299 3,7117 4,9154 6,9867 3,2749 4,2101 5,7547 2,9747 3,7393 4,9633
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 472 — #484
i
472
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
P(F = f) 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99
r2
P(F = f) 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99 0,95 0,975 0,99
r2
9
10
12
13
14
15
16
17
18
19
20
25
30
40
60
100
10 3,1373 3,9639 5,2565 2,9782 3,7168 4,8491 2,7534 3,3736 4,2961 2,6710 3,2497 4,1003 2,6022 3,1469 3,9394 2,5437 3,0602 3,8049 2,4935 2,9862 3,6909 2,4499 2,9222 3,5931
Distribución F de FISHER (abscisas) r1 12 15 20 25 30 3,0729 3,0061 2,9365 2,8932 2,8637 3,8682 3,7694 3,6669 3,6035 3,5604 5,1114 4,9621 4,8080 4,7130 4,6486 2,9130 2,8450 2,7740 2,7298 2,6996 3,6209 3,5217 3,4185 3,3546 3,3110 4,7059 4,5581 4,4054 4,3111 4,2469 2,6866 2,6169 2,5436 2,4977 2,4663 3,2773 3,1772 3,0728 3,0077 2,9633 4,1553 4,0096 3,8584 3,7647 3,7008 2,6037 2,5331 2,4589 2,4123 2,3803 3,1532 3,0527 2,9477 2,8821 2,8372 3,9603 3,8154 3,6646 3,5710 3,5070 2,5342 2,4630 2,3879 2,3407 2,3082 3,0502 2,9493 2,8437 2,7777 2,7324 3,8001 3,6557 3,5052 3,4116 3,3476 2,4753 2,4034 2,3275 2,2797 2,2468 2,9633 2,8621 2,7559 2,6894 2,6437 3,6662 3,5222 3,3719 3,2782 3,2141 2,4247 2,3522 2,2756 2,2272 2,1938 2,8890 2,7875 2,6808 2,6138 2,5678 3,5527 3,4089 3,2587 3,1650 3,1007 2,3807 2,3077 2,2304 2,1815 2,1477 2,8249 2,7230 2,6158 2,5484 2,5020 3,4552 3,3117 3,1615 3,0676 3,0032
40 2,8259 3,5055 4,5666 2,6609 3,2554 4,1653 2,4259 2,9063 3,6192 2,3392 2,7797 3,4253 2,2664 2,6742 3,2656 2,2043 2,5850 3,1319 2,1507 2,5085 3,0182 2,1040 2,4422 2,9205
60 2,7872 3,4493 4,4831 2,6211 3,1984 4,0819 2,3842 2,8478 3,5355 2,2966 2,7204 3,3413 2,2229 2,6142 3,1813 2,1601 2,5242 3,0471 2,1058 2,4471 2,9330 2,0584 2,3801 2,8348
100 2,7556 3,4034 4,4150 2,5884 3,1517 4,0137 2,3498 2,7996 3,4668 2,2614 2,6715 3,2723 2,1870 2,5646 3,1118 2,1234 2,4739 2,9772 2,0685 2,3961 2,8627 2,0204 2,3285 2,7639
10 2,4117 2,8664 3,5082 2,3779 2,8172 3,4338 2,3479 2,7737 3,3682 2,2365 2,6135 3,1294 2,1646 2,5112 2,9791 2,0772 2,3882 2,8005 1,9926 2,2702 2,6318 1,9267 2,1793 2,5033
12 2,3421 2,7689 3,3706 2,3080 2,7196 3,2965 2,2776 2,6758 3,2311 2,1649 2,5149 2,9931 2,0921 2,4120 2,8431 2,0035 2,2882 2,6648 1,9174 2,1692 2,4961 1,8503 2,0773 2,3676
Distribución F de FISHER (abscisas) r1 15 20 25 30 2,2686 2,1906 2,1413 2,1071 2,6667 2,5590 2,4912 2,4445 3,2273 3,0771 2,9831 2,9185 2,2341 2,1555 2,1057 2,0712 2,6171 2,5089 2,4408 2,3937 3,1533 3,0031 2,9089 2,8442 2,2033 2,1242 2,0739 2,0391 2,5731 2,4645 2,3959 2,3486 3,0880 2,9377 2,8434 2,7785 2,0889 2,0075 1,9554 1,9192 2,4110 2,3005 2,2303 2,1816 2,8502 2,6993 2,6041 2,5383 2,0148 1,9317 1,8782 1,8409 2,3072 2,1952 2,1237 2,0739 2,7002 2,5487 2,4526 2,3860 1,9245 1,8389 1,7835 1,7444 2,1819 2,0677 1,9943 1,9429 2,5216 2,3689 2,2714 2,2034 1,8364 1,7480 1,6902 1,6491 2,0613 1,9445 1,8687 1,8152 2,3523 2,1978 2,0984 2,0285 1,7675 1,6764 1,6163 1,5733 1,9679 1,8486 1,7705 1,7148 2,2230 2,0666 1,9652 1,8933
40 2,0629 2,3842 2,8354 2,0264 2,3329 2,7608 1,9938 2,2873 2,6947 1,8718 2,1183 2,4530 1,7918 2,0089 2,2992 1,6928 1,8752 2,1142 1,5943 1,7440 1,9360 1,5151 1,6401 1,7972
60 2,0166 2,3214 2,7493 1,9795 2,2696 2,6742 1,9464 2,2234 2,6077 1,8217 2,0516 2,3637 1,7396 1,9400 2,2079 1,6373 1,8028 2,0194 1,5343 1,6668 1,8363 1,4504 1,5575 1,6918
100 1,9780 2,2692 2,6779 1,9403 2,2167 2,6023 1,9066 2,1699 2,5353 1,7794 1,9955 2,2888 1,6950 1,8816 2,1307 1,5892 1,7405 1,9383 1,4814 1,5990 1,7493 1,3917 1,4833 1,5977
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 473 — #485
i
APÉNDICE B. TABLAS DE DISTRIBUCIONES
z 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2
0 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772
0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778
0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783
Distribución NORMAL reducida 0,03 0,04 0,05 0,06 0,5120 0,5160 0,5199 0,5239 0,5517 0,5557 0,5596 0,5636 0,5910 0,5948 0,5987 0,6026 0,6293 0,6331 0,6368 0,6406 0,6664 0,6700 0,6736 0,6772 0,7019 0,7054 0,7088 0,7123 0,7357 0,7389 0,7422 0,7454 0,7673 0,7704 0,7734 0,7764 0,7967 0,7995 0,8023 0,8051 0,8238 0,8264 0,8289 0,8315 0,8485 0,8508 0,8531 0,8554 0,8708 0,8729 0,8749 0,8770 0,8907 0,8925 0,8944 0,8962 0,9082 0,9099 0,9115 0,9131 0,9236 0,9251 0,9265 0,9279 0,9370 0,9382 0,9394 0,9406 0,9484 0,9495 0,9505 0,9515 0,9582 0,9591 0,9599 0,9608 0,9664 0,9671 0,9678 0,9686 0,9732 0,9738 0,9744 0,9750 0,9788 0,9793 0,9798 0,9803
0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808
0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812
0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817
z 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9
0 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000
0,01 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000
0,02 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000
Distribución NORMAL reducida 0,03 0,04 0,05 0,06 0,9834 0,9838 0,9842 0,9846 0,9871 0,9875 0,9878 0,9881 0,9901 0,9904 0,9906 0,9909 0,9925 0,9927 0,9929 0,9931 0,9943 0,9945 0,9946 0,9948 0,9957 0,9959 0,9960 0,9961 0,9968 0,9969 0,9970 0,9971 0,9977 0,9977 0,9978 0,9979 0,9983 0,9984 0,9984 0,9985 0,9988 0,9988 0,9989 0,9989 0,9991 0,9992 0,9992 0,9992 0,9994 0,9994 0,9994 0,9994 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000
0,07 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000
0,08 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000
0,09 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000
473
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 474 — #486
i
474
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
r 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
r 21 22 23 24 25 26 27 28 29 30 40 50 60 80 100 1000 K
0,5 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,5 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,6 0,3249 0,2887 0,2767 0,2707 0,2672 0,2648 0,2632 0,2619 0,2610 0,2602 0,2596 0,2590 0,2586 0,2582 0,2579 0,2576 0,2573 0,2571 0,2569 0,2567
0,6 0,2566 0,2564 0,2563 0,2562 0,2561 0,2560 0,2559 0,2558 0,2557 0,2556 0,2550 0,2547 0,2545 0,2542 0,2540 0,2534 0,2533
0,7 0,7265 0,6172 0,5844 0,5686 0,5594 0,5534 0,5491 0,5459 0,5435 0,5415 0,5399 0,5386 0,5375 0,5366 0,5357 0,5350 0,5344 0,5338 0,5333 0,5329
0,7 0,5325 0,5321 0,5317 0,5314 0,5312 0,5309 0,5306 0,5304 0,5302 0,5300 0,5286 0,5278 0,5272 0,5265 0,5261 0,5246 0,5244
Distribución t de Student (abscisas) P(T = t) 0,75 0,8 0,85 0,9 1,0000 1,3764 1,9626 3,0777 0,8165 1,0607 1,3862 1,8856 0,7649 0,9785 1,2498 1,6377 0,7407 0,9410 1,1896 1,5332 0,7267 0,9195 1,1558 1,4759 0,7176 0,9057 1,1342 1,4398 0,7111 0,8960 1,1192 1,4149 0,7064 0,8889 1,1081 1,3968 0,7027 0,8834 1,0997 1,3830 0,6998 0,8791 1,0931 1,3722 0,6974 0,8755 1,0877 1,3634 0,6955 0,8726 1,0832 1,3562 0,6938 0,8702 1,0795 1,3502 0,6924 0,8681 1,0763 1,3450 0,6912 0,8662 1,0735 1,3406 0,6901 0,8647 1,0711 1,3368 0,6892 0,8633 1,0690 1,3334 0,6884 0,8620 1,0672 1,3304 0,6876 0,8610 1,0655 1,3277 0,6870 0,8600 1,0640 1,3253
Distribución t de Student (abscisas) P(T = t) 0,75 0,8 0,85 0,9 0,6864 0,8591 1,0627 1,3232 0,6858 0,8583 1,0614 1,3212 0,6853 0,8575 1,0603 1,3195 0,6848 0,8569 1,0593 1,3178 0,6844 0,8562 1,0584 1,3163 0,6840 0,8557 1,0575 1,3150 0,6837 0,8551 1,0567 1,3137 0,6834 0,8546 1,0560 1,3125 0,6830 0,8542 1,0553 1,3114 0,6828 0,8538 1,0547 1,3104 0,6807 0,8507 1,0500 1,3031 0,6794 0,8489 1,0473 1,2987 0,6786 0,8477 1,0455 1,2958 0,6776 0,8461 1,0432 1,2922 0,6770 0,8452 1,0418 1,2901 0,6747 0,8420 1,0370 1,2824 0,6745 0,8416 1,0364 1,2816
0,95 6,3138 2,9200 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 1,7959 1,7823 1,7709 1,7613 1,7531 1,7459 1,7396 1,7341 1,7291 1,7247
0,95 1,7207 1,7171 1,7139 1,7109 1,7081 1,7056 1,7033 1,7011 1,6991 1,6973 1,6839 1,6759 1,6706 1,6641 1,6602 1,6464 1,6449
0,975 12,7062 4,3027 3,1824 2,7764 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 2,2010 2,1788 2,1604 2,1448 2,1314 2,1199 2,1098 2,1009 2,0930 2,0860
0,975 2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 2,0211 2,0086 2,0003 1,9901 1,9840 1,9623 1,9600
0,99 31,8205 6,9646 4,5407 3,7469 3,3649 3,1427 2,9980 2,8965 2,8214 2,7638 2,7181 2,6810 2,6503 2,6245 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280
0,99 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4233 2,4033 2,3901 2,3739 2,3642 2,3301 2,3263
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 475 — #487
i
Bibliografía [1] Aitken, A.C. (1948). Determinants and Matrices. Edinburgh: Oliver and Boyd. [2] Alonso, G., Ocaña, J. y Cuadras, C.M. (1989). Fundamentos de Probabilidad en Bioestadística. PPU: Barcelona. [3] Anderson, T.W. (1958). An Introduction to Multivariate Analysis. New York: John Wiley. [4] Anderson, V.L. y Kempthorne, O. (1954). A model for the study of quantitative inheritance. Genetics 39, p. 883. [5] Apóstol, T.M. (1991). Análsis Matemático. Barcelona: Reverté. [6] Aspin, A.A. (1949). Tables for use in comparisons whose accuracy involves two variances, separately estimated. Biometrika 36, p.290. [7] Bartlett, M.S. (1947). Multivariate analysis. Journal of the Royal Statistical Society B 9, p.176. [8] Berger, J.O. (1980) Statistical Decision Theory and Bayesian Analysis. Springer Series in Statistics. [9] Bernardo, J.M. y Smith, A.F.M. (2000). Bayesian Theory. Chichester: John Wiley & Sons. [10] Box, G.E.P. (1954). Some theorems on quadratic forms applied in the study of analysis of variances problems I: effect of inequality of variance in the one-way classification. Annals of Mathematical Statistics 25, p. 290. [11] Box, G.E.P., Hunter, J.S. y Hunter, W.G. (1978). Statistics for Experimenters. New York: Wiley. [12] Brown, L.D. (1990). An ancillarity paradox which appears in multiple linear regression (with discussion). Annals of Statistics 18, p. 471. [13] Casella, G. y Berger, R.L. (1990). Statistical Inference. Belmont, California: Duxbury Press.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 476 — #488
i
476
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
[14] Chung, K.L. (2001). A Course in Probability Theory, 3th Ed. S. Diego (CA): Academic Press. [15] Durand, A.I. e Ipiña, S.L. (1994). Introducción a la Teoría de la Probabilidad y la Inferencia Estadística. Madrid: Rueda. [16] Feller, W. (1968). An Introduction to Probabilistic Theory and Its Applications, vol. I. New York: Wiley. [17] Feller, W. (1971). An Introduction to Probabilistic Theory and Its Applications, vol. II. New York: Wiley. [18] Fuller, W.A. (1987). Measurement Error Models. New York: Wiley. [19] Gleser, L.J. y Hwang, J.T. (1987). The nonexistence of 100(1 − α) % confidence sets of finite expected diameter in errors-in-variables and related models. Annals of Statistics 15, p. 1351. [20] Golub, C.H. y van Loan, C.F. (1984). Matrix Computations. Baltimore: Johns Hopkins University Press. [21] Green, P.E. (1978). Mathematical Tools for Applied Multivariate Analysis. New York: Academic Press. [22] Hair, J.F., Anderson, R.E., Tatham, R.L., Babin, B. y Black, W.C. (2006) Multivariate Data Analysis, 6th ed. New York: Prentice Hall. [23] Hansson, S. O. (2005). Decision Theory. A Brief Introduction, Royal Institute of Technology (KTH), Stockholm. http://www.infra.kth.se/~soh/decisiontheory.pdf [24] Hayter, A.J. (1984). A proof of the conjecture that the Tukey-Kramer multiple comparison procedure is conservative. Annals of Statistics 12, p. 61. [25] Hogg, R.V. y Tanis, E.A. (1993). Probability and Statistical Inference. New York: Macmillan. [26] Ipiña, S.L. y Durand, A.I. (2000). A measure of sexual dimorphism in populations which are univariate normal mixtures. Bulletin of Mathematical Biology 62, p. 925. [27] Ipiña, S.L. y Durand, A.I. (2004). Inferential assessment of the MI index of sexual dimorphism: a comparative study with some other sexual dimorphism measures. Bulletin of Mathematical Biology 66, p. 505. [28] Johnson, N.L. y Kotz, S. (1969). Distributions in Statistics: Discrete Distributions. New York: Houghton Mifflin. [29] Johnson, N.L. y Kotz, S. (1970). Distributions in Statistics: Continuous Univariate Distributions, I y II. New York: Houghton Mifflin.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 477 — #489
i
BIBLIOGRAFÍA
477
[30] Johnson, R.A. y Wichern, D.W. (2007). Applied Multivariate Statistical Analysis, 6th. ed.. New York: Prentice Hall. [31] Kendall, M. y Stuart, A. (1979). The Advanced Theory of Statistics, vol. II: Inference and Relationships. New York: Macmillan. [32] Lachenbruch, P.A. (1966). The non-central F distribution - extensions of Tang’s tables. Annals of Mathematical Statistics 37, p. 744. [33] Lehmann, E.L. y Scheffé, H. (1950). Completeness, similar regions, and unbiased estimation. Sankhyá, Series A 10, p. 305. [34] Leslie, P.H. (1945). On the use of matrices in certain population mathematics. Biometrika 33, p. 183. [35] Maclachlan, G.J. (2004). Discriminant Analysis and Statistical Pattern Recognition. New York: John Wiley & Sons. [36] Monk, J.D. (ed.) (1995). Handbook of Boolean Algebras, vol. 1. Amsterdam: North Holland. [37] Mood, A.M., Graybill, F.A. y Boes, D.C. (1984). Introduction to the Theory of Statistics. New York: McGraw Hill, Inc. [38] Morrison, D.F. (1976). Multivariate Statistical Methods. New York: McGraw-Hill. [39] Owen, D.B. (1965). The power of the Student’s t test. Journal of the American Statistical Association, 60, p. 320. [40] Quinn, G.P. y Keough, M.J. (2002). Experimental Design and Data Analysis for Biologists. Cambridge University Press. [41] Rao, C.R. (1951). An asymptotic expansion of the distribution of Wilks’ criterion. Bulletin of Institute International of Statistics XXXIII (2), p.177. [42] Rao, C.R. (1973). Linear Statistical Inference and its Applications. New York: Wiley. [43] Rudin, W. (1976). Principles of Mathematical Analysis, 3rd ed. New York: McGraw-Hill. [44] Scheffé, H. (1959). The Analysis of Variance. New York: Wiley. [45] Searle, S.R. (1967). Matrix Algebra for the Biological Sciences. New York: John Wiley & Sons. [46] Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods. Ames: Iowa State University.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 478 — #490
i
478
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
[47] Sokal, R.R. y Rohlf, F.J. (1969). Biometry. San Francisco: W.H. Freeman & Co. [48] Solari, M.E. (1969). The maximum likelihood solution of the problem of estimating a linear functional relationship. Journal of the Royal Statistical Society, Series B 31, p. 372. [49] Solomon, D.L. (1983). The Spatial Distribution of Cabbage Butterfly Eggs. En Life Science Models, vol. 4, H. Marcus-Roberts y M. Thompson, p. 350. New York: Springer-Verlag. [50] SPPS, http://www.spss.com/es/spss/ [51] S-Plus 7, http://www.insightful.com/products/splus/default.asp [52] Stata, http://www.stata.com/ [53] Statgraphics Centurion XV, http://www.statgraphics.net/ [54] Stigler, S.M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Cambridge, Massachussets: Harvard University Press. [55] Stuart, A. y Ord, K.J. (1987). Kendall’s Advanced Theory of Statistics, vol. I: Distribution Theory. New York: Oxford University Press. [56] Tiku, M.L. (1965). Laguerre series forms of non-central χ2 and F distributions. Biometrika 52, p. 415.
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 479 — #491
i
Índice alfabético Aleatorio, 4 Algebra de Boole, 5 de sucesos, 5 engendrada, 6 sigma, 5 Análisis Canónico Poblaciones, 402 Anova de efectos aleatorios, 317 equilibrado, 317 Autovalor, 443 Autovector, 443 Azar, 4 Base, 450 estándar, 449 ortonormal, 450 Borel, 5 Campana de Gauss, 116 Cantidad Pivotante, 215 Método, 216 Cardinal, 7 Cociente de Verosimilitudes, 247 monótono, 273 Coeficiente de confianza, 214 de correlación, 58 Cofactor, 434 Colinealidad, 400 Component Loading, 380 Component Scores, 381 Componentes Principales, 377 Composición Gamma-Poisson, 129 Condiciones de Regularidad, 181 Conjunción Lógica, 5 Conjunto Creíble, 235 Contraste, 326 bilateral, 273
de Bayes, 312 de hipótesis, 245 de independencia, 291 homogeneidad de las proporciones, 291 igualdad de múltiples medias, 317 insesgado, 264 más potente, 265 ortogonal, 328 unilateral, 273 Convergencia Estocástica, 152 Covarianza, 56 Cuantil, 161 Curtosis, 54 Curva de Equiprobabilidad, 126 Curvas de Nivel, 458 Datos Apareados, 223 Desigualdad de Bonferroni, 332 de Boole, 331 Desviación típica, 55 Determinístico, 4 Determinante, 432 Discriminador de Wald-Anderson, 409 Distancia de Mahalanobis, 410 Distribución a priori, 202 asintótica, 150 Bernoulli, 94 beta, 115 beta-binomial, 206 Binomial, 95 binomial negativa, 103 de Cauchy, 157 de la frecuencia relativa, 97 de la varianza muestral, 154 doble exponencial, 123 exponencial, 111 F de Fisher-Snedecor, 159
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 480 — #492
i
480
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
F de Fisher-Snedecor no centrada, 161 gamma, 110 geométrica o de Pascal, 101 hipergeométrica, 99 ji-cuadrado, 113 ji-cuadrado no centrada, 114 lambda de Wilks, 394 leptocúrtica, 55 lognormal, 122 mesocúrtica, 55 muestral, 149 multinomial, 98 no informativa, 205 normal, 116 normal bivariante, 124 platicúrtica, 55 Poisson, 107 posterior, 202 predicha, 203 serie logarítmica, 106 t de Student, 154 t de Student no centrada, 158 truncada, 105 uniforme, 108 Wishart, 394 Disyunción Lógica, 5 ECEAN, 185 Ecuación característica, 443 normal, 359 Eficiencia, 181 EIMV, 181 Ensayo Bernoulli, 94 Equiprobable, 7 Error, 361 cuadrático medio, 181 máximo, 220 típico, 149 tipo I, 256 tipo II, 256 Escalar, 423 Espacio de acciones, 302 de probabilidad, 7 medible, 20 muestral, 4
paramétrico, 245 Esperanza Matemática, 51 de una función de dos variables aleatorias, 53 de una función de variable aleatoria, 52 Estadístico, 149 de contraste, 246 de dispersión, 149 de orden, 161 de posición, 149 ji-cuadrado, 286 Estimación Puntual, 179 Estimador bayesiano, 206 completo, 195 consistente, 184 de Bayes, 311 insesgado, 180 ji-cuadrado mínimo, 288 máximo verosimil, 196 máximo verosimil generalizado, 203 mínimo suficiente, 191 puntual, 179 suficiente, 186 Estimadores conjuntamente suficientes, 189 Experimento, 3 Factor, 317 Familia Conjugada, 207 Forma bilineal, 429 cuadrática, 429 Función beta, 115 contraste, 266 de clasificación, 409 de decisión, 179 de pérdida, 302 de pérdida 0-1, 308 de pérdida del error absoluto, 303 de pérdida del error cuadrático, 303 de riesgo, 302 de Stein, 306 de utilidad, 302 de verosimilitud, 195
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 481 — #493
i
ÍNDICE ALFABÉTICO
de verosimilitud inducida, 199 discriminante de Fisher, 408 gamma, 110 medible, 20 potencia, 257 vectorial, 458 Función de Densidad, 25 condicionada, 36 conjunta discreta, 31 de probabilidad, 27 de probabilidad conjunta, 31 marginal, 33 Función de Distribución absolutamente continua, 27 bivariante absolutamente continua, 31 condicionada, 36 conjunta bivariante, 30 definición, 22 discreta, 25 marginal, 32 Función de Probabilidad Acumulada, 27 Función Generadora de Momentos, 80 conjunta, 86 Gradiente, 459 Hipótesis, 245 alternativa, 245 compuesta, 268 de prueba, 260 nula, 245 simple, 265 Homocedasticidad, 317 HPD, 235 Inferencia, 147 Información Fisher, 184 Intervalo Aleatorio, 214 Intervalo de Colas Iguales, 226 Invariancia, 199 Kolmogorov axiomas, 6 Lema de Neyman-Pearson, 265 Ley Débil de los Grandes Números, 153 Linealidad de la Esperanza Matemática, 54
481
Matriz, 421 adjunta, 434 cuadrada, 422 de varianzas covarianzas, 431 definida positiva, 430 diagonal, 422 equivalente, 440 escalar, 426 idempotente, 426 identidad, 426 inversa, 434 inversa generalizada, 441 nilpotente, 426 nula, 423 orden, 422 ortogonal, 435 postmultiplicación, 424 premultiplicación, 424 semidefinida positiva, 430 simétrica, 427 singular, 434 traspuesta, 427 traza, 422 triangular, 422 Media Muestral, 149 Mediana, 161 muestral, 164 Menor, 432 Metodo de la unión-intersección, 252 de la intersección-unión, 251 de Scheffé, 333 de Tukey, 336 estadístico, 227 inducción completa, 15 LSD, 336 mínimos cuadrados, 358 Mixtura de Dos Normales, 126 Moda Muestral, 149 Modelo, 4 aditivo, 339 con interacción, 341 de variables con error, 370 estructural, 370 funcional, 370 jerárquico, 127 lineal, 358
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 482 — #494
i
482
INFERENCIA ESTADÍSTICA Y ANÁLISIS DE DATOS
normal condicionado, 368 Momento muestral, 201 respecto a la media, 54 conjunto, 85 respecto al origen, 54 conjunto, 85 Muestra Aleatoria, 148 simple, 148 Multiplicadores de Lagrange, 456 Nivel de Significación, 215, 260 Normalizar, 378 Ortonormalización de Gram-Schmit, 450 p-valor, 263 Parámetro, 51 de escala, 55, 110 de forma, 110 de localización, 51 ruidoso, 249 Partición Finita, 8 Población, 147 Principio de las probabilidades compuestas, 8 de suficiencia, 198 de verosimilitud, 197 Probabilidad, 6 inducida, 21 Punto Muestral, 4 Puntuación Discriminante, 412 Rango, 438 muestral, 164 Recorrido, 25 Región de aceptación, 246 de rechazo, 246 Regla de Bayes, 310 de decisión, 302 del producto, 8 Regularidad Estadística, 4 Residuo, 361 Respuesta Media, 364 Riesgo de Bayes, 310 Robustez, 206
Serie Mac-Laurin, 134 Sesgo, 54 Suceso condicionado, 7 elemental, 5 independiente, 8 observable, 5 Suma de cuadrados, 319 de productos, 395 Suma de cuadrados residuales, 361 Tabla de Contingencia, 290 Tamaño de un Contraste, 260 Teoría de la Decisión, 301 Teorema Central del Límite, 150 de Bayes, 9 de Cramér-Rao, 182 de factorización de Neyman, 188 de Karlin-Rubin, 273 de Laplace-De Moivre, 151 de las Probabilidades Totales, 8 de Lehmann-Scheffé, 195 de Lindeberg-Lévy, 165 de Rao-Blackwell, 192 de Schwarz, 57 de Stone, 5 de Tchebychev, 56 Transformación de variables aleatorias, 65 lineal, 428 Transformada de Laplace, 81 integral de probabilidad, 109 Tratamiento, 317 Valor Esperado, 51 Variable categórica, 290, 317 dicotómica, 94 indicador, 94 predictiva, 357 respuesta, 357 Variable Aleatoria bidimensional, 30 bidimensional continua, 31
i i
i
i
i
“inferencia” — 2008/2/14 — 9:08 — page 483 — #495
i
ÍNDICE ALFABÉTICO
483
bidimensional discreta, 31 condicionada, 36 continua, 27 definición, 22 discreta, 25 estandarizada o reducida, 119 Variación inter-muestral, 319 intra-muestral, 319 Varianza, 55 dentro, 320 entre, 320 muestral, 149 Vector, 423 coseno director, 449 norma, 449 Vectores linealmente independientes, 435 producto escalar, 449
i i
i
View more...
Comments