Estadistica Inferencial.pdf
Short Description
Download Estadistica Inferencial.pdf...
Description
iv
´ Dr. rer. nat. Humberto Llinas
Contenido
1 Distribuciones fundamentales de muestreo 1.1
3
Errores y t´ecnicas de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.1.1
Errores muestrales y no muestrales . . . . . . . . . . . . . . . . . . .
4
1.1.2
T´ecnicas de muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . .
9
1.2
Estad´ısticos y distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . 18
1.3
Distribuci´on muestral de la media . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.1
El caso para muestras grandes . . . . . . . . . . . . . . . . . . . . . . 28
1.3.2
El caso para muestras peque˜ nas . . . . . . . . . . . . . . . . . . . . . 31
1.4
Distribuci´on muestral de una proporci´on muestral . . . . . . . . . . . . . . . 42
1.5
Distribuci´on muestral de diferencia de dos proporciones muestrales . . . . . . 49
1.6
Distribuci´on muestral de diferencia de medias . . . . . . . . . . . . . . . . . 52
1.7
1.6.1
Datos pareados (muestras dependientes) . . . . . . . . . . . . . . . . 53
1.6.2
Muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . 55
Distribuci´on muestral de la varianza y raz´on de varianzas muestrales . . . . . 64 1.7.1
Distribuci´on muestral de la varianza muestral . . . . . . . . . . . . . 64
1.7.2
Distribuci´on muestral de la raz´on de dos varianzas . . . . . . . . . . . 69
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 v
Estad´ıstica inferencial
1
3 Pruebas de hip´ otesis 3.1
Conceptos de la prueba de hip´otesis . . . . . . . . . . . . . . . . . . . . . . . 80 3.1.1
3.2
79
Comentarios acerca de los t´erminos “aceptar” y “rechazar” . . . . . . 86
Prueba para la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.2.1
El caso de muestras grandes . . . . . . . . . . . . . . . . . . . . . . . 87
3.2.2
Caso de muestra peque˜ nas . . . . . . . . . . . . . . . . . . . . . . . . 89
3.3
Pruebas para la proporci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.4
Prueba para la diferencia de dos proporciones . . . . . . . . . . . . . . . . . 92
3.5
Prueba para la diferencia de dos medias
. . . . . . . . . . . . . . . . . . . . 95
3.5.1
Primer caso: varianzas poblacionales conocidas o desconocidas y muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.5.2
Segundo caso: varianzas poblacionales iguales, desconocidas y muestras peque˜ nas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.5.3
Tercer caso: varianzas poblacionales diferentes, desconocidas y muestras peque˜ nas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.6
Prueba para la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.7
Prueba para la raz´on de dos varianzas
. . . . . . . . . . . . . . . . . . . . . 105
Indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
CONTENIDO
´ Dr. rer. nat. Humberto Llinas
2
CONTENIDO
CAP´ITULO
1
Distribuciones fundamentales de muestreo
Contenido 1.1
Errores y t´ ecnicas de muestreo . . . . . . . . . . . . . . . . . . .
4
1.1.1
Errores muestrales y no muestrales . . . . . . . . . . . . . . . . .
4
1.1.2
T´ecnicas de muestreo aleatorio . . . . . . . . . . . . . . . . . . .
9
1.2
Estad´ısticos y distribuciones muestrales . . . . . . . . . . . . . .
18
1.3
Distribuci´ on muestral de la media . . . . . . . . . . . . . . . . .
24
1.3.1
El caso para muestras grandes . . . . . . . . . . . . . . . . . . .
28
1.3.2
El caso para muestras peque˜ nas . . . . . . . . . . . . . . . . . . .
31
1.4
Distribuci´ on muestral de una proporci´ on muestral . . . . . . .
42
1.5
Distribuci´ on muestral de diferencia de dos proporciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
Distribuci´ on muestral de diferencia de medias . . . . . . . . . .
52
1.6
1.7
1.6.1
Datos pareados (muestras dependientes) . . . . . . . . . . . . . .
53
1.6.2
Muestras independientes . . . . . . . . . . . . . . . . . . . . . . .
55
Distribuci´ on muestral de la varianza y raz´ on de varianzas muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
1.7.1
Distribuci´ on muestral de la varianza muestral . . . . . . . . . . .
64
1.7.2
Distribuci´ on muestral de la raz´ on de dos varianzas . . . . . . . .
69
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . .
73
3
´ Dr. rer. nat. Humberto Llinas
4
☞ Objetivos del cap´ıtulo 1. Desarrollar el concepto de distribuci´ on muestral. 2. Examinar el teorema central del l´ımite. 3. Analizar la distribuci´ on muestral de la media, proporci´ on, diferencia de dos medias, diferencia de dos proporciones, varianza y raz´ on de dos varianzas.
☞ Empleo de la estad´ıstica ≪Un fabricante de neum´aticos ha desarrollado un nuevo producto que, seg´ un cree, tendr´ a una mayor duraci´ on en relaci´on con las millas recorri-
das comparado con la l´ınea actual de neum´aticos. Para evaluar el nuevo neum´atico, los gerentes necesitan un estimado (o una estimaci´on) de la media de las millas que dura el nuevo producto. Selecciona una muestra de 120 neum´aticos para probarlos. El resultado de la prueba es una media de la muestra de 36.500 millas. En consecuencia, se obtuvo 36.500 como estimado de la media para la poblaci´on de neum´aticos nuevos.≫
Introducci´ on En este cap´ıtulo, dedicaremos gran parte de nuestra atenci´on a analizar problemas que tienen por objeto averiguar algo acerca de las propiedades de una poblaci´on a partir de la informaci´on proporcionada por una muestra de dicha poblaci´on. Este es el objetivo de la estad´ıstica inferencial. La raz´on principal para observar una muestra en lugar de la poblaci´on completa es el hecho de que la recogida de toda la informaci´on ser´a, en la mayor´ıa de las ocasiones, exageradamente cara. Incluso en los casos en que se dispone de recursos suficientes para analizar la poblaci´on completa, puede resultar preferible dedicar esos recursos a un subconjunto peque˜ no de la poblaci´on, con la esperanza que tal concentraci´on de esfuerzos produzca medidas m´as precisas.
1.1
Errores y t´ ecnicas de muestreo
1.1.1
Errores muestrales y no muestrales
Cuando nos interesa estudiar las caracter´ısticas de poblaciones grandes, utilizamos muestras por muchas razones. Una enumeraci´on completa de poblaci´on, llamada censo, puede ser econ´omicamente imposible; o puede no haber tiempo suficiente para examinar a la poblaci´on Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
5
completa. En algunas situaciones, el censo puede ser imposible. Por ejemplo, un censo de la poblaci´on marina que vive en el oceano Atl´antico es imposible. Ejemplo 1.1.1 A continuaci´ on veremos los usos del muestreo en diversos campos: • Pol´ıtica. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opini´ on p´ ublica y el apoyo en las elecciones. • Sociolog´ıa. El soci´ ologo que desea conocer las actitudes de los adolescentes frente al aborto, no emprende la tarea de entrevistar a todos los adolescentes que hay en el pa´ıs sino elige una muestra de ellos y los entrevista. • Educaci´ on. Las muestras de las calificaciones de los ex´ amenes de estudiantes se usan para determinar la eficiencia de una t´ecnica o programa de ense˜ nanza. • Industria. Muestras de los productos de una l´ınea de ensamblaje sirve para el prop´ osito de controlar la calidad. • Medicina. Un fabricante de drogas que desea saber los resultados de alg´ un medicamento para bajar la tensi´ on en la sangre y compararlo con una droga de la competencia, no lleva a cabo un experimento con todos los pacientes conocidos que sufran de hipertensi´ on. • Agricultura. Las muestras del ma´ız cosechado en una parcela proyectan en la producci´ on los efectos de un fertilizante nuevo. • Gobierno. Una muestra de opiniones de los votantes se usar´ıa para determinar los criterios del p´ ublico sobre cuestiones relacionadas con el bienestar y la seguridad nacionales.
Cuando se usan valores muestrales (o estad´ısticos) para estimar valores poblacionales (o par´ametros), pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral (o sistem´atico).
Errores muestrales Es improbable, por ejemplo, que la media de la muestra fuera id´entica a la media de la poblaci´on. Asimismo, tal vez la desviaci´on est´andar u otra medici´on que se calcule con base en la muestra no sea exactamente igual al valor correspondiente de la poblaci´on. As´ı, es posible que existan cierta ciertas diferencias entre las estad´ısticas de la muestra, como la media o la desviaci´on est´andar de la muestra, y los par´ametros de la poblaci´ on correspondientes.
´ 1.1. Errores y tecnicas de muestreo
´ Dr. rer. nat. Humberto Llinas
6
Definici´ on 1.1.2 El error muestral es la diferencia entre un estad´ıstico de la muestra y el par´ametro correspondiente de la poblaci´ on. En general, el error muestral se refiere a la variaci´ on natural existente entre muestras tomadas de la misma poblaci´ on, cuando una muestra no es copia exacta de la poblaci´ on.
Ejemplo 1.1.3 Se toman muestras de tama˜ no 2 de una poblaci´ on consistente en tres valores: 2, 4 y 6. Supongamos que el muestreo se hace con reemplazo (es decir, el n´ umero elegido se reemplaza antes de escoger el siguiente) y que se seleccionan muestras ordenadas.1 Halle la media poblacional, todas las muestras, la media de cada muestra y los errores muestrales. ´ SOLUCION: La media poblacional es igual a µ = (2 + 4 + 6)/3 = 4. La tabla 1.1 contiene una lista de todas las muestras ordenadas de tama˜ no 2 que es posible escoger con reemplazo de la poblaci´ on de valores 2, 4 y 6. Tambi´en contiene las medias muestrales y los correspondientes errores muestrales.
Tabla 1.1: Muestras ordenadas de tama˜ no 2 de la poblaci´on de valores 2, 4 y 6. ◭ Muestras ordenadas Media muestral x (2,2) 2 (2,4) 3 (2,6) 4 (4,2) 3 (4,4) 4 (4,6) 5 (6,2) 4 (6,4) 5 (6,6) 6
Error muestral e = x − µ 2 − 4 = −2 3 − 4 = −1 4−4 = 0 3 − 4 = −1 4−4 = 0 5−4 = 1 4−4 = 0 5−4 = 1 6−4 = 2
A´ un si hemos tenido gran cuidado para asegurar que dos muestras del mismo tama˜ no sean representativas de una cierta poblaci´on, no esperar´ıamos que las dos sean id´enditcas en todos sus detalles. El error es un concepto importante que nos ayudar´a a entender mejor la naturaleza de la estad´ıstica inferencial.
1
En una muestra ordenada, el orden en que se escogen las observaciones es importante. Por ejemplo, la muestra ordenada (2,4) es distinta de la muestra ordenada (4,2). En la muestra (4,2), se escogi´o primero 4 y luego 2. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
7
Errores no muestrales o sistem´ aticos En los an´alisis pr´acticos, existe la posibilidad de que aparezca un error que no est´e relacionado con el procedimiento de muestreo usado. Estos errores aparecer´ıan tambi´en si se tomara un censo de la poblaci´on completo. Se conocen como errores no muestrales ´ ticos. En un estudio particular, existen potenciales errores no muestrales por o sistema varias causas, como se muestran los ejemplos 1.1.4, 1.1.5 y 1.1.7. Ejemplo 1.1.4 (La poblaci´ on de la que realmente se muestrea no es la relevante) Un c´elebre ejemplo es el estudio de las actitudes de varios millones de personas, realizado por el Literary Digest, un peri´ odico popular en ese entonces, para predecir al ganador de la presidencia en 1936, cuando el republicano Alfred Landon compet´ıa contra el dem´ ocrata Franklin Rooselvelt. Los nombres de las personas que se incluyeron en la encuesta los obtuvo el Digest del directorio telef´ onico y de otras listas, tales como la de suscriptores de la revista y los registros de autom´ oviles. Estas fuentes no representaban en absoluto a las clases m´ as pobres, puesto que mucha gente que prefer´ıa votar por Roosolvelt no ten´ıa tel´efono y no se suscrib´ıa a peri´ odicos. La mayor´ıa de los entrevistados mostraron su preferencia por Landon, y el peri´ odico predijo que este candidato ganar´ıa por un gran margen. Pero, Landon perdi´ o. La moraleja de la historia es que si uno quiere realizar inferencia sobre una poblaci´ on (en este caso, el electorado de Estados Unidos), es importante muestrear de la poblaci´ on y no de alg´ un subgrupo de ella, aunque la segunda opci´ on parezca conveniente. ◭ Ejemplo 1.1.5 (Los individuos bajo estudio dan respuestas inexactas o inciertas) Esto podr´ıa pasar si las preguntas se redactasen de manera que fuesen dif´ıciles de entender o de forma que parezca que una respuesta particular es m´ as aceptable o m´ as deseable. Adem´ as, muchas preguntas que uno desear´ıa formular pueden ser delicadas y ser´ıa temerario esperar respuestas uniformemente sinceras. Supongamos, por ejemplo, que el director de una f´ abrica quiere valorar las p´erdidas anuales de la compa˜ n´ıa debidas a robos de los empleados. En principio, podr´ıa seleccionarse una muestra aleatoria de empleados y preguntarles: “¿Qu´e ha robado usted de esta f´ abrica en los u ´ltimos doce meses?” Claramente, ¡´esta no es la mejor forma de proceder para obtener la informaci´ on deseada! De hecho, ya hemos hablado de una posibilidad para abordar este problema. Para obtener una descripci´ on y una ilustraci´ on de este procedimiento (llamado el m´etodo de respuesta aleatorizada) se puede acudir a los ejemplos ?? y ??. ◭
El sesgo de las muestras es un tipo de error no muestral.
Definici´ on 1.1.6 El sesgo muestral es la tendencia sistem´atica a favorecer la selecci´on de ciertos elementos de una muestra en lugar de otros. Ejemplo 1.1.7 (Otra posibilidad surge de la no respuesta) Si ´esta es importante, puede inducir a errores muestrales y sistem´ aticos adicionales. Los errores muestrales surgen como consecuencia de que el tama˜ no muestral conseguido sea mucho menor de lo que se esperaba. Los errores ´ 1.1. Errores y tecnicas de muestreo
´ Dr. rer. nat. Humberto Llinas
8
sitem´ aticos pueden presentarse si la poblaci´ on que ha sido muestreada no es la poblaci´ on de inter´es. Los resultados obtenidos pueden considerarse como una muestra aleatoria de la poblaci´ on de los individuos que responder´ıan. Estas personas pueden ser distintas de la poblaci´ on general en alg´ un sentido importante. Si esto es as´ı, inducir´ a un sesgo en las estimaciones resultantes. Si se sospecha que el sesgo de la no respuesta presumiblemente ser´ a molesto, hay tres posibilidades abiertas. Primero, el investigador puede solicitar informaci´ on mediante un mecanismo del que se sepa que produce una proporci´ on de respuestas altas. Segundo, hasta donde sea posible, deben compararse las caracter´ısticas de los individuos que responden y de los que no, en aspectos tales como sexo, edad y raza, para comprobar si hay diferencias obvias entre los dos grupos. Finalmente, se debe intentar entrar en contacto con los individuos que no respondieron, algunos de los cuales pueden estar bien dispuestos para contestar a unas pocas preguntas claves. Si sus respuestas difieren significativamente de las de los individuos que respondieron al principio, debe hacerse una correcci´ on del sesgo de la no respuesta. ◭
Es importante se˜ nalar que el sesgo muestral se refiere a una tendencia sistem´atica inherente a un m´etodo de muestreo que da estimaciones de un par´ametro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo), que el par´ametro real. Los ejemplos 1.1.4 y 1.1.8 ilustran situaciones para errores que resultan de colecciones de datos que caen en esta categor´ıa.2 Ejemplo 1.1.8 Si queremos obtener informaci´ on relativa a las actitudes hacia el aborto y obtenemos una muestra que consta proponderadamente de hombres, podr´ıamos encontrar un sesgo muestral. ◭
Los errores que resultan de la acumulaci´on de datos o de su procesamiento se clasifican tambi´en como errores no muestrales, como se ilustra en el siguiente ejemplo. Ejemplo 1.1.9 Al recabar datos pueden generarse errores no muestrales cuando los instrumentos usados para realizar las mediciones est´ an fuera de ajuste o mal calibrados. Pueden ocurrir errores de procesamiento si los datos est´ an mal colocados, si se pierden al registrarlos o si las respuestas proporcionadas por las personas durante el estudio no son verdaderas. Este u ´ltimo caso puede darse con preguntas relativas a la edad, en las que mucha gente miente por vanidad. ◭
No existe un procedimiento general para identificar y analizar errores sistem´aticos. No obstante, los efectos de estos errores pueden ser muy importantes. La principal recomendaci´on es que el investigador ponga cuidado en cosas tales como identificar la poblaci´on relevante, dise˜ nar el cuestionario y tratar la no respuesta de manera que minimice su importancia. En el resto de este cap´ıtulo, asumiremos que se han tomado estas precauciones, y nuestra exposici´on se centrar´a en el tratamiento de los errores muestrales.
2
En el ejemplo 1.1.4, la muestra estaba fuertemente sesgada a favor de Landon. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
1.1.2
9
T´ ecnicas de muestreo aleatorio
El sesgo muestral puede suprimirse, o minimizarse, usando el principio de aleatori´ n. Este principio se refiere a cualquier proceso de selecci´on de una muestra de la zacio poblaci´on en el que la selecci´on es imparcial o no est´a sesgada. Una muestra elegida con procedimientos aleatorios se llama muestra aleatoria. Los tipos m´as comunes de t´ecnicas de muestreo aleatorio son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistem´atico. Ahora, explicaremos brevemente cada uno de ellos. Muestreo aleatorio simple Como ya se ha dicho anteriormente, para evitar el sesgo muestral y lograr inferencias v´alidas acerca de la poblaci´on, es importante que el proceso de selecci´on de la muestra est´e basado en el principio de aleatorizaci´on. La forma m´as sencilla para conseguir esto es dise˜ nar un mecanismo de selecci´on en el cual todas las muestras de un tama˜ no dado tengan la misma probabilidad de ser elegidas. Esto conduce a la siguiente
Definici´ on 1.1.10 Un procedimiento de muestreo aleatorio simple es aquel en el que todas las posibles muestras del mismo tama˜ no tienen la misma probabilidad de ser escogidas. A las muestras obtenidas por procedimientos de este tipo se las denomina muestras aleatorias simples. Este m´etodo se usa con tanta frecuencia que, en muchos casos, el adjetivo “ simple” se elimina de ambos t´erminos definidos anteriormente.
Ejemplo 1.1.11 Se asume que una cadena nacional de comidas r´ apidas desea seleccionar aleatoriamente 5 de los 10 estados de un pa´ıs para tomar muestras sobre el gusto de los consumidores. Una muestra aleatoria simple garantizar´ a que las 10 = 252 muestras de tama˜ no 5 tengan la 5 misma probabilidad de ser utilizada en el estudio. En este caso, la probabilidad de escoger una muestra aleatoria simple de tama˜ no 5 ser´ a P (escoger una muestra de tama˜ no 5) =
1
=
10 5
1 ≈ 0, 00397 ≈ 0, 397%. 252
Analogamente, la probabilidad de escoger una muestra aleatoria simple de tama˜ no 7 ser´ a P (escoger una muestra de tama˜ no 7) =
1 10 7
=
1 = 0, 00833 ≈ 0, 83%. 120
◭
Puede pensarse en el proceso de muestreo aleatorio simple de la forma siguiente: Supongamos que los miembros de la poblaci´on se introducen en una caja y se mezclan entre s´ı. ´ 1.1. Errores y tecnicas de muestreo
´ Dr. rer. nat. Humberto Llinas
10
Una muestra aleatoria se obtiene extrayendo, digamos, n de ellos. En la pr´actica, para el caso de una poblaci´on finita, (digamos, con N individuos) no es necesario hacerlo de este modo; pueden usarse tablas de n´ umeros aleatorios para conseguir el mismo resultado.
´ meros aleatorios consiste en una tabla de Definici´ on 1.1.12 Una tabla de nu n´ umeros que se hace y se presenta en tal forma que cada uno de los n´ umeros 0 a 9 aparecen en ella con una frecuencia aproximadamente igual. Es decir, cada uno de estos n´ umeros aparecen en la tabla con la misma probabilidad. Las tablas est´an construidas de forma que el proceso descrito en la definici´on 1.1.12 tiene las mismas propiedades que el muestreo aleatorio simple. Una de las posibles formas de construir una tabla de n´ umeros aleatorios consistir´ıa en meter en un caja 10 bolas numeradas de 0 a 9. Despu´es de haberlas mezclado bien, se extrae una de las bolas y se anota su n´ umero. A continuaci´on se devuelve esta bola a la caja y se repite el proceso. Puede repetirse el procedimiento para obtener n´ umeros con tantas cifras como se precisen. Este proceso tiene la propiedad de que cada uno de los posibles n´ umeros tiene la misma probabilidad, y las elecciones sucesivas son independientes unas de otras. El problema es que resulta extremadamente tedioso. En la pr´actica, pueden generarse n´ umeros aleatorios de manera mucho m´as r´apida con la ayuda de un computador, ya que existen mecanismos que imitan de forma efectiva el procedimiento que acabamos de describir. La tabla del ap´endice es una p´agina de n´ umeros aleatorios, tomados de una tabla que contine un mill´on de d´ıgitos aleatorios. Expliquemos el procedimiento de sacar una muestra aleatoria simple por medio de un ejemplo. Ejemplo 1.1.13 Hay 180 estudiantes de primer a˜ no en un colegio rural. Con el fin de obtener informaci´ on acerca de la costumbre que tienen los estudiantes de ver televisi´ on, un consejero de orientaci´ on desea seleccionar una muestra aleatoria simple de diez estudiantes para llenar un cuestionario. En la oficina del rector se encuentra una lista alfab´etica de los estudiantes numerados consecutivamente de 1 a 180. El consejero utiliza la tabla del ap´endice para determinar qu´e estudiantes formar´ an la muestra. Como el n´ umero de estudiantes de la poblaci´ on es de 180 (un n´ umero de tres d´ıgitos) es conveniente pensar en los n´ umeros de 1 a 180 como los n´ umeros 001, 002, 003, . . ., 180. Solamente se aprovechar´ an los n´ umeros de tres d´ıgitos que queden entre 001 y 180. El consejero selecciona al azar un punto de partida en la p´ agina de los n´ umeros aleatorios cerrando los ojos y tocando con la punta de su l´ apiz. El n´ umero que quede m´ as cerca a la punta de su l´ apiz es el punto de partida. La punta del l´ apiz toca el papel en un punto que est´ a m´ as cercano al n´ umero 1, ubicado en la intersecci´ on de la fila 36 y la columna 7, que a cualquier otro n´ umero (v´ease la tabla 1.2a). Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
11
Tabla 1.2: Una parte de tabla de n´ umero aleatorios. .. . 66790 16427
.. . 72193 71681
63988 67468 .. .
0 1 319 · · · 22553 · · · .. .
··· ···
(a) El 1 est´a en la fila 36 y la columna 7.
.. . 66790 16427
.. . 72193 71681
63988 67468 .. .
0 131 9 · · · 22553 · · · .. .
··· ···
(b) El primer n´ umero de tres d´ıgitos es 131.
.. . 66790 16427
.. . 72193 71681
63988 67468 .. .
01319 · · · 2 255 3 · · · .. .
··· ···
(c) El siguiente n´ umero a 131 es 225.
Como el primer n´ umero de tres d´ıgitos que hay en esta posici´ on es 131 (v´ease la tabla 1.2b), el estudiante n´ umero 131 de la lista queda incluido en la muestra. El consejero mueve hacia abajo (la direcci´ on del movimiento es arbitraria y pudo haber sido hacia arriba, hacia la diagonal, etc.) el l´ apiz hasta el siguiente n´ umero de tres d´ıgitos que, como es 225 (v´ease la tabla 1.2c), no se puede utilizar. Siguiendo hacia abajo, los siguientes n´ umeros utilizables son 063 y 120 (v´ease la tabla 1.3a). Por tanto, los estudiantes 63 y 120 quedan incluido en la muestra. Cuando el consejero llegue hasta el final de la p´ agina, simplemente mueve hacia la derecha un d´ıgito, que seg´ un la tabla 1.3b, ser´ıa 302. Como este n´ umero no es utilizable, tiene en cuenta los n´ umeros de tres d´ıgitos que van 3 hacia arriba y que son utilizables como, por ejemplo, el 065 (v´ease la tabla 1.3c). Al final, el procedimiento seguido por el consejero arroja los siguientes n´ umeros aleatorios: 131,
063,
120,
065,
154,
117,
002,
166,
031,
101.
Por tanto, la muestra aleatoria simple consta de los 10 estudiantes identificados con estos n´ umeros en la lista. ◭
El muestreo aleatorio simple se puede llevar a cabo de dos maneras: con reemplazo o sin reemplazo. Cuando el muestreo es sin reemplazo, solamente se permite a una entidad dada aparecer una vez en la muestra. Cuando se emplean los n´ umeros aleatorios para seleccionar la muestra, se descartan los n´ umeros repetidos cuando salen. Cuando el muestreo es con reemplazo, no hay ning´ un l´ımite para el n´ umero de veces que una entidad pueda aparecer en la muestra. En las aplicaciones pr´acticas se usa el muestreo sin reemplazo. Es imposible determinar por simple inspecci´on si una muestra es aleatoria o no. Para 3
Nuevamente, la direcci´on es arbitraria. Por ejemplo, el consejero pudo haber corrido el l´apiz hacia la izquierda o empezar en la parte superior de la p´agina. ´ 1.1. Errores y tecnicas de muestreo
´ Dr. rer. nat. Humberto Llinas
12
Tabla 1.3: Una parte de tabla de n´ umero aleatorios. .. . 63988 67468 .. .
.. . 0 131 9 · · · 22553 · · · .. .
.. . 63988 67468 .. .
.. . 01319 22553 .. .
70321 98710 .. .
26394 · · · 5 063 9 · · · .. .
70321 98710 .. .
26394 50639 .. .
57652 35933 .. .
46065 · · · 3 120 3 · · · .. .
57652 35933 .. .
69865
39302
69865
···
(a) Los siguientes n´ umeros son 063 y 120.
.. . 63988 67468 .. .
.. . 01319 22553 .. .
··· ···
70321 98710 .. .
26394 50639 .. .
··· ···
46065 31203 .. .
··· ···
57652 35933 .. .
46 065 31203 .. .
··· ···
39 302
···
69865
39302
···
··· ···
(b) Al final, se corre un d´ıgito a la derecha.
··· ···
(c) El siguiente n´ umero utilizable es 065.
determinar si una muestra es aleatoria, debemos conocer el proceso de selecci´on que se us´o. Ilustremos esto a trav´es del siguiente Ejemplo 1.1.14 Suponga que queremos elegir tres meses al a˜ no para estudiar cierto comportamiento ambiental y que hemos escogido enero, julio, octubre y noviembre. ¿Representan estos cuatros meses una muestra aleatoria? ´ SOLUCION: A partir de la informaci´ on dada, es imposible decir si esta muestra es aleatoria. Estos meses pueden haber sido escogidos porque est´ an distribuidos a lo largo del a˜ no y siendo as´ı, la muestra no es aleatoria. Si embargo, si se escogieron con la ayuda de una tabla de n´ umeros aleatorios o de otros procedimientos aleatorios, entonces, s´ı representan una muestra aleatoria. ◭
Muestreo estratificado Consideremos inicialmente el siguiente Ejemplo 1.1.15 El Ministerio de Agricultura de cierto pais se interes´ o en el impacto de las condiciones de sequ´ıa sobre la producci´ on de trigo. Especial preocupacion caus´ o la tasa de bancarrota que hac´ıa que los granjeros perdieran sus tierras. Se sent´ıa que un conteo de los niveles de producci´ on por parte de los agricultores de las cuatro ciudades golpeadas m´ as duramente por la sequ´ıa, podr´ıan probar que son u ´tiles en el dise˜ no de un programa de alivio. El ministerio decidi´ o que deber´ıa tomarse una muestra de la cosecha de este a˜ no por varios cientos de agricultores de Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
13
cada ciudad. Sin embargo, se not´ o que el n´ umero de agricultores era muy diferente en cada estado. Si se tomaba una muestra aleatoria simple de las cuatro ciudades como un todo, podr´ıa incluir proporcionalmente pocos agricultores de algunas ciudades y demasiados de otras ciudades. Esto resultar´ıa en una muestra no representativa, lo cual incrementar´ıa el error de muestreo. El Ministerio decidi´ o dividir a todos los agricultores en subgrupos o estratos y de cada subgrupo tomar muestras aleatorias. En este caso, los subgrupos l´ ogicos ser´ıan las cuatro ciudades en menci´ on. ◭
El ejemplo anterior trata sobre una de las muchas situaciones en las cuales el muestreo aleaorio simple es poco pr´actico, imposible o no deseado. El procedimiento utilizado por el Ministerio para la selecci´on de una muestra se cononoce con el nombre de muestreo estratificado.
Definici´ on 1.1.16 Suponga que una poblaci´ on de N individuos puede subdividirse en K grupos mutuamente excluyentes (disyuntos), llamados estratos. El muestreo (aleatorio) estratificado es la selecci´on de muestras aleatorias simples independientes de cada uno de los estratos de la poblaci´ on. Dos observaciones importantes son las siguientes: • Si los K estratos de la poblaci´ on contienen N1 , N2 , . . . , Nk elementos, entonces, N1 +N2 +· · ·+Nk = N. • No es necesario tomar muestras con el mismo n´ umero de elementos en cada estrato. Si representamos los tama˜ nos muestrales de cada estrato por n1 , n2 , . . . , nk , entonces, el tama˜ no total de la muestra es n = n1 + n2 + · · · + nk .
Ejemplo 1.1.17 Suponga que nos interesa obtener una muestra de las opiniones de los profesores de una gran universidad sobre un grupo importante. Puede ser dif´ıcil obtener una muestra con todos esos profesores, as´ı que supongamos que elegimos una muestra aleatoria de cada colegio o departamento acad´emico. Los estratos vendr´ıan a ser esos colegios o departamentos acad´emicos. ◭
El muestreo estratificado se usa frecuentemente para encuestas de opini´on nacional porque las opiniones tienden a variar m´as entre localidades diferentes que al interior de las mismas. Para esta aplicaci´on, los criterios para formarlos deben asegurar que las observaciones dentro de cada uno se asemejen tanto como sea posible. Estas observaciones han de tener menos variaci´on que la existente entre observaciones de estratos diferentes. Otro hecho que es importante mencionar es lo siguiente: una vez que la poblaci´on se divide en estratos, es posible seleccionar una muestra proporcional o no proporcional. ´ 1.1. Errores y tecnicas de muestreo
´ Dr. rer. nat. Humberto Llinas
14
Definici´ on 1.1.18 En un muestreo estratificado proporcional, la proporci´on muestral de elementos de un estrato es la misma que la proporci´on poblacional de elementos de ese estrato. Es decir, para el j-´esimo estrato, tenemos Nj nj = , n N
luego
nj =
Nj · n, N
siendo Nj , N , nj y n como en la definici´ on 1.1.16. Por el contrario, en un muestreo estratificado no proporcional, la cantidad de elementos que se seleccionan en cada estrato no guarda proporci´on con los n´ umeros respectivos en la poblaci´ on.
Ejemplo 1.1.19 Si en el ejemplo 1.1.15, el procedimiento utilizado por el Ministerio de Agricultura es el muestreo estratificado proporcional, entonces, la proporci´ on de agricultores incluidos en la muestra de cada ciudad debe ser igual a todas las proporciones de todos los agricultores en cada ciudad. Por ejemplo, si los agricultores de una ciudad constitu´ıan el 30% de todos los agricultores de todas las ciudades, entonces, un 30% de los agricultores de la muestra ser´ıan seleccionadas aleatoriamente de esa ciudad. ◭
En algunos casos el muestreo estratificado tiene la ventaja de poder reflejar con mayor precisi´on las caracter´ısticas de la poblaci´on que un muestreo aleatorio simple, como se muestra en el siguiente Ejemplo 1.1.20 Suponga que se quiere estudiar los gastos de publicidad de 352 empresas de un pais y que el objetivo del estudio consiste en determinar si las empresas con altos rendimientos sobre su inversi´ on (una medici´ on de rentabilidad) ha gastado una mayor proporci´ on de su presupuesto de ventas de publicidad que las empresas que tienen un menor rendimeinto o incluso un d´eficit. Sup´ ongase que las empresas se dividieron en cinco estratos y que en total se van a escoger 50 empresas (v´ease la tabla 1.4). Obs´ervese que el 2 por ciento de las empresas tienen un rendimeinto sobre la inversi´ on de 30 por ciento o m´ as (estrato 1) y el 1 por ciento tiene un d´eficit (estrato 5). Si se tomara una muetra aleatoria simple de 50 empresas, quiz´ as por azar no se habr´ıa seleccionado ninguna empresa en los estratos 1 o 5. Una muestra aleatoria estratificada asegurar´ıa que al menos una empresa del estrato 1 y otra del estrato 5 est´ an representadas en la muestra. ◭
Muestreo por conglomerados Supongamos que un investigador quiere estudiar una poblaci´on que se extiende sobre una amplia ´area geogr´afica, como una ciudad o una regi´on. Si se usa un muestreo aleatorio simple o un muestreo aleatorio estratificado, inmediatamente surgen dos problemas. En primer lugar, para extraer la muestra, el investigador necesita una lista razonablemente precisa de los elementos de la poblaci´on. Esta lista puede no estar disponible o puede ser Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
15
Tabla 1.4: N´ umero seleccionado para una muestra aleatoria estratificada proporcional Estrato
Rentabilidad (Rendimiento sobre la inversi´on)
N´ umero muesN´ umero N´ umero treado se ende firmas muestreado cuentra por
1
30 por ciento y m´as
8
1
8 352
× 50
2
De 20 a 30 por ciento
35
5
35 352
× 50
3
De 10 a 20 por ciento
189
27
189 352
× 50
4
De 0 a 10 por ciento
115
16
115 352
× 50
5
D´eficit
5
1
5 352
× 50
TOTAL
352
50
que obtenerla conlleve un elevado costo. En segundo lugar, incluso el investigador posee una lista de la poblaci´on, los miembros de la muestra resultante, casi inevitablemente, estar´an dispersos por una extensa ´area. En ese caso, contactar con cada individuo de la muestra puede ser muy costoso. Desde luego, si se env´ıa un cuestionario por correo, este u ´ltimo problema no aparece. Sin embargo, esta manera de obtener la informaci´on puede acarrear una tasa de no respuesta inevitablemente alta, por lo que el investigador preferir´a utilizar entrevistas personales. Para afrontar cualquiera de los dos problemas expuestos en el p´arrafo anterior, el investigador puede usar un procedimiento de muestreo alternativo conocido como muestreo por conglomerados.
Definici´ on 1.1.21 Supongamos que una poblaci´ on puede dividirse convenientemente en unidades relativamente peque˜ nas y geogr´ aficamente compactas llamadas conglomerados (por ejemplo, una ciudad puede dividirse en distritos o barrios). En el muestreo por conglomerados, se selecciona de la poblaci´ on una muestra aleatoria simple de conglomerados, y se contacta con cada individuo de los conglomerados de la muestra, es decir, se lleva a cabo un censo completo en cada uno de los conglomerados elegidos.
Ejemplo 1.1.22 Suponga que una compa˜ n´ıa de servicio de televisi´ on por cable est´ a pensando en abrir una sucursal en una ciudad grande. La compa˜ n´ıa planea realizar un estudio para determinar ´ 1.1. Errores y tecnicas de muestreo
´ Dr. rer. nat. Humberto Llinas
16
el porcentaje de familias que utilizar´ıan sus servicios. Como no es pr´ actico preguntar en cada casa, la empresa decide escoger una parte de la ciudad al azar para estudiar ah´ı cada hogar. Esa parte de la ciudad forma un conglomerado. ◭ Ejemplo 1.1.23 Consideremos la situaci´ on del ejemplo 1.1.15. El Ministerio de Agricultura, en su estudio sobre las condiciones de sequ´ıa, puede decidir que una muestra por conglomerados es preferible. Una muestra por conglomerados se toma identificando los barrios en cada ciudad como conglomerados. Una muestra de estos barrios (conglomerados) se selecciona luego aleatoriamente utilizando una tabla de n´ umeros aleatorios o alg´ un otro medio generalmente aceptado. Todos los agricultores seleccionados de esta manera en los barrios est´ an incluidos en la muestra. Este procedimiento con frecuencia es m´ as f´ acil y r´ apido que el muestreo aleatorio simple o el estratificado. Por ejemplo, si es necesario viajar a cada finca de la muestra para observar los efectos de la sequ´ıa, es m´ as f´ acil visitar varios agricultores en el mismo barrio. ◭
En el muestreo por conglomerados, ´estos se forman para representar, tan fielmente como sea posible, a toda la poblaci´on. Entonces, se usa una muestra aleatoria simple de cada conglomerado para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados. La poblaci´on completa puede estudiarse de manera efectivamente el an´alisis de sus copias en miniatura o conglomerados. Si un conglomerado es muy grande para analizarse de manera completa, pueden elegirse aleatoriamente algunos de sus elementos. Muestreo sistem´ atico
´ tico es una t´ecnica de muestreo que requiere Definici´ on 1.1.24 El muestreo sistema de una selecci´on aleatoria inicial de observaciones seguida de otra selecci´on de observaciones obtenida usando alg´ un sistema o regla. Ejemplo 1.1.25 Para obtener una muestra de suscriptores telef´ onicos en una ciudad grande, puede sacarse primero una muestra aleatoria de los n´ umeros de las p´ aginas del directorio telef´ onico. Al elegir el vig´esimo nombre de cada p´ agina obtendr´ıamos un muestreo sistem´ atico. Tambi´en podemos escoger un nombre de la primera p´ agina del directorio y despu´es escoger cada nombre del lugar n´ umero cien a partir del ya escogido. Por ejemplo, podr´ıamos seleccionar un n´ umero al azar de entre los primeros 100. Supongamos que el elegido es el 40. Entonces, escogemos los nombres del directorio que corresponden a los n´ umeros 40, 140, 240, 340 y as´ı sucesivamente. ◭
En general, un muestreo sistem´atico se analiza de la misma manera que un muestreo aleaotorio simple, ya que, en relaci´on al asunto que se estudia, la lista de la poblaci´on ya est´a en orden aleatorio. El peligro es que pueda haber alg´ un sutil e inesperado v´ınculo ente el orden de la poblaci´on y el asunto que se estudia. Por este motivo, al emplear un muestreo sistem´atico puede inducirse un sesgo. En otras palabras, no debe utilizarse un muestreo sistem´atico si existe un patr´on o arreglo que se relacione con el elemento de inter´es. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
17
✍ Ejercicios de la secci´ on 1.1 1. Use el primer d´ıgito de la quinta fila de la tabla aleatoria del ap´endice como punto de partida y, movi´endose horizontalmente a la derecha, seleccione una muestra aleatoria de tama˜ no 13 de la lista de los estudiantes de su curso de Estad´ıstica. 2. Simule el lanzamiento de un moneda 12 veces usando la tabla aleatoria del ap´endice. Empiece con el tercer d´ıgito de la sexta fila y mu´evase verticalmente hacia abajo. 3. Un distribuidor de computadores nuevos quiere obtener una muestra aleatoria de 20 opiniones relativas a un u ´ltimo modelo, de entre 85 clientes a partir de la lista de direcciones de quienes compraron computadores nuevos el a˜ no pasado. Explique c´ omo podr´ıa seleccionarse la muestra con la ayuda de una tabla de n´ umeros aleatorios. 3. Asignemos un n´ umero de dos d´ıgitos de 00 a 84 a cada uno de los 85 clientes. Luego, desde un punto aleatorio de partida en la tabla, nos movemos horizontalmente a la derecha hasta escoger 20 clientes. 4. Consideren las primeras diez filas de la tabla aleatoria del ap´endice y anote la frecuencia con la que figura cada d´ıgito. ¿Cu´ antas veces esperar´ıa usted que aparezca cada n´ umero? 5. Para el ejercicio 4, ¿piensa usted que la variaci´ on entre las frecuencias observadas y la frecuencia de cada d´ıgito indica una variaci´ on debido al error muestral? Complete la tabla adjunta y encuentre el promedio de los errores muestrales. D´ıgito 0 1 2 3 4 5 6 7 8 9
Frecuencia
Frecuencia esperada
Error muestral
6. Comience con el primer d´ıgito de la sexta fila y mu´evase horizontalmente a la derecha, en la tabla aleatoria del ap´endice, para elegir una muestra aleatoria de 12 lanzamientos de un dado. Construya una tabla semejante a la del ejercicio 5 y encuentre el promedio de los errores muestrales 7. ¿Dan lugar los siguientes procedimientos a muestras aleatorias? Explique por qu´e s´ı o por qu´e no. (a) Para obtener una muestra aleatoria de profesores en un grupo, escoja a todos los que tienen carro. ´ 1.1. Errores y tecnicas de muestreo
´ Dr. rer. nat. Humberto Llinas
18
(b) Para lograr una muestra aleatoria de habitantes de cierta ciudad elija a cada cuarta persona que entra por la puerta de una de las tiendas de la ciudad. (c) Para conseguir una muestra aleatoria de los estudiantes matriculados en cierta universidad, selecci´ onelos usando una tabla de n u ´meros aleatorios y los u ´ltimos cuatro d´ıgitos de su carnet de estudiante. 7. (a) No (b) No (c) S´ı 8. Se va a escoger una muestra de 5 administradores en una poblaci´ on de 200 para participar en una capacitaci´ on. (a) Etiquete a los maestros de 001 a 200. ¿Cu´ ales se escoger´an para la capacitaci´ on si se usa la tabla aleatoria del ap´endice y el punto de partida es el primer d´ıgito de la cuarta fila en la segunda columna y los d´ıgitos se leen horizontalmente para la derecha? (b) Un proceso m´ as eficiente de la selecci´ on requiere clasificar a los administradores como en la parte (a), y asignar los n´ umeros 001, 201, 401, 601 y 801 al primer maestro, 002, 202, 402, 602 y 802 al segundo, 003, 203, 403, 603 y 803 al tercer maestro..., y 200, 400, 600, 800 y 000 al u ´ltimo maestro. Escoja una muestra aleatoria de cinco administradores usando este esquema y empezando en el mismo punto. 9. ¿Constituye la muestra no ordenada (1,3,5,7,9) una muestra aleatoria de la poblaci´ on de todos los n´ umeros enteros del 1 al 10, inclusive? Explique. 9. No.
1.2
Estad´ısticos y distribuciones muestrales
A partir de esta secci´on, nos centraremos en m´etodos para analizar los resultados muestrales con el fin de obtener informaci´on acerca de la poblaci´on. Por el momento nos limitaremos a muestras que hayan sido seleccionadas mediante esquemas de muestreo aleatorio simple (v´ease la definici´on 1.1.10). Sin embargo, como ya se explicado en la secci´on 1.1.2, ´este no es el u ´nico procedimiento que existe para elegir individuos de la poblaci´on, y que, en determinadas circunstancias, pueden resultar preferibles esquemas de muestreo alternativos. El principio de aleatorizaci´on en la selecci´on de los miembros de la muestra proporciona cierta protecci´on contra la presencia en la muestra de individuos no representativos de la poblaci´on, en el sentido de que, en media, si se extraen repetidas muestras de la poblaci´on seg´ un este mecanismo, ning´ un subgrupo particular deber´ıa estar m´as representado en la muestra. Adem´as, el concepto de distribuci´ on muestral nos permite determinar la probabilidad de que la muestra particular que se ha obtenido no sea representativa en un determinado grado. Sobre la base de la informaci´on muestral, nuestro objetivo ser´a hacer inferencias acerca Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
19
de la poblaci´on de la que procede la muestra. La distribuci´on de todos los valores de inter´es de esta poblaci´on puede ser representada a trav´es de una variable aleatoria. Ser´ıa demasiado ambicioso pretender describir completamente la distribuci´on poblacional bas´andonos en una peque˜ na muestra aleatoria de observaciones. Sin embargo, s´ı seremos capaces de hacer inferencias bastante firmes sobre algunas de las caracter´ısticas m´as importantes de la distribuci´on poblacional como se ilustra en el siguiente Ejemplo 1.2.1 Dada una muestra aleatoria de consumo de combustible de 20 autos de un determinado modelo, se puede hacer inferencia sobre la media y la varianza del consumo de combustible de todos los autos de ese modelo. Tal inferencia estar´ a basada en la informaci´ on muestral, y ser´ a natural plantearnos cuestiones del tipo: “Si el consumo de combustible de todos los autos de un determinado modelo, medido en kil´ ometros por litro, tiene una media de 10 y una desviaci´ on est´ andar de 2, ¿cu´ al es la probabilidad de que, en una muestra aleatoria de 18 autos de ete tipo, el consumo medio de combustible sea menor de 8 kil´ ometros por litro?”. Al plantearnos la pregunta de este modo, estamos asumiendo impl´ıcitamente que las inferencias sobre la media poblacional estar´ an basadas en la media muestral. ◭
Es importante distinguir entre las caracter´ısticas poblacionales y sus correspondientes cantidades muestrales. En el ejemplo 1.2.1, el c´onsumo de combustible de todos los autom´oviles de ese modelo tendr´a una distribuci´on con una determinada media. Esta media, que es un atributo, se extrae una muestra de la poblaci´on y se calcula su media muestral. Puesto que para cada muestra que se extraiga se obtendr´a un valor diferente de la media muestral, podemos pensar en esta cantidad como en una variable aleatoria con una cierta distribuci´on de probabilidad. La distribuci´on de probabilidades de los posibles resultados muestrales proporciona una base para realizar inferencias sobre la poblaci´on. Nuestro objetivo en este cap´ıtulo ser´a examinar las propiedades de distribuciones muestrales de este tipo.
Definici´ on 1.2.2 Supongamos que se ha extra´ıdo una muestra aleatoria de una poblaci´on y que se desea hacer inferencia sobre ciertas caracter´ısticas de la distribuci´on de la poblaci´ on. Esta inferencia estar´a basada en alg´ un estad´ıstico muestral, es decir, en alguna funci´on particular de la informaci´ on muestral. Matem´ aticamente, un estad´ıstico muestral puede definirse de la siguiente manera: Sean X1 , . . . , Xn variables aleatorias de tal forma que el vector aleatorio (X1 , . . . , Xn ) conforme una muestra aleatoria extraida de alguna poblaci´ on. Entonces, un estad´ıstico muestral para esta muestra es un func´ıon que depende s´ olo de las variables aleatorias X1 , . . . , Xn .
Algunos ejemplos t´ıpicos de estad´ısticos son la media muestral, la mediana muestral, la moda muestral, el rango muestral, la varianza muestral, la desviaci´on est´andar muestral y la proporci´on muestral, entre otros.
1.2. Estad´ısticos y distribuciones muestrales
´ Dr. rer. nat. Humberto Llinas
20
Debido a que un estad´ıstico muestral tambi´en es una variable aleatoria (por ser funci´on de variales aleatorias), entonces, ese estad´ıstico posee una distribuci´on. Esto conduce a la siguiente
Definici´ on 1.2.3 La distribuci´on de un estad´ıstico muestral recibe el nombre de dis´ ´ n en el muestreo y se define como la distribuci´on tribucion muestral, o distribucio de probabilidades de los valores que puede tomar el estad´ıstico a lo largo de todas las posibles muestras con el mismo n´ umero de observaciones que pueden ser extra´ıdas de la poblaci´on. Para ilustrar la importancia del concepto de distribuci´on muestral, consideremos el siguiente Ejemplo 1.2.4 Supongamos que un supervisor tiene a su cargo a seis empleados, cuyas experiencias (medidas en a˜ nos de trabajo) son 2, 4, 6, 6, 7 y 8. Se eligen al azar cuatro de estos empleados y se les asigna una nueva tarea. F´ acilmente se puede determinar que el n´ umero medio de a˜ nos de experiencias para los seis empleados es 5,5. Estamos interesados en el n´ umero medio de a˜ nos de experiencia para los cuatros empleados concretos a los que se les ha asignado el cambio de tarea. Podemos pensar en este ejemplo como en una muestra aleatoria simple de cuatro valores extra´ıdos de una poblaci´ on de seis. El n´ umero de muestras diferentes que pueden ser seleccionadas 6 es 4 = 15. En la tabla 1.5 aparece cada una de las posibles muestras con su correspondiente media muestral. Las muestras como (2, 4, 6, 7) aparecen dos veces porque hay dos empleados en la poblaci´ on con seis a˜ nos de experiencia de trabajo.
Tabla 1.5: Posibles muestras de cuatro observaciones con sus correspondientes medias muestrales para la poblaci´on 2, 4, 6, 6, 7 y 8. Muestra Media muestral Muestra Media muestral 2,4,6,6 4,50 2,6,7,8 5,75 2,4,6,7 4,75 2,6,7,8 5,75 2,4,6,8 5,00 4,6,6,7 5,75 2,4,6,7 4,75 4,6,6,8 6,00 2,4,6,8 5,00 4,6,7,8 6,25 2,4,7,8 5,25 4,6,7,8 6,25 2,6,6,7 5,25 6,6,7,8 6,75 2,6,6,8 5,50
Puesto que todas las posibles muestras tienen la misma probabilidad de ser seleccionadas, la probabilidad que tiene cada una de las muestras de ser elegidas es 1/15. Usando esta informaci´ on, podemos determinar la probabilidad de cada uno de los valores de la media muestral. Para ello, podemos construir la distribuci´ on de frecuencias de la media, como se muestra en la tabla 1.6. Por ejemplo, en la tabla 1.5, vemos que tres de las posibles muestras tienen media 5, 75; dos de las posibles muestras tienen media 5, 25, etc. Por tanto, la probabilidad de que los cuatros empleados Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
21
Tabla 1.6: Distribuci´on de frecuencias para las medias muestrales de la tabla 1.5 Media muestral 4,50 Frecuencia 1
4,75 2
5,00 2
5,25 2
5,50 1
5,75 3
6,00 1
6,25 2
6,75 2
seleccionados para la nueva tarea tangan una experiencia media de 5,75 a˜ nos es de 3/15. De la misma forma podemos encontrar la probabilidad de cada una de las posibles medias muestrales. La colecci´ on de todas estas probabilidades constituye la distribuci´ on muestral de la media muestral. La forma m´ as simple de describir esta distribuci´ on es, posiblemente, a trav´es de su funci´ on de probablidad. Si representamos la media muestral por X, a un posible valor de X por x y a la on muestral de X es correspondiente funci´ on de probabilidad de X por fX , entonces, la distribuci´ como se muestra en la tabla 1.7
Tabla 1.7: Distribuci´on de probabilidades para la media muestral x fX
4,50 1/15
4,75 2/15
5,00 2/15
5,25 2/15
5,50 1/15
5,75 3/15
6,00 1/15
6,25 2/15
6,75 2/15
El gr´ afico de esta funci´ on de probabilidad aparece en la figura 1.1.
Figura 1.1: Funci´on de probabilidad de la distribuci´on de la distribuci´on muestral de la media de cuatro observaciones extra´ıdas de la poblaci´on 2, 4, 6, 6, 7 y 8. N´ otese que, mientras que el n´ umero de a˜ nos de trabajo de los seis trabajadores se mueve entre dos y ocho, los valores posibles de la media muestral tienen un rango mucho m´ as restringido: de 1.2. Estad´ısticos y distribuciones muestrales
´ Dr. rer. nat. Humberto Llinas
22
4,5 a 6,75. Adem´ as, la mayor parte de la probabilidad se sit´ ua en la zona central de este rango. ◭
En la siguiente secci´on, analizaremos la distribuci´on muestral de la media muestral para poblaciones m´as generales.
✍ Ejercicios de la secci´ on 1.2 10. Suponga que de la poblaci´ on de valores 2, 5 y 12 se toman nueve muestras de tama˜ no 2 con reemplazo. (a) Construya una distribuci´ on de frecuencias para las nueve sumas muestrales. (b) Verifique que la media de la distribuci´ on muestral de la suma muestral est´ a dada por µ1 = nµ. √ (c) Verifique que el error est´ andar de la suma muestral est´e dado por σ1 = nσ. 11. Cierto juguete se vende en tres tama˜ nos: de 25, 40 y 65 cent´ımetros. Veinte por ciento de los compradores seleccionan el juguete de 25 cent´ımetros, 50% el de 40 cent´ımetros y 30% el de 65 cent´ımetros. Sean X1 y X2 los tama˜ nos de juguete seleccionados por dos compradores independientes. Determine la distribuci´ on muestral de la media muestral X, calcule su media E(X) y comp´ arela con la media poblacional µ. 11. E(X) = 44, 5 = µ 12. Hay dos retenes de control en mi viaje hacia otra otra ciudad. Suponga que X1 es el n´ umero de retenes en los que debo detenerme y que la distribuci´ on de X1 es: x1 p(x1 )
0 2
1 5
2 3
Adem´ as, la media y varianza poblacional son µ = 1, 1 y σ 2 = 0, 49, respectivamente. Sea X2 el n´ umero de retenes en los que debo detenerme al regresar a casa; X2 es independiente de X1 , de modo que X1 , X2 es una muestra aleatoria de taman˜ no n = 2. (a) Sea X = X1 + X2 y determine la distrubuci´ on de probabilidad de X. (b) Calcule µX . ¿C´ omo se relaciona con µ? 2 . ¿C´ (c) Calcule σX omo se relaciona σ 2 ?
13. Considere la situaci´ on que se plante´ o en el ejercicio 11. Determine la distribuci´ on muestral 2 2 2 de la varianza muestral S , calcule E(S ) y comp´ arela con σ . 13. E(S 2 ) = 212, 25 = σ 2 Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
23
14. Se sabe que 80% de todos los estudiantes de cierta universidad son de estrato medio-bajo. Suponga que n = 10 estudiantes se seleccionan al azar y sea X la variable aleatoria que representa el n´ umero de estudiantes del estrato medio-bajo en la muestra. El estad´ıstico. Obtenga la distribuci´ on muestral del estad´ıstico X/n, que es la proporci´ on muestral de estudiantes del estrato medio-bajo en la muestra. [Sugerencia: un posible valor de X/n es 0,3 y corresponde a X = 3. ¿Cu´ al es la probabilidad de este valor (qu´eclase de variable aleatoria es X)?] 15. Sea X la variable aleatoria que representa el n´ umero de clientes que entran a una tienda. Suponga que la distribuci´ on de X es: x f (x)
1 0,4
2 0,3
3 0,2
4 0,1
(a) Considere una muestra aleatoria de tama˜ no n=2 clientes y sea X el n´ umero medio muestral de paquetes enviados. Obtenga la distribuci´ on de probabilidad de X. (b) Considere el inciso (a) y calcule P (X ≤ 2, 5) (c) En otra considere una muestra aleatoria de tama˜ no n=2, pero ahora conc´entrese en el estad´ıstico R = “rango muestral (diferencia entre los valores m´ aximo y m´ınimo de la muestra)”. Obtenga la distribuci´ on de R. [Sugerencia: calcule el valor de R para cada resultado y utilice las probabilidades del inciso (a).] (d) Si se selecciona una muestra aleatorio de tama˜ no n = 4, ¿cu´ al es P (X ≤ 1, 5)? [Sugerencia: no deben tener una lista de todos los posibles resultados, sino s´ olo para los que x ≤ 1, 5.] 15. (b) 0,85 16. Una gaveta contiene diez cajas selladas y numeradas del 1 al 10. Las primeras cinco est´ an vac´ıas, las siguientes tres contienen 5 d´ olares cada una, y hay un billete de 10 d´ olares en cada una de las dos u ´ltimas. Se selecciona una muestra de tama˜ no 3 con reemplazo (de modo que tenemos una muestra aleatoria) y se obtiene la max´ıma cantidad en cualesquiera de las cajas seleccionadas. Si X1 , X2 y X3 son variables aleatorias que representan las cantidades de las cajas seleccionadas, el estad´ıstico de inter´es es M = “el m´ aximo de X1 , X2 y X3 ”. (a) Obtenga la distribuci´ on de probabilidad de este estad´ıstico. (b) Describa c´ omo realizar´ıa un experimento de simulaci´ on para comprar las distribuciones de M para varios tama˜ nos muestrales. ¿C´ omo sabr´ıamos que la distribuc´ıon cambiar´ıa medida que n aumenta? 17. Una casa comercial se compone de tres sucursales, cada una manejada por dos trabajadores. La informaci´ on de salarios anuales (en miles de d´ olares) es: Sucursal Trabajador Salario
1 1 19,7
1 2 23,6
2 3 20,2
2 4 23,6
3 5 15,8
1.2. Estad´ısticos y distribuciones muestrales
3 6 19,7
´ Dr. rer. nat. Humberto Llinas
24
(a) Suponga que dos empleados se seleccionan al azar de entre los seis (sin reemplazo). Determine la distribuci´ on muestral del salario medio muestral X. (b) Suponga que una de las tres sucursales se selecciona al azar y que X1 y X2 son variables aleatorias que representan los salarios de los dos trabajadores. Determine la distribuci´ on muestral de X. (c) ¿C´ omo se compara E(X) de los incisos (a) y (b)con el salario medio poblacional µ.
1.3
Distribuci´ on muestral de la media
La media y la varianza de medias muestrales En esta secci´on Supondremos que se ha extra´ıdo una muestra de n observaciones de una poblaci´on con media µ y varianza σ 2 . Antes de que la muestra haya sido observada, habr´a incertidumbre sobre los resultados. Esta incertidumbre es consecuencia del hecho de que cada uno de los miembros de la muestra es una variable aleatoria con media µ y varianza σ 2 . Nuestro objetivo primordial es analizar la distribuci´on muestral de la media muestral X. 2 Un punto de partida obvio es determinar la media µX y la varianza σX de esta distribuci´on. ´ ndar de X. La correspondiente desviaci´on est´andar σX se conoce como error esta Primero consideraremos el caso en que la poblaci´on es finita.
Teorema 1.3.1 Supongamos que la poblaci´ on en donde se hace el muestreo es finita de tama˜ no N . (a) Cuando el muestreo se hace con reemplazo, entonces, on muestral de X es igual a la media de la poblaci´on • La media µX de la distribuci´ en que se toma la muestra, es decir, µX = µ. 2 • La varianza σX de la distribuci´ on muestral es igual a la varianza de la poblaci´on 2 2 = σn . dividida por el tama˜ no de la muestra, es decir, σX
(b) Cuando el muestreo se hace sin reemplazo, entonces, on muestral de X es igual a la media de la poblaci´on • La media µX de la distribuci´ en que se toma la muestra, es decir, µX = µ. 2 −n 2 • La varianza σX . de la distribuci´ on muestral es igual a σn N N −1 Ejemplo 1.3.2 Supongamos que se eligen muestras de tama˜ no 2 de una poblaci´ on de tama˜ no 3 con valores 0, 2 y 4. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
25
(a) Si el muestreo se hace con reemplazo, entonces, verifique el teorema 1.3.1a. (b) Si el muestreo se hace sin reemplazo, entonces, verifique el teorema 1.3.1b. ´ SOLUCION: En este caso, n = 2 y N = 3. F´ acilmente se puede encontrar que la media µ y varianza σ 2 poblacional est´ an dadas por µ =
0+2+4 = 2 3
y
σ2 =
(0 − 2)2 + (2 − 2)2 + (4 − 2)2 8 = , 3 3
respectivamente. Ahora, distinguiremos los casos en que el muestreo se hace con o sin reemplazamiento. (a) Si el muestreo se hace con reemplazo, entonces, las posibles muestras que se pueden escoger son (0, 0), (0, 2), (0, 4), (2, 0), (2, 2), (2, 4), (4, 0), (4, 2), (4, 4). Ahora, obtenderemos los posibles valores x de la media muestral X. Estos se encuentran reunidos en siguiente tabla: Muestras x
(0,0) 0
(0,2) 1
(0,4) 2
(2,0) 1
(2,2) 2
(2,4) 3
(4,0) 2
(4,2) 3
(4,4) 4
Por consiguiente, la variable aleatoria X tiene 9: valores 0, 1, 2, 1, 2, 3, 2, 3 y 4. Por tanto, la media µX de la distribuci´ on muestral de X es igual a µX =
0+1+2+1+2+3+2+3+4 = 2 = µ, 9
2 de la distribuci´ es decir, µX = µ. La varianza σX on muestral es igual a 2 = σX 2
Debido que σn = teorema 1.3.1.
4 (0 − 2)2 + (1 − 2)2 + (2 − 2)2 + · · · + (3 − 2)2 + (4 − 2)2 = . 9 3 8/3 2
2 = = 43 , entonces, σX
σ2 n .
De eta forma queda verificada la parte (a) del
(b) Supongamos que el muestreo se hace sin reemplazamiento. Debemos considerar dos casos: el muestreo es con orden o sin orden.4 • Primer caso: El muestreo se hace sin reemplazamiento, pero con orden. En este caso, las posibles muestras que se pueden escoger son (0, 2),
(0, 4),
(2, 0),
(2, 4),
(4, 0),
(4, 2).
Los posibles valores x de la media muestral X se encuentran reunidos en la siguiente tabla: 4
Cuando el muestreo es con reemplazamiento, necesariamente este muestreo es con orden. ¿Por que´? ´ muestral de la media 1.3. Distribucion
´ Dr. rer. nat. Humberto Llinas
26
Muestras x
(0,2) 1
(0,4) 2
(2,0) 1
(2,4) 3
(4,0) 2
(4,2) 3
Por consiguiente, en este caso, la variable aleatoria X tiene 6 valores: 1, 2, 1, 3, 2 y 3. on muestral de X es igual a Por tanto, la media µX de la distribuci´ µX =
1+2+1+3+2+3 = 2 = µ. 6
2 de la distribuci´ on muestral es igual a La varianza σX 2 σX =
2 (1 − 2)2 + (2 − 2)2 + (1 − 2)2 + (3 − 2)2 + (2 − 2)2 + (3 − 2)2 = . 6 3
Debido que
8/3 3 − 2 2 σ2 N − n = = , n N −1 2 3−1 3 2 N −n 2 = σ entonces, σX n N −1 . De esta forma queda verificada la parte (b) del teorema 1.3.1 para el caso en que el muestreo se hace sin reemplazamiento, pero teniendo en cuenta el orden. • Segundo caso: El muestreo se hace sin reemplazamiento, pero sin orden. 3 En este caso, hay N n = 2 = 3 posibles muestras que se pueden escoger y son (0, 2), (0, 4) y (2, 4). Como antes, reuniremos los posibles valores x de la media muestral X en una tabla como la que se muestra a continuaci´ on: Muestras x
(0,2) 1
(0,4) 2
(2,4) 3
Por consiguiente, en este caso, la variable aleatoria X tiene 3 valores: 1, 2 y 3. Por on muestral de X es igual a tanto, la media µX de la distribuci´ µX =
1+2+3 = 2 = µ. 3
2 de la distribuci´ La varianza σX on muestral es igual a 2 σX =
(1 − 2)2 + (2 − 2)2 + (3 − 2)2 2 = . 3 3
Debido que
8/3 3 − 2 2 σ2 N − n = = , n N −1 2 3−1 3 N −n 2 = σ2 entonces, σX n N −1 . De esta forma queda verificada la parte (b) del teorema 1.3.1 para el caso en que el muestreo se hace sin reemplazamiento, pero sin tener en cuenta el orden. ◭ −n ´ n (de poblacio ´ n finita). Podemos se denomina factor de correccio El factor N N −1 pasarlo por alto si el tama˜ no n de la muestra es peque˜ no en relaci´on con el tama˜ no N N −n σ2 σ2 de la poblaci´on. Si N es mucha m´as grande que n, la diferencia entre n y n N −1
Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
27
se puede despreciar. Una regla de uso muy frecuente establece que el factor de correcci´on de poblaci´on finita se puede pasar por alto cuando cuando Nn ≤ 0, 05, es decir, cuando la muestra contiene menos del 5% de los elementos de la poblaci´on. Como hasta ahora hemos concentrado nuestra atenci´on en el caso en que el muestreo se hace en una poblaci´on finita, podr´ıamos preguntarnos qu´e resultados se obtienen cuando el muestreo se hace en una poblaci´on infinita. El muestreo con reemplazamiento en una poblaci´on finita es equivalente al muestreo en una poblaci´on infinita. Por tanto, los resultados analizados en el teorema 1.3.1a se pueden aplicar tambi´en al caso de un muestreo hecho en una poblaci´on infinita. Es decir,
Teorema 1.3.3 Cuando el muestreo se hace en una poblaci´ on infinita, entonces, sin importar si el muestreo es con o sin reemplazo, se tiene que on muestral de x es igual a la media de la poblaci´on en • La media µx de la distribuci´ que se toma la muestra, es decir, µx = µ. • La varianza σx2 de la distribuci´ on muestral es igual a la varianza de la poblaci´on 2 dividida por el tama˜ no de la muestra, es decir, σx2 = σn (con la condici´on de que la poblaci´on en que se toma la muestra tenga una varianza conocida). Para tener una visi´on global de los resultados presentados en los teoremas 1.3.1 y 1.3.3, podemos reunir estos resultados en una tabla como la que se muestra en la tabla 1.8.
2 cuando la poblaci´on es normal con σ 2 conocida Tabla 1.8: µX y σX
µX = µ
Poblaci´on finita
Muestreo con reemplazo
Muestreo sin reemplazo
2 = σX
2 = σX
σ2 n
Poblaci´on infinita
σ2 n
N −n N −1
2 = σX
σ2 n
2 = σX
σ2 n
Hemos visto ya de qu´e manera se pueden determinar la media y la varianza de la distribuci´on de las medias muestrales sin calcularlar realmente. Ahora deseamos investigar la forma funcional de las distribuciones de medias muestrales. Vamos a distinguir dos casos: el caso de tener muestras grandes y el de tener muestras peque˜ nas. ´ muestral de la media 1.3. Distribucion
´ Dr. rer. nat. Humberto Llinas
28
1.3.1
El caso para muestras grandes
En este caso, determinaremos la forma de la distribuci´on muestral de la media muestral suponiendo que se cumple alguna de las tres condiciones:
• La poblaci´on es normal con varianza conocida. • La poblaci´on es normal con varianza desconocida y el tama˜ no de la muestra es grande. • La forma de la poblaci´on es desconocida (o no normal), su varianza es conocida o desconocida y el tama˜ no de la muestra es grande. Teorema 1.3.4 Sea x la media de una muestra aleatoria de tama˜ no n tomada de una 2 poblaci´ on con media µ y varianza σ > 0. Supongamos que se cumple alguna de las siguientes condiciones: (a) La poblaci´ on es normal y σ 2 es conocida (no importa el tama˜ no de n); (b) La poblaci´ on es normal, σ 2 es desconocida y n ≥ 30; (c) La forma de la poblaci´on es desconocida (o no normal), σ 2 es conocida o desconocida y n ≥ 30. Entonces, la distribuci´on muestral de la media muestral X es normal con media µX y 2 , calculadas de acuerdo a los casos mostrados en los teoremas 1.3.1 y 1.3.3. varianza σX Como consecuencia de este teorema, se puede concluir que la variable aleatoria Z = distribuida normalmente con media 0 y varianza 1.
X−µX σX
est´ a
Adem´ as, en los casos en que la varianza sea
desconocida y n ≥ 30, reemplazamos la desviaci´ on poblacional σ por la desviaci´ on muestral s.
A continuaci´on, explicaremos con ejemplos la utilidad de los resultados presentados en el teorema 1.3.4. Ejemplo 1.3.5 Supongamos que el incremento porcentual de los salarios de los funcionarios de todas las corporaciones medianas se distribuye siguiendo una normal con media 12, 2% y desviaci´ on t´ıpica 3, 6%. Se toma una muestra aleatoria de nueve observaciones de esta poblaci´ on de incrementos porcentuales de salario. ¿Cu´ al es la probabilidad de que la media muestral sea mayor del 10%? ´ SOLUCION: Tenemos que µ = 12, 2, σ = 3, 6 y n = 9. Nos piden calcular P (X > 10). Como no conocemos el tama˜ no de la poblaci´ on, supondremos que esta es infinita. Entonces, por el teorema 1.3.3, la media y el error est´ andar de la distribuci´ on muestral de X son µX = µ = 12, 2
y
3, 6 σ σX = √ = √ = 1, 2. n 9
Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
29
Por consiguiente, la probabilidad requerida es 10 − µX 10 − µX X − µX > = P Z> P (X > 10) = P σX σX σX 10 − 12, 2 = P Z> = P (Z > −1, 83) = 1 − P (Z ≤ −1, 83). 1, 2 Ahora, como la poblaci´ on es normal y la varianza poblacional es conocida, entonces, por el teorema 1.3.4, la distribuci´ on muestral de la media muestral es normal o, lo que es equivalente, la variable Z tiene normal est´ andar (comp´ arese con la definici´ on ??). Por tanto, teniendo que Φ es la funci´ on de distribuci´ on normal est´ andar, entonces, de la tabla normal del ap´endice, tenemos que P (X > 10) = 1 − P (Z ≤ −1, 83) = 1 − Φ(−1, 83) = 1 − 0, 0336 = 0, 9664 ≈ 97%. Concluimos, entonces, que la probabilidad de que la media muestral sea mayor que un 10% es aproximadamente del 97%. ◭ Ejemplo 1.3.6 Un fabricante declara que la duraci´ on de las buj´ıas que ´el fabrica sigue una distribuci´ on normal con una media de 36.000 kil´ ometros y una desviaci´ on est´ andar de 4.000 kil´ ometros. Para una muestra aleatoria de dieciseis buj´ıas, se obtuvo una duraci´ on media de 34.500 kil´ ometros. Si la afirmaci´ on del fabricante es correcta, ¿cu´ al es la probabilidad de obtener una media muestral tan peque˜ na como ´esta o menor? ´ SOLUCION: Tenemos que µ = 36.000, σ = 4.000 y n = 16. Nos piden calcular P (X < 34.500). Como no conocemos el tama˜ no de la poblaci´ on, supondremos que esta es infinita. Entonces, por el teorema 1.3.3, la media y el error est´ andar de la distribuci´ on muestral de X son µX = µ = 36.000
y
σ 4.000 = 1.000. σX = √ = √ n 16
Por consiguiente, la probabilidad requerida es 34.500 − µX 34.500 − µX X − µX < = P Z< P (X < 34.500) = P σX σX σX 34.500 − 36.000 = P Z< = P (Z < −1, 5). 1.000 Ahora, como la poblaci´ on es normal y la varianza poblacional es conocida, entonces, por el teorema 1.3.4, la distribuci´ on muestral de la media muestral es normal o, lo que es equivalente, la variable Z tiene normal est´ andar (comp´ arese con la definici´ on ??). Por tanto, teniendo que Φ es la funci´ on de distribuci´ on normal est´ andar, entonces, de la tabla normal del ap´endice, tenemos que P (X < 34.500) = P (Z < −1, 5) = Φ(−1, 5) = 0, 0668 ≈ 6, 68%. El resultado nos indica que, en el caso de que la afirmaci´ on del fabricante fuese correcta, la probabilidad de obtener un valor tan bajo de la media muestral ser´ıa bastante peque˜ na. Esto ´ muestral de la media 1.3. Distribucion
´ Dr. rer. nat. Humberto Llinas
30
introduce ciertas dudas sobre la veracidad de la afirmaci´ on. En el cap´ıtulo 3 discutiremos un m´etodo general para contrastar tales afirmaciones o hip´ otesis sobre la base de la evidencia muestral. ◭ Ejemplo 1.3.7 Los tiempos requeridos para que unos trabajadores terminen cierta labor, se distribuyen normalmente con media de 30 minutos y una desviaci´ on est´ andar de 9 minutos. Si de la planta de trabajadores se toma una muestra aleatoria de 25, encuentre la probabilidad de que la media del tiempo requerido para concluir la tarea en la muestra, est´e entre 28 y 33 minutos. ´ SOLUCION: En este ejemplo, µ = 30, σ = 9 y n = 25. Nos piden calcular P (28 < X < 33). Como no conocemos el tama˜ no de la poblaci´ on, supondremos que esta es infinita. Entonces, por el teorema 1.3.3, la media y el error est´ andar de la distribuci´ on muestral de X son µX = µ = 30
y
9 σ σX = √ = √ = 1, 8. n 25
Por consiguiente, la probabilidad requerida es 33 − µX 28 − µX 28 − 30 28 − 33 P (28 < X < 33) = P 2) = 1 − P (X ≤ 2) = 0, 0033. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
◭
Estad´ıstica inferencial
31
Ejemplo 1.3.9 Una empresa emplea 1.500 personas. La cantidad promedio gastada, durante un a˜ no determinado, en servicios m´edicos personales por empleado fue de 2.575 d´ olares y la desviaci´ on t´ıpica de 525 d´ olares. ¿Cu´ al es la probabilidad de que una muestra aleatoria de 100 empleados (seleccionados sin reemplazo) arroje una media comprendida entre 2.500 y 2.700 d´ olares? ´ SOLUCION: Tenemos que N = 1.500, µ = 2.575, σ = 525 y n = 100. Nos piden calcular P (2.500 ≤ X ≤ 2.700). Teniendo en cuenta que la poblaci´ on dada es finita y que la varianza poblacional se conoce, entonces, por la tabla de la figura 1.8, la media y el error est´ andar de la distribuci´ on muestral de X son r r σ 575 N −n 1.400 y σX = √ = √ ≈ 50, 74. µX = µ = 2.575 N −1 1.499 n 100 Por consiguiente, la probabilidad requerida es 2.500 − µX 2.700 − µX P (2.500 < X < 2.700) = P 1, 753) = 0, 05 = 5%.
◭
Ejemplo 1.3.13 Una muestra aleatoria de seis autos de un determinado modelo consumen las siguientes cantidades en kil´ ometros por litro: 18, 6 18, 4 19, 2 20, 8 19, 4 20, 5. Determine la probabilidad de que el consumo de gasolina medio muestral de los autom´ oviles de este modelo sea menor que 17,6 kil´ ometros por litro, suponiendo que la distribuci´ on de la poblaci´ on es normal con media 17. ´ SOLUCION: Tenemos que µ = 17 P y, en este caso, la muestra escogida es de tama˜ no n = 6. La media de la muestra dada es x = nxi = 116,9 = 19, 4833 y con esto la varianza de esta muestra es 6 2
s =
P
2.2282, 41 − (6)(19, 4833)2 x2i − nx2 = = 0, 96. n−1 6−1 ´ muestral de la media 1.3. Distribucion
´ Dr. rer. nat. Humberto Llinas
36
√ Por consiguiente, la desviaci´ on est´ andar de esta muestra es s = 0, 96 = 0, 98. Debido a que la poblaci´ on es normal con varianza desconocida y a que n < 30, entonces, por el teorema 1.3.11, la distribuci´ on muestral de la media muestral es la t de Student con n − 1 = 5 grados de libertad. Teniendo en cuenta la tabla de la figura 1.9, encontramos que µX = µ = 20, 1
y
0, 98 s σX = √ = √ ≈ 0, 4. n 6
Con esto, el valor de t5 para 17,6 es t5 =
X − µX 17, 6 − 17 = = 1, 5 σX 0, 4
y con ayuda de la tabla t de Student con 15 grados de libertad, entonces, la probabilidad pedida ser´ a P (X ≤ 17, 6) = P (t5 ≤ 1, 5) = 1 − P (t5 > 1, 5) ≈ 1 − 0, 10 = 0, 90.
◭
✍ Ejercicios de la secci´ on 1.3 18. Un determinado centro comercial ha encontrado que sus ingresos tienen un promedio de 12,4 millones de pesos por d´ıa con desviaci´ on est´ andar de 2,9. Para una muestra aleatoria de 40 clientes, encuentre la probabilidad de que el ingreso promedio (a) sea menor que 13 millones de pesos. (b) exceda los 12 millones de pesos. (c) est´e entre 11,5 y 13,1 millones de pesos. (d) exceda los 12,6 millones de pesos. 18. (a) 0,5089 (b) 0,8078 (c) 0,9120 (d) 0,33 19. Una m´ aquina autom´ atica llena bolsas de arroz con un promedio de 16 libras por bolsa y desviaci´ on est´ andar de 0,5 libras. ¿Cu´ al es la probabilidad de que una muestra de 35 bolsas de arroz tenga una media de llenado (a) mayor que 16,1 libras? (b) entre 15,9 y 16,1 libras? 19. (a) 0,1190 (b) 0,7620 20. Cinco mil personas se presentaron a un control de peso. El peso promedio fue 75 kilogramos y la desviaci´ on est´ andar 10. Si de esta poblaci´ on de pesos se toman 300 muestras aleatorias de tama˜ no 40, encuentre: (a) µx y σx . (b) el n´ umero aproximado de medias muestrales que caen entre 73 y 77 kilogramos. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
37
(c) la cantidad aproximada de medias muestrales superiores a 72 kilogramos. 20. (a) 75; 1,58 (b) Aprox. 239 (c) Aprox. 291 21. Si se extraen todas las muestras posibles de tama˜ no 16 de una poblaci´ on normal con media igual a 50 y desviaci´ on est´ andar igual a 5, ¿cu´ al es la probabilidad de que una media muestral X caiga en el intervalo que va de µX − 1, 9σX a µX − 0, 4σX ? Suponga que las medias muestrales se pueden medir con cualquier grado de precisi´ on. 21. 0,3159 22. El n´ umero de clientes que entran diariamente a un prestigioso centro comercial se distribuye normalmente con una media de 220 y una desviaci´ on est´ andar de 50. Si se analiza una muestra de 12 d´ıas para estimar el n´ umero promedio de clientes que entran diariamente a ese centro comercial, encuentre la probabilidad de que la muestra produzca un promedio menor que 300 clientes. 23. Se empacan bolsas de cierto tipo de material con un peso medio de 78,3 kilogramos y una desviaci´ on est´ andar de 5,6 kilogramos. ¿C´ omo cambia la varianza de la media muestral cuando el tama˜ no de la muestra (a) aumenta de 64 a 196, (b) disminuye de 784 a 49? 23. (a) Se reduce de 0,7 a 0,4 (b) Aumenta de 0,2 a 0,8 24. Una m´ aquina empacadora de bolsas de sal se ajusta para que la cantidad de producto que empaca promedie 240 gramos con una desviaci´ on est´ andar de 15 gramos. La m´ aquina se verifica peri´ odicamente tomando una muestra de 40 bolsas de sal y se calcula el contenido promedio. Si la media de las 40 bolsas de sal es un valor dentro del intervalo µX ± 2σX , se piensa que la m´ aquina opera satisfactoriamente; de otra forma, se ajusta. Supongamos que el funcionario de la compa˜ n´ıa encuentra que la media de 40 bolsas de sal es x = 236 mililitros y concluye que la m´ aquina no necesita un ajuste. ¿Fue esta una decisi´ on razonable? 24. S´ı 25. La variable aleatoria X que representa el n´ umero de personas que trabajan en un banco, tiene la siguiente funci´ on de probabilidad f : x f (x)
4 0,2
5 0,4
6 0,3
7 0,1
(a) Encuentre la media µ y la varianza σ 2 de X. 2 de la media X para muestras aleatorias de 36 (b) Encuentre la media µX y la varianza σX bancos.
(c) ¿Cu´ al es la probabilidad de que el n´ umero promedio de personas que trabajan en 36 bancos sea menor que 5,5? 25. (a) 5,3; 0,81 26. Consulte el ejercicio 90 y suponga que la distribuci´ on de la longitud es normal. ´ muestral de la media 1.3. Distribucion
´ Dr. rer. nat. Humberto Llinas
38
(a) Calcule P (11, 99 ≤ X ≤ 12, 01) cuando n = 16. (b) ¿Cu´ al es la probabilidad de que la longitud media muestral exceda 12, 01 cuando n = 25? 26. (a) 0,6826 (b) 0,1056 27. Un curso de estad´ıstica tiene 40 estudiantes. Con base en los a˜ nos de experiencias, el profesor sabe que el tiempo necesario para calificar un primer examen seleccionando al azar, es una variable aleatoria con media de 6 minutos y desviaci´ on est´ andar de 6 minutos. (a) Si los tiempos para calificar son independientes y el profesor comienza a calificar a las 2:50 p.m. y lo hace en forma continua, ¿cu´ al es la probabilidad (aproximada) de que termine de calificar antes del inicio de las noticias de las 7:00 p.m. por TV? (b) Si la secci´ on deportiva empieza a las 7:10, ¿cu´ al es la probabilidad de que se pierda parte de esa secci´ on si espera hasta terminar antes de encender el televisor? 27. (a) 0,6026 (b) 0,2981 28. El gasto mensual en fotocopias por parte de un estudiante tiene un valor medio de 10.000 pesos y una desviaci´ on est´ andar de 500 pesos. (a) ¿Cu´ al es la probabilidad de que el gasto promedio de una muestra aleatoria de 40 estudiantes est´e entre 9.900 y 10.200 pesos? (b) Si el tam˜ no muestral hubiese sido 15, en lugar de 40, ¿podr´ıa calcularse la probabilidad pedida en el inciso (a) a partir de la informaci´ on dada? 29. El tiempo utilizado por una persona seleccionada al azar para llenar un formulario tiene una distribuci´ on normal con una media de 10 minutos y desviaci´ on est´ andar de 2 minutos. Si cinco personas llenan un formulario en un d´ıa y seis en otro, ¿cu´ al es la probabilidad de que la cantidad de tiempo promedio de la muestra diaria sea a lo sumo 11 minutos? 29. 0,7720 30. El tiempo de vida de cierto tipo de bater´ıa est´ a normalmente distribuida con media de 8 horas y desviaci´ on est´ andar de 1 hora. Hay cuatro bater´ıas en una caja. ¿Cu´ al es el valor de duraci´ on, de tal modo que la duraci´ on total de todas las bater´ıas de una caja exceda ese valor en s´ olo 5% de todas las cajas? 31. Se sabe que el di´ ametro de una olla de cierto tipo tiene una media de 50 cm y deviaci´ on est´ andar de 1,2 cm. (a) Si la distribuci´ on es normal, ¿cu´ al es la probabilidad de que el di´ ametro muestral medio para una muestra aleatoria de 9 ollas sea por lo menos de 51 cm? (b) ¿Cu´ al es la probabilidad (aproximada) de que el di´ ametro muestral medio para una muestra aleatoria de 40 ollas sea al menos de 51 cm? 31. (a) 0,0062 (b) 0 32. Suponga que la longitud de un tornillo seleccionando al azar est´ anormalmente distribuida con media 2,65 cm y desviaci´ on est´ andar 0,85 cm. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
39
(a) Si se selecciona una muestra aleatoria de 25 tornillos, ¿cu´ al es la probabilidad de que la longitud promedio del tornillo muestral sea a lo sumo 3 cm? ¿Y entre 2,65 y 3 cm? (b) ¿Qu´etan grande se requerir´ıa un tama˜ no muestral para asegurar que la primera probabilidad de inciso (a) sea por lo menos 0,99? 33. Si la experiencia indica que un 40% de todos los clientes que entran a un determinado local son fumadoras, calcule la probabilidad (aproximada) de que en un grupo de 50 personas: (a) Por lo menos 25 fumen. [Sugerencia: aproximaci´ on normal a la binomial.] (b) Entre 15 y 25 (ambos inclusive) fumen. 33. (a) 0,0968 (b) 0,8882 34. El n´ umero de conductores que viajan entre cierto origen y destino, durante un determinado periodo, tiene una distribuci´ on de Poisson con par´ ametro λ = 50. ¿Cu´ al es la probabilidad aproximada de que: (a) la cantidad de conductores est´e entre 35 y 70? [Sugerencia: cuandoλ es grande,una va de Poisson tiene aproximadamente una distribuci´ on normal.] (b) El n´ umero total de conductores durante una semana de 5 d´ıas est´e entre 225 y 275? 35. Suponga que el tiempo (en horas) empleado por el gerente de una empresa para elaborar un presentar un determinado proyecto es una variable aleatoria X que tiene una distribuci´ on gamma con par´ ametro α = 50 y β = 2. Debido a que α es grande, se puede demostrar que Xtiene aproximadamente una distribuci´ on normal. Utilice este hecho para calcular la probabilidad de que un gerente seleccionado al azar demore a lo sumo 125 horas en la elaboraci´ on del proyecto. 35. 0,9616 36. La duraci´ on de ciertos componentes el´ectricos producidos por una determinada empresa tiene una media de 1.200 horas y una desviaci´ on est´ andar de 400 horas. La poblaci´ on sigue una distribuci´ on normal. Suponga que usted ha comprado 9 bombillas, que pueden ser consideradas como una muestra aleatoria de la producci´ on de la empresa. (a) ¿Cu´ al es la media de la media muestral de la duraci´ on de estos componentes el´ectricos? (b) ¿Cu´ al es la varianza de la media muestral? (c) ¿Cu´ al es el error est´ andar de la media muestral? (d) ¿Cu´ al es la probabilidad de que el tiempo medio de duraci´ on de tres componentes el´ectricos sea de menos de 1.050 horas? 36. (a) 1.200 (b) 17.778 (c) 133,33 (d) 0,1303 37. El precio medio de venta de ciertos autos durante el u ´ltimo a˜ no en cierta ciudad fue de 115.000 d´ olares. La desviaci´ on est´ andar de la poblaci´ on fue de 25.000 d´ olares. Se toma una muestra aleatoria de 100 autos nuevos de esta ciudad. ´ muestral de la media 1.3. Distribucion
´ Dr. rer. nat. Humberto Llinas
40
(a) ¿Cu´ al es la probabilidad de que la media muestral de los precios de venta se menor que 110.000 d´ olares? (b) ¿Cu´ al es la probabilidad de que la media muestral de los precios de venta est´e entre 113.000 d´ olares y 117.000 d´ olares? (c) ¿Cu´ al es la probabilidad de que la media muestral de los precios de venta est´e entre 114.000 y 116.000 d´ olares? (d) Sin hacer los c´ alculos, razonar en cu´ al de los siguientes rangos resulta m´ as probable que se encuentre la media muestral de los precios de venta: 113.000 114.000 115.000 116.000
d´ olares d´ olares d´ olares d´ olares
-
115.000 116.000 117.000 118.000
d´ olares d´ olares d´ olares d´ olares
37. (a) 0,9772 (b) 0,5762 (c) 0,3108 (d) 114.000 d´ olares - 116.000 d´ olares 38. Se ha tomado una muestra aleatoria de 16 profesores de cierta universidad, con el fin de estimar el tiempo medio diario que emplean en desplazarse para ir hasta su trabajo. Supongamos que la distribuci´ on de dichos tiempos en la poblaci´ on sigue una normal con media de 87 minutos y desviaci´ on est´ andar de 22 minutos. (a) ¿Cu´ al es el error est´ andar de la media muestral de los tiempos de desplazamiento? (b) ¿Cu´ al es la probabilidad de que la media muestral sea menor que 100 minutos? (c) ¿Cu´ al es la probabilidad de que la media muestral sea mayor que 80 minutos? (d) ¿Cu´ al es la probabilidad de que la media muestral tome una valor que est´e entre 85 y 95 minutos? (e) Supongamos que se toma una segunda muestra de 15 profesores, independiente de la anterior. Sin hacer los c´ alculos, razonar si las probabilidades calculadas en los apartados (b), (c) y (d) ser´ an mayores, menores o iguales para esta segunda muestra?. Utilizar gr´ aficos para ilustrar las respuestas. 38. (a) 5,5 (b) 0,9909 (c) 0,8980 (d) 0,4329 (e) mayor, mayor, menor 39. La desviaci´ on est´ andar de la renta pagada mensualmente por las personas de cierta ciudad es de 40 d´ olares. Se toma una muestra de 100 personas con el fin de estimar la renta media pagada mensualmente por el total de la poblaci´ on de personas. (a) ¿Cu´ al es el error est´ andar de la media muestral de la cuota mensual? (b) ¿Cu´ al es la probabilidad de que la media muestral exceda a la media poblacional en m´ as de 5 d´ olares? (c) ¿Cu´ al es la probabilidad de que la media muestral est´e m´ as de 4 d´ olares por debajo de la media poblacional? (d) ¿Cu´ al es la probabilidad de que la media muestral difiera de la media poblacional en m´ as de 3 d´ olares? Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
41
39. (a) 4 (b) 0,1056 (c) 0,1587 (d) 0,4532 40. El tiempo que dedican a trabajar las personas de una empresa antes de un d´ıa festivo sigue una distribuci´ on normal con una desviaci´ on est´ andar de 8 horas. Se toma una muestra aleatoria de 4 personas con el fin de estimar el tiempo medio de trabajo para esta poblaci´ on de personas. (a) ¿Cu´ al es la probabilidad de que la media muestral exceda a la media poblacional en m´ as de 2 horas? (b) ¿Cu´ al es la probabilidad de que la media muestral est´e m´ as de 3 horas por debajo de la media poblacional? (c) ¿Cu´ al es la probabilidad de que la media muestral difiera de la media poblacional en m´ as de 4 horas? (d) Supongamos que se toma una segunda muestra de 10 personas, independiente de la anterior. Sin hacer los c´ alculos, razonar si las probabilidades calculadas en los apartados (a), (b) y (c) ser´ an mayores, menores o iguales para esta segunda muestra?. 41. Una industria produce bolsas de az´ ucar cuyos pesos siguen una distribuci´ on normal con una desviaci´ on est´ andar de 1,6 gramos. Se selecciona un muestra de 100 lotes a fin de estimar la media poblacional del peso de las bolsas de az´ ucar. (a) 0,05 es la probabilidad de que la media muestral del peso exceda a la media poblacional, ¿en qu´e cantidad? (b) 0,1 es la probabilidad de que la media muestral del peso est´e por debajo de la media poblacional, ¿en qu´e cantidad? (c) 0,15 es la probabilidad de que la media muestral del peso difiera de la media poblacional, ¿en qu´e cantidad? 41. (a) 0,26 (b) 0,20 (c) 0,23 42. En una univesidad, 250 estudiantes se han matriculado para un curso de Estad´ıstica Inferencial. Cada uno de los integrantes de una muestra aleatoria de 50 estudiantes es interrogado con el fin de estimar la cantidad de tiempo que gasta semanalmente en resolver los problemas de estad´ıstica. Supongamos que la desviaci´ on t´ıpica de la poblaci´ on es de 30 minutos. (a) ¿Cu´ al es la probabilidad de que la media muestral exceda a la media poblacional en m´ as de 2,5 minutos? (b) ¿Cu´ al es la probabilidad de que la media muestral est´e m´ as de 5 minutos por debajo de la media poblacional? (c) ¿Cu´ al es la probabilidad de que la media muestral difiera de la media poblacional en m´ as de 10 minutos? 42. (a) 0,2546 (b) 0,0951 (c) 0,0086 ´ muestral de la media 1.3. Distribucion
´ Dr. rer. nat. Humberto Llinas
42
1.4
Distribuci´ on muestral de una proporci´ on muestral
Proporciones muestrales Como ya se dijo en la secci´on ??, si se repite n veces un experimento que tiene probabilidad de ´exito p, entonces, la variable aleatoria X, que representa al n´ umero total de ´exitos en las n repeticiones, sigue una distribuci´on binomial. Un problema bastante com´ um consiste en que el par´ametro p sea desconocido. Por ejemplo, podemos estar interesados en determinar cu´al es la proporci´on del electorado que tiene intenci´on de votar a un determinado candidato, o la proporci´on de lectores de revistas que podr´ıan estar en el mercado de un producto espec´ıfico. En situaciones de este tipo, ser´a natural basar nuestra inferencia en la proporci´on de ´exitos en una muestra tomada de la poblaci´on que nos interese.
Definici´ on 1.4.1 Sea X el n´ umero de ´exitos en una muestra binomial de n observaciones, donde la probabilidad de ´exito es p. Entonces, la proporci´on de ´exitos en la muestra p = Xn ´ n muestral. recibe el nombre de proporcio En la mayor´ıa de las aplicaciones, el par´ ametro p ser´ a la proporci´ on de individuos de una gran poblaci´ on que posean la caracter´ıstica de inter´es.
La media y la varianza de proporciones muestrales La media µp y la varianza σp2 de la distribuci´on muestral de la proporci´on muestral pueden deducirse f´acilmente a partir de la media y la varianza del n´ umero de ´exitos que, como vimos en el teorema ??, vienen dadas por E(X) = np
y
V (X) = np(1 − p).
De aqu´ı y con ayuda de la parte (b) de los teoremas ?? y ??, obtenemos que X 1 µp = E(p) = E = E(X) = p, n n X 1 p(1 − p) σp2 = V (p) = V . = 2 V (X) = n n n Es decir, la media de la proporci´on muestral es la proporci´on p de ´exitos en la poblaci´on y su varianza es p(1 − p)/n. De nuevo, la desviaci´on t´ıpica de la proporci´on muestral, que es la ra´ız cuadrada de su ´ ndar. varianza, recibe el nombre de error esta Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
43
Si el n´ umero N de individuos en la poblaci´on no es demasiado grande, comparado con el n´ umero de individuos de la muestra, en la expresi´on de la varianza de la proporci´on ´ n por poblacio ´ n finita. La varianza ser´a enmuestral ser´a necesaria una correccio tonces N −n p(1 − p) 2 σp = . N −1 n Todo esto se puede resumir como se muestra a continuaci´on en el siguiente
Teorema 1.4.2 Sea p la proporci´on de ´exitos en una muestra aleatoria de n observaciones. Sea p la proporci´on de ´exitos en la poblaci´ on. Entonces, la distribuci´ on muestral de la 2 proporci´on muestral p tiene media µp = p y varianza σp dada por p(1−p) , si la poblaci´ on es infinita, n p(1−p) σp2 = N −n , si la poblaci´ on es finita, de tama˜ no N y si N N −1 n no es demasiado grande en comparaci´ on con n.
Forma funcional de la distribuci´ on de proporciones muestrales En el teorema de la aproximaci´on de la distribuci´on binomial a la normal (v´ease los teoremas ?? y ??) ya se dijo que, bajo ciertas condiciones especiales, la distribuci´on del n´ umero de ´exitos es aproximadamente normal. Esto mismo es tambi´en cierto para la proporci´on de ´exitos, como lo muestra el siguiente teorema de De Moivre-Laplace.
Teorema 1.4.3 (Teorema de De Moivre-Laplace) Sea p la proporci´on de ´exitos en una muestra aleatoria de n observaciones. Si se cumple alguna de las dos condiciones siguientes: • n ≥ 30 o • np ≥ 5 y n(1 − p) ≥ 5, entonces, la distribuci´on muestral de la proporci´on muestral p se puede aproximar con una distribuci´on normal. Este teorema implica que la variable aleatoria Z =
p−µp σp
tiene distribuci´ on normal.
varianza σp se calculan de acuerdo al teorema 1.4.2.
´ muestral de una proporcion ´ muestral 1.4. Distribucion
Aqu´ı, µp y
´ Dr. rer. nat. Humberto Llinas
44
N´otese que para p fijo, el error est´andar de la proporci´on muestral disminuye a medida que crece el tama˜ no muestral. Esto implica que, al aumentar el tama˜ no muestral, la distribuci´on de p se concentra m´as alrededor de su media, como puede observarse en la figura 1.5. Esto a su vez supone que, para cualquier proporci´on poblacional particular, la probabilidad de que la proporci´on muestral y la poblacional difieran en m´as de una cantidad fija disminuye a medida que crece el tama˜ no muestral. En otras palabras, si tomamos una muestra mayor de la poblaci´on, nuestra inferencia acerca de la proporci´on de individuos que poseen alguna caracter´ıstica particular se har´a m´as firme.
Figura 1.5: Funci´on de densidad de probabilidad de las proporciones muestrales en muestras de 100 y 400 observaciones cuando la proporci´on poblacional es 0,8. Cuando el tama˜ no muestral es grande, la aproximaci´on normal de la distribuci´on binomial proporciona un procedimiento muy adecuado para calcular la probabilidad de que la proporci´on muestral est´e dentro de un determinado rango. Vamos a ilustrar esto con los ejemplos siguientes. Ejemplo 1.4.4 Se toma una muestra de 250 casas de una poblaci´ on de edificios antiguos para estimar la proporci´ on de casas de este tipo cuya instalaci´ on el´ectrica resulta insegura. Supongamos que, de hecho, el 30% de todos los edificios de esta poblaci´ on tienen una instalaci´ on insegura. Hallar la probabilidad de que la proporci´ on de edificios de la muestra con instalaci´ on insegura est´e entre 0,25 y 0,35. ´ SOLUCION: Tenemos que p = 0, 30 y n = 250. Por consiguiente, teniendo en cuenta el teorema 1.4.2, tenemos que r r p(1 − p) (0, 30)(0, 70) = = 0, 029. y σp = µp = p = 0, 30 n 250 Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
45
Por consiguiente, la probabilidad requerida es 0, 35 − µp 0, 25 − µp P (0, 25 < p < 0, 35) = P X B ) o, que es lo mismo, P (X A − X B > 0). Hagamos D = X A − X B . Por la tabla 1.10, µD = −0, 27
y
√ σD = sd / n = 0, 3413.
Entonces, por el teorema 1.6.1 y teniendo en cuenta la tabla t de Student (con n − 1 = 7 grados de libertad) encontramos que 0 − µD P (X A − X B > 0) = P (D > 0) = P t > σD 0 − (−0, 807) = P (t > 2, 3645) ≈ 0, 025. = P 0, 3413 Por consiguiente, la probabilidad de que el consumo promedio de gasolina del auto A sea mayor que el del auto B es aproximadamente del 2,5%. ◭
1.6.2
Muestras independientes
Consideremos dos poblaciones con medias µ1 , µ2 y varianzas σ1 y σ2 , respectivamente, y suponagmos que se seleccionan dos muestra aleatorias independientes de tama˜ nos n1 , n2 , 2 2 con medias X 1 , X 2 y varianzas s1 y s2 , respectivamente. El objetivo tambi´en es determinar la distribuci´on muestral de X 1 − X 2 . Para ello distinguiremos los siguientes casos: • Las varianzas poblacionales son conocidas o desconocidas, pero las muestras son grandes. • Las varianzas poblacionales son desconocidas, pero iguales, y las muestras son peque˜ nas. • Las varianzas poblacionales son desconocidas, pero diferentes, y las muestras son peque˜ nas.
Primer caso: varianzas poblacionales conocidas o desconocidas y muestras grandes Cuando las varianzas poblacionales σ12 y σ22 son conocidas, la forma funcional de la distribuci´on muestral de X 1 −X 2 depende de las poblaciones de donde se extraen las muestras. Si ambas poblaciones est´an distribuidas normalmente, la distribuci´on muestral de x1 − x2 ser´a normal. Si una (o ambas) poblaci´on original no est´a distribuida normalmente, la distribuci´on muestral de X 1 − X 2 estar´a distribuida m´as o menos normalmente si n1 y n2 son ´ muestral de diferencia de medias 1.6. Distribucion
´ Dr. rer. nat. Humberto Llinas
56
grandes. Ahora, la variable aleatoria X 1 − X 2 tiene media E(X 1 − X 2 ) = E(X 1 ) − E(X 2 ) = µ1 − µ2 y, dado que las muestras son independientes, varianza V (X 1 − X 2 ) = V (X 1 ) + V (X 2 ) =
σ12 σ2 + 1. n1 n1
Adem´as, se puede probar que si las dos poblaciones son normales, entonces, X 1 − X 2 tambi´en es normal. Por tanto, la variable aleatoria Z=
(X 1 − X 2 ) − (µ1 − µ2 ) q 2 σ1 σ2 + n22 n1
tiene una distribuci´on normal est´andar. Todas estas caracter´ısticas importantes de las distribuci´on muestral de la diferencia entre dos medias muestrales se encuentran resumidas en el siguiente
Teorema 1.6.3 Sean x1 y x2 las medias de muestras aleatorias independientes de tama˜ nos 2 2 n1 y n2 de poblaciones con medias µ1 , µ2 y varianzas σ1 , σ2 , respectivamente. Supongamos que se cumple alguna de las siguientes condiciones: (a) Ambas poblaciones son normales y ambas varianzas poblaciones σ12 y σ22 son conocidas; (b) Ambas poblaciones son desconocidas o no normales, ambas varianzas poblacionales σ12 y σ22 son conocidas o desconocidas y n1 ≥ 30, n2 ≥ 30. Entonces, la distribuci´on muestral de la diferencia entre dos medias muestrales estar´a σ2 σ2 distribuida normalmente y tendr´a una media igual a µ1 − µ2 y varianza n11 + n22 . Treinta observaciones en cada muestra son, en general, suficientes para realizar esta aproximaci´ on.
Ejemplo 1.6.4 En un estudio para comparar los pesos promedios de ni˜ nos y ni˜ nas de sexto grado en una escuela de instrucci´ on media, se usar´ a una muestra aleatoria de 20 ni˜ nos y otra igual de 25 ni˜ nas. Se sabe que, tanto para ni˜ nos y ni˜ nas, los pesos siguen una distribuci´ on normal. El promedio de los pesos de todos lo ni˜ nos de sexto grado de esa escuela es de 100 libras y su desviaci´ on est´ andar es de 14,142, mientras que el promedio de los pesos de todas las ni˜ nas del sexto grado es de 85 libras y su desviaci´ on est´ andar es de 12,247. Encuentre la probabilidad de que el promedio de los pesos de los 20 ni˜ nos sea al menos 20 libras m´as grande que el de los de las 25 ni˜ nas.
Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
57
´ SOLUCION: Supongamos que X 1 representa el promedio de los pesos de 20 ni˜ nos y X 2 , el promedio de los pesos de una muestra de 25 ni˜ nas. Nos piden calcular P (X 1 −X 2 > 20). Como las dos poblaciones en cuesti´ on son normales y con varianzas conocidas, entonces, por el teorema 1.6.3, tenemos • La distribuci´ on muestral de X 1 − X 2 es aproximadamente normal. • La media de la distribuci´ on muestral de X 1 − X 2 es igual a µ1 − µ2 = 100 − 85 = 15. • La varianza de la distribuci´ on muestral de X 1 − X 2 es σ12 σ2 (14, 142)2 (12, 247)2 + 2 = + = 16. n1 n2 20 25 Entonces, para determinar P (X 1 − X 2 ≥ 20), encontramos el valor Z para una diferencia de 20 √ libras. O sea Z = 20−15 = 1, 25. En consecuencia, 16 P (X 1 − X 2 > 20) = P (Z ≥ 1, 25) = 1 − P (Z ≤ 1, 25) = 1 − 0, 8944 = 0, 1056. Por tanto, la probabilidad de que el promedio de los pesos de la muestra de ni˜ nos sea al menos 20 libras m´ as grande que el de la muestra de las ni˜ nas es 0,1056. ◭ Ejemplo 1.6.5 Se identificaron dos poblaciones de alumnos de u ´ltimo a˜ no de un colegio. La variable de inter´es en la investigaci´ on consist´ıa en los puntajes obtenidos en una prueba de rendimiento en estad´ıstica que hicieron los estudiantes de las dos poblaciones. Los investigadores supon´ıan que los puntajes de las dos poblaciones estaban distribuidos normalmente con las siguientes medias y no n1 = 10 se saca varianzas: µ1 = 50, σ12 = 40, µ2 = 40, σ22 = 60. Una muestra aleatoria de tama˜ de la poblaci´ on 1 y una de tama˜ no n2 = 12 de poblaci´ on 2. ¿Cu´ al es la probabilidad de que la diferencia entre las medias muestrales est´e entre 5 y 15? ´ SOLUCION: Observe que no se conoce la forma funcional de las poblaciones originales. Como las varianzas poblacionales son conocidas y las poblaciones son normales, entonces, por el teorema 1.6.3(b), la distribuci´ on muestral de X 1 − X 2 es aproximadamente normal y tiene una media igual a σ2 σ2 40 60 µ1 − µ2 = 50 − 40 = 10 y varianza n11 + n22 = 10 + 12 = 9. Para encontrar la probabilidad deseada, on: transformamos los valores de X 1 − X 2 en los valores de Z, como se muestra a continuaci´ Z =
5 − 10 √ = −1, 67, 9
Z =
15 − 10 √ = 1, 67. 9
Por consiguiente, teniendo en cuenta la tabla del ap´endice, obtenemos P (5 ≤ X 1 − X 2 ≤ 15) = P (−1, 67 ≤ Z ≤ 1, 67) = 2(0, 4525) = 0, 9050. De esta manera, la probabilidad de que la diferencia entre las medias muestrales est´e entre 5 y 15 es aproximadamente del 90,5%. ◭ ´ muestral de diferencia de medias 1.6. Distribucion
´ Dr. rer. nat. Humberto Llinas
58
Ejemplo 1.6.6 Suponga que dos drogas A y B, de las que se dice que reducen el tiempo de respuesta de las ratas a determinado est´ımulo, se est´ an comparando en un experimento de laboratorio. El experimentador supone que las respectivas poblaciones de los tiempos de respuesta al est´ımulo est´ an distribuidos normalmente y tienen varianzas iguales. Se administra la droga A a 12 ratas y la droga B a 13. Cuando se lleva a cabo el experimento, la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga A es 30,45 milisegundos con una desviaci´ on t´ıpica de 5 milisegundos. Los datos correspondientes a la droga B son 24,9 y 6 milisegundos. ¿Cu´ al es la probabilidad de que la diferencia entre la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga A y la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga B sea menor o igual a la que se observ´ o en el experimento? Suponga que no hay diferencia alguna entre las dos drogas con respecto a la reducci´ on promedio en tiempos de respuestas y que las drogas son igualmente efectivas. ´ SOLUCION: Sean X A y X B la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga A y la droga B, respectivamente. Nos piden calcular P (X A − X B ≤ 30, 45 − 24, 9 = 5, 55). Como las dos poblaciones en cuesti´ on son normales y los tama˜ nos de las muestras son grandes (observe que los tama˜ nos de ambas muestras son mayores o iguales que 30), debemos aplicar el teorema 1.6.3: • La distribuci´ on muestral de X A − X B es aproximadamente normal. • Aqu´ı, tambi´en, la media de la distribuci´ on muestral de X A − X B es igual a µA − µB = 0. • La varianza de la distribuci´ on muestral de X A − X B es s2 s2A 52 62 + B = + = 1, 73. nA nB 30 40 En este caso, el valor Z est´ a dado por Z =
(xA − xB ) − (µA − µB ) 5, 55 − 0 q 2 = ≈ 1, 31. 2 sA sB 2, 20 nA + nB
Por consiguiente, P (X A − X B ≤ 5, 55) = P (Z ≤ 1, 31) = ≈ 0, 9049. Es decir, la probabilidad de que la diferencia entre la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga A y la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga B sea menor o igual a la que se observ´ o en el experimento es aproximadamente del 90,5%. ◭ Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
59
Segundo caso: varianzas poblacionales desconocidas, iguales y muestras peque˜ nas. Considere el caso en que se desconocen σ12 y σ22 , pero iguales, digamos, σ12 = σ22 = σ 2 . Entonces, la variable aleatoria X 1 − X 2 tiene media µ1 − µ2 y varianza V (X 1 − X 2 ) = V (X 1 ) + V (X 2 ) =
σ2 σ2 + . n1 n2
Adem´as, se puede probar que si las dos poblaciones son normales, entonces, X 1 − X 2 tambi´en es normal. Por tanto, la variable aleatoria
Z=
(X 1 − X 2 ) − (µ1 − µ2 ) q 2 σ2 + nσ2 n1
(1.1)
tiene una distribuci´on normal est´andar. Sin embargo, este u ´ltimo resultado no puede ser utilizado ya que la exprsi´on anterior dada para Z depende de la varianza poblacional desconocida. Debido a que esta varianza es la misma para ambas poblaciones, pueden emplearse los dos conjuntos de informaci´on muestral para estimarla. El estimador es s2 =
(n1 − 1)s21 + (n2 − 1)s22 , n1 + n 2 − 2
donde s21 y s22 son las dos varianzas muestrales. Obs´ervese que la cantidad s2 , que se denomina varianza muestral combinada, es el promedio ponderado de las dos varianzas muestrales que se han obtenido ponderando cada una por los respectivos tama˜ nos muestrales menos 1. Reemplazando, en la ecuaci´on 1.1, la varianza desconocida σ 2 por su estimador s2 , obtenemos la variable aleatoria t=
(x1 − x2 ) − (µ1 − µ2 ) q 2 . s1 s22 + n2 n1
Puede demostrarse que esta variable aleatoria sigue una distribuci´on t de Student con n1 + n2 − 2 grados de libertad. En el siguiente teorema resumimos los resultados hasta aqu´ı expuesto y que se refieren al segundo caso.
´ muestral de diferencia de medias 1.6. Distribucion
´ Dr. rer. nat. Humberto Llinas
60
Teorema 1.6.7 Si σ12 y σ22 son iguales y desconocidas, entonces, la distribuci´ on muestral s2 s2 de la media tiene media µ1 − µ2 y varianza estimada igual a n1 + n1 , siendo s2 es la varianza muestral combinada. Adem´ as, si las dos poblaciones en cuesti´ on son normales y los tama˜ nos de las muestras son peque˜ nos (es suficiente considerar que sean estrictamente menores que 30), entonces, la variable aleatoria t=
(x1 − x2 ) − (µ1 − µ2 ) q 2 s2 + ns 2 n1
est´ a distribuida seg´ un la distribuci´on t de Student con n1 + n2 − 2 grados de libertad. Ejemplo 1.6.8 Repita el ejemplo 1.6.6, pero ahora suponiendo que las poblaciones no tienen distribuci´ on normal y que los tama˜ nos muestrales son menores que 30, digamos nA = 12 y nB = 13. ´ SOLUCION: Como las dos poblaciones en cuesti´ on son normales y los tama˜ nos de las muestras son peque˜ nas (obs´ervese que los tama˜ nos muestrales son estrictamente menores que 30), entonces, debemos aplicar el teorema 1.6.7: • La distribuci´ on muestral de X A −X B es aproximadamente la t de Student con nA +nB −2 = 12 + 13 − 2 = 23 grados de libertad. • Debido a que no hay diferencia alguna entre las dos drogas con respecto a la reducci´ on promedio en tiempos de respuestas y que las drogas son igualmente efectivas, entonces, µA = µB . Por consiguiente, la media de la distribuci´ on muestral de X A − X B es igual a µA − µB = 0. • Debido a que la varianza muestral combinada s2 est´ a dada por s2 =
(nA − 1)s2A + (nB − 1)s2B (12 − 1)52 + (13 − 1)62 = = 30, 74, nA + nB − 2 12 + 13 − 2
entonces, la varianza de la distribuci´ on muestral de X A − X B es s2 30, 74 30, 74 s2 + = + = 4, 92. nA nB 12 13 Con base en los datos, el valor t est´ a dado por t =
(x1 − x2 ) − (µ1 − µ2 ) 5, 55 − 0 q = = 2, 5. 2, 22 s2 s2 + n1 n2
Por consiguiente, P (X A − X B ≤ 5, 55) = P (t ≤ 2, 5) = 0, 01. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
61
Es decir, la probabilidad de que la diferencia entre la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga A y la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga B sea menor o igual a la que se observ´ o en el experimento es del 1%. ◭
Tercer caso: varianzas poblacionales desconocidas, diferentes y muestras peque˜ nas. En este situaci´on supondremos que las poblaciones originales est´an distribuidas normalmente, que las varianzas poblacionales son desconocidas y diferentes y que las muestras son peque˜ nas. En este caso, se utilizar´an las varianzas muestrales s21 y s22 en vez de las varianzas poblacionales desconocidas σ12 y σ22 , respectivamente. Haciendo un an´alisis similar a las situaciones anteriores encontramos los siguientes resultados que se presentan a continuaci´on.
Teorema 1.6.9 Si σ12 y σ22 son diferentes y desconocidas, entonces, la distribuci´on muestral s2 s2 de la media tiene media µ1 − µ2 y varianza estimada igual a n11 + n21 . Adem´as, si las dos poblaciones en cuesti´on son normales y los tama˜ nos de las muestras son peque˜ nos (es suficiente considerar que sean estrictamente menores que 30), entonces, la variable aleatoria t=
(x1 − x2 ) − (µ1 − µ2 ) q 2 s1 s2 + n22 n1
est´ a distribuida seg´ un la distribuci´ on t de Student con 2 2 s22 s1 + n2 n1 ν = (s2 /n )2 (s2 /n )2 1 1 + n2 2 −12 n1 −1
grados de libertad. Dado que ν rara vez es un entero, se redondea al entero m´as cercano.
Ejemplo 1.6.10 Repita el ejemplo 1.6.6, pero ahora suponiendo que las poblaciones no tienen distribuci´ on normal, que los tama˜ nos muestrales son menores que 30 (digamos nA = 12 y nB = 13) y que las varianzas poblacionales son diferentes. ´ SOLUCION: En este caso, debemos aplicar el teorema 1.6.9: • La distribuci´ on muestral de X A − X B es aproximadamente la t de Student con ν =
2
s2A nA
+
s2B nB
(s2A /nA )2 nA −1
+
(s2B /nB )2 nB −1
=
2
52 12
+
62 13
(52 /12)2 12−1
+
(62 /13)2 13−1
= 22, 78 ≈ 23.
´ muestral de diferencia de medias 1.6. Distribucion
´ Dr. rer. nat. Humberto Llinas
62
grados de libertad. • De nuevo, la media de la distribuci´ on muestral de X A − X B es igual a µA − µB = 0. • La varianza de la distribuci´ on muestral de X A − X B es s2A s2 62 52 + = 4, 85. + B = nA nB 12 13 En este caso, el valor t est´ a dado por t =
(xA − xB ) − (µA − µB ) 5, 55 − 0 q 2 = ≈ 2, 52. 2 sB sA 2, 20 nA + nB
Por consiguiente, P (X A − X B ≤ 5, 55) = P (t ≤ 2, 52) ≈ 0, 01. Es decir, la probabilidad de que la diferencia entre la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga A y la reducci´ on promedio de tiempo de respuesta al est´ımulo por parte de las ratas que est´ an recibiendo la droga B sea menor o igual a la que se observ´ o en el experimento es aproximadamente del 1%. ◭
✍ Ejercicios de la secci´ on 1.6 62. La distribuci´ on de pesos de los animales de cierto pueblo asi´ atico tiene un peso medio de 72 kilogramos y una desviaci´ on est´ andar de 10 kilogramos, mientras que la distribuci´ on de pesos de los animales de cierto pueblo africano tiene un peso medio de 28 kilogramos con una desviaci´ on est´ andar de 5 kilogramos. Suponga que las medias muestrales se pueden medir con cualquier grado de precisi´ on. Encuentre la probabilidad de que la media muestral para una muestra aleatoria de pesos de 64 animales del pueblo asi´ atico exceda la media muestral para una muestra aleatoria de alturas de 100 animales del pueblo africano por cuando mucho 44,2 kilogramos. 63. Se llevan a cabo dos experimentos independientes en los que se comparan dos tipos diferentes de impresoras. Se imprimen 18 hojas con el tipo A y en cada uno se registra el tiempo de secado en minutos. Lo mismo se hace con el tipo B. Se sabe que las desviaciones est´ andar de la poblaci´ on son ambas 1. Suponga que el tiempo medio de secado es igual para los dos tipos de impresoras, encuentre P (X A − X B > 1), donde X A y X B son los tiempos promedios de secado para muestras de tama˜ no nA = nB = 18. 63. 0,0013 64. Las bater´ıas del fabricante A tienen una duraci´ on media de 6,5 a˜ nos y una desviaci´ on est´ andar de 0,9 a˜ nos, mientras que las del fabricante B tienen una duraci´ on media de 6,0 a˜ nos y una desviaci´ on est´ andar de 0,8 a˜ nos. ¿Cu´ al es la probabilidad de que una muestra aleatoria de 36 bater´ıas del fabricante A tengan una duraci´ on media que sea al menos de un a˜ no m´as que la duraci´ on media de una muestra de 49 bater´ıas del fabricante B? Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
63
64. 0,0040 65. Suponga que cuando el PH de cierto compuesto qu´ımico es de 5, el PH medido por un estudiante de qu´ımica seleccionado al azar, es una variable aleatoria con media 5 y desviaci´ on est´ andar 0,2. Un lote grande del compuesto se subdivide y se da una muestra a cada estudiante de un laboratorio vespertino. Sea X = P H promedio, como lo determinaron los estudiantes matutinos y Y = P H promedio, como lo determinaron los estudiantes vespertinos. (a) Si el PH es una variable normal y hay 25 estudiantes en cada laboratorio, calcule P (−0, 1 ≤ X − Y ≤ 0, 1). (b) Si hay 36 estudiantes en cada laboratorio, pero las determinaciones del PH no se suponen normales, calcule (aproximadamente) P (−0, 1 ≤ X − Y ≤ 0, 1). 65. (a) 0,9232 (b) 0,9660 66. Dos trenes se desplazan en la misma direcci´ on en carriles paralelos adyacentes. En el tiempo t = 0, el primer tren est´ a 10 km adelante del segundo. Suponga que la velocidad del primer tren (km/h) est´ a normalmente distribuida con media de 520 y desviaci´ on est´ andar de 10, y ´ la velocidad del segundo tren esttambi´en normalmente distribuida con media y desviaci´ on est´ andar de 500 y 10, respectivamente. (a) ¿‘Cu´ al es la probabilidad de que despu´es de 2 horas de recorrido el segundo tren no haya alcanzado al primero? (b) Determine la probabilidad de que los trenes est´en separados a lo sumo 10 km despu´es de 2 horas. 67. Suponga que tiempo de vida esperado de la bater´ıa del tipo A es 105 horas y la desviaci´ on est´ andar es 8 horas. Para la bater´ıa del tipo B, suponga que el tiempo de vida esperado y desviaci´ on est´ andar son 100 6 horas, respectivamente. Sea X = “tiempo de vida promedio de una muestra aleatoria de 40 bater´ıas de tipo A y sea Y = “tiempo de vida promedio de una muestra aleatoria de 35 bater´ıas de tipo B. (a) ¿‘Cu´ al es la distribuci´ on aproximada de X y ¿‘deY ? (b) ¿‘Cu´ al es la distribuci´ on aproximada de X − Y ? Justifique su respuesta. (c) Calcule (aproximadamente)P (−1 ≤ X) − Y ≤ 1. (d) Calcule P (X − Y ≥ 10). Si en realidad se observ´ o X − Y ≥ 10, ¿durar´ıa de que µ1 − µ2 = 5? 67. (a) Aproximadamente normal con media 105, desviaci´ on 1,2649; Aproximadamente normal con media 100, desviaci´ on 1,0142 (b) Aproximadamente normal con media 5 y desviaci´ on 1,6213 (c) 0,0068 (d) 0,0010; s´ı 68. Para fines de investigaci´ on, en un refrigerador A se guardaron 50 c´elulas vegetales de cierto tipo y otros 50 en un refrigerador B. Sea X la variable aleatoria que representa el n´ umero de c´elulas guardados en el refrigerador A que sobreviven 1 a˜ no y Y la variable aleatoria que ´ muestral de diferencia de medias 1.6. Distribucion
´ Dr. rer. nat. Humberto Llinas
64
representa el n´ umero de c´elulas guardados en el refrigerador B que sobreviven 1 a˜ no. Si la probabilidad de que una c´elula guardada en el refrigerador A sobreviva 1 a˜ no es 0,7 y la probabilidad de que sobreviva 1 a˜ no en el refrigerador B es 0.6, calcule una aproximaci´ on a P (−5 6 X − Y 6 5).
1.7
1.7.1
Distribuci´ on muestral de la varianza y raz´ on de varianzas muestrales Distribuci´ on muestral de la varianza muestral
La varianza muestral y su distribuci´ on muestral En la secci´on 1.3, consideramos el problema de hacer inferencias sobre la media poblacional bas´andonos en la informaci´on muestral. Ahora, vamos a centrar nuestra atenci´on en la varianza poblacional. Supongamos que se extrae una muestra de n observaciones de una poblaci´on con media desconocida µ y varianza desconocida σ 2 . Representaremos las observaciones muestrales por X1 , X2 , . . . , Xn . La varianza poblacional es la esperanza σ 2 = E[(X − µ)2 ] y, por tanto, una cantidad en la que evidentemente deber´ıamos fijarnos ser´ıa en la media de los (Xi − µ)2 para los n individuos de la muestra. Sin embargo, la media poblacional µ es desconocida, por lo que en la pr´actica esta cantidad no podr´a ser calculada. Es natural, entonces, sustituir la desconocida µ por la media muestral X, y considerar la media de los (Xi − X)2 . De hecho, como ya se dijo en el cap´ıtulo ??, la varianza muestral se define como se muestra a continuaci´on:
Definici´ on 1.7.1 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´ on. La cantidad n
s2 =
1 X (Xi − X)2 n − 1 i=1
´n recibe el nombre de varianza muestral. Su ra´ız cuadrada, s, se denomina desviacio t´ıpica muestral. Obs´ervese que, en nuestra definici´on de varianza muestral, hemos usado como divisor (n−1) en lugar de n, lo cual puede resultar sorprendente. La raz´on para esta formulaci´on es que Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
65
puede probarse que, si se define la varianza muestral de este modo, entonces, la media de su distribuci´on muestral es la verdadera varianza poblacional, es decir, E(s2 ) = σ 2 . La conclusi´on de que el valor esperado de la varianza muestral es la varianza poblacional, es general. Si embargo, para poder caracterizar completamente su distribuci´on muestral, necesitaremos saber m´as acerca de la distribuci´on de la poblaci´on. En muchas aplicaciones pr´acticas, el supuesto de que la distribuci´on de la poblaci´on es normal resulta razonable. En tal caso, puede probarse que la variable aleatoria (n − 1)s σ2
2
=
n P
i=1
(Xi − X)2 σ2
sigue una distribuci´on conocida con el nombre de distribuci´ on χ2 con n − 1 grados de libertad 6 . El s´ımbolo χ2 se lee “ji-cuadrada” o “chi-cuadrada”.
Teorema 1.7.2 Si s2 es la varianza de una muestra aleatoria de tama˜ no n de una poblaci´on 2 distribuida normalmente con media µ y varianza σ , entonces, la distribuci´ on muestral de (n−1)s2 2 es una distribuci´on χ con n − 1 grados de libertad. σ2
La distribuci´ on χ2 y sus propiedades Algunas propiedades de la distribuci´on χ2 son las siguientes: 1. Esta distribuci´on s´olo est´a definida para valores no negativos de la variable aleatoria, lo cual resulta adecuado en este contexto, ya que la varianza muestral no puede ser negativa. 2. Un miembro concreto de la familia χ2 viene caracterizado por un u ´nico par´ametro, al que llamaremos grados de libertad, para el que habitualmente se usa el s´ımbolo ν. Si una variable aleatoria sigue una distribuci´on χ2 con ν grados de libertad, se representar´a por χ2 (ν). 3. La forma de una distribuci´on χ2 depende del grado de libertad ν. En consecuencia, hay un n´ umero infinito de distribuciones χ2 . 4. El ´area total limitada por la curva de una distribuci´on χ2 y los ejes es igual a 1. 6
La distribuci´on χ2 con n − 1 grados de libertad es la distribuci´on de la suma de los cuadrados de n variables aleatorias normales est´andar independientes. ´ muestral de la varianza y razon ´ de varianzas muestrales 1.7. Distribucion
´ Dr. rer. nat. Humberto Llinas
66
5. Las distribuciones χ2 no son sim´etricas. Tienen colas estrechas que se extienden a la derecha; esto es, est´an sesgadas a la derecha. 6. La media y la varianza de esta distribuci´on son, respectivemente, el n´ umero de grados de libertad y el doble del n´ umero de grados de libertad, es decir, E χ2 (ν) = ν, V χ2 (ν) = 2ν.
La distribuci´on χ2 es una de las distribuciones continuas m´as usadas en estad´ıstica aplicada. Para facilitar su empleo, existen tablas que permiten hallar las ´areas, que son probabilidades, asociadas a intervalos limitados por valores determinados de χ2 . En especial, la probabilidad de que una muestra aleatoria produzca un valor χ2 m´as grande que cualquier alg´ un valor especificado es igual al ´area bajo la curva a la derecha de este valor. Es cuesti´on de que χ2α represente el valor χ2 arriba del cual se encuentra un ´area de α. Esto se muestra en la regi´on sombreada de la figura 1.6.
Figura 1.6: Distribuci´on χ2 en la que se muestra el ´area α que queda a la derecha del valor χ2α La tabla del ap´endice da los valores de χ2α para varios valores de α y ν. Las ´areas, α, son los encabezados de las columnas; los grados de libertad, ν, se dan en la columna izquierda; y el cuerpo de la tabla son los valores de χ2 . De aqu´ı que el valor de χ2 con 7 grados de libertad, teniendo un ´area de 0,05 a la derecha, sea χ20,05 (7) = 14, 067. Debido a la falta de simetr´ıa, deben utilizarse las tablas para encontrar χ20,95 (7). Media y varianza de la distribuci´ on muestral de la varianza muestral En esta secci´on calcularemos la media y varianza de s2 . Para ello, utilizaremos la u ´ltima propiedad mencionada en la secci´on anterior y el hecho de que, en nuestro contexto, la Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
67
variable aleatoria (n − 1)s2 /σ 2 sigue una distribuci´on χ2n−1 . Por tanto, (n − 1) (n − 1)s2 = E(s2 ), n−1 = E 2 σ σ2 de donde E(s2 ) = σ 2 . Por otro lado, 2(n − 1) = V
(n − 1)s2 σ2
y, en consecuencia, V (s2 ) =
=
(n − 1)2 V (s2 ) σ4
2σ 4 . n−1
Estos resultados se presentan resumidos en el siguiente
Teorema 1.7.3 Sea s2 la varianza de una muestra aleatoria de tama˜ no n. Entonces, (a) la distribuci´on muestral de s2 tiene media σ 2 . (b) La varianza de la distribuci´ on muestral de s2 depende de la distribuci´ on de la poblaci´on. 2σ 4 Si dicha distribuci´on es normal, entonces, ser´a igual a n−1 .
Aplicaciones pr´ acticas Supongamos que hemos tomado una muestra aleatoria de una poblaci´on y queremos hacer alguna inferencia sobre la varianza poblacional. Si se asume la normalidad de la poblaci´on, se podr´a usar la distribuci´on chi-cuadrado, como haremos en los ejemplos que aparecen a continuaci´on. Ejemplo 1.7.4 Cuando un proceso de producci´ on est´ a funcionando correctamente, la resistencia en ohmios de los componentes que produce sigue una distribuci´ on normal con desviaci´ on t´ıpica 3,6. Se toma una muestra aleatoria de cuatro componentes. ¿Cu´ al es la probabilidad de que la varianza muestral sea mayor a 27? ´ SOLUCION: Tenemos que n = 4 y σ = 3, 6 y como la poblaci´ on en cuesti´ on es normal, entonces, podemos aplicar el teorema 1.7.2. Por tanto, teniendo en cuenta la tabla del ap´endice, la probabilidad que se nos pide es 27(n − 1) (n − 1)s2 2 > P (s > 27) = P σ2 σ2 (27)(3) = P χ2 (3) > = P χ2 (3) > 6, 25 ≈ 0, 10. 12, 96 ´ muestral de la varianza y razon ´ de varianzas muestrales 1.7. Distribucion
´ Dr. rer. nat. Humberto Llinas
68
En consecuencia, la probabilidad de que la varianza muestral sea mayor a 27 es aproximadamente del 10%. ◭
Ejemplo 1.7.5 Un fabricante de latas de guisantes est´ a interesado en que el peso medio de su producto est´e pr´ oximo al peso anunciado. Adem´ as, desea que no haya mucha variabilidad en los pesos de las latas de guisantes, ya que de lo contrario, una gran proporci´ on de latas diferir´ıa sensiblemente del peso anunciado. Asumamos que la distribuci´ on poblacional de los pesos es normal. Se toma una muestra aleatoria de veinte latas. Hallar el valor de k que verifica la relaci´ on s2 P σ2 < k = 0, 05.
´ SOLUCION: Tenemos que n = 20. Para hallar el valor de k, tendremos en cuenta el teorema 1.7.2. Ahora, s2 19k = 0, 95. Por tanto, de la tabla del ap´endice, encontramos que 19k = 10, 12, de donde k = 0, 533. La conclusi´ on es que la probabilidad de que la varianza muestral sea menor que un 53% de la varianza poblacional es 0,05. ◭
Hay que hacer hincapi´e en el hecho de que la t´ecnica empleada en estos ejemplos no es tan universalmente aplicable en la pr´actica como la que us´abamos en las primeras secciones de este cap´ıtulo. En este contexto, el supuesto de que la distribuci´on de la poblaci´on de la que se ha extra´ıdo la muestra es normal, es fundamental. Hemos visto c´omo pueden encontrarse probabilidades relativas tanto a la media muestral como a la varianza muestral cuando se muestrea de una poblaci´on normal. Sin embargo, esta u ´ltima se ver´a m´as afectada por desviaciones del supuesto de normalidad de la distribuci´on poblacional. Cuando se quieren calcular probabilidades relativas a la media muestral, el teorema ?? asegura que, para muestras moderadamente grandes, desviaciones peque˜ nas de la hip´otesis de normalidad de la poblaci´on de la que se extrae la muestra tienen un efecto peque˜ no en la validez de las probabilidades calculadas. Por esta raz´on, se dice que las inferencias basadas en la media muestral son robustas frente a desviaciones del supuesto de normalidad de la poblaci´on, mientras que las inferencias basadas en la varianza poblacional no lo son. Sin embargo, es frecuente en la pr´actica que la varianza poblacional tenga un inter´es directo para el investigador. Debe recordarse que, si s´olo se dispone de una cantidad peque˜ na de observaciones muestrales, desviaciones importantes del supuesto de normalidad de la poblaci´on pueden invalidar las conclusiones del an´alisis realizado seg´ un la t´ecnica que hemos descrito en esta secci´on. Por tanto, un analista precavido deber´a ser cuidadoso a la hora de hacer inferencias en tales circunstancias. Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
1.7.2
69
Distribuci´ on muestral de la raz´ on de dos varianzas
Otro m´etodo para comparar dos poblaciones es comparar sus varianzas. Surgen muchas aplicacione estad´ısticas en las que deben compararse las varianzas poblacionales. En aplicaciones industriales referentes a dos m´etodos o m´aquinas para producir el mismo producto, se utilizan con frecuencia las varianzas y se las compara con prop´ositos de control de calidad. En esta secci´on, consideraremos el caso de dos muestras aleatorias independientes de poblaciones normales. Sea s21 la varianza muestral de una muestra aleatoria de n1 observaciones de una poblaci´on normal con varianza σ12 y s22 la varianza muestral de una muestra aleatoria de n2 observaciones de una poblaci´on normal con varianza σ22 . Entonces, la variable aleatoria s2 /σ 2 F = 21 12 s2 /σ2 ´ n t. Esta familia de distribuciones sigue una distribuci´on conocida como7 distribucio tiene muchas aplicaciones en el an´alisis estad´ıstico. Un miembro particular de la familia se distingue por dos valores: los grados de libertad asociados al numerador y al denominador. En el presente contexto, recordemos que los grados de libertad asociados con la varianza muestral s21 son n1 − 1 y con s22 , n2 − 1. Entonces, la variable definida anteriormente, tiene distribuci´on F con n1 − 1 grados de libertad en el numerador y n2 − 1 grados de libertad en el denominador.
Teorema 1.7.6 Si s21 y s22 son las varianzas de muestras aleatorias independientes de tama˜ no n1 y n2 tomadas de poblaciones normales con varianzas σ12 y σ22 , respectivamente, entonces, la variable aleatoria s2 /σ 2 F = 21 12 s2 /σ2 tiene una distribuci´on F con ν1 = n1 − 1 y ν2 = n2 − 1 grados de libertad. La distribuci´on F , al igual que la chi-cuadrada, tiene una funci´on de densidad asim´etrica, definido s´olo para valores no negativos. Esta funci´on de densidad se representa en la figura 1.7. En la tabla del ap´endice se proporcionan los puntos de corte Fα (ν1 , ν2 ) para α igual a 0,05 y 0,01. Por ejemplo, para 10 grados de libertad en el numerador y 20 en el denominador, hallamos en la tabla que F0,05 (10, 20) = 2, 35
y
F0,01 (10, 20) = 3, 37.
7
Formalmente, la distribuci´on F se define como la distribuci´on que sigue el cociente de dos variables aleatorias independientes con distribuci´on chi-cuadrado, cada una dividida por sus grados de libertad. ´ muestral de la varianza y razon ´ de varianzas muestrales 1.7. Distribucion
´ Dr. rer. nat. Humberto Llinas
70
Esto significa que P F (10, 20) > 2, 35 = 0, 05
y
P F (10, 20) > 3, 37 = 0, 01.
Figura 1.7: Distribuci´on F con 6 grados de libertad en el numerador y 4, en el denominador, en la que se muestra el ´area α que queda a la derecha del valor Fα (6, 4) Ejemplo 1.7.7 En una prueba sobre la efectividad de dos tipos de p´ıldoras para dormir, A y B, se utilizar´ an dos grupos independientes de personas con insomnio. A un grupo de tama˜ no 61 se le administrar´ a la p´ıldora A y al otro grupo, de tama˜ no 41, se le administrar´ a la B, registr´ andose el n´ umero de horas de sue˜ no de cada individuo participante en el estudio. Suponiendo que el n´ umero de hora de sue˜ no de quienes usan cada tipo de p´ıldora se distribuye normalemente y que 2 2 σA = σB , calcule la probabilidad de que la raz´ on de las varianzas muestrales de A y B sea mayor que 1,64. ´ SOLUCION: La probabilidad pedida est´ a dada por P (s2A /s2B > 1, 64) = P F (60, 40) > 1, 64
= 0, 05.
Es decir, la probabilidad de que la raz´ on de las varianzas muestrales de A y B sea mayor que 1,64 es del 5%. ◭
Para finalizar, concluiremos con el siguiente teorema.
Teorema 1.7.8 Siempre se cumple que F1−α (ν1 , ν2 ) =
1 . Fα (ν2 , ν1 )
Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
71
Ejemplo 1.7.9 De la tabla del ap´endice se tiene que F0,95 (6, 10) =
1 1 = = 0, 246. F0,05 (10, 6) 4, 06
◭
✍ Ejercicios de la secci´ on 1.7 69. Las rentabilidades mensuales de cierto tipo de acciones son independientes unas de otras y siguen una distribuci´ on normal con desviaci´ on t´ıpica de 1,7. Se toma una muestra de 12 meses. Hallar la probabilidad de que la desviaci´ on est´ andar muestral sea (a) menor que 2,5, (b) mayor que 1. 69. (a) Entre 0,975 y 0,99 (b) Alrededor de 0,975 70. Se quiere someter a todos los docentes de matem´ aticas de cierta ciudad a un examen de 100 preguntas. Inicialmente, en un estudio piloto, se somete a este examen a una muestra aleatoria de 20 docentes. Supongamos que, para la poblaci´ on completa de todos los docentes de la ciudad, la distribuci´ on del n´ umero de respuestas correctas sigue una normal con varianza 250. ¿Cu´ al es la probabilidad de que la varianza muestral sea (a) menor que 100, (b) mayor que 500? 70. (a) Alrededor de 0,01 (b) Alrededor de 0,005 71. El n´ umero de horas que duermen los futbolistas en la semana anterior a un partido que define el campeonato mundial de clubes sigue una distribuci´ on normal con una desviaci´ on est´ andar de 4,5 horas. Se toma una muestra aleatoria de 30 futbolistas. ¿Es mayor que 0,95 la probabilidad de que la desviaci´ on est´ andar muestral se (a) mayor que 3,5 horas, (b) menor que 6 horas? 71. (a) S´ı (b) S´ı 72. Una cierta empresa fabrican bombillas cuya tiempo de vida sigue una distribuci´ on normal. Se extrae una muestra aleatoria de 6 bombillas y se mide sus tiempos de vida. (a) 0,05 es la probabilidad de que la varianza muestral sea mayor que ¿qu´e porcentaje de la varianza poblacional? (b) 0,10 es la probabilidad de que la varianza muestral sea mayor que ¿qu´e porcentaje de la varianza poblacional? 72. (a) 221,4 (b) 32,2 73. Se extrae una muestra aleatoria de 15 empresarios y se les pregunta sobre su predicci´ on acerca de la tasa de desempleo para el p´ oximo a˜ no. Supongamos que las predicciones para la poblaci´ on completa de empresarios sigue una distribuci´ on normal con una desviaci´ on est´ andar de 1,8%. (a) 0,01 es la probabilidad de que la desviaci´ on est´ andar muestral sea mayor que ¿qu´e n´ umero? ´ muestral de la varianza y razon ´ de varianzas muestrales 1.7. Distribucion
´ Dr. rer. nat. Humberto Llinas
72
(b) 0,025 es la probabilidad de que la desviaci´ on est´ andar muestral sea menor que ¿qu´e n´ umero? (c) Encontrar un par de n´ umeros tales que la probabilidad de que la desviaci´ on est´ andar se encuentre entre estos dos n´ umeros sea 0,9. 73. (a) 2,60 (b) 1,14 (c) 1,23 y 2,34 74. Para precisar el tiempo m´ınimo en que dura un atleta en recorrer la misma distancia bajo las mismas condiciones, se toma una muestra de 12 tiempos del mismo atleta. La distribuci´ on poblacional de los tiempos es normal. (a) 0,95 es la probabilidad de que la desviaci´ on est´ andar muestral sea mayor que ¿qu´e porcentaje de la varianza poblacional? (b) 0,90 es la probabilidad de que la desviaci´ on est´ andar muestral sea menor que ¿qu´e porcentaje de la varianza poblacional? (c) Encontrar un par de n´ umeros a y b que hagan correcta la siguiente frase: 0,95 es la probabilidad de que la varianza muestral est´e entre el a% y el b% de la varianza poblacional. 75. Un determinado laboratorio m´edico elabora c´ apsulas que contienen un componente especial. El laboratorio se preocupa sobre la media del peso de este componente por c´ apsula, pero tambi´en pretende que la varianza (medida en miligramos cuadrados) no sea mayor que 1,5. Se extrae una muestra aleatoria de 20 c´ apsulas y su varianza muestral resulta ser de 2,05. ¿Cu´ al es la probabilidad de que la varianza muestral sea tan alta como la observada o mayor si la varianza poblacional es realmente 1,5? Asumir que la distribuci´ on poblacional es normal. 75. M´ as de 0,10 76. Los gerentes de una industria que fabrica bolsas desean saber si pueden comparar dos procesos de manufactura en relaci´ on con la variabilidad de la resistencia que tiene el producto respecto de la tracci´ on. Manifiestan ellos que, en su concepto, los dos procesos producir´ an bolsas con igual resistencia a la tracci´ on si la raz´ on entre las varianzas muestrales de productos de los dos procesos no es demasiado grande. Consideran que la raz´ on es demasiado grande si la probabilidad de obtener un valor mayor o igual a un valor determinado es menor que 0,05. Las muestras aleatorias (independientes) de 25 productos de cada uno de los procesos, dan varianzas de 540 y 256. ¿Creer´ an los directores que ambos procesos producen bolsas con la misma variabilidad de resistencia a la tracci´ on? Supongamos que las resistencias a la tracci´ on de los productos fabricados con los dos procesos est´ an normalmente distribuidas. 77. Se supone que la varianza de las calificaciones de las pruebas de estado en cierto pa´ıs es la misma para hombres y mujeres. Una muestra aleatoria de 21 hombres y una muestra aleatoria independiente de 19 mujeres dan varianzas de 876 y 400 respectivamente. Si las calificaciones para hombres y mujeres est´ an normalmente distribuidos y tienen varianzas iguales, ¿cu´ al es la probabilidad de obtener de esas muestras resultados tan extremos o m´ as extremos que estos? Cap´ıtulo 1. Distribuciones fundamentales de muestreo
Estad´ıstica inferencial
73
77. 0,05
✍ Ejercicios complementarios 78. Diga si la afirmaci´ on dada es verdadera o falsa. Justifique siempre su respuesta. En caso que sea falsa, d´e un contraejemplo. (a) Suponga que se utiliza el muestreo aleatorio simple para escoger muestras aleatorias (simples) de una poblaci´ on que tiene por elementos a las letras a, b, c y d. Si el muestreo se hace con reemplazo y con orden, entonces, la probabilidad de seleccionar dos muestras cualesquiera de tama˜ no 2 es igual a 24 = 21 . (b) La diferencia de dos medias poblacionales es un ejemplo de un par´ ametro. (c) La varianza muestral es una probabilidad. (d) La distribuci´ on muestral de un estad´ıstico es una variable aleatoria. (e) La distribuci´ on muestral de un estad´ıstico es un n´ umero. (f) Un estad´ıstico es un n´ umero. (g) Si una poblaci´ on es normal, entonces, la distribuci´ on muestral de la media muestral es la t de Student. (h) Cuando el muestreo se hace sin reemplazo en una poblaci´ on finita, la media de la distribuci´ on de la media muestral es igual a la media de la poblaci´ on original dividida por el tama˜ no de la poblaci´ on. 79. Responda las preguntas planteadas en las siguientes situaciones. Explique. (a) ¿Qu´e quiere decir que la media muestral tiene una distribuci´ on en el muestreo? (b) Una poblaci´ on tiene una desviaci´ on est´ andar de 15. Se toman muestras aleatorias de tama˜ no n sin reemplazo y se calculan sus medias. ¿Qu´e le sucede al error est´ andar de la media cuando n crece de 400 a 900? ¿Y a σx cuando n crece? (c) ¿Bajo que condiciones existir´ ala distribuci´ on muestral de la moda? (d) Si la distribuci´ on muestral de la media es normal para todos los tama˜ nos n de muestras, ¿qu´e sabe usted de la poblaci´ on de la cual proceden las muestras? (e) ¿Es una muestra aleatoria simple la muestra 1,2 de la poblaci´ on de valores 1, 2, 3, 4, 5, 6, 7, 8, 9, 10? (f) ¿Qu´e importancia tiene el teorema central del l´ımite en la distrbuci´ on muestral de la media muestral? 79. (b) Decrece (c) La distribuci´ on muestral de la moda s´ olo tiene sentido cuando para cada muestra extra´ıda de la poblaci´ on existe una u ´nica moda. En la pr´ actica esto nunca ocurre (d) La poblaci´ on es normal. Para muestras de tama˜ no uno, la distribuci´ on muestral de la media es id´entica a la poblaci´ on de la que proceden las muestras (e) No podemos decir. Debemos conocer el procedimiento utilizado. Cap. 1. Ejercicios complementarios
´ Dr. rer. nat. Humberto Llinas
74
80. Una persona est´ a considerando 6 tipos de pr´estamos diferentes. El n´ umero medio de d´ıas que tardan en vencer estos pr´estamos es 41, 39, 35, 35, 33 y 38. Se eligen al azar dos de estos fondos. (a) ¿Cu´ al es el n´ umero de posibles muestras de dos fondos? (b) Hacer una lista de todas las posibles muestras. (c) Hallar la funci´ on de probabilidad de la distribuci´ on en el muestreo de la media muestral. (d) Comprobar directamente que la media de la distribuci´ on muestral es igual a la media poblacional. 81. Las calificaciones obtenidas por todos los estudiantes en las pruebas del ICFES sigue una distribuci´ on normal con una media de 420 y una desviaci´ on est´ andar de 100. Se extrae una muestra aleatoria de 25 puntuaciones. (a) Hallar la probabilidad de que la media muestral de las puntuaciones sea mayor que 450. (b) Hallar la probabilidad de que la media muestral de las puntuaciones tome un valor que est´e entre 400 y 450. (c) 0,10 es la probabilidad de que la media muestral de las puntuaciones sea mayor que ¿qu´e n´ umero? (d) 0,10 es la probabilidad de que la media muestral de las puntuaciones sea menor que ¿qu´e n´ umero? (e) 0,05 es la probabilidad de que la desviaci´ on est´ andar muestral de las puntuaciones sea mayor que ¿qu´e n´ umero? (f) 0,05 es la probabilidad de que la desviaci´ on est´ andar muestral de las puntuaciones sea menor que ¿qu´e n´ umero? (g) Si se toma una muestra de 50 calificaciones, la probabilidad de que la media muestral de las puntuaciones sea mayor que 450, ¿ser´ a mayor, menor o la misma que la obtenida en el inciso (a)? No es necesario detallar los c´ alculos. Realizar un gr´ afico para ilustrar el razonamiento. 81. (a) 0,0668 (b) 0,7745 (c) 445,6 (d) 394,4 (e) 123 (f ) 76 (g) Menor 82. En un determinado a˜ no, las tasas de rentabilidad de las acciones de las compa˜ n´ıas el´ectricas siguieron una distribuci´ on normal con media 14,8 y desviaci´ on est´ andar 6,3. Se extrae una muestra aleatoria de 9 de estas acciones. (a) ¿Cu´ al es la probabilidad de que la media muestral de la tasa de rentabilidad sea mayor que 19? (b) ¿Cu´ al es la probabilidad de que la media muestral de la tasa de rentabilidad est´e entre 10,6 y 19? (c) 0,25 es la probabilidad de que la media muestral de la tasa de rentabilidad sea menor que ¿qu´e n´ umero? Cap. 1. Ejercicios complementarios
Estad´ıstica inferencial
75
(d) Supongamos que se selecciona una muestra de 20 acciones. Razonar si la probabilidad de que la media muestral de la tasa de rentabilidad sea mayor que 19 resultar´ a en este caso, mayor, menor o la misma que la obtenida en el inciso (a). Realizar un gr´ afico para ilustrar el razonamiento. 82. (a) 0,0228 (b) 0,9544 (c) 13,4 (d) 8,1 (e) Menor 83. Se ha comprobado que el 80% de los egresados de la facultad de Administraci´ on y Empresa de cierta universidad acepta una oferta de trabajo en entidades bancarias. Para quienes aceptan una oferta en entidades bancarias, la distribuci´ on de los salarios es normal con una media de 29.000 d´ olares y una desviaci´ on est´ andar de 29.000 d´ olares. (a) Para una muestra aleatoria de 60 egresados, ¿cu´ al es la probabilidad de que menos del 70% hayan aceptado una oferta de trabajo? (b) Para una muestra aleatoria de 6 egresados, ¿cu´ al es la probabilidad de que menos del 70% hayan aceptado una oferta de trabajo? (c) Para una muestra aleatoria de 6 egresados que han aceptado una oferta de trabajo, ¿cu´ al es la probabilidad de que la media muestral de su salario sea mayor que 30.000 d´ olares? (d) Si se elige un estudiante de u ´ltimo a˜ no al azar, ¿cu´ al es la probabilidad de que haya aceptado una oferta de trabajo con salario superior a los 30.000 d´ olares? 83. (a) 0,0262 (b) 0,3446 (c) 0,2709 (d) 0,321 84. Un director de control de calidad est´ a preocupado sobre la variabilidad de la cantidad de componentes especiales en las c´ apsulas producidas por un cierto proceso. Se toma una muestra aleatoria de 21 c´ apsulas. ¿Cu´ al es la probabilidad de que la varianza muestral de la cantidad de componentes especiales sea mayor que dos veces la varianza poblacional? 84. 0,005 85. Las calificaciones de cierto examen realizado por un grupo grande de estudiantes sigue una distribuci´ on normal con una desviaci´ on est´ andar de 40 puntos. Se toma una muestra aleatoria de 16 calificaciones para estimar la puntuaci´ on media en la poblaci´ on. Sea X la media muestral. ¿Cu´ al es la probabilidad de que el intervalo que va de X − 10 a X + 10 contenga la verdadera media poblacional? 85. 0,6826 86. En determinado a˜ no, el 40% de las pr´estamos realizados en una entidad bancaria fueron cancelados durante los 15 a˜ nos siguientes. Se examina una muestra aleatoria de 250 pr´estamos. (a) 0,8 es la probabilidad de que la proporci´ on muestral sea mayor que ¿qu´e n´ umero? (b) 0,9 es la probabilidad de que la proporci´ on muestral sea menor que ¿qu´e n´ umero? (c) 0,7 es la probabilidad de que la proporci´ on est´ andar muestral difiera de la proporci´ on poblacional ¿en qu´e cantidad? 86. (a) 0,347 (b) 0,440 (c) 0,032 Cap. 1. Ejercicios complementarios
´ Dr. rer. nat. Humberto Llinas
76
87. Se sabe que el salario devengado por las personas afiliadas a cierta entidad de salud sigue una distribuci´ on normal con una desviaci´ on est´ andar de 6.600 d´ olares. Se toma una muestra aleatoria de 25 personas afiliadas a dicha entidad de salud. (a) ¿Cu´ al es la probabilidad de la desviaci´ on est´ andar muestral de sus rentas sea mayor que 4.000 d´ olares? (b) ¿Cu´ al es la probabilidad de la desviaci´ on est´ andar muestral de sus rentas sea menor que 8.000 d´ olares? 87. (a) M´ as de 0,995 (b) Entre 0,9 y 0,95 88. La vida media de cierta especie de animal es de siete a˜ nos, con una desviaci´ on est´ andar de un a˜ no. Suponga que las vidas de esta especie animal sigue aproximadamente una distribuci´ on normal. Encuentre: (a) La probabilidad de que la vida media de una muestra aleatoria de nueve animales de esta especie caiga entre 6,4 y 7,2 a˜ nos. (b) El valor de X a la derecha del cual caer´ıa el 15% de las medias calculadas de muestras aleatorias de tama˜ no 9. 89. Sean X1 , X2 , . . ., X100 variables aleatorias que representan los pesos netos reales de 100 bolsas de 50 libras de cemento, seleccionadas al azar. (a) Si el peso especificado de cada bolsa es 50 y la varianza 1, calcule P (49, 75 ≤ X ≤ 50, 25) (aproximadamente) empleando el teorema central del l´ımite. (b) Si el peso esperado es 49, 8 libras, en lugar de 50 libras, de modo que en promedio las bolsas tienen menos pesos, calcule P (49, 75 ≤ X ≤ 50, 25). 90. La longitud de cierta cuchara para postres seleccionada al azar es una variable aleatoria con valor medio de 12 cm y desviaci´ on est´ andar de 0, 4 cm. (a) Si X es la longitud media de la muestra para una muestra de n = 16 cucharas, ¿d´ onde est´ a centrada la distribuci´ on muestral de X, y cu´ al es la desviaci´ on est´ andar de X? (b) Conteste las preguntas formuladas en el inciso (a) para un tama˜ no muestral de n=64 cucharas. (c) ¿Para cu´ al de las dos muestra aleatorias, una del inciso (a) y otra del inciso (b) es m´ as probable que X est´e dentro 0, 01 cm. alejado de 12 cm? Explique su razonamiento. 91. El tiempo que dedican a entrenar los futbolistas de de cierto pa´ıs en la semana anterior a la final de los campeonatos sigue una distribuc´ on normal con una desviaci´ on est´ andar de 8,4 horas. Se toma una muestra aleatoria de estos futbolistas con el fin de estimar el tiempo medio de entrenamiento para esta pobalci´ on de futbolistas. (a) ¿Qu´e tama˜ no ha de tener la muestra para poder asegurar que la probabilidad de que la media muestral difiera de la media poblacional en m´ as de dos horas sea menor que 0,05? Cap. 1. Ejercicios complementarios
Estad´ıstica inferencial
77
(b) Sin realizar los c´ alculos, razonar si se requerir´ a un tama˜ no muestral mayor o menor que el del apartado (a) para poder garantizar que la probabilidad de que la media muestral difiera de la media poblacional en m´ as de 2 horas sea menor que 0,10? (c) Sin realizar los c´ alculos, razonar si se requerir´ a un tama˜ no muestral mayor o menor que el del apartado (a) para poder garantizar que la probabilidad de que la media muestral difiera de la media poblacional en m´ as de 1,5 horas sea menor que 0,05. 91. (a) 68 (b) menor (c) mayor 92. Una pieza de tubo de PVC debe insertarse dentro de otra pieza. La longitud de la primera est´ a normalmente distribuida con valor medio de 20 pulgadas y desviaci´ on est´ andar de 0,5 pulgadas. La longitud de la segunda es una variable aleatoria normal con media y desviaci´ on est´ andar de 15 pulgadas y 4 pulgadas, respectivamente. La cantidad de traslape est´ a normalmente distribuida con valor medio de 1 pulgada y desviaci´ on est´ andar de 0.1 pulgada. Si se supone que las longitudes y cantidades de traslape son independientes una de otra, ¿‘Cu´ al es la probabilidad de que la longitud total, despu´es de la inserci´ on, sean entre 3,45 y 35 pulgadas? 92. 0,1588 93. Demuestre que σe = σx donde e = x − µ.
Cap. 1. Ejercicios complementarios
´ Dr. rer. nat. Humberto Llinas
78
Cap. 1. Ejercicios complementarios
CAP´ITULO
3
Pruebas de hip´ otesis
Contenido 3.1
Conceptos de la prueba de hip´ otesis . . . . . . . . . . . . . . . . 3.1.1
3.2
80
Comentarios acerca de los t´erminos “aceptar” y “rechazar” . . .
86
Prueba para la media . . . . . . . . . . . . . . . . . . . . . . . . .
87
3.2.1
El caso de muestras grandes . . . . . . . . . . . . . . . . . . . . .
87
3.2.2
Caso de muestra peque˜ nas . . . . . . . . . . . . . . . . . . . . . .
89
3.3
Pruebas para la proporci´ on . . . . . . . . . . . . . . . . . . . . .
90
3.4
Prueba para la diferencia de dos proporciones . . . . . . . . . .
92
3.5
Prueba para la diferencia de dos medias . . . . . . . . . . . . . .
95
3.5.1 3.5.2 3.5.3
Primer caso: varianzas poblacionales conocidas o desconocidas y muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
Segundo caso: varianzas poblacionales iguales, desconocidas y muestras peque˜ nas . . . . . . . . . . . . . . . . . . . . . . . . . .
99
Tercer caso: varianzas poblacionales diferentes, desconocidas y muestras peque˜ nas . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.6
Prueba para la varianza
. . . . . . . . . . . . . . . . . . . . . . . 103
3.7
Prueba para la raz´ on de dos varianzas . . . . . . . . . . . . . . . 105
79
´ Dr. rer. nat. Humberto Llinas
80
☞ Objetivos del cap´ıtulo 1. Explicar el lenguaje de una prueba de hip´ otesis. 2. Estudiar los tipos de errores asociados con una prueba de hip´ otesis. 3. Aprender cu´ ando usar pruebas de una cola y c´ uando pruebas de dos colas. 4. Realizar pruebas de hip´ otesis para la media, proporci´ on, diferencia de dos medias, diferencia de dos proporciones, varianza y raz´ on de dos varianzas.
☞ Empleo de la estad´ıstica ≪ Una encuesta realizada en cierto a˜ no revel´o que el 78% de quienes respondieron consideraron que estaban mejor financieramente que sus padres. Una encuesta m´ as reciente encontr´o que 370 de las 500 personas quienes respondieron pensaron que sus fortunas financieras eran mejores que las de sus padres. ¿Sugiere esto un descenso en la proporci´ on de personas que consideran que est´an financieramente m´ as estables de lo que estaban sus padres? ≫
3.1
Conceptos de la prueba de hip´ otesis
En cap´ıtulos anteriores, hemos visto que la informac´ on obtenida a partir de muestras aleatorias sirve para estimar los par´ ametros desconocidos de la poblaci´ on mediante el c´ alculo de los estimadores puntuales o intervalos de confinaza. Por otro lado, en este cap´ıtulo, veremos que la informaci´ on muestral tambi´en se puede utilizar para probar la validez de una afirmaci´ on, conje´ tesis acerca del valor del par´ tura o hipo ametro de la poblaci´ on como se ilustra en las diferentes situaciones del siguiente ejemplo. Ejemplo 3.1.1 Consideremos las siguientes situaciones: (a) Un empresario afirma que, en promedio, las utilidades mensuales son por lo menos de $ 5.000.000. Para vefificar esta afirmaci´ on se promedian las utilidades de una muestra aleatoria y se infiere el resultado a partir de la informaci´ on muestral. (b) Una papeler´ıa recibe un gran cargamento de lapiceros. S´ olo puede aceptar el env´ıo si no hay m´ as de un 3% de lapiceros defecutosos. La decisi´ on de si aceptar la remesa puede basarse en el examen de una muestra aleatoria de lapiceros. (c) Un productor de software de computador desea certificar que la proporci´ on de sus productos que son defectuosos es menor del 3%. Para verificar lo anterior, hay que realizar el estudio con base en una muestra aleatoria de los productos. ◭ ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
81
Las situaciones propuestas tienen algo en com´ un. La hip´ otesis se formula sobre la poblaci on y las conclusiones sobre la validez de esta hip´ otesis se basan en la informaci´ on muestral. En eta secci´ on, se introducir´ a una herramienta general para abordar estos y otros problemas. Los procedimientos espec´ıficos se desarrollar´ an en las siguientes secciones.
Hip´ otesis estad´ısticas En general, una hip´ otesis es una explicaci´ on propuesta que puede, o no, ser cierta. Nuestra discusi´ on se limitar´ a a las hip´ otesis estad´ısticas.
´ tesis estad´ıstica es una afirmaci´ Definici´ on 3.1.2 Una hipo on cuantitativa acerca de una o m´ as poblaciones, o mejor, como es m´ as frecuente, afirmaciones sobre uno o m´ as par´ ametros de una o m´ as poblaciones.
Las hip´ otesis nula y alternativa Las hip´ otesis estad´ısticas son de dos tipos: las hip´ otesis nula y alternativa.
´ tesis nula, que se simboliza por H0 y que es la hip´ Definici´ on 3.1.3 La la hipo otesis que se debe comprobar. Es una afirmaci´ on en la que se dice que no hay diferencia alguna entre dos poblaciones, entre dos par´ ametros poblacionales o entre el valor verdadero de alg´ un par´ ametro y su valor hipot´etico. ´ tesis alternativa, simbolizada por H1 , se establece como como el “complemento” de La hipo la hip´ otesis nula y representa la conclusi´ on que se apoya si la hip´ otesis nula se rechaza. Siempre que vayamos a escribir una hip´ otesis estad´ıstica en t´erminos de la H0 o H1 , debemos tener en cuenta los siguientes comentarios: 1. La hip´ otesis nula H0 siempre se refiere a un valor espec´ıfico del par´ ametro de poblaci´ on (como, por ejemplo, µ), no al estad´ıstico muestral (como X). 2. La expresi´ on de la hip´ otesis nula siempre contiene un signo igual respecto al valor especificado del par´ ametro poblacional (por ejemplo,1 H0 : µ = 36, H0 : µ ≤ 36 o H0 : µ ≥ 36). 3. La expresi´ on de la hip´ otesis alternativa nunca contiene un signo igual respecto al valor especificado de par´ ametro de poblaci´ on (por ejemplo, H0 : µ = 6 36, H0 : µ < 36 o H0 : µ > 36).
1
En general, si θ es un par´ ametro poblacional y si k es cualquier n´ umero real, entonces, la hip´otesis alternativa H1 : θ 6= k se llama alternativa bilateral y las hip´otesis alternativas H1 : θ < k y H1 : θ > k, alternativas unilaterales. ´ 3.1. Conceptos de la prueba de hipotesis
´ Dr. rer. nat. Humberto Llinas
82
La especificaci´ on de unas hip´ oteis nula y alternativa depende del problema. Para ilustrar estos conceptos, consideremos las situaciones que se presentan en el siguiente ejemplo. Ejemplo 3.1.4 Dada las siguientes situaciones, identifique las hip´ otesis nula y alternativa para la hip´ otesis estad´ıstica formulada en cada situaci´ on. (a) Un empresario afirma que el peso medio poblacional (en gramos) de lapiceros por caja es de por lo menos 300 gramos. (b) Una empresa decide aceptar env´ıos de piezas siempre y cuando no tenga evidencia para sospechar que m´ as del 4% son defectuosas. (c) Supongamos que la conjetura de una profesor es que la utilizaci´ on de la tecnolog´ıa no produce diferencias en el promedio de las calificaciones del examen final. (d) Como hip´ otesis de un trabajo, un investigador puede considerar que la propuesta de una nueva ley es acogida de igual forma por hombres y mujeres. SOLUCION:
(a) Sea θ el peso medio poblacional (en gramos) de lapiceros por caja. Si la hip´ otesis es que esta media es por lo menos 300 gramos, entonces, la hip´ otesis nula es H0 : θ ≥ 300. La alternativa obvia es que el verdadero peso medio es inferior a 300 gramos, es decir, H1 : θ < 300. (b) Sea θ la proporci´ on poblacional de piezas defectuosas. En este caso, la hip´ otesis nula es que esta proporci´ on es cuando mucho 0,05, es decir, H0 : θ ≤ 0, 05. Bas´ andose en la informaci´ on muestral, se contrasta esta hip´ otesis frente a la alternativa unilateral H1 : θ > 0, 05. (c) Sea θ la diferencia entre las calificaciones medias poblacionales para las dos partes del curso, con y sin uso de la tecnolog´ıa. Entonces, la hip´ otesis nula es H0 : θ = 0. Sin embargo, el profesor puede sospechar que posiblemente el uso de la tecnolog´ıa produzca un incremento en el promedio y, en consecuencia, querr´ a cotrastar la hip´ otesis nula frente a la alternativa unilateral H1 : θ > 0. ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
83
(d) Sea θ la diferencia entre las proporciones poblacionales a favor de la nueva ley. Entonces, la hip´ otesis nula es H0 : θ = 0.
Si el investigador no tiene una buena raz´ on para sospechar que la mayor parte del apoyo venga de una poblaci´ on en lugar de la otra, esta hip´ otesis nula puede contrastarse frente a la hip’otesis alternativa bilateral H1 : θ 6= 0.
◭
Errores de tipo I y de tipo II Generalmente se acostumbra discutir las decisiones con respecto a la hip´ otesis nula. Hay dos posibles decisiones: 1. Aceptar la hip´ otesis nula (o rechazar la alternativa). 2. Rechazar la hip´ otesis nula (o aceptar la alternativa). ´ n basada en la Con el fin de llegar a una de estas conclusiones, se adopta una regla de decisio informaci´ on muestral. En las secciones siguientes, estudiaremos reglas de decisi´ on concretas. En realidad, la hip´ otesis nula es o verdadera o falsa. S´ olo si aceptamos o rechazamos la hip´ otesis nula podemos tener raz´ on, y s´ olo entonces podemos cometer un error. Considere los eventos descritos en la tabla 3.1.
Decisi´ on sobre H0 Aceptar H0 Rechazar H0
H0 es verdadera Decisi´on correcta Decisi´on correcta
H0 es falsa Decisi´on incorrecta Decisi´on correcta
Figura 3.1: Decisiones con respecto a la hip´otesis nula H0
Si aceptamos la hip´ otesis nula cuando es verdadera o se rechaza cuando es falsa, entonces, hemos tomado una decisi´ on correcta. Pero si rechazamos la hip´ otesis nula cuando en realidad es verdadera, hemos cometido un error; este evento lo llamamos un error de tipo I. Adem´ as, si aceptamos la hip´ otesis nula cuando es falsa, hemos cometido otro tipo de error; lo llamamos un error de tipo II. Estos “errores” son eventos y, por lo tanto, ocurren con cierta probabilidad.
´ 3.1. Conceptos de la prueba de hipotesis
´ Dr. rer. nat. Humberto Llinas
84
Definici´ on 3.1.5 Se dice que cometemos un error de tipo I si rechazamos la hip´ otesis nula cuando en realidad es verdadera y que cometemos un error de tipo II si aceptamos la hip´ otesis nula cuando es falsa. La probabilidad de cometer estos errores est´ a dada por • P (error de tipo I) = P (rechazar H0 | H0 es verdadera) = α. • P (error de tipo II) = P (aceptar H0 | H0 es falsa) = β. La probabilidad α se llama nivel de significancia, 1 − α es el llamado grado de confianza y la probabilidad 1 − β se llama potencia de la prueba. Los conceptos se˜ nalados en la definici´ on 3.1.5 se pueden visualizar m´ as claramente en la tabla 3.2.
Decisi´ on sobre H0 Aceptar H0
Rechazar H0
H0 es verdadera H0 es falsa Decisi´on correcta Error de tipo II Probabilidad = 1 − α Probabilidad = β 1 − α se llama grado de confianza Error de tipo I Decisi´on correcta Probabilidad = α Probabilidad = 1 − β α se llama nivel de significancia 1 − β se llama potencia
Figura 3.2: Errores de tipo I y II y sus correspondientes probabilidades
Ejemplo 3.1.6 Suponga que un nuevo procedimiento y m´ as caro para detectar el c´ ancer de mama en las mujeres se est´ a probando para ver si es superior al m´etodo usado generalmente. Las hip´ otesis estad´ısticas son: H0 : El nuevo m´etodo no es mejor que el com´ unmente usado. H1 : El nuevo m´etodo es mejor que el com´ unmente usado. Obs´ervese que las consecuencias de cometer un error de tipo I incrementar´ıan los costos m´edicos. En cambio, las de cometer un error de tipo II ser´ıan una menor eficacia de la prueba y, posiblemente, una mayor proporci´ on de muestres por c´ ancer. ◭ Ejemplo 3.1.7 Supongamos que un individuo es juzgado por cierto delito que supuestamente ha cometido. En este caso, las hip´ otesis a tener en cuenta son: H0 : El individuo es inocente. H1 : El individuo es culpable. Los abogados de la fiscal´ıa tratan de probar que el individuo es culpable, es decir, que H1 es verdadera (o que H0 es falsa). Al llegar a su veredicto final, el jurado debe emitir una decis´ on ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
85
correcta o incorrecta. Las decisiones correctas son que el jurado vote inocente cuando el individuo es inocente o que vote culpable cuando el individuo es culpable. Las decisiones incorrectas son que el jurado vote por castigar al acusado cuando ´este es inocente (error de tipo I) o vote por perdonarlo cuando sea culpable (error de tipo II). ◭ Por supuesto, lo ideal ser´ıa que las probabilidades de los dos tipos de error fuesen lo m´ as peque˜ nas posible. Sin embargo, hay una clara compensaci´ on entre los dos. Cuando se ha tomado una muestra, cualquier regla de decisi´ on que haga menos veros´ımil rechazar una hip´ otesis nula cierta, inevitablemente, se traducir´ a en mayor verosimilitud de aceptar esta hip´ otesis cuando es falsa. Ejemplo 3.1.8 Supongamos que, bas´ andonos en una muestra aleatoria, queremos probar la hip´ otesis nula de que el verdadero peso medio del contenido de caja de lapiceros es al menos de 300 gramos. Dado un tama˜ no muestral espec´ıfico (digamos, 40 observaciones), podemos adoptar la regla de decisi´ on de rechazar la hip´ otesis nula si el peso medio en la muestra es inferior a 295 gramos. Ahora, es f´ acil encontrar una regla de decisi´ on para la cual la probabilidad de cometer un error de tipo I es menor. Si modificamos nuestra regla de decisi´ on “rechazar la hip´ otesis nula si el peso medio es inferior a 295 gramos”, se conseguir´ a este objetivo. Sin embargo, hay que pagar un precio. Si usamos la regla de decisi´ on modificada, ser´ a m´ as veros´ımil aceptar la hip´ otesis nula, tanto si es cierta como si es falsa. Por tanto, al disminuir la probabilidad de cometer un error de tipo I, hemos aumentado la probabilidad de cometer un error de tipo II. ◭ En el ejemplo 3.1.8, la u ´nica manera de disminuir simult´ aneamente las dos probabilidades de error ser´ a obtener m´ as informaci´ on sobre la verdadera media de la poblaci´ on, tomando una muestra mayor. Habitualmente, lo que se hace en la pr´ actica es fijar la probabilidad de cometer un error de tipo I a un nivel deseado, es decir, se fija el nivel de significancia. Entonces, esto determina la regla de decisi´ on adecuada, que a su vez determina la probabilidad de un error de tipo II. Este procedimiento se ilustra en el esquema siguiente: El investigador elige un nivel de significancia (probabilidad de error de tipo I)
−→
Se determina una regla de decisi´ on
−→
Resulta una probabilidad de error de tipo II
Para ilustrar el esquema anterior, consideremos el siguiente Ejemplo 3.1.9 Consideremos nuevamente la situaci´ on del ejemplo 3.1.8 en donde, a partir de una muestra de 40 observaciones, se quiere probar si el verdadero peso medio del contenido de caja de lapiceros es al menos de 300 gramos. Dada una regla de decisi´ on, podemos determinar las probabilidades de los errores de tipo I y de tipo II asociadas al contraste. Sin embargo, en realidad, procedemos fijando primero la probabilidad de rechazar la hip´ otesis nula cuando es cierta sea como mucho 0,05. Podemos conseguirlo eliminando un n´ umero c apropiado a la regla de decisi´ on “rechazar la hip´ otesis nula si la media muestral es inferior a c gramos” (en la secci´ on 3.2 explicaremos c´ omo se puede hacer esto). Una vez elegido el n´ umero c, pueden calcularse las probabilidades del error de tipo II usando las procedimientos que expondremos en la secci´ on ??. ◭ ´ 3.1. Conceptos de la prueba de hipotesis
´ Dr. rer. nat. Humberto Llinas
86
Estad´ıstico de prueba y regi´ on cr´ıtica Dos “elementos” importantes que se deben tener en cuanta para realizar una prueba de hip´ otesis son el estad´ıstico de prueba y la regi´ on cr´ıtica.
Definici´ on 3.1.10 Un estad´ıstico de prueba es un estad´ıstico (es decir, una funci´ on que s´ olo depende de la informaci´ on muestral) que se utiliza para determinar si se rechaza, o no, la hip´ otesis nula. ´ n cr´ıtica es el conjunto de todos los valores del estad´ıstico de prueba para los La regio cuales la hip´ otesis nula ser´ a rechazada. Entonces, la hip´ otesis nula ser´ a rechazada si y s´ olo si el valor observado o calculado del estad´ıstico de prueba se ubica en la regi´ on de rechazo.
El estad´ıstico de prueba se determina teniendo en cuenta el par´ ametro sobre el cual se hace la hip´ otesis y la naturaleza de la distribuci´ on muestral del estad´ıstico pertinente, como se ilustra en el siguiente Ejemplo 3.1.11 Supongamos que, de una poblaci´ on distribuida normalmente con varianza σ 2 , as, se selecciona una muestra aleatoria simple de tama˜ no n, con media x y varianza s. Adem´ supongamos que se quiere probar la hip´ otesis nula H0 : µ = µ0 , siendo µ0 un n´ umero real dado. (a) Si σ es conocida, el estad´ıstico de prueba que se usa para verificar una hip´ otesis sobre la media poblacional es x − µ0 √ , Z = σ/ n el cual se distribuye como la distribuci´ on normal est´ andar. (b) Si σ es desconocida, entonces, bajo ciertas condicones, el estad´ıstico de prueba que se usa para verificar una hip´ otesis sobre la media poblacional es t =
x − µ0 √ , s/ n
el cual se distribuye como la distribuci´ on t de Student con n − 1 grados de libertad.
◭
En las secciones 3.2 - 3.7 veremos que el tama˜ no de la regi´ on cr´ıtica estar´ a determinado por el nivel de significancia fijado. En esas secciones estudiaremos con m´ as detalle c´ omo se determina esta regi´ on cr´ıtica para realizar una determinada prueba de hip´ otesis.
3.1.1
Comentarios acerca de los t´ erminos “aceptar” y “rechazar”
Los t´erminos “aceptar” y “rechazar” son com´ unmente usados para las posibles decisiones sobre la hip´ otesis nula en los res´ umenes formales de los resultados de un contraste en particular. Si em´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
87
bargo, estos t´erminos no reflejan adecuadamente la asimetr´ıa de los estatus de las hip´ otesis nula y alternativa, o las consecuencias de un procedimiento en el que se fija el nivel de significancia y no se controla la probabilidad de un error de tipo II. ´ tesis mantenida2 . Adem´ Como ya hemos se˜ nalado, la hip´ otesis nula tiene el estatus de hipo as, al fijar el nivel de significancia, generalmente en alguna probabilidad peque˜ na, estamos asegurando que el riesgo de rechazar una hip´ otesis nula cierta sea peque˜ no. Con esta estructura , una peque˜ na cantidad de datos no ser´ a suficiente para colocarnos en posici´ on de rechazar una hip´ otesis nula, aunque sea completamente err´ onea. Como hemos visto, cuando aumenta el n´ umero de observaciones de la muestra, tambi´en lo hace nuestra capacidad para detectar una hip´ otesis nula falsa. Por tanto, al “aceptar” una hip´ otesis nula, no estamos asegurando necesariamente que haya mucho en su favor. Una afirmaci´ on m´ as precisa, aunque m´ as pedante, sobre la situaci´ on puede ser “los datos disponibles no proporcionan suficiente evidencia para rechazar la hip´ otesis nula, dado que queremos fijar en α la probabilidad de rechazar una hip´ otesis nula que es cierta”. Por esta raz´ on, algunos autores prefieren la frase “no se rechaza la hip´ otesis nula” en lugar de “se acepta la hip´ otesis nula”. Nosotros seguiremos usando “aceptar” como una manera eficiente de expresar esta idea, pero es importante tener en cuenta la interpretaci´ on de la frase. La situaci´ on es muy similar a la de un tribunal de justicia, donde el acusado, al prinicipio, goza de la presunci´ on de inocencia, y la acusaci´ on debe presentar evidencia contraria lo suficientemente clara como para conseguir un veredicto de culpabilidad. En el contexto de la prueba de hip´ otesis cl´ asica, la hip´ otesis nula se considera cierta inicialmente. La tarea de persuadirnos de lo contrario corresponde a los datos de la muestra.
3.2
Prueba para la media
Como se ha hecho en cap´ıtulos anteriores, nuevamente realizaremos el estudio de las pruebas de hip´ otesis para la media poblacional teniendo en cuenta dos casos: el caso de tener muestras grandes y el de tener muestras peque˜ nas.
3.2.1
El caso de muestras grandes
Cuando estemos considerando o bien una poblaci´ on normal (con cualquier tama˜ no de muestra) o bien una poblaci´ on de forma desconocida con muestras grandes (n ≥ 30) y bajo el supuesto de que la varianza poblacional es conocida o desconocida, aunque sea por razones distintas, los resultados son los mismos. En estos casos, la distribuci´ on muestral de la media muestral es la distribuci´ on normal. Para cualquiera de los tres casos siguientes que podemos considerar para la hip´ otesis nula H0 : µ = µ0 , H0 : µ ≥ µ0 , H0 : µ ≤ µ0 , 2
´ tesis mantenida es aqu´ella de que se considera cierta salvo que los datos contengan suficiente Una hipo evidencia en contra 3.2. Prueba para la media
´ Dr. rer. nat. Humberto Llinas
88
x−µ √ 0 y la regi´ el estad´ıstico de prueba tiene la forma Z = σ/ on cr´ıtica depender´ a de cada uno de n estos tres casos, como se ilustra en la tabla 3.3.
Tipo de hip´ otesis Regla de decisi´ on H0 : µ ≥ µ0 Si Z ≤ −Zα , entonces, se rechaza H 1 : µ < µ0 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : µ ≤ µ0 Si Z ≥ Zα , entonces, se rechaza H 1 : µ > µ0 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : µ = µ0 Si Z ≤ −Zα/2 o Z ≥ Zα/2 , entonces, se H1 : µ 6= µ0 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.3: Reglas de decisi´on para la prueba de µ (caso de muestras grandes)
Todo lo anterior se puede resumir en el siguiente
Teorema 3.2.1 Sea x la media de una muestra aleatoria de tama˜ no n tomada de una poblaci´ on 2 con media µ y varianza σ > 0. Supongamos que se cumple alguna de las siguientes condiciones: (a) La poblaci´ on es normal y σ 2 es conocida (no importa el tama˜ no de n); (b) La poblaci´ on es normal, σ 2 es desconocida y n ≥ 30; (c) La forma de la poblaci´ on es desconocida (o no normal), σ 2 es conocida o desconocida y n ≥ 30. Entonces, una prueba de hip´ otesis con nivel de significancia α para la media µ es como se x−µ √ 0 el estad´ ıstico de prueba correspondiente y Zα/2 el valor presenta en la tabla 3.3, siendo Z = σ/ n de una variable aleatoria a la derecha del cual se tiene un a ´rea de α/2 en la distribuci´ on normal. Si la poblaci´ on es finita de tama˜ no N y el muestreo se hace sin reemplazo, se reemplaza √σn por q N −n √σ as, en los casos en que la varianza sea desconocida y n ≥ 30, reemplazamos la desviaci´ on N −1 . Adem´ n poblacional σ por la desviaci´ on muestral s.
Ejemplo 3.2.2 Como parte de un proceso de ensamblaje, se usa un taladro para hacer agujeros en una l´ amina de metal. Cuando el taladro funciona adecuadamente, los di´ ametros de estos agujeros tienen una distribuci´ on normal con media de 2 cent´ımetros y desviaci´ on t´ıpica de 0,06 cent´ımetros. Peri´ odicamente, se miden los di´ ametros de una muestra aleatoria de agujeros para controlar que el taladro funciona adecuadamente. Asumamos que la desviaci´ on t´ıpica no var´ıa. Una muestra aleatoria de nueve medidas da un di´ ametro medio de 1,95 cent´ımetros. Probar la hip´ otesis de que la media poblacional es 2 cent´ımetros frente a la alternativa de que no es as´ı. Use ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
89
un nivel de significancia de 0,05. SOLUCION: Sea µ el di´ ametro medio poblacional (en cent´ımetros). Entonces, queremos contrastar las hip´ otesis H0 : µ = 2
versus
H1 : µ 6= 2.
Tenemos que la poblaci´ on es normal, σ = 0, 06 (conocida), n = 6 y x = 1, 95. Obs´ervese que se cumple el supuesto (a) del teorema 3.2.1. En este caso, µ0 = 2 y el valor del estad´ıstico de prueba est´ a dado por 1, 95 − 2 x − µ0 √ = √ = −2, 50 Z= σ/ n (0, 06) 9 y para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces, como Z = −2, 50 es menor que Zα/2 = 1, 96, se rechaza la hip´ otesis nula al nivel de significancia del 5%. ◭ Ejemplo 3.2.3 Una muestra aleatoria de 100 muertes registradas en cierto pa´ıs durante el a˜ no pasado mostr´ o una vida promedio de 71,8 a˜ nos. Suponiendo una desviaci´ on est´ andar poblacional de 8,9 a˜ nos, ¿parecer´ıa esto indicar que la vida promedio hoy en d´ıa es mayor que 70 a˜ nos? Utilice un nivel de significancia del 5%. SOLUCION: Sea µ la vida promedio poblacional (en a˜ nos). En este ejemplo, se quiere probar la hip´ otesis H0 : µ ≤ 70 a˜ nos
versus
H1 : µ > 70 a˜ nos.
Debido a que la poblaci´ on es no normal (ya que el problema no dice que lo sea), σ = 8, 9 (conocida), n = 100(≥ 30), entonces, se puede aplicar el teorema 3.2.1 porque el supuesto (c) de ese teorema se cumple. En este caso, x = 71, 8, µ0 = 70 y el valor del estad´ıstico de prueba est´ a dado por Z=
71, 8 − 70 x − µ0 √ = √ = 2, 02. σ/ n (8, 9) 100
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα = Z0,05 = 1, 64. Entonces, como Z = 2, 02 es mayor que Zα = 1, 64, se rechaza la hip´ otesis nula al nivel de significancia del 5%. Es decir, se concluye que la vida promedio hoy en d´ıa es mayor que 70 a˜ nos. ◭
3.2.2
Caso de muestra peque˜ nas
La poblaci´ on de inter´es est´ a distribuida normalmente, o no. Si es normal, entonces, podemos utilizar t como el estad´ıstico de prueba, entonces, una prueba de hip´ otesis de la media de la poblaci´ on es posible. Si la poblaci´ on no est´ a distribuida normalmente, entonces, es un problema serio no conocer σ. Para muestras peque˜ nas simplemente no conocemos la distribuci´ on muestral suficientemente como para especificar un valor cr´ıtico de α, la probabilidad del error de tipo I. Por eso, no hay ninguna teor´ıa general que nos permita construir una regla de decisi´ on. En tales situaciones, una soluci´ on es tomar una muestra grande.
3.2. Prueba para la media
´ Dr. rer. nat. Humberto Llinas
90
Nuevamente, para cualquiera de los tres casos siguientes que podemos considerar para la hip´ otesis nula H0 : µ = µ0 , H0 : µ ≥ µ0 , H0 : µ ≤ µ0 , √ 0 , la distribuci´ on a considerar es la t de Student la estad´ıstica de prueba tiene la forma t = x−µ s/ n con n − 1 grados de libertad y la regi´ on cr´ıtica depender´ a de cada uno de estos tres casos, como se ilustra en la tabla 3.4.
Tipo de hip´ otesis Regla de decisi´ on H0 : µ ≥ µ0 Si t ≤ −tα , entonces, se rechaza H 1 : µ < µ0 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : µ ≤ µ0 Si t ≥ tα , entonces, se rechaza H 1 : µ > µ0 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : µ = µ0 Si t ≤ −tα/2 o t ≥ tα/2 , entonces, se H1 : µ 6= µ0 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.4: Reglas de decisi´on para la prueba de µ con muestras peque˜ nas
Los resultados expresados anteriormente se pueden resumir en el siguiente
Teorema 3.2.4 Sean x y s2 la media y varianza de una muestra aleatoria de tama˜ no n < 30 tomada de una poblaci´ on normal con media µ y varianza σ 2 desconocida. Entonces, una prueba de hip´ otesis con nivel de significancia α para la media µ es como se presenta en la tabla 3.4, siendo √ 0 el estad´ ıstico de prueba correspondiente y tα/2 el valor de una variable aleatoria a la t = x−µ s/ n derecha del cual se tiene un a ´rea de α/2 en la distribuci´ on t de Student con n−1 grados de libertad. q −n Si la poblaci´ on es finita de tama˜ no N , se reemplaza √sn por √sn N N −1 . Es importar enfatizar que cuando la forma de la distribuci´ on de la poblaci´ on es desconocida o es no normal, entonces, no hay ning´ un m´etodo general para establecer una prueba de hip´ otesis para la media poblacional µ.
3.3
Pruebas para la proporci´ on
En muchos problemas pr´ acticos, queremos probar hip´ otesis sobre la proporci´ on p de elementos de una poblaci´ on que poseen cierto atributo. La inferencia sobre la proporci´ on poblacional se basa en la proporci´ on de individuos p de una muestra aleatoria que poseen el atributo de inter´es. Como se˜ nalamos en cap´ıtulos anteriores, bajo ciertas condiciones, la distribuci´ on muestral de la proporci´ on muestral es la distribuci´ on normal. En esta situaci´ on, supondremos que p es la ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
91
proporci´ on de ´exitos en una muestra aleatoria de tama˜ no n, procedente de un poblaci´ on con proporci´ on p ´exitos y las hip´ otesis que podemos probar para la proporci´ on poblacional p son las siguientes: H 0 : p = p0 , H0 : p ≥ p0 , H0 : p ≤ p0 . x−p √0 y la regi´ El estad´ıstico de prueba tiene la forma Z = σ/ on cr´ıtica depender´ a de cada uno de n estos tres casos, como se ilustra en la tabla 3.5.
Tipo de hip´ otesis Regla de decisi´ on H0 : p ≥ p 0 Si Z ≤ −Zα , entonces, se rechaza H1 : p < p 0 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : p ≤ p 0 Si Z ≥ Zα , entonces, se rechaza H1 : p > p 0 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : p = p 0 Si Z ≤ −Zα/2 o Z ≥ Zα/2 , entonces, se H1 : p 6= p0 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.5: Reglas de decisi´on para la prueba de p (caso de muestras grandes)
El siguiente teorema formaliza lo expresado anteriormente.
Teorema 3.3.1 Sea p es la proporci´ on de ´exitos en una muestra aleatoria de tama˜ no n, procedente de un poblaci´ on con proporci´ on p ´exitos. Supongamos que se cumple alguna de las dos siguientes condiciones: (a) n ≥ 30; (b) np ≥ 5 y n(1 − p) ≥ 5. Entonces, una prueba de hip´ otesis con nivel de significancia α para la proporci´ on p es como se p−p 0 presenta en la tabla 3.5, siendo Z = q p (1−p ) el estad´ıstico de prueba correspondiente y Zα/2 el 0
n
0
valor de una variable aleatoria a la derecha del cual se tiene un a ´rea de α/2 en la distribuci´ on normal.
Para el caso de una poblaci´ on finita de tama˜ no N , debemos reemplazar q q p0 (1−p0 ) N −n n N −1 .
q
p0 (1−p0 ) n
por la cantidad
Ejemplo 3.3.2 De una muestra aleatoria de 802 clientes de supermercados, suponga que 378 pagaron sus art´ıculos con tarjetas de cr´edito. Contrastar el nivel del 10%, la hip´ otesis nula de que al menos la mitad de los compradores pagan sus art´ıculos con t´ arjetas de cr´edito frente a la ´ 3.3. Pruebas para la proporcion
´ Dr. rer. nat. Humberto Llinas
92
alternativa de que la proporci´ on poblacional es menor de la mitad. SOLUCION: Sea p la proporci´ on poblacional de compradores que pagan sus art´ıculos con tarjetas de cr´edito. Queremos probar la hip´ otesis H0 : p ≥ 0, 50
versus
H1 : p < 0, 50.
En este ejemplo, p0 = 0, 50, n = 802 (≥ 30), p = 378/802 = 0, 471. Obs´ervese que puede aplicar el teorema 3.2.1 porque el supuesto (a) del teorema se cumple. En este caso, el valor del estad´ıstico de prueba est´ a dado por p − p0 Z=q
p0 (1−p0 ) n
0, 471 − 0, 50 =p = −1, 64. (0, 50)(0, 50)/802
Para una prueba al nivel del 10%, tenemos que α = 0, 10 y Zα = Z0,10 = 1, 28. Entonces, como Z = −1, 64 es menor que −Zα = −1, 28, se rechaza la hip´ otesis nula al nivel de significancia del 10%. ◭ Ejemplo 3.3.3 Un doctor afirma que el 12% de todas las citas son canceladas, durante un periodo de seis semanas, fueron canceladas 21 de las 200 citas del doctor. Haga una prueba con un nivel de significancia del 5% para determinar si la verdadera proporci´ on de todas las citas que son canceladas es diferente del 12%. SOLUCION: Sea p la proporci´ on poblacional de citas canceladas. En este ejemplo queremos probar la hip´ otesis H0 : p = 0, 12
versus
H1 : p 6= 0, 12.
Tenemos que p0 = 0, 12, n = 200 (≥ 30), p = 21/200 = 0, 105. Nuevamente podemos aplicar el teorema 3.2.1. En este caso, el valor del estad´ıstico de prueba est´ a dado por p − p0 Z=q
p0 (1−p0 ) n
0, 105 − 0, 12 =p = −0, 65. (0, 12)(0, 88)/200
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces, como Z = −0, 65 est´ a entre −Zα/2 = −1, 96 y Zα/2 = 1, 96, se acepta la hip´ otesis nula al nivel de significancia del 5%. Es decir, no tenemos evidencia estad´ıstica para rechazar la afirmaci´ on del doctor. ◭
3.4
Prueba para la diferencia de dos proporciones
Volvamos sobre el problema de comparaci´ on de dos proporciones poblacionales. Como antes, supongamos que disponemos de dos muestras aleatorias independientes. La primera consta de n1 observaciones de una poblaci´ on cuya proporci´ on de “´exitos” es p1 y la proporci´ on muestral resultante es p1 . La segunda consta de n2 observaciones de una poblaci´ on cuya proporci´ on de ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
93
´exitos es p2 y la proporci´ on muestral resultante es p2 . En el cap´ıtulo anterior, vimos que, bajo ciertas condiciones, entonces (p − p2 ) − (p1 − p2 ) Z = q1 p1 (1−p1 ) 2) + p2 (1−p n1 n2 tiene aproximadamente una distribuci´ on normal est´ andar. Supongamos que que queremos contrastar la hipotesis de que las proporciones poblacionales son iguales. Si denotamos por p0 su valor com´ un, entonces, bajo esta hip´ otesis, tenemos que Z=q
p1 − p2
p0 (1−p0 ) n1
+
p0 (1−p0 ) n2
tiene aproximadamente una distribuci´ on normal est´ andar. Finalmente, la proporci´ on desconocida p0 de la expresi´ on anterior puede estimarse mediante el estimador p0 (que utiliza las dos proporciones muestrales) dado por p0 =
n 1 p1 + n 2 p2 . n1 + n2
Reemplazando el valor desconocido p0 por p0 se obtiene una variable aleatoria cuya distribuci´ on est´ a pr´ oxima a la normal. Este resultado es la base para probar las hip´ otesis H0 : p1 − p2 = 0,
H0 : p1 − p2 ≥ 0,
H 0 : p1 − p 2 ≤ 0
y la regi´ on cr´ıtica depender´ a de cada uno de estos tres casos, como se ilustra en la tabla 3.6.
Tipo de hip´ otesis Regla de decisi´ on H0 : p1 − p2 ≥ 0 Si Z ≤ −Zα , entonces, se rechaza H1 : p1 − p2 < 0 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : p1 − p2 ≤ 0 Si Z ≥ Zα , entonces, se rechaza H1 : p1 − p2 > d0 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : p1 − p2 = 0 Si Z ≤ −Zα/2 o Z ≥ Zα/2 , entonces, se H1 : p1 − p2 6= 0 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.6: Reglas de decisi´on para la prueba de p1 − p2 (varianzas conocidas) 3.4. Prueba para la diferencia de dos proporciones
´ Dr. rer. nat. Humberto Llinas
94
Teorema 3.4.1 Sea p1 la proporci´ on de ´exitos observada en una muestra aleatoria de tama˜ no n1 , on de ´exitos observada procedente de una poblaci´ on con proporci´ on p1 de ´exitos, y sea p2 la proporci´ en una muestra aleatoria independiente de tama˜ no n2 , procedente de una poblaci´ on con proporci´ on de ´exitos p1 . Supongamos que se cumple alguna de las siguientes dos condiciones: (a) n1 ≥ 30 y n2 ≥ 30; (b) n1 p1 ≥ 5, n1 (1 − p1 ) ≥ 5, n2 p2 ≥ 5 y n2 (1 − p2 ) ≥ 5. Entonces, una prueba de hip´ otesis con nivel de significancia α para la diferencia de proporciones p1 − p2 es como se presenta en la tabla 3.6, siendo Z=q
p1 − p 2
p0 (1−p0 ) n1
+
p0 (1−p0 ) n2
el estad´ıstico de prueba correspondiente con p0 =
n 1 p1 + n 2 p2 n1 + n2
En la tabla mencionada, Zα/2 el valor de una variable aleatoria a la derecha del cual se tiene un a ´rea de α/2 en la distribuci´ on normal est´ andar.
Ejemplo 3.4.2 Un rector de cierta universidad afirma que la proporci´ on de hombres que tienen auto en el campus es mayor a la proporci´ on de mujeres que tienen auto en el campus. Un profesor de estad´ıstica se interesa en la afirmaci´ on y entrevista aleatoriamente a 100 hombres y a 100 mujeres. Encuentra que 34 hombres y 27 mujeres tienen autos en el campus. ¿Puede concluirse con un nivel del 5% que la afirmaci´ on del rector es falsa? SOLUCION: Sean p1 y p2 las proporciones poblacionales de hombres y mujeres, respectivamente, que tienen auto en el campus. Entonces, queremos contrastar la hip´ otesis nula H 0 : p1 − p2 ≤ 0
versus
H1 : p1 − p2 > 0.
Los datos muestrales son n1 = 100,
p1 =
34 = 0, 34, 100
n2 = 100,
p2 =
27 = 0, 27. 100
Con estos valores, el estimador com´ un bajo la hip´ otesis nula es p0 =
(100)(0, 34) + (100)(0, 27) n1 p1 + n2 p2 = = 0, 305 n1 + n2 100 + 100
y el estad´ıstico de prueba est´ a dado por Z = q
p1 − p 2
p0 (1−p0 ) n1
+
p0 (1−p0 ) n2
= q
0, 34 − 0, 27
(0,305)(0,695) 100
+
(0,305)(0,695) 100
´ Cap´ıtulo 3. Pruebas de hipotesis
= 1, 075.
Estad´ıstica inferencial
95
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα = Z0,05 = 1, 64. Entonces, como Z = 1, 075 es menor que Zα = 1, 64, al nivel de significancia del 5%, no se rechaza la hip´ otesis nula de que la proporci´ on de hombres que tienen auto en el campus es menor o igual a la proporci´ on de mujeres que tienen auto en el campus. Es decir, los datos muestran que la afirmaci´ on del rector es falsa. ◭ Ejemplo 3.4.3 De una muestra aleatoria de 203 anuncios publicados en revistas colombianas, 52 eran de deportes. De una muestra aleatoria independiente de 270 anuncios publicados en revistas brasileras, 56 eran de deportes. Usando un nivel del 5%, constrastar frente a una alternativa bilateral, la hip´ otesis nula de que las proporciones de anuncios c´ omicos de las revistas colombianas y americanas son iguales. SOLUCION: Denotemos por p1 y p2 las proporciones poblacionales de anuncios deportivos en revistas colombianas y brasileras, respectivamente. Entonces, queremos contrastar la hip´ otesis nula H 0 : p1 − p2 = 0
versus
H1 : p1 − p2 6= 0.
En este ejemplo, n1 = 203,
p1 =
52 = 0, 256, 203
p2 =
n2 = 270,
56 = 0, 207. 270
Con esto, el estimador com´ un bajo la hip´ otesis nula es p0 =
n1 p1 + n2 p2 (203)(0, 256) + (270)(0, 207) = = 0, 228 n1 + n2 203 + 270
y el estad´ıstico de prueba est´ a dado por Z = q
p1 − p2
p0 (1−p0 ) n1
+
p0 (1−p0 ) n2
= q
0, 256 − 0, 207
(0,228)(0,772) 203
+
(0,228)(0,772) 270
= 1, 26.
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces, como Z = 1, 26 es menor que Zα/2 = 1, 96, al nivel de significancia del 5%, no se rechaza la hip´ otesis nula de que las proporciones poblacionales de anuncios deportivos en las revistas colombianas y brasileras son las mismas. ◭
3.5
Prueba para la diferencia de dos medias
En esta secci´ on, examinaremos el caso que se dispone de muestras aleatorias de dos poblaciones, y en el que el par´ ametro de inter´es consiste en la diferencia entre las dos medias poblacionales. En los procedimientos que se desarrollan para contrastar hip´ otesis, la metodolog´ıa adecuada depende, una vez m´ as, de la manera en la que se tomaron las muestras. Es decir, depende de los dos casos siguientes: el caso de tener muestras pareadas y el de tener muestras independientes. Nosotros s´ olo nos limitaremos a desarrollar pruebas para el segundo caso. Ahora, al igual que en cap´ıtulos anteriores, basaremos nuestro estudio de tales pruebas de acuerdo a los siguientes tres casos: 3.5. Prueba para la diferencia de dos medias
´ Dr. rer. nat. Humberto Llinas
96
1. Las varianzas poblacionales son conocidas o desconocidas y las muestras son grandes. 2. Las varianzas poblacionales son iguales, desconocidas y las muestras son peque˜ nas. 3. Las varianzas poblacionales son diferentes, desconocidas y las muestras son peque˜ nas. Para estos tres casos supondremos que disponemos de una muestra aleatoria (de tama˜ no n1 , con 2 media x1 y varianza s1 ) que es tomada de una poblaci´ on con media µ1 y varianza σ1 , y de una muestra aleatoria (independiente de la anterior, de tama˜ no n2 , con media x2 y varianza s22 ) que es tomada de una poblaci´ on con media µ2 y varianza σ2 .
3.5.1
Primer caso: varianzas poblacionales conocidas o desconocidas y muestras grandes
Como ya se explicado en en cap´ıtulos anteriores, en esta situaci´ on, la distribuci´ on muestral de la diferencia de dos medias muestrales es la distribuci´ on normal. Las hip´ otesis que podemos probar para la diferencia de dos medias poblacionales µ1 y µ2 son las siguientes: H0 : µ1 − µ2 = d0 ,
H0 : µ1 − µ2 ≥ d0 ,
H0 : µ1 − µ2 ≤ d0 .
El estad´ıstico de prueba tiene la forma Z=
(x1 − x2 ) − d0 q 2 σ1 σ22 n1 + n2
y la regi´ on cr´ıtica depender´ a de cada uno de estos tres casos, como se ilustra en la tabla 3.7.
Tipo de hip´ otesis Regla de decisi´ on H0 : µ1 − µ2 ≥ d0 Si Z ≤ Zα , entonces, se rechaza H1 : µ1 − µ2 < d0 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : µ1 − µ2 ≤ d0 Si Z ≥ Zα , entonces, se rechaza H1 : µ1 − µ2 > d0 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : µ1 − µ2 = d0 Si Z ≤ −Zα/2 o Z ≥ Zα/2 , entonces, se H1 : µ1 − µ2 6= d0 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.7: Reglas de decisi´on para la prueba de µ1 − µ2 (varianzas conocidas) El siguiente teorema formaliza lo expresado anteriormente.
´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
97
Teorema 3.5.1 Sean x1 y x2 las medias de muestras aleatorias independientes de tama˜ nos n1 2 2 y n2 de poblaciones con medias µ1 , µ2 y varianzas σ1 , σ2 , respectivamente. Supongamos que se cumple alguna de las siguientes condiciones: (a) Ambas poblaciones son normales y ambas varianzas poblaciones σ12 y σ22 son conocidas; (b) Ambas poblaciones son desconocidas o no normales, ambas varianzas poblacionales σ12 y σ22 son conocidas o desconocidas y n1 ≥ 30, n2 ≥ 30. Entonces, una prueba de hip´ otesis con nivel de significancia α para la diferencia µ1 − µ2 es como se presenta en la tabla 3.7, siendo (x1 − x) − d0 Z= q 2 σ1 σ22 + n1 n2
el estad´ıstico de prueba correspondiente y Zα/2 el valor de una variable aleatoria a la derecha del cual se tiene un a ´rea de α/2 en la distribuci´ on normal. En el caso en que las varianzas poblacionales son desconocidas, utilizamos las desviaciones muestrales repectivas como estimaci´ on de las correspondientes desviaciones poblacionales.
Ejemplo 3.5.2 Se llev´ o a cabo un estudio entre expertos matem´ aticos para conocer su opini´ on sobre las mujeres matem´ aticas. Se les pidi´ o que evaluaran en una escala de 1 (totalmente en desacuerdo) a 5 (totalmente de acuerdo) la afirmaci´ on: “Las mujeres matem´ aticas tienen la misma oferta de trabajo que los hombres”. Para una muestra aleatoria de 186 hombres de esta profesi´ on, la respuesta media fue de 4.059 con una desviaci´ on t´ıpica de 0,839. Para una muestra aleatoria independiente de 172 mujeres matem´ aticas, la respuesta media fue 3.680 con una desviaci´ on t´ıpica de 0,966. Utilize un nivel de significancia del 5% para contrastar la hip´ otesis nula de que las dos medias poblacionales son iguales frente a la alternativa de que ambas sean diferentes. SOLUCION: Sean µ1 y µ2 las respectivas medias poblacionales de hombres y mujeres matem´ aticas. Queremos contrastar la hip´ otesis H0 : µ1 − µ2 = 0
versus
H1 : µ1 − µ2 6= 0.
Tenemos que n1 = 186, n2 = 172,
x1 = 4, 059, x2 = 3, 680,
s1 = 0, 839; s2 = 0, 966.
Observemos que podemos aplicar el teorema 3.2.1. En este caso, d0 = 0 y el valor del estad´ıstico de prueba est´ a dado por Z =
(4, 059 − 3, 680) − 0 (x1 − x) − d0 q 2 = q = 3, 95. 2 σ2 σ1 (0,966)2 (0,839)2 + + n1 n2 186 172 3.5. Prueba para la diferencia de dos medias
´ Dr. rer. nat. Humberto Llinas
98
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces, como Z = 3, 95 es mayor que Zα = 1, 96, se rechaza la hip´ otesis nula al nivel de significancia del 5%. Por lo tanto, estos datos sugieren que la respuesta media en la poblaci´ on es mayor para los hombres que para las mujeres. Es decir, en promedio, los hombres tienen m´ as confianza que las mujeres en que a las mujeres se les ofrecen las mismas ofertas de trabajo que a los hombres. ◭ Ejemplo 3.5.3 En un establecimiento escolar suburbano, se seleccion´ o al azr una muestra aleatoria de 25 alumnos de quinto grado (grupo 1) de una poblacion de estudiantes perteneciente a familias en que ambos padres trabajan. Se seleccion´ o tambi´en una muestra aleatoria al azar de 15 estudiantes (grupo 2) del mismo grado y establecimiento escolar entre aquellos estudiantes que pertenecen a familias en que solamente el padre trabaja. El an´ alisis de los puntajes de rendimiento escolar (en escala de 1 a 100) de los dos grupos dio los siguientes resultados: un puntaje promedio de 78 para el grupo 1 y de 85 para el grupo 2. La experiencia muestra que las poblaciones de puntajes para ambos grupos est´ an distribuidas en forma aproximadamente normal, con varianzas 2 2 de σ1 = 81 y σ2 = 25. Utilizando un nivel de significancia del 5% y con base en estos datos, determinar si se puede concluir que la media de la poblaci´ on de la que se seleccion´ o el grupo 1 es inferior a la media de la poblaci´ on de la que se seleccion´ o el grupo 2. SOLUCION: Sean µ1 y µ2 las respectivas medias poblacionales de puntajes promedios. Al plantear las hip´ otesis del problema, obtenemos H0 : µ1 ≥ µ2 H1 : µ1 < µ2
o su equivalente o su equivalente
H0 : µ1 − µ2 ≥ 0; H1 : µ1 − µ2 < 0.
ahora, tenemos que n1 = 25, n2 = 15,
x1 = 78, x2 = 85,
σ12 = 81; σ22 = 25.
Observemos que nuevamente podemos aplicar el teorema 3.2.1. En este caso, d0 = 0 y el valor del estad´ıstico de prueba est´ a dado por Z =
(x1 − x2 ) − d0 (78 − 85) − 0 q 2 = q = −3, 16. 2 σ1 σ2 81 25 + 25 15 n1 + n2
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα = Z0,05 = 1, 64. Entonces, como Z = −3, 16 es menor que −Zα = −1, 64, se rechaza la hip´ otesis nula al nivel de significancia del 5%. Por lo tanto, se concluye que en ese establecimiento escolar, los puntajes promedios generales de rendimiento de los estudiantes de quinto grado que pertenecen a familias en que ambos padres trabajan son inferiores a los de los estudiantes que pertenecen a familias en que solamente el padre trabaja. ◭ ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
3.5.2
99
Segundo caso: varianzas poblacionales iguales, desconocidas y muestras peque˜ nas
Ahora, trataremos el caso en el cual los tama˜ nos muestrales no son grandes y las varianzas poblacionales son iguales pero desconocidas. En este caso, para probar las hip´ otesis H0 : µ1 − µ2 = d0 ,
H0 : µ1 − µ2 ≥ d0 ,
H0 : µ1 − µ2 ≤ d0 ,
el estad´ıstico de prueba tiene la forma
t=
(x1 − x2 ) − d0 q s2 s2 n1 + n2
corresponde al valor de una variable aleatoria que tiene distribuci´ on t de Student con ν = n1 +n2 −2 grados de libertad. En la expresi´ on anterior, s2 =
(n1 − 1)s21 + (n2 − 1)s22 , n1 + n2 − 2
es la llamada varianza muestral combinada y corresponde a un estimador de la varianza poblacional com´ un. Nuevamente, la regi´ on cr´ıtica depender´ a de cada uno de estos tres casos, como se ilustra en la tabla 3.8.
Tipo de hip´ otesis Regla de decisi´ on H0 : µ1 − µ2 ≥ d0 Si t ≤ tα , entonces, se rechaza H1 : µ1 − µ2 < d0 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : µ1 − µ2 ≤ d0 Si t ≥ tα , entonces, se rechaza H1 : µ1 − µ2 > d0 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : µ1 − µ2 = d0 Si t ≤ −tα/2 o t ≥ tα/2 , entonces, se H1 : µ1 − µ2 6= d0 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.8: Reglas de decisi´on para la prueba de µ1 − µ2 (varianzas desconocidas)
En el siguiente teorema resumimos todo lo expresado anteriormente.
3.5. Prueba para la diferencia de dos medias
´ Dr. rer. nat. Humberto Llinas
100
Teorema 3.5.4 Sean x1 y x2 las medias de muestras aleatorias independientes de tama˜ nos n1 < 2 2 30 y n2 < 30 de poblaciones normales con medias µ1 , µ2 y varianzas σ1 , σ2 iguales y desconocidas. Entonces, una prueba de hip´ otesis con nivel de significancia α para la diferencia de medias µ1 − µ2 es como se presenta en la tabla 3.8, siendo t=
(x1 − x2 ) − d0 q s2 s2 n1 + n2
es el estad´ıstico de prueba correspondiente. En la expresi´ on anterior, s2 =
(n1 − 1)s21 + (n2 − 1)s22 . n1 + n2 − 2
Adem´ as, tα/2 el valor de una variable aleatoria de una variable aleatoria que tiene distribuci´ on t de Student con ν = n1 + n2 − 2 grados de libertad a la derecha del cual se tiene un a ´rea de α/2 en esta distribuci´ on. Ejemplo 3.5.5 Se llev´ o a cabo un estudio que pretend´ıa valorar el efecto de la presencia de un moderador sobre el n´ umero de ideas generadas por un grupo. Se observaron cuatro miembros, con y sin moderadores. Para una muestra aleatoria de cuatro grupos con moderador, el n´ umero medio de ideas generadas por grupo fue de 78, con una desviaci´ on t´ıpica de 24,4. Para una muestra aleatoria independiente de cuatro grupos sin moderardor, el n´ umero medio de ideas generadas por grupo fue de 63,5, con una desviaci´ on t´ıpica de 20,2. Asumiendo que las distribuciones poblacionales son normales con igual varianza, contrastar la hip´ otesis nula de que las medias poblacionales son iguales frente a la alternativa de que la verdadera media es mayor para los grupos con moderador. Use un nivel de significancia del 10%. SOLUCION: Sean µ1 y µ2 las respectivas medias poblacionales para los grupos con y sin moderador. Queremos contrastar la hip´ otesis H0 : µ1 − µ2 = 2
versus
H1 : µ1 − µ2 > 2.
Tenemos que n1 = 4, n2 = 4,
x1 = 78, 0, x2 = 63, 5,
s1 = 24, 4; s2 = 20, 2.
Observemos que podemos aplicar el teorema 3.5.4. En este caso, d0 = 0. La varianza poblacional com´ un se estima como s2 =
(3)(24, 4)2 + (3)(20, 2)2 (n1 − 1)s21 + (n2 − 1)s22 = = 501, 7. n1 + n2 − 2 4+4−2
Adem´ as, el valor del estad´ıstico de prueba est´ a dado por t =
(78, 0 − 63, 5) − 0 (x1 − x2 ) − d0 q = q = 0, 915 2 2 501,7 501,7 s s + − n1 n2 4 4 ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
101
Para una prueba al nivel del 10%, tenemos que α = 0, 10 y tα = t0,10 = 1, 44 con ν = n1 +n2 −2 = 6 grados de libertad. Entonces, como t = 0, 915 es menor que tα = 1, 44, no puede rechazarse la hip´ otesis nula de igualdad de medias frente a la alternativa unilateral al nivel de significancia del 10%. Por lo tanto, los datos de la muestra no contienen suficiente evidencia que sugiera que, en promedio, se generan m´ as ideas en los grupos con moderador. ◭ Ejemplo 3.5.6 Se llev´ o a cabo un experimento para comparar el deterioro abrasivo de dos materiales laminados diferentes. Se probaron doce piezas del material 1, exponiendo cada una a una m´ aquina para medir el deterioro. De la misma manera, se probaron diez piezas del material 2. En cada caso, se observ´ o la profundidad del deterioro. Las muestras del material 1 dieron un deterioro promedio (registrado) de 85 unidades con una desviaci´ on est´ andar muestral de 4, mientras que las muestras del material 2 dieron un promedio de 81 y una desviaci´ on est´ andar muestral de 5. ¿Puede concluirse en el nivel de significancia del 5% que el deterioro abrasivo del material 1 excede al del material 2 por m´ as de 2 unidades? Asuma que las poblaciones son aproximadamente normales con varianzas iguales. SOLUCION: Sean µ1 y µ2 las respectivas medias poblacionales para las piezas de los materiales 1 y 2. Queremos contrastar la hip´ otesis H0 : µ1 − µ2 = 0
versus
H1 : µ1 − µ2 > 0.
Tenemos que n1 = 12, n2 = 10,
x1 = 85, x2 = 81,
s1 = 4; s2 = 5.
Observemos que nuevamente podemos aplicar el teorema 3.5.4. En este caso, d0 = 2. La varianza poblacional com´ un se estima como s2 =
(11)(16) + (9)(25) (n1 − 1)s21 + (n2 − 1)s22 = = 20, 05. n1 + n2 − 2 12 + 10 − 2
Adem´ as, el valor del estad´ıstico de prueba est´ a dado por t =
(85 − 81) − 2 (x1 − x2 ) − d0 q = q = 1, 04 20,5 20,5 s2 s2 + n1 n2 12 − 10
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y tα = t0,05 = 1, 725 con ν = n1 + n2 − 2 = 20 grados de libertad. Entonces, como t = 1, 04 es menor que tα = 1, 725, no puede rechazarse la hip´ otesis nula de igualdad de medias frente a la alternativa unilateral al nivel del 5%. Por lo tanto, no se est´ a en condiciones de concluir que el deterioro abrasivo del material 1 excede al del material 2 por m´ as de dos unidades. ◭ 3.5. Prueba para la diferencia de dos medias
´ Dr. rer. nat. Humberto Llinas
102
3.5.3
Tercer caso: varianzas poblacionales diferentes, desconocidas y muestras peque˜ nas
Ahora, estudiaremos el caso en el cual los tama˜ nos muestrales no son grandes y las varianzas poblacionales son diferentes pero desconocidas. En esta situaci´ on, para probar las hip´ otesis H0 : µ1 − µ2 = d0 ,
H0 : µ1 − µ2 ≥ d0 ,
H0 : µ1 − µ2 ≤ d0 ,
el estad´ıstico de prueba tiene la forma (x1 − x2 ) − d0 q 2 s1 s22 n1 + n2
t=
corresponde al valor de una variable aleatoria que tiene distribuci´ on t de Student con 2 s22 2 s1 − n1 n2 ν = (s2 /n )2 (s2 /n )2 1 2 1 2 n1 −1 + n2 −1 grados de libertad. Nuevamente, la regi´ on cr´ıtica depender´ a de cada uno de estos tres casos y es completamente an´ aloga a la que se muestra en la tabla 3.8. Todo lo expresado anteriormente se puede resumir en el siguiente
Teorema 3.5.7 Sean x1 y x2 las medias de muestras aleatorias independientes de tama˜ nos 2 2 n1 < 30 y n2 < 30 de poblaciones normales con medias µ1 , µ2 y varianzas σ1 , σ2 diferentes y desconocidas. Entonces, una prueba de hip´ otesis con nivel de significancia α para la diferencia de medias µ1 − µ2 es como se presenta en la tabla 3.8, siendo t=
(x1 − x2 ) − d0 q s2 s2 n1 + n2
es el estad´ıstico de prueba correspondiente. Adem´ as, tα/2 el valor de una variable aleatoria de una variable aleatoria que tiene distribuci´ on t de Student con
ν=
2
s21 n1
+
s22 n2
(s21 /n1 )2 n1 −1
+
(s22 /n2 )2 n2 −1
grados de libertad a la derecha del cual se tiene un a ´rea de α/2 en esta distribuci´ on.
Ejemplo 3.5.8 El departamento de zoolog´ıa de cierto instituto llev´ o a cabo un estudio para estimar la diferencia en la cantidad de cierta sustancia qu´ımica medida en dos estaciones diferentes de un r´ıo. La sustancia se mide en miligramos por litro. Se reunieron 15 muestras de la estaci´ on 1 y 12 muestras de la estaci´ on 2. Las 15 muestras de la estaci´ on 1 tuvieron un contenido promedio de sustancia qu´ımica de 3,84 miligramos por litro y una desviaci´ on est´ andar de 3,07 miligramos ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
103
por litro, mientras que las 12 muestras de la estaci´ on 2 tuvieron un contenido promedio de 1,49 miligramos por litro y una desviaci´ on est´ andar de 0,80 miligramos por litro. Al nivel del 5% determine si los contenidos promedios reales de sutancia en estas dos estaciones son diferentes. Suponga que las observaciones vienen de poblaciones normalmente distribuidas con varianzas diferentes. SOLUCION: Sean µ1 y µ2 las respectivas medias poblacionales para contenidos promedios reales de sutancia en las dos estaciones. Queremos contrastar la hip´ otesis H0 : µ1 − µ2 = 0
versus
H1 : µ1 − µ2 6= 0.
Tenemos que Tenemos que n1 = 15,
x1 = 3, 84,
s1 = 3, 07,
n2 = 12,
x2 = 1, 49,
s2 = 0, 80.
Observemos que podemos aplicar el teorema 3.5.7. En este caso, d0 = 0 El valor del estad´ıstico de prueba est´ a dado por t =
(3, 84 − 1, 49) − 0 (x1 − x2 ) − d0 q 2 = 2, 846 = q s22 s1 (3,07)2 (0,80)2 + 12 n1 + n2 15
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y tα/2 = t0,025 = 2, 120 con
ν =
i2
(3,07)2 15
+
(0,80)2 12
((3,07)2 /15)2 15−1
+
((0,80)2 /12)2 12−1
h
= 16, 3 ≈ 16
grados de libertad. Entonces, como t = 2, 846 es mayor que tα/2 = 1, 725, puede rechazarse la hip´ otesis nula de igualdad de medias frente a la alternativa bilateral al nivel del 5%. Por lo tanto, podemos concluir que los contenidos promedio reales de sustancia para estos dos lugares son diferentes (comp´ arese este resultado con el obtenido en el ejemplo ??). ◭
3.6
Prueba para la varianza
En esta secci´ on, el inter´es se centra en pruebas de hip´ otesis relacionadas con la varianza de una poblaci´ on distribuida normalmente. Para ello, supondremos que s2 es la varianza de una muestra aleatoria de tama˜ no n, tomada de una poblaci´ on distribuida normalmente con media µ y varianza σ 2 . Entonces, se desean probar las hip´ otesis que consideran la uniformidad de una poblaci´ on, dadas por H0 : σ 2 = σ02 , H0 : σ 2 ≤ σ02 , H0 : σ 2 ≥ σ02 . El estad´ıstico de prueba tiene la forma χ2 =
(n − 1)s2 σ02
3.6. Prueba para la varianza
´ Dr. rer. nat. Humberto Llinas
104
y corresponde al valor de una variable aleatoria que tiene distribuci´ on chi-cuadrada con n − 1 grados de libertad. La regi´ on cr´ıtica depender´ a de cada uno de estos tres casos, como se ilustra en la tabla 3.9.
Tipo de hip´ otesis Regla de decisi´ on 2 2 2 2 H0 : σ ≥ σ0 Si χ ≤ χ1−α , entonces, se rechaza 2 2 H1 : σ < σ0 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : σ 2 ≤ σ02 Si χ2 ≥ χ2α , entonces, se rechaza H1 : σ 2 > σ02 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : σ 2 = σ02 Si χ2 ≤ χ21− α o χ2 ≥ χ2α , entonces, se 2 2 H1 : σ 2 6= σ02 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.9: Reglas de decisi´on para la prueba de σ 2
En el siguiente teorema resumimos todo lo expresado anteriormente.
Teorema 3.6.1 Si s2 es la varianza de una muestra aleatoria de tama˜ no n, tomada de una poblaci´ on distribuida normalmente con media µ y varianza σ 2 , entonces, una prueba de hip´ otesis 2 con nivel de significancia α para la varianza σ es como se presenta en la tabla 3.9, siendo χ2 =
(n − 1)s2 σ02
el estad´ıstico de prueba correspondiente. Adem´ as, χ2α y χ21− α son los valores de una variable 2 2 α α on chialeatoria que deja un a ´rea de 2 y 1 − 2 , respectivamente, a la derecha de la distribuci´ cuadrada con n − 1 grados de libertad.
Ejemplo 3.6.2 Con el fin de cumplir las normas establecidas, es importante que la varianza en el porcentaje de impurezas de unas remesas de productos qu´ımicos no supere el 4%. Una muestra aleatoria de 20 env´ıos dio una varianza muestral de 5,62 en el porcentaje de impureza. Al nivel del 10%, contrastar la hip´ otesis nula de que la varianza de la poblaci´ on no es mayor que 4. Sup´ ongase que la distribuci´ on de la poblaci´ on es normal. SOLUCION: Sea σ 2 la varianza poblacional de la concentraci´ on de impureza. Queremos contrastar la hip´ otesis H0 : σ ≤ 4
versus
H1 : σ > 4.
Tenemos que s2 = 5, 62, n = 20 y σ02 = 4. Observemos que podemos aplicar el teorema 3.6.1. En ´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
105
este caso, el valor del estad´ıstico de prueba est´ a dado por χ2 =
(n − 1)s2 (19)(5, 62) = = 26, 695. 2 4 σ0
Para una prueba al nivel del 10%, tenemos que α = 0, 10 y χ2α (19) = χ20,10 (19) = 27, 20 con ν = n − 1 = 19 grados de libertad. Entonces, como χ2 = 26, 695 es menor que χ20,10 (19) = 27, 20, no puede rechazarse la hip´ otesis nula al nivel del 10%. Por lo tanto, los datos no contienen una evidencia particularmente importante contra la hip´ otesis de que la varianza poblacional del porcentaje de impureza no es mayor que 4. ◭ Ejemplo 3.6.3 La varianza calculada de los puntajes en lectura de los estudiantes de tercer grado del sistema escolar A, obtenidos durante 10 a˜ nos, es 1,44. Una muestra aleatoria de 21 estudiantes de tercer grado de otro sistema escolar (B) con quienes se practic´ o la misma prueba de lectura, 2 arroj´ o una varianza de s = 1, 05. ¿Proporcionan estos datos evidencia suficiente como para concluir, al nivel de significancia 0,05, que los puntajes de los alumnos de tercer grado del sistema B son menos variables de que los de los estudiantes del sistema A? Sup´ onga que los puntajes de los estudiantes de tercer del sistema B est´ an normalmente distribuidos. SOLUCION: Sea σ 2 la varianza poblacional de los puntajes de los estudiantes de tercer del sistema B. Queremos contrastar la hip´ otesis H0 : σ ≥ 1, 44 versus H1 : σ < 1, 44. Para este ejemplo, s2 = 1, 05, n = 21 y σ02 = 1, 44. Observemos que nuevamente podemos aplicar el teorema 3.6.1. En este caso, el valor del estad´ıstico de prueba est´ a dado por χ2 =
(20)(1, 05) (n − 1)s2 = = 14, 48. 2 1, 44 σ0
Para una prueba al nivel del 5%, tenemos que α = 0, 05 y χ21−α (20) = χ20,90 (20) = 10, 851 con ν = n − 1 = 20 grados de libertad. Entonces, como χ2 = 14, 48 es mayor que χ20,05 (20) = 10, 851, podemos rechazar la hip´ otesis nula al nivel del 5%. Por lo tanto, concluimos que los puntajes en la prueba de lectura de los estudiantes de tercer grado del sistema B son menos variable sque los de tercer grado del sistema escoalr A. ◭
3.7
Prueba para la raz´ on de dos varianzas
Por u ´ltimo, estudiaremos el caso de pruebas de hip´ otesis relacionadas con dos varianzas de una poblaciones distribuidas normalmente. Para ello, supongamos que s21 y s22 son las varianzas de muestras aleatorias independientes de tama˜ no n1 y n2 tomadas de poblaciones normales con 2 2 varianzas σ1 y σ2 , respectivamente. Entonces, se desean probar las siguientes hip´ otesis, que comparan la uniformidad de una poblaci´ on con la de otra, H0 : σ1 = σ2 ,
H0 : σ 1 ≥ σ 2 ,
H0 : σ 1 ≤ σ 2 ,
´ de dos varianzas 3.7. Prueba para la razon
´ Dr. rer. nat. Humberto Llinas
106
el estad´ıstico de prueba tiene la forma F =
s21 s22
y corresponde al valor de una variable aleatoria que tiene distribuci´ on F con ν1 = n1 − 1 y ν2 = n2 − 1 grados de libertad. Nuevamente, la regi´ on cr´ıtica depender´ a de cada uno de estos tres casos, como se ilustra en la tabla 3.10.
Tipo de hip´ otesis Regla de decisi´ on 2 2 H0 : σ1 ≥ σ2 Si F ≤ F1−α , entonces, se rechaza 2 2 H1 : σ1 < σ2 H0 ; de lo contrario, se acepta H0 . Cola a la izquierda H0 : σ12 ≤ σ22 Si F ≥ Fα , entonces, se rechaza 2 2 H1 : σ1 > σ2 H0 ; de lo contrario, se acepta H0 . Cola a la derecha H0 : σ12 = σ22 Si F ≤ F1− α2 o F ≥ F α2 , entonces, se 2 2 H1 : σ1 6= σ2 rechaza H0 ; de lo contrario, se acepta H0 . Dos colas Figura 3.10: Reglas de decisi´on para la prueba de σ12 /σ22
En el siguiente teorema resumimos todo lo expresado anteriormente.
Teorema 3.7.1 Si n1 y n2 tomadas de prueba de hip´ otesis presenta en la tabla
s21 y s22 son las varianzas de muestras aleatorias independientes de tama˜ no 2 2 poblaciones normales con varianzas σ1 y σ2 , respectivamente, entonces, una con nivel de significancia α para la raz´ on de varianzas σ12 /σ2 es como se 3.10, siendo s2 F = 21 s2
el estad´ıstico de prueba correspondiente. Adem´ as, F α2 (ν1 , ν2 ) es el valor de una variable aleatoria α que deja un a ´rea de 2 a la derecha de la distribuci´ on F con ν1 = n1 − 1 y ν2 = n2 − 1 grados de libertad.
Ejemplo 3.7.2 Se compararon las varianzas de los vencimientos de dos tipos de bonos. Para una muestra aleatoria de 17 bonos del primer tipo, la varianza de los vencimientos (en a˜ nos al cuadrado) fue de 123,35. Para una muestra aleatoria independiente de 11 bonos del segundo tipo, la varianza de los vencimientos fue de 8,02. Al nivel del 2%, determinar si las dos varianzas poblacionales son diferentes. Asuma que las dos poblaciones tienen distribuci´ on normal. SOLUCION: Sean σ12 y σ22 las respectivas varianzas poblacionales. Queremos contrastar la hip´ otesis H0 : σ12 = σ22
versus
H1 : σ12 6= σ22 .
´ Cap´ıtulo 3. Pruebas de hipotesis
Estad´ıstica inferencial
107
Para este ejemplo, n1 = 17,
s21 = 123, 35,
n2 = 11,
s22 = 8, 02.
Observemos que podemos aplicar el teorema 3.7.1. En este caso, el valor del estad´ıstico de prueba est´ a dado por 123, 35 s2 F = 12 = = 15, 38. 8, 02 s2 Para una prueba al nivel del 2%, tenemos que α = 0, 02 e, interpolando, Fα/2 (16, 10) = F0,01 (16, 10) = 4, 53 con ν1 = n1 − 1 = 16 y ν2 = n2 − 1 = 10 grados de libertad. Claramente, F = 15, 38 es mucho mayor que F0,01 (16, 10) = 4, 53, es decir, podemos rechazar la hip´ otesis nula al nivel del 5%. Por consiguiente, hay abrumadora evidencia de que las varianzas en los vencimientos son diferentes para estos dos tipos de bonos. ◭ Ejemplo 3.7.3 Al probar la diferencia en el desgaste abrasivo de los dos materiales en el ejemplo 3.5.6, se asumi´ o que las varianzas poblacionales desconocidas eran iguales. ¿Es esta justificaci´ on correcta? Utilice un nivel de significancia del 10%. SOLUCION: Sean σ12 y σ22 las respectivas varianzas poblacionales para el desgaste abrasivo de los materiales 1 y 2, respectivamente. En este caso, queremos contrastar la hip´ otesis H0 : σ12 = σ22
versus
H1 : σ12 6= σ22 .
Recordemos del ejemplo 3.5.6, que n1 = 12,
s1 = 4,
n2 = 10,
s2 = 5.
Observemos que podemos aplicar el teorema 3.7.1. En este caso, el valor del estad´ıstico de prueba est´ a dado por s2 16 F = 12 = = 0, 64. 25 s2 Para una prueba al nivel del 10%, tenemos que α = 0, 10, de donde α/2 = 0, 05. Ahora, F0,05 (11, 9) = 3, 11 y, teniendo en cuenta el teorema 1.7.8, F0,95 (9, 11) =
1 = 0, 34. F0,05 (11, 9)
Debido a que F = 0, 64 es mayor que F0,95 (9, 11) = 0, 34, no podemos rechazar la hip´ otesis nula al nivel del 10%. Por consiguiente, se concluye que no hay evidencia suficiente para afirmar que las varianzas son diferentes. Es decir, la suposici´ on es correcta. ◭
´ de dos varianzas 3.7. Prueba para la razon
.
.
108
´ Dr. rer. nat. Humberto Llinas
.
´Indice
Censo, 4 Conglomerado, 15 Datos pareados, 52 Desviaci´ on t´ıpica muestral, 64 Distribuci´ on F de Fisher, 69 t de Student, 32 chi-cuadrada, 65 muestral, 20 de la diferencia de medias muestrales, 54, 56, 60, 61 de la diferencia de proporciones muestrales, 50 de la media muestral, 28, 34 de la proporci´ on muestral, 43 de la raz´ on de varianzas muestrales, 69 de la varianza muestral, 65 Error de tipo I y II, 84 est´ andar, 24 muestral, 6 no muestral, 7 sistem´ atico, 7 Estad´ıstico, 19 de prueba, 86 Estad´ıstica inferencial, 4 Estrato, 13 Factor de correcci´ on, 26
Grado de confianza, 84 Hip´ otesis, 80 alternativa, 81 bilateral, 81n unilateral, 81n estad´ıstica, 81 mantenida, 87 nula, 81 Muestra aleatoria (simple), 9 Muestras dependientes, 52 independientes, 53 Muestreo aleatorio (simple), 9 con reemplazo, 11 estratificado, 13 no proporcional, 14 proporcional, 14 por conglomerados, 15 sin reemplazo, 11 sistem´ atico, 16 Nivel de significancia, 84 Potencia, 84 Proporci´ on muestral, 42 Prueba de hip´ otesis para la diferencia de medias poblacionales, 97, 100, 102
Estad´ıstica inferencial
109
para la diferencia de proporciones poblacionales, 94 para la media poblacional, 88, 90 para la proporci´ on poblacional, 91 para la raz´ on de varianzas poblacionales, 106 para la varianza poblacional, 104 Regi´ on cr´ıtica y de aceptaci´ on, 86 Regla de decisi´ on, 83 Sesgo muestral, 7 negativo, 8 positivo, 8 Tabla de n´ umeros aleatorios, 10 Teorema de De Moivre-Laplace, 43 Varianza muestral, 64
´INDICE
View more...
Comments