Gutierrez Gonzalez Estadistica

October 31, 2021 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Gutierrez Gonzalez Estadistica...

Description

INTRODUCCIÓN La Estadística es una de las ramas de las Matemáticas que se considera como de mayor aspecto práctico, por su gran variedad de aplicaciones en muchos campos de las ciencias naturales y sociales, ya que todo proceso de investigación que se diga científico conlleva en algún momento la contrastación de hipótesis que pretenden responder a un problema dado o bien en su solución, en los procesos de producción resulta muy frecuente que se requieran controles de calidad para verificar como se están produciendo los artículos y en base a ello se detenga o no el proceso. Existen tres enfoques en la estadística que se encuentran muy ligados a las corrientes de la probabilidad, estos son: El enfoque clásico, el subjetivo y el bayesiano. Este libro se desarrolla desde la perspectiva clásica, por que su principal objetivo es apoyar los cursos de la asignatura de Estadística para los alumnos de la Unidad Interdisciplinaria de Ingeniería y Ciencias Sociales y Administrativas (UPIICSA) del Instituto Politécnico Nacional (IPN), ya que se apega en un 100% a los programas vigentes de esta unidad en las cinco carreras que se ofrecen. El contar con un material acorde con los programas y que aborde los contenidos temáticos de una manera acsecible, comprensible, con una buena cantidad de ejercicios resueltos y propuestos. Permite a los alumnos tener una herramienta para aprender más significativamente la materia, además de poder retroalimentarse cuando lo considere oportuno para su beneficio en particular. Se pone un énfasis en los conceptos fundamentales, en la notación utilizada, en los ejemplos ilustrativos y en el tratamiento que se le dan a los capítulos. Cuidando la sencillez de las explicaciones en los elementos teóricos que sustentan los temas sin caer en la rigurosidad teórica. Podemos decir que se le da mayor importancia a las aplicaciones de la estadística en los problemas prácticos, que a la teoría de ella. El material se compone de cinco capítulos, el primero considera los elementos básicos de la ESTADÍSTICA DESCRIPTIVA, el segundo trata las DISTRIBUCIONES MUESTRALES, el tercero desarrolla la ESTIMACIÓN DE PARÁMETROS, que es el inicio de la ESTADÍTICA INFERENCIAL o conocida como INFERENCIA ESTADÍSTICA, posteriormente el cuarto aborda las PRUEBAS DE HIPOTESIS o la contrastación de hipótesis y por ultimo el quinto desarrolla el ANALISIS DE REGRESIÓN Y CORRELACIÓN. Al término de cada capítulo se hace un breve resumen de los aspectos y fórmulas más relevantes, así como una serie de ejercicios propuestos para que el lector practique y revise los temas leídos. Al final del libro se presenta el apéndice en donde aparecen una tabla de números aleatorios y las tablas probabilísticas de las distribuciones Normal estándar, T- de Student, Chi-cuadrada y F de Fisher. Agradezco a los profesores de las academias de matemáticas del departamento de ciencias básicas de la UPIICSA, por sus valiosas aportaciones y sugerencias en la mejora del presente material, especialmente al Doctor Eduardo Gutiérrez González y a la Maestra Olga Vladimirovna Panteleeva por permitir la reproducción de las tablas estadísticas para la distribución normal, T de Student, Chi-cuadrada y F de Fisher.

1

CONTENIDO TEMÁTICO Introducción

I

Capítulo 1 ESTADÍSTICA DESCRIPTIVA 1.1 Introducción al muestreo 1.2 Población y muestra 1.3 Parámetro y Estadístico o Estimador 1.4 Muestreo Aleatorio Simple 1.5 Organización o Agrupamiento de datos 1.5.1 Ordenamiento de datos 1.5.2 Tabla de frecuencias y Diagrama de líneas 1.5.3 Tabla de intervalos, histogramas, polígono de frecuencias y ojiva 1.6 Medidas de tendencia central para datos no agrupados 1.6.1 Media aritmética, Mediana y Moda 1.7 Medidas de dispersión para datos no agrupados 1.7.1 Rango, Suma de diferencias, Suma de cuadrados de las diferencias, Varianza y Desviación estándar Ejercicios

2 2 3 4 6 6 7 8 12 13 15 15 25

Capítulo 2 DISTRIBUCIONES MUESTRALES 2.1 Variables Aleatorias Muestrales y sus distribuciones de probabilidad 2.1.1 Distribución muestral para una suma de variables 2.1.2 Distribución muestral para una media 2.1.3 Distribución muestral para una diferencia de medias 2.1.4 Distribución muestral para una proporción 2.1.5 Distribución muestral para una diferencia de proporciones 2.2 Teorema de limite central y sus aplicaciones 2.3 Distribución t de Student 2.4 Distribución Chi-cuadrada 2.5 Distribución F de Fisher Ejercicios

29 30 36 43 47 48 49 56 61 63 67

Capítulo 3 ESTIMACIÓN DE PARÁMETROS 3.1 Estimación puntual 3.2 Propiedades de los estimadores 3.2.1 Estimador insesgado 3.2.2 Estimador eficiente 3.2.3 Estimador consistente 3.3 Estimación por intervalos ( Intervalos de confianza ) 3.3.1 Definición de intervalo de confianza 3.3.2 Grado o nivel de confianza y su interpretación 3.4 Intervalo de confianza para una media poblacional 3.5 Intervalo de confianza para una diferencia de medias poblacionales 3.6 Intervalo de confianza para una proporción poblacional 3.7 Intervalo de confianza para una diferencia de proporciones poblacionales

2

70 71 72 74 75 75 75 75 76 81 89 90

3.8 Error de estimación y tamaño de la muestra 3.9 Intervalo de confianza para la varianza 3.10 Intervalo de confianza para la razón de varianzas Ejercicios

91 94 98 103

Capítulo 4 PRUEBAS DE HIPOTESIS 4.1 Definición de una prueba de hipótesis 4.2 Elementos de una prueba de hipótesis 4.2.1 Hipótesis nula y alterna 4.2.2 Nivel de significancia y los errores en una prueba 4.2.3 Estadístico de prueba 4.2.4 Región de rechazo y de no rechazo 4.2.5 Decisión estadística 4.3 Prueba de hipótesis para una media 4.4 Prueba de hipótesis para una diferencia de medias 4.5 Prueba de hipótesis para una proporción 4.6 Prueba de hipótesis para una diferencia de proporciones 4.7 Potencia de una prueba y tamaño de la muestra 4.8 Prueba de hipótesis para la varianza 4.9 Prueba de hipótesis para la razón de varianzas Ejercicios

108 109 109 110 110 111 112 113 122 134 137 141 152 155 161

Capítulo 5 ANALISIS DE REGRESIÓN 5.1 Ajuste de curvas 5.2 Método de mínimos cuadrados 5.3 Modelo de regresión lineal simple 5.3.1 Ecuación de la recta y sus parámetros 5.3.2 Intervalos de confianza para los parámetros del modelo de regresión lineal simple 5.3.3 Pruebas de hipótesis para los parámetros del modelo de regresión lineal simple 5.4 Predicción 5.4.1 Intervalo de confianza y prueba de hipótesis 5.5 Correlación 5.5.1 Concepto de correlación 5.5.2 Coeficiente de correlación 5.5.3 Coeficiente de correlación en el modelo de regresión lineal simple y su interpretación Ejercicios

3

167 168 169 171 176 179 183 183 185 185 185 186 190

Capítulo 1 ESTADÍSTICA DESCRIPTIVA

L

a Estadística es una de las ramas de las matemáticas con mayor utilidad en diversos campos como la Ingeniería, Administración, Economía, Informática, Biología, Mercadotecnia, Física, Química, Ciencias Sociales, entre otras. Cuando se maneja una cantidad de información a través de datos cualitativos o cuantitativos, resulta muy interesante plantearse preguntas como las siguientes: ¿La resistencia a las fracturas de un tipo de concreto, se puede decir, que ha mejorado por incorporar nuevas materias primas en su elaboración?, ¿Cómo afecta a la economía de un país los manejos irresponsables de la inflación?, ¿Cual es la proporción de habitantes que están en desacuerdo con las propuestas de un candidato político?, ¿Qué criterio podemos usar para rechazar un lote de mercancía que se quiere comprar para nuestra empresa?, de dos medicamentos ¿cuál resulta ser mas eficaz para combatir el resfriado?, ¿Cómo se podrá predecir la cantidad de tornillos defectuosos que una maquina producirá en un periodo de tiempo, sin tomar en cuenta el factor humano?, ¿Cuál es la variación en los tiempos de atención a los clientes por parte de las operadoras, cuando estos llegan con problemas similares?, entre otras mas. Respuestas a las preguntas anteriores las encontraremos en la Estadística, principalmente en la Estadística Inferencial o Estadística Inductiva. La Estadística se divide en Descriptiva e Inferencial, esta ultima permite realizar generalizaciones a toda una colección de datos llamada Población o Universo a partir de una parte de la información o de los datos, conocida comúnmente como muestra. En los capítulos tres, cuatro y cinco serán estudiados algunos de los conceptos más relevantes de esta. En este capítulo veremos los aspectos básicos de la Estadística Descriptiva, la cual como su nombre indica, permite llevar a cabo la organización de un conjunto de datos por medio de tablas, histogramas o polígonos de frecuencias, que pueden representar a una población o una muestra, además de obtener una serie de medidas que resumen la información de interés, como las de tendencia central y de dispersión o variabilidad principalmente. Cabe mencionar que la recopilación de los datos es una tarea muy importante y delicada a la vez, ya que debe ser representativa cuando se trata de una parte de la población, es decir, de una muestra. Existen técnicas de muestreo que garantizan con una buena confiabilidad la representatividad de una muestra. Por lo regular las poblaciones suelen ser grandes e incluso infinitas, razón por la cual casi siempre trabajaremos con muestras, que sean representativas de estas poblaciones y las llamaremos muestras aleatorias.

4

El querer estudiar a la población implica hablar de un censo que considera toda la información o la totalidad de los datos, ello resulta en la mayoría de las veces excesivamente costoso en recursos económicos y humanos, así como también en el tiempo para recopilar y analizar los datos, por ello es conveniente trabajar con muestras. En este capítulo se consideran conjuntos de datos que representan muestras, solo cuando sea necesario dar alguna definición o en la resolución de ciertos ejemplos hablaremos de poblaciones.

1.1 Introducción al muestreo Al estudiar un problema que involucra una colección de datos numéricos ó categóricos (población) como se menciono, resulta muy práctico usar una muestra que de preferencia sea lo más representativa de esta. Para conseguirlo existen técnicas o procedimientos como el muestreo aleatorio simple, muestreo estratificado, muestro por conglomerados, muestreo por conglomerados en dos etapas y el muestreo sistemático. De acuerdo a las condiciones de cada problema y lo que se desea investigar se puede usar alguna de dichas técnicas, aquí solo ilustraremos el muestreo aleatorio simple o también llamado muestreo irrestricto aleatorio en un apartado posterior. El seleccionar una o varias muestras no es tan sencillo como en principio parece, ya que depende de los intereses del investigador, provocando en muchas ocasiones un sesgo en la recolección de la información y en consecuencia estimaciones o aproximaciones que pudieran ser incorrectas, la probabilidad puede ayudar a reducir de alguna manera esta dificultad al introducir el azar, es decir que de alguna manera los elementos que vayan a ser seleccionados en las muestras tengan una probabilidad aproximadamente igual. El resultado de una “buena” muestra se verá reflejado en aquello que se aplicará a la población. En el muestreo debemos tener dos preguntas presentes, la primera ¿de qué tamaño será la muestra? y ¿como seleccionarla? La primera pregunta se responderá en el capítulo tres cuando veamos la estimación de parámetros, ya que depende de la variabilidad en la información que se este estudiando y la precisión con se quieran hacer las aproximaciones, las técnicas de muestreo nos ayudan a responder la segunda pregunta y como se dijo depende del problema a investigar.

1.2 Población y Muestra Los conceptos de población y muestra son fundamentales en la estadística, resulta necesario entonces contar con una especie de definición para estos. Población. Colección de todos los elementos u objetos en los que se tiene cierto interés en un momento dado o bien un conjunto de valores que una variable puede tomar en un instante particular. Por ejemplo en la Unidad Interdisciplinaria de Ingeniería y Ciencias Sociales y Administrativas (UPIICSA) podemos estar interesados en conocer la edad promedio de los estudiantes que actualmente se encuentran cursando alguna asignatura en Agosto de 2006, el conjunto de todas las edades de estos

5

alumnos constituye la población. En una empresa que fabrica cierto tipo de artículo, se desea estimar el porcentaje de estos productos que tienen algún defecto grave y que están por sacarse al mercado, en este caso la población la constituye todos los artículos que se encuentran almacenados(tanto los que tienen defectos como los que no). El tiempo promedio que tardan en recuperarse de una enfermedad los pacientes a los se les suministra un medicamento especifico durante el mes de Diciembre, aquí la población esta formada por los tiempos de recuperación de los pacientes a los que se les aplica dicho fármaco en este mes. El nivel medio del agua que tiene una presa durante un mes en época de sequía. , en este caso la población esta integrada por los niveles de agua en ese mes. Las poblaciones pueden ser finitas o infinitas, ya que quedarán de acuerdo a nuestra esfera de interés, por ejemplo en el caso de las edades de los alumnos en un momento especial tenemos una población finita. Por lo regular en la estadística se trabajan las poblaciones finitas, aunque podemos tener poblaciones infinitas como por ejemplo cuando nuestra población consiste de una sucesión de valores sin fin { 1 , 2 , 3 , L}o cuando se trabaja como una variable continua, será infinita. Muestra. Es una parte de la población o un subconjunto del universo. Por ejemplo en el caso de las edades de los alumnos de la UPIICSA, una muestra podría estar formada por las edades de los jóvenes de un grupo de segundo o de algún otro semestre. En los artículos producidos por la empresa, una muestra puede ser un lote de 100 de estos productos tomados de alguna caja en el almacén. Para los tiempos de recuperación, se pueden considerar como una muestra los tiempos de recuperación de 20 pacientes el día 2 de Diciembre. Para los niveles del agua en la presa se podría considerar una muestra, como los niveles de agua de un día en particular del mes. Es claro que este tipo de muestras, no se pueden considerar como representativas, puesto que son muy parciales, al no tomar en cuenta a los alumnos de otros semestres y turnos, de igual manera en los artículos no se seleccionaron otras cajas de todo el almacén, en los tiempos como solo se eligió un día, puede presentarse una variación importante en el resto de los días que altere bastante la información y en los niveles del agua un día no refleja la información que se quiere conocer. Ello hace importante y necesario la noción de muestra aleatoria.

1.3 Parámetro y Estadístico Cuando tenemos una o más poblaciones, definimos el parámetro como aquella medida de interés que proviene de la población y que en muchos casos se desconoce y queremos estimarla o aproximarla. En este libro consideraremos algunos de los parámetros más frecuentes como: Media o promedio poblacional µ Diferencia de medias poblacionales

µ1 − µ 2 6

Proporción poblacional

p

Diferencia de proporciones poblacionales Varianza poblacional

p1 − p2

σ2

Desviación estándar poblacional

σ = σ2

Un Estadístico o Estimador es aquella medida o variable que proviene de una o varias muestras sacadas de la misma población y su principal objetivo es aproximar el parámetro en cuestión, de ahí que también se conozca como estimador. En la figura 1 se ilustra de manera muy primitiva a una muestra y una población, vistas como un subconjunto y el conjunto respectivamente, para señalar la idea del todo y una parte, así como de donde se obtiene el parámetro y un estadístico.

Población

Parámetro Muestra Estadístico

Figura 1

Algunos de los estadísticos o estimadores más comunes son: Media muestral

x

Diferencia de medias muestrales Proporción muestral

x1 − x2



Diferencia de proporciones muestrales Varianza muestral s

pˆ 1 − pˆ 2

2

Desviación estándar muestral

s = s2

1.4 Muestreo Aleatorio Simple Al realizar una encuesta o bien un muestreo, con el objeto de hacer inferencias acerca de una población, intervienen dos factores en la información contenida en la muestra, y que afectan la precisión de nuestro procedimiento para hacer inferencias. El primero es el tamaño de la muestra seleccionada de la población y el segundo la variación en los datos, el cual se puede controlar de acuerdo con el método de selección de la muestra o procedimiento de muestreo para obtener las n observaciones que la integran, ya que cada observación cuesta

7

dinero, un diseño que proporciona un estimador preciso del parámetro en un tamaño de muestra fijo produce un ahorro en el costo para el experimentador. Ya se mencionaron algunas de las técnicas de muestreo, enseguida veremos la conocida como muestreo aleatorio simple. Definición: Si una muestra de tamaño n es seleccionada de una población de tamaño N, de manera que cada muestra de tamaño n tenga la misma probabilidad de ser seleccionada, decimos que el muestreo es aleatorio simple y a esta muestra la llamamos muestra aleatoria simple o por sencillez muestra aleatoria. El muestreo aleatorio simple, se realiza apoyándonos de una tabla de números aleatorios, la cual es un conjunto de enteros generado de modo que contenga los dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 en proporciones aproximadamente iguales sin tendencias o patrones fijos y aparece en el apéndice como la tabla 1 al final del libro. En la tabla 1 se tienen 500 números aleatorios colocados en 10 columnas y 50 renglones para su manejo, y están formados por seis dígitos, aunque la cantidad de dígitos puede ser mayor o menor lo convencional es por lo regular seis. Así que, si un número es seleccionado de un punto aleatorio en la tabla, es igualmente probable que sea cualquiera de los dígitos entre el 0 y el 9. El muestreo aleatorio simple es análogo a extraer números de una urna con papeletas que los tienen anotados y que están perfectamente mezcladas. Supóngase que queremos seleccionar una muestra aleatoria simple de tamaño n=5, de una población de tamaño N=100 y que los elementos de dicha población se encuentran numerados o etiquetados del 0 al 99 (cuestión que en ocasiones no resulta tan sencillo), el primer elemento de la muestra lo podemos obtener de la siguiente manera, cerrando los ojos colocamos la punta de un lápiz sobre la tabla de números aleatorios hasta que se ubique un número, por ejemplo supóngase que se localiza el 315744 en el renglón 28 y la columna 8 (ver tabla 1 en el apéndice) , de él solo elegimos los dos dígitos, pueden ser los últimos si lo deseamos, ya que solo tenemos 100 elementos en la población. Así el primer elemento de la muestra es el dato que se haya designado como el 44, para los demás elementos de la muestra podemos desplazarnos partiendo del número 315744 hacia la derecha, izquierda, arriba o abajo y encontraremos los otros cuatro números aleatorios que a su vez nos permitirán obtener los datos que formarán a la muestra aleatoria simple. Si nos vamos hacia arriba se obtiene el 119846 y entonces el segundo elemento será el dato que ocupa el lugar 46 al elegir los dos últimos dígitos, después hacia la izquierda se tiene el 901822, el dato que esta en posición 22 será el tercer elemento, hacia abajo aparece el 870876 y el dato en el lugar 76 podrá ser el cuarto y por finalmente hacia abajo hallamos el 114902 del que consideramos al dato que esta en la posición 02 como elemento quinto elemento de la muestra, con ello tendremos una muestra aleatoria simple de tamaño n=5 estará integrada por los datos que ocupen los lugares 44, 46, 22, 76 y 02 en la población de tamaño N=100. Cabe mencionar, si los dos dígitos se llegaran a repetir al ir seleccionándolos, basta con que se ignoren y se sigan buscado otros que resulten distintos desplazándonos en cualquier dirección o bien elegir los dos primeros o cualquier par de dígitos. Además de que la muestra puede ser de otro tamaño y lo mismo que la población.

8

Las muestras aleatorias simples garantizan que la información recabada, permite de alguna manera generalizarse a la población con mayor confiabilidad, esto significa que los estadísticos o estimadores se aproximan mejor a los parámetros, que si solo tomamos muestras como subconjuntos de una población. Por comodidad cuando nos refiramos a una muestra aleatoria simple, escribiremos muestra aleatoria o bien muestra.

1.5 Organización o agrupamiento de datos Como se menciono la estadística descriptiva se encarga de organizar, presentar y obtener medidas de un conjunto de datos que pueden ser una población o bien una muestra. Consideremos un ejemplo para ilustrar algunas formas de organizar y presentar un grupo de datos numéricos.

Ejemplo: Las siguientes cantidades representan las estaturas (en centímetros) de n=50 niños con edades de 4 a 6 años.

105 102 107 110 112

108 110 102 105 113

113 105 108 110 102

103 113 108 110 105

Tabla de datos 103 109 105 106 109 103 115 111 113 114

103 106 115 111 114

104 111 109 106 109

116 106 112 109 104

105 107 110 112 110

1.5.1 Ordenamiento de datos Como podemos apreciar, las estaturas aparecen sin un orden, quizá como se fue recopilando la información y en muchos casos resulta mejor escribirlos de acuerdo a un orden para su mejor control, ordenándolos de menor a mayor o de mayor a menor según se quiera, en la tabla que sigue las estaturas se encuentran ordenadas de la menor a la mayor.

102 105 107 110 112

102 105 108 110 113

102 105 108 110 113

Tabla de datos ordenados 103 103 103 103 105 105 106 106 108 109 109 109 110 110 111 111 113 113 114 114

104 106 109 111 115

104 106 109 112 115

105 107 110 112 116

Las estaturas ya se encuentran en orden del menor al mayor. Sin embargo, esta primera forma de presentar la información tiene dos inconvenientes, por un lado tiene varios datos que se repiten, lo que puede ser extenso al escribirlos y además es poco atractiva desde la perspectiva visual, por que solo es un listado de números en orden. De ahí la necesidad de

9

proponer una forma mas “compacta” que considere los datos repetidos y solo se escriban una vez, como se ilustra en el siguiente apartado. 1.5.2 Tabla de frecuencias y Diagrama de líneas (varas) Esta segunda forma de organizar datos, resume la información cuando existen datos repetidos, para ello, definimos la frecuencia ( f i ) de un dato ( xi ) , como el número de veces que se repite este. Tomando como ejemplo las n=50 estaturas de los niños de 4 a 6 años, podemos agruparlos por medio de una tabla de frecuencias, en donde a cada valor o dato le asociamos su frecuencia como se ilustra en la tabla que sigue. Tabla de frecuencias (datos contra frecuencias) xi

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

fi

3

4

2

6

4

2

3

5

6

3

3

4

2

2

1

Cuando esta tabla se dibuja en el plano cartesiano, se tiene lo que llamamos un diagrama de líneas o varas, en donde podemos apreciar que a cada dato ( xi ) le asociamos una porción de línea o segmento (vara), cuya longitud es la frecuencia ( f i ) . En la figura 2, aparece un diagrama de líneas o varas que corresponde a la tabla de frecuencias anterior.

Diagrama de líneas o varas fi

6 5 4 3 2 1

xi 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116

Figura 2

1.5.3 Tabla de intervalos, histogramas, polígono de frecuencias y ojiva. Una de las formas mas usadas para agrupar un conjunto de datos es la tabla de intervalos, también conocida como intervalos de clase, ya que se forman grupos de datos que se encuentran comprendidos o dentro de un intervalo llamado clase y cada uno de ellos tiene una frecuencia, es decir, una cantidad de valores numéricos o datos que caen dentro del intervalo, que se suele llamar frecuencia de clase.

10

Es importante señalar que para construir una tabla de intervalos o clases, se deben responder dos preguntas, primera ¿cuántos intervalos se deben construir? y segunda ¿de qué tamaño o anchura serán? Con respecto a la primera pregunta, se puede decir que, no existe una regla universalmente aceptada que permita determinar el número de intervalos que se construirán, solo se proporcionan sugerencias que se apegan al hecho de que debe haber una “relación” entre el número de intervalos y la cantidad de datos que se quieren agrupar, así una de las recomendaciones muy usadas es que de 5 a 20 intervalos se pueden trabajar y queda al criterio del investigador el número que crea mejor de acuerdo al comportamiento de los datos y su variación. Cabe decir, que pocos intervalos pueden ocultar información relevante y por otro lado demasiados no resumen adecuadamente la información. Otras sugerencias que se pueden usar de manera completamente empírica para aproximar la cantidad de clases o intervalos, es la denominada “regla de Sturges” dada como k = 1 + 3.322 ⋅ log10 (n) , donde k representa el número de intervalos y n el total de datos o bien la expresión k = n , aclarando que no son fórmulas que se apliquen de manera general. En cuánto a la segunda pregunta, los intervalos pueden tener diferentes anchos o longitudes, pero por simplicidad se prefiere que tengan la misma longitud, a menos que se considere indispensable que los anchos sean distintos. En esta sección siempre tomaremos intervalos de igual longitud. Para determinar el ancho " c " de un intervalo usaremos la siguiente regla, a la diferencia del dato mayor con dato menor la dividimos por el número de intervalos que se van a construir. Dato mayor − Dato menor En forma simbólica se tiene que c = donde c es el k tamaño de cada intervalo y k el número de intervalos. La diferencia del dato mayor con el dato menor se conoce como el rango de la muestra (población según el caso) y en varias ocasiones resulta conveniente ampliar este rango sumando una cantidad fija al dato mayor y restando la misma cantidad al dato menor para producir el rango ampliado. La cantidad fija que se suma y resta, depende del tipo de valores numéricos que se manejan en los datos, por ejemplo si los valores son enteros, lo que hay que sumar y restar puede ser 0.5 y si se manejan números hasta una cifra decimal podremos tomar 0.05, etc. Con esto se busca que al agrupar los datos, estos se encuentren dentro de un y solo un intervalo, evitando en lo posible que algún extremo de los intervalos coincida con un dato. Si lo anterior llegara a ocurrir se recomienda hacer uso de intervalos semiabiertos o semicerrados de la forma: [ a, b ) o ( a, b] , según convenga, cuidando siempre que no queden datos fuera de los intervalos. En ocasiones, cuando se tiene una colección de datos, como resultado de un muestreo aleatorio simple por ejemplo, se llegan a presentar datos que están alejados o muy alejados de la mayoría, lo que puede provocar intervalos que no tengan un solo dato, es aquí donde puede ser útil el uso de los diferentes tamaños para los intervalos, además de que como veremos en las próximas secciones, estos datos alejados del resto producen sesgos que alteran la

11

representatividad de algunas medidas muy usadas en la estadística descriptiva y sobretodo en la inferencial. Por ello en algunas veces se pueden ignorar o desechar estos datos. Veamos tomando como ejemplo las 50 estaturas de los niños considerados anteriormente, para ilustrar como pueden organizarse, a través de intervalos. Primero decidimos el número de clases (intervalos), sean 6, por ejemplo (observar que usamos la sugerencia de que de 5 a 20 intervalos se pueden proponer para la construcción de la tabla), entonces k = 6 intervalos. Ahora determinamos el tamaño de cada intervalo, usando el rango ampliado. ( Dato mayor + 0.5) − ( Dato menor − 0.5) rango ampliado = k k Para el ejemplo, tenemos: c=

(116 + 0.5) − (102 − 0.5) 116.5 − 101.5 15 = = = 2.5 6 6 6 Lo que significa que el tamaño o ancho de cada clase será de 2.5 . El primer intervalo, lo construimos tomando como limite inferior el dato menor menos 0.5 y le sumamos 2.5 para producir el extremo superior, el cual será el extremo inferior del segundo intervalo y sumamos de nuevo 2.5 para tener el extremo superior del segundo intervalo, así sucesivamente hasta completar los 6 intervalos y para evitar la problemática de que algún dato coincida con un extremo, el tipo de intervalos serán semicerrados. Ahora asociamos su frecuencia del intervalo ( f i ) , es decir, el número de datos que se encuentran c=

en cada intervalo. También podemos asignarle su frecuencia acumulada ( f a ) , a cada uno, donde la frecuencia acumulada es la suma de frecuencias del intervalo con las anteriores a él. f   La frecuencia relativa se define como  f r = i  y la frecuencia relativa n   acumulada

(

f ra

) como la suma de la frecuencia relativa de un intervalo con

las frecuencias relativas anteriores. El la tabla que sigue, se muestran los intervalos con sus respectivas frecuencias ya definidas.

mi 102.75 105.25 107.75 110.25 112.75 115.25

Intervalo

[101.5 , 104 ) [104 , 106.5) [106.5 , 109 ) [109 , 111.5) [111.5 , 114 ) [114 , 116.5)

fi 7

fa 7

fr

f ra

7 50

7 50

12

19

12 50

19 50

5

24

5 50

24 50

14

38

14 50

38 50

7

45

7 50

45 50

5

50

5 50

50 50

n = ∑ f k = 50

12

∑f

r

=1

=1

Obsérvese que en la primera columna aparecen los puntos medios mi de los intervalos respectivamente, a los que se les llama marcas de clase, se usan en el cálculo de algunas medidas cuando la información se presenta como la tabla anterior. Más adelante se ilustra su manejo. La tabla se puede representar en forma gráfica, esta se conoce comúnmente como histograma y se pueden relacionar los intervalos contra sus frecuencias, frecuencias acumuladas, frecuencias relativas y sus frecuencias relativas acumuladas. En la figura 3, aparece el histograma de intervalos contra frecuencias. 14 F r 12 e c u e n 7 c i 5 a s Intervalos 101.5

104

106.5

109

111.5

114

116.5

Figura 3 Histograma Cuando consideramos los puntos medios de cada intervalo, es decir, las marcas de clase, las proyectamos en la parte superior de cada rectángulo, tomamos el punto medio de un intervalo virtual a la izquierda del primero, uno a la derecha del último y unimos dichos puntos, se forma lo que llamaremos el Polígono de frecuencias, el cual es usado en ocasiones para presentar la información, ya que el área bajo este polígono es la misma que la suma de los seis rectángulos 14 F r 12 e c u e n 7 c i 5 a s Intervalos 101.5

104

106.5

109

111.5

114

116.5

Figura 4 Polígono de frecuencias

13

De forma similar se pueden construir los histogramas de los intervalos contra sus frecuencias acumuladas y su respectivo polígono, que se conoce como Ojiva. En la figura 5 aparece el histograma de frecuencias acumuladas y la Ojiva. fa

fa

50

50

. . .

. . .

7

7

101.5



116.5

101.5

Histograma de frecuencias relativas Figura 5



116.5

Ojiva

Para el caso de los histogramas en donde se trabajan las frecuencias relativas y las relativas acumuladas, es lo mismo solo que se reduce la escala de las frecuencias a la unidad, es decir, el número total de datos (en este caso 50) equivale al número uno y por ende las alturas de los rectángulos disminuyen de 50 a 1. Resulta mejor considerar otra cantidad de intervalos para observar qué sucede con la organización si por ejemplo se proponen 5 intervalos, en esta situación el tamaño de los intervalos será de 3 y entonces la tabla cambia a la siguiente:

mk 103 106 109 112 115

Intervalo

[101.5 , 104.5) [104.5 , 107.5) [107.5 , 110.5) [110.5, 113.5) [113.5 , 116.5)

fk 9

fa 9

fr

f ra

9 50

9 50

12

21

12 50

21 50

14

35

14 50

35 50

10

45

10 50

45 50

5

50

5 50

50 50

n = ∑ f k = 50 ∑ fr = 1 El histograma correspondiente a la tabla de intervalos contra frecuencias se ilustra en la figura 6.

14

14 F r 12 e c 10 u 9 e n c i 5 a s Intervalos 101.5 104.5 107.5 110.5 113.5 116.5

Figura 6 Nos podríamos hacer la siguiente pregunta ¿Cómo afecta el número de intervalos a la tabla de intervalos (histograma)?. Como se puede ver en los histogramas, especialmente en los polígonos de frecuencias se presenta una variación en cuanto a los “picos”, ya que en el primer caso existen dos, mientras que en el segundo solo hay uno. Vale la pena además, señalar que al agrupar la información por medio de histogramas o intervalos se gana una presentación más compacta y atractiva para quienes la observan, sin embargo se pierde la información original, es decir los datos o valores numéricos que se tenían en principio, aunque es preferible en muchos casos esta perdida, a cambio de esta forma de resumir la información. Existen otras formas de agrupar datos, solo por mencionar algunos, se tienen los diagramas de barras en tercera dimensión o histogramas tridimensionales, diagramas circulares, etc. Para organizar una colección de datos, ya existen algunos programas computacionales que realizan el agrupamiento de estos. Siendo una herramienta de gran apoyo para el proceso de enseñanza – aprendizaje de la estadística descriptiva e inferencial.

1.6 Medidas de tendencia central para datos no agrupados Al tener una colección de datos del tipo numérico (sean una población ó bien de una muestra), resulta muy útil conocer algunas medidas para resumir la información o que las representen de alguna manera, existen las llamadas medidas de tendencia central y de dispersión, estas ultimas se verán en la siguiente sección. Aquí estudiaremos aquellas que centralizan o resumen un conjunto de valores a uno o unos cuantos, por eso el nombre de tendencia central. Las principales medidas de este tipo son la media o promedio aritmético, la mediana y la moda. De las tres, la que más usaremos en el libro, será la media aritmética, ya que es una con mayores aplicaciones y mejores cualidades para centralizar la información.

15

1.6.1 Media aritmética, Mediana y Moda Cuándo tenemos una población de tamaño N , a saber, X 1 , X 2 , X 3 ,L , X N definimos la Media aritmética poblacional como: N

X + X 2 + X3 +L + X N 1 = µ= 1 N N

N

∑X

i =1

N

∑ Xi =

i =1

i

Si se tiene una muestra de tamaño n , a saber, x1 , x2 , x3 ,L , xn definimos la Media aritmética muestral como: n

x + x + x + L + xn 1 n x= 1 2 3 = ∑ xi = n n i =1

∑x i =1

i

n

Recuérdese que regularmente trabajaremos con la media muestral y solo cuándo se requiera hablaremos de la media poblacional. Ejemplo: Si suponemos que los siguientes 10 datos representan a una población de tamaño N=10 , 10 000, 11 000, 11 000, 12 000, 12 000, 12 000 13 000, 14 000, 14 000 y 15 000. La media poblacional será: 10000 + 11000 + 11000 + 12000 + 12000 + 12000 + 13000 + 14000 + 14000 + 15000 µ= 10 124000 µ= = 12400 10 Ejemplo: Los pesos de 8 jóvenes con edad de 25 años representan una muestra y son 70, 78, 75, 78, 75, 80, 68 y 90. 70 + 78 + 75 + 78 + 75 + 80 + 68 + 90 614 = = 76.75 La media muestral será x = 8 8 Ejemplo: Una muestra aleatoria arroja los siguientes datos que representan los diámetros de 15 tubos de cobre (en centímetros): 1.9, 1.8, 1.9, 2.1, 2.0, 2.1, 1.8, 1,9, 1.8, 2.1, 2.0, 1.7, 1.9, 2.0 y 2.1. Al obtener la media muestral resulta que x =

1.9 + 1.8 + 1.9 + L + 2.1 29.1 = ≈ 1.94 15 15

Entonces x = 1.94 es el valor de la media muestral.

16

La Mediana de un grupo de datos se define como aquel dato que se encuentra a la mitad de ellos, cuando ya están ordenados de forma creciente. Dependiendo del número de valores que se tengan, en forma simbólica, para una muestra de tamaño n , a saber, x1 , x2 , x3 ,L , xn , se define la Mediana muestral como:  x n +1 si n es impar  2  Med =  x n + x n +1  2 2 si n es par  2

Ejemplo: Para el caso de los diámetros de los 15 tubos de cobre los datos ordenados son: 1.7, 1.8, 1.8, 1.8, 1.9, 1.9, 1.9, 1.9, 2.0, 2.0, 2.0, 2.1, 2.1, 2.1 y 2.1. Como el número 15 es impar, la Mediana será el dato x15+1 = x8 , que ocupa el 2

octavo lugar y su valor respectivo es 1.9. Por tanto, Med = x8 = 1.9 . Ejemplo: si consideramos los pesos de los 8 jóvenes, tendremos que al ordenarlos quedan así: 68, 70, 75, 75, 78, 78, 80 y 90. Aquí como el número de datos es impar (8), entonces hay que hallar el promedio de los dos datos que se localizan a la mitad, es decir, x8 + x8 +1 x +x 75 + 78 2 Med = 2 = 4 5 = = 76.5 2 2 2 En este caso la Mediana resulto ser 76.5, aún cuando no forma parte de los 8 valores. La Moda es aquel dato que tiene la mayor frecuencia, es decir, que se repite el mayor número de veces. Si consideramos los tres ejemplos que ilustraron la media aritmética, se tiene que en el primer ejemplo, la moda es 12 000, ya que su frecuencia es 3 y es la mayor. Sin embargo en el segundo ejemplo, hay dos datos con la mayor frecuencia, a saber, 1.9 y 2.1 cuya frecuencia es 4, cuando esto ocurre le llamamos a la muestra bimodal, algo similar ocurre con el tercer ejemplo, ya que la Moda serán el 75 y 78 por tener la mayor frecuencia (2). La moda es una medida poco usada en la estadística, más bien tiene un valor utilitario en el campo mercantil y comercial, porque permite conocer las preferencias de un producto o las ventas por un artículo determinado. Las definiciones anteriores se aplican a los datos no agrupados y también existen para el caso de datos agrupados por frecuencias o incluso por intervalos, aunque en estas ultimas se dan aproximaciones, ya que no se conocen de manera explicita los valores de los datos, al final de la próxima sección se darán e ilustrarán estas.

17

1.7 Medidas de dispersión para datos no agrupados Aparte de las medidas de centralización o tendencia central, tenemos otras muy importantes en estadística, son aquellas que se encargan de medir la variación o dispersión, que un grupo de datos presenta con respecto a una cantidad fija.

1.7.1 Rango, Suma de cuadrados, Suma se los cuadrados de la diferencias, Varianza y Desviación Estándar. Rango: Es la diferencia del dato mayor con el dato menor. Se puede escribir como sigue a continuación. Rango = Dato mayor – Dato menor. Esta medida tiene un inconveniente principal y es que no considera a la totalidad de los datos al tomar solo dos (mayor y menor), razón por la cual conjuntos de datos muy diferentes en cantidad y valores numéricos, pueden tener un mismo rango. Por ejemplo: Para los datos 2, 2, 4 y 10 su rango es 10 – 2 = 8. Por otro lado en los valores 1, 1, 2, 3, 4, 5, 6, 7, 8, 8, 8, 9, 9, 9 y 9 su rango es también 9 – 1 = 8. Sin embargo todo parece indicar que el segundo grupo de valores presenta mayor variación que el primero, es decir, debería intervenir de alguna forma cada uno de los datos y no solamente dos de estos. Por ello el rango se considera como una medida de dispersión muy deficiente. Suma de las diferencias: Esta es una alternativa para reemplazar al rango y se define como, la suma de las diferencias de cada dato con respecto a la media (poblacional o muestral según sea el caso), así para una muestra de tamaño n x1 , x2 , x3 ,L , xn . La suma de las diferencias queda como: n

SD = ∑ ( xi − x ) = ( x1 − x ) + ( x2 − x ) + L + ( xn − x ) . i =1

En la expresión anterior, ya se toman en cuenta todos los valores, pero se puede observar que dicha medida resulta ser igual a cero, ya que, al reescribirla y usando algunas propiedades de la sumatoria, inevitablemente la suma será cero. En efecto, al desarrollar la definición se tiene que n

SD = ∑ ( xi − x ) = ( x1 − x ) + ( x2 − x ) + L + ( xn − x ) i =1

n n 1 n  n SD = x1 + x2 + L + xn − nx = ∑ xi − n  ∑ xi  = ∑ xi − ∑ xi = 0 i =1 i =1  n i =1  i =1

Lo anterior nos lleva a concluir, que la suma de diferencias no es útil para medir la dispersión, ya que se presentan restas que son positivas y otras negativas que al sumarse dan como resultado cero. Por ello se puede mejor hablar de los valores absolutos de las diferencias, para evitar la problemática del cero o bien elevar al cuadrado las diferencias, como se define a continuación.

18

Suma de los cuadrados de las diferencias. Ahora cada diferencia es elevada al cuadrado y después las sumamos, así tendremos que la suma de los cuadrados de las diferencias es n

SCD = ∑ ( xi − x ) = ( x1 − x ) + ( x2 − x ) + L ( xn − x ) 2

2

2

2

i =1

El cuadrado de las diferencias evita que se presente el cero siempre, pero altera la información, no solo en el aspecto de los valores numéricos, sino que también a la escala de medición utilizada y además no es representativa de la variación que los datos están presentando. Por consecuencia, es conveniente hablar de una especie de promedio de la suma de cuadrados de las diferencias, ello nos lleva a la varianza y desviación estándar. Varianza o Variancia. Esta medida de dispersión es muy utilizada en la estadística y podemos definirla para una población o en su defecto para una muestra aleatoria, de la siguiente manera. Para una población X 1 , X 2 , X 3 ,L , X N , definimos a la Varianza poblacional como: 1 N 2 σ 2 = ∑( Xi − µ ) N i =1 N

σ = 2

∑( X i =1

i

− µ)

2

( X − µ) + ( X2 − µ) = 1 2

2

+L + ( X N − µ )

2

N N Donde µ es la media poblacional y N es el tamaño de la población.

Ejemplo: Sean los datos 1, 2, 3, 4, 5, 6, 7, 8 y 9 que representan a una población, entonces la varianza será:

(1 − 5 ) + ( 2 − 5 ) σ = 2

2

2

+ L + ( 9 − 5)

9 La media poblacional es µ = 5 .

2

= 6.667 , aproximadamente.

Lo mas común, como se ha señalado es que se tenga muestras aleatorias y entonces tendremos que dar la definición de la varianza muestral. Dada una muestra aleatoria de tamaño n , a saber, x1 , x2 , x3 ,L , xn . Se define la Varianza muestral como: s2 =

1 n 2 ( xi − x ) ∑ n − 1 i =1 n

s = 2

∑( x − x ) i =1

i

2

( x − x ) + ( x2 − x ) = 1 2

n −1 Donde x es la media muestral.

2

n −1

19

+ L + ( xn − x )

2

Esta expresión se conoce como la varianza muestral insesgada y se puede notar que la suma de los cuadrados de las diferencias esta dividida por n − 1 y no por n como se podría esperar. Hasta este momento no se tienen los elementos suficientes de justificar el por qué el dividendo es n − 1 , en el capítulo tres se explicará con detalle tal definición. Ejemplo: Si suponemos que los nueve datos (1, 2, 3, 4, 5, 6, 7, 8 y 9) del ejemplo anterior representan ahora una muestra aleatoria, entonces tendremos que la varianza muestral será:

(1 − 5 ) + ( 2 − 5 ) = 5

s

2

2

+ L + ( 9 − 5)

2

= 7.5 .

8

Ejemplo: se tiene une muestra aleatoria de tamaño 12 y los valores de los datos son: 1.1, 1.2, 1.2, 2.3, 2.3, 2.4, 2.4, 2.6, 2.7, 2.7, 2.8 y 2.9. Obtener la media y varianza muestral. La media muestral es x =

1.1 + 1.2 + 1.2 + 2.3 + L + 2.9 = 2.2167 aproximadamente. 12

La varianza muestral es

s

2

(1.1 − 2.2167 ) =

2

+ L + ( 2.9 − 2.2167 ) = 0.437878 aprox. 11 2

Las operaciones para obtener estas aproximaciones, se pueden llevar a cabo de manera automática con la mayoría de las calculadoras de tipo “científico”, por lo que no es necesario, efectuarlas siguiendo tal cual las definiciones. Solo debemos cuidar como se están considerando el grupo de valores numéricos (población o muestra), ya que hay diferencias en esta medida. En algunas ocasiones los valores numéricos, sobretodo de las muestras se llegan a presentar en forma resumida mediante la suma de ellos y la suma de sus cuadrados, en estos casos resulta muy útil contar con una alternativa que permita obtener la varianza muestral, a partir de esta información. Mostraremos como se deduce esta alternativa, en base a la definición de la varianza muestral. 1 n 2 Partimos de que s 2 = ( xi − x ) desarrollando el cuadrado del binomio ∑ n − 1 i =1

( xi − x )

n

2

, usando propiedades de linealidad de la sumatoria

∑ i=1

n

n

n

n

∑ ( ax + b ) = a∑ x + b∑1 = a∑ x + nb i

i =1

i

i =1

i

i =1

, donde a y b son constantes y

i =1

agrupando los términos semejantes se tiene que:

20

s2 =

1 n 1 n 2 x − x = ( ) ∑ i ∑ ( xi 2 − 2 xi x + x 2 ) n − 1 i =1 n − 1 i =1

s2 =

n n n 1  n 2 n 1  n 2   xi − ∑ 2 xi x + ∑ x 2  = xi − 2 x ∑ xi + x 2 ∑1 ∑ ∑   n − 1  i =1 i =1 i =1 i =1 i =1   n − 1  i =1

s2 =

1  n 2 1 n 1  n 2 1  n 2  2  2 2 2 2 x − nx x + x n = x − nx + nx = xi − nx 2  ∑ ∑ ∑ ∑ i i i      n − 1  i =1 n i =1  n − 1  i =1  n − 1  i =1 

 n   ∑ xi  n n 2 2 2 xi − nx xi −  i =1  ∑ ∑ n s 2 = i =1 = i =1 n −1 n −1

2

 n   ∑ xi  n n 2 2 2 xi − nx xi −  i =1  ∑ ∑ n Por tanto, la varianza muestral queda como s 2 = i =1 = i =1 n −1 n −1

2

Ejemplo: De una muestra de tamaño 100 se tiene la siguiente información en forma resumida, como se indica a continuación. 100

∑ xi = 123.56 ; i =1

100

∑x i =1

i

2

= 254.52

Obtener la media y la varianza muestrales. Basta con recurrir a la definición que se dio de x y la alternativa para s 2 . 100

x=

∑x i =1

i

100

=

123.56 = 1.2356 100 2

 100   ∑ xi  100 2 123.562 xi −  i =1  254.52 − ∑ n 100 = 101.8493 = 1.0288 s 2 = i =1 = n −1 99 99

La varianza es una “buena” medida de variabilidad, pero tiene todavía un inconveniente y es que las diferencias son elevadas al cuadrado, provocando un “aumento” en los valores reales y en la escala que esta usando, por ello definimos la mejor medida de dispersión, la desviación estándar o típica,

21

como la raíz cuadrada de la varianza para regresar de alguna forma a las unidades y escalas originales.

Para el caso de una población tenemos que: N

La Desviación estándar poblacional es σ = σ 2 =

∑( X i =1

i

− µ)

2

N

Para una muestra aleatoria

∑ ( x − x) n

La Desviación estándar muestral es s = s 2 =

i =1

2

i

n −1

Ejemplo: Para los valores 1, 2, 3, 4, 5, 6, 7, 8 y 9 considerados como una muestra de tamaño 9, su varianza muestral resulto ser 7.5 y en consecuencia la desviación muestral será s = s 2 = 7.5 = 2.7386 . Ejemplo: Para una muestra de tamaño 10, cuyos valores son 7.5, 7.6, 7.9, 7.9, 8.1, 8.6, 9.7, 10.8, 12.5 y 12.8. La desviación estándar es 2.02386 aproximadamente, ya que,

s = s 2 = 4.096 = 2.02386 .

Cuando los datos están agrupados, sea por tabla de frecuencias o por clases (intervalos), también podemos calcular las medidas anteriormente definidas tanto de tendencia central, media aritmética, mediana y moda, como de dispersión, varianza y desviación estándar. Por simplicidad solo hablaremos de el caso muestral. Si tenemos n datos, en una tabla de frecuencias, como aparecen a continuación. Dato Frecuencia

x1 x2 x3 M xk k

Donde

∑f i =1

i

f1 f2 f3 M fk

=n.

k

1 k La media muestral se obtiene a través de la fórmula x = ∑ xi f i = n i =1

22

∑x f

i i

i =1

n

La varianza muestral por medio de k

s2 =

k

1 2 ( xi − x ) fi = ∑ n − 1 i =1

∑(x − x ) i =1

2

i

n −1

k

fi

=

∑x i =1

2

i

f i − nx 2

n −1

Finalmente la desviación estándar como s = s 2 . La mediana y moda se obtienen de forma idéntica para el caso de datos no agrupados. Ejemplo: Se tienen 55 datos agrupados que constituyen una muestra, en una tabla de frecuencias, obtener la media, la mediana, la moda, la varianza y desviación estándar de acuerdo a la tabla. Tabla de frecuencias dato xi Frecuencia fi 10

2

11

5

12

8

13

10

14

14

15

8

16

5

17

2

18 1 Para obtener la media, la varianza y desviación estándar puede ser útil construir algunas columnas adicionales a la tabla anterior, como se ilustra enseguida. xi fi xi f i xi 2 f i 10 2 20 200 11 5 55 605 12 8 96 1152 13 10 130 1690 14 14 196 2744 15 8 120 1800 16 5 80 1280 17 2 34 578 18 1 18 324 2 n = ∑ f i = 55 ∑ xi fi = 749 ∑ xi f i = 10373

Así x =

∑x f

i i

n

; x=

749 = 13.618 es la media muestral. 55

23

s

2

∑x =

i

2

f i − nx 2

n −1 aproximadamente.

10373 − 55 (13.618) ; s = = 3.208 54 2

2

es la varianza muestral

s = s 2 = 3.208 = 1.791 , es la desviación estándar aproximadamente. La mediana es el dato que ocupa el lugar 28, ya que se tienen en total 55 datos y en base a la tabla es el valor 14. En este ejemplo la moda es el valor 14 también por tener la mayor frecuencia. Ahora veremos como se pueden obtener las medidas anteriores, cuando se tiene una tabla de clases o intervalos, dado que ya no se conocen explícitamente los valores numéricos, es decir, la información se perdió por resumirla a una forma mas compacta y entonces las fórmulas serán aproximaciones por lo que utilizaremos un representante de cada clase, el punto medio de cada intervalo es uno de los mas simples, lo llamamos marca de clase (mi ) . Si se tiene una tabla de k intervalos o clases (histograma) de la forma Clase Frecuencia f i f1 [ , ) f2 [ , ) M M

[

,

)

fk k

La media muestral estará dada por x ≈

∑m f

i i

i =1

n

 k   ∑ mi f i  k k  mi 2 fi − nx 2 ∑ mi 2 f i −  i =1 ∑ n La varianza muestral queda como s 2 ≈ i =1 = i =1 n −1 n −1

2

La desviación estándar será s = s 2

n   2 −∑ f  La mediana se determina con Med ≈ Li +  c f i     Donde Li es el límite inferior del intervalo que contiene a la mediana, es decir el dato que se localiza a la mitad. ∑ f es la suma de las frecuencias anteriores al intervalo que contiene a la mediana. f i es la frecuencia del intervalo que contiene a la mediana. c es el ancho o tamaño del intervalo.

24

 ∆1  La moda queda como Moda ≈ Li +  c  ∆1 + ∆ 2  Donde Li es el límite del intervalo de mayor frecuencia, al que llamamos intervalo modal. ∆1 es la diferencia de frecuencias del intervalo modal y el intervalo inmediato anterior. ∆ 2 es la diferencia de frecuencias del intervalo modal y el intervalo inmediato posterior. c es el ancho o tamaño del intervalo. Ejemplo: Tenemos una tabla de intervalos que representa a las estaturas de 50 niños Intervalo

fi 9

[101.5 , 104.5) [104.5 , 107.5) [107.5 , 110.5) [110.5, 113.5) [113.5 , 116.5)

12 14 10 5

n = ∑ f i = 50 Obtener de manera aproximada la media, varianza, desviación estándar, mediana y moda. Para calcular las tres primeras, es adecuado ampliar la tabla construyendo nuevas columnas, como se indica a continuación.

mi 103 106 109 112 115

Intervalo

[101.5 , 104.5) [104.5 , 107.5) [107.5 , 110.5) [110.5, 113.5) [113.5 , 116.5)

fi 9

mi f i 927

mi 2 f i 95481

12

1272

134832

14

1526

166334

10

1120

125440

5

575

66125

5

n = ∑ f i = 50 i =1

5

∑ mi fi = 5420 i =1

5

∑m i =1

i

2

fi = 588212

5

Por lo que, x ≈

∑m f

i i

i =1

n

=

5420 = 108.4 es una aproximación para la media 50

muestral.

25

5

∑m

2

fi − nx 2

588212 − 50 (108.4 ) 684 = = = 13.959 , es una aproximación s ≈ n −1 49 49 para la varianza muestral. La desviación estándar muestral queda como s ≈ 13.959 = 3.736 . 2

i =1

i

2

La mediana y la moda se obtienen de acuerdo a la tabla original, observando que el intervalo que contiene a la mediana es el tercero, ya que ahí se encuentran los datos 25 y 26, por lo que: n = 25 . 2 f = 21 es la suma de las frecuencias anteriores al tercer intervalo.

Li = 107.5 es limite inferior del tercer intervalo ,



f i = 14 frecuencia del tercer intervalo. c = 3 ancho de cada intervalo.  25 − 21  Luego Med ≈ 107.5 +   ( 3) = 108.357 es el valor aproximado de la  14  mediana.

Por otro lado, el intervalo modal es también el tercero, ya que tiene la frecuencia mayor (14), por lo que: Li = 107.5 es límite inferior del intervalo modal. ∆1 = 14 − 12 = 2 es la diferencia de frecuencias del intervalo modal y el intervalo inmediato anterior. ∆ 2 = 14 − 10 = 4 es la diferencia de frecuencias del intervalo modal y el intervalo inmediato posterior. c = 3 ancho de cada intervalo.  2  Finalmente se tiene que, Moda ≈ 107.5 +   ( 3) = 108.5 , es valor aproximado  2+4 de la moda.

RESUMEN______________________________________________________ En esta unidad se han estudiado los principales elementos de la estadística descriptiva, desde lo que llamamos población, muestra, muestra aleatoria simple, parámetro, hasta estimador o estadístico. Además se ilustro el agrupamiento de los valores numéricos de un conjunto de datos cuantitativos por medio de una tabla de intervalos o un histograma, se definieron las medidas de tendencia central, de dispersión para datos no agrupados o agrupados en intervalos. También se empezó a vislumbrar la diferencia entre estadística descriptiva e inferencial o inductiva y la importancia que tiene la segunda en procesos de predicción.

26

Fórmulas importantes: Medidas de tendencia central N

X + X 2 + X3 +L + X N 1 Media aritmética poblacional: µ = 1 = N N

N

∑X

i =1

N

∑ Xi =

i =1

i

n

x + x + x + L + xn 1 n Media aritmética muestral: x = 1 2 3 = ∑ xi = n n i =1  x n +1 si n es impar  2  Mediana: Med =  x n + x n +1  2 2 si n es par  2

∑x i =1

i

n

Medidas de dispersión Varianza poblacional:

σ2 =

N

1 N

∑( X i =1

N

σ =

∑( X i =1

2

i

i

− µ)

− µ)

N

2

2

( X − µ) + ( X2 − µ) = 1 2

2

+L + ( X N − µ )

N

Varianza muestral: s2 =

1 n 2 ( xi − x ) ∑ n − 1 i =1 n

s = 2

∑( x − x ) i =1

i

n −1

2

( x − x ) + ( x2 − x ) = 1 2

2

n −1

Desviación típica o estándar poblacional: σ = σ

2

Desviación típica o estándar muestral: s = s 2  n   ∑ xi  n n 2 2 2 xi − nx xi −  i =1  ∑ ∑ n Varianza muestral: s 2 = i =1 = i =1 n −1 n −1

27

2

+ L + ( xn − x )

2

2

Para datos agrupados en tabla de frecuencias k

k

1 Media muestral: x = ∑ xi f i = n i =1

∑x f

i i

i =1

n k

1 k 2 Varianza muestral: s 2 = ( xi − x ) fi = ∑ n − 1 i =1

∑ ( xi − x ) i =1

n −1

2

k

fi

=

∑x i =1

2

i

f i − nx 2

n −1

Para datos agrupados en tabla de intervalos k

Media muestral: x ≈

∑m f

i i

i =1

n

n   2 −∑ f  ; Mediana: Med ≈ Li +  c f i    

 ∆1  Moda: Moda ≈ Li +  c  ∆1 + ∆ 2   k   ∑ mi f i  k k  mi 2 fi − nx 2 ∑ mi 2 f i −  i =1 ∑ n 2 Varianza muestral: s ≈ i =1 = i =1 n −1 n −1

2

Ejercicios 1) Los siguientes datos representan los tiempos (en minutos) de atención a 60 clientes de un banco que realizaron en determinado día de la semana. 5, 12, 10, 6, 8, 8, 9,12, 11, 14, 3, 9, 10, 5, 6, 5, 9, 7, 7, 10, 11,13, 14, 4, 5, 10, 15, 16, 10, 5, 6, 11, 12, 16, 6, 7, 5, 9, 8, 11, 12, 3, 4, 8, 9, 10, 11, 5, 6, 7, 8, 12, 10, 9 , 8, 9, 5, 15, 6 y 9. a) Construya una tabla de frecuencias y dibuje su diagrama de varas. b) Construya una tabla de intervalos utilizando 7 intervalos, dibuje su histograma (intervalos vs frecuencias), su polígono de frecuencias y dibuje su ojiva.

28

2) Al llevar a cabo la medición de 45 tornillos en su longitud se obtuvieron los siguientes resultados en centímetros, que aparecen en la tabla. 5.12 5.14 5.09 5.11 5.09 a) b) c) d)

5.08 5.12 5.08 5.13 5.08

5.10 5.09 5.12 5.14 5.10

5.08 5.07 5.13 5.08 5.12

5.12 5.07 5.12 5.07 5.07

5.14 5.08 5.06 5.09

5.12 5.09 5.07 5.09

5.06 5.06 5.08 5.10

5.06 5.10 5.08 5.11

5.11 5.11 5.06 5.12

Ordene los datos de menor a mayor. Obtenga la tabla de frecuencias. Construya una tabla de intervalos de clase, usando 6 intervalos. Dibuje el histograma (intervalos vs frecuencias relativas)

3) Los pesos de 100 personas adultas (en kilogramos) se presentan en la tabla. 85 58 64 64 68 71 89 79 78 68

56 87 90 58 67 72 90 90 78 90

60 82 91 59 86 78 91 55 79 98

68 85 89 58 76 81 95 57 75 89

75 86 67 59 75 87 94 58 80 78

75 89 68 60 74 85 93 98 80 80

81 71 98 61 74 86 94 58 81 80

80 64 75 61 71 84 96 59 88 80

98 65 71 60 70 92 89 60 88 75

67 73 71 65 70 98 78 75 84 70

a) Usando k ≈ n , para determinar el número de intervalos, construya una tabla de intervalos que incluya las frecuencias, frecuencias acumuladas, frecuencias relativas y frecuencias relativas acumuladas. b) Dibuje los histogramas de los intervalos contra las frecuencias respectivas. Nota: En los ejercicios del 4 al 11 supóngase que los datos representan muestras aleatorias. 4) Calcular la media aritmética, mediana, moda, varianza y desviación estándar de los resultados en un cierto examen de conocimientos aplicado a 15 alumnos. 8, 9, 10, 6, 5, 7, 7, 8 , 8, 8, 9, 5, 4, 10 y 8.

5) El porcentaje de desempleo durante los últimos 24 meses expresado en porcentajes aparece a continuación 5.5, 5.4, 5.3, 4.8, 4.9, 5.0, 4.7, 5.8, 5.5, 6.1, 4.9, 4.7, 5.9, 5.1, 5.6, 5.8, 5.7, 6.0, 5.8, 5.5, 6.5, 5.2, 4.8, 5.7 y 5.0. a) Obtenga la media, mediana y moda. b) Calcule la varianza y desviación estándar.

29

6) Los tiempos de traslado de 90 empleados de su hogar al lugar donde se ubica su trabajo, aparecen resumidos en la siguientes sumatorias. Obtenga la media o promedio, la varianza y desviación estándar. 90

∑ xi = 140.51 ; i =1

90

∑x i =1

2

i

= 275.86

7) Las estaturas de 20 jóvenes entre 18 y 24 años en metros, son: 1.78, 1.67, 1.79, 1.69, 1.70, 1.79, 1.72, 1.73, 1.74, 1.71, 1.75, 1.89, 1.80, 1.84, 1.83, 1.76, 1.65, 1.90, 192 y 181. Obtenga el promedio, mediana, moda, varianza y desviación estándar de dichas estaturas. 8) Obtenga la desviación estándar para 30 grosores de láminas de policarbonato en centímetros, si sabemos que: 30

∑ yi = 18.51 ; i =1

30

∑y i =1

2

i

= 13.84

9) Un total de 36 datos, indican los kilómetros que caminan el mismo número de personas al día y aparecen en una tabla de frecuencias como se muestra a continuación. Dato 2.1 2.4 2.5 2.6 2.7 2.8 2.9

Frecuencia 5 6 8 10 4 2 1

Calcular el promedio, mediana, moda, varianza y desviación estándar.

10) A partir de los siguientes datos agrupados, de manera aproximada calcule la media, varianza, desviación estándar, mediana y moda. Intervalo de clase 102 – 104 104 – 106 106 – 108 108 – 110 110 – 112 112 – 114

Frecuencia 7 10 15 11 6 4

30

11) Una muestra aleatoria de tamaño 60, esta organizada mediante una tabla de intervalos como se muestra a continuación. Intervalo [ 4.5,9.5)

[9.5,14.5) [14.5,19.5) [19.5, 24.5) [ 24.5, 29.5) [ 29.5,34.5) [34.5,39.5)

Frecuencia 5 10 14 20 6 3 2

Obtenga La media, mediana, moda, varianza y desviación estándar.

31

Capítulo 2 DISTRIBUCIONES MUESTRALES 2.1 VARIABLES ALEATORIAS MUESTRALES DISTRIBUCIONES DE PROBABILIDAD

A

Y

SUS

l estudiar las variables aleatorias sean discretas ó continuas, desde los cursos de probabilidad, se sabe que tienen su distribución de probabilidades, valor esperado µ X , varianza σ X2 y desviación estándar

σ X . En esta unidad estudiaremos variables aleatorias, que se obtienen de

muestras aleatorias a partir de una población o bien de dos poblaciones. Las principales variables serán la suma muestral (W ) , la media muestral ( X ) , la diferencia de medias muestrales

(X

1

(

( )

− X 2 ) , la proporción muestral Pˆ , la

)

diferencia de proporciones muestrales Pˆ1 − Pˆ2 , la T de Student, la χ 2 ji o chicuadrada y la F de Fisher. Estas dos últimas son usadas cuando se trabaja S2  con la varianza muestral ( S 2 ) y la división de varianzas  1 2  ,  S2  respectivamente. Las letras mayúsculas se utilizarán para referirnos a estas variables, ya que de una muestra a otra, asumen diferentes valores y a cada valor específico de ellas lo simbolizaremos con letras minúsculas, es decir w es el valor que toma la variable W en una muestra aleatoria de tamaño n, x es valor que toma la variable media muestral X en una muestra aleatoria de tamaño n, etc. Solo la variable ji- cuadrada la denotaremos con el símbolo χ 2 . Cuando realiza un muestreo de una población finita se presentan dos tipos, con reemplazamiento, en donde cada elemento seleccionado se puede volver a elegir y sin reemplazamiento, en el que un elemento que fue seleccionado, ya no puede volver a ser elegido. Para construir una distribución muestral, se tendrían que seleccionar todas las muestras de tamaño n de la población y conocer el comportamiento de alguna variable de interés, esta labor se puede realizar si la población es finita y no grande. Por ejemplo si una población es de tamaño N=10 y se quieren todas las muestras de tamaño n=2 con reemplazamiento, se tendrían un total de 102=100 muestras y si fuera sin reemplazamiento se tendrían 45 muestras. Sin embargo en la práctica las poblaciones no son pequeñas, ya que entonces se trabajaría con ellas en su totalidad, lo más común es que las poblaciones sean grandes o incluso infinitas, por lo que obtener todas las muestras resulta demasiado complejo o imposible.

32

Desde la perspectiva matemática las poblaciones pueden ser infinitas y cuando son finitas pero muy grandes, se llegan a considerar como próximas a las infinitas y con ello justificar algunos resultados teóricos importantes. De hecho cuando se habla de variable continua se esta asumiendo que la cantidad de valores que puede tomar esta, es infinita. Cuando el muestreo es con reemplazamiento se considera que es equivalente a suponer que la población es infinita o muy grande, como se apreciará en los ejemplos que ilustran la construcción de algunas distribuciones muestrales. El capítulo servirá como enlace entre la estadística descriptiva y la inferencial, permitiendo comprender la importancia práctica de esta última. Los conceptos de parámetro y estadístico o estimador se manejan de aquí en adelante, y recordemos que en principio los definimos como medidas que se obtienen de una población y una muestra, respectivamente. Ahora extenderemos sobretodo la definición de estadístico o estimador, al de una variable aleatoria, ya que de muestra en muestra presenta diferentes valores para dicho estadístico o en general como una función de las variables aleatorias que constituyen una muestra aleatoria. A la distribución de probabilidades para un estadístico o estimador le llamaremos distribución muestral.

2.1.1 Distribución muestral para una suma de variables La primera variable muestral que vamos a considerar es llamada suma de variables y la denotamos por (W ) , se presenta en problemas donde nos interesa estudiar el peso total de n personas u objetos, la suma total de horas de trabajo en una empresa y en general de cantidades o variables como W = X 1 + X 2 + X 3 + K + X n , donde cada X i representa una variable aleatoria. Para ilustrar la construcción de esta distribución muestral, es decir del estadístico (W ) suma de variables, W = X 1 + X 2 + X 3 + L + X n que nos ayudará a conocer algunas características de las distribuciones muestrales, las cuales podremos extender a otras variables, por simplicidad, supondremos que tenemos una población finita de tamaño N = 5 , cuyos elementos son { 1, 3, 5, 7, 9 } de la que seleccionamos todas las muestras de tamaño n = 2 con reemplazamiento. Primero obtenemos la media y varianza de la población de acuerdo a las definiciones que dimos en el capítulo anterior.

µ=

1 + 3 + 5 + 7 + 9 25 = = 5 , es la media poblacional. 5 5

(1 − 5 ) + ( 3 − 5) + ( 5 − 5 ) + ( 7 − 5) + ( 9 − 5) σ = 2

2

2

2

2

5

varianza poblacional.

33

2

=

16 + 4 + 0 + 4 + 16 40 = = 8 , es la 5 5

Ahora construimos todas las muestras de tamaño n = 2 con reemplazamiento. En la tabla siguiente aparecen en forma de parejas ordenadas las 52 = 25 muestras. (1,1) 2 (3,1) 4 (5,1) 6 (7,1) 8 (9,1) 10

(1,3) 4 (3,3) 6 (5,3) 8 (7,3) 10 (9,3) 12

(1,5) 6 (3,5) 8 (5,5) 10 (7,5) 12 (9,5) 14

(1,7) 8 (3,7) 10 (5,7) 12 (7,7) 14 (9,7) 16

(1,9) 10 (3,9) 12 (5,9) 14 (7,9) 16 (9,9) 18

En la parte inferior de cada pareja al centro y en negrillas está el valor de la variable suma (W ) , se puede observar que asume diferentes valores

dependiendo de la muestra correspondiente, es claro que (W ) se comporta como una variable aleatoria discreta y entonces podemos anotar sus tres características fundamentales (distribución de probabilidades, valor esperado y varianza). Su distribución de probabilidades se presenta como una correspondencia de probabilidades o un histograma de frecuencias relativas como aparecen en la figura 1. W 2 4 6 8 10 12 14 16 18

p (W ) 1 = 0.04 25 2 = 0.08 25 3 = 0.12 25 4 = 0.16 25 5 = 0.20 25 4 = 0.16 25 3 = 0.12 25 2 = 0.08 25 1 = 0.04 25

p (W )

0.20 . . . 0.04

W 2

4

6

8

10

12

14

16

18

Figura 1

El valor esperado de W , es el promedio de todos los valores que toma la variable suma y lo podemos denotar como E (W ) = µW , para el ejemplo tendremos que: 2 + 4 + 4 + 6 + 6 + 6 + L + 14 + 14 + 14 + 16 + 16 + 18 250 E (W ) = µW = = = 10 = 2 ( 5 ) 25 25

34

La varianza de W , la denotamos por V (W ) = σ W 2 y es la varianza de todas las sumas, es decir, para este ejemplo se tiene que: 2 2 2 2 2 2 2 − 10 ) + ( 4 − 10 ) + ( 4 − 10 ) + L + (16 − 10 ) + (16 − 10 ) + (18 − 10 ) ( 2 V (W ) = σ W = 25 400 V (W ) = σ W2 = = 16 = 2 ( 8 ) 25 En el ejemplo, podemos observar que el valor esperado de W es igual a dos veces la media poblacional µ , esto es, E (W ) = µW = 10 = 2 ( 5 ) = nµ Por otro lado, la varianza de W es dos veces la varianza poblacional y se debe a que las muestras fueron de tamaño n = 2 , así V (W ) = σ W2 = 16 = 2 ( 8 ) = nσ 2 . Las dos observaciones anteriores se pueden justificar matemáticamente y no son producto de la casualidad. Se demostrarán estos resultados a través de un teorema, que podemos enunciar de la siguiente manera. Teorema1: Si de una población normal con media µ y varianza σ 2 , se selecciona una muestra aleatoria de tamaño n X 1 , X 2 , X 3 ,K , X n , entonces la variable suma, definida como W = X 1 + X 2 + X 3 + L + X n , es normal con valor esperado o media E (W ) = µW = nµ y varianza V (W ) = σ W2 = nσ 2 . En forma resumida se puede decir que: 1) W = X 1 + X 2 + X 3 + L + X n , es una variable normal.

2) E (W ) = µW = nµ , es la media de W .

3) V (W ) = σ W2 = nσ 2 , es la varianza de W . De este inciso se tiene que la

desviación estándar de la variable suma W es σ W = nσ , donde σ es la desviación estándar poblacional. Demostración: Dado que X 1 , X 2 , X 3 ,K , X n se consideran variables aleatorias normales, ya que provienen de una población normal y E ( X i ) = µ , V ( X i ) = σ 2

para toda i = 1, 2,3,K , n . El inciso 1 se justifica por la propiedad reproductiva de la variable normal, la cual asegura que, la suma de variables normales independientes es una variable normal. Los incisos 2 y 3 se desprenden de las propiedades del valor esperado y la varianza para una combinación lineal de variables aleatorias independientes.  E ( a1 X 1 + a2 X 2 + L + an X n ) = a1 E ( X 1 ) + a2 E ( X 2 ) + L + an E ( X n )  . Así E (W ) = E ( X 1 + X 2 + X 3 + L + X n ) = µ + µ + µ + L + µ = nµ , ya que ai = 1 Para el inciso 3, usamos la propiedad de la varianza que asegura lo siguiente: V ( a1 X 1 + a2 X 2 + L + an X n ) = a12V ( X 1 ) + a22V ( X 2 ) + L + an2V ( X n )  Así V (W ) = V ( X 1 + X 2 + X 3 + L + X n ) = σ 2 + σ 2 + σ 2 + L + σ 2 = nσ 2 . Con lo cual, queda demostrado.

35

La importancia del teorema, estriba en que contamos con una variable aleatoria llamada suma W , que es normal y podemos obtener probabilidades de ella conociendo alguna información de la población, a través de la variable normal estándar Z . Basta que recordemos de los cursos de probabilidad, que toda variable normal X con media µ X y desviación estándar σ X , se puede llevar o transformar a la

Z , cuya media es igual a cero y desviación estándar X − µX igual a uno ( µ = 0 , σ = 1) , mediante la relación Z = , donde µ X es el variable normal estándar

σX

valor esperado o media de X y σ X la desviación estándar de X . Si la variable es W (suma de variables), entonces tendremos que la variable normal estándar queda como: Z =

W − µW

σW

=

W − nµ nσ

Con la variable Z , podemos llevar a cabo la estandarización de cualquier variable normal, lo que permitirá calcular probabilidades de esta última.

Proceso de estandarización de una variable normal X − µX Z=

σX

X  normal ( µ X , σ X ) 



Z  normal ( µ = 0, σ = 1) 

En el apéndice al final del libro, aparece la tabla 2 de valores para la variable normal estándar Z más usuales desde 0.00 hasta 3.59, así como sus probabilidades o áreas bajo la curva, en las columnas Φ ( − z ) , Φ ( z ) y D ( z ) . La columna Φ ( − z ) nos da la probabilidad acumulada hasta − z o bien la probabilidad de que la variable normal estándar Z sea menor o igual al valor negativo − z , es decir Φ ( − z ) = P ( Z ≤ − z ) En la figura 2, se ilustra la curva normal estándar y la interpretación de la probabilidad o área bajo la curva a la izquierda de − z , que proporciona Φ (−z ) .

36

Curva normal estándar

Φ (−z ) = P ( Z ≤ −z )

La columna Φ ( z )

−z Figura 2 nos da la probabilidad de que la variable normal estándar

sea menor o igual al valor positivo z , es decir Φ ( z ) = P ( Z ≤ z ) En la figura 3, se muestra el área bajo la curva normal a la izquierda de z , como una probabilidad acumulada, que proporciona Φ ( z ) Curva normal estándar

Φ( z) = P(Z ≤ z)

z

Figura 3 La columna D ( z ) nos da la probabilidad de que la variable normal estándar Z , se encuentre entre los valores de − z y de z , D ( z ) = P ( − z ≤ Z ≤ z ) , es decir el área comprendida bajo la curva normal estándar entre los valores de − z y z . La figura 4 ilustra la probabilidad que representa D ( z ) .

Curva normal estándar

D ( z ) = P ( −z ≤ Z ≤ z )

−z

z

Figura 4

37

Nota: es importante mencionar que en las variables continuas, las probabilidades son la mismas si utilizamos los símbolos de orden > y < (mayor que y menor que) en lugar de los símbolos ≥ y ≤ (mayor o igual que y menor o igual que). También en la tabla 2 del apéndice, aparece una tabla de porcentajes, que nos permite obtener los valores de la variable normal estándar a partir de las probabilidades o áreas bajo la curva y se podrán usar en el momento que sea necesario. Ejemplo 1: Un elevador tiene una capacidad máxima para una tonelada, los pesos de las personas que lo usan cotidianamente se distribuyen normalmente con un promedio de 75 kg y desviación estándar de 10 kg. ¿Cual es la probabilidad de que al subirse 15 personas en un momento dado, se rebase la capacidad del elevador? Respuesta: Aquí tenemos un problema de suma de variables, es decir podemos suponer que W = X 1 + X 2 + X 3 + L + X 15 , representa el peso total de las quince personas, tal que, es normal con µ = 75 , σ = 10 para cada X i . Como se pregunta por la posibilidad de que se rebase la capacidad del elevador, entonces debemos calcular la probabilidad de que el peso total sea mayor que 1000 kg.  W − nµ 1000 − nµ  P (W > 1000 ) = P  >  nσ   nσ

 1000 − 15 ( 74 )  1000 − 1110   = PZ >  = P Z >  = P ( Z > −2.84 )   38.7298 15 10   ( )   Para obtener la probabilidad usamos de la tabla normal la columna Φ ( z ) , ya que, por la simetría de la curva normal se asegura que: P ( Z > −2.84 ) = P ( Z < 2.84 ) = Φ ( 2.84 ) = 0.9977

En la figura 5 se ilustra el porque podemos usar la columna Φ ( z ) , para hallar dicha probabilidad

P ( Z > −2.84 ) = P ( Z < 2.84 ) = Φ ( 2.84 ) = 0.9977

= −2.84

2.84 Figura 5 Observemos que también podríamos apoyarnos de la propiedad del complemento para probabilidades, es decir, P ( Z > −2.84 ) = 1 − P ( Z < −2.84 ) = 1 − Φ ( −2.84 ) = 1 − 0.0023 = 0.9977 . Por lo tanto, la probabilidad de que la capacidad del elevador sea rebasada por quince personas es del 0.9977. Lo que significa que es muy grande la probabilidad de rebasar la capacidad del elevador.

38

Ejemplo 2: Los tiempos de duración de dos tipos A y B de focos se distribuyen normalmente, de modo que, los del tipo A tiene un promedio de duración de 700 horas, con una desviación de 25 horas y del tipo B un promedio de 650 horas y desviación de 20 horas. En una granja se usan 5 focos tipo A y 4 tipo B, de forma que cuando uno se funde se enciende otro inmediatamente. Calcular la probabilidad de que la duración de los 9 focos exceda a las 6200 horas. Respuesta: En este problema tenemos que la variable es la suma de los tiempos de duración para los 9 focos, luego entonces, definimos a W como: W = X A + X A + X A + X A + X A + X B + X B + X B + X B , donde X A y X B representan los tiempos de duración del tipo A y B respectivamente, con µ A = 700 ; µ B = 650

σ A = 25

;

σ B = 20

La media de W , queda así, µW = 5µ A + 4µ B = 5 ( 700 ) + 4 ( 650 ) = 6100 La varianza de W , es, σ W2 = 5σ A2 + 4σ B2 = 5 ( 25 ) + 4 ( 20 ) 2

2

La desviación estándar de W es, σ W = 5 ( 25 ) + 4 ( 20 ) = 68.74 2

2

La probabilidad de la duración total exceda a 6200 horas se obtiene de la siguiente manera. 6200 − 6100   P (W > 6200 ) = P  Z >  = P ( Z > 1.45 ) = Φ ( −1.45 ) = 0.0735 , de la tabla 68.74   normal. En la figura 6 se muestra que las probabilidades P ( Z > 1.45 ) y P ( Z < −1.45) son iguales, de nueva cuenta por la simetría de la normal

P ( Z > 1.45 ) = P ( Z < −1.45) = Φ ( −1.45 )

1.45

Figura 6

−1.45

La probabilidad de que los 9 focos excedan a las 6200 horas es de 0.0735.

2.1.2 Distribución muestral para una media Ahora veremos la construcción de la distribución muestral para el promedio o media, es decir, consideraremos el estadístico ( X ) media muestral y trabajaremos con el mismo ejemplo utilizado en la distribución para la suma.

39

{ 1, 3, 5, 7, 9 } ,

La población tiene cinco elementos

seleccionamos todas las

muestras de tamaño n = 2 con reemplazamiento. La media y varianza poblacional son µ = 5 y σ 2 = 8 respectivamente. Ahora construimos todas las muestras de tamaño n = 2 con reemplazamiento. En la tabla siguiente aparecen en forma de parejas ordenadas, las 52 = 25 muestras. (1,1) 1 (3,1) 2 (5,1) 3 (7,1) 4 (9,1) 5

(1,3) 2 (3,3) 3 (5,3) 4 (7,3) 5 (9,3) 6

(1,5) 3 (3,5) 4 (5,5) 5 (7,5) 6 (9,5) 7

(1,7) 4 (3,7) 5 (5,7) 6 (7,7) 7 (9,7) 8

(1,9) 5 (3,9) 6 (5,9) 7 (7,9) 8 (9,9) 9

En la parte inferior de cada pareja al centro en negrillas está el valor de la media muestral ( X ) y de nuevo se observa que asume diferentes valores dependiendo de la muestra correspondiente, por lo que ( X ) se comporta como

una variable aleatoria discreta y podemos anotar sus tres características fundamentales (distribución de probabilidades, valor esperado y varianza). Su distribución de probabilidades la presentamos como una correspondencia de probabilidades o un histograma de frecuencias relativas como aparecen en la figura 7.

X 1 2 3 4 5 6 7 8 9

p( X ) 1 = 0.04 25 2 = 0.08 25 3 = 0.12 25 4 = 0.16 25 5 = 0.20 25 4 = 0.16 25 3 = 0.12 25 2 = 0.08 25 1 = 0.04 25

p( X )

0.20 . . . 0.04 1

2

3

Figura 7

40

4

5

6

7

8

9

X

El valor esperado de X , es el promedio de todos los valores que toma la media X y lo podemos denotar como E ( X ) = µ X , para el ejemplo tendremos que: 1 + 2 + 2 + 3 + 3 + 3 + L + 7 + 7 + 7 + 8 + 8 + 9 125 = =5 E( X ) = µX = 25 25 La varianza de X , la denotamos por V ( X ) = σ X 2 y es la varianza de todos los valores que toma X , es decir, para este caso se tiene que:

(1 − 5) + ( 2 − 5 ) + ( 2 − 5 ) V (X ) = σ X =

+ L + ( 8 − 5 ) + ( 8 − 5 ) + ( 9 − 5) 100 = =4 25 25 Algo que se puede sacar como una primera observación del ejemplo, es que el valor esperado de X es igual la media poblacional, esto es E ( X ) = µ X = µ . 2

2

2

2

2

2

2

Por otro lado, la varianza de X es la mitad de la varianza poblacional y se debe 8 σ2 2 a que las muestras fueron de tamaño n = 2 , así V ( X ) = σ X = 4 = = . 2 2 Además de la distribución de probabilidades tiene forma simétrica, aproximada a una forma acampanada, es decir, aunque la variable X es discreta, su distribución de probabilidades se parece vagamente a una curva normal. Las observaciones que se acaban de dar, se pueden justificar matemáticamente y no solo por que aparecieron en este ejemplo, como más adelante se demostrará, cuando se establezcan los resultados a través del teorema 2. Por el momento, veremos que ocurre cuando el muestreo se realiza sin reemplazamiento, tomando el mismo ejemplo de la población de tamaño N = 5 y las muestras de tamaño n = 2 . 5! En la tabla se dan las 5 C 2 = = 10 muestras posibles que se pueden extraer 3!2! de la población sin reemplazamiento. (1,3) 2

(1,5) 3 (3,5) 4

(1,7) 4 (3,7) 5 (5,7) 6

(1,9) 5 (3,9) 6 (5,9) 7 (7,9) 8 Tabla de las 10 muestras sin reemplazamiento

El valor esperado de X es 2 + 3 + 4 + 4 + 5 + 5 + 6 + 6 + 7 + 8 50 E( X ) = µX = = = 5 , el cual coincide con la 10 10 media poblacional. La varianza de X es 2 2 2 2 2 2 2 2 − 5 ) + ( 3 − 5 ) + 2 ( 4 − 5) + 2 ( 5 − 5 ) + 2 ( 6 − 5 ) + ( 7 − 5 ) + ( 8 − 5) ( 2 V (X ) = σ X = 10 30 V (X ) =σX2 = =3 10

41

Donde se puede ver que ahora la varianza de X , no es igual a la varianza poblacional σ 2 dividida por el tamaño de las muestras ( n = 2 ). Sin embargo si N −n σ2 se agrega el factor a , obtenemos la siguiente igualdad N −1 n  5 − 2  8   3  V (X ) =σX2 = 3 =     =   ( 4) .  5 −1   2   4  Para el muestreo sin reemplazamiento podemos concluir que: 1) E ( X ) = µ X = µ

2) V ( X ) = σ X 2 =

N −nσ2 N −1 n

N −n se conoce como corrección por población finita y puede N −1 ignorarse cuando el tamaño de las muestras es pequeño en comparación con el tamaño de la población, ya que cuando la población es mucho más grande σ2 σ2 N −n que la muestra, la diferencia entre y es despreciable. n n N −1 Por ello conviene aclarar que el factor de corrección por población finita no se utiliza cuando trabajamos con poblaciones o variables normales, por considerarse infinitas. De modo que cuando se trabaje una población finita y la muestra sea menor que el 5% de la población, se podrá ignorar dicho factor de corrección.

Al factor

Ahora ya estamos en condiciones de generalizar algunos de los resultados que se obtuvieron en el ejemplo anterior, especialmente cuando el muestreo es con reemplazamiento o la población es normal, con el siguiente teorema que afirma lo siguiente. Distribución muestral para una media Teorema 2: Si se toma una muestra aleatoria de tamaño n de una población normal con media µ y varianza σ 2 , entonces la media muestral X tiene las siguientes características. 1) La media de E ( X ) = µX = µ

X es igual a la media poblacional µ , es decir,

2) La varianza de X es igual a la varianza poblacional σ 2 dividida por el tamaño de la muestra n , es decir, V ( X ) = σ X 2 =

σ2 n

3) X es una variable normal.

Demostración: De la definición de la media muestral X , de algunas propiedades del valor esperado y de la varianza para variables aleatorias se desprenden las tres características.

42

Dado que las observaciones X 1 , X 2 , X 3 ,K , X n provienen de una población con media µ y varianza σ 2 , se tiene que

E ( X i ) = µ ; V ( X i ) = σ 2 , para toda i = 1, 2,3,K , n luego se tiene que

 n   ∑ Xi  X + X2 +L + X n  1  = E  1 E ( X ) = E  i =1  =  E ( X 1 ) + E ( X 2 ) + L + E ( X n )  n  n n    1)     1 1 E ( X ) = [ µ + µ + L + µ ] = nµ = µ n n Lo que demuestra que la media de X o el valor esperado de X , es igual a la media poblacional µ .

 n   ∑ Xi   X + X 2 +L + X n  1 V ( X ) = V  i =1  = V  1  = 2 V ( X 1 ) + V ( X 2 ) + L + V ( X n )  n n  n    2)     1 1 σ2 V ( X ) = 2 σ 2 + σ 2 + L + σ 2  = 2 nσ 2 = n n n Lo que demuestra que la varianza de X es igual a la varianza poblacional σ 2 dividida por el tamaño de la muestra n . 3) La normalidad de X se desprende la propiedad reproductiva de la normal, que asegura que si se tienen variables normales, entonces la suma de estas es también es normal. 1 Dado que X se define como el producto del factor con la suma de las X i y n cada X i se considera normal, por el hecho de que la población de donde se toman es normal. Se puede concluir que la media muestral X es una variable normal. Si la variable es la media muestral X , entonces tendremos que la variable

Z= normal estándar queda como

X − µX

σX

=

X −µ

σ

=

n (X − µ)

σ

n

Ahora veamos algunos ejemplos en donde se hace uso de la distribución muestral para una media X y su estandarización.

43

Ejemplo 3: Los diámetros de los tornillos producidos por una fabrica con determinadas especificaciones se distribuyen normalmente con una media de 50 milímetros y una desviación estándar de 5 milímetros. Si se selecciona una muestra aleatoria de 16 de estos tornillos, ¿cuál será la probabilidad de la media muestral no exceda a los 53 milímetros? Respuesta: Dado que la población de diámetros es normal, con µ = 50 y σ = 5

queremos la probabilidad de X sea menor o igual que 53, es decir, P ( X ≤ 53)

Para obtener esta probabilidad aplicamos los resultados del teorema 2 y la estandarización de X , como de indica a continuación.      X − µ 53 − µ   53 − 50  3   P ( X ≤ 53) = P  ≤  = PZ ≤  = P Z ≤  = P ( Z ≤ 2.40 ) σ  5  1.25    σ      n  16   n  Luego entonces, P ( X ≤ 53) = P ( Z ≤ 2.40 ) = Φ ( 2.40 ) = 0.9918 de la tabla 2 para la variable normal estándar. En la figura 8, se ilustra la probabilidad de que la media muestral X sea menor o igual que 53 y es la misma probabilidad de que la variable Z sea menor o igual a 2.40, como resultado de haber realizado la estandarización.

P ( Z ≤ 2.40 ) = Φ ( 2.40 ) = 0.9918

2.40 Figura 8 Por lo tanto, la probabilidad de que la media muestral X sea menor o igual a 53 milímetros es de 0.9918 o del (99.18)%

Ejemplo 4: Los pesos de los tornillos se distribuyen normalmente con una media de 15.5 gramos y una varianza de 9 gramos cuadrados, si se toma una muestra aleatoria de 16 tornillos, ¿cuál será la posibilidad de que la media de esta muestra sea mayor o igual a 16 gramos? Respuesta: aplicando el teorema 2, tenemos que µ = 15.5 ; σ 2 = 9 y σ = 3 .     ( 0.5 ) 4  = P Z ≥ 0.67 16 − 15.5  P ( X ≥ 16 ) = P  Z ≥  = P Z ≥ ( )  3 3  Luego      16   P ( Z ≥ 0.67 ) = 1 − Φ ( 0.67 ) = 1 − 0.7486 = 0.2514

Se observa que para obtener la probabilidad de la tabla 2 de la curva normal, utilizamos la columna de Φ ( z ) y la propiedad del complemento, ya que como

44

se quiere el área bajo la curva que aparece a la derecha del valor 0.67 y la tabla proporciona el complemento, debemos restar al número uno la probabilidad 0.7486, como se ilustra en la figura 9.

Φ ( 0.67 ) = 0.7486 P ( Z ≥ 0.67 ) = 1 − Φ ( 0.67 ) = 0.2514 Figura 9 0.67 O bien por la simetría se tiene P ( Z ≥ 0.67 ) = P ( Z ≤ −0.67 ) = Φ ( −0.67 ) = 0.2514 Ejemplo 5: Se ha determinado que el tiempo de vida útil para un producto A, es una variable normal con una desviación estándar de 4.5 años. Si se selecciona una muestra de 10 productos. ¿Cuál será la probabilidad de que la media muestral se aleje de la media poblacional en a lo más 5 años? Respuesta: Aunque no conocemos la media poblacional µ , nos están pidiendo la probabilidad de que la media muestral X se encuentre alejada de la media poblacional µ , en a lo más 5 años, esto significa que debemos obtener la probabilidad de que el valor absoluto de X − µ sea menor o igual a 5, es decir P X −µ ≤5

(

)

n = 10

σ = 4.5  −5 10 5 10  P X − µ ≤ 5 = P ( −5 ≤ X − µ ≤ 5 ) = P  ≤Z≤  = P ( −3.51 ≤ Z ≤ 3.51) 4.5 4.5   P ( −3.51 ≤ Z ≤ 3.51) = D ( 3.51) = 0.9996

(

)

La probabilidad se obtiene de la tabla 2, utilizando la columna para D ( z ) , ya que se desea el área bajo la curva entre los valores -3.51 y 3.51, como se ilustra en la figura 10.

D ( 3.51) = 0.9996

-3.51

Figura 10

3.51

45

Ejemplo 6: En referencia al ejemplo anterior, si se desea que la media muestral este alejada de la media poblacional en a lo más un año, con una probabilidad del 95%, ¿de que tamaño tendría que ser la muestra para alcanzar dicha probabilidad? Respuesta: En este ejemplo, ya conocemos la probabilidad de que X − µ ≤ 1 ,

(

)

luego podemos escribir que, P X − µ ≤ 1 = 0.95 lo significa que: − n n P X − µ ≤ 1 = P ( −1 ≤ X − µ ≤ 1) = P  ≤Z ≤  = 0.95 4.5   4.5 Por otro lado, de la tabla 2 para porcentajes de la variable normal estándar, se tiene que cuando z = 1.96 , P ( −1.96 ≤ Z ≤ 1.96 ) = 0.95 (ver figura 11).

(

)

Así podemos igualar

n con 1.96 , para encontrar el tamaño de la muestra 4.5

como se índica. 2 n = 1.96 ⇒ n = 1.96 ( 4.5 ) ⇒ n = 1.96 ( 4.5 )  ≈ 77.79 4.5 Si tomamos n = 78 podemos asegurar la precisión deseada. Por lo que la muestra será de 78 productos.

Figura 11

D (1.96 ) = P ( −1.96 ≤ Z ≤ 1.96 ) = 0.95

-1.96

1.96

Nota: El tamaño de la muestra, se podría obtener de manera análoga igualando − n con −1.96 . 4.5

2.1.3 Distribución muestral para una diferencia de medias. Consideremos ahora que se tienen dos poblaciones normales, la primera con media µ1 y varianza σ 12 , y la segunda con media µ2 y varianza σ 22 . La variable X 1 representa la media de una muestra aleatoria de tamaño n1 tomada de la

primera población y X 2 representa la media de una muestra aleatoria de tamaño n2 seleccionada de la segunda población, de manera independiente.

46

Si queremos hacer una comparación de estas dos variables, podemos establecerla mediante la diferencia de ellas, es decir, X 1 − X 2 o bien X 2 − X 1 . Por ejemplo que beneficios propicia un medicamento A con respecto a otro medicamento B que atacan una misma enfermedad, cuando se tiene información suficiente sobre ellos, en cuanto su efectividad para curar una determinada enfermedad. O bien para comparar la calidad de dos tipos de concreto, en donde sabemos de ante mano, lo que pasa con las dos poblaciones. Cabe recordar que este capítulo, aun nos es parte propiamente de la estadística inferencial, ya que de la o las poblaciones, calculamos probabilidades de lo que le puede ocurrir a una o varias variables aleatorias muestrales. Como consecuencia de los teoremas 1 y 2, podemos asegurar que tanto X 1 y X 2 son variables normales, tales que la media y varianza de X 1 son:

E ( X 1 ) = µ X1 = µ1 y V ( X 1 ) = σ = 2 X1

σ2 n1

.

Para X 2 la media y varianza serán

E ( X 2 ) = µ X 2 = µ2 y V ( X 2 ) = σ

2 X2

=

σ 22 n2

.

Luego para la variable diferencia de medias, afirmamos que X 1 − X 2 es normal por la propiedad reproductiva de variables normales, además.

E ( X 1 − X 2 ) = µ X1 − X 2 = µ1 − µ2 V ( X1 − X 2 ) = σ

σ X −X = 1

2

σ 12

2 X1 − X 2

=

σ 12

σ 22

n1

+

n1

+

σ 22 n2

n2

Por las propiedades del valor esperado y varianza de una combinación lineal de variables. E ( a1Y1 + a2Y2 ) = a1 E (Y1 ) + a2 E (Y2 ) ; V ( a1Y1 + a2Y2 ) = a12V (Y1 ) + a22V (Y2 ) , tomando

a1 = 1 y a2 = −1

47

La estandarización de la variable diferencia de medias X 1 − X 2 estará dada por

X ( Z=

1

− X 2 ) − ( µ1 − µ 2 )

σ 12 n1

+

σ 22 n2

Ejemplo 7: En una compañía (I), el tiempo promedio para producir un artículo es de 12 minutos con una desviación estándar de 2 minutos, mientras que otra compañía (II) tarda en promedio 10 minutos para producir este tipo de artículo, con una desviación estándar de 1.5 minutos. Suponiendo que las poblaciones en los tiempos de producción son normales, se seleccionan aleatoriamente e independiente los tiempos de producción para 20 y 30 artículos para la compañía I y II respectivamente. Determine la probabilidad de que el tiempo promedio muestral de producción de los 20 artículos, exceda al tiempo promedio muestral de los 30 artículos en un minuto, pero no rebase a los tres minutos.

Respuesta: Tenemos la siguiente información. Compañia I Compañia II

µ1 = 12 σ1 = 2

µ2 = 10 σ 2 = 1.5

n1 = 20

n2 = 30

Se quiere la probabilidad P (1 < X 1 − X 2 < 3) , al estandarizar tememos que:

    1 − ( µ1 − µ2 ) ( X 1 − X 2 ) − ( µ1 − µ 2 ) 1 − ( µ1 − µ2 )   P (1 < X 1 − X 2 < 3) = P  < < 2 2 2 2 σ σ σ σ σ 12 σ 22  1 2 1 2  + +  n +n n1 n2 n1 n2  1 2          1 − − 1 − − 1 − 12 − 10 3 − 12 − 10 µ µ µ µ ( ( ( ) ( )  1 2) 1 2)   = P 2.567 ) = 0.010 . 5) Para esta probabilidad P ( −1.928 ≤ T ≤ 1.928 ) con 8 grados de libertad,

buscamos el valor de α = 0.045 para 1.928 y como queremos el área bajo la curva desde −1.928 hasta 1.928 tenemos que: P ( −1.928 ≤ T ≤ 1.928) = 1 − 2α = 1 − 2 ( 0.045 ) = 0.91

62

P ( −1.928 ≤ T ≤ 1.928) = 0.91

α = 0.045

α = 0.045 −1.928

1.928

Figura 17 En la figura 17 se muestra la probabilidad de que T este entre los valores dados 6) Para esta probabilidad usamos dos valores de α , debido a que no son recíprocos, es decir con 25 grados de libertad para 1.3472 tenemos 0.095 y para −1.893 se tiene 0.035 . Por lo tanto P ( −1.893 ≤ T ≤ 1.3472 ) = 1 − 0.095 − 0.035 = 0.87 , como se aprecia en la figura 18 Figura 18

P ( −1.893 ≤ T ≤ 1.3472 ) = 0.87

α = 0.095

α = 0.035 −1.893

1.3472

Ejemplo 19: Encuentre los valores de a y b según el caso. 1) P (T ≥ a ) = 0.090 con 11 grados de libertad.

2) P (T > a ) = 0.005 con 4 g. l.

3) P (T ≤ b ) = 0.025 con 10 g. l.

4) P ( −a ≤ T ≤ a ) = 0.90 con 23 g. l. 5) P ( −a ≤ T ≤ a ) = 0.95 con 12 g. l. 6) P ( −a ≤ T ≤ a ) = 0.99 con 7 g. l.

Respuesta: De la tabla para la distribución t de Student. 1) Como α = 0.090 , entonces con 11 g. l. el valor es a = 1.4318 . 2) Dado que α = 0.005 , con 4 g. l. el valor es a = 4.604 .

63

3) α = 0.025 , con 10 g. l. como P (T ≤ b ) = α , b es negativo, b = −2.228 4) Aquí 1 − 2α = 0.90 , luego α = 0.05 con 23 g. l., por lo que a = 1.714 . 5) 1 − 2α = 0.95 , entonces α = 0.025 con 12 g. l. así a = 2.179 . 6) 1 − 2α = 0.99 , entonces α = 0.005 con 7 g. l. luego a = 3.499 .

2.4 Distribución ji o Chi- cuadrada Otra variable que se presenta sobre todo cuando tenemos muestras pequeñas tomadas de una población normal, es la chi-cuadrada o ji-cuadrada y el símbolo que se usa para denotarla es χ 2 . Del mismo modo que la variable T de Student, no daremos su justificación teórica, ya que nos interesa más el aspecto utilitario de su distribución de probabilidades, por lo que mencionaremos algunas de sus principales características, así como una variable muestral en especial que se comporta de acuerdo la chi-cuadrada. Si S 2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal con varianza σ 2 , entonces el estadístico

n − 1) S 2 ( χ = 2 2

σ

tiene una distribución chi-cuadrada con ν = n − 1 grados de libertad. Las principales propiedades de la distribución chi-cuadrada son:

• •

La variable χ 2 toma solamente valores mayores o iguales a cero. La distribución chi-cuadrada no es simétrica, en la figura 19 aparece una curva que describe a esta distribución. Distribución chi-cuadrada

χ2 Figura 19



Es asintótica con respecto al eje horizontal

64



Se tiene una distribución de probabilidades chi-cuadrada diferente, para cada valor de n − 1



La probabilidad de que una muestra aleatoria produzca un valor de χ 2 mayor que algún valor especificado, es igual al área bajo la curva a la derecha de este valor. Se acostumbra que χα2 represente el valor de χ 2 adelante del cual de halla un área igual a α . En la figura 20 se ilustra el área sombreada que representa a dicha probabilidad P ( χ 2 > χα2 ) .

Figura 20

α = P ( χ 2 > χα2 )

1−α

χα2 La tabla 4 en el apéndice, se proporcionan valores de χ 2 para diversos valores de α y ν grados de libertad. Los encabezados de las columnas son las áreas α , la columna de la izquierda los grados de libertad ν y el resto de la tabla los valores de χ 2 .Por lo tanto, el valor de χ 2 con 14 grados de libertad que deja un área de 0.025 a la derecha, es χα2 = 26.1189 . Aunque la curva no es simétrica, la tabla también nos da los valores de χ 2 para los complementos de cada α , es decir para 1 − α , por ejemplo con 14 grados de libertad y un área a la derecha de 0.975 el valor de χ 2 es χα2 = 5.5287 . Esto facilita el uso y manejo de la tabla chi-cuadrada. La figura 21 ilustra lo anterior. Figura 21 P ( χ 2 > 26.1189 ) = 0.025

P ( χ 2 > 5.6287 ) = 0.975

χ2

χ2 26.1189

5.6287

65

Ejemplo 20: Mediante la tabla 4 para distribución chi-cuadrada obtenga el valor requerido de acuerdo a los grados de libertad ν y la probabilidad o área α . a) Obtener el valor de χ 2 , con ν = 8 g.l. y α = 0.100 b) Obtener el valor de χ 2 , con ν = 23 g.l. y α = 0.150 c) Hallar el valor de χ 2 , con ν = 17 g.l. y α = 0.990 Respuesta: De la tabla 4 de la distribución chi- cuadrada tenemos que. a) χα2 = 13.3616 con 8 g. l. b) χα2 = 29.9792 con 23 g. l. c) χα2 = 6.4077 con 17 g. l.

2.4 Distribución F de Fisher Otra distribución muestral importante en la estadística es la distribución F. El estadístico F se define como una razón de dos variables aleatorias independientes con distribución chi-cuadrado, dividida cada una por sus grados de libertad y puede expresar como U ν1 F= , V ν2 donde U y V son variables aleatorias independientes que tienen distribución chi-cuadrada, con ν 1 y ν 2 grados de libertad, respectivamente. El número de grados de libertad asociado a la variable con distribución chicuadrada que aparece en el numerador de F se escribe siempre en primer lugar, seguido del número de grados de libertad asignado a la variable con distribución chi-cuadrada que se encuentra en el denominador. Esto quiere decir que, la curva de la distribución F no solo depende de los grados de libertad ν 1 y ν 2 , sino del orden en que se enuncian. La figura 22 ilustra a fα como el valor de F , para el cual la probabilidad de que la variable F sea mayor a fα es igual a α y α es el área bajo la curva a la derecha de fα . Figura 22

α = P ( F > fα )

1−α

F



66

En la tabla 5 del apéndice se proporcionan valores de fα para las probabilidades α = 0.005 , α = 0.01 , α = 0.02 , α = 0.025 , α = 0.05 y α = 0.10 para grados de libertad del numerador y del denominador desde 1 a 30. Así por ejemplo el valor que toma la variable F con 12 grados de libertad para el numerador y 7 para el denominador que produce un área a la derecha de α = 0.01 es fα = 6.469 , es decir

P ( F > 6.469 ) = 0.01 , con ν 1 = 12 y ν 2 = 7 con grados de libertad para el numerador y denominador respectivamente. La notación que usaremos para escribir el valor de la variable F con un área α a la derecha de él con ν 1 y ν 2 grados de libertad para el numerador y

denominador respectivamente será fα (ν 1 ,ν 2 ) .

Por lo tanto, escribiremos el valor anterior como sigue f 0.01 (12, 7 ) = 6.469 . Otros valores de la tabla 5 son: f 0.005 ( 6, 21) = 4.393 ; f 0.025 ( 9,14 ) = 3.209

f 0.01 (18,15) = 3.423 ;

f 0.02 ( 24, 26 ) = 2.306 ;

f 0.05 (12, 27 ) = 2.132

f 0.10 (10,15 ) = 2.059

Para hallar valores de f1−α , es decir de: f 0.995 , f 0.99 , f 0.98 , f 0.975 , f 0.95 y f 0.90 , usamos la siguiente propiedad que asegura

f1−α (ν 1 ,ν 2 ) =

1

fα (ν 2 ,ν 1 ) En consecuencia, el valor de la variable F que produce un área de 0.99 a la derecha con 7 y 12 grados de libertad para el numerador y denominador respectivamente, queda determinado como: 1 1 f 0.99 ( 7,12 ) = = = 0.155 f 0.01 (12, 7 ) 6.469 De manera análoga, para los valores que siguen 1 1 f 0.995 ( 21, 6 ) = = = 0.228 f 0.005 ( 6, 21) 4.393 f 0.99 (15,18 ) =

1 1 = = 0.292 f 0.01 (18,15 ) 3.423

f 0.98 ( 26, 24 ) =

1 1 = = 0.434 f 0.02 ( 24, 26 ) 2.306

f 0.975 (14,9 ) =

1 1 = = 0.312 f 0.025 ( 9,14 ) 3.209

f 0.95 ( 27,12 ) =

1 1 = = 0.469 f 0.05 (12, 27 ) 2.132

f 0.90 (15,10 ) =

1 1 = = 0.486 f 0.10 (10,15) 2.059

67

Ahora si suponemos que se seleccionan muestras aleatorias de tamaño n1 y n2 de poblaciones normales con varianzas σ 12 y σ 22 , respectivamente. Tenemos que ( n − 1) S 2 y χ 2 = ( n2 − 1) S22 χ12 = 1 2 1 2 2

σ1 σ2 Son variables aleatorias independientes que tienen distribuciones chi- cuadrada con ν 1 = n1 − 1 y ν 2 = n2 − 1 grados de libertad. De modo que si U = χ12 y V = χ 22 , podemos enunciar la siguiente distribución muestral. Si S12 y S 22 son las varianzas de muestras aleatorias independientes de tamaños n1 y n2 , tomadas de poblaciones normales con varianzas σ 12 y σ 22 , respectivamente, entonces S12

F=

σ 12 σ 22 S12 = S 22 σ 12 S 22 σ 22

Tiene distribución F con ν 1 = n1 − 1 y ν 2 = n2 − 1 grados de libertad para el numerador y el denominador respectivamente. Esta variable se usará en los intervalos de confianza y pruebas de hipótesis para una razón de varianzas en los siguientes capítulos. RESUMEN: Las distribuciones muestrales que se estudiaron en el capítulo 2, las podemos resumir escribiendo cada variable y su estandarización respectiva, sea por el teorema del límite central o por que las poblaciones son normales para el caso de las cinco primeras variables. Suma de variables W

Z=

W − µW

σW

=

W − nµ nσ

Media muestral X

Z=

X − µX

σX

=

X −µ

σ

n

68

=

n (X − µ)

σ

Diferencia de medias muestrales X 1 − X 2

Z=

(X

− X 2 ) − ( µ1 − µ 2 )

1

σ 12 n1

+

σ 22 n2

Proporción muestral Pˆ

Z=

Pˆ − µ Pˆ

Pˆ − p

=

σ Pˆ

p (1 − p ) n

Diferencia de proporciones Pˆ1 − Pˆ2

Z=

( Pˆ − Pˆ ) − ( p − p ) 1

2

1

2

Pˆ − Pˆ ) − ( p − p ) ( = 1

p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2

2

p1q1 p2 q2 + n1 n2

Variable T de Student

T=

X − µ (X − µ) n = S S n

Variable Ji o chi- cuadrada

n − 1) S 2 ( χ = 2 2

σ

Variable F de Fisher S12

F=

σ 12 σ 22 S12 = S 22 σ 12 S 22 σ 22

69

1

2

Ejercicios 1) Los pesos de los sacos con azúcar se distribuyen normalmente con una media 50 kg y una desviación de 2 kg. Si colocan 10 de estos sacos en una bascula, ¿cuál es la probabilidad de que el peso total no exceda los 515 kg?, ¿de que exceda los 490 kg? 2) Un camión transporta cajas de dos clases de manzanas Golden y Delicius, los pesos promedio son de 30 kg y 25 kg, con desviaciones estándar de 3 kg y 1 kg respectivamente. Si se van a transportar 100 cajas de manzanas Golden y 75 cajas de manzanas Delicius, obtener la probabilidad de que el peso total rebase las 5 toneladas. 3) La duración media de cierta marca de lámpara ahorradora de energía es de 6000 horas, con una desviación estándar de 100 horas. Si se probarán 40 lámparas de esta marca, ¿cuál será la probabilidad de que la duración combinada de estas lámparas se encuentre dentro las 239000 y 241000 horas inclusive? 4) En una prueba de aprendizaje la media es de 50 puntos con una desviación estándar de 10 puntos. Se supone que las calificaciones de este tipo de prueba se distribuyen normalmente. Obtenga la probabilidad de que de una muestra aleatoria de 25 calificaciones la media muestral sea mayor a 55 puntos. 5) Los obreros de una gran empresa tienen una edad promedio de 35 años con una desviación típica de 6 años. Si se selecciona una muestra aleatoria de 35 obreros, ¿cual es la probabilidad de la edad promedio de la muestra sea a) de más de 37.5 años b) de menos de 33 años c) de entre 34.25 y 34.75 años d) de entre 36 y 37.75 años? 6) En un país el ingreso familiar mensual tiene una media de $10 000 y una desviación estándar de $ 3 000. Se selecciona una muestra aleatoria de 100 familias, obtenga la probabilidad de que el promedio X sea a)menor o igual que $11 200 b) mayor o igual que $10 450 c) mayor que $10 150 pero menor que $13 000.

 1 cuando x = 3, 6,9 se 7) Se tiene la distribución de probabilidades f ( x) =  3 en otro caso 0 obtiene una muestra de 36 observaciones, calcular la probabilidad de que la media X sea mayor a 7.

70

8) Las alturas de los pinos en los bosques de los alpes se distribuyen normalmente con una desviación estándar de 1.5 metros, si se toma una muestra aleatoria de 12 de estos pinos, ¿cuál es la probabilidad de que la media muestral X se desvíe de la media poblacional µ en a lo más 0.5 metros? 9) En referencia al ejercicio 8) si se quiere que la probabilidad de que la media muestral de desvíe de la media poblacional en a lo más 0.2 metros, sea igual a 0.95 ¿de que tamaño deberá ser la muestra para alcanzar tal precisión? 10) Un fabricante de llantas para automóvil asegura que la duración media es de 40 000 km y una desviación 5000 km. Si se toma una muestra aleatoria de 36 llantas. ¿Cuál será la probabilidad de que la media de la muestra sea inferior a 39 220 km? 11) Un investigador ha determinado que los niveles de vitamina A en el hígado de las mujeres y hombres se distribuyen normalmente con varianzas σ M2 = 19600 y σ H2 = 8100 . Se seleccionan muestras aleatorias de 15 mujeres y de 10 hombres, ¿cual es la probabilidad de que X M − X H sea mayor o igual a 50, si no existe diferencia entre las medias poblacionales?

12) Se sabe que la raza pastor alemán vive en promedio 12 años con una desviación estándar de 2 años y la raza terrier tiene una vida media de 10 años con una desviación de 3 años. Se toman muestras aleatorias independientes de tamaño 100 de estas razas. Obtener la probabilidad de que la diferencia de vidas medias muestrales sea menor o igual que un año. 13) Una compañía quiere comparar el promedio de días de incapacidad por año de dos clases de empleados: los que tienen memos de cinco años de servicio, y los que diez o más. Para ello toma muestras 100 empleados de cada clase. Se sabe que las desviaciones estándares de las dos poblaciones son σ 1 = 8.2 días y σ 2 = 5.7 días, respectivamente. Obtenga la probabilidad de que la diferencia ( X 1 − X 2 ) entre las medias muestrales difiera de la diferencia de medias poblacionales de días de incapacidad por más de un día. 14) Una cierta medicina tiene un 80% de efectividad para curar una enfermedad común. Si se les suministra el medicamento a 100 pacientes con tal enfermedad ¿Cuál es la probabilidad de que más de 80 se recuperen? ¿de que entre 70 y 90 se recuperen? 15) Se considera que el 65% de las mujeres se someten a una dieta para bajar de peso. Si se toma una muestra de 60 mujeres, hallar la probabilidad de que la proporción muestral sea menor que 0.68.

71

16) El 55% de los enfermos con cáncer de mama se recuperan. ¿Cuál es la probabilidad de que 75 personas con la enfermedad menos del 50% se recuperen? 17) En estudios realizados, se observado que los desempleados duran por lo menos un año sin trabajo en un 20%. Supóngase que se toma una muestra de 320 desempleados ¿cual será la probabilidad de que la proporción muestral de desempleados difiera de la proporción real en 5% o más? 18) En cierta población de adolescentes se sabe que el 10 % de hombres son obesos. Si la misma proporción de mujeres son obesas, ¿cual es la probabilidad de que una muestra aleatoria de 250 hombres y de 200 mujeres den una diferencia de proporciones mayor o igual a 0.06? 19) La proporción de ciudadanos que están a favor de una nueva ley en un estado A es de 65%, mientras que en otro estado B es el 55%, si se toma una muestra aleatoria de 90 ciudadanos de cada estado. Hallar la probabilidad de que la diferencia de proporciones muestrales entre los ciudadanos del estado A y el estado B que están a favor de la nueva ley sea mayor o igual a 0.12. 20) Usando la tabla 3 de la distribución t de Student, obtenga a)

t0.025

b)

t0.01

con 15 grados de libertad con 9 grados de libertad

t0.995 con 23 grados de libertad d) P (T > 1.315 ) con 26 grados de libertad

c)

21) Mediante la tabla de la distribución chi-cuadrada, obtenga a) b) c)

2 χ 0.01 con 17 g. l. 2 χ 0.01 con 28 g. l. 2 χ 0.995 con 7 g. l.

d) Si P ( χ 2 < χα2 ) = 0.99 con 4 g. l. calcular χα2

22) Con la distribución F obtenga a) f 0.05 ( 6,12 ) b) f 0.01 (18,9 )

c) f 0.99 (11,19 )

d) f 0.975 ( 6,14 )

72

Capítulo 3 ESTIMACIÓN DE PARÁMETROS

A

hora iniciamos con el estudio de la estadística inferencial, es decir con el desarrollo de los principales elementos que permiten hacer aproximaciones o predicciones a una o más poblaciones, a partir de los resultados obtenidos de muestras aleatorias sacadas de dichas poblaciones. En este capítulo veremos la estimación de parámetros, para ilustrar la idea, consideremos que se desea conocer el tiempo promedio que tardan en recuperarse los pacientes que padecen un resfriado común, cuando se les sumistra un analgésico. Resulta razonable aceptar que el tiempo promedio no se conoce, debido a que la información con que se cuenta no permite obtener de manera exacta tal medida, ya que la población esta creciendo, sin embargo se puede tomar una muestra aleatoria de algunos pacientes a los que se les administro el analgésico, conocer el tiempo medio de recuperación de estos y con ello llevar a cabo una aproximación al tiempo medio de recuperación de todos los pacientes, o bien proponer un intervalo de valores, donde se tenga cierta confiabilidad de que ahí se encuentra el verdadero tiempo promedio. Aquí hablaremos de dos tipos de estimación, la estimación puntual y la estimación por intervalo conocida también como intervalos de confianza. Por lo regular un parámetro es una medida fija pero desconocida en la mayoría de las situaciones reales, de ahí que sea necesario contar con estimadores o aproximadores que permitan al menos un conocimiento lo más cercano a él.

3.1 Estimación puntual Cuando se desconoce una medida como un parámetro, se puede estimar mediante un valor especifico de un estadístico que provenga de alguna muestra aleatoria, a este se le conoce como estimación puntual de un parámetro. ˆ , entonces Si suponemos que un parámetro es Θ y un estimador puntual es Θ ˆ a una estimación puntual consiste en obtener un valor del estimador puntual Θ partir de una muestra aleatoria de tamaño n , el cual lo denotamos por θˆ . Por ejemplo, para la media poblacional µ , un estimador puntual es X y una estimación puntual será x , es decir aquel valor que toma la variable X para una muestra aleatoria. Supongamos que se esta interesado en conocer la estatura promedio µ de los jóvenes que hacen su servicio militar en un cierto año, se selecciona una muestra de 100 de estos jóvenes y resulta que su estatura promedio es de 1.71 metros, esto quiere decir, que un valor del

73

estimador puntual X , es x = 1.71 metros o bien que una estimación puntual para la media poblacional µ es x = 1.71 metros. Conviene precisar adecuadamente la definición anterior, sobretodo distinguir un estimador puntual de una estimación puntual, por ello las letras mayúsculas la usamos para denotar a los estimadores puntuales, ya que son variables aleatorias y las letras minúsculas para denotar a las estimaciones puntuales, es decir un valor particular que toma dicha variable. Con el afán de que tal distinción quede bien establecida, se da una tabla con los principales parámetros que trabajamos en el libro, sus estimadores y sus estimaciones puntuales.

Parámetro

µ µ1 − µ2 p p1 − p2

σ σ σ 12 σ 22

2

Estimador puntual X X1 − X 2 Pˆ Pˆ − Pˆ 1

1

2

Estimación puntual x x1 − x2 pˆ pˆ1 − pˆ 2 s2 s s12 s22

S S S12 S22

Una estimación puntual, es un solo valor con el que se pretende aproximar el parámetro y es de esperar que difícilmente tal valor coincida con el parámetro, lo más seguro es que difiera de él, al ir tomando muestras se irán produciendo estimaciones puntuales por cada una y les ocurrirá algo similar. Además un parámetro puede tener varios estimadores puntuales, por ejemplo la media poblacional µ tiene como estimadores puntuales a la mediana y a la media aritmética X entre otros, por ello es importante elegir el mejor estimador de un mismo parámetro. Existen propiedades de los estimadores puntuales, que nos ayudan a tomar el “mejor” cuando queremos aproximar un parámetro.

3.2 Propiedades de los estimadores Como se acaba de mencionar, un parámetro tiene varios estimadores y resulta importante contar con algún criterio que permita decidir por cual inclinarnos, cuando queremos hacer una aproximación de parámetros. Se cuentan con cuatro propiedades que nos dicen que estimador resulta mejor que otro, son la insesgabilidad, eficiencia, consistencia y suficiencia. Un estimador que tenga estas propiedades se considera mejor que otro que no las tenga. En el siguiente apartado se definen las tres primeras y se ejemplifican solo la insesgabilidad y eficiencia.

74

3.2.1 Estimador insesgado ˆ es insesgado, Definición: Dado un parámetro Θ , se dice que un estimador Θ si su valor esperado es igual al parámetro Θ , es decir ˆ =Θ E Θ

( )

( )

ˆ ≠Θ En caso contrario se dice que es sesgado, es decir cuando E Θ Ejemplo 1: Se tiene una población con media µ y varianza σ 2 , se selecciona una muestra aleatoria de tamaño n y se definen tres estimadores del parámetro µ . 1) X% = Mediana n −1

2) Xˆ =

∑X

i

i =2

n n

3) X =

∑X

i

i =1

n Determinar que estimadores son insesgados.

Respuesta: Debemos obtener el valor esperado de cada estimador, recordando que la mediana depende del número de elementos que contenga la muestra (impar ó par) y que además E ( X i ) = µ para toda i = 1, 2,K , n .

  1) Si n es impar E X% = E  X n +1  = µ , es decir, X% es insesgado.  2   Xn + Xn  +1  = 1 ( µ + µ ) = µ , luego X% es insesgado 2 Si n es par E X% = E  2   2 2      n −1  Xi   n−2 n−2  = 1 E X + X +L + X 2) E Xˆ = E  i = 2 = µ ≠ µ , ya que ≠1 ( ) 2 3 n − 1 n  n n n       para n ≠ 0 . Por lo que Xˆ es sesgado.

( )

( )

( )



 n  Xi    = 1 E X + X + L + X = 1 nµ = µ , por lo que 3) E ( X ) = E  i =1 ( 1 2 n) n  n n       insesgado. En conclusión X% y X son insesgados mientras que Xˆ es sesgado.



75

X

es

n

∑( X − X )

2

i

Ejemplo 2: La varianza muestral S 2 =

i =1

de la varianza poblacional σ 2 .

es un estimador insesgado

n −1

Respuesta: Vamos a probar que E ( S 2 ) = σ 2 . n

Para ello, primero veamos que

n

∑( X − X ) = ∑( X − µ ) − n ( X − µ ) . 2

i

i =1

n

∑( X

−X) = 2

i

i =1

n

∑( X

i =1

−µ +µ− X) = 2

i

i =1

2

2

i

n



( X i − µ ) − ( X − µ )   

2

i =1

Desarrollando el binomio al cuadrado y aplicando propiedades de la sumatoria se tiene que n

n

∑ ( X − µ ) − ( X − µ ) = ∑ ( X − µ ) − 2 ( X − µ ) ( X − µ ) + ( X − µ )  2

2

2

i

i

i =1

i

i =1 n

=

n

∑( X − µ ) − 2( X − µ ) ∑( X − µ ) + n ( X − µ ) 2

i

2

i

i =1

i =1

n

=

∑( X − µ ) − 2( X − µ ) n ( X − µ ) + n ( X − µ ) 2

2

i

i =1 n

=

∑ ( X − µ ) − 2n ( X − µ ) + n ( X − µ ) 2

2

2

i

i =1 n

=

∑( X − µ ) − n ( X − µ ) 2

2

i

i =1

Así   2 E ( S ) = E    

n

∑( X − X ) i

i =1

n −1

2

  = 1 E  n −1      1  =  n − 1  =

n

∑( Xi − µ )

2

i =1

n

∑ i =1

2 − n( X − µ)  

2 E ( X i − µ )  − nE  

(( X − µ )

)

  

1  2 σ2 1 n − n σ ( n − 1) σ 2 = σ 2  = n  n −1 n −1 

dado que E ( X i − µ ) = V ( X i ) = σ y E ( X − µ ) = V ( X ) = 2

2

2

2

σ2

. n Por lo tanto, E ( S 2 ) = σ 2 es decir S 2 es un estimador insesgado de σ 2 . Con este ejemplo se justifica, por que es conveniente dividir entre n − 1 la suma de los cuadrados de las diferencias, ya que si se divide por n el estimador resultaría sesgado de la varianza σ 2 .

76

Una interpretación de la propiedad de insesgabilidad, es de considerar a los estimadores de un parámetro, como tiradores al blanco, en donde el objetivo de cada tirador (estimador) es el centro o diana (parámetro) y cada disparo realizado por un mismo participante es una estimación puntual. El estimador será insesgado si todos sus disparos los “concentra” alrededor de la diana u objetivo, sesgado será cuando sus disparos los “concentre” en otro lugar que no sea la diana, es decir, que la mira está desviada del objetivo.

3.2.2 Estimador eficiente ˆ y Θ ˆ de un mismo parámetro Θ , Definición: Sean dos estimadores Θ 1 2 ˆ ˆ ˆ ˆ , decimos que Θ1 es más eficiente que Θ2 , si Θ1 tiene menor varianza que Θ 2 es decir ˆ σ 2 > ( n − 1) S 2  = 1 − α P  χ2 α χ α2  1−  2 2   n −1 S 2 n − 1) S 2  ( ) ( 2  0 . Si para el medico, la palabra mejor significa que el tiempo promedio de reacción es menor. Pero también podría decir que el medicamento A es mejor que el B lo que implicaría como hipótesis alterna H1 : µ1 < µ 2 o bien H1 : µ1 − µ2 < 0 . Por último puede simplemente decir que, existe diferencia entre los tiempos medios de reacción sin especificar algún medicamento como mejor que otro, lo que nos llevaría a la hipótesis alterna H1 : µ1 ≠ µ 2 o bien H1 : µ1 − µ 2 ≠ 0 . De lo anterior se puede decir que la hipótesis alternativa involucra uno de los siguientes símbolos > “mayor que”, < “menor que” y ≠ “diferente de”. La hipótesis alternativa H1 estará ligada de manera directa, al tipo de región de rechazo que se utilizará en la prueba, como se verá después.

112

4.2.2 El nivel de significancia ( α ) Al llevar a cabo una prueba de hipótesis se toma una desición, respecto a cual de las dos hipótesis se debe ser rechazada, generalmente se quiere que esta sea la hipótesis nula H 0 y no rechazar (“aceptar”) la hipótesis alternativa H1 . Resulta desde el punto de vista lógico, que al tomar una desición de las dos hipótesis anteriores se queda expuesta a cometer dos clases de errores que pueden presentarse. Uno es rechazar la hipótesis nula H 0 , cuando en realidad es verdadera o cierta, comúnmente se conoce como Error tipo I y el otro es cuando no se rechaza (“aceptar”) la hipótesis nula H 0 , cuando en realidad es falsa o equivocada, llamado Error tipo II. A la probabilidad de cometer el error tipo I se le llama nivel de significancia de la prueba y se denota por medio de la letra griega “alfa” α . A la probabilidad de cometer el error tipo II se le simboliza con la letra griega “beta” β . En la tabla que sigue se ilustra la aparición de estos dos tipos de errores en una prueba de hipótesis. Desición Se rechaza H 0

No se rechaza H 0

Realidad de H 0

H 0 es verdadera

Error tipo I

Desición correcta

H 0 es falsa

Desición correcta

Error tipo II

De manera que el nivel de significancia es la probabilidad de cometer el error tipo I, es decir α = P ( Error tipo I ) y generalmente su valor lo propone el investigador, ya que su objetivo es rechazar la hipótesis nula H 0 y por consecuencia se puede presentar el error tipo I. Los valores para α más usados son aquellos que se encuentran entre el 1% y el 10%. Cuando no se tiene información del nivel de significancia se toma el 5% para llevar a cabo la prueba.

4.2.3 Valor del estadístico de prueba Las hipótesis tanto la nula como la alterna, estarán planteadas hacia un parámetro, de ahí que un estadístico de prueba es una variable que permitirá tomar desiciones a través de sus valores numéricos que tome de muestra en muestra, utilizando la información ellas y del comportamiento que tenga dicha variable, ello significa que debemos obtener un valor del estadístico de prueba, para compararlo con otro valor critico que permita decidirse al respecto de las hipótesis. Por ejemplo, un estadístico de prueba puede ser X −µ , si se desea llevara cabo una prueba para la media poblacional, el Z=

σ

n cual se utilizo en la construcción de intervalos de confianza para la media

113

poblacional µ , un valor de este estadístico de prueba será zc =

x − µ0

σ

,

n donde x es el valor de la media de una muestra aleatoria de tamaño n , tomada de una población normal con varianza σ 2 conocida y la hipótesis nula asegura que H 0 : µ = µ0 µ0 , es un valor fijo, por ejemplo la hipótesis nula puede decir que la estatura promedio de los niños con edad de 7 años es de 1.30 metros, lo que significa que la media poblacional, se cree toma el valor de µ0 = 1.30 . Si las hipótesis tanto nula, como la alternativa afirman algo sobre la media poblacional µ , es razonable considerar que el estimador X debe intervenir en el estadístico de prueba y sobretodo el valor que tome para una muestra en particular, supóngase que la hipótesis alterna asegura que la estatura promedio de los niños de 7 años es mayor a 1.30 metros, es de esperar que debe existir un valor mayor que 1.30, a partir del cual cuando la media muestral X rebase este número se estará apoyando de alguna manera a la hipótesis alterna y se llamará valor crítico para el estimador o estadístico X , si suponemos que el valor critico es b = 1.32 , es decir que, cuando X > 1.32 la hipótesis nula será rechazada, ya que los elementos recabados de una muestra arrojaron un valor de X ( x ) mayor que 1.32 y por tanto la información obtenida permite rechazar la hipótesis nula y apoyar a la hipótesis alternativa.

4.2.4 Región de rechazo y de no rechazo Como se acaba de señalar, para rechazar o apoyar una hipótesis se debe hacer una comparación del estadístico o estimador con un valor crítico b , de manera que si X > b , en una prueba de hipótesis H 0 : µ = µ0 contra H1 : µ > µ0 , se esta en condiciones de rechazar la hipótesis nula y en caso de que X ≤ b , no se tienen las razones suficientes para rechazar a la hipótesis nula. Lo anterior nos lleva a la noción de región de rechazo y de no rechazo (llamada también región de aceptación), el valor crítico b produce una región de rechazo y otra de no rechazo como se ilustra en la figura 1, en la cual se muestra a partir de cuando se rechazará la hipótesis nula y cuando no debe ser rechazada.

Región de no rechazo

X ≤b

Región de rechazo

b

X >b

Figura 1 (Región de rechazo de cola derecha) A esta región se llama de extremo derecho o de cola derecha, en virtud de que a la derecha del valor b queda la región de rechazo.

114

De manera similar se puede tener una región de rechazo de extremo izquierdo o de cola izquierda, es decir cuando se desea poner a prueba la hipótesis nula H 0 : µ = µ0 , contra la alternativa H1 : µ < µ0 deberá existir un valor crítico a , de forma que si X < a , la hipótesis nula H 0 será rechazada y si X ≥ a , H 0 no se rechazará. La figura 2 ilustra este tipo de región.

Región de rechazo

Región de no rechazo

X b o X < a la hipótesis nula se rechazará y en caso contrario no será rechazada ( cuando a ≤ X ≤ b ). A dicha región se le llama de extremos derecho e izquierdo o bien de dos colas y en la figura 3 se ilustra tal región.

Región de no rechazo

Región de rechazo

X b

Figura 3 (Región de rechazo de dos colas)

4.2.5 Desición estadística (Regla de desición) En base al tipo de región de rechazo que se vaya a considerar en una prueba de hipótesis, se deberá tomar una desición al respecto de si se rechaza ó no la hipótesis nula H 0 , ello por lo regular se conoce como desición estadística. La desición estadística se lleva a cabo después de recabar la información de una muestra aleatoria de cierto tamaño, tomada de la población que se esta estudiando, y quiere decir que pueden ser significativos los datos de la muestra para rechazar ó no la hipótesis nula, tal desición depende en gran medida de la muestra (valores de los estimadores puntuales) y de la hipótesis nula que se desea poner a prueba. Por ello a la probabilidad de cometer el error tipo I, es decir α = P ( Error tipo I ) se le conoce como nivel de significancia. Si tomamos a manera de ilustración, el caso de una prueba de hipótesis para una media µ tendremos que la desición estadística queda como:

115

Para una región de rechazo de cola derecha

(

H 0 : µ = µ0

vs H1 : µ > µ0 ) ,

si el valor de X ( x ) en una muestra aleatoria, es mayor que el valor crítico b

( x > b ) , entonces la hipótesis nula

H 0 será rechazada, en caso contrario

no se rechaza dicha hipótesis.

Para una ( H 0 : µ = µ0 vs

región de rechazo de cola izquierda H1 : µ < µ 0 ) , si el valor de X ( x ) en una muestra

( x < a) ,

aleatoria, es menor que el valor crítico a

entonces la hipótesis

nula H 0 será rechazada, en caso contrario no se rechaza tal hipótesis.

Para una región de rechazo de dos colas

(

H 0 : µ = µ0

vs H1 : µ ≠ µ0

)

, si

el valor de X ( x ) es mayor que el valor crítico b o bien menor que el valor crítico a ( x > b o x < a ) , entonces la hipótesis nula H 0 deberá ser rechazada y en caso contrario no se podrá rechazar tal hipótesis.

Se puede observar que en la desición estadística intervienen los valores de los estimadores puntuales, es decir las estimaciones puntuales, por ello se escribe entre paréntesis con letras minúsculas. Recordemos lo visto desde los capítulos 2 y 3 (Distribuciones muestrales y Estimación de parámetros).

Ahora ya estamos en condiciones de precisar las diferentes pruebas de hipótesis que se pueden trabajar para los principales parámetros poblacionales, comenzando con la media poblacional µ .

4.3 Prueba de hipótesis para una media Para su mejor comprensión, así como lo hicimos en los intervalos de confianza en el capítulo 3, veremos los distintos casos que se presentan para las pruebas de hipótesis para cada parámetro. Iniciamos con la media poblacional µ e iremos describiendo los cinco elementos básicos de la prueba desarrollados en los apartados anteriores. Caso 1: Si la población es normal, con varianza poblacional σ 2 conocida. Planteamiento de las hipótesis: Aquí se pueden presentar tres posibles hipótesis alternativas para la hipótesis nula, a saber H1 : µ > µ0

H 0 : µ = µ0 , contra

H1 : µ < µ 0

µ0 es un valor especifico

H1 : µ ≠ µ 0

116

El nivel de significancia: α este valor se proporciona de ante mano o en su defecto se da como α = 0.05 , es decir α = 5% regularmente. Recordemos que nos da la probabilidad de cometer el error tipo I, al rechazar la hipótesis nula H 0 .

El estadístico de prueba: Este tercer elemento resulta fundamental en la prueba, ya que será el que nos permita tomar una desición al respecto de el rechazo ó no de la hipótesis nula H 0 y para poder compararlo con el valor crítico, debemos obtener su valor para una muestra aleatoria particular, lo que significa que el estadístico de prueba para este caso es X −µ Z=

σ

n Por lo estudiado en las distribuciones muestrales. Ahora el valor de este estadístico de prueba, para una muestra aleatoria de tamaño n tomada de la población lo escribimos como: x − µ0 zc =

σ

n Lo llamaremos el valor calculado del estadístico de prueba y en realidad será el que utilizaremos en la prueba de hipótesis.

La región de rechazo: Para poder comparar el valor del estadístico de prueba, debemos contar con un valor crítico, el cual lo obtendremos de la tabla 2 de valores para la curva normal estándar, dependiendo del tipo de región que vayamos a considerar, es decir de la hipótesis alternativa que tengamos en el planteo de las hipótesis. De manera que si la hipótesis alternativa es H1 : µ > µ0 , la región de rechazo es de cola derecha y buscamos el valor zα de la variable normal estándar en la tabla 2, para el cual el área bajo la curva a su derecha sea igual a α , es decir α = P ( Z > zα ) y la región de rechazo esta comprendida por todos los valores de Z que son mayores a zα y por consiguiente la región de no rechazo estará

conformada por aquellos valores de

Z menores o iguales que zα , es decir

1 − α = P ( Z ≤ zα ) . En la figura 4 se aprecia la región de rechazo y la de no rechazo para una prueba de hipótesis de cola derecha o extremo superior, tomando la curva normal estándar.

117

Figura 4 Región de rechazo de cola derecha

Región de no rechazo

zα Región de rechazo

Si la hipótesis alternativa asegura que H1 : µ < µ0 , la región de rechazo será de cola izquierda y tendremos que buscar el valor − zα de la variable normal estándar en la tabla 2, para el cual el área bajo la curva a su izquierda sea igual a α , es decir α = P ( Z < − zα ) , de forma que la región de rechazo estará comprendida por todos los valores de Z menores que el valor − zα y la región de no rechazo queda determinada por aquellos valores de Z mayores o iguales que − zα , es decir 1 − α = P ( Z ≥ − zα ) . En la figura 5 se observa la región de rechazo de cola izquierda para el caso normal.

Figura 5 Región de rechazo de cola izquierda

Región de rechazo

− zα Región de no rechazo

Si la hipótesis afirma que H1 : µ ≠ µ0 , la región de rechazo será de dos colas o dos extremos y se deben buscar dos valores en la tabla 2 de la variable normal estándar, a saber − zα y zα , de manera que el área bajo la curva a la 2

2

izquierda de − zα , sumada con el área bajo la curva a la derecha de zα sea 2

2

118

(

) (

)

igual a α , es decir α = P Z < − zα + P Z > zα , así la región de rechazo estará 2

2

comprendida por todos los valores de Z menores que − zα y mayores que zα . 2

2

La región de no rechazo estará formada por aquellos valores de Z mayores o iguales que − zα y menores o iguales que zα , como se ilustra en la figura 6. 2

2

Figura 6 Región de rechazo de dos colas

Región de rechazo

− zα

Región de no rechazo

2

zα Región de rechazo 2

Desición estadística: De acuerdo al valor del estadístico de prueba y el valor encontrado de la tabla 2 para la normal estándar, se tomarán las siguientes desiciones según la región de rechazo a considerar. Para una región de rechazo de cola derecha, la hipótesis nula H 0 se rechaza, si el valor calculado del estadístico de prueba zc , es mayor que el valor zα de la tabla 2, es decir H 0 se rechaza cuando zc > zα y no se rechaza en caso contrario zc ≤ zα . Para una región de rechazo de cola izquierda, la hipótesis nula H 0 se rechaza, si el valor calculado del estadístico de prueba zc , es menor que el valor − zα de la tabla 2, es decir H 0 se rechaza cuando zc < zα y no se rechaza en caso contrario zc ≥ − zα . Para una región de rechazo de dos colas, la hipótesis nula H 0 se rechaza, si el valor calculado del estadístico de prueba zc , es menor que el valor − zα o bien 2

mayor que zα de la tabla 2, es decir H 0 se rechaza cuando zc < − zα o bien 2

2

cuando zc > zα y no se rechaza en caso contrario zc ≥ − zα y zc ≥ zα . 2

2

119

2

Ejemplo 1: Una empresa que fabrica materiales para la construcción desarrollo un nuevo aditivo para cierto tipo de cemento y afirma que el coeficiente promedio a la compresión es de 1500 kg por cm3 con una desviación estándar de 120 kg por cm3. Desea probar la hipótesis H 0 : µ = 5000 en contra de la alternativa H1 : µ < 5000 , para ello toma una muestra aleatoria de 50 piezas de este tipo de cemento y obtiene que x = 4970 kg por cm3. Suponga que la población es normal y use un nivel de significancia del 5%. Respuesta: De acuerdo a los datos del problema, tenemos una población normal con desviación estándar σ = 120 y se quiere realizar una prueba de hipótesis de cola izquierda, ya que se van a contrastar las siguientes hipótesis Planteamiento de las hipótesis. H 0 : µ = 5000

H1 : µ < 5000 Nivel de significancia. α = 0.05 ( 5% ) Valor del estadístico de prueba. 4970 − 5000 zc = = −1.768 120 50 Región de rechazo. La región es de cola izquierda por lo afirma la hipótesis alternativa, de la tabla 2 se determina el valor de − zα = −1.645 con α = 0.05 ( 5% ) y en la figura 7 se ilustra la región de rechazo, así como la de no rechazo.

Figura 7

zc = −1.768 Región de no rechazo Región de rechazo

− zα = −1.645

Desición estadística. Como el valor del estadístico de prueba cae dentro de la región de rechazo (figura 7), ya que zc = −1.768 < zα = −1.645 , la hipótesis nula debe ser rechazada de acuerdo a los datos obtenidos de la muestra. Por lo que podemos inclinarnos en aceptar la hipótesis alternativa, es decir el coeficiente promedio de compresión es menor que 5000 kg por cm3.

120

Conviene aclarar que tal desición fue tomada en base a los datos de esta muestra particular y significa que para otra muestra la desición podría ser totalmente diferente, por ello en muchas ocasiones se recomienda llevar a cabo varias pruebas de hipótesis con diversas muestras aleatorias del mismo tamaño, para determinar la significatividad de tal desición. Ejemplo 2: Los tiempos que tardan las personas en llegar a su centro de trabajo se distribuyen normalmente, con una desviación estándar de media hora. Un investigador afirma que el tiempo promedio que se tardan las personas es superior a una hora, se toma una muestra aleatoria de 25 tiempos y se obtiene que tiempo promedio es de 1.5 horas. Con un nivel de significancia del 5% ¿se puede decir que el investigador tiene razón? Respuesta: Los datos son los siguientes, población normal, con desviación conocida σ = 0.5 , tamaño de muestra n = 25 y α = 0.05 . Planteamiento de las hipótesis. H0 : µ = 1

H1 : µ > 1 , hipótesis del investigador Nivel de significancia. α = 0.05 Valor del estadístico de prueba. 1.5 − 1 zc = =5 0.5 25 Región de rechazo. Por la hipótesis alternativa, la región de rechazo es de cola derecha y el valor crítico que la delimita es zα = 1.645 de la tabla 2 para la variable normal estándar (ver figura 8) Figura 8 Región de rechazo de cola derecha

zc = 5 Región de rechazo

zα = 1.645 Desición estadística. Dado que el valor del estadístico de prueba cae dentro de la región de rechazo (ver figura 8), ya que zc = 5 > zα = 1.645 , la hipótesis se rechaza. Por lo tanto, el investigador tiene razón de acuerdo al los datos de la muestra.

121

Caso 2: Si la población no normal, con varianza poblacional σ 2 desconocida y muestra grande. En este caso lo único que cambia es el valor del estadístico de prueba, ya que los demás elementos de la prueba son los mismos que el caso 1. Por lo solo escribimos de forma simbólica los elementos. Planteamiento de las hipótesis. H1 : µ > µ0

H 0 : µ = µ0 , contra

H1 : µ < µ 0

µ0 es un valor especifico

H1 : µ ≠ µ 0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

zc =

x − µ0 s n

Región de rechazo. De cola derecha, cuando H1 : µ > µ0 De cola izquierda, cuando H1 : µ < µ0 De dos colas, cuando H1 : µ ≠ µ0 Desición estadística. H 0 , se rechaza, si zc > zα (Región de rechazo de cola derecha) H 0 , se rechaza, si zc < − zα (Región de rechazo de cola izquierda) H 0 , se rechaza, si zc < − zα o zc > z α (Región de rechazo de dos colas) 2

2

Ejemplo 3: En estudios realizados sobre la dureza a un determinado metal, se observo que en una muestra aleatoria de n = 100 piezas de este tipo de metal, se tenía una dureza promedio de 15.5 kg, con una desviación estándar de 5 kg. El fabricante asegura que la dureza promedio de sus piezas que produce es superior a 15 kg, pruebe la hipótesis anterior con un nivel de significancia del 1% Respuesta: La población no es normal, pero la muestra es grande, luego estamos en el caso 2. Planteamiento de las hipótesis. H 0 : µ = 15 H1 : µ > 15 Nivel de significancia. α = 0.01 Valor del estadístico de prueba. 15.5 − 15 zc = =1 5 100

122

Región de rechazo. Es de cola derecha por la hipótesis alternativa, de la tabla 2 para la variable normal, con α = 0.01 , se tiene que zα = 2.326 (ver la figura 9)

Figura 9 Región de rechazo de cola derecha

Región de no rechazo

zc = 1

Región de rechazo

zα = 2.326

Desición estadística. Como el valor del estadístico de prueba no cae en la región de rechazo (ver figura 9), ya que zc = 1 < zα = 2.326 , la hipótesis nula no se puede rechazar con la información de esta muestra aleatoria. Por lo que el fabricante no tiene razón. Caso 3: Si la población es normal, con varianza poblacional σ 2 desconocida y muestra pequeña. X −µ , el cual tiene una S n distribución t de Student con n − 1 grados de libertad, lo que significa que debemos trabajar con la distribución t de Student (tabla 3) y no con la curva normal estándar. Los elementos de la prueba cambian en el valor del estadístico de prueba y la región de rechazo. Planteamiento de las hipótesis. H1 : µ > µ0

Para este caso el estadístico de prueba es T =

H 0 : µ = µ0 , contra

H1 : µ < µ 0

µ0 es un valor especifico

H1 : µ ≠ µ 0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

tc =

x − µ0 s n

123

Región de rechazo (RR). de cola derecha

de cola izquierda

α

de dos colas

α

tα RR

RR

−tα

α

α

2

2

RR

−t α

tα RR 2

2

Donde tα , − tα , − tα y t α se obtienen de la distribución t de Student (tabla 3) con 2

2

n − 1 grados de libertad.

Desición estadística. Dependiendo del tipo de región de rechazo, se tiene la siguiente desición. La hipótesis nula H 0 se rechaza, si tc > tα (RR de cola derecha). La hipótesis nula H 0 se rechaza, si tc < −tα (RR de cola izquierda). La hipótesis nula H 0 se rechaza, si tc < −t α o tc > tα (RR de dos colas). 2

2

Ejemplo 4: De una población normal se extrae una muestra de tamaño n = 9 y se obtiene, x = 7.3 con s 2 = 2 . Pruebe la hipótesis nula de que la media poblacional es igual a 7, en contra de la hipótesis alternativa de que µ es diferente de 7. Utilice un nivel de significancia de α = 10% Respuesta: Nos encontramos en el caso 3, con n = 9 , x = 7.3 , s 2 = 2 y α = 0.10 Planteamiento de las hipótesis. H0 : µ = 7

H1 : µ ≠ 7 Nivel de significancia. α = 0.10 Valor del estadístico de prueba. 7.3 − 7 tc = = 0.64 2 9 Región de rechazo. Es de dos colas por la hipótesis alternativa, de modo que de la tabla 3, con n − 1 = 8 grados de libertad, se tienen los valores críticos −tα = −1.860 y 2

tα = 1.860 como se ilustra en la figura 10. 2

124

Figura 10 Región de rechazo de dos colas

α 2

= 0.05

α 2

RR

= 0.05

RR

−tα = −1.860

tc = 0.64

2

tα = 1.860 2

Desición estadística. Como se puede observar en la figura 10, el valor del estadístico de prueba no cae en la región de rechazo (RR), ya que −tα = −1.860 < tc = 0.64 < tα = 1.860 . 2

2

Por lo tanto, la hipótesis nula H 0 : µ = 7 no se rechaza con los datos recabados de la muestra, al nivel de significancia del α = 10%

4.4 Prueba de hipótesis para una diferencia de medias Ahora se desarrollan los elementos básicos de una prueba de hipótesis para una diferencia de medias poblacionales, en muchas ocasiones se puede estar interesado, como ya se dijo antes, en comparar por ejemplo la efectividad de dos medicamentos A y B para combatir una determinada enfermedad y un investigador puede decidir cual es mejor que otro, mediante una prueba que involucre las medias o promedios, a través de la diferencia. De manera análoga como se realizo en los intervalos de confianza, veremos los cinco casos posibles que se pueden presentar, según las poblaciones y las muestras correspondientes. Caso 1: Poblaciones normales con varianzas σ 12 y σ 22 conocidas. Planteamiento de las hipótesis.

H1 : µ1 − µ2 > µ0 H 0 : µ1 − µ 2 = µ0 , contra H1 : µ1 − µ2 < µ0 H1 : µ1 − µ2 ≠ µ0 Nivel de significancia. α = P ( Error tipo I )

125

µ0 es un valor especifico

Valor del estadístico de prueba.

zc =

( x1 − x2 ) − µ0 σ 12 n1

+

σ 22 n2

Región de rechazo. Según la hipótesis alternativa. De cola derecha, cuando H1 : µ1 − µ2 > µ0 De cola izquierda, cuando H1 : µ1 − µ2 < µ0 De dos colas, cuando H1 : µ1 − µ2 ≠ µ0 Desición estadística.

H 0 , se rechaza, si zc > zα (Región de rechazo de cola derecha) H 0 , se rechaza, si zc < − zα (Región de rechazo de cola izquierda) H 0 , se rechaza, si zc < − zα o zc > z α (Región de rechazo de dos colas) 2

2

Ejemplo 5: Una muestra aleatoria de tamaño n1 = 25 extraída de una población normal con desviación estándar σ 1 = 5.2 , tiene una media muestral x1 = 81 , una segunda muestra aleatoria de tamaño n2 = 36 , sacada de una población diferente normal, con desviación estándar σ 2 = 3.4 , tiene una media muestral x1 = 76 . Probar la hipótesis de que µ1 = µ 2 , contra la alternativa µ1 ≠ µ2 , con un nivel de significancia del 6%.

Respuesta: Las poblaciones son normales y dado que sus desviaciones estándar son conocidas, sus varianzas también lo son, por lo estamos en el caso 1 de una prueba de hipótesis para una diferencia de medias. Planteamiento de las hipótesis.

H 0 : µ1 − µ 2 = 0 H1 : µ1 − µ2 ≠ 0

( µ1 = µ2 ) ( µ1 ≠ µ2 )

Nivel de significancia. α = 0.06 Valor del estadístico de prueba. ( 81 − 76 ) − 0 = 4.22 zc = 2 2 ( 5.2 ) + ( 3.4 ) 25 36

126

Región de rechazo. Por la hipótesis alternativa, la región es de dos colas y en la figura 11 se aprecian los valores críticos de la variable normal estándar, que limitan esta región. Dichos valores se obtienen de la tabla 2, para porcentajes, tomando el 94% se determina que − zα = −1.881 y zα = 1.881 . 2

2

Figura 11 Región de rechazo de dos colas

α 2

1 − α = 0.94

= 0.03 RR

α 2

= 0.03

RR

− zα = −1.881

zα = 1.881 2 zc = 4.22

2

Desición estadística. Como el valor del estadístico de prueba cae dentro de la región de rechazo, ya que zc = 4.22 > zα = 1.881 (ver figura 11), la hipótesis nula H 0 debe ser 2

rechazada. Por lo que, las medias de las poblaciones no son iguales, como resultado de la información recopilada a partir de estas muestras aleatorias.

Caso 2: Poblaciones no normales con varianzas σ 12 y σ 22 desconocidas, pero muestras grandes (e independientes). Planteamiento de las hipótesis.

H1 : µ1 − µ2 > µ0 H 0 : µ1 − µ 2 = µ0 , contra H1 : µ1 − µ2 < µ0 H1 : µ1 − µ2 ≠ µ0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

zc =

( x1 − x2 ) − µ0 s12 s22 + n1 n2

127

µ0 es un valor especifico

Región de rechazo. Según la hipótesis alternativa. De cola derecha, cuando H1 : µ1 − µ2 > µ0 De cola izquierda, cuando H1 : µ1 − µ2 < µ0 De dos colas, cuando H1 : µ1 − µ2 ≠ µ0 Desición estadística.

H 0 , se rechaza, si zc > zα (Región de rechazo de cola derecha) H 0 , se rechaza, si zc < − zα (Región de rechazo de cola izquierda) H 0 , se rechaza, si zc < − zα o zc > z α (Región de rechazo de dos colas) 2

2

Ejemplo 6: Un fabricante afirma que el coeficiente promedio a la tensión de una fibra “A” excede al coeficiente promedio a la tensión de la fibra “B” en al menos 12 kilogramos. Para probar su afirmación se prueban 50 piezas de cada tipo de fibra bajo condiciones similares. La fibra tipo “A” dio un coeficiente promedio a la tensión de 86.7kg con una desviación estándar de 6.8 kg, mientras que la fibra “B” tuvo una resistencia promedio a la tensión de 77. 8 kg con una desviación estándar 5.61 kg. ¿El fabricante tiene razón en su afirmación, con un nivel de significancia del 5%?

Respuesta: Dado que las muestras son suficientemente grandes, las poblaciones no se nos dice que sean normales y las variancias de estas se desconocen. Nos encontramos en el caso 2, para una prueba de hipótesis de una diferencia de medias.

Planteamiento de las hipótesis. Si consideramos que µ1 es el coeficiente promedio a la tensión de la fibra “A” y µ2 es el coeficiente promedio a la tensión de la fibra “B”, tenemos que “al menos” significa mayor o igual que, por lo que la hipótesis nula es aquella que involucra al mayor o igual que y la alternativa al menor que.

H 0 : µ1 − µ 2 ≥ 12 H1 : µ1 − µ2 < 12

( µ1 ≥ µ2 + 12 ) , hipótesis del fabricante. ( µ1 < µ2 + 12 )

Nivel de significancia. α = 0.05

128

Valor del estadístico de prueba. Dado que A B n1 = 50 n2 = 50 x1 = 86.7 x2 = 77.8

s1 = 6.8

s2 = 5.61 zc =

( 86.7 − 77.8) − 12 2 2 ( 6.8 ) + ( 5.61) 50

= −2.49

50

Región de rechazo. La región es de cola izquierda, como muestra en la figura 12 y el valor crítico − zα = −1.645 , lo sacamos de la tabla 2 de porcentajes, para la variable normal estándar. Figura 12 Región de rechazo de cola izquierda

zc = −2.49 Región de no rechazo Región de rechazo

− zα = −1.645

Desición estadística. Como el valor del estadístico de prueba zc = −2.49 cae en la región de rechazo, ya que zc = −2.49 < − zα = −1.645 , la hipótesis nula H 0 se rechaza, luego entonces el fabricante no tiene razón al hacer su afirmación de acuerdo con los datos recabados en las muestras, es decir el coeficiente promedio a la tensión de la fibra “A”, no excede, en al menos 12 kg al coeficiente promedio a la tensión de la fibra “B”.

129

Caso 3: Poblaciones normales con varianzas desconocidas pero iguales ( σ 12 = σ 22 ) y muestras pequeñas e independientes. Planteamiento de las hipótesis.

H1 : µ1 − µ2 > µ0 H 0 : µ1 − µ 2 = µ0 , contra H1 : µ1 − µ2 < µ0

µ0 es un valor especifico

H1 : µ1 − µ2 ≠ µ0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

tc =

( x1 − x2 ) − µ0 1 1 + n1 n2

sp

con s p =

( n1 − 1) s12 + ( n2 − 1) s22 n1 + n2 − 2

Región de rechazo. Según la hipótesis alternativa. De cola derecha, cuando H1 : µ1 − µ2 > µ0 De cola izquierda, cuando H1 : µ1 − µ2 < µ0 De dos colas, cuando H1 : µ1 − µ2 ≠ µ0 de cola derecha

de cola izquierda

α

α

tα RR

RR

−tα

de dos colas α

α

2

2

RR

−t α 2

tα RR 2

Desición estadística.

H 0 , se rechaza, si tc > tα (Región de rechazo de cola derecha) H 0 , se rechaza, si tc < −tα (Región de rechazo de cola izquierda) H 0 , se rechaza, si tc < −tα o tc > tα (Región de rechazo de dos colas) 2

2

Donde tα , −tα , −tα y tα son valores de la variable T de Student con n1 + n2 − 2 2

2

grados de libertad.

130

Ejemplo 7: Se pretende averiguar cual de dos medicamentos es mejor para reducir la presión arterial, para ello se seleccionan 25 pacientes a los cuales se les suministra el medicamento I y se obtienen los siguientes resultados x1 = 117 , s1 = 5 . A otros 5 pacientes se les administra el medicamento II y se obtiene x2 = 122 , s2 = 10 . Si suponemos que las poblaciones son normales, con varianzas desconocidas pero iguales



2 1

= σ 22 ) y que las muestras son

independientes. Con un nivel de significancia del 10%, pruebe la hipótesis de que el medicamento I es mejor que el medicamento II. Respuesta: Consideremos que µ1 y µ2 es la presión arterial media producida por los medicamentos I y II respectivamente, que el medicamento I sea mejor que el medicamento II, significa que µ1 < µ2 . Por lo que. Planteamiento de las hipótesis. H 0 : µ1 − µ2 = 0 Los dos medicamentos tienen la misma efectividad. H1 : µ1 − µ2 < 0 El medicamento I es mejor que el II. Nivel de significancia. α = 0.10 (10% ) Valor del estadístico de prueba. I II Como

n1 = 25 n2 = 5 (117 − 122 ) − 0 = −1.71 , entonces tc = x1 = 117 x2 = 122 1 1 5.98 + 25 5 s1 = 5 s2 = 10

ya que , s p =

( 25 − 1) 52 + ( 5 − 1)102 25 + 5 − 2

= 5.98

Región de rechazo. La región de rechazo es de cola izquierda como aparece en la figura 13, debido a la hipótesis alterna. El valor −tα = −1.3125 se obtiene de la tabla 3, con n1 + n2 − 2 = 28 grados de libertad y un α = 0.10 . Figura 13 Región de rechazo de cola izquierda

tc = −1.71 Región de no rechazo Región de rechazo

−tα = −1.3125

131

Desición estadística. Dado que el valor del estadístico de prueba cae dentro de la región de rechazo, ya que tc = −1.71 < −tα = −1.3125 , se rechaza la hipótesis nula H 0 . Por lo tanto, el fabricante no tiene razón en su afirmación de acuerdo a los datos que proporcionan las muestras aleatorias.

Caso 4: Poblaciones normales, con varianzas desconocidas diferentes ( σ 12 ≠ σ 22 ) y muestras pequeñas e independientes. Planteamiento de las hipótesis.

H1 : µ1 − µ2 > µ0 H 0 : µ1 − µ 2 = µ0 , contra H1 : µ1 − µ2 < µ0

µ0 es un valor especifico

H1 : µ1 − µ2 ≠ µ0 Nivel de significancia.

α = P ( Error tipo I )

Valor del estadístico de prueba.

tc =

( x1 − x2 ) − µ0 s12 s22 + n1 n2

Región de rechazo. Según la hipótesis alternativa. De cola derecha, cuando H1 : µ1 − µ2 > µ0 De cola izquierda, cuando H1 : µ1 − µ2 < µ0 De dos colas, cuando H1 : µ1 − µ2 ≠ µ0 de cola derecha

de cola izquierda

α

tα RR

α

RR

−tα

de dos colas α

α

2

2

RR

−t α 2

132

tα RR 2

Desición estadística. H 0 , se rechaza, si tc > tα (Región de rechazo de cola derecha) H 0 , se rechaza, si tc < −tα (Región de rechazo de cola izquierda) H 0 , se rechaza, si tc < −tα o tc > tα (Región de rechazo de dos colas) 2

Donde tα , −tα , −tα

2

y

2

tα son valores de la variable T de Student, con ν 2

grados de libertad que se obtienen de la tabla 3, tal que ν esta dado por 2

 s12 s22   +  n n ν =  12 2  2  s12   s22       n1  +  n2  n1 − 1 n2 − 1

Ejemplo 8: Una gran fábrica de automóviles está tratando de decidir si compra llantas “A” o “B” para sus nuevos modelos. Para ayudar a tomar la desición se lleva a cabo un experimento en el cual se utilizan 12 llantas de cada marca los resultados fueron: Marca " A " Marca " B " x1 = 37900 km x2 = 39800 km s1 = 5100 km s1 = 5900 km Probar la hipótesis, con un nivel de significancia de 5% de que no hay diferencia entre los dos tipos de llantas. Suponga que las poblaciones son normales y que las muestras son independientes. Respuesta: Nos encontramos en el caso 4, ya que las poblaciones son normales, sus varianzas son desconocidas y como no se dice nada de ellas se supone que son diferentes, además de que las muestras son pequeñas e independientes. Planteamiento de las hipótesis. Dado que se afirma que no hay diferencia entre los dos tipos de llantas, significa que las medias poblacionales son iguales, en contra de que son diferentes. Lo anterior traducido en las hipótesis queda de la siguiente manera.

H 0 : µB − µ A = 0 H1 : µ B − µ A ≠ 0 Nivel de significancia. α = 0.05 Valor del estadístico de prueba.

tc =

( 39800 − 37900 ) − 0 2 2 ( 5900 ) + ( 5100 ) 12

12

133

= 0.844

Región de rechazo. La región de rechazo es de dos colas y los valores críticos de la tabla 3 para la T de Student son −tα = −2.074 y tα = 2.074 con ν = 22 grados de libertad, 2

2

como se muestra en la figura 14, donde 2

 ( 5900 ) 2 ( 5100 )2  +   12   12 ν= = 21.55 ≈ 22 2 2  ( 5900 )2   ( 5100 ) 2       12   12    +  12 − 1 12 − 1 Figura 14 Región de rechazo de dos colas

α 2

= 0.025

1 − α = 0.95

α 2

RR

−tα = −2.074 2

= 0.025

RR

tc = 0.844

tα = 2.074 2

Desición estadística. El valor del estadístico de prueba no cae en la región de rechazo, como se puede observar en la figura 14, dado que −tα = −2.074 < tc = 0.844 < tα = 2.074 2

2

Luego la hipótesis nula H 0 no se rechaza y en consecuencia no hay diferencia significativa en cuanto a los dos tipos de llantas que usará en sus nuevos modelos, de acuerdo con la información obtenida en las muestras.

134

Caso 5: Poblaciones normales y muestras pequeñas dependientes (muestras apareadas). Planteamiento de las hipótesis.

H1 : µ d > µ 0 H 0 : µd = µ0 , contra H1 : µd < µ0

µ0 es un valor especifico

H1 : µ d ≠ µ0 Donde µd es la media de las diferencias poblacionales Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

tc =

xd − µ0 sd n

Con xd y sd los valores de la media y la desviación estándar de las diferencias muestrales di , respectivamente. Además de que n = n1 = n2 . Región de rechazo. Según la hipótesis alternativa. De cola derecha, cuando H1 : µd > µ0 De cola izquierda, cuando H1 : µd < µ0 De dos colas, cuando H1 : µd ≠ µ0 de cola derecha

de cola izquierda

α

α

tα RR

RR

−tα

de dos colas α

α

2

2

RR

−t α 2

tα RR 2

Desición estadística.

H 0 , se rechaza, si tc > tα (Región de rechazo de cola derecha) H 0 , se rechaza, si tc < −tα (Región de rechazo de cola izquierda) H 0 , se rechaza, si tc < −tα o tc > tα (Región de rechazo de dos colas) 2

Donde tα , −tα , −tα

2

2

y tα son valores de la variable T de Student con n − 1 2

grados de libertad.

135

Ejemplo 9: En un estudio se registraron los siguientes datos acerca de la concentración de residuos de acido sórbico en jamón, en partes por millón, inmediatamente después de introducir el jamón por un instante en una solución sórbica y después de 60 días de almacenamiento. Antes Después Diferencia

224 270 116 96 108 174

400 444 236 329 164 115

590 660 437 597 153 63

1400 689 711

680 576 104

Si suponemos que las poblaciones son normales, ¿hay evidencias suficientes con un nivel de significancia del 5%, para decir que el periodo de almacenamiento reduce las concentraciones residuales de acido sórbico?

Respuesta: Aquí las muestras la consideramos dependientes, ya que el jamón es el mismo antes y después del almacenamiento, por lo que estamos en el caso 5. El valor de la media y la desviación estándar de las diferencias son xd = 199 y sd = 210.09 , respectivamente. Como se ilustro en los intervalos de confianza para muestras dependientes del capítulo 3. Planteamiento de las hipótesis. H 0 : µd = µ1 − µ2 = 0 El almacenamiento no reduce la concentración de acido. H1 : µd = µ1 − µ 2 > 0 El almacenamiento si reduce la concentración de acido. Nivel de significancia. α = 0.05 Valor del estadístico de prueba. 199 − 0 tc = = 2.68 210.09 8 Región de rechazo. Es de cola derecha, ya que la hipótesis alterna afirma que µd > 0 y el valor crítico de la tabla 3 es tα = 1.895 con n − 1 = 7 grados de libertad (figura 15). Figura 14 Región de rechazo de cola derecha

Región de no rechazo

Región de rechazo

tα = 1.895 136

tc = 2.68

Desición estadística. Como el valor del estadístico de prueba si cae en la región de rechazo, ya que tc = 2.68 > tα = 1.895 , véase la figura 14, la hipótesis nula H 0 se rechaza. Por lo que si existen evidencias suficientes de que el periodo de almacenamiento reduce la concentración de acido sórbico en el jamón.

4.5 Prueba de hipótesis para una proporción Otro parámetro muy utilizado en la estadística es la proporción p y al igual que la media y diferencia de medias podemos hablar de su prueba de hipótesis. Si la muestra es suficientemente grande, se trabaja con la variable normal estándar, en virtud el teorema central del limite (TLC), mientras que para muestras pequeñas se usaría la variable binomial. Como se presenta en los siguientes casos. Caso 1: Muestras pequeñas Planteamiento de las hipótesis. H1 : p > p0

H 0 : p = p0 , contra H1 : p < p0

, p0 es un valor especifico

H1 : p ≠ p0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba. Esta dado por b = P ( X ≥ x cuando

p = p0 ) , donde x es el número de éxitos en

la muestra aleatoria de tamaño n , si las alternativas son ( p > p0

o

p < p0 ) .

Cuando la alternativa sea p ≠ p0 , el valor del estadístico de prueba es b = P ( X ≤ x cuando b = P ( X ≥ x cuando

p = p0 ) si x < np0

p = p0 ) si x > np0

Región de rechazo. Cuando se tienen alguna de las alternativas ( p > p0

o

p < p0

o

p ≠ p0 ) , la

región de rechazo esta formada por aquellos valores menores o iguales que α . Desición estadística.

137

Si el valor b es menor o igual que α , la hipótesis nula H 0 : p = p0 se rechaza. Ejemplo 10: Un Urbanista asegura que el 70% de los hogares en una localidad tienen sistema de aire acondicionado, ¿se puede estar de acuerdo con dicha hipótesis, si en una muestra aleatoria de casas en esta ciudad, 6 de 9 tienen aire acondicionado? considere que el nivel de significancia es del 10% Respuesta: Planteamiento de las hipótesis. H 0 : p = 0.70

H1 : p ≠ 0.70 Nivel de significancia. α = 0.10 Valor del estadístico de prueba. Como p0 = 0.70 y n = 9 , x = 6 < np0 = 6.3 El valor del estadístico de prueba es b = 2 P ( X ≤ 6 cuando

p0 = 0.70 )

6

∑ B ( x,9, 0.7 ) = 2(0.5372) = 1.0744

b=2

x=0

Región de rechazo. Esta formada por aquellos valores de b menores o iguales que α = 0.10 Desición estadística. Como b = 1.0744 no es menor o igual que α = 0.10 , la hipótesis nula H 0 no se rechaza, ello significa que el Urbanista tiene razón de acuerdo con la muestra aleatoria.

Caso 2: Muestras grandes ( n ≥ 30 o bien np0 y n (1 − p0 ) ≥ 5) Planteamiento de las hipótesis. H1 : p > p0

H 0 : p = p0 , contra H1 : p < p0

, p0 es un valor especifico

H1 : p ≠ p0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

zc =

pˆ − p0

p0 (1 − p0 ) n

donde pˆ es el valor de la proporción muestral Región de rechazo. De cola derecha, si la alternativa es H1 : p > p0 De cola izquierda, si la alternativa es H1 : p < p0

138

De dos colas, si la alternativa es H1 : p ≠ p0 Desición estadística. H 0 , se rechaza, si zc > zα (Región de rechazo de cola derecha) H 0 , se rechaza, si zc < − zα (Región de rechazo de cola izquierda)

H 0 , se rechaza, si zc < − zα

o zc > z α (Región de rechazo de dos colas)

2

2

de cola derecha

de cola izquierda

α

α

zα RR

RR

− zα

de dos colas α

α

2

2

RR

− zα 2

zα RR 2

Ejemplo 11: Se cree que al menos el 60% de los residentes de cierta área están en contra de un nuevo impuesto. ¿Qué se puede concluir si de 250 habitantes de esa zona 140 no están de acuerdo con el nuevo impuesto? utilizar un nivel de significancia del 8% Respuesta: Dado que la muestra es grande, estamos en el caso 2 para una proporción. Planteamiento de las hipótesis. H 0 : p ≥ 0.60 , al menos el 60% de los residentes están en contra H1 : p < 0.60 , menos del 60 % de los residentes están en contra Nivel de significancia. α = 0.08 Valor del estadístico de prueba. 150 − 0.60 zc = 250 = −1.291 0.60 ( 0.40 ) 250 Región de rechazo. Por la hipótesis alternativa, la región es de cola izquierda como se aprecia en la figura 15. El valor crítico se obtiene de la tabla 2 de los porcentajes para la variable normal estándar y es zα = −1.751 con α = 0.08 (1 − α = 0.92 ) . Figura 15 Región de rechazo de cola izquierda

zc = −1.291 Región de no rechazo Región de rechazo

− zα = −1.751

139

Desición estadística. Dado que el valor del estadístico de prueba zc = −1.291 no cae en la región de rechazo, ya que zc = −1.291 > − zα = −1.751 como se ve en la figura 15, se concluye que la hipótesis nula H 0 no se rechaza y por tanto la creencia de que al menos el 60% de los residentes en esa área están en contra del nuevo impuesto, es aceptable, con un nivel de significancia del 8%

4.6 Prueba de hipótesis para una diferencia de proporciones Aquí se supondrá que las muestras son suficientemente grandes y tenemos dos casos, que son: Caso 1: Muestras grandes, con ( p1 = p2 ) o bien

p0 = 0

Planteamiento de las hipótesis. H1 : p1 − p2 > p0

H 0 : p1 − p2 = p0 , contra H1 : p1 − p2 < p0

; p0 = 0

H1 : p1 − p2 ≠ p0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

zc =

pˆ1 − pˆ 2

1 1  pˆ (1 − pˆ )  +   n1 n2 

x1 + x2 es el valor de la proporción agrupada para las muestras n1 + n2 aleatorias de tamaños n1 y n2 , respectivamente. x1 y x2 son el número de éxitos en las muestras respectivas.

Donde pˆ =

Región de rechazo. De cola derecha, si la alternativa es H1 : p1 − p2 > p0 De cola izquierda, si la alternativa es H1 : p1 − p2 < p0 De dos colas, si la alternativa es H1 : p1 − p2 ≠ p0 Desición estadística. H 0 , se rechaza, si zc > zα (Región de rechazo de cola derecha) H 0 , se rechaza, si zc < − zα (Región de rechazo de cola izquierda) H 0 , se rechaza, si zc < − zα o zc > z α (Región de rechazo de dos colas) 2

2

140

Ejemplo 12: Una empresa fabricante de cigarros elabora dos marcas de este producto. Encuentra que 56 de 200 fumadores prefieren la marca “A” y 29 de 150 prefieren la marca “B”, ¿se puede concluir, con un nivel de significancia del 6%, que la marca “A” se prefiere más que la marca “B”? Respuesta: Los datos del problema permiten garantizar que las muestras son suficientemente grandes, además que estamos en el caso 1 para una diferencia de proporciones. Muestra A

Muestra B

n1 = 200

n2 = 150

x1 = 56

x2 = 29

56 29 = 0.28 pˆ1 = = 0.19 200 150 56 + 29 85 La proporción agrupada es pˆ = = = 0.24 200 + 150 350 pˆ1 =

Planteamiento de las hipótesis. H 0 : PA = PB o bien P1 − P2 = 0 (No hay preferencia por alguna de las marcas) H 0 : PA > PB o bien P1 − P2 > 0 (La marca A es más preferida que la marca B) Nivel de significancia. α = 0.06 Valor del estadístico de prueba.

zc =

0.28 − 0.19

1   1 0.24 ( 0.76 )  +   200 150 

= 1.95

Región de rechazo. La región de rechazo es de cola derecha, por la hipótesis alternativa, el valor crítico de la tabla 2 de porcentajes es zα = 1.555 para α = 0.06 , como se ilustra en la figura 16. Figura 16 Región de rechazo de cola derecha

zc = 1.95 Región de no rechazo

Región de rechazo

zα = 1.555

141

Desición estadística. Como el valor del estadístico de prueba cae en la región de rechazo (véase figura 16), es decir zc = 1.95 > zα = 1.555 , la hipótesis nula se rechaza. Por lo que si se puede asegurar que la marca “A” es preferida sobre la marca “B”. Caso 2: Muestras grandes, con ( p1 ≠ p2 ) o bien p0 ≠ 0 Planteamiento de las hipótesis. H1 : p1 − p2 > p0

H 0 : p1 − p2 = p0 , contra H1 : p1 − p2 < p0

; p0 ≠ 0

H1 : p1 − p2 ≠ p0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

zc =

( pˆ1 − pˆ 2 ) − p0 pˆ1qˆ1 pˆ 2 qˆ2 + n1 n2

x1 x y pˆ 2 = 2 son los valores de las proporciones para las n1 n2 muestras aleatorias de tamaños n1 y n2 , respectivamente, tomadas de su respectiva población. Además de que qˆ1 = 1 − pˆ1 y qˆ2 = 1 − pˆ 2 .

Donde pˆ1 =

Región de rechazo. De cola derecha, si la alternativa es H1 : p1 − p2 > p0 De cola izquierda, si la alternativa es H1 : p1 − p2 < p0 De dos colas, si la alternativa es H1 : p1 − p2 ≠ p0 Desición estadística. H 0 , se rechaza, si zc > zα (Región de rechazo de cola derecha) H 0 , se rechaza, si zc < − zα (Región de rechazo de cola izquierda)

H 0 , se rechaza, si zc < − zα 2

o zc > z α (Región de rechazo de dos colas) 2

Ejemplo 13: Una clínica especialista en nutrición asegura que el porcentaje de hombres que padece obesidad, es superior en más de un 15% sobre la proporción de mujeres con este problema. De una muestra aleatoria de 100 hombres 45 tienen problemas de obesidad, mientras que de una muestra aleatoria de 120 mujeres 35 son obesas. ¿Se puede concluir que la clínica tiene razón, con una significancia del 10%? Respuesta: Si p1 y p2 es la proporción de hombres y de mujeres con problemas de obesidad, respectivamente, entonces tenemos que

142

Planteamiento de las hipótesis. H 0 : p1 − p2 = 0.15 La diferencia de proporciones es menor o igual al 15% H1 : p1 − p2 > 0.15 La diferencia de proporciones es superior al 15% Nivel de significancia. α = 0.10 Valor del estadístico de prueba. Hombres Mujeres n1 = 100 n2 = 120 x1 = 45 x2 = 35 45 35 pˆ1 = = 0.450 pˆ1 = = 0.292 100 120

zc =

( 0.45 − 0.292 ) − 0.15 0.45 ( 0.55) 0.292 ( 0.708) + 100

= 0.123

120

Región de rechazo. Es de cola derecha y el valor crítico es zα = 1.282 para α = 0.10 de la tabla 2 de porcentajes para variable normal estándar, como se muestra en la figura 17. Figura 17 Región de rechazo de cola derecha

zc = 0.123 Región de no rechazo

Región de rechazo

zα = 1.282 Desición estadística. Dado que el valor del estadístico de prueba no cae en la región de rechazo, ya que zc = 0.123 < zα = 1.282 como se puede ver en la figura 17. La hipótesis nula H 0 no se rechaza, es decir la clínica no tiene razón en su afirmación de acuerdo con los datos recibidos en las muestras.

143

4.7 Potencia de una prueba y el tamaño de la muestra Al estudiar los principales elementos de una prueba de hipótesis, se dijo que existen dos tipos de errores cuando se toma una desición al respecto de la hipótesis nula H 0 , fueron llamados error tipo I y error tipo II. El error tipo I, se presenta al tomar la desición de rechazar la hipótesis nula H 0 cuando en realidad es correcta o verdadera. El error tipo II, se da al no rechazar la hipótesis nula H 0 cuando en realidad es incorrecta o falsa. La probabilidad de cometer el error tipo I la simbolizamos con la letra griega α , es decir α = P ( Cometer el error tipo I ) y con la letra β a la probabilidad de cometer el error tipo II, así que β = P ( Cometer el error tipo II ) y La potencia de

una prueba se define como 1 − β . En general es imposible calcular el valor de β , a menos que en la hipótesis alternativa H1 , se de un valor especifico o concreto para el parámetro que se este considerando. El valor de α por lo regular se conoce o se propone, ya que como se dijo con anterioridad, quien va efectuar la prueba desea preferentemente rechazar H 0 . En esta sección veremos como se puede obtener el valor de β , bajo ciertas restricciones y su relación que guarda con el tamaño de la muestra n , para pruebas de hipótesis de una media µ , una diferencia de medias µ1 − µ2 y una proporción p . Todo bajo la condición de que la población sea normal con varianza σ 2 conocida, o bien que las muestras sean grandes. Para facilitar el estudio, supondremos que se tiene una prueba de hipótesis para una media poblacional µ y que la región de rechazo es de cola derecha (de forma análoga se realiza si la región es de cola izquierda o de dos colas con ligeras modificaciones). Prueba de hipótesis para una media, población normal y σ 2 conocida. Se toma una muestra aleatoria de tamaño n de la población, se desea probar la hipótesis nula H 0 : µ = µ0 contra la alternativa H1 : µ > µ0 y se tiene un valor específico µ1 , tal que µ = µ1 , es decir H1 : µ = µ1 . H 0 : µ = µ0

H1 : µ = µ1 ( µ1 > µ0 ) El nivel de significancia establece que α = P ( Cometer el error tipo I )

α = P ( Se rechaza H 0 , cuando es correcta )

Para rechazar la hipótesis nula H 0 , se tiene que cumplir, que el valor de la media muestral X debe ser mayor que el valor crítico b , lo que en forma simbólica se escribe como

144

α = P ( X > b , cuando H 0 es correcta [ µ = µ0 ])    X −µ b−µ  > , cuando µ = µ0  α = P σ  σ    n  n     b − µ0  α = PZ >  entonces σ     n  

b − µ0

σ

= zα

n

En la figura 18, se puede observar lo que representa

b − µ0

σ

y por que es igual

n a zα Figura 18 Interpretación del valor crítico b − µ0 = zα

σ

n

α = P ( Z > zα ) Región de no rechazo

0

zα Región de rechazo

De manera similar la probabilidad de cometer el error tipo II, es decir β se interpreta como:

β = P ( Cometer el error tipo II )

β = P ( No se rechaza H 0 , cuando es incorrecta )

β = P ( X ≤ b, cuando H1 : µ = µ1 es correcta )    X −µ b−µ  ≤ , cuando µ = µ1  β = P σ  σ    n n  

145

   b − µ1  β = P Z ≤  entonces σ     n  

b − µ1

σ

= − zβ

n

En la figura 19, se ilustra la interpretación de

b − µ0

σ

y por que es igual a − zβ .

n

Figura 19 b − µ1 Interpretación de = − zβ

σ

n

β = P ( Z ≤ − zβ ) Región de no rechazo Región de rechazo

− zβ

0

Ahora si lo vemos desde la perspectiva de las hipótesis nula H 0 y alternativa H1 , el valor crítico b nos indica a partir de que valores para la media muestral

X se tendrá que rechazar la hipótesis H 0 y a partir de cuales no se rechazará. En la figura 20 se ilustra tal situación.

Figura 20 Región de rechazo de extremo superior o de cola derecha en una prueba de hipótesis para una media µ Región de no rechazo Si

X ≤ b , H 0 no se rechaza

Región de rechazo

b Si X > b , H 0 se rechaza Valor crítico

146

Dado que estamos en el caso normal, es decir la población es normal, la variable X también es normal y en la figura 21, se aprecian tanto α y β , como áreas bajo las curvas normales con medias µ0 y µ1 , respectivamente, con el valor crítico b . Nos podemos dar cuenta, que a si disminuimos el valor de α , entonces aumentamos el valor de β , lo que se desearía es que ambos valores fueran lo más pequeños posible. Sin embargo no podemos disminuir uno de ellos, en virtud de entonces el otro aumenta. La forma de reducir los dos valores de α y β , es aumentando el tamaño de la muestra como lo veremos un poco más adelante. Figura 21 Prueba de hipótesis de cola derecha con H 0 : µ = µ0 y H1 : µ = µ1 donde µ1 > µ0 b es el valor crítico que delimita la región de rechazo y no rechazo

α

β

µ0

b

µ1

Determinación del tamaño de la muestra. De acuerdo con lo señalado en las figuras 18 y 19, donde se asegura que para α , β y el valor crítico b . Se tiene lo siguiente: b − µ0 b − µ1 = zα y = − zβ , respectivamente. Al despejar a b se llega que

σ

n

σ

n b = µ0 + zα

Igualando estas ecuaciones.

µ0 + zα

σ

y b = µ1 − z β

n

σ

= µ1 − zβ

n

( zα + z β )

σ n

147

σ n

= µ1 − µ0

σ n

(z

α

+ zβ ) σ

µ1 − µ0

 ( zα + zβ ) σ  = n , elevando al cuadrado   =n  µ1 − µ0  2

Por lo que la expresión que determina el tamaño de la muestra, en una prueba de hipótesis de cola derecha, está dada por

 ( zα + zβ ) σ  n=  µ − µ  1  0

2

Dicha fórmula es la misma para el caso de que la prueba de hipótesis sea de cola izquierda. Para el caso de una prueba de hipótesis para µ de dos colas, la expresión es

(

)

 z +z σ β  α2  n=  µ − µ 1 0    

2

En una prueba de hipótesis para una diferencia de medias µ A − µ B de una cola (derecha o izquierda), bajo el supuesto de que las poblaciones sean normales, las varianzas σ 12 y σ 22 conocidas y los tamaños de las muestras iguales ( n1 = n2 = n ) se tiene que:

z ( n=

α

+ zβ ) (σ 12 + σ 22 ) 2

( µ1 − µ0 )

2

Donde µ1 es un valor especifico que se da en la hipótesis alternativa.

Vale la pena mencionar, que cuando la población o poblaciones no son normales o de naturaleza desconocida y la varianza o varianzas no se conocen se pueden usar la fórmulas anteriores, reemplazando a σ por s en el caso de una media, σ 12 y σ 22 por s12 y s22 , respectivamente, en el caso de una diferencia de medias. Siempre que la o las muestras son suficientemente grandes.

148

Ejemplo 14: En una prueba de hipótesis para µ , se afirma que H 0 : µ = 10 , contra H1 : µ = 8.5 , es decir se trata de una prueba de cola izquierda. Se supone que la población es normal con una desviación estándar σ = 3 y se toma una muestra aleatoria de tamaño n = 36 , con un nivel de significancia del 5%, encuentre la probabilidad de cometer el error tipo II ( β ) y determine la potencia de la prueba. Respuesta: Tenemos los siguientes datos. H 0 : µ = 10 H1 : µ = 8.5

σ =3 n = 36

α = 0.05 Para obtener la probabilidad de cometer el error tipo II, se requiere de calcular el valor crítico a , tal que β = P ( X ≥ a , cuando µ = 8.5 ) , de modo que primero

interpretamos la probabilidad de cometer el error tipo I, es decir α como se trata de una región de rechazo de cola izquierda. α = P ( X < a , cuando µ = 10 )    a − 10  α = PZ <  = P ( Z < − zα = −1.645 ) = 0.05 3     36   a − 10 Luego igualamos = −1.645 y despejamos " a " para tener que 3 36 3 a = 10 − 1.645   = 9.1775 6 Ahora ya podemos obtener el valor de β , utilizando el valor crítico a = 9.1775 de modo que β = P ( X ≥ a , cuando µ1 = 8.5 es correcta )     a−µ β = PZ ≥ , cuando µ1 = 8.5 es correcta  σ     n      9.1775 − 8.5  β = PZ ≥  = P ( Z ≥ 1.36 ) = Φ (−1.36) = 0.0869 3     36  

La potencia de la prueba es 1 − β = 0.9131 , es decir de un 91.31%

149

Ejemplo 15: Al realizar una prueba de hipótesis para la media poblacional, se determina que el valor crítico es b = 12.5 , para rechazar ó no la hipótesis nula H 0 : µ = 12 en contra de la alterna H1 : µ = 13.5 . Se supone que la población es normal con σ = 1.5 y el tamaño de una muestra aleatoria es de n = 25 . Obtenga α , β y la potencia de la prueba. Respuesta: En esta prueba de hipótesis tenemos una región de rechazo de cola derecha, por lo que si X > b = 12.5 , la hipótesis nula H 0 : µ = 12 se rechaza, cuando es correcta y en caso contrario, es decir si X ≤ b = 12.5 , la hipótesis nula H 0 : µ = 12 no se rechaza, cuando es incorrecta (la hipótesis alterna H1 : µ = 13.5 es la correcta). Luego entonces los valores para α y β se obtienen de la siguiente manera: α = P ( X > 12.5 , dado que H 0 : µ = 12 es correcta )    12.5 − 12  α = PZ >  = P ( Z > 1.67 ) = 0.0495 1.5     25   De la tabla 2 para la variable normal estándar.

β = P ( X ≤ 12.5 , dado que H 0 es incorrecta ( H1 : µ = 13.5 es correcta ) )    12.5 − 13.5  β = P Z ≤  = P ( Z ≤ −3.33) = Φ ( −3.33) = 0.0004 1.5     25   De la tabla 2 para la variable normal estándar. En la figura 22 se ilustran ambas probabilidades

Figura 22, valores de α y β

α = 0.0495

β = 0.0004

zα = 1.67 − zβ = −3.33 La potencia de la prueba es 1 − β = 0.9996 , la cual es muy alta.

150

Ejemplo 16: Una muestra de 36 servicios que efectúa una maquina expendedora de bebidas, tiene un contenido promedio de 21.9 decilitros con una desviación típica de 1.42 decilitros. a) Probar la hipótesis de que µ = 22.2 dl, en contra de µ < 22.2 dl, con un nivel de significancia del 5% b) ¿Qué tan grande debe ser la muestra si se quiere que la probabilidad de cometer el error tipo II sea del 1% ( β = 0.01) , cuando la hipótesis alterna es correcta con µ = 21.3 dl.

Respuesta: a) La prueba es de cola izquierda. Planteamiento de la hipótesis. H 0 : µ = 22.2

H1 : µ > 22.2 Nivel de significancia. α = 0.05 Valor del estadístico de prueba. x −µ 21.9 − 22.2 zc = ⇒ zc = = −1.27 s 1.42 n 36 Región de rechazo. Región de rechazo de cola izquierda

zc = −1.27 Región de rechazo

− zα = −1.645 Desición estadística. Como el valor del estadístico de prueba no cae dentro de la región de rechazo, ya que zc = −1.27 > − zα = −1.645 , la hipótesis nula H 0 : µ = 22.2 no se rechaza. b) El tamaño de la muestra lo encontramos con la siguiente expresión  ( zα + zβ ) s  n=   µ1 − µ0  Donde s reemplaza a σ , como buena aproximación, ya que la muestra de donde se obtuvo este valor es suficientemente grande. De la tabla normal estándar y lo que aseguran las hipótesis, tenemos que: α = 0.05 ⇒ zα = 1.645 2

β = 0.01 ⇒ zβ = 2.326 H 0 : µ = 22.2 H1 : µ = 21.3

 (1.645 + 2.326 )(1.42 )  lo que implica n =   = 39.25 ≈ 40 21.3 − 22.2   2

s = 1.42 Así el tamaño de la muestra sería de n = 40 para tener estas probabilidades.

151

Ejemplo 17: En una prueba de hipótesis H 0 : µ = 15 , contra H1 : µ = 17 se sabe que la población es aproximadamente normal con desviación estándar σ = 9.1 . Se quiere que α = 1% y β = 5% , encuentre el tamaño de muestra para tener estas probabilidades de cometer el error tipo I y II respectivamente. Respuesta: α = 0.01 ⇒ zα = 2.326

β = 0.05 ⇒ zβ = 1.645 H 0 : µ = 15 H1 : µ = 17

 ( 2.326 + 1.645 )( 9.1)  Luego n =   = 326.48 ≈ 327 17 − 15   2

σ = 9.1

Por lo tanto, el tamaño de la muestra es de n = 327 . Si α = β = 1% el tamaño de muestra sería de n = 449 .

Ejemplo 18: Un fabricante de láminas de policarbonato afirma que su producto tiene una vida media superior a 10 años. En una muestra aleatoria de 30 láminas de este material se obtuvo una vida promedio de 12.5 años con una desviación estándar de 4.1 años, ¿el fabricante tiene razón con una significancia del 5%?, si H1 : µ = 12 años, obtenga β y la potencia de la prueba. Respuesta: Se efectúa una prueba de hipótesis para la media µ . Planteamiento de las hipótesis. H 0 : µ = 10

H1 : µ > 10 Nivel de significancia. α = 0.05 Valor del estadístico de prueba. 12.5 − 10 zc = = 3.34 4.1 30 Región de rechazo. De cola derecha

zc = 3.34 Región de rechazo

zα = 1.645 Desición estadística. La hipótesis nula H 0 se rechaza, ya que el valor del estadístico de prueba si cae en la región de rechazo, ( zc = 3.34 > zα = 1.645 ). Se concluye que el fabricante tiene razón en afirmar que sus láminas de policarbonato tienen una vida promedio superior a los 10 años.

152

Para hallar el valor de β , encontramos el valor crítico b que nos determina la región de rechazo, para ello nos apoyamos del valor que conocemos para α = 0.05 . Dado que la prueba es de cola derecha, escribimos α = P ( X > b, H 0 correcta )

    b − µ0 con µ0 = 10  = 0.05 = P ( Z > 1.645) α = PZ > σ     n   De modo que b − 10 = 1.645 ⇒ b = 11.2313 4.1 30 Luego, β = P ( X ≤ b con H1 : µ = 12 correcta )    11.2313 − 12  β = P Z ≤  = P ( Z ≤ −1.08 ) = Φ ( −1.08) = 0.1515 4.1     30   La potencia de la prueba es 1 − β = 0.8485 .

Nota: Lo expuesto en esta sección se puede aplicar también a las pruebas de hipótesis para proporciones, preferentemente bajo la condición de que las muestras sean grandes, ya que con ello se puede usar la estimación puntual pˆ como buena aproximación a la proporción poblacional p y podemos seguir trabajando con la variable normal de manera aceptable. Si la muestra es pequeña tendríamos que recurrir a la distribución binomial, además que si conocemos el o los valores críticos que determinan la región de rechazo y de no rechazo, es posible obtener las probabilidades de cometer el error tipo I y II respectivamente, siempre que en la hipótesis alternativa se de un valor especifico al parámetro, para ilustrarlo veamos algunos ejemplos.

Ejemplo 19: Los médicos especialistas en artritis reumatoide aseguran que el 40% de pacientes mejoran con un nuevo tratamiento con un ingrediente descubierto recientemente. Para probar su afirmación se les administra el medicamento a un grupo de 7 afectados por artritis reumatoide y si 3 o más pacientes mejoran se acepta la hipótesis nula que asegura p = 0.40 , en caso contrario se concluye que p < 0.40 . a) Obtenga α , si se supone que H 0 : p = 0.40 b) Obtenga β , para la alternativa H1 : p = 0.30

153

Respuesta: Como la muestra es pequeña n = 7 , trabajaremos con la distribución binomial. a) Usando la función acumulada de la binomial con n = 7 y p = 0.40 .

α = P ( rechazar H 0 , cuando es correcta ) α = P ( X < 3, cuando p = 0.40 )

α =  P ( X = 0 ) + P ( X = 1) + P ( X = 2 )  2

α=

∑ b ( n = 7, x, p = 0.40) = 0.4199 x=0

De manera que la probabilidad de cometer el error tipo I, es α = 0.4199 . b) Usando la función acumulada de la binomial con n = 7 y p = 0.30 .

β = P ( No rechazar H 0 , cuando es incorrecta )

β = P ( X ≥ 3, cuando H1 : p = 0.3 es la correcta ) β = P ( X ≥ 3 con p = 0.30 ) = 1 −

2

∑ b(n = 7, x, p = 0.30) = 1 − 0.6471 = 0.3529 x =0

Por lo que la probabilidad de cometer el error tipo II, es β = 0.3529 . Ejemplo 20: en referencia al ejemplo anterior, el tratamiento se aplica a 70 pacientes y la región crítica se define como mayor o igual que 24 pacientes que mejoran, para que la hipótesis nula se acepte. Repetir los dos incisos del ejemplo 19. Respuesta: En este ejemplo, la muestra es suficientemente grande como para aproximar la variable binomial a la normal y aplicamos el factor de corrección por continuidad para una mejor aproximación. a) Para la probabilidad de cometer el error tipo II. α = P ( X < 24, cuando p = 0.40 )

 X − np 23.5 − np  < , con p = 0.40   npq  npq    23.5 − 28   = P ( Z < −1.10 ) = Φ ( −1.10 ) = 0.1357 α ≈ PZ <   70 0.24 ( )   b) la probabilidad de cometer el error tipo II.

α ≈ P

β = P ( X ≥ 24, cuando H1 : p = 0.30 es correcta )  X − np 23.5 − np  ≥ , cuando p = 0.30   npq  np    23.5 − 21    = P ( Z ≥ 0.65 ) = Φ ( −0.65 ) = 0.2578 β≈P Z≥  70 0.21 ( )  

β ≈ P

154

4.8 Prueba de hipótesis para la varianza Para la varianza poblacional σ 2 , se tiene también su prueba de hipótesis. Aquí se utiliza la distribución Ji o Chi- cuadrada y enseguida se dan los elementos básicos de la prueba. Planteamiento de las hipótesis. H1 : σ 2 > σ 02 H 0 : σ 2 = σ 02 , contra H1 : σ 2 < σ 02

;

σ 02 es valor especifico

H1 : σ 2 ≠ σ 02 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

n − 1) s 2 ( χ = 2 2 c

σ0

Donde s 2 es el valor de la varianza para una muestra aleatoria de tamaño (pequeño) n , extraída de una población normal. Región de rechazo. De cola derecha, si la alternativa es H1 : σ 2 > σ 02 De cola izquierda, si la alternativa es H1 : σ 2 < σ 02 De dos colas, si la alternativa es H1 : σ 2 ≠ σ 02 Cola derecha

Cola izquierda

α

α

Región de rechazo

RR

χα

χ12−α

2

Dos colas

α

α

2

2

χ12− α

2

χ α2 2

Figura 23

155

Desición estadística. H 0 , se rechaza, si χ c2 > χα2 (Región de rechazo de cola derecha)

H 0 , se rechaza, si χ c2 < χ12−α (Región de rechazo de cola izquierda) H 0 , se rechaza, si χ c2 < χ12− α

o χ c2 > χ α2 (Región de rechazo de dos colas)

2

2

Los valores χα2 , χ12−α , χ12− α y χ α2 se obtienen de la tabla 4 para la variable Ji o 2

2

Chi-cuadrada con n − 1 grados de libertad, como se aprecia en la figura 23. Ejemplo 21: Cuando un proceso de producción está funcionando adecuadamente, la varianza de las partes producidas es igual a cuatro. Las medidas de las partes se distribuyen normalmente y se considera que el proceso de producción en la actualidad se encuentra fuera de control: Se selecciona una muestra aleatoria de nueve partes producidas y se obtienen las siguientes medidas. 9, 10, 12, 13, 12, 8, 6, 11 y 9 ¿Se tiene razón en afirmar que en la actualidad el proceso de producción está fuera de control? utilice un nivel de significancia del 10% Respuesta: De acuerdo a la información cuando la varianza σ 2 = 4 , el proceso está funcionando correctamente y cuando σ 2 ≠ 4 está fuera de control. Así que la prueba de hipótesis que se realizará es para la varianza σ 2 . Planteamiento de las hipótesis. H0 :σ 2 = 4

H1 : σ 2 ≠ 4 Nivel de significancia. α = 0.10 Valor del estadístico de prueba. El valor de la varianza para la muestra dada es s 2 = 5 , por lo que tenemos lo siguiente. ( 9 − 1) 5 = 10 χ c2 = 4 Región de rechazo. Es de dos colas y en la figura 24, se ilustra los valores 2 2 críticos χ 0.95 = 2.7326 y χ 0.05 = 15.5073 con n − 1 = 8 grados de libertad, sacados de la tabla 4 para la Chi-cuadrada, que delimitan la región de rechazo. Figura 24

χ c2 = 10 α

α

2

2 RR

χ

2 0.95

RR

= 2.7326

χ

2 0.05

= 15.5073

156

Desición estadística. La hipótesis nula H 0 : σ 2 = 4 no se rechaza, ya que el valor del estadístico de prueba χ c2 = 10 no cae en la región de rechazo, por 2 2 = 2.7326 < χ c2 = 10 < χ 0.05 = 15.5073 . que χ 0.95 Como se puede observar en la figura 24. Por lo que, en base estos datos el proceso de producción está funcionando adecuadamente con una significancia del 10%

Ejemplo 22: En una empresa refrescera, se considera que una maquina está funcionando dentro de los márgenes de calidad, si su varianza en los contenidos netos es de 20 ml2. En caso de que la varianza sea superior a los 20 ml2 la maquina requiere ajustarse. De una muestra de los contenidos de 24 envases, se obtiene que s 2 = 37 ml2, suponiendo que la población de contenidos es normal, ¿se puede concluir que la maquina requiere ajustarse? usar un nivel de significancia del 1% Respuesta: Planteamiento de las hipótesis. H 0 : σ 2 = 20 La maquina funciona adecuadamente. H1 : σ 2 > 20 La maquina requiere ajustarse. Nivel de significancia. α = 0.01 Valor del estadístico de prueba. ( 24 − 1) 37 = 42.55 χ c2 = 20

Región de rechazo. Es de cola derecha, por lo que asegura la hipótesis alternativa y en la figura 25 2 aparece el valor crítico χ 0.01 = 41.6383 con n − 1 = 23 grados de libertad de la tabla 4 para la Chi-cuadrada. Figura 25

χ c2 = 42.55

2 χ 0.01 = 41.6383

Desición estadística. Dado que el valor del estadístico de prueba si cae en la región de rechazo 2 (Figura 25), ya que χ c2 = 42.55 > χ 0.01 = 41.6383 . Se concluye que la hipótesis nula H 0 : σ 2 = 20 se rechaza, es decir la maquina debe ajustarse.

157

4.9 Prueba de hipótesis para la razón de varianzas Finalizamos el capítulo con la prueba de hipótesis para la razón de varianzas

σ 12 , bajo la condición de que las poblaciones sean normales, como se σ 22 trabajaron en los intervalos de confianza (capítulo 3). Al comparar las varianzas, nos interesa que estas sean iguales, en contra de que una sea mayor que otra o bien simplemente diferentes y los elementos de dicha prueba son: Planteamiento de las hipótesis.

H1 : σ 12 > σ 22 H0 :σ = σ 2 1

2 2

  σ 12 2 2  H 0 : 2 = 1 , contra H1 : σ 1 < σ 2 σ2   H1 : σ 12 ≠ σ 22

  σ 12  H1 : 2 > 1  σ2   2   σ1  H1 : 2 < 1  σ2     σ 12 H :  1 2 ≠ 1 σ2  

Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba.

s12 fc = 2 s2 Donde s12 y s22 son los valores de las varianzas para las muestras aleatorias de tamaño n1 y n2 , respectivamente, extraídas de poblaciones normales. Región de rechazo.

  σ 12 H :  1 2 > 1 σ2   2   σ De cola izquierda, si la alternativa es H1 : σ 12 < σ 22  H1 : 12 < 1 σ2   2   σ De dos colas, si la alternativa es H1 : σ 12 ≠ σ 22  H1 : 12 ≠ 1 σ2  

De cola derecha, si la alternativa es H1 : σ 12 > σ 22

En la figura 26 se ilustran la tres regiones de rechazo y en ellas aparecen los respectivos valores críticos de la variable F de Fisher para α , 1 − α , α2 y 1 − α2 con sus grados de libertad para el numerador y denominador respectivamente, según el caso.

158

Figura 26 Regiones de rechazo para una prueba de hipótesis de la razón de varianzas De cola derecha

α

Región de rechazo (RR)

fα (ν 1 ,ν 2 ) De cola izquierda

α

RR

f1−α (ν 1 ,ν 2 ) =

1

fα (ν 2 ,ν 1 )

De dos colas

α

α

2

2

RR

f1− α (ν 1 ,ν 2 ) = 2

RR

1

f α (ν 2 ,ν 1 )

f α (ν 1 ,ν 2 ) 2

2

Donde ν 1 = n1 − 1 y ν 2 = n2 − 1 son los grados de libertad.

159

Desición estadística. Si f c > fα (ν 1 ,ν 2 ) , entonces H 0 se rechaza, en una región de cola derecha.

1

Si f c < f1−α (ν 1 ,ν 2 ) =

, H 0 se rechaza, en una región cola izquierda. fα (ν 2 ,ν 1 ) 1 Si f c < f1− α (ν 1 ,ν 2 ) = o f c > f α (ν 1 ,ν 2 ) , H 0 se rechaza, en una región 2 2 f α (ν 2 ,ν 1 ) 2

de dos colas.

Ejemplo 23: Un investigador considera que la variabilidad en los tiempos de atención vía telefónica en un banco A es superior que en los tiempos de otro banco B. Para ello toma una muestra de 15 tiempos del banco A y obtiene una varianza de s12 = 15 , mientras que en una muestra de 12 tiempos del banco B su varianza resulto de s22 = 5.5 . Pruebe la hipótesis del investigador con un nivel de significancia del 10% Respuesta: Si tomamos como σ 12 y σ 22 la varianza de los tiempos del banco A y del banco B respectivamente, n1 = 15 y n2 = 12 los tamaños de las muestras aleatorias, tenemos lo siguiente: Planteamiento de las hipótesis. σ 2  H 0 : σ 12 = σ 22  12 = 1 Las varianzas son iguales. σ2  2 σ  H 0 : σ 12 > σ 22  12 > 1 La varianza en los tiempos del banco A es mayor que σ2  los del banco B. Nivel de significancia. α = 0.10 Valor del estadístico de prueba. fc =

15 = 2.73 5.5

Región de rechazo. De cola derecha, el valor crítico es fα (ν 1 ,ν 2 ) = f 0.10 (14,11) = 2.179 obtenido de la tabla 5 para la variable F de Fisher, donde ν 1 = n1 − 1 = 14 para el numerador y ν 2 = n2 − 1 = 11 para el denominador. En la figura 27 se ilustra dicha región de rechazo de cola derecha y el valor crítico f 0.10 (14,11) = 2.179 .

160

Figura 27 Región de rechazo de cola derecha.

α = 0.10 f c = 2.73 f 0.10 (14,11) = 2.179 Desición estadística. Como el valor del estadístico de prueba cae en la región de rechazo, ya que f c = 2.73 > f 0.10 (14,11) = 2.179 (ver figura 27), se rechaza la hipótesis nula H 0 , es decir el investigador tiene razón en afirmar que la variabilidad en los tiempos de atención vía telefónica del banco A, es mayor que la del banco B.

Ejemplo 24: Se requiere conocer la variación que existe en la efectividad de dos tipos de medicamento, se toma una muestra de tamaño n1 = 5 del medicamento I y las mediciones son: 5.3, 5.6, 5.1, 5.7 y 5.9. De una segunda muestra de n1 = 8 para el medicamento II, se obtuvieron los siguientes datos 5.0, 5.2, 5.3, 5.8, 5.6, 5.7, 5.8 y 5.5. Suponiendo que las poblaciones son normales y utilizando un nivel de significancia del 5% a) Pruebe la hipótesis de que la varianza de la población I, es mayor que 0.5. b) Realice una prueba de hipótesis para contrastar la afirmación de que las varianzas σ 12 y σ 22 son diferentes. Respuesta: De los datos dados se tiene lo siguiente. Muestra I Muestra II n1 = 5 n2 = 8

x1 = 5.52 x2 = 5.49 s12 = 0.102 s22 = 0.0869 a) Planteamiento de las hipótesis. H 0 : σ 12 = 0.5 H 0 : σ 12 > 0.5

161

Nivel de significancia. α = 0.05 Valor del estadístico de prueba.

χ c2 =

( 5 − 1) 0.102 = 0.816 0.5

Región de rechazo. Es de cola derecha, el valor crítico χα2 = 9.4877 , se obtiene de la tabla 4 para la variable Chi-cuadrada con n1 − 1 = 5 − 1 = 4 grados de libertad. Desición estadística. Dado que el valor del estadístico de prueba χ c2 = 0.816 no cae en la región de rechazo, se concluye que la hipótesis nula no es rechazada, es decir la varianza de la población I es igual a 0.5. b) Planteamiento de las hipótesis. σ 2  H 0 : σ 12 = σ 22  12 = 1 σ2  2 σ  H 0 : σ 12 ≠ σ 22  12 ≠ 1  σ2  Nivel de significancia. α = 0.05 ⇒ α2 = 0.025 Valor del estadístico de prueba. fc =

0.102 = 1.1737 0.0869

Región de rechazo. Es de dos colas, los valores críticos son f1− α (ν 1 ,ν 2 ) = 2

1

f α (ν 2 ,ν 1 )

=

1 = 0.181 y 5.532

2

f α (ν 1 ,ν 2 ) = 9.074 , donde ν 1 = 5 − 1 = 4 y ν 2 = 8 − 1 = 7 son los grados de libertad, 2

los cuales se obtienen de la tabla 5 para la variable F de Fisher. En la figura 28, se pueden apreciar estos valores que delimitan la región de rechazo. Figura 28

f c = 1.1737

f1− α (ν 1 ,ν 2 ) = 0.181 2

f α (ν 1 ,ν 2 ) = 9.074 2

162

Desición estadística. Dado que el valor del estadístico de prueba f c = 1.1737 no cae en la región de rechazo (ver figura 28), se concluye que la hipótesis nula no es rechazada, es decir las varianzas poblacionales son iguales.

RESUMEN Los elementos básicos de una prueba de hipótesis son: 1) 2) 3) 4) 5)

Planteamiento de las hipótesis. Nivel de significancia. Valor del estadístico de prueba. Región de rechazo. Desición estadística.

En términos generales, el valor del estadístico de prueba es el que se modifica, dependiendo del parámetro considerado en las hipótesis, de las condiciones de la o las poblaciones, de los tamaños y tipos de muestras aleatorias. De manera que escribimos los valores de los diferentes estadísticos de prueba en este resumen. Para una media µ ;

x − µ0

zc =

zc =

σ

n

x − µ0 s n

Para una diferencia de medias µ1 − µ2 ;

zc =

tc =

( x1 − x2 ) − µ0 σ 12 n1

tc =

( x1 − x2 ) − µ0 sp

1 1 + n1 n2

tc =

( x1 − x2 ) − µ0 s12 s22 + n1 n2

Para proporciones; zc =

Para varianzas;

pˆ − p0 p0 q0 n

n − 1) s 2 ( χ = 2 2 c

σ0

tc =

zc =

x − µ0 s n

+

σ 22 n2

zc =

( x1 − x2 ) − µ0 s12 s22 + n1 n2

xd − µ0 sd n

( pˆ1 − pˆ 2 ) − p0

s12 fc = 2 s2

163

1 1 ˆ ˆ +  pq  n1 n2 

zc =

( pˆ1 − pˆ 2 ) − p0

 pˆ1qˆ1 pˆ 2 qˆ2  +   n2   n1

Ejercicios: 1) Para verificar la afirmación de una compañía de seguros de vida, la cual señala que el tiempo promedio de vida es de 15 años, en las personas que tienen más 60 años. Se toma una muestra aleatoria de 20 adultos mayores y resulta que su promedio de vida fue de 12 años, ¿la compañía tiene razón con un nivel significancia del 5%? suponga que la población es aproximadamente normal con una desviación estándar de 5 años. 2) Un laboratorio farmacéutico, afirma que un nuevo medicamento para combatir la hipertensión arterial, surte efecto en promedio a los 45 minutos de ser suministrado y por experiencia la desviación estándar poblacional es de 8 minutos. Al seleccionar una muestra aleatoria de 12 pacientes que recibieron este medicamento, se obtuvo un tiempo promedio en surtir efecto de 52 minutos. ¿Favorecen estos datos la hipótesis del fabricante con un nivel de significancia del 10%? 3) El gerente de producción de cierto tipo de artículos, considera que el tiempo medio de producción es de a lo más 8 minutos, de lo contrario la producción tiene problemas y debe revisarse el proceso para corregirse. Se mide el tiempo promedio de producción de 80 artículos y se tiene que x = 8.5 y s 2 = 16 ¿presentan estos datos suficientes evidencias para que el proceso de producción sea revisado? utilice un nivel de significancia del 2% 4) En un estudio realizado en el D. F., sobre los gastos que los usuarios del transporte público hacen cotidianamente para desplazarse de su hogar a su trabajo, se encuestaron a 100 personas aleatoriamente y resulto que en promedio gastan diariamente 25 pesos con una desviación estándar de 4 pesos, en transporte, ¿Puede decirse que el gasto promedio de los usuarios del transporte público es distinto a 20 pesos? con α = 0.06 . 5) Una empresa empacadora de atún afirma que el contenido neto promedio es de 125 gramos, sin embargo al tomar una muestra de 49 latas de esta empresa resulta que su peso promedio fue de 115 gramos con una desviación estándar de 5 gramos. ¿Presenta esta información suficiente evidencia, para rechazar la hipótesis de la empresa empacadora? utilice α = 0.05 . 6) Se asegura que el tiempo promedio para contestar un examen de admisión es de máximo 3 horas y se supone que los tiempos para contestar dicho examen se distribuyen en forma normal. Al tomar una muestra de 10 tiempos se obtuvo que: 2.5, 3.2, 3.0, 2.8, 3.5, 3.2, 2.9, 3.4, 3.6 y 2.7 horas. Con α = 0.10 ¿se tiene razón en tal afirmación?

164

7) De una población normal se saca una muestra aleatoria de tamaño n = 24 y se tiene que x = 3.68 y s 2 = 14 . Pruebe la hipótesis nula H 0 : µ = 4 , en contra de la alternativa H1 : µ ≠ 4 . Con un nivel de significancia del 1% 8) Se realizó un estudio para determinar si los estudiantes pertenecientes a dos grupos étnicos, A y B, tienen distintos coeficiente intelectual (C.I.) promedio. Se sabe que las varianzas de los C.I. en los grupos A y B son respectivamente, 225 y 196. Se toma una muestra de 25 alumnos del grupo A y otra de 27 alumnos del grupo B, resultando que x A = 102 y xB = 98 . Probar la hipótesis nula de que los alumnos de los dos grupos étnicos tienen C.I. promedio idénticos, en contra de la alternativa de que los dos grupos tienen C.I. promedio diferentes, con α = 0.04 y suponga normalidad en las poblaciones. 9) Cierta gran compañía emplea tanto hombres como mujeres para realizar el mismo tipo de trabajo. Se cree que la producción promedio de los hombres es menor que la de las mujeres, de manera que se seleccionan muestras aleatorias de 36 hombres y mujeres, obteniéndose la siguiente información Hombres Mujeres n1 = 36 n2 = 36 x1 = 148 x2 = 154 s12 = 65 s22 = 72 ¿Es correcta la afirmación de que la producción promedio de los hombres es inferior a las de las mujeres? con un nivel de significancia del 8% 10) Un nutriólogo desea comparar la efectividad de dos dietas para reducir el peso. Se proporcionan los siguientes datos en donde aparecen las reducciones promedio y las varianzas de cada dieta, respectivamente. Dieta I Dieta II n1 = 40 n2 = 60 x1 = 9 x2 = 11

s12 = 50 s22 = 55 Con un nivel de significancia del 12%, ¿puede decirse que la dieta I produce una perdida menor en el peso que la dieta II? 11) Dos maquinas producen tornillos idénticos. Se considera que las longitudes de los tornillos producidos por las dos maquinas se distribuyen normalmente y tienen la misma varianza. Se sospecha que la longitud promedio de los tornillos producidos por una maquina es distinta a la de los tornillos producidos por la otra maquina, se toman dos muestras independientes y en la tabla que sigue se presentan los datos:

165

Maquina I Maquina II n1 = 18 n2 = 10 x1 = 2.7 x2 = 2.6 2 2 s1 = 0.0065 s2 = 0.0042 ¿Señalan estos datos suficiente evidencia al 10%, para afirmar que si existe diferencia entre las longitudes medias de los tornillos producidos por estas dos maquinas? 12) Para comparar dos técnicas de elaboración en la fabricación cerámica, se considera que la técnica I es mejor que la técnica II, para ello se mide el tiempo de vida (meses) a temperaturas extremas antes de sufrir fracturas, los datos que siguen proporcionan los resultados obtenidos en muestras independientes. Se supone que las poblaciones son normales y la varianzas desconocidas diferentes. Tecnica I Tecnica II n1 = 12 n2 = 10

x1 = 18 x2 = 15 2 s1 = 5 s22 = 6 ¿Se tiene razón en la afirmación, con un nivel de significancia del 5%? 13) Se asegura que las personas cuando se encuentran sometidas a fuertes periodos de estrés, su tensión arterial aumenta en promedio en más de 15 puntos, lo cual es relativamente riesgoso. Se toma una muestra de 12 personas a las cuales se les mide su tensión arterial antes y después de un periodo fuerte de estrés, obteniéndose los datos que aparecen en la tabla Persona 1 2 3 4 5 6 7 8 9 10 Antes 115 121 124 120 118 120 124 130 126 126 Despues 141 129 140 132 138 141 145 150 132 139 Realice una prueba de hipótesis para contrastar la afirmación de que el estrés produce un incremento en más de 15 puntos, en contra de la hipótesis nula de que es menor o igual a 15 dicho aumento. Considere que α = 0.05 . 14) En la actualidad una enfermedad que crece cada vez más, es la obesidad y la secretaría de salud ha llegado a la conclusión de que más del 60% de los adultos con edades de 30 a 50 años tienen una cintura mayor de 90 centímetros, lo cual se cataloga como obesidad. De una muestra aleatoria de 500 adultos con estas edades, se obtiene que 345 tienen problemas de obesidad. Pruebe la hipótesis de la secretaría de salud con un nivel de significancia del 8% 15) Una compañía de seguros determina que el 15% de sus pólizas de seguro son cobradas por sus clientes legalmente, mientras que la procuraduría federal del consumidor afirma que el porcentaje es menor al 15%, en base una muestra aleatoria de 700 clientes que contrataron el seguro con dicha compañía, en donde 90 reclamaron legalmente su

166

seguro. ¿Tiene razón la procuraduría federal del consumidor? utilice un nivel de significancia del 10% 16) Un vendedor de productos para limpieza, ha decidido que el 50% de amas de casa consumen sus productos. El dueño de la fabrica asegura que tal porcentaje es incorrecto, ya que de una muestra de 250 amas de casa 110 utilizan los productos. Realice una prueba de hipótesis al 5%, para determinar quien tiene razón, de acuerdo a los resultados recabados en la muestra. 17) Una compañía de automotriz esta interesada en conocer la preferencia de sus clientes, por dos modelos A y B. De 150 clientes 85 prefieren el modelo A, mientras que de otros 120 clientes 65 prefieren el modelo B. En base a esta información, se puede concluir que los dos modelos tienen la misma preferencia con nivel de significancia del 1% 18) La compañía fabricante de neumáticos Good Year, asegura que para los rines de 13 pulgadas el modelo I es superior que el modelo II en un 10%, ya que de una muestra de 100 compradores de llantas de dicha medida 75 prefieren el modelo I y de otra muestra de 125 compradores 68 prefieren el modelo II. ¿Se puede considerar como valida la afirmación del fabricante con un nivel de significancia del 8%? 19) En una prueba de hipótesis para una media µ , se sabe que la población es normal con varianza σ 2 = 1.5 , la hipótesis nula afirma que µ = 12 y la alternativa dice que µ = 13.6 . En una muestra aleatoria de tamaño n = 22 , la región de rechazo esta dada por X > 12.6 . a) Obtenga la probabilidad de cometer el error tipo I (α ) . b) Obtenga la probabilidad de cometer el error tipo II ( β ) y la potencia de la prueba.

20) En una prueba de cola izquierda, la región de rechazo esta dada por X < 9 , se toma una muestra de tamaño n = 81 y su desviación estándar es de s = 3 . Se tiene las hipótesis H 0 : µ = 10 vs H1 : µ = 7.9 , obtenga el valor de α y β , respectivamente.

21) La región de rechazo esta constituida por aquellos valores de X , tal que 8.5 < X < 11.5 , es decir se tiene una región de rechazo de dos colas. Una muestra de tamaño n = 40 tiene una varianza de s 2 = 25 y se desea probar las hipótesis H 0 : µ = 10 en contra H1 : µ = 10.8 ( H1 : µ ≠ 10 ) a) Obtenga la probabilidad de cometer el error tipo I (α ) .

b) Obtenga la probabilidad de cometer el error tipo II ( β ) y la potencia de la prueba.

167

22) En una prueba de hipótesis para una proporción, la región de rechazo esta dada por X > 8 , donde X es el número de éxitos. Se toma una muestra aleatoria de tamaño n = 50 y la hipótesis son H 0 : p = 0.70 vs

H1 : p = 0.75

( H1 : p > 0.70 )

a) Obtenga la probabilidad de cometer el error tipo I (α ) .

b) Obtenga la probabilidad de cometer el error tipo II ( β ) y la potencia de la prueba.

23) Se sospecha que hay un incremento en el ingreso promedio de las familias de es casos recursos en los Estados Unidos Mexicanos y se dice que el ingreso medio de estas familias es de $4500.00 mensuales. Al tomar una muestra aleatoria de 100 familias en toda la republica de manera aleatoria, resulto que el ingreso promedio fue de $3750.00, con una desviación estándar de $100.00. a) Pruebe la hipótesis de que el ingreso medio es inferior a $4500.00 mensuales, α = 0.05 b) Si se desea que α = 0.05 y β = 0.02 , ¿de tamaño tendría que ser la muestra para alcanzar estas probabilidades?

24) Un comerciante de aguacates, determina que el precio promedio de las cajas del producto es de $250 pesos ( H 0 : µ = 250 ) , mientras que otro

asegura que el precio promedio es de $265 pesos ( H1 : µ > 250 ) , se toma una muestra aleatoria de 75 cajas de aguacates y el costo promedio es de $260 pesos con una desviación estándar de $5 pesos. ¿Qué comerciante se puede decir, que tiene razón, con α = 0.04 ? Si la probabilidad de cometer el error tipo I (α ) es del 4%. Obtenga la

probabilidad de cometer el error tipo II ( β ) y la potencia de la prueba.

25) En una prueba de cola izquierda para una media se sabe que σ 2 = 4.1 , tenemos que H 0 : µ = 7.8 ; H1 : µ = 7.1 ¿De que tamaño debe ser la muestra para que α = β = 0.01 ? 26) Un banco desea conocer la variación en el tiempo de estancia de los clientes, que continuamente asisten a realizar algunos trámites financieros, con el objeto de implementar un programa vía Internet, que le permita a los usuarios llevar a cabo estos trámites sin necesidad presentarse físicamente a la sucursal bancaria. se toman 15 tiempos (minutos) de manera aleatoria y la información aparece enseguida: 34.5, 21.2, 14.2, 10.5, 9.0, 12.3, 5.6, 12.5, 15.5, 24.5, 39.0, 40.5, 9.5, 4.5 y 12.5. Pruebe la hipótesis de que la varianza es de 20, en contra de la alternativa de que es mayor a 20. Utilizar un nivel de significancia del 5% y suponga que los tiempos se distribuyen normalmente.

168

27) para decidir si una maquina se encuentra fuera de control, existe el criterio de que cuando la desviación estándar de una muestra aleatoria sea menor o igual a 3.5, se considera que está dentro de los rangos aceptables y en caso contrario está fuera de control. Al tomar 25 mediciones se tiene que su desviación estándar es de 4.1, ¿presentan estos datos suficiente evidencia para afirmar que la maquina se encuentra fuera de control? Suponga normalidad y que α = 0.10 . 28) En el ejercicio 11, se hace la suposición de que las poblaciones son normales y las varianzas desconocidas pero iguales (σ 12 = σ 22 ) . Tomando un nivel de significancia del 5%, ¿Se tiene razón en dicha suposición?

29) En el ejercicio 12, se hace la suposición de que las poblaciones son normales y sus varianzas diferentes (σ 12 ≠ σ 22 ) ¿se tiene razón en tal suposición? con un nivel α = 0.01 .

30) Para comparar la eficiencia de dos métodos en la fabricación de cierto producto, se toma una muestra de 14 tiempos de elaboración por el método A, obteniéndose los siguientes resultados xA = 8.5 y s A = 1.5 minutos, mientras que de otra muestra de 10 tiempos del método B, se obtuvo que xB = 9.5 y sB = 0.9 minutos. Bajo la condición de que los tiempos de ambos métodos son aproximadamente normales. a) Pruebe la hipótesis de que las varianzas poblacionales son iguales, en contra de que son distintas, con un nivel de significancia del 5% b) De acuerdo a lo concluido en el inciso a), realice una prueba, para determinar si diferencia entre las medias poblacionales en los dos métodos, es mayor a 30 segundos, con un nivel de significancia del 10% y 1%, respectivamente.

169

Capítulo 5 ANALISIS DE REGRESIÓN

E

n muchas situaciones prácticas, se puede estar interesado por el estudio de la relación que existe entre dos o más variables, dentro de la Estadística el tema se conoce comúnmente como Análisis de Regresión. En este capítulo desarrollaremos los principales aspectos de uno de los casos más sencillos sobre este tema, nos referimos a la regresión lineal simple, es decir al estudio de la relación de dos variables X y Y , especialmente cuando se relacionan en forma lineal, por ello el nombre de lineal simple. Cabe aclarar que para los objetivos del libro solo abordaremos esta relación. Existen varios problemas en donde se presenta la regresión, por ejemplo: cuando se quiere ver la relación entre el tiempo de reacción a un fármaco y la dosis aplicada a los pacientes con cierta enfermedad, la cantidad de agua que se almacena en una presa y el número de días que durante un año llueve, la calificación que un educando le asigna a su profesor y la calificación que obtuvo en el semestre anterior, la velocidad que un atleta de alto rendimiento le imprime a sus carreras y el tiempo que logra alcanzar al término de ellas, la producción en una fabrica en relación con la cantidad de horas laboradas, la cantidad de partículas suspendidas de contaminantes en la zona metropolitana en relación con la temperatura ambiente, la dispersión de los contaminantes y la fuerza de los vientos en un área urbana, la densidad de un gas y la presión ejercida, la resistencia de un metal y su espesor, entre otras.

Un primer aspecto importante de los ejemplos anteriores puede ser, el desarrollar un método de predicción que permita estimar el tiempo de reacción ( Y ) de un enfermo, cuando se aplica una determinada dosis del fármaco ( X ), o bien que nos permita estimar el nivel de agua en una presa cuando se tiene una cantidad de días lluviosos en cierto periodo de tiempo, etc. De manera que la estadística plantea el problema de cómo llegar a la mejor estimación de la relación entre dos variables. Por lo regular cuando se trabajan dos o más variables, alguna de ellas depende de la o las otras, esta se suele llamar variable dependiente o variable respuesta Y , mientras que las otras se conocen como variables independientes o variables de regresión x1 ,K , xk .

5.1 Ajuste de curvas Cuando se estudia la relación existente entre dos o más variables, se pueden establecer diversos modelos (ecuaciones) que de alguna manera intentan

170

reflejar dicha relación, especialmente cuando se tienen dos variables X e Y tenemos modelos como el lineal, cuadrático, cúbico y en general a través de un polinomio de grado n de la forma Y = An X n + An −1 X n −1 + L + A1 X + A0 donde Ai es un número real. Además se cuenta con modelos logarítmicos, exponenciales, trigonométricos, entre otros. En la figura 1, se muestran algunos de dichos modelos gráficamente, así como su correspondiente ecuación de regresión. Comúnmente se le conoce a este tema ajuste de curvas o análisis de regresión.

.

Lineal Y =α +βX

Cuadrática Y = α + β X +ϕ X 2

. . .. . . .

. . .

.. . .

. Exponencial Y = α eβ X

. ..

.

... . . .

. .

Logarítmica Y = α log( β X )

..

. .

. . . .

Figura1 Ajuste de curvas

5.2 Método de mínimos cuadrados Para construir los modelos de regresión mencionados, existe un método muy usado para ello, el cual se conoce como método de mínimos cuadrados, se fundamenta en la idea de minimizar la suma de los cuadrados de los errores, mediante una aproximación al modelo ideal que mejor ajuste a un conjunto de puntos en el plano o bien a una colección de n parejas ordenadas ( x, y ) tomadas como una muestra de una población en estudio. Las bases teóricas para comprender dicho método, se apoyan del Cálculo diferencial integral en varias variables (derivadas parciales y el concepto de mínimo relativo). En este libro solo trabajaremos con el método de mínimos cuadrados para el caso más elemental, es decir lo ilustraremos en el modelo de regresión lineal simple. En la siguiente sección se desarrolla la idea del método para obtener estimaciones puntuales de los parámetros poblacionales.

171

5.3 Modelo de regresión lineal simple En muchos casos las variables independientes no son consideradas como aleatorias, ya que pueden ser controladas en el experimento o por el investigador, ello significa que dichas variables pueden no tener distribución de probabilidades, es por ello que las podremos escribir con letras minúsculas. Una variable dependiente esta supeditada de alguna manera a la variable independiente, por ejemplo en el caso del tiempo de reacción, esta es la variable dependiente y la dosis suministrada del fármaco es la variable independiente, el nivel del agua en la presa es la variable dependiente y la cantidad de días lluviosos es la variable independiente (aunque en este caso esta variable se puede catalogar como aleatoria, ya que el número de días lluviosos no está controlado por el investigador). Un segundo aspecto, es que la relación entre variables se caracteriza por medio de una ecuación de predicción, conocida como ecuación de regresión o modelo de regresión. El caso más sencillo es cuando se tiene una variable dependiente Y y una variable dependiente x y lo llamamos Regresión lineal simple. Dicho modelo será estudiado en este capítulo y el caso más general, es decir cuando se tengan dos o más variables independientes, queda fuera de los objetivos del libro.

Primero tomemos una muestra aleatoria de n parejas ordenadas

(

xi , yi

)

con

i = 1, 2,3,K , n , donde xi y yi son valores que toman las variables x y Y , respectivamente. Resulta lógico decir que al tomar otra muestra aleatoria de n parejas ordenadas ( xi , yi ) , para los mismos valores de los xi , los yi

cambiarán, ya que son valores de una variable aleatoria Y . Se conviene que la variable Y correspondiente a la variable x , será denotada por Y x , y en el caso de su valor esperado y varianza de la variable Y correspondiente a

la variable x , se escribe como

µY x y σ 2Y x ,

respectivamente. De modo que si suponemos que x = xi , entonces Y xi , µY xi y σ 2Y xi son valor de Y correspondiente al valor xi , la media o valor esperado del valor de Y correspondiente al valor xi y la varianza del Y correspondiente al valor xi , respectivamente. Cuando se habla de regresión lineal, quiere decir que la media de variable Y correspondiente a la variable x ( µY x ) tiene una relación lineal con la variable x y por consecuencia la ecuación de regresión lineal simple queda expresada como:

µY x = α + β x

, donde los coeficientes

α

y

β

se conocen como los

parámetros del modelo de regresión lineal simple, reciben el nombre de la ordenada al origen y la pendiente del modelo (cabe aclarar que estos símbolos fueron usados para denotar las probabilidades de cometer el error tipo I y tipo II, respectivamente, en el capítulo 4; En este apartado se refieren a

172

la ordenada y la pendiente poblacionales del modelo de regresión lineal simple) Los estimadores puntuales de estimaciones puntuales serán

α y β son Α y Β , respectivamente y sus a y b , a partir de una muestra aleatoria de n

parejas ordenadas o puntos en el plano cartesiano

(

xi , yi ) , así µY x se

puede estimar por yˆ , de manera que una estimación muestral para el modelo de regresión lineal simple es

yˆ = a + bx

ˆ se utiliza para distinguir el valor estimado o pronosticado por el modelo El y de regresión lineal y el valor real observado en una muestra aleatoria, para cierto valor x , para ilustrar la idea del modelo de regresión lineal simple tomemos el siguiente ejemplo, en el que se proporcionan 15 parejas de datos en donde se nos presentan las mediciones del tiempo de reacción y la dosis suministrada (en miligramos) de un nuevo medicamento para contrarestar la presión arterial elevada. En la tabla 1 que sigue aparece la información como parejas ordenadas. Tabla 1 Dosis del medicamento en mg ( x ) 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Tiempo de reacción en minutos ( y ) 20 22 18 15 12 15 8 9 8 9 6 7 8 5 6

Los puntos aparecen en la figura 2, en ella se pueden apreciar dos rectas, una es la recta del modelo de regresión lineal simple

µY x = α + β x

una estimación puntual al modelo de regresión lineal simple

173

y la otra es

yˆ = a + bx

Figura 2 y

µY x = α + β x

.

22

.

yˆ = a + bx

. . . .

.... .. . ..

5

5

19

x

Observando la figura 2, se puede decir que los puntos están en el plano cartesiano colocados de tal manera, que es razonable aceptar de alguna forma que el modelo lineal parece ser adecuado.

5.3.1 Ecuación de la recta y sus parámetros El objetivo principal es la obtención de estimaciones para los parámetros del modelo, es decir para α y β , a partir de un conjunto de parejas o puntos en el plano usando el método de mínimos cuadrados. Consideremos una colección de n parejas de la forma ( xi , yi ) , para un xi el error de la recta de regresión lineal simple

yi = α + β xi

es ε i y una estimación de dicho error es ei , es

yi = α + β xi + ε i y su estimación ajustada queda como yi = a + bxi + ei , en la figura 3 se aprecia una comparación del error ε i y

decir

su estimación ei .

yi = α + β xi + ε i

( xi ., yi ) } εi

ei {

yi = a + bxi + ei

Figura 3

174

Al utilizar la ecuación de la recta estimada yˆ = a + bx , para expresar a ei como ei = yi − yˆi y la suma de los cuadrados de las estimaciones de los errores

( SCE ) obtenemos una función en dos variables f ( a, b ) = SCE =

n

n

n

n

∑ e = ∑ ( y − yˆ ) = ∑ ( y − ( a + bx ) ) = ∑ ( y − a − bx ) 2

2

2 i

i

i =1

i

i

i =1

i

i

i =1

2

i

i =1

Ahora se desea obtener los valores de las estimaciones a y b que minimicen esta función, lo anterior se logra derivando parcialmente con respecto a “ a ” y “ b ”, respectivamente e igualando a cero cada derivada parcial, como se indica enseguida. Derivada parcial con respecto a “ a ”  −2 ( yi − a − bxi ) = −2   i =1 Al igualar a cero tenemos n n  n  −2  yi − a −b xi  = 0 i =1 i =1  i =1  ∂SCE = ∂a

n



∑ ∑ n

na + b

n

n



n

∑ y − ∑ a − b∑ x  i

i

i =1

i =1

i =1



n

∑x =∑ y i

i

i =1

i =1

Derivada parcial con respecto a “ b ” ∂SCE = ∂a

n

∑ i =1

 −2 xi ( yi − a − bxi ) = −2  

n

n

n



∑ x y − ∑ ax − b∑ x  i

i

2 i

i

i =1

i =1

i =1

Al igualar a cero se tiene que

 −2  

n

∑ i =1

n

a

n

xi yi −



n

axi − b

i =1

n

∑ i =1

 xi2  = 0 

n

∑ x + b∑ x = ∑ x y 2 i

i

i =1

i =1

i

i

i =1

Con ello llegamos a un sistema de dos ecuaciones con dos incógnitas, llamadas regularmente ecuaciones normales por mínimos cuadrados. n

na + b

∑ ∑y i =1 n

n

a

n

xi =

i

i =1

n

∑ x + b∑ x = ∑ x y 2 i

i

i =1

i =1

i

i

i =1

Al resolver este sistema por medio de la regla de Cramer o matrices se obtienen expresiones que permiten calcular los valores de a y b .

175

Las fórmulas para la estimación de los parámetros del modelo de regresión lineal simple son: n

n

∑ i =1

Para la pendiente b =

 xi yi −    n

n

∑ i =1

n

n

∑ ∑ i =1

 xi2 −   

n

∑ i =1

i =1 2

 yi   

 xi   

n

∑ y − b∑ x i

Para la ordenada a =

 xi    

n

i

i =1

i =1

n

= yi − bxi

Ejemplo 1: Tomando los 15 puntos proporcionados en la tabla 1, podemos obtener las estimaciones para la pendiente y ordenada del modelo de regresión lineal simple. Respuesta: Las sumas se pueden determinar apoyándose de la gran mayoría de las calculadoras de bolsillo y son: 15

∑ x = 180 i

i =1

15

;

∑x

2 i

15

= 2440 ;

i =1

∑ y = 168 i

i =1

15

;

∑y

2 i

15

= 2302 ;

i =1

∑ x y = 1704 i

i

i =1

Redondeando a los cuatro primeros dígitos después del punto decimal, tenemos las estimaciones para la pendiente y ordenada respectivamente.

b=

a=

15 (1704 ) − (180 )(168 ) 15 ( 2440 ) − (180 )

2

= −1.1143

168 − ( −1.1143)180 = 24.5716 15

Luego entonces b = −1.1143 y a = 24.5716 Así la ecuación de la recta que ajusta a los puntos dados es yˆ = 24.5716 − 1.1143 x

Con esta ecuación podemos obtener predicciones de la variable yˆ para cada valor que le demos a x , las cuales serán estimaciones para la variable aleatoria dependiente Y . Además que con dos valores de x y la ecuación es

176

posible construir un par de puntos por donde pasa la recta que ajusta al conjunto de parejas y por consecuencia podremos dibujar la gráfica de la recta. Si por ejemplo le damos a la variable independiente los valores de x = 5 y x = 15 , se tiene los valores yˆ = 19.0001 y yˆ = 7.8571 , respectivamente al evaluarlos en la ecuación de la recta. En la figura 4 aparecen los puntos ( 5,19.0001) y (15, 7.8571) marcados con una “x”, así como la gráfica de la recta ajustada yˆ = 24.5716 − 1.1143 x .

Figura 4 Gráfica de la recta

yˆ = 24.5716 − 1.1143 x

que ajusta a los puntos

y

.

22

. 19.0001

x

yˆ = 24.5716 − 1.1143 x

. . . .

. . . .x. . . ..

7.8571 5

5

15

19

x

Nota: Es importante señalar que el modelo obtenido en el ejemplo, se ajusta a los puntos dentro un dominio restringido, es decir, no tiene sentido darle un valor a la variable x (dosis de medicamento) de cero , o valores próximos a cero, ni superiores a veintidós miligramos en la ecuación encontrada, ya que no corresponden a la lógica del problema. Cabe aclarar entonces que los modelos obtenidos describen de buena forma el comportamiento de una muestra de parejas, mediante los cuales se pueden hacer generalizaciones a la población, dicho de otra manera, a la relación entre las variables en estudio.

177

Ejemplo 2: Al estudiar la relación entre tiempo (horas) que hacen las personas que utilizan su auto para llegar a su trabajo y la cantidad de combustible (litros) que se gasta en los días de mucho tráfico, se obtuvieron los siguientes datos. Tiempo 0.30 Cantidad de 5 combustible

0.35

0.41

0.50

0.54

1.20

1.24

1.30

1.45

2.10

5.6

6.1

7.5

8.3

10.4

10.8

12.5

13.4

16.6

Obtener la ecuación de la recta que ajusta estos puntos por mínimos cuadrados y use ésta para determinar la cantidad de combustible que se gastará un auto cuando una persona tarda en llegar a su trabajo 2.5 horas. Respuesta: La variable independiente en el ejemplo es el tiempo ( x ) , mientras

que la variable dependiente es la cantidad de combustible gastado ( y ) , luego entonces hay que calcular las sumas correspondientes, es decir 10



10

xi = 9.39 ;

i =1



10

xi2 = 12.1023 ;

i =1



10

yi = 96.2 ;

i =1

∑y

2 i

= 1054.88

i =1

10

∑ x y = 110.605 i

i

i =1

Aplicando las fórmulas para las estimaciones de la pendiente y ordenada respectivamente, se tiene que:

b=

a=

10 (110.605 ) − ( 9.39 )( 96.2 ) 10 (12.1023) − ( 9.39 )

2

= 6.1713

96.2 − 6.1713 ( 9.39 ) = 3.8251 10

Por lo tanto, la ecuación de la recta por mínimos cuadrados queda determinada por yˆ = 3.8251 + 6.1713 x . Para determinar la cantidad de combustible que se gastará en 2.5 horas, solo basta con sustituir x = 2.5 en la ecuación obtenida y se tiene que yˆ = 3.8251 + 6.1713 ( 2.5 ) = 19.2534 , es decir la cantidad de combustible que se gastará un auto en 2.5 horas será de 19.2534 litros aproximadamente.

178

5.3.2 Intervalos de confianza para los parámetros del modelo de regresión lineal simple Los estimadores insesgados de los parámetros α y β (ordenada y pendiente) para el modelo de regresión lineal son A y B , respectivamente, y como se dijo anteriormente sus estimaciones son a y b . En consecuencia con el capítulo 3 podemos hablar de intervalos de confianza para α y β . La varianza de cada estimador la denotamos por σ A2 y σ B2 , respectivamente y están dadas por n

∑x

σ2

i

σ =

σ2

i =1

2 A

n

n

∑( x − x )

σ B2 =

y

2

i

n

∑( x − x )

2

i

i =1

i =1

Donde σ 2 es la varianza de los errores del modelo y por ende de la variable aleatoria dependiente (Y ) . Un estimador insesgado de σ 2 es S 2 y un valor de dicho estimador (estimación) está dada por

s2 =

s yy − bsxy n−2

De manera que:

n

sxx =



s yy =



sxy =

∑ i =1

 yi   

2



  y2 − 

n

i



i

i =1

n

2

n

i =1

n

 xi   i =1  n

  x2 − 

  xi yi − 

i =1

n n

 xi    n

n

∑ ∑ i =1

i =1

 yi   

179

Intervalo de confianza para la ordenada. Para construir un intervalo de confianza para la ordenada al origen α , se usa la variable A −α T= n

∑x

2 i

i =1

S

n sxx Que tiene una distribución t de Student con n − 2 grados de libertad. Así, un intervalo de confianza para la ordenada al origen del (1 − α )100% , esta determinado por: n

tα s a−

2

∑x

n

2 i

i =1

n sxx

tα s tα (RR de cola derecha). La hipótesis nula H 0 se rechaza, si tc < −tα (RR de cola izquierda). La hipótesis nula H 0 se rechaza, si tc < −t α o tc > tα (RR de dos colas). 2

182

2

Ejemplo 5: Considérese el ejemplo 2, ¿se tiene razón en afirmar que la ordenada al origen es superior a 3? use un nivel de significancia del 10%. Respuesta: Se desea llevar a cabo una prueba de hipótesis, cuyos elementos quedan de la siguiente manera. Donde el parámetro es la ordenada α . Planteamiento de las hipótesis. H0 :α = 3

H1 : α > 3 Nivel de significancia. α = P ( Error tipo I ) = 0.10 Valor del estadístico de prueba. 10

Dado que a = 3.8251 ;

∑x

2 i

i =1

tc =

= 12.1023

;

sxx = 3.2851 ;

s = 0.7352

3.8251 − 3 = 1.849 12.1023 0.7352 10 ( 3.2851)

Región de rechazo. La región es de cola derecha, en la figura 5 se ilustra dicha región, así como el valor crítico tα = t0.10 = 1.3968 con n − 2 = 8 grados de libertad. Figura 5 Región de rechazo de cola derecha

Región de no rechazo

Región de rechazo

tα = 1.3968

tc = 1.849

Decisión estadística. La hipótesis nula H 0 se rechaza, ya que el valor del estadístico de prueba cae en la región de rechazo como se aprecia en la figura 5, ya que tc = 1.849 > tα = 1.3968 , por lo que, si existe suficiente evidencia para afirmar que la ordenada al origen es superior a 3.

183

Elementos de una prueba de hipótesis para la pendiente β . Planteamiento de las hipótesis.

H1 : β > β 0 H 0 : β = β 0 , contra

H1 : β < β 0

β 0 es un valor especifico

H1 : β ≠ β 0 Nivel de significancia.

α = P ( Error tipo I ) Valor del estadístico de prueba.

tc =

b − β0 s sxx

Región de rechazo (RR). de cola derecha

de cola izquierda

α

de dos colas

α

tα RR

RR

−tα

α

α

2

2

RR

−t α 2

tα RR 2

Donde tα , − tα , − tα y t α se obtienen de la distribución t de Student (tabla 3) con 2

2

n − 2 grados de libertad.

Decisión estadística. Dependiendo del tipo de región de rechazo, se tiene la siguiente decisión. La hipótesis nula H 0 se rechaza, si tc > tα (RR de cola derecha). La hipótesis nula H 0 se rechaza, si tc < −tα (RR de cola izquierda). La hipótesis nula H 0 se rechaza, si tc < −t α o tc > tα (RR de dos colas). 2

2

Ejemplo 6: Considérese de nuevo el ejemplo 2 y supongamos que se quiere realizar una prueba de hipótesis para determinar si la pendiente es diferente a 6 con la información recabada en la muestra de las 10 parejas. Use un nivel de significancia del 5%.

184

Respuesta: Planteamiento de las hipótesis. H0 : β = 6

H1 : β ≠ 6 Nivel de significancia. α = P ( Error tipo I ) = 0.05 Valor del estadístico de prueba. Dado que b = 6.1713 ; sxx = 3.2851 ;

tc =

s = 0.7352

6.1713 − 6 = 0.129 0.7352 3.2851

Región de rechazo. La región es de dos colas, los valores críticos −tα = −t0.025 = −2.306 y 2

tα = t0.025 = 2.306 se obtienen con n − 2 = 8 grados de libertad de la tabla 3 en el 2

apéndice. En la figura 6 se muestra la región así como los valores críticos.

Figura 6 Región de rechazo de dos colas

α 2

= 0.025

1 − α = 0.95

α 2

RR

−tα = −2.306 2

= 0.025

RR

tc = 0.129

tα = 2.306 2

Decisión estadística. Dado que el valor del estadístico de prueba no cae en la región de rechazo, como se observa en la figura 6, la hipótesis nula H 0 no se rechaza. Por lo que, no se tiene evidencia suficiente para apoyar la afirmación de que la pendiente es diferente a 6.

185

5.4 Predicción Con la ecuación yˆ = a + b x se puede obtener el valor de la respuesta media µY x0 para x = x0 , donde x0 es prácticamente cualquier valor que se le quiera dar a la variable independiente y no necesariamente algunos de los valores seleccionados o elegidos de antemano, es decir se puede predecir el valor de la respuesta media a partir de un valor arbitrario de x , a ello se le suele llamar predicción, también la ecuación yˆ = a + b x puede utilizarse para predecir un valor de y0 de la variable Y0 cuando x = x0 .

5.4.1 Intervalo de confianza y prueba de hipótesis Si se desea construir un intervalo de confianza para la respuesta media µY x0 , se usa el estadístico

T=

Yˆ0 − µY x0

1 ( x0 − x ) S + n S xx

2

El cual tiene una distribución t de Student con n − 2 grados de libertad. De manera que un intervalo de confianza para la respuesta media µY x0 al

(1 − α )100%

está dado por

1 ( x0 − x ) 1 ( x0 − x ) yˆ 0 − tα s + < yˆ 0 + tα s + 2 2 n sxx n sxx 2

O bien yˆ 0 ± tα s 2

1 ( x0 − x ) + n sxx

2

2

donde tα se obtiene de la tabla 3 (distribución t de Student) con n − 2 grados 2

de libertad. En el caso de que se quiera obtener un intervalo de predicción para cualquier valor y0 de la variable Y0 , se usa el estadístico

T=

Yˆ0 − Y0

1 (x − x) S 1+ + 0 n S xx

2

El cual tiene una distribución t de Student con n − 2 grados de libertad.

186

De modo que un intervalo de confianza del (1 − α )100% para una “respuesta”

y0 queda dado por

1 (x − x) 1 (x − x) yˆ 0 − tα s 1 + + 0 < yˆ 0 + tα s 1 + + 0 2 2 n sxx n sxx 2

1 (x − x) O bien yˆ 0 ± tα s 1 + + 0 2 n sxx

2

2

donde tα se obtiene de la tabla 3 (distribución t de Student) con n − 2 grados 2

de libertad. Ejemplo 7: En referencia al ejemplo 2, construir un intervalo de confianza al 95% para la respuesta media µY x0 y para y0 , respectivamente, cuando x0 = 1 (una hora). Respuesta: Tomando la ecuación de la recta de regresión obtenida en el ejemplo 2, calculamos yˆ0 para x0 = 1 yˆ = 3.8251 + 6.1713 x ; entonces yˆ 0 = 3.8251 + 6.1713 (1) = 9.9964

Además x = 0.939 ; sxx = 3.2851 ; s = 0.7352 y tα = t0.025 = 2.306 2

Un intervalo de confianza para la respuesta media µY 1 , al 95% queda como:

9.9964 ± 2.306 ( 0.7352 )

1 (1 − 0.939 ) + 10 3.2851

2

9.9964 ± 0.5392 Por lo tanto, 9.4572 < µY 1 < 10.5356 es un intervalo de confianza para la respuesta media µY 1 , al 95%. De forma análoga, para y0 cuando x0 = 1 .

9.9964 ± 2.306 ( 0.7352 )

1 (1 − 0.939 ) 1+ + 10 3.2851

2

9.9964 ± 1.7790 Por lo tanto, 8.2174 < y0 < 11.7754 es un intervalo de confianza para la “respuesta” y0 , cuando x0 = 1 , al 95%

187

5.5 Correlación 5.5.1 Concepto de correlación Al estudiar la relación que dos variables tienen, es conveniente poder saber o por lo menos tener idea de la “fuerza” de dicha relación, es decir conocer el grado de relación que guardan dos variables como X e Y en muchos problemas de investigación resulta muy importante, ya que ello permite comparar modelos para decidirse por el más adecuado o el que ajusta mejor un conjunto de datos de la forma ( X , Y ) , en donde las variables se pueden considerar provenientes de una población con función de densidad conjunta, particularmente cuando estamos trabajando el modelo lineal simple Y = α + β X , ya que la media del error aleatorio es cero. Podemos decir entonces que el concepto de correlación está en la idea de medir la relación existente entre dos variables de interés, mediante un número.

5.5.2 Coeficiente de correlación El número que mide la relación lineal entre variables se conoce como coeficiente de correlación de la población y se denota con la letra griega ρ (rho). Su estimación puntual de este parámetro ρ es r conocido como coeficiente de correlación de Pearson o coeficiente de correlación muestral y está dada por

r=

sxy sxx s yy

El coeficiente de determinación es ρ 2 y su estimación puntual es r 2 , que está dada por s2 r 2 = xy s xx s yy

Representa la proporción de variación total en los valores de la variable Y que puede ser explicada por una relación lineal con los valores de la variable X .

188

5.5.3 Coeficiente de correlación en el modelo de regresión lineal simple y su interpretación En el modelo de regresión lineal simple como se mencionó en el apartado anterior, el coeficiente de correlación poblacional es ρ y su estimación es r . Los valores de r oscilan entre – 1 y 1, su interpretación se da de acuerdo a lo siguiente: Cuando el valor del coeficiente de correlación muestral esté próximo a los valores – 1 o a 1, quiere decir que hay una “muy buena” relación lineal, sin embargo cuando hay valores dentro del intervalo [ −1,1] se debe tener cuidado con la interpretación, ya que valores de 0.2 y 0.4 no significa que la correlación de una sea el doble de la otra, solo se puede decir que una es más fuerte que la otra. En el análisis de correlación se presenta una prueba de hipótesis muy particular y es cuando se desea contrastar la hipótesis ρ = 0 (no hay relación lineal) en contra de que ρ ≠ 0 (si hay relación lineal, aunque sea muy ligera) y para eso se cuenta con los siguientes elementos: Planteamiento de hipótesis. H0 : ρ = 0

H1 : ρ ≠ 0 Nivel de significancia. α = P ( Error tipo I ) Valor del estadístico de prueba. tc =

r n−2 1− r2

Región de rechazo. De dos colas. Decisión estadística. Si −tα < tc o bien tα > tc , entonces la hipótesis nula H 0 se rechaza, donde −tα 2

2

2

y tα se obtienen de la tabla 3, con n − 2 grados de libertad. 2

Ejemplo 8: considere la tabla del ejemplo 2, para calcular el coeficiente de correlación muestral, interprételo y realice una prueba de hipótesis de ρ = 0 en contra de ρ ≠ 0 con un nivel de significancia del 10% Respuesta: Sabemos que sxx = 3.2851 ; s yy = 129.436 ; sxy = 20.2732 de modo que r =

20.2732 3.2851(129.436 )

= 0.9832

En virtud de que el valor del coeficiente de correlación muestral está muy cercano a 1, podemos interpretarlo como que la relación lineal es muy buena.

189

Para la prueba de hipótesis se tiene que: Planteamiento de hipótesis. H0 : ρ = 0

H1 : ρ ≠ 0 Nivel de significancia. α = 0.10 Valor del estadístico de prueba. 0.9832 10 − 2 tc = = 15.24 2 1 − ( 0.9832 ) Región de rechazo. La región es de dos colas y de la tabla 3, se tiene que −tα = −t0.05 = −1.860 y 2

tα = t0.05 = 1.860 con 8 grados de libertad. En la figura 7 se aprecia la región de 2

rechazo de dos colas (RR) Figura 7 Región de rechazo de dos colas

α 2

1 − α = 0.90

= 0.05

α 2

RR

= 0.05

RR

−tα = −1.860

tα = 1.860

2

2

tc = 15.24

Decisión estadística. Dado que el valor del estadístico de prueba si cae en la región de rechazo (véase figura 7) ya que tc = 15.24 > tα = 1.860 , la hipótesis nula se rechaza, es 2

decir si existe relación lineal y además es bastante buena como ya se había observado en la interpretación del coeficiente de correlación muestral.

190

RESUMEN Modelo de regresión lineal simple: Y = α + β X

Estimación del modelo de regresión lineal simple: yˆ = a + bx Estimaciones de los parámetros del modelo de regresión lineal simple.

n

n

∑ i =1

Para la pendiente b =

 xi yi −   

n

i =1



i =1 2

 yi   



n

∑ x −  ∑ x  2 i

i

i =1

n

i =1

n

∑ y − b∑ x i

Para la ordenada a =

n

∑ ∑

n

n

 xi    

i

i =1

i =1

n

= yi − bxi

Intervalos de confianza y prueba de hipótesis para los parámetros del modelo de regresión lineal simple.

s2 =

n

sxx =



  x2 − 

n

s yy =



i

sxy =

∑ i =1

 yi   

2

n



i

i =1

n

2



i =1

  y2 − 

 xi   i =1  n n

  xi yi − 

i =1

s yy − bsxy n−2

n n

 xi    n

n

∑ ∑ i =1

i =1

 yi   

191

n

tα s

Para la ordenada a −

2



n

xi2

∑x

2 i

tα s
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF