February 5, 2024 | Author: Anonymous | Category: N/A
Download Libro Utem Estadistica Descriptiva Probabilidades Inferencia Modelos Regresion Metodos No Parametricos...
ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES INFERENCIA MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS PEDRO VERGARA VERA
ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES, INFERENCIA, MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS.
PEDRO VERGARA VERA
ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES INFERENCIA MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS PEDRO VERGARA VERA
Ediciones Universidad Tecnológica Metropolitana Calle Dieciocho 161, Santiago, Chile
(56-2) 787 77 50
Metro Los Héroes
[email protected]
Vicerrectoría de Transferencia Tecnológica y Extensión Casilla: 9845
www.utem.cl www.vtte.utem.cl
Universidad Tecnológica Metropolitana Ediciones Universidad Tecnológica Metropolitana ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES, INFERENCIA, MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS. Autor: Pedro Vergara Vera ISBN: 978-956-7359-95-0 Registro de propiedad intelectual n.º Diseño de portada y corrección de estilo: Ediciones Universidad Tecnológica Metropolitana Vicerrectoría de Transferencia Tecnológica y Extensión © Está prohibida la reproducción total o parcial de este libro, su recopilación en un sistema informático y su transmisión en cualquier forma o medida (ya sea electrónica, mecánica, por fotocopia, registro o por otros medios) sin el previo permiso y por escrito de los titulares del copyright. Impresión: Gráfica LOM Santiago de Chile, diciembre de 2014.
ÍNDICE capítulo
1
Estadística descriptiva
1. INTRODUCCIÓN 1.1. Variables 1.1.1. Variables cualitativas 1.1.1.1. Variable cualitativa nominal 1.1.1.2. Variable cualitativa ordinal 1.1.2. Variables cuantitativas 1.1.2.1. Variable cuantitativa discreta 1.1.2.2. Variable cuantitativa continua
12 12 12 13 13 13 13
1.2. Tablas y gráficos 1.2.1. Tabla de distribución de frecuencias 1.2.1.1. Variables cualitativas 1.2.1.2. Variables cuantitativas 1.2.1.3. Variables continuas o discretas con Intervalos
1.3. Histogramas 1.4. Polígono de frecuencias 1.5. Histograma ajustado 1.6. Diagramas de Pareto 1.7. Diagramas de causa-efecto de Ishikawa 1.8. Tablas de asociación
13 14 15 17 20 22 24 25 27 31
capítulo
2
Medidas de tendencia central 2.1 Promedio aritmético o media aritmética 2.1.1. Datos simples 2.1.2. Datos agrupados sin intervalos 2.1.3. Datos agrupados con intervalos 2.1.4. Propiedades del promedio 2.1.5. Promedios condicionados
2.2. Mediana 2.2.1. Datos simples 2.2.2. Datos agrupados
capítulo
3
36 36 37 38 40 42 44 45 46
2.3. Cuartiles 2.4. Quintiles 2.5. Deciles 2.6. Percentiles
47 50 51 53
3.1. Varianza
56
Medidas de variabilidad 3.1.1. Datos simples 3.1.1. Propiedades de la varianza
3.2. Covarianza 3.2.1. Propiedades de la covarianza
3.3. Desviación estándar 3.4. Coeficiente de variación 3.5. Recorrido intercuartílico 3.6. Puntaje típico
56 57 60 61 62 62 63 64
capítulo
4
Probabilidades 4.1. Experimento 4.2. Espacio muestral (Ω) 4.3. Suceso 4.4. Definición de Probabilidad Clásica 4.5. Axiomas de probabilidades 4.6. Teoremas de probabilidades 4.7. Probabilidad condicional 4.7.1. Propiedades
capítulo
5
65 65 65 66 69 70 71 72
4.8. Teorema de multiplicación 4.9. Sucesos independientes 4.10. Teorema de probabilidad total 4.11. Teorema de Bayes
72 74 77 78
5.1. Variables aleatorias discretas
81
Variables aleatorias 5.1.1. Función de cuantía o de probabilidad 5.1.2. Función de probabilidad acumulativa 5.1.3. Esperanza 5.1.4. Varianza 5.1.5. Distribución de Bernoulli 5.1.6. Distribución binomial 5.1.7. Distribución hipergeométrica 5.1.8. Distribución multinomial 5.1.9. Distribución de Poisson
81 83 84 84 86 87 91 95 95
5.2. Variables aleatorias continuas
97
5.2.1. Esperanza 5.2.2. Varianza 5.2.3. Distribución uniforme 5.2.4. Distribución exponencial 5.2.5. Distribución t-Student 5.2.6. Distribución normal Ejemplos 5.2.7. Distribución chi-cuadrado
98 99 99 101 102 104 105 107
5.2.8. Distribución F 5.2.9. Distribución triangular 5.2.10. Momento de una variable aleatoria 5.2.11. Función generadora de momentos en torno al cero 5.2.12. Función generadora de momentos en torno a µ 5.2.13. Funciones generatrices de momento de variables discretas 5.2.14. Algunas funciones generatrices de momento de funciones continuas Ejercicios resueltos del capítulo Ejercicios propuestos
capítulo
6
110 111 115 117 118 119 120 120 122
Inferencia 6.1. Introducción 6.2. Distribución muestral de un estadístico 6.2.1. Error muestral 6.2.2. Error típico muestral 6.2.3. Distribución muestral de la media 6.2.3.1. Teorema central del límite 6.2.4. Distribución muestral de (n-1)S2*/ 2 6.2.5. Distribución muestral de p
6.3. Inferencia estadística
123 124 125 125 126 126 127 127 127
6.3.1. Estimación de parámetros 6.3.1.1. Estimación puntual 6.3.1.1.1. Estimador insesgado 6.3.1.1.2. Estimador consistente 6.3.1.1.3. Estimador eficiente 6.3.1.1.4. Eficiencia relativa 6.3.2. Método de máxima verosimilitud 6.3.2.1. Propiedad invariante
127 128 128 128 130 130 130 134
6.4. Estimación por intervalos de confianza
134
6.4.1. Intervalo de confianza para la media µ de una población normal 6.4.1.1. Cuando 2 es conocida 6.4.1.2. Cuando 2 es desconocida 6.4.2. Precisión en la Estimación por Intervalos de Confianza
134 134 136 138
6.4.3 Intervalo de Confianza para una proporción 6.4.4. Intervalo de confianza para 2 6.4.4.1. Cuando µ es conocida 6.4.4.2. Cuando µ es desconocida 6.4.5. Intervalo de confianza para la diferencia de dos promedios µ1 - µ2 6.4.5.1. Varianzas iguales conocidas 6.4.5.2. Varianzas iguales desconocidas 6.4.5.3. Varianzas distintas y desconocidas
6.5. Pruebas de hipótesis 6.5.1. Hipótesis nula y alternativa 6.5.2. Prueba de hipótesis para una proporción
139 141 141 142 143 143 144 145 146 146 146
6.6. Prueba de hipótesis para un promedio
150
6.6.1. Varianza conocida 6.6.2. Varianza desconocida
150 152
6.7. Prueba de hipótesis respecto de la varianza 6.7.1. Prueba para una varianza 6.7.2. Prueba para dos varianza
6.8. Prueba de hipótesis para dos medias 6.8.1. Varianzas iguales conocidas 6.8.2. Varianzas iguales desconocidas 6.8.3. Varianzas distintas desconocidas
6.9. Dócima para dos proporciones 6.10. Muestras pareadas Ejercicios resueltos Ejercicios propuestos
153 153 157
159 159 160 163 164 165 166 174
6.11. Pruebas de Bondad de Ajuste
179
6.11.1. Prueba para una distribución uniforme 6.11.2. Prueba para una distribución normal
180 181
6.12. Puebas de hipótesis 2 para análisis de tablas de asociación
183
6.13. Análisis de la varianza 6.13.1 Tabla ANOVA y el contraste F
186 192
capítulo
7
Modelos de regresión 7.1. Gráficos de correlación 7.1.1. Coeficiente de correlación
7.2. Regresión lineal
199 201 205
7.3. Linealización de modelos
211
7.4. Modelos de regresión múltiple 7.4.1. Determinación de los parámetros i 7.4.2. Matriz de varianzas-covarianzas 7.4.3. Validación del modelo de regresión múltiple
capítulo
198
7.2.1. Método de mínimos cuadrados 7.2.2. Análisis de los residuos
7.3.1. Modelo exponencial 7.3.2. Modelo potencial 7.3.3. Modelo hiperbólico
8
197
211 214 216 219 220 222 222
Introdución a métodos no paramétricos 8.1. Prueba para comparar dos medias. muestras independientes
231
8.1.1. Prueba de U Mann-Whitney y prueba de Rangos de Wilcoxon
231
8.1.2. Prueba de Kruskall-Wallis
236
Tabla normal Tabla t-Student Tabla chi-cuadrado Tabla F Tabla U Mann-Whitney Bibliografía
240 242 244 245 251 258
capítulo
1
Estadística descriptiva
1. INTRODUCCIÓN. En todo estudio estadístico es necesario contar con información que permita conocer las características de las variables que intervienen, tales como los valores de sus medidas de tendencia central y de variabilidad, como también la distribución que ellas posean, puesto que, dependiendo de estas características, se desprenderán los métodos estadísticos que se puedan aplicar.
1.1. Variables. Dependiendo del tipo de estudio que se quiera realizar, diversas pueden ser las variables que en él estén involucradas. Algunas estarán referidas a la cualidad del objeto observado, otras a las magnitudes o medidas de ellas. Por esto, las variables se clasifican en: cualitativas o cuantitativas. 1.1.1. Variables cualitativas, Como su nombre lo indica, están referidas a la cualidad que posee el objeto observado. Esta cualidad puede vincularse con una característica de los niveles que la variable posea o con una jerarquía entre estos niveles. Así, las variables cualitativas se subdividen en dos tipos: nominales y ordinales. 1.1.1.1. Variable cualitativa nominal es aquella para la que, en sus niveles, no es relevante establecer un orden o jerarquía para su clasificación. Por ejemplo: la variable “estado civil de un individuo” posee tres niveles: soltero, casado y viudo; el que sea nominal significa que da lo mismo ordenar la información poniendo en primer lugar a los solteros, luego a los casados y finalmente a los viudos, o cualquier otro orden. La variable “sexo” también es cualitativa nominal, ya que no es relevante el orden o jerarquía entre los niveles femenino y masculino. Otros ejemplos: nombre de la calle en donde vive el encuestado, la etnia que posee, el color de sus ojos, el color de su
Capítulo 1
» 13
cabello, su profesión, la ciudad donde reside, el tipo de locomoción que utiliza, la empresa en donde trabaja, entre otros. 1.1.1.2. Variable cualitativa ordinal es aquella para la que, en sus niveles, es relevante el orden o jerarquía preestablecida y, por ello, la información debe ser presentada en ese orden o respetando esa jerarquía. Por ejemplo: si se quiere clasificar la información según el mes de ocurrencia, existe un orden de precedencia de los meses, a saber: primero está enero, luego febrero… hasta diciembre. Lo mismo ocurre si se considera la variable día de la semana (lunes, martes…), la variable nivel educacional (prekínder, kínder, primero básico... hasta la enseñanza media). Asimismo, para los estudios universitarios existen una malla jerárquica semestral y prerrequisitos para los cursos de semestres posteriores, y así sucesivamente. Otros ejemplos: días del mes; jerarquía de los académicos de una universidad; grados académicos como licenciado, magíster y doctor; precedencia de las jefaturas de una organización, entre otros. 1.1.2. Variables Cuantitativas Son aquellas que están referidas a la posibilidad de medir o cuantificar. Dependiendo de su continuidad o discontinuidad, se subdividen en dos categorías. 1.1.2.1. Variable cuantitativa discreta es aquella para la que, entre dos de sus niveles, existe un número finito de valores intermedios. Por ejemplo: el número de hijos de una familia, el número de vehículos que una persona posee, el número de propiedades de una familia, el número de alumnos de una carrera, el número de directores de una compañía, entre otros. 1.1.2.2. Variable cuantitativa continua es aquella para la que, entre dos de sus valores, existen infinitos valores intermedios. Por ejemplo: los kilos de maíz que contenga un saco, la edad de los estudiantes de un curso, la estatura de las personas de una empresa, la presión sanguínea de un paciente, la longitud de un perno, el diámetro de un pistón, el volumen de un ladrillo, el índice de alcoholemia de un conductor, la presión atmosférica de un lugar, la resistencia a la rotura de una correa de seguridad, el ingreso per cápita de una familia, los gastos de una familia, entre otros.
1.2. Tablas y gráficos. Las tablas estadísticas y gráficos tienen por objetivo mostrar la información de un estudio en forma resumida y ordenada, permitiendo al investigador tener una aproximación de la distribución que las variables puedan tener y sus características. En las tablas o en los gráficos se debe poner un título que indique claramente cuál es la variable que se presenta, cómo está clasificada la información, dónde está registrada y cuándo fue obtenida. Esta descripción detallada permitirá a un investigador obtener la información de la fuente en donde esta se generó, pudiendo así continuar o ampliar un estudio respecto de ella. 1.2.1. Tabla de distribución de frecuencias Una tabla de distribución de frecuencias es aquella que permite clasificar la información respecto de una variable.
14 «
Estadistíca Descriptiva
1.2.1.1. Variables cualitativas. Para construir una tabla de distribución de frecuencias de una variable cualitativa, se deben determinar sus distintos niveles, ya sea a partir de los valores individuales observados x1, x2…, xn de una muestra, o bien a partir de los datos de toda la población. Conocidos los distintos niveles y1, y2…, yk, se debe proceder a tabular el número de individuos que posee cada nivel. Así, la tabla tiene la siguiente estructura: Variable y1 y2 . . yk
fi f1 f2 . . fk
Total
n
% p1 p2 . . pk
donde f1 representa la frecuencia o el número de observaciones contabilizadas para el nivel y1 de la variable; fk representa la frecuencia o el número de observaciones contabilizadas para el nivel yk de la variable; p1 representa el porcentaje que el número de observaciones f1 del nivel y1 representa respecto del total de observaciones de la muestra o de la población; pk representa el porcentaje que el número de observaciones fk del nivel yk representa respecto del total n de observaciones de la muestra o de la población. Así, para un nivel j se tiene:
Por ejemplo, se tiene la información x1, x2,…, x800 del estado civil de 800 trabajadores de la División A de la empresa Cobre S.A correspondiente al mes de mayo de 2011, Al tabular los datos, se obtuvo la Tabla 1.1. Tabla 1.1. Personal División A Cobre S.A, según Estado Civil. Mayo 2011
Estado Civil
fi
%
soltero casado viudo
240 440 120
30.0 55.0 15.0
Total
800
100.0
Se puede afirmar que de los 800 trabajadores hay 240 solteros que representan el 30% del total; 440 son casados correspondientes al 55% del total; y el 15% restante son viudos.
Capítulo 1
» 15
En general, esta es la estructura de una tabla de distribución de frecuencias referida a una variable cuantitativa. El único estadístico posible de calcular es el porcentaje que cada nivel representa respecto del total. La información contenida en este tipo de tabla se puede representar a través de un gráfico de barras simples, que consiste en barras de igual ancho, una para cada nivel de la variable, y su altura corresponde a la frecuencia observada de ese nivel (fig 1.1.a). También, pueden usarse gráficos sectoriales en los cuales el ángulo del centro corresponde a la parte proporcional que la frecuencia observada en cada nivel representa respecto del total (fig. 1.1.b.). Fig 1.1 Personal División A Cobre S.A, según Estado Civil. Mayo 2005
440
240
a)
b)
soltero 30% casado 55%
120 viudo 15% soltero
casado
viudo
1.2.1.2. Variables cuantitativas. Sean x1, x2,…, xn los valores medidos de una variable cuantitativa discreta, con y1, y2,...,yk niveles distintos y f1, f2..., fk frecuencias observadas de cada nivel, la tabla de distribución de frecuencias estaría dada por:
Frecuencia absoluta
Frecuencia relativa
Frecuencia acumulada
Frecuencia relativa acumulada
Variable
fi
hi
Nj
Hj
y1 y2 . . . yk
f1 f2 . . . fk
h1 h2 . . . hk
N1 N2 . . . Nk
H1 H2 . . . Hk
TOTAL
n
16 «
Estadistíca Descriptiva
donde: es la frecuencia relativa del nivel i; son las frecuencias acumuladas hasta el nivel j; son las frecuencias relativas acumuladas hasta el nivel j. Las frecuencias acumuladas y sus respectivas frecuencias relativas acumuladas también se pueden calcular en forma ascendente en la tabla. Se puede observar que i)
ii)
iii) Nk = n.
Ejemplo. En la tabla 1.2 se muestra la información tabulada respecto del número de hijos de 125 familias: fi 15 25 40 35 10 125
hi 0.12 0.20 0.32 0.28 0.08
Nj 15 40 80 115 125
Hj 0.12 0.32 0.64 0.92 1.00
Nj 125 110 85 45 10
"
Nº de hijos 0 1 2 3 4 Total
"
Tabla 1.2. Distribución de frecuencias
Hj 1.00 0.88 0.68 0.36 0.08
Se puede observar que el 32% de las familias tiene 2 hijos, y que 80 familias tienen 2 o menos hijos, lo que representa el 64% del total de familias; que el 60% de las familias tiene entre 2 y 3 hijos; que 85 familias tienen 2 o más hijos, lo que representa el 68% del total de familias. En las fig. 1.2. a, b y c, se muestra el gráfico de barras simples, el gráfico sectorial y el gráfico de frecuencias acumuladas, respectivamente. Fig 1.2 a) Gráfico de barras simples
4 hijos
12%
8%
1 hijo
3 hijos
20%
28%
Hijos
0
1
2
3
4
Fig 1.2 b) Gráfico sectorial
0 hijos
2 hijos 32%
Capítulo 1
» 17
Fig 1.2 c) Gráfico de frecuencias acumuladas
Familia
15
40
80
115
125
1.2.1.3. Variables Continuas o Discretas con Intervalos Sean x1, x2,..., xn los valores medidos de una variable cuantitativa continua o discreta con muchos niveles, se designa por y´0, y´1,..., y´k a los límites de cada intervalo, por y1 , y2,..., yk marcas de clase o puntos medios de los intervalos (si la variable es continua), o los niveles distintos (si la variable es discreta); sean f1 , f2,..., fk las frecuencias observadas en cada intervalo o en cada nivel. La tabla de distribución de frecuencias tendría la siguiente estructura:
Variable y´0 - y´1 y´1 - y´2 . y´k-1 - y´k Total
yi y1 y2 . yk
fi f1 f2 . fk
hi h1 h2 . hk
Nj N1 N2 . Nk
Hj H1 H2 . Hk
n
donde: es el punto medio o marca de clase del intervalo i; es la frecuencia relativa del nivel i; son las frecuencias acumuladas hasta el nivel j; son las frecuencias relativas acumuladas hasta el nivel j.
18 «
Estadistíca Descriptiva
Ejemplo. En la tabla 1.3, se muestra la información tabulada correspondiente al sueldo líquido de 220 obreros: fi 25 45 60 50 30 10 220
hi 0.11363 0.20454 0.27272 0.22727 0.13636 0.04545
Nj 25 70 130 180 210 220
Hj 0.11363 0.31818 0.59091 0.81818 0.95454 100.000
Nj 220 195 150 90 40 10
"
Ingreso M$ 125 - 130 130 - 135 135 - 140 140 - 145 145 - 150 150 - 155 Total
"
Tabla 1.3. Distribución de frecuencias
Hj 1,00000 0,88636 0,68182 0,40909 0,18182 0,04545
yi 127.5 132.5 137.5 142.5 147.5 152.5
Se puede observar que el límite superior de un intervalo es igual a límite inferior del intervalo siguiente, la pregunta es ¿en qué intervalo se tabula este valor límite?, la respuesta viene dada en el manual del programa computacional que construya la tabla, ya que dependerá del comparador lógico que utilice, por ejemplo, si usa LE (menor o igual que) tabulará el valor en el intervalo del cual es límite superior, si usa LT (menor que) tabulará el valor en el intervalo del cual es límite inferior. De la tabla, se puede observar que el 27.27% de los obreros gana entre $135.000 y $140.000; que 130 de ellos ganan $140.000 o menos, lo que representa el 59,09% respecto al total; que el 31.82% gana $135.000 o menos; que 90 de ellos ganan más de $140.000 lo que corresponde a un 40.91% del total de obreros. Para construir una tabla de distribución de frecuencias de una variable cuantitativa con k intervalos de igual amplitud, se debe identificar en los valores originales el máximo y el mínimo, xmáximo y xmínimo, definiendo el recorrido de la variable por: ,la amplitud constante de cada intervalo se calcula por Para construir la tabla, el límite inferior del primer intervalo se inicia con el valor Xmínimo, al que se le suma la amplitud constante obteniendo el límite superior correspondiente a este primer intervalo, a este valor superior se le suma la amplitud constante y así sucesivamente hasta alcanzar el valor de Xmáximo. Existe un procedimiento que permite determinar el número k de intervalos a definir en una tabla dependiendo del tamaño conocido de la muestra N, denominada fórmula de Sturgess (1926):
Capítulo 1
» 19
Ejemplo. Se tiene la información respecto del gasto mensual (M$) en combustible de 50 vehículos de acuerdo a la Tabla 1.4. Tabla 1.4. Gastos mensuales
120 49 97 86 171
64 56 109 130 182
40 68 143 180 98
55 94 164 110 126
103 114 88 122 139
146 80 126 95 148
191 83 167 148 175
181 96 105 100 196
134 128 144 192 49
55 172 200 112 127
Construya una tabla de distribución de frecuencias de k=4 intervalos de igual amplitud, como se tiene que
= 160, la amplitud constante está dada por
obteniendo la tabla 1.5.
Tabla 1.5. Distribución de frecuencias
Gasto (M$)
fi
hi
Nj
Hj
40 – 80
9
0.18
9
0.18
80 – 120
15
0.30
24
0.48
120 – 160
14
0.28
38
0.76
160 – 200
12
0.24
50
1
Total
50
Analice e interprete los resultados obtenidos en esta tabla.
Observación. En este ejercicio se decidió construir k=4 intervalos. Si no se supiera el número de intervalos, se aplicaría la fórmula de Sturges y debieran construirse
Ejercicio. Se tiene la información respecto del diámetro externo en centímetros de 150 pistones para ensamblar bombas de agua, tabla 1.6. Construir una tabla de distribución de frecuencias.
20 «
Estadistíca Descriptiva
Tabla 1.6. Diámetros externos
10.01 10.03 10.07 9.96 9.97 9.94 10.00 10.08 10.00 9.95 9.97 10.08 9.97 10.06 10.00
10.06 10.04 10.07 10.08 10.00 10.03 10.06 10.02 10.06 9.97 9.97 10.00 10.09 10.00 9.92
9.98 9.91 10.02 9.95 9.97 10.00 10.05 10.05 10.06 9.98 10.06 10.03 10.00 9.92 9.95
10.02 10.03 10.00 10.03 10.02 9.98 10.00 9.97 9.99 10.07 10.08 10.06 10.03 9.95 9.97
9.90 9.98 10.06 10.00 10.08 10.04 9.95 10.02 9.99 10.07 10.02 10.02 9.96 10.06 9.95
10.01 10.04 10.06 9.92 10.02 9.98 10.04 10.00 10.06 10.02 10.04 10.04 10.06 9.99 9.95
9.96 9.96 9.99 10.13 10.05 10.01 10.05 9.94 10.05 10.00 10.05 10.06 10.07 9.99 10.03
9.96 9.95 9.99 10.08 9.97 10.09 10.00 10.03 9.96 10.06 10.00 9.92 10.08 9.94 10.00
9.97 9.97 10.06 10.08 10.02 10.04 10.05 10.00 10.08 10.06 10.08 10.02 10.00 10.03 9.92
9.94 9.98 10.05 10.06 10.00 9.92 9.95 9.97 9.95 9.99 10.06 9.98 10.03 9.94 9.95
1.3. Histogramas. Los histogramas permiten visualizar la posible distribución que subyace tras los datos. Conocer esta distribución permite aplicar las teorías correspondientes a dicha distribución, ya sea normal, chi-cuadrado, t-Student, Weibull, exponencial u otra. Para ello, se debe construir una tabla de distribución de frecuencias con interva-los de igual amplitud de la variable cuantitativa en estudio, considerando 100 o más datos. Ejemplo. En la tabla 1.7 se tiene la información de la velocidad registrada a > 200 vehículos que pasaron por un puesto de control. Tabla 1.7. Distribución de frecuencias
Límite Límite inferior superior 82 - 86 86 - 90 90 - 94 94 - 98 98 - 102
Frecuencia absoluta 2 2 16 50 71
Frecuencia relativa 0.010 0.010 0.080 0.250 0.355
Frecuencia acumulada 2 4 20 70 141
Frecuencia relativa acumulada 0.0100 0.0200 0.1000 0.3500 0.7050
Capítulo 1
102 - 106 106 - 110 110 - 114 Total
32 22 5 200
0.160 0.110 0.025
173 195 200
» 21
0.8650 0.9750 1.0000
Se puede observar que el 35.5% de ellos viajaba a velocidades comprendidas entre 98 y 102 km/h. Del total de vehículos, 195 de ellos viajaban a velocidades menores o igual a 110 km/h, lo que representa el 97.5%. En la fig 1.3 a), se puede apreciar en el histograma que la distribución es bastante simétrica y se podría asumir que tiene distribución normal de media 99.8291 km/h y desviación estándar 4.8956 km/h, esta afirmación debe ser probada con algún test estadístico, los que se estudiarán más adelante. La fig 1.3 b), muestra el polígono de frecuencias acumuladas correspondiente. Figura 1.3 a) Historgrama
80 70 60 50 40 30 20 10
82
92
102
112 122
cumulative frequency polygon
Figura 1.3 b) Polígono de frecuencias
cumulative frequency
200 160 120 80 40 0 82
92
102
112
122
Ejercicio. Con los datos de los pistones, construya el histograma a partir de una tabla de diez intervalos de igual amplitud.
22 «
Estadistíca Descriptiva
Los histogramas permiten tener una impresión visual de la posible distribución existente en los datos analizados. En la fig 1.4 a) se puede asumir una distribución aproximadamente normal; en la fig 1.4 b) se muestra la distribución aproximada en chi-cuadrado. Los histogramas también permiten detectar posibles comportamientos anómalos de un proceso. En la fig 1.4 c) se puede apreciar que el histograma es muy plano en la parte superior y muestra una posible mezcla de dos distribuciones de igual variabilidad; en cambio, en la fig 1.4 d) se puede apreciar una posible mezcla de tres distribuciones de distinta variabilidad. Figura 1.4 Histogramas
a)
c)
b)
d)
1.4. Polígono de frecuencias. Un polígono de frecuencia se construye uniendo los puntos medios superiores de un histograma. Se utiliza para realizar comparaciones múltiples de varias distribuciones. También, se puede construir un histograma acumulativo y su respectivo polígono de frecuencias. Ejemplo. Se tiene la siguiente información respecto del sueldo en pesos de 200 mujeres y 200 hombres de una institución pública.
Capítulo 1
» 23
Tabla 1.8. Distribución de frecuencias
Mujeres
Hombres
Límite inferior 147000
Límite superior 148000
fi 1
Límite inferior 150000
Límite superior 151000
fi 3
148000
149000
5
151000
152000
12
149000
150000
16
152000
153000
35
150000
151000
29
153000
154000
63
151000
152000
47
154000
155000
50
152000
153000
48
155000
156000
20
153000
154000
37
156000
157000
10
154000
155000
11
157000
158000
4
155000
156000
5
158000
159000
2
156000
157000
1
159000
160000
1
Los histogramas correspondientes se muestran en la fig 1.5.
Figura 1.5. Histogramas
Mujeres
Hombres 80
80 70
60
frequency
frequency
60 50 40 30
40 20
20 10 0
0 146
149
152
155
158
150 152 154 156 158
160
Se puede observar en la fig. 1.6 a) que al representar ambos histogramas en un mismo gráfico, se traslapan, lo que dificulta la comparación de ambas distribuciones. Más difícil sería si se consideraran tres o más categorías en estudio; en cambio, el polígono de frecuencias en la fig. 1.6 b) permite visualizar de mejor manera la distribución de ambas categorías.
24 «
Estadistíca Descriptiva
Mujeres Hombres
Figura 1.6 a) Histograma
147
150
157
160
Mujeres Hombres
Figura 1.6 b) Polígono de frecuencias
147
150
157
160
1.5. Histograma Ajustado. Se cuenta con el número de personas que han desistido de cursos virtuales según su edad. Figura 1.7 Tabla y gráfica de distribución de frecuencias
Edad 20 a 24 25 a 34 35 a 54 55 a 84 Total
fi 30 50 60 80 220
fi
Edad
Como estos intervalos no son de igual amplitud, en el gráfico de la derecha (fig. 1.7) no se pueden comparar directamente las barras entre ellas. Este gráfico induce a tener una interpretación errada de la información, ya que se puede concluir que a medida que las personas tienen mayor edad, mayor es el número de ellas que desiste.
Capítulo 1
» 25
Para corregir este error, se debe determinar la frecuencia de cada intervalo proporcional a la amplitud de cada intervalo; es decir, llevar la información a una escala de medida común. Si se elige el máximo común divisor de estas frecuencias (5), se determina cuantas unidades de 5 caben en cada intervalo. Luego, se divide la frecuencia del intervalo (a) por el número de unidades de 5 que en ellas hay (b). Los valores resultante son la altura de la barra proporcional al ancho y la frecuencia. Con esto, se puede concluir que las personas de 20 a 24 años son las que más desisten (fig. 1.8). También es posible llevar la información a escala 2 (u otra). Los valores de (a)/(b) quedan proporcionales, y la barra de 20 a 24 años es la mayor. Edad
fi (a)
Amplitud
20 a 24 25 a 34 35 a 54 55 a 84
30 50 60 80
5 10 20 30
Unidades de 5 (b) 1 2 4 6
(a)/(b) 30 25 15 13.3
Unidades de 2 (b´) 2.5 5 10 15
(a)/(b´) 12 10 6 5.3
Figura 1.8. Ajustado Histograma
30 25 15 13,5
Edad
1.6. Diagramas de Pareto. Los gráficos de Pareto permiten detectar, entre otros, los tipos de defectos y su importancia relativa en un proceso de fabricación, ya sea en forma global del proceso o para un producto determinado. Para construir un gráfico de Pareto, se deben determinar los tipos de defectos que pueden tener un proceso o producto y contabilizar la frecuencia de cada uno de éstos. A continuación se ordenan en forma decreciente los tipos de defectos en abscisas, y en ordenadas la frecuencia. Pareto (1906) asegura que el 80% de los problemas se pueden solucionar, si se elimina el 20% de las causas que lo originan.
26 «
Estadistíca Descriptiva
Ejemplo. Al final de una línea de ensamble de secadoras de ropa, se realiza una inspección del producto terminado. En la tabla 1.9, se muestra la distribución de frecuencia de los defectos de 165 secadoras. Tabla 1.9. Distribución de defectos
Defecto Defectos en la pintura Escape de agua Puerta con defectos Abolladuras Rayas Motor no funciona Total
Frecuencia 82 26 34 45 69 29 165
En la tabla 1.10, se muestran los defectos ordenados de mayor a menor frecuencia, el porcentaje que ellos representan y el porcentaje acumulado. Tabla 1.10. Distribución de defectos de mayor a menor
Defecto Defectos en la pintura Rayas Abolladuras Puerta con defectos Motor no funciona Escape de agua
Frecuencia 82 69 45 34 29 26
Total
285
% 28,8 24,2 15,8 11,9 10,2 9,1
% Acumulado 28,8 53,0 68,8 80,7 90,9 100,0
En la fig. 1.9 se muestra que las causas de defectos en la pintura representan el 28.8% de los defectos; que las causas de defectos en la pintura y rayas representan el 53% de los defectos, y que las tres primeras causas representan el 68.8% de los defectos. Figura 1.9. Gráfico de Pareto
30,0 25,0 20,0 15,0 10,0 5,0 0,0
Defectos en la pintura
Rayas
Abolladuras
Puerta con defectos
Motor no funciona
Escape de agua
Capítulo 1
» 27
1.7. Diagramas de causa-efecto de Ishikawa. Una vez conocidos y ordenados los defectos, se requiere realizar un análisis de causa-efecto de Ishikawa para determinar que produce los defectos y cuales son las causas que ello conlleva.
Existen tres métodos para construir diagramas de Ishikawa: Método 6M. Es el más común, consiste en agrupar las causas potenciales en seis ramas principales donde se enfocan los esfuerzos de mejora, Fig 1.10. a) Metodología de trabajo b) Medición c) Maquinaria d) Medio ambiente e) Materiales y f) Mano de obra Figura 1.10. Diagrama de causa efecto Método 6M
Metodología de trabajo
Mano de Obra
Causa
Causa
Causa
Materiales
Teoría
Teoría
Teoría
Teoría
Causa Teoría
Causa
Teoría
Teoría
Efecto Causa
Causa
Teoría Teoría
Causa
Causa Teoría
Maquinaría
Teoría
Medio Ambiente
Medición
28 «
Estadistíca Descriptiva
Método de flujo del proceso. Con este método de construcción, la línea principal del diagrama de Ishikawa sigue la secuencia normal del proceso de producción o de administración. Los actores que pueden afectar las características de calidad se agregan en el orden que les corresponde, según el proceso. Este método permite explorar formas alternativas de trabajo, detectar cuellos de botella, descubrir problemas ocultos, entre otros (fig. 1.11). Figura 1.11. Diagrama de causa efecto Método Flujo del Proceso
Teoría
Proceso 2
Causa
Teoría
Teoría
Causa
Proceso 3
Teoría
Teoría
Teoría
Teoría
Teoría
Teoría
Teoría
Teoría
Proceso 1
Causa
Causa
Causa
Proceso 4
Proceso 5
Proceso 6
Efecto
Teoría
Teoría
Causa
Método de estratificación o enumeración de causas. La idea de este método es ir directamente a las causas potenciales de un problema. La selección de estas causas muchas veces se hace a través de una sesión grupal de ideas. Es importante preguntarse varias veces que es lo que produce el problema. Con esto se construirá el diagrama reducido, el abanico de búsqueda será más acotado y posiblemente con mejores resultados (fig. 1.12). El método de estatificación contrasta con el método 6M, que va de lo general a lo particular, mientras que el estratificado va directo a las causas potenciales del problema. Esta manera de construir el diagrama es más sencillo cuando las categorías de las causas potenciales pueden subdividirse.
Capítulo 1
» 29
Figura 1.12. Diagrama de causa efecto Método Estratificado
Causa
Causa
Causa
Teoría
Teoría
Teoría
Teoría
Teoría
Teoría
Teoría
Efecto
Teoría
Teoría
Causa
Teoría
Teoría
Causa
Teoría
Teoría
Causa
Ejemplo. Una empresa de Pizzas detecta que tiene problemas con la entrega a domicilio los viernes y sábados. Para determinar las posibles causas se realiza un diagrama de Ishikawa (fig 1.13 a). Según el conocimiento que se tenga del proceso, en este diagrama de Ishikawa se puede incorporar más información sobre las posibles causas que generarían el problema (fig. 1.13 b).
30 «
Estadistíca Descriptiva
Figura 1.13. a) Diagrama de causa efecto
Maquinarias/Equipos
Personas personal no se presenta a trabajar
carros no confiables
choferes se pierden
hornos pequeños
entrega de pizzas a domicilio demoradas viernes y sábados mal despacho
mal manejo de grandes pedidos
agotamiento de ingredientes
Métodos
Materiales
Figura 1.13. b) Diagrama de causa-efecto ampliado
Maquinarias/Equipos
Personas carros no confiables
desconocimiento de la ciudad alta fluctuación del personal
no hay trabajo en equipo falta de capacitación baja paga la gente no se presenta no hay dinero a trabajar para reparaciones hornos baja paga los choferes se pierden demasiado apuro alta fluctuación capacitación pequeños los jovencitos tienen del personal pobre capacitación carros que no obtención de alta fluctuación pobre funcionan bien información incorrecta del personal entrega de pizzas a domicilio demoradas los agotamiento de los ingredientes mal manejo de viernes y sabados alta fluctuación del personal los pedidos grandes desconocimiento pobre uso del espacio de la ciudad alta fluctuación alta fluctuación pedidos del personal del personal inexactos pobre falta de experiencia falta de despacho capacitación muchas calles nuevas
no hay capacidad para los periodos de mayor afluencia
Métodos
Materiales
Capítulo 1
» 31
En la fig 1.14 se muestra el diagrama causa-efecto de Ishikawa del análisis en un problema de facturación en una empresa distribuidora de electricidad domiciliaria. Se debe observar que mientras más conocimiento se tenga del proceso que se analiza, más fino será el análisis que se pueda realizar, lo que se reflejará en el diagrama. Fig 1.14. Diagrama de causa-efecto proceso de facturación
mucho imagen historial
falta control y coordinación
tablas globales
contratista corte boletas
atención público
imagen corte boletas
entrega a localidades
ejecutivos clientes y jefaturas ejecutivos SGC de clientes
monitoreo tarifas constantes resguardo bases datos perfiles mal definidos estructura Personal estandarización procedimientos
venta electrónica Analisis de cuentas tecnologías
capacitación
personal comercial tarifas sofware centros de asignación comunicaciones atención responsabilidades equipos cortadora
Recursos Humanos y Materiales
tiempo
riesgo potencial
capturadores medidores distinta BTI insuficientes
normalizar observaciones contratista parámetros fallas mantención lecturas tiempo respuesta promedios registros base datos visión holding basicos casas cerradas consumos común débil respuesta cero potencias capacitación requerimientos revisión listados
sin coordinación
layout
Lecturas domiengos y festivos
Bases de Datos
Contratista
pc
falta de listados indicadores principales digitos medidores relojillos micas stock malas
capturadores muchos jefes
contratista lecturas BTI
algoritmo días promedios vencimiento metodologías ley servicios eléctonicos presión límite tiempo invierno verificación parámetros
tiempo verificación
recursos humanos compartidos
mal corte
Debilidades proceso Facturación
calendario tiempo verificación
control calidad tasas de tarifas no se prioriza control anterior y interés boletas y facturas postrerior facturación cierre timbraje normativas contables facturas grupos control stock estandarización coordinación politícas de procesos listados exceso clientes carencia listados Procedimientos Facturación después de facturar descripción de funciones
SGC
1.8. Tablas de asociación. Las tablas de asociación permiten clasificar la información respecto de dos o más variables, para determinar la posible relación que pueda existir entre ellas. Ejemplo. En la tabla 1.10, se tiene la información de los funcionarios de una empresa respecto de su estado civil y sexo. Tabla 1.10 Tabla de Asociación
Soltero Casado Viudo Total
Masculino 120 90 10 220
Femenino 50 20 5 75
Total 170 110 15 295
32 «
Estadistíca Descriptiva
La información se puede analizar respecto de las filas, de las columnas o respecto del total, dependiendo del objetivo que tenga el investigador. Así, si se toma la información de la celda(1,1) = 120. respecto de este valor se pueden calcular tres porcentajes: Porcentaje respecto de la fila 120/170 . 100=70.59% Se interpreta diciendo que, del total de funcionarios solteros, el 70.59% son de sexo masculino. Porcentaje respecto de la columna 120/220 . 100=54.55% Se interpreta diciendo que, del total de los funcionarios de sexo masculino, el 54.55% de ellos son solteros. Porcentaje respecto del total 120/295 . 100 = 40.68% Se interpreta diciendo que, del total de funcionarios, el 40.68% son de sexo masculino (solteros). Con la información de esta tabla se pueden construir los gráficos de barras simples de la fig. 1.15, que permiten interpretar la información, ya sea por sexo o por estado civil. Fig 1.15. Gráficos de barras simples
120
Masculino Femenino
100 80 60 40 20 0 solteros
casados
viudos
Capítulo 1
120
» 33
Masculino Femenino
100 80 60 40 20 0 solteros
casados
viudos
120
Masculino Femenino
100 80 60 40 20 0 solteros
casados
viudos
También se puede representar la información en barras subdivididas (fig. 1.16) que explican la proporción porcentual que cada nivel de ellas implica respecto del total de un determinado nivel, ya sea por sexo o por estado civil. 100%
Masculino Femenino
80% 60% 40% 20% 0% solteros
casados
viudos
Femenino
50
20
5
Masculino
120
90
10
34 «
Estadistíca Descriptiva
100%
Fig 1.16 Gráficos de barras simples
Viudo Masculino Femenino
80% 60% 40% 20% 0% Masculino
Femenino
Ejemplo 1. Se tiene la información respecto de los trabajadores de una empresa, según edad, sexo y nivel educacional
Estudios Edad 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 Total
Analfabeto
Básica
Media
Analfabeto
Básica
Media
5 20 45 30 10 110
Masculino 10 25 55 35 15 140
12 48 54 26 10 150
4 12 26 38 20 100
Femenino 14 24 42 34 16 130
5 15 35 40 15 110
Total 50 144 257 203 86 740
El valor de la casilla c11 = 5, se puede interpretar de las siguientes formas: a)
respecto del total de la fila (50), diciendo que del total de personas de edad entre 10 y 15 años, el 10% son analfabetos de sexo masculino;
b)
respecto de la columna (110), diciendo que del total de hombres analfabetos, el 4.55% tienen una edad comprendida entre 10 y 15 años;
c)
respecto de la fila, pero sólo de los hombres 5/27, diciendo que del total de hombres de entre 10 y 15 años, el 18.52% son analfabetos;
d)
respecto de la columna, pero sólo de los hombres (400), diciendo que del total de hombres el 1.25% es analfabeto con edad entre 10 y 15 años;
e)
Respecto del total de analfabetos (210), diciendo que del total de analfabetos el 2.38% corresponde a hombres de entre 10 y 15 años;
35
«
Estadistíca Descriptiva
Capítulo 1
» 35
Ejercicio. Analice e interprete esta información por fila, columnas, sexo, estudios, edad y respecto del total, para alguna casilla. Observación. Se recomienda no construir tablas de asociación con más de tres variables, dado que dificultará la interpretación que ella proporciona. Ejemplo 2. Se tiene la información respecto de los matriculados en un curso de capacitación según edad de los trabajadores, información correspondiente a los años 2010 y 2011.
Años Edad 18 – 22 23 – 27 28 – 32 33 – 37 38 – 42 43 – 47 Total
2010 25 34 56 64 42 29 250
2011 20 45 65 56 64 36 286
Diferencia porcentual -20.00 32.40 16.07 -12.50 52.40 24.13 14.40
Con estos datos se puede construir un gráfico de barras simples que permita visualizar la diferencia porcentual del comportamiento de los matriculados entre ambos años por grupos de edades. Fig 1.17. Gráfico de barras simples de la diferencia porcentual
60 40 20 0 -20 -40
18 - 22
23 - 27
23 - 32
33 - 37
38 - 42
43 - 47
En la fig. 1.17, se puede apreciar que el mayor incremento en la matrícula entre 2010 y 2011 se produce en el intervalo de 38 a 42 años; en cambio, la mayor pérdida de matrícula se produce en el intervalo de 18 a 22 años.
capítulo
2
Medidas de Tendencia Central
Medidas de Tendencia Central Las medidas de tendencia central intentan resumir en un valor numérico los datos contenidos una muestra o una población.
2.1 Promedio Aritmético o Media Aritmética 2.1.1. Datos simples : Sean x1, x2, . . . , xn los valores medidos de una variable cuantitativa. El promedio aritmético o media aritmética se define por:
el promedio se expresa en la misma unidad de medida de la variable, el resultado se interpreta como el valor que tomarían en la muestra las observaciones si es que ellas fuesen todas iguales. El promedio aritmético del universo o población de tamaño N, se define por:
Capítulo 2
» 37
Ejemplo. Sea X : el peso en kilos del contenido de harina de unas bolsas, medidas en una muestra de tamaño cinco. x1 = 5 , x2 = 3, x3 = 3 , x4 = 5, x5 = 2 , x6 = 4 , x7 =5 , x8 = 6 , x9 =2 , x10 = 5 (kilos)
Si en todas las bolsas hubiese habido la misma cantidad de harina,cada una de ellas debiera haber contenido 4 kilos. Observación: El promedio aritmético es muy susceptible a los valores extremos que toma la variable, por ejemplo: sean x1=1, x2=2 y x3=102 en kg, el promedio es 35 kg, es decir, si todas las observaciones hubiesen sido iguales cada una de ellas habría sido igual a 35 kg, lo que dista bastante de la realidad, este promedio no tiene sentido. Cuando en una muestra existen valores extremos se debe calcular el estadístico llamado mediana que se estudiará en 2.2. 2.1.2. Datos agrupados sin intervalos Sean y1,…,yk los niveles de una variable cuantitativa discreta, f1, f2, … , fk las frecuencias, el promedio se define por:
Tabla 2.1 Distribución de frecuencias
i
Número de hijos (yi)
fi
yi fi
1 2 3 4 5
0 1 2 3 4 TOTAL
10 30 45 30 10 125
0 30 90 90 40 250
38 «
Medidas de Tendencia Central
2.1.2. Datos agrupados con intervalos Cálculo aproximado, sólo se debe utilizar este procedimiento cuando no se disponga de los valores originales. Situación poco probable dado que si el estudio se realiza en una empresa o cualquier institución, se cuenta con los datos originales, dado que tendrá que tener un registro completo de los datos que se quieren analizar. Si se dispone de una tabla con datos agrupados, con muchos intervalos y pocos datos, el error de cálculo que se obtendría podría llevar a cometer graves errores, tanto en la interpretación como en las conclusiones, así, con todo lo anterior se explicará el método. Sean y’0 , y’1,…,y’k los límites de cada intervalo, y1, y2, . . . , yk las marcas de clase o puntos medios de cada intervalo, f1, f2, … , fk las frecuencias. Para realizar este cálculo aproximado, se debe suponer que las observaciones se distribuyen uniformemente en cada intervalo y, que si todos los valores fuesen iguales en el intervalo corresponderían al valor promedio del intervalo, también conocido como marca de clase. Para calcular este promedio aproximado se utiliza la fórmula:
Ejemplo. Se cuenta con la información del peso neto en gramos de 200 bolsas de café.
226 225 227 225 226 229 229 226 227 236 243 241 241
225 229 225 229 228 231 229 232 234 236 243 239 241
229 229 232 231 229 231 229 229 229 243 239 247 249
229 231 231 229 231 231 231 234 232 236 248 244 246
231 229 234 229 231 234 229 233 234 234 246 244 244
238 238 237 238 236 237 238 234 236 241 244 249 244
243 243 239 244 239 244 242 242 243 239 246 244 244
250 251 251 250 251 250 251 251 254 242 244 248 249
226 238 238 236 236 237 239 234 234 239 242 241
234 238 236 237 236 234 238 234 239 241 241 243
231 236 234 234 238 236 234 243 244 248 248 244
232 239 238 234 234 237 239 239 238 244 246 244
234 239 234 234 237 236 234 237 234 248 246 244
234 236 239 239 239 242 241 242 239 246 244 246
243 242 241 244 243 242 239 239 239 246 244 246
252 252 242 242 251 244 247 244 241 247 244 244
Capítulo 2
» 39
Construyendo una tabla de distribución de frecuencias de seis intervalos de igual amplitud se tiene: peso (gramos)
yi
fi
yi fi
225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL
227,5 232,5 237,5 242,5 247,5 252,5
15 35 55 45 38 12 200
3412,5 8137,5 13062,5 10912,5 9405,0 3030,0 47960
Calculando el promedio para estos datos agrupados se tiene:
Se debe dejar claro que este promedio tendrá sentido, es decir, que su valor podría ser próximo al valor promedio verdadero, siempre y cuando el tamaño de la muestra sea suficientemente grande con pocos intervalos, o bien, cuando el ancho de los intervalos tienda a cero y se cuente con un número adecuado de mediciones, sólo en estos casos el promedio tiende al valor verdadero, que se obtiene a partir de los datos originales. Se debe reiterar que al agrupar los datos se pierde información; por ejemplo, las 15 bolsas del primer tramo de 225 a 230 gramos, no se conocen cuales son las bolsas ni cuanto pesan cada una de ellas; lo mismo ocurre con los valores de los otros intervalos, por tanto difícilmente se podría calcular el peso promedio, y por eso, se asume que en el primer intervalo cada uno de ellos pesaría 227.5 gramos que es el promedio del intervalo siempre que la distribución fuese uniforme (lo que es difícil de aceptar como verdadero en muestras pequeñas), aportando 15·227,5=3412,5 gramos al total. El promedio verdadero de estos 200 datos es 238.52 gramos, luego existe una diferencia de 1.28 gramos. Si se construyen 10 intervalos de igual amplitud, se tiene que el promedio es 238.62 gramos.
40 «
Medidas de Tendencia Central
peso (gramos) 225,0 - 227,9 227,9 - 230,8 230,8 - 233,7 233,7 - 236,6 236,6 - 239,5 239,5 - 242,4 242,4 - 245,3 245,3 - 248,2 248,2 - 251,1 251,1 - 254,0
yi 226,45 229,35 232,25 235,15 238,05 240,95 243,85 246,75 249,65 252,55
fi 10 17 16 36 37 20 32 17 12 3 200
yi fi 2264,5 3899 3716 8465,4 8807,9 4819 7803,2 4194,8 2995,8 757,65 47723
Para el ejemplo del gasto mensual en combustibles (miles) de 50 vehículos del capítulo anterior, considerando cuatro intervalos de igual amplitud, se tiene:
Gasto M$ 40 – 80 80 – 120 120 – 160 160 – 200 Total
fi 9 15 14 12 50
yi 60 100 140 180
yi fi 540 1500 1960 2160 6160
El promedio aritmético aproximado obtenido a partir de esta tabla es M$123.2, sin embargo, al calcular el promedio verdadero a partir de los datos originales se obtiene M$121.16, es decir, se tiene un error de M$2.04 2.1.3 Propiedades del promedio Sean X e Y variables cuantitativas de la misma unidad de medida, sean a y b constantes
Capítulo 2
» 41
6.- Dada una población que se divide en dos muestras de tamaños n1 y n2, con medias x1 y x2, respectivamente, la media de la población está dada por:
7.- Dada una población que se divide en k muestras de tamaños n1, n2,…,nk con medias x1,x2 ,…,xk , la media de la población está dada por:
Demostraciones:
Ejercicio. Realice las demás demostraciones. Ejemplo. Se tiene la información del gasto en combustible de dos turnos de una empresa, Tabla 2.2.
Tabla 2.2 Gastos en combustible
Día
1
2
3
4
5
6
7
Turno 1 M$ Turno 2 M$
125 145
130 120
112 145
127 124
132 134
150
148
a) Determine el gasto promedio total a partir de los gastos promedios por turno. b) Si el gasto diario aumenta en en $12 ¿cuál sería el nuevo promedio total? c) Si el gasto diario inicial se reajusta en 4,5% y se le agregan $15 por día. ¿cuál sería el nuevo promedio total?
42 «
Medidas de Tendencia Central
Solución a) Los promedio por turnos son 125.2 y 138 respectivamente, luego el promedio general es 132.66667 b) M(x+12) = M(x)+ 12 = 144.66667 c) M(1.045x+15) = 1.045M(x)+ 15 = 153.63667
Ejercicio. Se tiene la información del diámetro interno en milímetros de un buje producidos en dos máquinas de una empresa, Tabla 2.3. Tabla 2.3 Diámetros internos de los bujes
Día Máquina 1 Máquina 2
1 2 3 4 5 6 7 8 9 11.12 11.03 11.05 11.07 11.02 11.06 11.06 11.02 11.04 11.04 11.04 11.05 11.08 11.05 11.04
a) Determine el diámetro promedio total a partir de los diámetros promedios de cada máquina. b) Por el desgaste de las piezas de la máquina el diámetro aumenta en 0.01 milímetros, ¿cuál sería el nuevo promedio total? c) Si el diámetro se debe corregir disminuyéndolo en un 0,1% y aumentándo en 0,01 milímetros. ¿cuál será el nuevo diámetro promedio total? 2.1.4 Promedios condicionados Sean X e Y dos variables cuantitativas medidas en una población de tamaño n, la información se presenta en una tabla de asociación por: Tabla 2.3 Distribución conjunta y marginal
X/Y x1
y1 n11
y2 n12
x2
n21
n22
…
yj n1j
…
yq n1q
Total n1
n2j
n2q
n2
… xi … xp
ni1
ni2
nij
niq
ni
np1
np2
npj
npq
np
Total
n.1
n.2
n.j
n.q
n
Capítulo 2
» 43
Los totales marginales de cada fila se define por:
Los totales marginales de cada columna se definen por:
El total general está dado por:
Los promedios condicionados se definen por:
También, se pueden calcular los promedios de ambas variables respecto de los totales marginales por:
Tabla 2.4 Distribución conjunta y marginal
Día X (estatura en cm) 120 130 140 150 Total
Y (peso en kilos)
45 10 15 20 5 50
50 20 25 30 15 90
55 18 20 25 17 80
60 12 10 15 13 50
5 Total 60 70 90 50 270
44 «
Medidas de Tendencia Central
a) El promedio de la estatura para los niños que pesan 45 kilos está dada por:
b) El promedio del peso para los niños de 140 cm de estatura está dada por:
c) El promedio de la estatura está dada por:
El promedio del peso está dada por:
Ejercicios. Para los datos de la Tabla 2.4, calcular los siguientes promedios condicionados:
2.2. Mediana Se define como aquel valor de la variable que divide a la muestra dos partes iguales, previamente ordenada ya sea de mayor a menor o viceversa, cada una de ellas correspondientes al 50%. Este estadístico se expresa en la misma unidad de medida de la variable en estudio.
Capítulo 2
» 45
2.2.1. Datos simples. Sean x1, x2, . . . , xn valores de una variable cuantitativa Procedimiento. i) Para n impar: 1° Ordenar las observaciones de menor a mayor o viceversa 2° Calcular
3° La mediana es aquel valor ordenado que está en la posición
Ejemplo. Sea X la superficie en km2 sembrados de siete localidades: x1 = 2676.5 , x2 = 39.8, x3 = 2.8 , x4 = 80.2, x5 = 76.9, x6=10.5 , x7=1.5 es claro que el promedio aritmético para esta información no tiene sentido, por existir valores extremos, no se puede comparar una localidad que sólo siembra 1.5 km2, con una que siembra 2676.5 km2. Esto es similar cuando se indica que el ingreso per cápita en Chile es de US18.000, y que para calcularlo se incluyen los sueldos de gerentes de firmas importantes, el sueldo del entrenador de la selección de fútbol, de animadores de televisión, respecto de una persona de sueldo mínimo de $195.000 al mes, a este último, ¿cómo se le puede explicar que en el ingreso per cápita es US$18.000 si sólo recibe al año aproximadamente US$4909?, no se pueden incluir valores extremos, debido a que estos tergiversan la esencia de este estadístico denominado promedio. Para las superficies sembradas, n = 5 x1 = 2676.5 , x2 = 39.8, x3 = 2.8 , x4 = 80.2, x5 = 76.9, x6=10.5 , x7=1.5 1° Ordenar las observaciones de menor a mayor o viceversa 1.5, 2.8, 10.5, 39.8, 76.9, 80.2, 2676.5 2° Calcular
(cuarta posición), que es la misma si se hubiese ordenado en forma
decreciente los datos 3° Me =39.8 km2 (valor de la cuarta posición)
46 «
Medidas de Tendencia Central
Interpretación: se puede afirmar que el 50% de las localidades siembra 39.8 km2 o menos y el 50% restante siembra 39.8 km2 o más. ii) Para n par: 1° Ordenar las observaciones de menor a mayor o viceversa 2° Calcular 3° La mediana es el valor promedio de las observaciones ordenadas que están en las posiciones
Ejemplo. Sea X : Valor de alcoholemia [Alcohol/cc] de seis conductores x1 = 3.8 , x2 = 0.6, x3 = 0.0 , x4 = 0.8, x5 = 0.9 , x6 = 0.01, x7=0.2 , x8=0.75. n = 8 1° Los valores ordenados son: 0 , 0.01 , 0.2 , 0.6 , 0.8 , 0.75, 0.9 , 3.8
2° Calcular
3°
(cuarta y quinta posición)
[Alcohol/cc].
Ejercicio. Interprete este resultado 2.2.2. Datos agrupados Procedimiento: 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular 3° Ubicar en la columna de las frecuencias acumuladas Nj aquel valor que sobrepase inmediatamente a n/2 que se designa por Ns, donde s es la línea del intervalo que sobrepasa a n/2, luego:
Capítulo 2
y’s As
Ns-1 fs
» 47
: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia del intervalo s
Ejemplo. Calcular la mediana del ingreso de 200 trabajadores, cuyos sueldos se muestran en la Tabla 2.5. Tabla 2.5 Distribución de sueldos
i 1 2 3 4 5 6
Ingreso (miles) 225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL
fi Nj 15 15 35 50 55 105 45 150 38 188 12 200 200
s=3
La amplitud es este intervalo s es As = 240 - 235 = 5
Interpretación. Que la mediana sea $239.54545 significa que de los 200 obreros, el 50% de ellos gana $239.545,45 o menos y el 50% restante gana $239.545,45 o más.
2.3. Cuartiles Los cuartiles dividen una muestra en cuatro partes iguales de un 25% cada una 25%
25% Q1
25% Q2
25% Q3
C1: es aquel valor que sobrepasa a no más del 25% de las observaciones y es sobrepasado por no más del 75% restante. C2: es aquel valor que sobrepasa a no más del 50% de las observaciones y es sobrepasado por no más del 50% restante. Corresponde a la Mediana
48 «
Medidas de Tendencia Central
C3: es aquel valor que sobrepasa a no más del 75% de las observaciones y es sobrepasado por no más del 25% restante. Los cuartiles se expresan en la misma unidad de medida de la variable en estudio Procedimiento para datos simples 1º Ordenar los datos de menor a mayor y calcular la mediana de ellos. 2º Para obtener el cuartil 1, calcular la mediana entre el valor menor y la mediana de todos los datos. 3º Para obtener el cuartil 3, calcular la mediana entre el valor mayor y la mediana de todos los datos. Ejemplo. Se tiene el peso en kilos de 15 bolsas de café: Bolsa Peso (kg)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2.5 0.5 4.0 1.5 5.5 7.5 1.2 8.5 5.2 0.6 3.2 9.5 1.8 4.6 3.1
1º Ordenando los datos de menor a mayor se tiene: Peso (kg)
0.5 0.6 1.2
1.5
1.8 2.5 3.1 3.2 4.0 4.6 5.2 5.5 7.5 8.5 9.5
luego, la mediana de todos éstos datos es Me=3.2 kg 2º Para obtener el Cuartil1, calcular la mediana de los datos de menor valor: Peso (kg)
0.5 0.6
1.2
1.5
1.8
2.5
3.1
3.2
C1=(1.5 + 1.8)/2 = 1.65 kg 3º Para obtener el cuartil 3, calcular la mediana de los datos de mayor valor: Peso (kg)
3,2
4,0
4,6
5,2
5,5
7,5
8,5
9,5
C1=(5.2 + 5.5)/2 = 5.35 kg Procedimiento para datos agrupados 1° Construir la columna de las frecuencias acumuladas Nj 2° Calcular
para C1 ó
para C3
3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente designa por Ns
a que se
Capítulo 2
» 49
El Cuartil Cp está dado por:
y’s As Ns-1 fs
: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s
Ejemplo. A partir de la información de Ingresos (M$) de la Tabla 2.5, calcular el cuartil 2 y el cuartil 3.
Tabla 2.5 Distribución de sueldos
i 1 2 3 4 5 6
Ingreso (miles) 225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL
fi Nj 15 15 35 50 55 105 45 150 38 188 12 200 200
s=3 s=5
La amplitud de todos éstos intervalos es A = 5
Que el Cuartil 1 sea M$235 significa que de los 200 obreros, el 25% de ellos gana $235.000 o menos, y el 75% restante gana $235.000 o más.
50 «
Medidas de Tendencia Central
Que el Cuartil 3 sea M$245 significa que de los 200 obreros, el 75% de ellos gana $245.000 o menos, y el 25% restante gana $245.000 o más.
2.4. Quintiles Los quintiles dividen la muestra en cinco partes iguales de un 20% cada una. 20% 20% Q1
20% Q2
20% Q3
20%
80%
Q4
Q1: es aquel valor que sobrepasa a no más del 20% de las observaciones y es sobrepasado por no más del 80% restante Q4: es aquel valor que sobrepasa a no más del 80% de las observaciones y es sobrepasado por no más del 20% restante Los quintiles se expresan en la misma unidad de medida de la variable. 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular
dependiendo del quintil que se quiera calcular
3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente a que se designa por Ns
y’s As Ns-1 fs
: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s
Ejemplo. A partir de los datos de la Tabla 2.5, calcular el quintil 1 y el quintil 4
Capítulo 2
» 51
Tabla 2.5 Distribución de Sueldos
i 1 2 3 4 5 6
Ingreso (miles) 225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL
fi Nj 15 15 35 50 55 105 45 150 38 188 12 200 200
s=2 s=5
La amplitud de todos los intervalos es A = 5
Que el quintil 1 sea M$233.57142 significa que de los 200 obreros, el 20% de ellos gana $233.57142 o menos, y el 80% restante gana $233.57142 o más.
Que el quintil 4 sea M$246.31579 significa que de los 200 obreros, el 80% de ellos gana $246.31579 o menos, y el 20% restante gana $246.31579 o más.
2.5. Deciles Los deciles dividen la muestra en diez partes iguales de un 10% cada una 90% D1 10%
D2
D3
D4
D5
D6
D7
D8
D9
Me
D1: es aquel valor que sobrepasa a no más del 10% de las observaciones y es sobrepasado por no más del 90% restante D2: es aquel valor que sobrepasa a no más del 20% de las observaciones y es sobrepasado por no más del 80% restante
52 «
Medidas de Tendencia Central
D9: es aquel valor que sobrepasa a no más del 90% de las observaciones y es sobrepasado por no más del 10% restante Los deciles se expresan en la misma unidad de medida de la variable Procedimiento para datos agrupados 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular
dependiendo del decil que se quiera calcular
3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente a designa por Ns
y’s As Ns-1 fs
que se
: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s
Ejemplo. se tiene la información correspondiente a las edades de 220 personas, Tabla 2.6, calcular el Decil 3 y el Decil 9 Tabla 2.6 Distribución por edades
i 1 2 3 4 5 6
Edad (años) 10 - 14 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 TOTAL
fi 25 45 60 50 30 10 220
Nj 25 70 130 180 210 220
s=2 s=5
La amplitud es este intervalo s es As=15 -10 = 5
años
Capítulo 2
» 53
Que el Decil 9 sea 33 años significa que de las 220 personas, el 90% de ellas tienen una edad menor o igual a 33 años, y el 10% restante es mayor o igual a 33 años.
2.6. Percentiles Los percentiles dividen la muestra en 100 partes iguales. Los percentiles se expresan en la misma unidad de medida de la variable Procedimiento para datos agrupados 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular
dependiendo del percentil que se quiera obtener
3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente a por Ns
y’s As Ns-1 fs
que se designa
: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s
Ejemplo. Se tiene la información correspondiente a las edades de 220 personas, Tabla 2.6, calcular: P5, P95 y P99,5. Tabla 2.6 Distribución por edades
i 1 2 3 4 5 6
Edad (años) 10 - 14 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 TOTAL
fi 25 45 60 50 30 10 220
Nj 25 70 130 180 210 220
años
54 «
Medidas de Tendencia Central
de las 220 personas, el 5% de ellos tiene una edad menor o igual a 12.2 años, el 95% restante es mayor o igual a 12.2 años.
años
de las 220 personas, el 95% de ellas tiene una edad menor o igual a 34.833 años, el 1% restante es mayor o igual a 34.833 años.
años
de las 220 personas, el 99.5% de ellas tiene una edad menor o igual a 39.45 años, el 0.5% restante es mayor o igual a 39.45 años.
capítulo
3
Medidas de Variabilidad
Permiten determinar que tan homogéneos o heterogéneos son los valores de una muestra. En la Fig 3.1, se muestran dos distribuciones normales centradas en la misma media, la distribución 1 es más homogénea que la distribución 2, es decir, la dis-tribución 1 presenta menor variabilidad en sus valores respecto del promedio Figura 3.1 Distribuciones normales de distinta variabilidad
1
2
Por ejemplo, se tienen los valores de dos muestras, con igual promedio (no necesariamente se requiere que las muestras a comparar tengan el mismo promedio, es más fácil para explicar el concepto). Muestra 1: 19, 19.5, 20, 20.5, 21 Muestra 2: 10, 15, 20, 25, 30
kg kg
La muestra 2 es más heterogénea que la muestra 1 respecto de este promedio, por ello, se puede afirmar que la muestra 2 tiene mayor dispersión.
56 «
Medidas de Variabilidad
3.1 Varianza 3.1.1. Datos simples Sean x1 , x2 , . . . , xn los n valores observados de una variable cuantitativa, la varianza se calcula por:
la varianza se expresa en unidades cuadráticas de la unidad de medida de la variable. La varianza se puede calcular por la siguiente expresión equivalente:
Demostración:
Ejemplo. Sea X : Número de sillas por sala x1 = 25 , x2 =34, x3 = 35 , x4 = 30, x5 = 21
o bien
(sillas)2 Para el ejemplo de las dos muestras anteriores se tiene: Muestra 1: 19, 19.5, 20, 20.5, 21 kg Muestra 2: 10, 15, 20, 25, 30 kg
kg kg
V(Muestra 1)=0.625 Kg2 V(Muestra 2)=62,5 Kg2
Capítulo 3
» 57
como la varianza de la muestra 1 es menor que la varianza de la muestra 2, se puede afirmar que los valores de la muestra 1 son más homogéneos. Ejemplo. Se cuenta con el peso en gramos de 220 bolsas de poliuretano, Tabla 3.1, se puede obtener un valor aproximado del valor de la varianza: Tabla 3.1 Peso en gramos
Peso (gramos) 125 - 130 130 - 135 135 - 140 140 - 145 145 - 150 150 - 155 TOTAL
yi 127.5 132.5 137.5 142.5 147.5 152.5
fi 25 45 60 50 30 10 220
yi fi 3187.5 5962.5 8250.0 7125.0 4425.0 1525.0 30475
y2i fi 406406.25 790031.25 1134375.0 1015312.5 652687.50 232562.50 4231375.0
2
se debe tener en cuenta que la media se calculó en forma aproximada, por tanto, esta varianza también es una aproximación, el error de calcular así la varianza será más grande, mientras menor sea el número de observaciones y mayor sea la amplitud del intervalo. La dificultad que presenta este estadístico de variabilidad, es que se expresa en el cuadrado de la unidad de medida de la variable, lo que dificulta la comparación de esta medida respecto del promedio de la muestra. 3.1.1 Propiedades de la varianza Sean x e y variables cuantitativas de la misma unidad de medida, sean a y b constantes
donde Cov(x,y) es la covarianza (varianza conjunta) entre x e y, que se estudiará en el punto 3.2. 6.- Dada una población que se divide en dos (grupos) de tamaños n1 y n2, con medias varianzas S21 y S22 respectivamente. La varianza total de la población está dada por:
y
,
58 «
Medidas de Variabilidad
7.- Dada una población que se divide en k muestras de tamaños n1, n2,…,nk con medias , con varianzas S21 , S22 ,…,S2k , la Varianza Total de la población está dada por
,
,…,
el término de la izquierda de la varianza total es conocido como la Varianza Dentro de los grupos o intravarianza:
el término de la derecha de la varianza total es conocido como la Varianza Entre los grupos o intervarianza:
Demostraciones:
Ejemplo. Se tiene la información de la longitud en centímetros de las bielas de un tipo de motor, producidas por tres máquinas en una misma fábrica, separadas en tres grupos de acuerdo, Tabla 3.2.
Capítulo 3
Tabla 3.2 Longitud en centímetros de las bielas
Máquina 1 23.04 23.05 23.01 23.02 23.01 23.03 23.02
Máquina 2 23.02 23.01 23.01 23.03 23.04 23.03 23.02 23.01 23.00
» 59
Máquina 3 23.01 23.03 23.02 23.01 23.02 23.04 23.01 23.02 23.03 23.02
Calcular la longitud media de las bielas de cada máquina y la varianza de estas longitudes para cada máquina. A partir de estos resultados calcular la varianza total. Solución. El tamaño de los lotes son n1 = 7, n2 = 9, n3 =10. Las medias de las longitudes de las bielas de cada máquina están dadas por:
las varianzas por:
la media general está dada por:
la Varianza Total está dada por: VT = VD + VE = 0.00014232 + 8.12388·10-6 = 0.00015044 (cm)2
60 «
Medidas de Variabilidad
Que la varianza entre sea próxima a cero es un resultado interesante, ya que asegura que las longitudes de las bielas producidas por las tres máquinas son bastante homogéneas y próximas al valor nominal
3.2. Covarianza El análisis de la covarianza es una técnica estadística, que permite comparar los resultados obtenidos en diferentes grupos de una variable cuantitativa, pero, corrigiendo las posibles diferencias existentes entre los grupos en otras variables que pudieran afectar también al resultado (covariantes). En el estudio conjunto de dos variables, se necesita saber si existe algún tipo de relación entre ellas. Sean x e y dos variables cuantitativas, la varianza conjunta entre ambas variables está definida por:
La covarianza se expresa en el producto de las unidades de cada variable que la componen. Desarrollando la expresión anterior se tiene que: Demostración:
Observaciones: 1. Si Cov(x,y) > O se dice que existe dependencia directa (positiva), es decir, si dos variables x e y cuantitativas aumentan conjuntamente, o disminuyen conjuntamente, la covarianza entre ellas es positiva. 2. Si Cov(x,y) < O se dice que existe una dependencia inversa o negativa, es decir, si una de ellas aumenta y la otra disminuye, o vice versa, la covarianza entre ellas es negativa. 3. Si las variables son independientes entonces Cov(x,y) = O.
Capítulo 3
» 61
Ejemplo. Se tiene la información respecto de la edad en años y el peso en kilos de 10 niños de acuerdo a la siguiente tabla: Edad (años) Peso (kilos)
2 2.5 13.5 15
3 4.7 5.2 5.9 6.4 7.2 7.9 8.7 16.1 19.4 21.8 25.4 27.5 29.3 30.1 31.1
Ejemplo. Se tiene la información respecto de las exportaciones en toneladas y el porcentaje de desocupados de 10 semanas de acuerdo a la siguiente tabla: Exportaciones (ton) 10 Desocupados (%) 60
3.2.1. Propiedades de la covarianza
Demostraciones:
12 51
15 48
17 36
20 28
24 24
32 21
40 18
48 15
52 12
62 «
Medidas de Variabilidad
Ejercicio. Demostrar la propiedad 3
Ejercicio. Demostrar la propiedad 5
3.3 Desviación Estándar Sea x una variable cuantitativa de varianza V(x), la desviación estándar se define por
este estadístico de variabilidad presenta la ventaja que se expresa en la misma unidad de medida de la variable, por ejemplo, si:
3.4 Coeficiente de Variación Es un estadístico adimensional, que se utiliza para comparar la variabilidad de varias variables medidas en distintas unidades de medida y se expresa en porcentaje.
De entre varias variables, aquella variable que presente menor coeficiente de variación tiene menor variabilidad Ejemplo. En la Tabla 3.3, se muestran los valores obtenidos para cuatro variables
Capítulo 3
Tabla 3.3 Valores de cuatro variables
Ingresos (M$) 120 140 150 160 130 145 13.0437 M$ 140.8333 M$ 9.2618%
S(x) M(x) CV(x)
IPC (%) -0.1 0 0.1 0.2
Interés (%) 0.2 0.4 0.6 0.5 0.1
0.1118033 % 0.1854723 % 0.05 % 0.36 % 233.6% 51.52%
» 63
Temperatura (°C) 24 23 22 25 1.1180339 °C 23.5 °C 7.757%
Como la variable temperatura tiene el menor coeficiente de variación 7.757%, es la variable que presenta el menor porcentaje de variabilidad de entre las cuatro, seguida de los ingresos.
3.5 Recorrido Intercuartílico Cuando existen valores extremos en una muestra y no es posible calcular su promedio y naturalmente tampoco su varianza, se puede a partir de los valores de los cuartiles definir el Recorrido Intercuartílico por:
este estadístico se expresa en la misma unidad de medida de la variable. Dados dos grupos de mediciones de una misma variable, el grupo de datos que presente menor recorrido intercuartílico tendrá menor variabilidad. Se tiene la información de la resistencia de 200 probetas de hormigón y la resistencia de 100 probetas de asfalto, de acuerdo a las siguientes figuras: 25%
Hormigón
25%
C1=45 kg/cm2
25%
25%
C3=55 kg/cm2 =55 – 45 = 10 kg/cm2
25%
Asfalto
25%
C1=60 kg/cm2
25%
25%
C3=100 kg/cm2 =100 – 60 = 40 kg/cm2
64 «
Medidas de Variabilidad
como el RI del hormigón es menor que el RI del asfalto, se puede afirmar que la resistencia del hormigón es más homogénea que la del asfalto. Ello se puede explicar, dado que el 50% de las resistencia del hormigón se distribuye en un rango de 10 kg/cm2, en cambio el 50% de las resistencias del asfalto se distribuyen en un rango mayor de 40 kg/cm2.
3.6. Puntaje Típico Dada una variable cuantitativa, el puntaje típico está definido por:
este estadístico adimensional permite realizar comparaciones relativas a dos o más variables que se diferencian en la media y la desviación estándar. Las variables pueden estar medidas en distintas unidades, este estadístico las deja en la misma escala de medida, y por tanto comparables directamente. Al comparar valores estandarizados de dos o más distribuciones, el puntaje típico menor de esas distribuciones tendrá una menor posición relativa respecto de otra de puntaje típico de mayor valor. Propiedades: a) M(z)=0 b) V(z)=1 Demostración: a)
b)
Ejemplo. Una empresa tiene dos plantas A y B de fabricación de pernos de una determinada longitud. Los promedios de unidades fabricadas y sus desviaciones estándar por hora de cada planta son:
En un día t, la producción de cada planta fue: xA=1253 (unidades por hora) y xB=1510 (unidades por hora) ¿cuál de éstas plantas ese día t presentó un rendimiento relativo mayor?
dado que el puntaje típico de la Planta A es mayor que el puntaje típico de la Planta B, se puede afirmar que la Planta A ese día t muestra una producción relativa mayor, respecto de las capacidades instaladas.
capítulo
4
Probabilidades
4.1. Experimento Un experimento es toda acción bien definida que produce un resultado único y bien preciso, denominado resultado. Ejemplos de experimentos. E1: Lanzar un dado de seis caras E2: Lanzar tres monedas de dos caras E3: Extraer una carta de una baraja de 52 naipes
4.2. Espacio Muestral (Ω) El espacio muestral Ω es el conjunto de todos los resultados posibles de un experimento. Para los experimentos E1, E2 y E3, los espacios muestrales correspondientes son:
4.3. Suceso Se denomina suceso a cualquier subconjunto del espacio muestral. A es un suceso de Ω
66 «
Probabilidades
Probabilidades
» 66
Para los experimentos dados.
se denotará #A para indicar el número de elementos del suceso A
Definición. Se designará por i a un punto del espacio muestral o a la representación de un posible resultado del experimento, Se dirá que: a) b) c) d) e) f)
El suceso A ocurre A c El suceso A no ocurre A (Ac complemento de A) . Se dice que Ω es un suceso seguro, siempre ocurre . El suceso es el suceso imposible, nunca ocurre c Ocurre el suceso Ac el suceso A no ocurre A y A se llaman complementarios si y sólo si U
i) A Ac = ii) A U Ac = Ω g) Sea i) ii)
una familia de subconjuntos de Ω, entonces ocurre al menos ocurre un Ai ocurre ocurren todos los Ai , i I
4.4. Definición de Probabilidad Clásica En espacios muestrales finitos es común el supuesto que los resultados son igualmente probables, pero, se debe tener claro que este supuesto no debe darse como verdadero, sino que debe justificarse adecuadamente, ya que existen situaciones experimentales en las cuales suponerlo sería un error. Sea A un suceso definido en Ω, bajo el supuesto de igual posibilidad de ocurrencia de los elementos del espacio muestral, se define:
Capítulo 4
» 67
Para los ejemplos:
Ejemplos. 1.- Se tiene un lote de 500 computadores de los cuales dos no funcionan, si se extrae de este lote un computador al azar, ¿cuál es la probabilidad que funcione? ¿Qué no funcione? Sea A el suceso el computador funciona, luego P(A)=498/500 y P(Ac)=2/500 2.- Se lanzan tres monedas normales, ¿cuál es la probabilidad que: a) ¿salgan tres caras? b) ¿salga al menos una cara? c) ¿salga a lo más una cara? d) ¿salgan tres sellos? e) ¿salga sólo dos caras? Soluciones. a) 1/8 b) 7/8 c) 3/8 d) 1/8 e) 3/8 Ejercicios. 1.- Exprese en notación de conjuntos los siguientes enunciados: a) b) c) d) e) f) g)
No ocurre el suceso A, pero si ocurre el B Ocurre el suceso A, pero no ocurre el B No ocurre el suceso A y no ocurre el suceso B De los sucesos A, B y C, ocurre a lo más uno De los sucesos A, B y C, ocurre a lo menos uno De los sucesos A, B y C, ocurren sólo dos de ellos De los sucesos A, B y C, ocurre sólo A
2.- Se lanzan dos dados no cargados, determine la probabilidad que la suma de las pintas de las caras superiores sea: a) b) c) d)
igual a 2 igual a 12 sea menor a 5 sea un número par
68 «
e) f) g)
Probabilidades
sea un número primo sea divisible por tres sea mayor a 9
3.- Un lote de pistones para un motor consta de 15 buenos, 3 con pequeños defectos y 1 inservible. Si de este lote, se extrae un pistón al azar, ¿cuál es la probabilidad que : a) b) c)
sea inservible? que no tenga defecto? que tenga un pequeño defecto?
4.- De un lote de lavadoras se sabe que 12 no tienen defectos, 3 tienen pequeñas fallas pero funcionan y 2 no funcionan. Si de este lote se extraen dos lavadoras al azar y sin sustitución, ¿cuál es la probabilidad que : a) b) c) d) e) f)
ambas no funcionen? que ambas no tengan defectos? que ambas tengas pequeñas fallas? que una tenga pequeñas fallas? que a lo más una no tenga defectos? que a lo menos una no tenga defectos?
5.- De un lote de motores se sabe que 10 no tienen defectos, 4 tienen pequeñas fallas pero funcionan y 2 no funcionan. Si de este lote se extraen dos motores al azar y con sustitución, ¿cuál es la probabilidad que : a) b) c) d) e) f)
ambas no funcionen? que ambas no tengan defectos? que ambas tengas pequeñas fallas? que una tenga pequeñas fallas? que a lo más una no tenga defectos? que a lo menos una no tenga defectos?
6.- Si del mismo lote anterior de 16 artículos se escogen dos artículos, sin sustitución. Encuentre la probabilidad que: a) b) c) d)
máximo uno de ellos sea bueno ambos sean buenos ambos tengan defectos ambos tengan defectos graves
Capítulo 4
Soluciones. 1. a) b) c) d) e) f) g)
Nota. existen varias otras notaciones de conjuntos para expresar lo mismo 2. a) 1/36 b) 1/36 c) 6/36 d) 16/32 e) 15/36 f) 12/36 g) 6/36 3. a) 1/19 b) 15/19 c) 3/19 4. a) 2/272 b) 132/272 c) 6/272 d) 72/272 e) 120/272 f) 80/272 5. a) 4/256 b) 100/256 c) 16/256 d) 80/256 e) 220/256 f) 156/256 6. a) 120/240 b) 90/240 c) 30/240 d) 2/240 Definición. Dos sucesos A y B son mutuamente excluyentes si
A
B
4.5. Axiomas de probabilidades 0 ≤ P(A) ≤ 1 P(Ω)=1 Si A B= entonces P(A UB)=P(A)+P(B) Si A1 ,A2,...,An son sucesos mutuamente excluyentes U
U
A1 A2 A3 A4
A5 Si A1 ,A2,...,An son sucesos excluyentes P(UAi) = 1 - P( Aci) donde Ac : complemento de A
» 69
70 «
Probabilidades
4.6. Teoremas de probabilidades T1 P( ) = 0 T2 Sean A y B sucesos cualquiera entonces la probabilidad que ocurra al menos uno de ellos es P(AUB) = P(A) + P(B) - P(A B) U
T3 P(A)=1- P(Ac) T4 Sean A, B y C tres sucesos cualquiera entonces la probabilidad que ocurra al menos uno de ellos es P(AUBUC) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A B C) U U
U
U
U
T5 Sea A y B sucesos tales que entonces P(A) ≤ P(B) T6 Sean A1, A2 , …, An sucesos cualquiera, la probabilidad que ocurra al menos uno de ellos está dada por
Demostración de T2 : Ω A
B U
A-B
B A
B-A
U
recuerde que A – B = A Bc Se puede escribir AUB como una unión disjunta por: luego
Demostración de T3:
Ω Ac
A
Capítulo 4
» 71
Ω = AUAc unión disjunta, luego P(Ω)=P(AUAc ) P(Ω) = P(A) + P(Ac ) 1 = P(A) + P(Ac) c por tanto, P(A) = 1 - P(A ) o también P(Ac ) = 1 - P(A) Demostración T5: Ω U
Ac B
A
U
c B = A U (A B) es una unión disjunta, luego P(B) = P(A) + P(Ac B) c como P(A B) ≥ 0 , por tanto P(A) ≤ P(B)
U
U
4.7. Probabilidad Condicional La probabilidad que ocurra un suceso A dado que ocurrió el suceso B está dada por:
Análogamente se define
Ejemplo. Se realiza una compra de 10.000 anillos para pistones, de los cuales 200 presentan defectos. De los 6.000 anillos importados, 60 de ellos presentan defectos. Si se elige un anillo al azar y resulta defectuoso, ¿cuál es la probabilidad que sea de procedencia nacional? Con defectos Sin defectos Total
Nacionales 140 3860 4.000
Importados 60 5940 6.000
Total 200 9.800 10.000
72 «
Probabilidades
Si se trabaja con el espacio reducido, es decir, sabiendo que es defectuoso, el problema se reduce a:
Con defectos
Nacionales 140
Importados 60
Total 200
4.7.1. Propiedades 0 ≤ P(A / B) ≤ 1 P(Ω / A ) = 1 P(A / Ω) = P(A) P(B1UB2U ··· UBk / A) = P(B1 / A)+ P(B2 / A)+· · ·+ P(Bk / A) si Bi Bj = Si entonces P(A / B) = 1 Si A B = entonces P(A / B) = 0 P(A / A) = 1 Sean A y B sucesos definidos en un espacio muestral Ω entonces U
U
P1 P2 P3 P4 P5 P6 P7 P8
P(A / B ) + P(Ac / B ) = 1 Demostraciones. P2
P(A / Ω) =
P3
P(A / Ω) =
P5
Si entonces P(A / B) =
Ejercicio. Realizar las restantes demostraciones
4.8. Teorema de multiplicación Sean A y B dos sucesos cualesquiera y a partir de las definiciones de probabilidad condicional se tiene que: y pero, sólo una de estas definiciones se deberá utilizar, dependiendo de la información que se tenga.
Capítulo 4
» 73
Ejemplos. 1.- Se extraen dos naipes de una baraja de 52 cartas sin reposición. ¿Cuál es la probabilidad que ambos sean as?. Probabilidad con condición.
2.- Se extraen dos naipes de una baraja de 52 cartas con reposición. ¿Cuál es la probabilidad que ambos sean as? Probabilidad sin condición.
Definición. Sean A, B y C tres sucesos entonces, la probabilidad conjunta está dada por las siguientes expresiones, pero, sólo una de ellas es aplicable dependiendo de la información con que se cuente.
Esta definición se puede extender a más sucesos, naturalmente, las combinaciones aumentarán. Ejemplos. 1.- Se juega una cartilla de Loto. ¿Cuál es la probabilidad ganar? En el Loto se debe apostar a seis números de un total de 39, numerados correlativamente, se gana si salen elegidos los seis números apostados. Sea A1 acertar al primero,..., A6 acertar al sexto
el número 6! indica todas las permutaciones posibles en que pueden aparecer los seis números que el jugador apostó.
74 «
Probabilidades
También, se puede resolver calculando todas las combinaciones posibles que existen de elegir seis números de un total de treinta y nueve, de las cuales sólo una es la correcta, la probabilidad de ganar es
2.- Se juega una cartilla de Kino. ¿Cuál es la probabilidad de ganar? En el Kino se puede apostar a catorce números de un total de 25, numerados correlativamente, se gana si salen elegidos los catorce números apostados, es decir.
el número 14! indica todas las permutaciones posibles en que pueden aparecer los catorce números que el jugador apostó. También, se puede resolver calculando todas las combinaciones posibles que existen de elegir catorce números de un total de veinticinco, de las cuales sólo una es la correcta, la probabilidad de ganar es
4.9. Sucesos Independientes Definición. Dos sucesos A y B son independientes si :
o bien,
y
Definición. Tres sucesos son independientes si todos los pares son independientes y el trío es independiente, es decir:
Capítulo 4
» 75
Esta definición se puede generalizar, sean A1, A2 ,…,An una familia de sucesos, se dice que esta familia de sucesos son independientes si todos los pares son independientes, si todos los tríos son independientes, y si la n-upla es independiente
en general, se deben cumplir simultáneamente
condiciones para que se verifique la independencia. Teorema Sean A y B sucesos independientes entonces los sucesos a) A y Bc b) Ac y B c) Ac y Bc también son independientes. Demostración a)
pero como A y B son sucesos independiente como,
por tanto, los sucesos A y Bc son independientes
luego , se tiene
76 «
Probabilidades
Demostración c)
por tanto, los sucesos Ac y Bc son independientes Ejercicio.Demostrar b Ejemplo. Se tiene un circuito eléctrico con seis interruptores como se muestra en la Fig 4.1, en que cada interruptor es independiente de cada uno de los otros. Si la probabilidad de funcionar correctamente de cada interruptor es 0.99, ¿cuál es la probabilidad que el circuito funcione? Fig 4.1 Circuito combinado en serie y paralelo
Q V P
R W S
Para que el circuito funcione deben funcionar los interruptores P y (Q o R o S) y (V o W)
Capítulo 4
» 77
Ejercicio. Se tiene un circuito eléctrico con nueve interruptores como se muestra en la Fig 4.2, en que cada interruptor es independiente de cada uno de los otros. Si la probabilidad de fallar de cada interruptor es 0.05, ¿cuál es la probabilidad que el circuito funcione? Fig 4.2 Circuito en serie y paralelo
Q
V
R
W
S
Y
T
Z
P
4.10. Teorema de Probabilidad Total Sea A un suceso y sea B1 , B2 ,..., Bn una partición de Ω, es decir, a)
b)
c)
B4
B1
B2 B3
A
B5 B6
Bn
El suceso A se puede escribir como la unión disjunta de la siguiente manera:
luego
78 «
Probabilidades
Ejemplo. Por la información de la producción diaria obtenida durante tres años, se sabe que de todas las piezas fabricadas en cuatro máquinas, las tasas de defectuosos son 1%, 0.85%, 1.15% y 0.95% respectivamente. Si se elige una pieza de al azar, ¿cuál es la probabilidad que sea defectuosa?
J
L
K
M
D
El conjunto de piezas defectuosas D, se pueden escribir como una unión disjunta por:
es decir, los defectos se pueden dividir como los defectos producidos por la máquina J más los defectos producidos por la máquina K más los de L más los de M, luego
por tanto, existe un 0.9875% de probabilidad que sea defectuosa. 4.11. Teorema de Bayes Sea A un suceso y B1 , B2 ,..., Bk una partición de Ω B4
B1
B2 B3
A
B5 B6
Bn
Capítulo 4
» 79
En ejemplo de las cuatro máquinas anterior. Si se sabe que la pieza extraída es defectuosa, ¿cuál es la probabilidad que haya sido fabricada por la máquina J?
Ejemplo. Una empresa produce pernos en tres plantas A, B y C. Del total de la producción, la planta A produce un 35%, la B un 40% y la C un 25%. Por la información registrada durante todos los días durante dos años, se sabe que la probabilidad que un perno producido en la planta A sea defectuoso es de un 0.15%, en B de un 0.27%, y en C de un 0.12%. Si de los pernos producidos se elige uno de ellos al azar ¿cuál es la probabilidad que sea defectuoso? b) Si el perno elegido es defectuoso, ¿cuál es la probabilidad que lo haya producido en la planta B?
A
B
C
a)
D b)
Ejercicios del capítulo. 1.- Las averías que puede sufrir un automóvil, se pueden clasificar en dos tipos: eléctricas y mecánicas, que son independientes. Una empresa de arriendo de vehículos tiene tres autos de características similares, siendo la tasa de averías eléctricas del dos por mil y mecánicas del 3 por mil en cada uno de ellos. a) ¿cuál es la probabilidad que cierto día no se pueda arrendar ningún auto dado que los tres están averiados? b) ¿cuál es la probabilidad que tenga los tres autos disponibles? c) ¿cuál es la probabilidad que al menos uno pueda ser arrendado?
80 «
Probabilidades
2.- En una alcancía se tienen 4 monedas, tres normales y una con dos sellos. Se extrae una moneda al azar, se lanza y sale sello, ¿cuál es la probabilidad que la moneda extraída sea la de dos sellos? 3.- Una empresa compra microcircuitos eléctricos a tres proveedores A, B y C. La proporción de microcircuitos defectuosos producidos por los proveedores son 0.35%, 0.28% y 0.25% respectivamente. Del total adquirido, al proveedor A se le compra un 35%, al B un 40% y al C un 25%, los cuales se almacenan en una misma bodega independientemente del proveedor. Si se extrae un microcircuito al azar: a) ¿cuál es la probabilidad que sea defectuoso? b) y resulta defectuoso, ¿cuál es la probabilidad de habérselo adquirido al proveedor C? 4.- Una planta, compra motores de lavadoras en grandes cantidades a cuatro proveedores A, B, C y D, en la proporción 2:3:4:5 respectivamente, que son almacenados sin importar su procedencia. Se sabe que la proporción de motores defectuosos que ellos producen son del 0.25, 0.19, 0,21 y 0.15% respectivamente. a) Si se selecciona un motor al azar, cuál es la probabilidad que sea defectuoso? b) Si el motor seleccionado no tiene defecto, cuál es la probabilidad que haya sido comprado al proveedor B? 5.- Una instalación eléctrica consta de tres circuitos independientes C1, C2 y C3, que funcionan en paralelo. La probabilidad que estos circuitos fallen es 0.18%, 0.21% y 0.28% respectivamente. ¿Cuál es la probabilidad que el circuito funcione? 6.- Una industria manufacturera produce envases de plástico y de vidrio. Ambos procesos son independientes. El control de calidad de ésta rechaza el 0.25% de los envases de plástico y el 0.3% de los envases de vidrio por presentar defectos de distinta índole. Si de la línea de producción se selecciona aleatoriamente un envase de plástico y uno de vidrio. Cuál es la probabilidad de extraer: a) sólo uno de ellos defectuoso? b) ninguno de ellos defectuosos? 7- En bodega se tienen 28 TV en perfecto estado, 7 con pequeños defectos y 5 con defectos graves. Se extrae un TV al azar, calcular la probabilidad que: a) tenga un defecto grave? b) no tenga defectos? 8.- En una oficina de contrataciones se tiene dos archivos con personal para reemplazo. En el archivo A están los antecedentes de dos obreros y dos capataces. En el archivo B están los antecedentes de cuatro obreros. a) si se elige un archivo al azar, ¿Cuál es la probabilidad de extraer el expediente de un capataz? b) si se extrae un expediente al azar y resulta ser de un obrero, ¿cuál es la probabilidad que se haya escogido el archivo B?
capítulo
5
Variables Aleatorias
5.1. Variables aleatorias discretas Dado un experimento aleatorio E con su espacio muestral asociado Ω, si se define una función X: Ω ' R tal que a cada i Ω le asigna un y sólo un número real X( i), la función X se denomina variable aleatoria. 5.1.1. Función de cuantía o de probabilidad
Sea X una variable aleatoria discreta, se llama función de cuantía o de probabilidad de la variable aleatoria X, que se designa por f(x)=P(X=x), a una función tal que: A
a) f(x) ≥ 0 x y b)
Ejemplo. Se lanzan dos dados no cargados y se define la variable aleatoria, X : suma de las pintas de las caras superiores El espacio muestral Ω tiene 36 resultados posibles, de acuerdo a la tabla:
D1
1 2 3 4 5 6
1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
D2 3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
82 «
Variables Aleatorias
Variables Aleatorias
» 82
la variable aleatoria tiene recorrido Rec X = {2,3,4,5,6,7,8,9,10,11,12} La función de probabilidad, que se designa por f(x) está dada por:
o bien
o
en la Fig 5.1, se muestra la gráfica de esta función de probabilidad. Con cualquiera de las tres formas equivalentes de la función, se puede probar que f(x) es función de probabilidad, en efecto: f(x) ≥ 0 x A
a) b)
Fig 5.1 Función de probabilidad
0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0
2
3
4
5
6
7
8
9
10
11
12
Capítulo 5
» 83
5.1.2. Función de probabilidad acumulativa
La función de probabilidad acumulativa o función de distribución de una variable aleatoria discreta X se define por:
Propiedades a) b) c) d)
0 ≤ F(x) ≤ 1 F(x) es una función escalonada creciente, con límite superior en 1 F(+∞) = 1 y F(-∞) = 0 P(a< x ≤ b)=F(b) – F(a)
Para el ejemplo de lanzar dos dados, la función de distribución está dada por:
En la Fig 5.2 se muestra la gráfica de la función de probabilidad acumulativa
Fig 5.2 Función de probabilidad acumulativa
1 0,08 0,06 0,04 0,02 0
1
2
3
4
5
6
7
8
9
10
11
12
84 «
Variables Aleatorias
5.1.3. Esperanza
Sea X una variable aleatoria discreta, la esperanza matemática se define por
La esperanza matemática es el promedio aritmético probabilístico de la variable aleatoria. Para el ejemplo de los dos dados
Propiedades 2. 3. 4. 5.
Si X = c , constante, E(X) = c E(c·X) = c·E(X) E(X ± c) = E(X) ± c E(X – E(X)) = 0
6. 7.
si y sólo si las variables X e Y son independientes
5.1.4. Varianza
Sea X una variable aleatoria discreta, la esperanza matemática se define por:
Para el ejemplo de lanzar dos dados se tiene:
la desviación estándar es:
Capítulo 5
» 85
Propiedades
Proposición Si dos variables aleatorias X e Y son independientes entonces la covarianza entre ellas es cero, Cov(X,Y) = 0 Demostración:
como E(X·Y) = E(X)·E(Y)
Observación. Si Cov(X,Y) = O esto no implica que las variables aleatorias X e Y sean independientes. Ejemplo. Se lanzan tres monedas normales, sea X: la variable aleatoria número de caras que aparecen; el recorrido de la variable está dado por:
(C,C,C) (C,C,S) (C,S,C) (C,S,S) (S,C,C) (S,C,S) (S,S,C) (S,S,S)
Rec x= {0,1,2,3} f(x)
R
0
1/8
1
3/8
2
3/8
3
1/8
La función de probabilidad acumulada está dada por
86 «
Variables Aleatorias
se tiene que:
'
5.1.5. Distribución de Bernoulli
Dado un experimento aleatorio que se puede dividir en dos eventos posibles, experimento dicotómico, con resultados E: éxito ó F: fracaso, que ocurren con probabilidades p y q respectivamente, con la restricción que p + q =1, se define la variable aleatoria
Se dice que una variable aleatoria discreta tiene distribución de Bernoulli, si su función de probabilidad está dada por:
Proposiciones Si una variable aleatoria discreta X tiene distribución de Bernoulli, entonces:
Demostraciones: 1. 2.
Ejemplo. Dada un pregunta de selección múltiple con cinco alternativas de las cuales sólo una es correcta. Si se responde la pregunta al azar, se puede elegir la correcta o no, por tanto, es un proceso dicotómico, sea la variable aleatoria
Capítulo 5
» 87
Dado que sólo una de las alternativas es correcta, la probabilidad de acertar la correcta es 1/5. La función de probabilidad está dada por:
con
5.1.6. Distribución Binomial Dado un experimento Bernoulli, el cual se repite n veces en condiciones idénticas, sea X la variable aleatoria “número de éxitos en esos n ensayos”, si se ordenan los éxitos y fracasos de acuerdo al siguiente esquema n resultados independientes
{ x éxitos
{
{
E.E.E.E...E.E.F.F...F.F
(n-x) fracasos
una forma de obtener x éxitos es que se tenga “éxito” en los x primeros ensayos y “fracaso” en los (n-x) ensayos restantes, o cualquiera otra combinación. Como se supone que los resultados son independientes y equiprobables, la probabilidad que ocurran los sucesos en ese orden está dado por: P(E . E . . . E . F . . . F) = P(E) . P(E) . . . P(E) . P(F) . . . P(F) n-x veces
{
{
=p.p...p.q.q...q x veces = px . qn-x
Si en un ensayo existen sólo dos resultados posibles, si los ensayos son independientes y la probabilidad de éxito se mantiene constante para cada ensayo, como se tienen n sobre x permutaciones posibles en los órdenes de tener éxito o fracaso entre los n ensayos, la variable aleatoria que se genera se conoce como distribución binomial, su función de probabilidad dada por:
88 «
Variables Aleatorias
Proposiciones Si una variable aleatoria discreta X tiene distribución de Binomial, entonces:
Demostración:
Ejemplos. 1.- Se tiene una prueba de selección múltiple de 15 preguntas, cada una de ellas con cinco alternativas de las cuales sólo una es correcta. Si una persona responde las preguntas al azar, ¿cuál es la probabilidad que: a) b) c) d) e)
no acierte a ninguna? le acierte a una? le acierte a dos? las acierte todas? le acierte a catorce o menos?
Solución. Se tienen n=15 repeticiones de un experimento tipo Bernoulli, en que cada ensayo tiene una probabilidad constante de acertar de 1/5, la función de probabilidad está dada por:
Capítulo 5
a)
no acierte a ninguna?
b)
le acierte a una?
c)
le acierte a dos?
d)
las acierte todas?
e)
le acierte a catorce o menos?
» 89
2.- Una moneda se lanza 10 veces, ¿cuál es la probabilidad que salga a) b) c)
a lo más una cara? una sea cara? todas sean cara?
Solución. Se tiene n=10 repeticiones de un experimento tipo Bernoulli, en que cada ensayo tiene una probabilidad constante de acertar de 1/2, la función de probabilidad está dada por:
a)
a lo más una cara?
b)
una sea cara?
90 «
c)
Variables Aleatorias
todas sean caras
Observación. La distribución binomial es muy útil para resolver problemas de extracción con reposición, dado que de esa forma se cumple el supuesto de mantener constante la probabilidad de éxito. Ejemplo 3. Una baraja americana tiene 52 naipes, de los cuales 13 son de corazón. Si se extrae una muestra aleatoria de 4 naipes con reposición, ¿cuál es la probabilidad de: a) b) c)
extraer uno de corazón? ninguno de corazón? los cuatro sean de corazón?
Solución. Al extraer los naipes con reposición se mantiene constante la probabilidad de sacar un corazón en 13/52, luego, la función de probabilidad está dada por:
a.
extraer uno de corazón?
b.
ninguno de corazón?
c.
los cuatro sean de corazón?
Capítulo 5
» 91
Ejemplo 4. Hoy en la sala hay 52 alumnos. ¿Cuál es la probabilidad que ninguno esté de cumpleaños? ¿Qué dos estén de cumpleaños?
5.1.7. Distribución Hipergeométrica
Un conjunto de tamaño N está dividido en dos subconjuntos mutuamente excluyentes de tamaños N1 y N2, es decir, N1 + N2 = N, en el cual los N1 elementos poseen una misma característica, por ejemplo, no tener defectos, los N2 restantes no poseen esta característica. Si se toma una muestra aleatoria de tamaño n sin reposición, se sabe que x elementos pueden poseer la característica de interés y que (n-x) no la poseerán, luego:
1.
es el número total de muestras de tamaño n que se pueden extraer del universo de tamaño N.
2.
es el número total de muestras de tamaño x que se pueden extraer de los N1 elementos que poseen la característica de interés.
3.
es el número total de muestras de tamaño (n-x) que se pueden extraer de los N2 elementos que no poseen la característica de interés.
Sea X la variable aleatoria discreta “número de elementos del subconjunto de tamaño N1 en la muestra de tamaño n” Una variable aleatoria discreta tiene distribución hipergeométrica si su función de probabilidad está dada por: , Rec x= {0,1,2,...,x}
N = N1 + N2 N1
N2 x
n-x n
92 «
Variables Aleatorias
Proposición Dada una variable aleatoria con distribución hipergeométrica se tiene que:
Si N es suficientemente grande respecto de n, la varianza de la distribución hiper-geométrica tiende a la varianza de la distribución binomial, es decir, V(X) = n . p . q Ejemplos. 1.- Se tiene un total de 50 golillas de presión de las cuales 15 son defectuosas. Si se extrae una muestra aleatoria de 5 golillas, ¿cuál es la probabilidad que la muestra contenga: a) b)
Ninguna golilla defectuosa? Dos golillas defectuosas?
La función de probabilidad está dada por:
donde indica que se pueden escoger 2.118.760 muestras de tamaño 5 del total de 50 golillas. N = N1 + N2 =50 N1 =15
N2 =35 x
5-x n=5
a)
b)
Capítulo 5
» 93
2.- Se recibe un embarque de 80 máquinas de lavar automáticas. Para aceptar el embarque, se eligen 10 máquinas al azar y si una o menos son defectuosas el lote se acepta. Si se encuentran dos o más defectuosas se deben probar todas. Si en el lote hay 4 máquinas defectuosas, ¿cuál es la probabilidad que se deba inspeccionar todo el embarque? La función de probabilidad está dada por:
N = N1 + N2 =80 N1 =4
N2 =76 x
10 - x n=10
como ESDECIR HAY˹12 maneras de escoger muestras de tamaño 10 de un total de 80 máquinas. La probabilidad que se deba inspeccionar todo el embarque es:
3.- Se tiene una remesa de 1000 tiros de dinamita de los cuales 15 son defectuosos. Si se extrae una muestra aleatoria de 12 tiros, los cuales se probarán haciéndolos explotar. ¿Cuál es la probabilidad que en la muestra a) b)
los 12 tiros hayan explotado? Un tiro no explotó?
La función de probabilidad de los defectuosos está dada por:
94 «
Variables Aleatorias
N1 =15
N = N1 + N2 =1000 N2 =985 x
12 - x n=12
donde
1.953.840.414.726.664.053.684.327.000
es el número de muestras distintas de tamaño 12 que se pueden extraer, luego a) que los 12 tiros hayan explotado, es lo mismo que ninguno haya sido defectuoso
b) que un tiro no explotó, es lo mismo que se haya extraído uno defectuoso
Ejercicios. 1.- La probabilidad que un polín producido en una fábrica sea defectuoso es igual a 0.015. Si se seleccionan al azar 12 polines de este proceso, ¿cuál es la probabilidad que en la muestra haya: a) b) c)
dos de ellos defectuosos? a lo menos un defectuoso? todos sean defectuosos?
2.- La probabilidad de generar un computador defectuoso en una línea de ensamble es de un 0.12%, si se extrae una muestra de 50 computadores, ¿cuál es la probabilidad que la muestra contenga: a) b) c)
un defectuoso? todos sean buenos? tres sean defectuosos?
Capítulo 5
» 95
5.1.8. Distribución Multinomial
Dadas n repeticiones idénticas de un experimento que tiene k resultados posibles A1, A2,…, An mutuamente excluyentes, con probabilidades, pi = P(Ai), i=1,2,…,k, con Si estas probabilidades pi permanecen constantes durante las n repeticiones independientes, sea X la variable aleatoria número de veces que ocurre el resultado Ai dentro de los n ensayos, con i=1,2,…,k, con , luego, la función de probabilidad está dada por:
Ejemplo. Se cuenta con la información del diámetro de una gran cantidad de golillas, clasificadas en A: 10 mm, B: 12 mm, C: 14 mm y D: 17 mm de diámetro. Se sabe que la proporción entre ellas en el lote es 3 : 5 : 4 : 1 respectivamente. Se extraen al azar 10 de estas golillas. Calcular la probabilidad que: a) b)
3 sean de tipo A, 2 de B, 4 de C y 1 de D 6 sean de tipo A y 4 de tipo D
Sea
X1 : número de golillas tipo A X2 : número de golillas tipo B X3 : número de golillas tipo C y X4 : número de golillas tipo D
a)
P(X1=3, X2=2, X3=4, X4=1)
b)
P(X1=6, X2=0, X3=0, X4=4)
5.1.9. Distribución de Poisson Una variable aleatoria discreta X que representa al número de eventos aleatorios independientes que ocurren en un intervalo de tiempo, tiene distribución de probabilidad de Poisson, si su función de probabilidad está dada por la expresión:
donde es el número de eventos promedio que ocurren durante dicho intervalo de tiempo t.
96 «
Variables Aleatorias
Proposición Dada una variable aleatoria con distribución de Poisson de parámetro , entonces 1.- E(X) = 2.- V(X) = Demostración : 1.- E(X) =
como
en la expresión anterior, sea w = x – 1, luego
2.- Para realizar ésta demostración se usará la expresión X2 = X(X-1) + X
sea w = x – 2, luego
por tanto,
Capítulo 5
» 97
Ejemplos. 1.- Se sabe que el número de llamadas que llega a una central telefónica tiene una frecuencia de 120 llamadas/hora. Cuál es la probabilidad que 10 llamadas ingresen en un lapso de 4 minutos? Qué 9 llamadas ingresen en 5 minutos? =120 llamadas por hora 2 llamadas por minuto 8 llamadas por 4 minutos
=120 llamadas por hora
2 llamadas por minuto
10 llamadas por 5 minutos
2.- De acuerdo a la información registrada durante varios años, se sabe que el número de accidentes con causa de muerte tiene una frecuencia de 30 casos al mes. Calcule la probabilidad que haya un muerto en un lapso de 2 días. Calcule la probabilidad que haya dos muertos en un lapso de 5 días. Para un lapso de 2 días
casos cada dos días, la función de probabilidad está dada por
luego para un lapso de 5 días
la función de probabilidad está dada por luego
5.2. Variables aleatorias continuas Sea X una variable aleatoria continua, se llama función de densidad o de probabilidad de la variable aleatoria X, que se designa por f(x) = P(X = x), a una función tal que:
2.
f(x) ≥ 0 x A
1.
98 «
Variables Aleatorias
Ejemplo. Sea 1. 2. 3.
Demostrar que f(x) es función de probabilidad Calcular P(1/3 ≤ x ≤ 1/2) P(x = 1/2)
Solución:
Ejercicios. 1.- Sea X una variable aleatoria continua con función de probabilidad dada por f(x) = C(x2 - x3) si -1 ≤ x ≤ 1. a) b)
Determine el valor de la constante C para que sea función de probabilidad Determine y grafique F(x)
2.- Sea X una variable aleatoria continua con función de probabilidad dada por f(x) = C(1- x2) si -1 ≤ x ≤ 1. a) b) c)
Determine el valor de la constante C para que sea función de probabilidad Determine y grafique F(x) Calcular i) P(x ≤ 1/2) ii) P(1/4 ≤ x ≤ 1/3) iii) P(x ≤ 1/2 / 0 ≤ x ≤ 3/4)
5.2.1. Esperanza Sea X una variable aleatoria continua, con recorrido los números reales, se define la esperanza matemática por:
Capítulo 5
» 99
5.2.2. Varianza
Sea X una variable aleatoria continua, con recorrido los números reales, se define la Varianza por: V ( x) E( x 2 )
E( x)
2
donde E(x 2 )
x 2i P( X x i ) dx
Ejercicio. Determinar la esperanza y la varianza de la variable aleatoria cuya fun-ción de densidad está dada por:
5.2.3. Distribución Uniforme Una variable aleatoria continua de recorrido [a,b] se distribuye uniforme si su función de probabilidad es:
1
b-a a
b
x
Proposición. Sea x una variable aleatoria continua de recorrido [a,b] con distribución uniforme entonces:
Demostración.
100 «
Variables Aleatorias
luego La función de probabilidad acumulada de una variable aleatoria con distribución uniforme está dada por:
Fig 5.3 Función de probabilidad acumulada
F (x) 1
a
b
x
Ejemplo. Una sustancia química contaminante se distribuye uniformemente en el rango de 10 a 20 partes por millón (ppm). No se considera nociva para la salud si la concentración es menor o igual a 10.5 ppm. ¿Cuál es la probabilidad que no sea nociva? Como la función de probabilidad acumulada entrega el valor del área bajo la cur-va desde menos infinito hasta el punto de interés, reemplazando los valores de a y b se tiene:
Capítulo 5
» 101
5.2.4. Distribución exponencial Sea X una variable aleatoria continua con recorrido los reales positivos, X tiene distribución exponencial si su función de densidad está dada por:
f (x)
x
Se puede verificar que f(x) es función de densidad pues: i) f(x) ≥ 0 , x A
ii)
La función de probabilidad acumulativa está dada por:
f (x) 1
x
Dada una variable aleatoria con distribución exponencial su esperanza y varianza está dada por: i) ii)
102 «
Variables Aleatorias
Demostración: i) ii) luego Ejemplo. El tiempo de espera de las personas en el Sernac para realizar una denuncia tiene una distribución exponencial de parámetro =0.00125 (t en minutos). ¿Qué porcentaje de los denunciantes espera más de 20 minutos para realizar una denuncia en el Sernac? De acuerdo a la información se tiene que la función de probabilidad está dada por:
5.2.5. Distribución t-Student Una variable aleatoria tiene distribución t-Student si su función de probabilidad
está dada por
Si X es una variable aleatoria con distribución N(0,1) y X2 es otra variable aleatoria con distribución X2 chi-cuadrado con (n-1) grados de libertad, entonces, la variable aleatoria
es una variable aleatoria con distribución t-Student con (n-1) grados de libertad Propiedades 1.- La variable t, toma valores de -∞ a +∞ 2.- Si X0, X1, X2,......Xn son independientes identicamente distribuidos N(0,1) entonces:
Capítulo 5
» 103
3.- La distribución t-Student es simétrica con: i.
E(X) = 0 , n > 1
ii. iii.
, n>2 La variable t-Student tiene mayor dispersión que la distribución normal estándar
pero, su varianza tiende a 1 cuando n tiende a infinito. iv. A medida que aumentan los grados de libertad la distribución t-Student tiende a la distribución normal estándar, es decir:
En la Fig 5.4, se puede observar el comportamiento de una variable aleatoria con distribución t-Student de 18 grados de libertad y la gráfica de una N(0,1), ambas curvas prácticamente son idénticas 0,4
Fig 5.4 Distribución N(0,1) y t-Student con 18 gdl
0,2
-4
-2
2
4
En la siguiente Fig 5.5 se puede observar el comportamiento de una variable aleatoria con distribución t-Student de 5 grados de libertad (en línea continua) y la gráfica de una N(0,1), se puede apreciar que la distribución t-Student es más aplanada que la normal. 0,4
Fig 5.5 Distribución N(0,1) y t-Student con 5 gdl
0,3 0,2 0,1
-4
-2
0
2
4
104 «
Variables Aleatorias
5.2.6. Distribución Normal Sea X una variable aleatoria continua con recorrido en los reales, la variable X tiene distribución normal de parámetros µ y 2 si su función de probabilidad es
Derivando esta función de probabilidad respecto de µ e igualándola a cero, se obtiene un punto crítico en µ, que reemplazado en la segunda derivada respecto de µ, se obtiene un máximo. Al hacer la segunda derivada respecto de µ igual a cero, se obtiene que los puntos de inflexión de la curva se encuentran en µ- y en µ+ . En la Fig 5.6 se muestras las áreas bajo la curva correspondiente Fig 5.6 Distribución normal y áreas bajo la curva
0,9973 0,9545 0,6827 µ-3
µ-2
µ-
0
µ+
µ+2
µ+3
Fig 5.7 Distribución normal diferentes medias y varianzas
0
2
4
En la Fig 5.7 se aprecian tres distribuciones normales en un mismo gráfico, una N(0,1), una N(2,1.5) y una N(4,2), de izquierda a derecha respectivamente. A medida que aumenta la varianza la curva presenta mayor dispersión Considerando en la función de probabilidad de la distribución normal µ= 0 y 2 =1 se tiene
esta distribución es conocida como una normal (0,1).
Capítulo 5
» 105
Para cálculos de probabilidades de procesos que se distribuyen normal, se han tabulado los valores de probabilidad acumulada a partir de esta función (x), que previo a su uso se deben estandarizar los valores por:
Ejemplos 1.- En una empresa que fabrica pernos, se sabe que el diámetro exterior se distribuye normal con media µ = 2.1 cm y desviación estándar = 0.2 cm. Si se elige uno un perno al azar, ¿cuál es la probabilidad que su diámetro sea a) menor de 1.8 cm? b) ¿qué mida entre 1.8 y 2.4 cm? c) ¿qué sea mayor de 2.4 cms? a)
1.8
Se busca en la tabla Normal en la columna z, el valor 1.5 y luego en la parte superior se busca el valor 0.00, en la intersección de ambos se lee 0.06681.
b)
1.8
2.4
106 «
Variables Aleatorias
Se busca en la tabla Normal en la columna z, el valor 1.5 y luego en la parte superior se busca el valor 0.00, en la intersección de ambos se lee 0.9332 se utiliza el resultado de a) obteniendo 0.8664. c)
2.4
2.- La velocidad a la que transitan los automovilistas en una carretera se distribuye normal con media µ=90 km/h y desviación estándar =5 km/h. Si se controla un automovilista al azar, ¿cuál es la probabilidad que viaje a una velocidad? a) b) c)
inferior o igual a 100 km/h? entre 85 y 102 km/h incluídas? superior a 98,5 km/h?
a) Se busca en la tabla Normal en la columna z, el valor 2.0 y luego en la parte su perior se busca el valor 0.00, en la intersección de ambos se lee 0.9772. b)
c) Proposición Sea X una variable aleatoria con distribución normal de parámetros µ y está dada por: E = (X) = µ
, la esperanza matemática
2
Capítulo 5
» 107
Demostración:
la integral del segundo término vale 1, ya que es la función de probabilidad de la distribución normal, luego:
sea
luego
por tanto E = (X) = µ 5.2.7. Distribución Chi-cuadrado Una variable aleatoria X tiene una distribución Chi-cuadrado ( ) si su función de probabilidad está dada por:
108 «
Variables Aleatorias
donde es el número de grados de libertad. Fig 5.8 Gráficas de distribuciones para diferentes valores de
f(x) 3 =3 2 =5 1
=7
= 21 = 30
0
20
40
60
x
Proposición Sea x una variable aleatoria con distribución 1) 2)
con grados de libertad, entonces
E(x) = V(x) = 2
Teoremas. 1. Si z ~ N(0,1) entonces z2 ~ 2. Si Z1, Z2, ...,Zn es un conjunto de n variables independientes e idénticamente distribuidas N(0,1),entonces Z= Z21 + Z22 + . . . + Z2n se distribuye con n grados de libertad 3. Si X1, X2, ...,Xn es un conjunto de n variables aleatorias independientes con distribuciones con , 1 , 2,..., n grados de libertad, respectivamente, entonces la variable aleatoria X = X1 + X2 +...+ Xn tiene una distribución con = 1 + 2+...+ n grados de libertad. 4. Si y S2 son la media y la varianza de una muestra aleatoria de tamaño n proveniente de una distribución normal con media µ y varianza 2, entonces i) y S2 son independientes ii) La variable aleatoria (n - 1)S2 /
2
tiene distribución
con (n-1) grados de libertad.
Ejemplo. Sea x una variable aleatoria con 15 grados de libertad, calcular la probabilidad que: a) P(x > 20) b) P(x ≤ 10) c) P(10 ≤ x ≤ 20)
Capítulo 5
Solución: 0.08 0.06 0.04 0.02 0
20
40
x
40
x
40
x
a) P(x > 20) = 1 - P(x ≤ 20) = 1 - 0.828 = 0.172 0.08 0.06 0.04 0.02
0
10
0
10
20
b) P(x ≤ 10) = 0.18026 0.08 0.06 0.04 0.02
c) P(10 ≤ x ≤ 20) = P(x ≤ 20) - P(x ≤ 10) = 0.64774
20
» 109
110 «
Variables Aleatorias
5.2.8. Distribución F Sean X e Y dos variables aleatorias independientes que tienen distribución con libertad, respectivamente, la variable aleatoria:
1
y
2
grados de
que tiene función de densidad,
se denomina distribución F de Snedecor o Snedecor-Fisher con 1 y 2 grados de libertad ( 1 grados de libertad en el numerador y 2 grados de libertad en el denominador). Fig 5.9 Gráfica de la función de densidad de la distribución F 10, 20
1 0.08 0.06 0.04 0.02
Fig 5.10 Gráfica de la función de densidad de la distribución F 100, 100
0
1
2
0
0.4
0.8
3
4
5
2.4 2.0 1.6 1.2 0.8 0.4 1.2 x
1.6
2.0
2.4
Capítulo 5
» 111
5.2.9 Distribución triangular En muchos procesos no siempre es posible que los valores que toma la variable aleatoria tenga una distribución conocida, pero, si se conoce el valor mínimo que tiene la variable, (a), el máximo (c) y el valor que más se repite, valor modal (b). En este caso, es posible construir una función de probabilidad que se ajuste a los datos, conocida como distribución triangular. Ejemplo. Las ventas de un cierto repuesto de motor se distribuye de manera que el mínimo de unidades que se venden al día es 2, el máximo es 10 y el valor que más se repite es 5. Se cuenta con la información de las ventas de 112 días, la distribución de las ventas se muestra en la siguiente figura 70 60 50 40 30 20 10 0
2
3
4
5
6
7
8
9
10
Se procede a definir la función de probabilidad triangular con esta información de las ventas
( 5, 1 ) 4
1 4
1
2 (2,0)
3
4
5
6
7
8
9
10 (10,0)
112 «
Variables Aleatorias
Para construir una distribución de probabilidad entre 2 y 10, se debe cumplir que el área de éste triángulo debe ser 1, como la base es 8 la altura debe ser ¼, Fig. 5.12. las pendientes y ecuaciones de las rectas de los lados del triángulo son:
La función de probabilidad está dada por:
La esperanza está dada por:
Ejercicio. Calcular la varianza En forma genérica la función de probabilidad de una variable aleatoria con distribución que triangular, con valor mínimo a, máximo c, y valor que más se repite b, está dada por:
La unción acumulativa está dada por: F(x) = P( X≤ x )
Capítulo 5
Para el ejemplo de las ventas, la función acumulativa es:
Por ejemplo, cuál es la probabilidad que se vendan a lo más 6 repuestos al día?
también, se puede calcular por:
En forma genérica, la función acumulativa está dada por:
» 113
114 «
Variables Aleatorias
Ejemplo. Sea f una variable aleatoria con distribución F con 1=10 grados de libertad en el numerador y 2=20 grados de libertad en el denominador. Calcular la probabilidad que: a) P(f ≤ 0.5) b) P(f > 3) c) P(2 ≤ f ≤ 3) 1 0.08 0.06 0.04 0.02
0
0
0.5
1
2
3
4
5
0
0.5
1
2
3
4
5
x
a) P(f ≤ 0.5) = 0,12984 1 0.08 0.06 0.04 0.02
0
b) P(f > 3) = 1 - P(f ≤ 3) = 1 – 0.982 = 0.018
x
Capítulo 5
» 115
1 0.08 0.06 0.04 0.02
0
0
0.5
1
2
3
4
5
x
c) P(2 ≤ f ≤ 3) = P(f ≤ 3) – P(f ≤ 2) = 0.982 – 0.910 = 0.072 5.2.10. Momento de una variable aleatoria Los momentos de una variable aleatoria X son los valores esperados de ciertas funciones de X; permiten caracterizar la distribución de probabilidad de la variable aleatoria. También, se conocen como momentos de la distribución de probabilidad de X. Estos momentos, generalmente se definen referidos a cero o al valor esperado de X. Los momentos quedan sujetos a la existencia de las sumas, en caso de variables discretas, o las integrales para las variables continuas. Dada una variable aleatoria discreta X, el k-ésimo momento respecto del cero se define por:
Dada una variable aleatoria continua X, el k-ésimo momento respecto del cero se define por:
Observación. El primer momento respecto de cero de una variable aleatoria es la esperanza matemática de ella. Dada una variable aleatoria discreta X, el k-ésimo momento respecto de la media de X, momento central, está definido por:
116 «
Variables Aleatorias
Dada una variable aleatoria continua X, el k-ésimo momento respecto de la media de X, momento central, está definido por:
Observaciones. a) El momento central cero de una variable aleatoria es 1.
b) El primer momento central es cero. c) El segundo momento central de una variable aleatoria es la varianza
c) El tercer momento central
está directamente relacionado con la asimetría de la distribución de probabilidad de la variable aleatoria X. Pero, la mejor medida para determinar la asimetría es el coeficiente de asimetría definido por:
d) El cuarto momento central
permite medir que tan aguzada o no, es una distribución de probabilidad de una variable aleatoria, denominada curtosis. Pero, habitualmente se usa este cuarto momento estandarizado por:
Capítulo 5
» 117
si C es menor que 3 la distribución se denomina leptocúrtica o aguzada; si C es mayor a 3 se denomina platicúrtica o aplanada; si C es igual a 3, la distribución se denomina mesocúrtica, no es ni aguzada ni aplanada. 5.2.11. Función generadora de momentos en torno al cero Sea X una variable aleatoria discreta, el valor esperado de eXt se denomina función generadora de momentos y se denota por:
Sea X una variable aleatoria continua, el valor esperado de eXt se denomina función generadora de momentos y se denota por:
Observaciones. a) Ésta función sólo depende del parámetro t b) Si t = 0, mX(0) = E(e0) = E(1) = 1 c) Si ésta función existe, es única y determina completamente la distribución de probabilidad de la variable aleatoria X d) Si dos o más variables aleatorias tiene la misma función generadora de momentos entonces tienen la misma distribución de probabilidad e) Si ésta función existe para –a < t < a, existen las derivadas de todos los órdenes para t=0, en otras palabras, existen todos los momentos en torno al cero, así: i)
ii)
118 «
Variables Aleatorias
5.2.12. Función generadora de momentos en torno a µ Sea X una variable aleatoria discreta, la función generadora de momentos central se define por:
Sea X una variable aleatoria continua, la función generadora de momentos central se define por:
a) Ésta función sólo depende del parámetro t b) Si t = O, mX-µ (O) = E(e0) = E(1) = 1 c) Si ésta función existe para –a < t < a, existen las derivadas de todos los órdenes para t=0, en otras palabras, existen todos los momentos en torno a µ, así i)
ii)
Capítulo 5
» 119
Ejemplo. Sea X una variable aleatoria discreta con distribución de Poisson, determine su función generadora de momentos. Solución. La función generadora de momentos respecto del cero está dada por:
se puede verificar que:
Ejercicios. 1.- Probar que el coeficiente de asimetría de la distribución de Poisson es 2.- Probar que la curtosis relativa de la distribución de Poisson es
5.2.13. Funciones generatrices de momento de variables discretas Distribución de Poisson
:
Distribución Binomial
:
120 «
Variables Aleatorias
5.2.14. Algunas funciones generatrices de momento de funciones continuas
Distribución uniforme
:
Distribución normal
:
La varianza de una distribución normal se puede obtener a partir de su generatriz de momento
luego Ejercicios resueltos del capítulo 1.- Se sabe que el número de llamadas que llega a una central telefónica tiene una frecuencia de 120 llamadas/hora. Cuál es la probabilidad que 10 llamadas ingresen en un lapso de 4 minutos? Qué 9 llamadas ingresen en 5 minutos? =120 llamadas por hora =120 llamadas por hora
2 llamadas por minuto 8 llamadas por 4 minutos 2 llamadas por minuto 10 llamadas por 5 minutos
Capítulo 5
» 121
2.- De acuerdo a la información registrada durante varios años, se sabe que el número de accidentes laborales con causa de muerte tiene una frecuencia de 15 casos al mes. Calcule la probabilidad que haya un muerto en un lapso de 3 días. Calcule la probabilidad que haya dos muertos en un lapso de 8 días.
Solución: Para un lapso de 3 días por
luego
casos cada dos días, la función de probabilidad está dada para un lapso de 8 días la función de probabilidad está dada por
luego 3.- Sea a) b) c)
Demostrar que f(x) es función de probabilidad Calcular P(1/4 ≤ x ≤ 1/3) P(x = 1/3)
Solución:
4.- Una sustancia química contaminante se distribuye uniformemente en el rango de 5 a 10 partes por millón (ppm). Se considera nociva para la salud si la concentración es mayor a 6.5 ppm. ¿Cuál es la probabilidad que sea nociva?
122 «
Variables Aleatorias
5.- El tiempo de espera de los clientes en la caja de una tienda para realizar un pago tiene una distribución exponencial de parámetro =0.035 (t en minutos). ¿Qué porcentaje de los clientes deben esperar más de 30 minutos para realizar su pago?
luego
Ejercicios propuestos. 1.- Una empresa contable sabe que el tiempo que le lleva realizar un proceso de auditoría tiene distribución normal, con un tiempo medio de 17.2 días y una desviación estándar de 3.7 días. El gerente promete iniciar un trabajo de auditoría en la empresa dentro de 20 días, qué probabilidad hay que cumpla su promesa? 2.- Una empresa ha determinado que cierto trabajo requiere un tiempo medio de 6.2 semanas para su realización, con una desviación estándar de 1.5 semanas. La empresa firma un contrato con un cliente con el cual se ha convenido que si el trabajo no se termina en siete semanas, el cliente tendrá derecho a cobrar una multa. ¿Cuál es la probabilidad que la empresa tenga que pagar la multa? 3.- El tiempo de respuesta de llamada de socorro al 133 en Santiago es de 4.8 minutos con una desviación estándar de 1.2 minutos. Un vecino se queja que la policía tardó más de siete minutos en llegar a su puerta. ¿Cuál es la probabilidad que ello haya ocurrido así?
capítulo
6
Inferencia
6.1. Introducción Dada una población o universo es necesario conocer los parámetros que la caracterizan, como la media poblacional que se designa por µ; la varianza poblacional que se designa por 2; la proporción poblacional de una característica que se designa por p; o cualquier otro parámetro de interés. Se debe entender por parámetro a la caracterización numérica de una población, que describe parcialmente o en forma completa la función de probabilidad de la característica de interés. Para conocer estos parámetros es necesario realizar un censo de toda la población, de lo contrario, se pueden estimar estos parámetros, a partir de estadísticos calculados a partir de una muestra aleatoria de este universo. Se denomina estadístico o estadígrafo a una función de las variables aleatorias que se miden en una muestra aleatoria. Ejemplos. Sea x1,x2,…,xn una muestra aleatoria proveniente de una población, a partir de estos datos se pueden definir estadísticos, tales como:
124 «
Inferencia
6.2. Distribución muestral de un estadístico Al extraer de una población todas las muestras de un determinado tamaño y calculando en cada una de ellas el parámetro de interés, se obtendrán muchos valores diferentes de ese estadístico muestral, lo que se conoce como la variabilidad natural del muestreo, todos estos valores posibles de un estadístico generan lo que se denomina su distribución muestral. Si se tiene una población de tamaño 1000 y se quiere tomar una muestra aleatoria de tamaño 100, existen por tanto 1000 sobre 100 combinaciones posibles de realizar esta elección
que es el número total de muestras distintas de tamaño 100 que se pueden escoger. Si a cada una de estas muestras se le calcula el estadístico de interés, se tendrán igual número de resultados de este estadístico, con ellos se puede obtener la distribución muestral del mismo. Para explicar este concepto, se considera un universo de tamaño N=5, integrado por los elementos P = {25,26,27,28,29} en kilos. Luego, 27 kilos 2 = 2 kilos y , si se toman muestras de tamaño 3, existen distintas, como se muestra en la siguiente tabla: Muestra 1 2 3 4 5 6 7 8 9 10
Valores en la muestra 25 26 27 25 26 28 25 26 29 25 27 28 25 27 29 25 28 29 26 27 28 26 27 29 26 28 29 27 28 29
muestras
Promedio de la muestra 26,000 26,333 26,667 26,667 27,000 27,333 27,000 27,333 27,667 28,000
Capítulo 6
» 125
la distribución muestral de la media está dada por: Promedio de la muestra 26 26.333 26.667 27 27.333 27.667 28
frecuencia 1 1 2 2 2 1 1
Probabilidad de la media 0.10 0.10 0.20 0.20 0.20 0.10 0.10
se puede verificar que :
6.2.1. Error Muestral Se conoce como error muestral de un estadístico a la diferencia entre el valor calculado de éste y el parámetro de la población, para el ejemplo, se tiene: Promedio de la muestra 26 26.333 26.667 27 27.333 27.667 28
Error muestral -1 -0.667 -0.333 0 0.333 0.667 1
6.2.2. Error típico muestral El error típico de la distribución muestral se define por:
126 «
Inferencia
y mide la variación de las medias muestrales respecto a la media general. Para el ejemplo, el error típico muestral es 0.3333 kg. 6.2.3. Distribución muestral de la media 6.2.3.1. Teorema central del límite Sean x1, x2 ,..., xn una muestra aleatoria de tamaño n, proveniente de una población con distribución de probabilidad no especificada, que tiene media µ y varianza finita 2. El promedio muestral
tiene una distribución con media µ y varianza finita En efecto:
estandarizando la variable aleatoria
por:
ésta variable estandarizada z tiende a una distribución normal cuando n es grande, sin importar cual sea la distribución de probabilidad a partir de la cual se obtuvo la muestra. Ejemplo. Suponga que el número de bujes que produce una máquina diariamente es una variable aleatoria con distribución no especificada. Si se observa la producción en forma aleatoria durante 64 horas y se conoce que la desviación estándar del número de bujes que se produce por hora es = 16. Determine la probabilidad que la media se encuentre a no más de dos unidades del valor verdadero de la producción por día.
Capítulo 6
6.2.4. Distribución muestral de (n-1)S2*/
» 127
2
Si S2* es la varianza de una muestra aleatoria de tamaño n tomada de una población normal que tiene varianza 2, entonces el estadístico
tiene distribución
2
(chi-cuadrado) con = n -1 grados de libertad, donde
6.2.5. Distribución muestral de p Sea X una variable aleatoria con distribución Bernoulli de parámetro p. Como E(X) = p y V(X) = p·q, si se elige una muestra aleatoria x1,x2,…,xn y se estima el parámetro p por
se tiene que : por lo tanto
y N(0,1) para n suficientemente grande
6.3. Inferencia Estadística La inferencia estadística permite tomar una decisión respecto de una o más poblaciones usando como referencia los datos proporcionados por una o varias muestras tomadas de ellas. Se requiere establecer métodos que permitan transferir los resultados obtenidos de estas muestras a la población con el mínimo de error y la máxima eficiencia. La inferencia estadística se puede realizar mediante dos formas, una se conoce como estimación de parámetros y otra como pruebas de hipótesis. 6.3.1. Estimación de Parámetros Para estimar parámetros de una población, es necesario obtener una muestra aleatoria de tamaño
128 «
Inferencia
n, con los datos de ella, calcular los estadísticos que permitan estimar los parámetros de interés. La estimación de los parámetros se puede realizar a través de estimación puntual, o bien, a través del método de construcción de intervalos de confianza. 6.3.1.1. Estimación Puntual Dada una muestra aleatoria x1,x2,…,xn elegida de una población, se deben calcular estadísticos que permitan realizar la estimación, pero, se requiere que estos estimadores puntuales posean las siguientes propiedades : 6.3.1.1.1. Estimador Insesgado Un estimador de un parámetro poblacional es insesgado, sin sesgo, si su esperanza matemática es igual al parámetro de la población. Sea
el parámetro poblacional a estimar y sea
el estimador puntual de la muestra, cuando: es un estimador insesgado de
Ejemplo. Considerando la función de probabilidad
de la distribución de Poisson de parámetro mador insesgado de
. Probar que el estimador puntual
es un esti-
Dem.
6.3.1.1.2. Estimador Consistente Un estimador puntual de un parámetro es consistente mientras más información se tiene en la muestra para calcularlo, es decir, si el tamaño de la muestra tiende a infinito, se tendrá que:
para el ejemplo de la distribución de Poisson, se tiene :
Capítulo 6
» 129
Proposición Si x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con media µ y varianza 2, entonces cualquier xi de la muestra es un estimador insesgado de µ, puesto que E(xi) = µ i = 1,2,...,n A
Proposición Sea C un estadístico definido como una combinación lineal de las variables aleatorias de la muestra por:
entonces C es un estimador insesgado de µ. Demostración:
Proposición Dada una muestra aleatoria x1, x2,...,xn proveniente de una población, la varianza de los xi definida por
es un estimador insesgado de
130 «
Inferencia
6.3.1.1.3. Estimador Eficiente Un estimador puntual es eficiente si la varianza del estimador es la menor posible. Si E1 y E2 son dos estimadores insesgados con varianzas V(E1) y V(E2), respectivamente, si V(E1) < V(E2) se dice que el estimador E1 es más eficiente que E2. Sea x1, x2, ..., xn una muestra aleatoria de tamaño n. Se ha probado que x y x1 son estimadores insesgados de µ. Pero, es más eficiente que x1 para estimar µ puesto que V(x) = ²/n < V(x1) = ². 6.3.1.1.4. Eficiencia Relativa Los estimadores insesgados suelen compararse en términos de sus respectivas varianzas. Si E1 y E2 son dos estimadores insesgados de un parámetro y la varianza de E1 es menor que la varianza de E2, se dice que E1 es más eficiente que E2. También, se puede usar la relación respecto E1.
para medir la eficiencia relativa del estimador E2 con
Si este cuociente es mayor a 1 entonces E2 es más eficiente que E1, en caso contrario E1 es más eficiente. 6.3.2. Método de Máxima Verosimilitud Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con función de densidad f( x , ), Ω. La función de densidad conjunta está definida por:
se conoce como función de verosimilitud de una muestra aleatoria y se denota por:
Si se encuentra una función de x1, x2,...,xn , designada por g(x1, x2,...,xn) tal que cuando es reemplazado por g(x1, x2,...,xn) la función de verosimilitud es máxima. El estadístico = g(x1, x2,...,xn) se denomina estimador máximo verosímil de . Ejemplo. Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con función de Poisson de parámetro
Capítulo 6
» 131
para obtener el estimador máximo verosímil se requiere derivar esta función, para facilitar esta derivación se aplica logaritmo natural:
luego igualando a cero esta derivada, se tiene
por tanto, el estimador máximo verosímil de
es
.
Ejemplo. Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con función de densidad
la función de densidad conjunta o de verosimilitud está dada por :
se debe encontrar el valor de que haga máxima la probabilidad L( ), luego:
por tanto
igualando a cero, se tiene
132 «
Inferencia
por tanto, el valor de del parámetro.
que maximiza a L( ) es
, y se denomina estimador máximo verosímil
Ejemplo. Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población normal con función de densidad
la función de densidad conjunta está dada por:
La función de verosimilitud es una función conjunta de µ y
Se deben encontrar los valores de µ y de
2
2
, que se denota por L(µ, 2):
que hagan máxima la probabilidad L(µ, 2).
El valor de µ que maximiza L(µ, 2) será un buen estimador de µ. Tanto L(µ, 2) como ln(L(µ, 2)) son maximizados por el mismo valor de µ, luego
por tanto, la derivada parcial
, igualando a cero, se tiene
Capítulo 6
el valor que maximiza a L(µ, 2) es
» 133
, y se denomina estimador máximo verosímil del parámetro µ.
De la misma forma, se puede encontrar el estimador máximo verosímil de
obteniendo la derivada parcial respecto de
, a partir de
2
2
igualando a cero, se tiene
el valor que maximiza a L(µ, 2) es del parámetro 2.
, y se denomina estimador máximo verosímil
Para determinar si un estimador insesgado es de varianza mínima o con sesgo mínimo, se usa la desigualdad de Crámer-Rao, dada en el siguiente teorema. Teorema. Si W es un estimador insesgado de
y
entonces W es el estimador insesgado de mínima varianza de
.
Ejemplo. Se demostrará que x es el estimador insesgado de varianza mínima de la media μ de una población normal.
134 «
Inferencia
Por lo tanto se tiene que
Como se sabe que x es un estimador insesgado y su varianza es ²/n entonces x es el estimador insesgado de varianza mínima de µ. 6.3.2.1. Propiedad Invariante Si es un estimador máximo verosímil, cualquier función f( ) también es un estimador máximo verosímil. 6.4. Estimación por Intervalos de Confianza Otra forma de estimar un parámetro de una población, consiste en tomar una muestra aleatoria de ella, calcular el estimador puntual correspondiente y construir un intervalo de confianza que lo contenga. Para ello, se requiere definir el nivel de confianza, que se designa por 1 - , de manera que la probabilidad que el intervalo contenga al parámetro esté dada por:
el valor de r dependerá de la distribución muestral que tenga el parámetro muestral con el que se hará la estimación. 6.4.1. Intervalo de Confianza para la media µ de una población normal 6.4.1.1 Cuando
2
es conocida
Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución donde es conocida, luego por tanto,
Capítulo 6
se puede verificar mediante una tabla N(0,1) que
» 135
'
luego
es el intervalo del 99% para µ cuando
2
es conocida.
Mediante un proceso análogo al desarrollado, se puede construir un intervalo de confianza para un nivel de confianza 1 - , para los percentiles y
como
entonces
=
se tiene que
136 «
Inferencia
es el intervalo del (1- )% para µ cuando 2 es conocida, esto significa que si se construyeran el 100% de los intervalos para µ, el (1- )% de ellos la contendrían. Ejemplo. Un fabricante de polines desea estimar el diámetro medio externo de ellos. Durante el proceso de fabricación se mide el diámetro en milímetros de 18 de ellos seleccionados aleatoriamente. Los diámetros obtenidos son 20.8, 21,1, 20.5, 21.3, 21.6, 20.9, 21.2, 22.2, 22.3, 20.6, 20.8, 21.1, 23.4, 22.6, 21.7, 20.8, 20.3, y 20.7. Suponga que los diámetros en el proceso de fabricación se distribuyen normal con desviación estándar 0.35 milímetros. Construir un intervalo de confianza estimado del 95% para el valor real del diámetro promedio de los polines.
Z0.025
Z0.975=1.96
se puede afirmar con un 95% de confianza que el diámetro medio de los polines varía entre 21.166 y 21.490 milímetros. 6.4.1.2. Cuando
2
es desconocida
Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución . De acuerdo al desarrollo realizado al inicio de este capítulo, se tiene que: y
donde v son los grados de libertad de un distribución
luego
, reemplazando, se tiene:
Capítulo 6
donde
en la práctica, en lugar de S, se calcula
» 137
que es el
estimador insesgado de
, luego
por tanto
como
luego
=
es el intervalo del (1- )% para µ cuando (1-
entonces
2
es desconocida, donde
, es el percentil
)% de la distribución t-student con (n -1) grados de libertad.
Ejemplo. La oficina de personal de una empresa está interesada en estimar la cantidad promedio de dinero que se gasta en personal por concepto de comisiones de servicio, en comida, alojamiento y trasporte, dineros que se deben rendir. De las distintas comisiones de servicio que se han efectuado se seleccionó una muestra aleatoria de 15 funcionarios, obteniendo los siguientes valores de gastos rendidos por día (en miles) : 122.5 , 128.2 , 129.5 , 122.2 , 124.8 , 125.4 , 123.7 , 122.5, 124.3 , 122.9 , 122.4 , 128.7 , 126.5 , 128.2 y 120.5. Si se supone que la cantidad de dinero que se gasta diariamente se distribuye aproximadamente normal. Obtener un intervalo de confianza del 95% para el gasto promedio real. Trabajando todos los días del año, estime el gasto anual para el próximo año, tomando el valor superior del intervalo y reajustado en un 4.5%.
138 «
Inferencia
t0.025,14 =2.145
t0.975,14 =2.145
se puede afirmar con un 95% de confianza que el gasto medio varía entre $23.265,2 y $26.374,7. El presupuesto para el año siguiente es $48.202.469,95 Ejercicios. 1.- Se desea estimar el valor promedio mensual de ventas de una empresa en el país. Para ello, se seleccionan aleatoriamente 24 sucursales de distintas regiones, obteniendo la siguiente información de las ventas (en millones de pesos) : 18.5, 17.2, 18.4, 17.8, 13.4, 13.2, 12.6, 11.1, 17.3, 18.2, 12.1, 18.6, 14.4, 15.3, 13.7, 15.4, 16.1, 13.8, 19.7, 13.5, 18.1, 12.7, 14.1 y 13.9. Suponiendo que las ventas se distribuyen normal, construya un intervalo de confianza del 90% para las ventas promedio real de la empresa. R. (14.51;16.25) 2.- Se compran porotos con tocino en conserva para colaciones. El proveedor rotula los tarros indicando que traen 300 gramos de peso neto. Se toma una muestra aleatoria de 20 tarros, se vacía y pesa el contenido, obteniendo los siguientes pesos en gramos: 298.6, 301.2, 298.5, 299.1, 301.2, 302.3, 300.1, 298.4, 298.7, 294.1, 302.1, 301.4, 298.9, 298.6, 299.3, 299.7, 302.5, 301.2, 301.7 y 297.8. Construya un intervalo de confianza del 95% para el peso promedio del contenido neto en los tarros. R. (298.8;300.7) 6.4.2. Precisión en la Estimación por Intervalos de Confianza Cuando se construyen intervalos de confianza para un determinado nivel de significación, es deseable que este intervalo sea lo más angosto posible, que el error de la estimación sea la menor. La precisión para estimar está definida por la expresión : si
2
es conocida, y por
cuando
2
es desconocida
Capítulo 6
» 139
Si n es fijo y se aumenta la confianza (1- ), trae como consecuencia un aumento de la amplitud del intervalo, pero, ello implica construir un intervalo menos preciso. En cambio, si se quiere aumentar la precisión para un determinado nivel de confianza es necesario aumentar el tamaño de n de la muestra, dado que en ambos casos y 6.4.3. Intervalo de Confianza para una proporción Para construir un intervalo de confianza para el parámetro p desconocido de una distribución binomial con n conocido, se considera una muestra aleatoria x1, x2,...,xn , donde:
Sea
, el estimador puntual de p, luego como
el intervalo aproximadamente del (1- )% para una muestra grande está dado por :
140 «
Inferencia
como
=
entonces el intervalo del (1- )% para p está dado por:
Ejemplo. Se recibe un gran cargamento de ampolletas proveniente de un proveedor que asegura que su producción genera un 0.5% de ellas defectuosa. Se selecciona una muestra aleatoria de tamaño 900 de este envío, y se realiza una prueba de encendido, encontrándose 4 de ellas que fallaron. Determine un intervalo de confianza aproximado del 90% para la proporción defectuosa verdadera del proceso.
1 - = 0.90 Z0.05=1.64
con Z0.05 = Z0.975 =1.64
la proporción de defectuosos fluctúa entre el 0,08% y el 0,8%
Z0975 =1.64
Capítulo 6
6.4.4. Intervalo de confianza para
» 141
2
6.4.4.1. Cuando µ es conocida Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución N(µ, 2) , si µ es conocida se sabe que : y que bajo el supuesto de independencia de las xi se tiene que :
el intervalo de confianza del (1- )% para se determina por :
entonces, es el intervalo del (1- )% para
2
cuando µ es conocida está dado por:
o bien
142 «
Inferencia
6.4.4.2. Cuando µ es desconocida Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución N(u, 2), si µ es desconocida se sabe que : o bien
el intervalo de confianza del (1- )% para se determina en forma análoga al anterior por:
o bien
Ejemplo. Para el problema de gastos del personal en comisiones de servicio, página 164, el intervalo de confianza del 95% para 2 está dado por:
= 0.95
para un nivel de confianza del 95% la desviación estándar estimada varía entre $2.054,77 y $4.430,64.
Capítulo 6
» 143
Ejercicio. Construya un intervalo de confianza del 99% para la varianza del peso neto del contenido de los tarros del ejercicio 2, de la página 125. 6.4.5. Intervalo de confianza para la diferencia de dos promedios µ1 - µ2 Sea x1, x2,...,xm es una muestra aleatoria de tamaño n1 proveniente de una población con distribución N( µ1, 21), y sea y1, y2,...,yn una muestra aleatoria de tamaño n2 proveniente de una población con distribución N( µ2, 22). En un proceso productivo se fabrica una misma pieza en dos plantas distintas, es esperable por tanto que la varianza de la característica a controlar sea la misma, pero desconocida. En general para este tipo de procesos, se debiera asumir que las varianzas en ambas poblaciones es la misma, que puede ser conocida o desconocida. 6.4.5.1. Varianzas iguales conocidas Si se supone que las varianzas
2 1
=
=
2 2
2
sean conocidas. Sean x, y las medias muestrales.
El intervalo de confianza del (1- )% para la diferencia de medias µ1- µ2 para distribuciones normales independientes con igual varianza conocida, está dado por :
Ejercicio. Se sabe que el tiempo medio que demora un laboratorista en realizar un tipo de análisis en cierta máquina se distribuye normal con desviación estándar conocida = 4 minutos. Se realizó un experimento para comparar los tiempos medios que demoran los laboratoristas antiguos (A) respecto laboratoristas nuevos (B), para ello, se toma una muestra aleatoria de 10 antiguos y una muestra de 8 nuevos, midiendo el tiempo en minutos que demoran en efectuar el análisis, obteniendo los siguientes resultados : Tiempos laboratoristas antiguos 5.5 4.8 5.4 4.9 5.1 5.0 5.3 5.2 5.0 4.9 Tiempos laboratoristas nuevos 5.9 4.9 5.5 4.8 5.2 5.0 5.1 5.0
Construir un intervalo de confianza del 95% para estimar la diferencia de los tiempos medios.
144 «
Inferencia
6.4.5.2. Varianzas iguales desconocidas Si se supone que las varianzas 21 = 22 = 2 pero desconocidas, se debe estimar esta sigma desconocida a partir de las desviaciones estándar de cada muestra. Sean x, y las medias muestrales, .S21, .S22 las varianzas muestrales, el intervalo de confianza para μ1 - μ2 está dado por:
donde
es la desviación estándar común
Ejemplo. Se desea comparar la eficiencia de dos técnicas en cuanto al tiempo que demoran en dar el resultado. Para ello se selecciona una muestra aleatoria, a 12 de ellas se les aplica la técnica 1, y, a otras 8 se les aplica la técnica 2. El tiempo en minutos de obtener el resultado de cada técnica se muestra en la siguiente tabla. Construir un intervalo de confianza del 99% para estimar la diferencia de los tiempos medios. Técnica 1 3.5 3.6 3.3 3.4 3.1 3.2 3.4 3.6 3.8 3.0 2.8 3.3 Técnica 2 3.7 3.5 3.4 2.7 3.2 3.8 3.3 3.1
Observación. Más adelante se probará si las varianzas de ambas técnicas son iguales. t0.025, 18 = t0.995,18 = 2.878
Capítulo 6
» 145
Con una certeza del 99% la diferencia entre los tiempos medios varía entre -0.0025 y 0.8109 minutos. 6.4.5.3. Varianzas distintas y desconocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21 y 22 distintas y desconocidas. En estos casos no se conoce la distribución exacta de la diferencia de medias y se realiza una aproximación a través de una distribución t-Student con
el intervalo de confianza para µ1-µ2 del (1- )% está dado por:
Ejemplo. Se realiza un estudio para determinar si hay alguna diferencia en el tonelaje medio de calamares capturados por barcos que utilizan redes de arrastre en comparación con los que utilizan redes de fondo. La información se obtuvo con 12 barcos para cada método Redes arrastre X1 = 5.5 ton S1 = 0.34 ton
Redes de fondo X2 = 5.17 ton S2 = 0.41 ton
Construir un intervalo de confianza de 95% para la diferencia media de captura.
146 «
Inferencia
es el intervalo de confianza del 95% para la diferencia de medias de captura.
6.5. Pruebas de Hipótesis Introducción. Los problemas a los que se enfrenta un investigador, no se refieren sólo a la estimación de un parámetro poblacional, sino, a la formulación de un procedimiento de decisión que a partir de los datos de la muestra le permitan llegar a una conclusión acerca de lo que investiga. Por ejemplo, un investigador puede decidir de acuerdo a la información que dispone, que el hábito de consumir droga aumenta el riesgo social de una localidad; o bien, que el aumento de la variabilidad en un proceso genera una proporción mayor de piezas defectuosas respecto de un valor nominal. Para verificar estas hipótesis se deberá obtener información a partir de datos experimentales y en función de los resultados tomar una decisión en base a ellos. Una Hipótesis Estadística es una afirmación o conjetura acerca de las características de una o más poblaciones. La única forma de verificar una hipótesis estadística es examinando a toda la población o universo, pero, el costo que ello implica desalentaría a cualquier investigador. Por ello, con los datos de una muestra aleatoria proveniente de esta población, se mide en ella la característica de interés y se confirmar o no dicha hipótesis a través de un test estadístico, es decir, una Prueba de Hipótesis es una regla o procedimiento que permite aceptar o rechazar una hipótesis en función de los datos experimentales de la muestra aleatoria extraída. 6.5.1. Hipótesis Nula y Alternativa La estructura de la prueba de hipótesis se formulará utilizando el término Hipótesis Nula, que es la hipótesis que se quiere contrastar en la población, la que se denota por H0. El Rechazo de H0 da como resultado la aceptación de una Hipótesis Alternativa H1. Al probar una hipótesis estadística se pueden presentar las siguientes situaciones: Aceptar H0 Rechazar H0
H0 Verdadera Decisión correcta Error Tipo I
H0 Falsa Error Tipo II Decisión correcta
Se designa por = P(rechazar H0 / H0 es verdadera) a la probabilidad de rechazar H0 siendo que H0 es verdadera y por = P(Aceptar H0 / H0 es falsa) a la probabilidad de aceptar H0 dado que H0 es falsa. 6.5.2. Prueba de Hipótesis para una proporción Suponga que para pegar las etiquetas de identificación de cierto producto se usa un adhesivo A, que es el tradicional y que tiene una efectividad del 96% para cierto período. Suponga que apa-
Capítulo 6
» 147
rece un nuevo adhesivo B el cual se desea comparar con el pegamento tradicional. El adhesivo B se prueba en 1500 productos, ese período, se encuentran 10 de ello con la etiqueta parcialmente despegada y 15 sin etiqueta. ¿Es el nuevo adhesivo más eficaz que el tradicional? Hipótesis de Nulidad H0 : El adhesivo B es igual de efectivo que el adhesivo A Sea p : la proporción de efectividad en la población con el adhesivo B p0 : la proporción de efectividad en la población con el adhesivo tradicional luego
H0 : p = p0 = 96%
Enunciada la hipótesis de nulidad, se debe plantear una hipótesis alternativa, que es la que considera el cambio. Este cambio se puede presentar de distintas formas, por lo que la formulación correcta de esta hipótesis es otro de los aspectos importantes en la prueba, ya que orientará para la construcción de la regla de decisión. Hipótesis Alternativa H1 Dependiendo del conocimiento que se tenga de la variable en estudio, es posible plantear las siguientes hipótesis alternativas: Si se sabe que el nuevo adhesivo ya ha sido probado en otras empresas y se sospecha que es mejor que el tradicional, se puede plantear ˹(1 : p > p0 , es decir, H1 : p > 96% La proporción de eficacia con el adhesivo B es mayor que la del adhesivo tradicional, prueba unilateral a derecha. Si se sabe que el nuevo adhesivo ya ha sido probado en otras empresas y se sospecha que no es mejor que el tradicional, se puede plantear ˹(1 : p < p0 , es decir, H1 : p < 96% La proporción de eficacia con el adhesivo B es menor que la del adhesivo tradicional, prueba unilateral a izquierda. Si no se tiene información respecto del nuevo adhesivo se puede plantear ˹(1 : p ≠ p0 , es decir, H1 : p ≠ 96% La proporción de eficacia con el adhesivo B es distinta que la del adhesivo tradicional. Esta prueba es recomendada cuando no hay un conocimiento anterior del problema que permita enunciar pruebas unilaterales. Es una prueba más conservadora. Observación. También se puede plantear una hipótesis de nulidad usando una desigualdad: ˹ ˹
3I(0 : p < p0 , la hipótesis alternativa es H1 : p > p0 3I(0 : p > p0 , la hipótesis alternativa es H1 : p < p0
148 «
Inferencia
Requisito de similitud
Se debe cautelar que la muestra debe ser aleatoria y representativa de la población en estudio, dado que de esta forma los errores que se puedan producir se deberían exclusivamente al azar de muestreo. En el caso del adhesivo, es necesario que en la muestra estén representados todos los factores que involucren la eficacia del pegamento, como humedad, temperatura, embalaje u otras. Determinación de la Región de Rechazo de la Hipótesis a)
Para H1 : p > p0 , es decir, H1 : p > 96%
Sea = 0.05, se busca en la tabla normal aquel valor que deja un área bajo él de 0.95, encontrando z = 1.64. Este valor de z se llama zcrítico.
0.95
= 0.05 Zcrítico = 1.64 Region de rechazo de H0
Si el valor del estadístico calculado en la muestra es mayor que este zcrítico, se debe rechazar H0, en cambio si el valor calculado es menor, se dice que no existe evidencia para rechazar H0, y que las diferencias observadas son producto del azar del muestreo. b) Para H1 : p < p0 , es decir, H1 : p < 96% Para = 0.05, se busca en la tabla normal aquel valor que deja bajo él de 0.05, encontrando z = -1.64.
= 0.05 0.95 Zcrítico = 1.64 Region de rechazo de H0
Capítulo 6
» 149
Si el valor del estadístico calculado en la muestra es menor que este zcrítico, se debe rechazar H0, en cambio si el valor calculado es mayor, se dice que no existe evidencia para rechazar H0, y que las diferencias observadas son producto del azar del muestreo b)
Para H1 : p p0 , es decir, H1 : p 90%
Como = 0.05 ==> /2 = 0.025, se busca en la tabla normal aquellos valores que dejan un área bajo él de 0.025, y un área por debajo 0.975. Los valores críticos son z = -1.96 y z =1.96
0.025
0.025 0.95 Zcrítico = 1.96
Zcrítico = 1.96
Regiones de rechazo de H0
si el valor del estadístico calculado se encuentra entre -1.96 y 1.96, se dice que no existe evidencia estadísticamente significativa para rechazar H0. Para el ejemplo de los pegamentos, se usará el caso a) y
= 0.05
Estadístico Calculado El estadístico calculado a partir de los datos de una muestra para esta prueba de hipótesis se define por:
donde p : es la proporción de eficacia del adhesivo B en la muestra, p0 : es la proporción de eficacia del adhesivo bajo H0 (96%), n es el tamaño de la muestra, luego
150 «
Inferencia
Conclusión
= 0.05 1
p-value = 0.001515
= 0.95 Zcrítico = 1.64
Region de rechazo de H0
Zcalculado= 2.9646
Como zcal >zcrit , se rechaza H0, es decir, el adhesivo B es significativamente más eficaz que el pegamento tradicional. El área a la derecha del zcal se conoce como p-value y representa la probabilidad que la prueba lleve a rechazar H0, cuando en realidad es verdadera. El p-value de una prueba de significación estadística, es la probabilidad de obtener valores del estadístico de prueba que sean mayores o iguales en magnitud que el estadístico calculado de la prueba. En este ejemplo, que el p-value = 0.001515 significa que habría un 0.15% de probabilidad de encontrar valores calculados superiores a 2.9646. Ejercicio. Se recibe un gran cargamento de un artículo proveniente de un proveedor que asegura que su producción genera un 0.5% de ellos defectuosos. Se selecciona una muestra aleatoria de tamaño 900 de este envío, y se realiza una prueba de funcionamiento, encontrándose 4 de ellos que fallaron. Para un nivel de significación del 5%, ¿qué puede decir respecto de la afirmación del fabricante respecto de la proporción defectuosa que produce el proceso de fabricación?
6.6. Prueba de hipótesis para un promedio 6.6.1. Varianza conocida
Sea x1, x2, ... , xn una muestra aleatoria de tamaño n proveniente de una distribución normal N(µ, 2) donde 2 es conocida. Si se define la hipótesis de nulidad H0 : μ = μ0 , se pueden tener tres posibles hipótesis alternativas: H1 : μ < μ0
ó
H1 : μ > μ0
ó H1 : μ ≠ μ0
En cambio, si se define H0 : μ ≤ μ0 la hipótesis alternativa será H0 : μ > μ0 ; ó si se define H0: μ ≥ μ0 la hipótesis alternativa será.
Capítulo 6
» 151
El estadístico calculado de la prueba está dado por:
dependiendo del valor de este zcalculado respecto del valor crítico, o los valores críticos, se determinará si se rechaza o no la hipótesis de nulidad H0.
Ejemplo. Se sabe que en cierta carretera la velocidad a la que conducen los automovilistas se distribuye normal con media 100 km/h y desviación estándar de 10 km/h. Para determinar si la velocidad promedio está aumentando, se registró la velocidad en forma aleatoria de 50 conductores encontrando una velocidad promedio de 102.5 km/h con una desviación estándar de 11 km/h. ¿Qué puede concluir con esta información? Use =0.05 Hipótesis de trabajo
: H0 : μ = μ0 100 km/h H1 : μ > μ0 100 km/h
para un nivel de significación =0.05, la región de rechazo de H0
= 0.05 1
= 0.95 Z0.95= zcrítico = 1.64
Region de rechazo de H0
Requisito de similitud : La muestra es aleatoria y representativa de la población Cálculo del estadístico El estadístico calculado a partir de la muestra
Conclusión. Como zcal >zcrit , se rechaza H0, es decir, la velocidad promedio de los automovilistas es superior a 100 km/h, p-value=0.039204.
152 «
Inferencia
6.6.2. Varianza desconocida Sea x1, x2, ... , xn una muestra aleatoria de tamaño n proveniente de una distribución normal N(µ, 2) donde 2 es desconocida, el estadístico calculado de la prueba está dado por:
donde
es el estimador insesgado de .
Si se define la hipótesis de nulidad H1 : μ = μ0 , al igual que en la prueba anterior, se pueden tener tres posibles hipótesis alternativas: H1 : μ < μ0
ó
H1 : μ > μ0
ó H1 : μ ≠ μ0
Si se define H0 : μ ≤ μ0 la hipótesis alternativa será H0 : μ > μ0 ; ó si se define H0 : μ ≥ μ0 la hipótesis alternativa será H0 : μ > μ0 Ejemplo. Un fabricante de cuerdas ha desarrollado un nuevo material sintético, y afirma que tiene una resistencia a la ruptura de 100 kg. Si se toma una muestra aleatoria de 24 cuerdas y se encuentra que tienen una ruptura media de 102 kg con una desviación estándar de 5 kg. Suponiendo que la resistencia a la rotura se distribuye aproximadamente normal, para un nivel de significación de =0.01, ¿qué puede concluir respecto de la afirmación del fabricante respecto de la resistencia a la ruptura? Hipótesis de trabajo H0 : µ = μ0= 100 kg versus H1 : µ ≠ μ0 100 kg Para un nivel de significación: = 0.01 ==> en al figura.
= 0.005, las regiones de rechazo de H0 se muestra
= 0.005
= 0.005 1 - = 0.99
t0.005;23= t crítico = -2.58
t0.995:23= t crítico = 2.58
Capítulo 6
» 153
Requisito de similitud: Se supone que la muestra es aleatoria y representativa de la población. Prueba de hipótesis
Conclusión. Como -tcrít < tcal < tcrít , no existe evidencia estadística para rechazar H0. Es decir, lo afirmado por el fabricante es correcto. Ejercicios. 1.- Se toma una muestra aleatoria de 100 muertos por accidentes de tránsito, encontrando que la edad promedio de los fallecidos es x= 18 años con una desviación estándar de 2 años. Suponiendo que la edad de los fallecidos se distribuye aproximadamente normal, ¿parecería indicar que la edad promedio de los fallecidos es mayor que 18 años? 2.- Un fabricante de baterías para radiotransmisores afirma que sus baterías tienen una carga útil media de 12 horas. El departamento de adquisiciones se interesa en comprar estas baterías siempre que la carga útil media no sea inferior a lo afirmado por el fabricante. Para tomar una decisión el departamento compra en forma anónima 15 baterías y las utilizó en forma experimental hasta que se agotó su carga útil, obteniendo una carga útil media de 11.5 horas con una desviación estándar S*=1.5 horas. Suponiendo que la duración de la carga tiene una distribución aproximadamente normal, ¿Qué decisión debe tomar el departamento de adquisiciones si utiliza un nivel de significación del 5%?
6.7. Prueba de hipótesis respecto de la Varianza En todos los procesos industriales de fabricación de partes y piezas, se requiere que la media del proceso se ajuste al valor nominal definido, que la proporción de piezas defectuosas que se fabrique sea menor a un valor p0, para ello, se requiere que la varianza del proceso se mantenga lo más cercano a su valor 20, por ello, se requiere que se verifique esta hipótesis respecto de la varianza. 6.7.1. Prueba para una varianza Sea x1, x2, ... , xn una muestra aleatoria de tamaño n proveniente de una distribución normal N(µ, 2) donde 2 es desconocida. Al igual que en las pruebas de hipótesis para una media o una proporción, existen varias opciones para plantear la prueba: i) Si H0 :
2
=
2 0
se tiene tres posibles hipótesis alternativas.
154 «
Inferencia
a) H1 :
2
<
2 0
b) H1 :
2
>
2 0
c) H1 :
2
≠
2 0
Capítulo 6
i) Si H0 :
2
ii) Si H0 :
< 2
≥
2 0
, la hipótesis alternativa está dada por H1 :
2 0
, la hipótesis alternativa está dada por H1 :
2
>
2
<
» 155
2 0 2 0
Ejemplo. Un fabricante de envases para bebidas asegura que sus botellas tienen un volumen con distribución normal N(µ=1000 cm3, 2 =0,09 cm3). Se toma una muestra aleatoria de tamaño 30 de estos envases y se obtiene un promedio de 999,87 cm3 con desviación estándar *S=0.45 cm3. ¿Qué se puede concluir respecto de lo afirmado por el fabricante? = 0.05 Si lo afirmado por el fabricante fuera correcto respecto a que el volumen se distribuye normal, se tiene que la distribución del volumen promedio de cada botella será: x ~
Para verificar la veracidad de lo afirmado por el fabricante respecto de la media, primero se debe realizar una prueba de hipótesis respecto de si la varianza es conocida o no, ya que de ello dependerá si se debe usar una distribución normal o una t-Student. Sea H0:
2
=
=0.09 (cm3)2 versus H1:
2 0
2
≠
=0.09 (cm3)2
2 0
El estadístico de esta prueba está dado por
~ Para un nivel de significación del 5%, se tiene que la región de rechazo de H0 está dada por:
1 - = 0.95
156 «
Inferencia
el estadístico calculado está dado por:
como > se rechaza H0, por tanto, el valor de la varianza dada por el fabricante no es válida, por lo cual, para verificar la veracidad respecto de la media, se debe realizar la prueba con una distribución normal de varianza desconocida, lo que queda como ejercicio. Ejemplo. Suponga que el espesor de una placa de un circuito es una dimensión crítica. El proceso de producción de ellas se distribuye normal con una desviación estándar de 0.5 milímetros. Para controlar el proceso se toman muestras de tamaño 20, se define un límite de control con base a una probabilidad de 0.01 que la varianza muestral exceda de este límite, si el proceso está bajo control. ¿Qué se puede concluir si para una muestra dada de tamaño 20 la desviación estándar es 0.87 milímetros? Como la variable aleatoria es se debe verificar que:
Sea H0 :
2
=
, si se denota por LCS al límite de control superior,
=0.25 (milímetros)2 versus H1 :
2 0
2
>
=0.25 (milímetros)2
2 0
= 0.01 1
este valor
= 0.99
, debe satisfacer la desigualdad:
Capítulo 6
» 157
El criterio de decisión se puede expresar de dos formas: a) Obtener el valor de como > la muestra no proviene de un proceso con una desviación estándar de 0.5 milímetros (o varianza 2=0.25 milímetros2).
b) O bien, verificar si, pero como *S2 = (0.87)2 = 0.7569 > 0.47618, se llega a la misma conclusión, que la muestra tomada no proviene de una población normal con desviación estándar de 0.5 milímetros. Ejercicio. Un fabricante de baterías para teléfonos móviles afirma que sus baterías duran, en promedio 4 días con una desviación estándar de 0.5 días. Si diez de sus baterías tienen duraciones de 3.8, 3.9, 3.7, 4.3, 3.6, 4.1, 4.2, 4.5, 3.9 y 4.2 días, puede asegurarse que las baterías tiene una duración con desviación estándar de 0.5 día?. Suponga que la duración de las baterías sigue una distribución normal. Use = 0.05. 6.7.2. Prueba para dos varianzas Sean x1, x2, ... , xn , y1, y2, ... , ym dos muestras aleatorias de tamaño n y m provenientes de dos distribuciones normales con medias µx y µy con varianzas desconocidas 2x y 2y.
1
1
158 «
Inferencia
igualando los términos se tiene que:
La hipótesis que permita determinar si las varianzas de ambas muestras son iguales está dada por: H0 :
2 x
con las hipótesis alternativas a) H1 :
= 2 x
2 y
<
2 y
, b) H1 :
2 x
>
2 y
, c) H1 :
2 x
≠
2 y
Si las varianzas muestrales son *S2x y *S2y , las expresiones *
y
*
son variables aleatorias independientes distribuidas pectivamente, la variable aleatoria:
con (n-1) y (m-1) grados de libertad res-
* *
tiene distribución F de Snedecor o Snedecor-Fisher con (n-1) y (m-1) grados de libertad, pero bajo la hipótesis nula 2x = 2y, este estadístico F se reduce a: * *
Ejemplo. Un ingeniero de producción afirma que existe diferencia en la variabilidad de una pieza dependiendo si se fabrica en la planta A o en la planta B. Para verificar esta suposición, se toman muestras aleatorias de 16 piezas de la planta A y 13 piezas de la planta B, obteniendo los siguientes resultados respecto de las varianzas: S2A = 31.2 y S2B = 36.5 , suponiendo que los procesos tienen distribución aproximadamente normal, para un nivel de significación del 5%, ¿qué se puede concluir respecto de lo afirmado por el ingeniero de producción? La hipótesis de nulidad y alternativa son: H0 :
2 A
=
2 B
; H1 :
2 A
≠
2 B
Capítulo 6
» 159
las regiones de rechazo de H0 están dadas por:
1
Como < Fcalculado = 0.8547 < , no existe evidencia estadísticamente significativa para rechazar H0, luego, lo afirmado por el ingeniero no es verdadero.
6.8. Prueba de hipótesis para dos medias 6.8.1. Varianzas iguales conocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21= 22 = 2 conocidas. La hipótesis para la igualdad de dos medias se expresa por: H0 : μ1 = μ2 o
H0 : μ1 - μ2 = 0
y las hipótesis alternativas por : H1 : μ1 = μ2 o H1 : μ1 = μ2 o H1 : μ1 = μ2 o el estadístico a calcular está dado por :
pero bajo H0 se tiene que μ1 - μ2 = 0 , luego.
H1 : μ1 - μ2 < 0 ó H1 : μ1 - μ2 > 0 ó H1 : μ1 - μ2 ≠ 0
160 «
Inferencia
Ejemplo. Se sabe que el tiempo medio que demora un funcionario en realizar cierto tipo de procedimiento se distribuye normal con desviación estándar conocida = 4 minutos. Se realizó un experimento para comparar los tiempos medios que demoran funcionarios antiguos (A) respecto funcionarios nuevos (B), para ello, se toma una muestra aleatoria de 10 funcionarios antiguos y una muestra de 8 funcionarios nuevos, midiendo el tiempo que demoran en efectuar el procedimiento en minutos, obteniendo los siguientes resultados: Tiempos funcionario antiguos 4,70 4,80 4,90 5,00 5,15 5,16 5,20 5,30 5,40 5,50 4,80 4,97 5,10 5,12 5,19 5,23 5,55 5,90 Tiempo funcionarios nuevos Para un nivel de significación del 5%, ¿se puede afirmar que los funcionarios antiguos en promedio demoran menos tiempo en efectuar el procedimiento que los funcionarios nuevos? H0 : μ1 = μ2 o
H0 : μ1 - μ2 < 0 y H1 : μ1 < μ2 o
H1 : μ1 - μ2 < 0
para
Zcrítico= -1.96
Zcrítico= -1.96 Regiones de rechazo de H0
luego, como –zcrítico < zcalculado < zcrítico, no existe evidencia estadísticamente significativa para rechazar H0. 6.8.2. Varianzas iguales desconocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21= 22 = 2 desconocidas. La hipótesis para la igualdad de dos medias se expresa por:
Capítulo 6
H0 : μ1 = μ2 o
» 161
H0 : μ1 - μ2 = 0
y las hipótesis alternativas por : H1 : μ1 < μ2 o H1 : μ1 > μ2 o H1 : μ1 ≠ μ2 o
H1 : μ1 - μ2 < 0 ó H1 : μ1 - μ2 > 0 ó H1 : μ1 - μ2 ≠ 0
el estadístico a calcular está dado por :
pero bajo H0 se tiene que μ1 - μ2 = 0, luego
con = n1 + n2 - 2 grados de libertad, donde Ejemplo. En la preparación de una mezcla de cemento se utilizan dos químicos A y B para acelerar el fraguado. Para determinar si existe diferencia entre los tiempos medios de fraguado, se selecciona una muestra aleatoria de 10 mezclas con las que se usa el químico A, y en otras 10 mezclas se usa el químico B. Los tiempos en minutos de fraguado se muestran en la siguiente tabla: Químico A Químico B
45.5 45.8 45.6 45.9 45.3 45.4 45.2 45.7 46.1 46.0 45.7 46.1 45.8 45.9 45.7 45.6 46.2 45.8 45.6 45.7
Suponiendo que el tiempo de fraguado se distribuye aproximadamente normal, con esta información ¿habría evidencia para afirmar que existe diferencia entre el tiempo medio de fraguado dependiendo del químico? Use =0.05 H0 : μ1 = μ2 o H0 : μ1 - μ2 = 0 H1 : μ1 ≠ μ2 o H1 : μ1 - μ2 ≠ 0 tcritico = | t18, 0.025 | = 2.101
162 «
Inferencia
1 - = 0.95
= 0.025 t18 , 0.025= -2.101 t18 , 0.975 = 2.101 Regiones de rechazo de H0
por tanto
como tcalculado < -tcrítico, se rechaza H0, es decir, existe evidencia estadística para indicar que los tiempos medios de fraguado difieren dependiendo del químico que se utilice. Ejercicios 1.- Se realizó una campaña publicitaria para aumentar las ventas de una cerveza sin alcohol. Para probar si la campaña dio resultado se entrevistaron 10 clientes antes del inicio de la campaña y se les preguntó cuantas unidades del producto compraban a la semana, y posteriormente a la campaña a otros 10 clientes, obteniendo los siguientes resultados respecto del número de unidades que compraban a la semana: Antes de la campaña Después de la campaña
1 2
2 2
1 3
3 4
2 3
3 3
1 2
2 2
1 3
2 3
Para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la campaña fue exitosa? 2.- Se desea comparar como son las predicciones del incremento en el producto nacional bruto, PNB, para el próximo año hechas por agentes de bolsa y analistas de gobierno. En la tabla se muestran las predicciones (en porcentajes) de ocho agentes de bolsa y de seis analistas de gobierno, seleccionados aleatoriamente. 3.6 3.5 3.7 3.6 3.4 3.9 3.7 3.5 Agentes de bolsa Analistas de gobierno 3.8 4.1 4.2 4.3 3.8 3.6
Capítulo 6
» 163
¿Proporciona esta información evidencia suficiente que indique una diferencia en el incremento medio pronosticado para el PNB, hechas por agentes de bolsa y analistas de gobierno? Use = 0.05 6.8.3. Varianzas distintas desconocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21 y 22 desconocidas. La hipótesis para la igualdad de dos medias se expresa por: H0 : μ1 = μ2
o
H0 : μ1 - μ2 = 0
H1 : μ1 < μ2 H1 : μ1 > μ2 H1 : μ1 ≠ μ2
o o o
H1 : μ1 - μ2 < 0 H1 : μ1 - μ2 > 0 H1 : μ1 - μ2 ≠ 0
las hipótesis alternativas por
En estos casos, no se conoce la distribución exacta de la diferencia de medias y se realiza una aproximación a través de una distribución t-Student
Para el ejemplo de la captura de calamares por barcos que utilizan redes de arrastre en comparación con los que utilizan redes de fondo, página 132. Se tenía la información de 12 barcos para cada método. Para un nivel de significación del 5%, qué se puede concluir? Redes de fondo
Redes de arrastre
S1 = 0.34 ton
S2 = 0.41
H0 : μ1 = μ2 H1 : μ1 < μ2
o o
H0 : μ1 - μ2 = 0 H1 : μ1 - μ2 < 0
164 «
Inferencia
Como el estadístico calculado pero, bajo H0 se tiene que μ1 - μ2 = 0 , luego
reemplazando se tiene que:
para un nivel de significación del 5%, el valor crítico es tcrítico = t0.05,21= - 1.721, luego, como tcalculado < tcrítico se rechaza H0. Se puede afirmar que el tonelaje de captura por arrastre es mayor que si se usa redes de fondo.
6.9. Dócima para dos Proporciones Dadas dos poblaciones de tamaños n1 y n2, con E1 éxitos la primera, y E2 éxitos la segunda. La hipótesis de nulidad es: H0 : p1 = p2
o
H1 : p1 - p2 = 0
o o o
H1 : p1 - p2 < 0 H1 : p1 - p2 > 0 H1 : p1 - p2 ≠ 0
y las posibles hipótesis alternativas H1 : p1 < p2 H1 : p1 > p2 H1 : p1 ≠ p2
el estadístico de esta prueba está dado por:
con
y
Capítulo 6
» 165
Ejemplo. Un estudio en una empresa que fabrica polines en dos plantas, éstos tienen una pequeña desviación respecto de su eje de diseño. En la planta A se detecta que 131 polines tienen la desviación de un total de 468, en la planta B de un total de 237 polines 57 tienen el defecto. ¿Se puede concluir que existe una diferencia en la proporción de defectuosos que se producen en las dos plantas? Use =0.05
H1 : pA = pB H1 : pA ≠ pB = 0.025
= 0.025 0.95 Z0.025= 1.96
Z0.025= 1.96
como
por tanto, no existe evidencia estadísticamente significativa para rechazar H0, es decir, no existe evidencia para suponer que los defectos de los polines dependen de la planta en que se produce.
6.10. Muestras pareadas Existen muchas situaciones prácticas, en la que se requiere conocer más de una característica por unidad de observación, por lo cual, por cada unidad de observación se tendrá un vector de variables respuestas. Si se observan dos características de interés por cada unidad de estudio, se dice que se tiene una muestra pareada. El análisis de esta última información requiere de una metodología diferente a la ya desarrollada para muestras independientes. Por ejemplo, si se realiza un estudio para determinar el grado en que el aspirar un producto volátil en el puesto de trabajo, influye en la destreza de los trabajadores en el ensamblado de un producto. Se diseña un experimento y se seleccionan al azar 15 voluntarios de distintas características que ensamblen el producto, sin aspirar el volátil y aspirándolo, se cuenta en cada caso el número de errores que cometen en el ensamble. Al realizar este experimento se obtienen un vector con la información del número de errores de ensamble con o sin aspirar el volátil, que la siguiente tabla: Trabajador i Errores sin aspirar xi Errores con aspirar yi
1 10 15
2 12 11
3 17 18
4 11 11
5 10 17
6 14 19
7 16 17
8 15 16
9 13 15
10 12 13
166 «
Inferencia
para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la inhalación del volátil incrementa el número de errores en los ensambles? H0 : μX = μy
y
H1 : μX < μy
para = 0.05 con = n - 1 = 9 grados de libertad, se tiene :
t9 , 0.05= 1.833 Región de rechazo de H0
Para aplicar esta prueba de hipótesis, se define la variable diferencia d1 = xi - yi d1 = xi - yi
-5
1
-1
0
-7
-5
-1
-1
-2
-1
se obtiene que d = - 2.2 y S* d = 0.2573 , y se utiliza el estadístico luego como tcal < tcrit , se rechaza H0, es decir, el aspirar el volátil por parte de los trabajadores favorece el aumento de errores en el ensamblado, p-value=0.003436. Ejercicios resueltos 1.- Un fabricante de rodamientos desea estimar el diámetro medio externo del producto. Durante el proceso de fabricación mide el diámetro en milímetros de 18 de ellos seleccionados aleatoriamente. Los diámetros obtenidos son 20.8, 21,1, 20.5, 21.3, 21.6, 20.9, 21.2, 22.2, 22.3, 20.6, 20.8, 21.1, 23.4, 22.6, 21.7, 20.8, 20.3, y 20.7. Suponga que los diámetros en el proceso de fabricación se distribuyen aproximadamente normal con desviación estándar 0.35 milímetros. Construir un intervalo de confianza estimado del 95% para el valor real del diámetro promedio de los rodamientos.
Capítulo 6
= 0.025
» 167
= 0.025 1 - = 0.95
z0.0.25 = -1.96
z0.0.25 = -1.96
se puede afirmar con un 95% de confianza que el diámetro medio de los rodamientos varía entre 21,166 y 21,490 milímetros. 2.- Una empresa está interesada en estimar la cantidad promedio de dinero que se gasta en material fungible diariamente. De los gastos diarios que se han efectuado se seleccionó una muestra aleatoria de 20 de ellos, obteniendo los siguientes valores por día (en miles) : 132.5 , 148.2 , 139.5 , 132.2 , 134.8 , 141.4 , 133.7 , 132.5, 134.3 , 132.9 , 140.4 , 138.7 , 129.5 , 131.2 , 133.5, 133.8, 134.1, 134.2, 133.8 y 132.5. Si se supone que la cantidad de dinero que se gasta por día se distribuye aproximadamente normal. Obtener un intervalo de confianza del 99% para el gasto promedio real. Trabajando todos los días del año, estime el gasto anual para el próximo año, tomando el valor superior del intervalo y reajustado en un 3,5%.
= 0.005
= 0.005 1 - = 0.99
t0.005 , 19 = -2.861
t0.995 , 19 = 2.861
se puede afirmar con un 99% de confianza que el gasto medio varía entre $132382.17 y $137977.82. El presupuesto para el año siguiente será de $52124570.95
168 «
Inferencia
3.- Se recibe un gran cargamento de ampolletas proveniente de un proveedor que asegura que su producción genera un 0.5% de ellas defectuosa. Se selecciona una muestra aleatoria de tamaño 900 de este envío, y se realiza una prueba de encendido, encontrándose 4 de ellas que fallaron. Determine un intervalo de confianza aproximado del 90% para la proporción defectuosa verdadera del proceso.
= 0.05
= 0.05 1 - = 0.95
z0.05 = -1.64
z0.975 = 1.64
la proporción de defectuosos fluctúa entre el 0,08% y el 0,8%, lo que es equivalente a decir, que la proporción de ampolletas buenas varía entre un 99.192% y un 99.919% 4.- En una planta se utilizan dos máquinas distintas para producir una misma pieza, se cree que existe diferencia en tiempo en minutos para producirlas. Para verificar lo afirmado, el jefe de producción mide el tiempo en forma aleatoria, de producir 10 piezas de la máquina 1, y a 8 piezas de la máquina 2. El tiempo en minutos de fabricación de las máquinas se muestra en la tabla. a) Construir un intervalo de confianza del 99% para estimar la diferencia de los tiempos medios. Máquina 1 Máquina 2
7.5 7.6 7.3 7.4 7.1 7.2 7.4 7.6 7.8 7.5 7.7 7.5 7.4 6.7 7.2 7.8 7.3 7.1
Capítulo 6
» 169
b) Realice una prueba de hipótesis para verificar que las varianzas de ambas técnicas son iguales Solución a) |t0.025 , 18 | = t0.995 , 16 = 2,878
Con una certeza del 99% la diferencia entre los tiempos medios varía entre -0.28046 y 0.48046 minutos. 5.- Suponga que para unir dos piezas metálicas se usa una soldadura A que es la tradicional que tiene una efectividad del 97% a la torsión. Aparece en el mercado una nueva soldadura y se desea comparar su eficiencia respecto de la tradicional. La nueva soldadura se prueba en 1750 uniones de las cuales 35 no resistieron a la torsión. ¿se puede afirmar que la nueva soldadura es más eficiente que la tradicional a un nivel de significación del 95%? H0 : Ambas soldaduras son igualmente eficientes
H0 : p = p0 = 0.97
versus H1 : p > p0 =0.97 La proporción de eficacia de la nueva soldadura es mayor a la tradicional, prueba unilateral a derecha. Para = 0.05, zcrítico = 1.64
1 - = 0.95
= 0.025
zcrit = 1.64 Región de rechazo de H0
zcalculado = 2.452
Como zcal >zcrit , se rechaza H0, es decir, la nueva soldadura es más eficiente que la tradicional.
170 «
Inferencia
6.- Un fabricante de cuerdas ha desarrollado un nuevo material sintético, y afirma que tiene una resistencia a la ruptura de 150 kg. Si se toma una muestra aleatoria de 24 cuerdas y se encuentra que tienen una ruptura media de 152 kg con una desviación estándar de 5 kg. Para un nivel de significación de =0.01, ¿qué puede concluir respecto de la afirmación del fabricante respecto de la resistencia a la ruptura? H0 : μ = 150 kg
versus
Para un nivel de significación: = 0.01
H1 : μ ≠ 150 kg
= 0.005:
= 0.005
= 0.005 1 - = 0.99 t0.005;23 = tcrít = -2.58
t0.995;23 = tcrít = 2.58
Requisito de similitud: Se supone que la muestra es aleatoria y representativa de la población.
como -tcrít < tcal < tcrít , no existe evidencia estadística para rechazar H0.
7.- Un fabricante de envases para jabón asegura que sus botellas tienen un volumen con distribución normal N(µ=250 cm3, 2 =0,05 (cm3)2). Se toma una muestra aleatoria de tamaño 25 de estos envases y se obtiene un promedio de 249.99 cm3 con desviación estándar *S=0.25 cm3. ¿Qué se puede concluir respecto de lo afirmado por el fabricante? Use =0.05. Para verificar la veracidad de lo afirmado por el fabricante respecto de la media, primero se debe realizar una prueba de hipótesis respecto de si la varianza es conocida o no, ya que de ello dependerá si se debe usar una distribución normal o una t-Student. Sea H0 : 2 = 20=0.05 (cm3)2 versus H1 : 2 ≠ 20=0.05 (cm3)2 El estadístico de esta prueba está dado por ~
Capítulo 6
» 171
Para un nivel de significación del 5%, se tiene que la región de rechazo de H0 está dada por
= 0.025
= 0.025 2 0.025,24
1
= 0.95
=12.4
2 0.025,24
=12.4
luego como 20.025,24=12.4 < 2calculado=30.0 < 20.975,24= 39.38 no existe evidencia para rechaza H0, por tanto, el valor de la varianza dada por el fabricante es válida, por lo cual, para verificar la veracidad respecto de la media, se debe realizar la prueba con una distribución normal de varianza conocida, =0.05. Sea H0 : µ = µ0 = 250 cm3 versus H1 : µ ≠ µ0
= 0.025
= 0.025 1 - = 0.95
Z0.025= -1.96
Z0.975= 1.96
como -zcrít < zcal < zcrít , no existe evidencia estadística para rechazar H0.
8.- Una empresa que fabrica resortes en dos plantas, éstos tienen un pequeño defecto de diseño. Se toma una muestra de 550 resortes de la planta A se detectan que 12 con el defecto, En la planta B de un total de 320 resortes 8 tienen el defecto. ¿Se puede concluir que existe una diferencia en la proporción de defectuosos que se producen en las dos plantas? Use =0.05
172 «
Inferencia
H0 : pA = pB H1 : pA ≠ pB
1
= 0.95
z0.025 = - 1.96
z0.975 = 1.96
como
por tanto, no existe evidencia estadísticamente significativa para rechazar H0, es decir, no existe evidencia para suponer que los defectos de los resortes dependen de la planta en que se fabriquen. 9.- Se realiza un estudio para determinar el grado en que el aspirar un producto volátil en el puesto de trabajo, influye en la destreza de los trabajadores en el ensamblado de un producto. Se diseña un experimento y se seleccionan al azar 15 voluntarios de distintas características que ensamblen el producto, sin aspirar el volátil y aspirándolo, se cuenta en cada caso el número de errores que cometen en el ensamble. Al realizar este experimento se obtienen un vector con la información del número de errores de ensamble con o sin aspirar el volátil, que muestran en la siguiente tabla: Trabajador
i
Errores sin aspirar xi Errores con aspirar yi
1
2
3
4
5
6
7
8
9
10
10 15
12 11
17 18
11 11
10 17
14 19
16 17
15 16
13 15
12 13
para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la inhalación del volátil incrementa el número de errores en los ensambles? H0 : μx y H1 : μx < μy para = 0.05 con = n - 1 = 9 grados de libertad, se tiene :
t9, 0.05= -1.833 Región de rechazo de H0
Capítulo 6
» 173
Para aplicar esta prueba de hipótesis, se define la variable diferencia di = xi - yi di = xi - yi
-5
1
-1
0
-7
-5
-1
-1
-2
-1
se obtiene que d = -2.2 y S*d = 0.2573 , y se utiliza el estadístico
luego
como tcal < tcrit , se rechaza H0, es decir, el aspirar el volátil por parte de los trabajadores favorece el aumento de errores en el ensamblado. 10.- Se tienen dos tipos de combustible diesel, con el tipo A el promedio de kiló-metros por litro recorridos por 5 camiones de las mismas características fue 9.6 km/l con una desviación estándar de 0,35 km/l. Para los mismos camiones con el diesel B el promedio de kilómetros recorridos por litro fue 9.4 km/l con una des-viación estándar de 0,37 km/l. Para un nivel de significación del 5%, verificar si el diesel B tiene menor rendimiento que el diesel A. Suponga que los rendimientos en km/l con ambos diesel se distribuyen aproximadamente normal. Al ser las varianzas desconocidas, se debe verificar si éstas son iguales o distintas, para ello, la hipótesis de nulidad y alternativa son: H0 :
2 B
=
2 A
; H1 :
2 B
≠
2 A
las regiones de rechazo de H0 están dadas por:
= 0.025 = 0.025
1
= 0.95
174 «
Inferencia
no existe evidencia para rechazar H0, luego, se supone que las varianzas son iguales desconocidas. H0 : μB = μA H1 : μB < μA
o H0 : μB - μA = 0 o H1 : μB - μA < 0
= 0.05 tcrítico = t8, 0.05=- 1.86 Región de rechazo H0
por tanto
como tcrítico < tcalculado, no existe evidencia para rechazar H0, es decir, ambos diesel tienen el mismo rendimiento menor. Ejercicios propuestos 1.- Un fabricante desea comparar el tiempo de proceso de armado común para uno de sus productos con un nuevo proceso que supuestamente reduce el tiempo de armado. Se seleccionaron 8 trabajadores al azar y se les pidió que armaran las unidades con ambos procesos. En la tabla se muestran los tiempos observados en minutos para cada trabajador: Trabajador i Proceso Actual Proceso Propuesto
1 48 40
2 42 42
3 51 44
4 45 47
5 52 45
6 42 36
7 55 48
8 47 42
Asumiendo que la distribución del tiempo de armado se distribuye normal, para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que el nuevo proceso es mejor que el actual, en cuanto a reducir el tiempo de armado?
Capítulo 6
» 175
2.- Una cadena de supermercados ha realizado una campaña publicitaria para intentar aumentar las ventas de un nuevo producto. Para probar de la publicidad se entrevistó a 8 clientes antes y después de la campaña que indicaran el número de unidades que compraban de dicho producto al mes. En la tabla se muestra el número de productos comprados por cada cliente: Antes de la campaña Después de la campaña
5 6
7 7
4 5
6 7
5 5
4 5
8 9
6 7
Para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la campaña consiguió incrementar las ventas de dicho producto? 3.- Se relaciona muchas veces un incremento en la proporción de ahorros de los consumidores a la falta de confianza en la economía, y se dice que ello es un indicador de una tendencia de recesión económica. Una muestra aleatoria de 200 cuentas de ahorro de una localidad mostró un incremento medio en los valores de las cuentas de 8.5% en los últimos 12 meses y una varianza del 20,25%. Estime el promedio del aumento porcentual en las cuentas de ahorros en los últimos 12 meses para ahorrantes de ésta localidad, use = 0.05 4.- En un proceso de fabricación de una biela se mide el diámetro interno del conducto donde se inserta el pasador de seguridad. Para estimar los parámetros del proceso, se toma una muestra aleatoria de tamaño 18, obteniéndose los siguientes diámetros en milímetros: 14.09, 14.07, 14.09, 14.06, 14.01, 14.04, 14.07, 14.02, 14.04, 14.08, 14.06, 14.04, 14.02, 14.01, 14.07, 14.06, 14.01 y 14.03. Si se supone que los diámetros tienen una distribución aproximadamente normal. a) Construya un intervalo del 99% para el diámetros promedio interno del conducto b) Realice una dócima para verificar si el diámetro promedio interno es de 14 milímetros. Use = 0.01 . c) Realice una dócima para verificar si la varianza es 0.00075 (milímetros)2 . Use = 0.01 . 5.- El administrador de una cooperativa agrícola sospecha que las bolsas de desinfectante de 1500 gramos que está adquiriendo tienen un peso inferior al especificado. Se selecciona una muestra aleatoria de 15 bolsas, se vacía y pesa el contenido neto, obteniendo la siguiente información: 1496.9, 1501.7, 1496.8, 1495.4, 1496.2, 1501.6, 1495.2, 1497.5, 1496.8, 1501.6, 1494.8, 1495.5, 1499.4, 1496.2, y 1501.7. Para un nivel de significación del 5%, qué puede concluir respecto de lo afirmado por el administrador? 6.- Una compañía quiere estimar el tiempo medio entre las ocurrencias de accidentes del personal durante las horas de trabajo, que podrían generar demandas por responsabilidad de la empresa. De las bases de datos de la empresa, se toma una muestra aleatoria de 21 accidentes para el período de tiempo de días entre un accidente y el anterior. Obteniendo la siguiente información : 21, 24, 27, 30, 23, 31, 28, 30, 27, 29, 27, 28, 31, 30, 28, 31, 29, 28, 31, 28 y 22.
176 «
Inferencia
Determine el intervalo de confianza del 95% para el tiempo medio entre las ocurrencias de accidentes del personal, con la posibilidad de demandas por responsabilidad 7.- La oficina de cobranzas de una empresa comercializadora sabe que el 1,8% de los documentos a plazo que le entregan no los podrán cobrar. La oficina probó un sistema de verificación de éste tipo de documentos para reducir las pérdidas por no cobrar. De una muestra aleatoria de 460 documentos 7 de ellos no se pudieron cobrar. Para un nivel de significación del 5%, que puede decir respecto de la efectividad de la verificación de los documentos? 8.- Una empresa distribuidora de productos electromecánicos desea determinar si el precio promedio de las ventas al público de cierta máquina sobrepasa los M$230. Se selecciona una muestra aleatoria de 20 tiendas y se registran los precios de lista de éste producto, los precios en M$ obtenidos son: 223, 225, 236, 241, 239, 223, 240, 242, 227, 229, 225, 231, 245, 228, 225, 223, 239, 227, 246 y 240. Suponiendo que los precios se distribuyen aproximadamente normal a) Construya un intervalo de confianza del 95% para la media del precio b) Construya un intervalo de confianza del 95% para la desviación estándar del precio c) Para un nivel de significación del 5%, qué puede concluir respecto de lo supuesto por la empresa? 9.- Se desea estimar la tensión a la ruptura media de una piola trenzada de alambre de cobre. Para ello se mide las tensiones de ruptura, en kilos. Se seleccionan aleatoriamente 17 de dichas piolas. Obteniendo las siguientes tensiones de ruptura: 142.8, 144.6, 142.7, 141.8, 142.3, 141.7, 141.9, 142.5, 143.2, 142.3, 142.5, 141.6, 141.7, 141.3, 141.7, 142.1 y 142.8. Supóngase que la tensión a la ruptura de la piola se distribuye aproximadamente normal. Determine el intervalo de confianza del 95% para el valor real de la tensión de ruptura promedio de la piola. 10.- Una empresa consultora está interesada en estimar el promedio de dinero que gasta una compañía en cursos de prevención de riesgos, considerando el dinero en viáticos del personal para que asistan. De los diferentes cursos realizados se seleccionó aleatoriamente a 23 empleados, obteniendo los siguientes gastos en viáticos en miles de pesos: 125, 123, 155, 135, 138, 142, 128, 142, 160, 130, 127, 126, 158, 141, 140, 149, 123, 131, 140, 122, 125, 132 y 127. Suponiendo que el dinero gastado por día se distribuye aproximadamente normal, obtenga un intervalo de confianza del 95% para el promedio real de gastos en viáticos. 11.- Se selecciona una muestra aleatoria del gasto por día en electricidad (en miles de pesos) de una planta de mecanizado de piezas metálicas, obteniendo la siguiente información del gasto diario: 12.5, 11.3, 12.5, 13.2, 12,0, 12.4, 11.9, 12.1, 11.6, 12.1, 12.7, y 12.2. Suponiendo que el gasto se distribuye aproximadamente normal, estimar el gasto promedio diarios construyendo un intervalo de confianza del 95%.
Capítulo 6
» 177
12.- Se espera tener cierta variación aleatoria en el espesor de las láminas metálicas que produce una máquina. Se seleccionan en forma aleatoria 15 láminas y se mide su espesor en milímetros. Obteniendo las siguientes mediciones: 0.213, 0.214, 0.221, 0.220, 0.214, 0.215, 0.223, 0.231, 0.233, 0.214, 0.215, 0.222, 0.214, 0.216, y 0.215. Si el espesor se distribuye aproximadamente normal, obtener un intervalo de confianza 95% para el promedio del espesor, y un intervalo de confianza del 95% para la varianza desconocida del espesor. 13.- Se recibe un lote muy grande de artículos provenientes de un fabricante que asegura que el porcentaje de artículos defectuosos en la producción es del 0.45%. Se selecciona una muestra aleatoria de 420 artículos encontrando 2 defectuosos. ¿Qué puede concluir acerca de la afirmación del fabricante para un nivel de significación del 5%?. ¿Se le puede seguir comprando éste artículo? 14.- En un proceso de llenado de tarros de café de 250 gramos, se quiere verifi-car si la máquina está cumpliendo con el valor especificado del proceso. Para ello, se selecciona una muestra aleatoria de 20 tarros encontrando los siguientes pesos netos: 249.8, 248.9, 250.7, 248.7, 251.0, 249.4, 249.8, 250.1, 250.5, 249.7, 249.2, 249.4, 250.5, 250.8, 249.2, 245.1, 249.8, 250.4, 249.7 y 249.8. Para un nivel de significación del 5%, qué puede concluir?. 15.- Los siguientes datos se refieren a los accidentes en una planta industrial que provocan pérdidas de tiempo de procesos. Se cuenta con el número de horas hombre perdidas mensualmente de nueve máquinas de la planta, durante un año, antes y después de realizar un entrenamiento al personal en seguridad industrial: Trabajador i Datos registrados Horas perdidas antes del programa Horas perdidas después del programa
1 38 35
2 63 61
Número de la máquina 3 4 5 6 7 47 70 54 38 49 46 68 53 37 47
8 51 49
9 49 47
¿Proporcionan los datos evidencia suficiente para indicar que el programa de entrenamiento en seguridad industrial ha reducido efectivamente el número de horas perdidas por accidentes? Use =0.05 16.- Se cree que la música de fondo en una tienda de retail afecta en el volumen de compra de los clientes. Se hizo un experimento con clientes habituales de la tienda en días de semana, un día sin música de fondo, otro día con música a un volumen relativamente alto. El monto en compras de cada cliente bajo las dos condiciones se muestra en la tabla (en miles de pesos):
Música Sin Alta
Comprador 1 2 3 4 5 6 7 8 9 10 21,25 22,55 19,55 19,75 20,75 21,45 19,75 19,85 19,85 20,95 18,9 20,2 17,2 17,4 18,4 19,1 17,4 17,5 17,5 18,6
178 «
Inferencia
¿Proporcionan los datos evidencia suficiente que indique una diferencia en el promedio de las
compras diarias de los días sin música contra los días con mú-sica de alto volumen? Use =0.05. 17.- En respuesta a una queja que cierto tasador de antigüedades (A) sistemáticamente subestimaba los valores de ciertas piezas que traían los vendedores. Para verificar la queja se pidió a otro tasador de la misma tienda (B) que valorara las mismas ocho piezas de colección que habían sido tasadas por A. Los ava-lúos (en millones de pesos) obtenidos son: 1 2 3 4 5 6 7 8 Antiguedad 5.85 5.62 5.24 6.58 3.78 5.44 4.82 5.01 Tasador A 5.92 5.89 5.18 6.64 3.73 5.52 4.64 4.84 Tasador B a) Construya un intervalo de confianza del 95% para el valor promedio de los avalúos del tasador A b) Construya un intervalo de confianza del 95% para la varianza del avalúo del Tasador A c) ¿Proporcionan los datos evidencia suficiente para indicar que el tasador A subestima el precio de las piezas de antigüedades respecto del tasador B? Use =0.01 18.- En un estudio se registraron los residuos de metales pesados (milígramos) en carne de bobino alimentados con alfalfa proveniente de un suelo contaminado. Se realiza un proceso de disminución de los metales pesados de dicho suelo. Se cuenta con la información de residuos en 8 trozos carne antes del proceso del suelo y 8 trozos de carne después del proceso al suelo. Antes del proceso 0.0124 0.0270 0.0251 0.0442 0.0385 0.0605 0.0695 0.0675
Después del proceso 0.0120 0.0260 0.0249 0.0429 0.0360 0.0597 0.0689 0.0660
Suponiendo que las poblaciones están distribuidas aproximadamente normal. Hay evidencia suficiente a un nivel de significación del 5%, para decir que se produce un disminución en la traza de metales pesados de la carne? 19.- Un fabricante desea comparar el tiempo de proceso de armado para un producto con un nuevo proceso que supuestamente reduce el tiempo de armado. Se seleccionaron 7 empleados al azar y se les pidió que armaran las unidades con proceso actual, y a otros siete con el nuevo proceso. Obteniendo los siguientes tiempos en minutos por cada empleado:
Capítulo 6
Proceso Actual Proceso Nuevo
53 45
47 47
56 49
50 52
57 50
47 41
» 179
60 53
Suponga que el tiempo de armado se distribuye aproximadamente normal, para un nivel del 5%, ¿se puede afirmar que el proceso nuevo reduce el tiempo de armado?
6.11. Pruebas de Bondad de Ajuste Se utilizan para determinar si una población tiene una distribución teórica específica. La prueba se basa en que tan buen ajuste se tiene, entre la frecuencia de ocurrencia de las observaciones en una muestra y las frecuencias esperadas que se obtienen de la distribución teórica. Se tiene una muestra aleatoria de tamaño n, dividida en k clases exhautivas y mutuamente excluyentes, con Oi , i =1,2,...,k el valor observado en la muestra para la clase i y Ei , i =1,2,...,k, el valor esperado de la distribución teórica para esa misma clase i. Las hipótesis se definen por: Ho : Los datos de la muestra poseen la distribución teórica supuesta H1 : Los datos de la muestra no poseen la distribución teórica supuesta El estadístico de la prueba está definido por
y tiene distribución muestra.
2
con k -1 grados de libertad, donde k es el número de observaciones de la
Si las frecuencias observadas tienen un valor próximo a las frecuencias esperadas de cada casilla, el valor del estadístico 2 será pequeño, lo que indica un buen ajuste, de lo contrario si las frecuencias observadas difieren de las esperadas, el valor de 2 será mayor, en cuyo caso, el juste no será bueno y el valor calculado se ubicará en la región de rechazo de H0. Para este tipo de pruebas, la hipótesis alternativa es unilateral, la región crítica se ubicará en la cola derecha de la distribución 2 , por tanto, si el valor calculado 2cal es mayor que el valor crítico 2 se rechaza H0. k-1,1-
12
n-1,1-
región de rechazo H0
180 «
Inferencia
6.11.1. Prueba para una distribución uniforme Se desea determinar si el número de accidentes con causa de muerte se encuentra distribuido de igual forma para el color de los automóviles involucrados en los accidentes. Para ello, se tomó una muestra aleatoria de 924 accidentes automovilísticos en los cuales ocurrió por lo menos una muerte y se consignó el color del automóvil involucrado, obteniendo la siguiente información: Blanco 79
Azul 150
Burdeos 155
Negro 187
Plomo 185
Amarillo 75
Plateado 93
Para un nivel de significación del 1%, ¿existe evidencia para afirmar que la distribución de accidentes según el color del automóvil es la misma? H0 : La distribución de accidentes según el color es la misma, es decir, la distribución de accidentes es uniforme según el color del automóvil H1 : La distribución de los accidentes según el color del automóvil no es la misma si se supone que la distribución es uniforme, significa que el valor esperado para cada casilla es 924 / 7 = 132, luego:
Oi Ei
Blanco 79 132
Azul 150 132
Burdeos 155 132
Negro 187 132
Plomo 185 132
Amarillo 75 132
Violeta 93 132
= 0.01
1 - = 0.99
= 2 6, 0.99 = 16.81 Región de rechazo H0 2
crítico
Como 2 calculado = 108.075 > 2 6, 0.01 , se rechaza H0, es decir, los accidentes no se distribuyen de igual forma respecto del color de los vehículos involucrados.
Capítulo 6
» 181
6.11.2. Prueba para una distribución normal Si se quiere realizar una prueba de hipótesis para verificar si una variable aleatoria X tiene distribución normal, se definen: H0 : la variable aleatoria X tiene distribución normal H1 : la variable aleatoria X no tiene distribución normal Para realizar esta prueba de bondad de ajuste, se estimarán los parámetros µ y 2 de la distribución normal, mediante los estadísticos X y S2 de una muestra aleatoria, agrupando las observaciones continuas en un número k de intervalos, se rechazara Ho si los valores esperados fuesen muy diferentes a los valores observados en cada intervalo. Intervalo -∞ – y`1 y`1 – y`2 y`2 – y`3 . y´k-1 – +∞ Total Si el valor 2 calculado es mayor al valor tiene distribución normal.
Oi O1 O2 O3 . Ok n 2
crítico
pi p1=P(x ≤ y`1) p2=P(y`1 ≤ x ≤ y`2) p2=P(y`2 ≤ x ≤ y`3) . p2=P(y`k-1 ≤ x) 1
Ei = npi E1 = np1 E2 = np2 E3 = np3 . Ek = npk n
, se rechaza H0 y se puede afirmar que la variable X no
Ejemplo. En una empresa se aplicó un test a 100 trabajadores, con una escala de puntajes de 0 a 100 puntos. Verificar si los puntajes obtenidos tienen distribución normal. 24 52 39 65 57 67 75 77 86 55
76 81 83 96 73 33 68 50 44 44
80 72 94 101 48 26 61 72 47 66
84 63 39 58 64 89 76 42 89 61
88 75 55 103 67 32 68 68 59 70
31 67 54 60 43 53 88 68 74 55
52 87 92 69 46 84 63 102 55 82
83 62 58 88 43 55 66 61 93 88
37 59 56 104 40 65 90 77 43 90
74 34 69 51 45 45 84 97 74 34
182 «
Inferencia
Los estimadores puntuales de los parámetros de la distribución normal obtenidos a partir de esta muestra son X = 65.52 puntos y S = 19.2928 puntos. Para construir la tabla de distribución de frecuencias, se tiene que el puntaje mínimo es 24 y el máximo es 104, luego, el recorrido R= xmáx – xmin = 104 - 24 = 80. El número k de intervalos, conocido el tamaño de la muestra N, se puede determinar a través de la fórmula de Sturgess: K = 1 + 3.32 . log (N) es decir, k = 1 + 3.32 log(100) = 7.64, que aproximado al entero superior es 8, la amplitud del intervalo está dada por A = R/k = 80/8 = 10 Tabla de distribución de frecuencias
Histograma de frecuencias
Puntaje
fi
24 - 34 34 - 44 44 - 54 54 - 64 64 - 74 74 - 84 84 - 94 94 -104 Total
6 10 11 19 20 14 13 6 100
20 16 12 8 4 0
20
40
60
80
100
120
la distribución de frecuencia muestra que los puntajes podrían tener una distribución aproximadamente normal. Las hipótesis serán: H0 : X se distribuye normal con µ = 65.52 puntos y 2 = 372.212 (puntos)2 H1 : X no se distribuye normal con µ = 65.52 puntos y 2 = 372.212 (puntos)2
= 0.05 1 - = 0.95 2
crítico
=
2
0.95 , 7
= 14.073
Capítulo 6
I
LI
LS
Oi
1
−∞
34
7
Probabilidad del Intervalo -1,6338 0,05115 0,05115
2 3 4
34 44 54
44 54 64
10 11 19
-1,1154 0,13234 -0,5971 0,27522 -0,0788 0,46859
5 6
64 74
74 84
20 14
7
84
94
8
94
+∞
Total
zi
P(XFcrítico ,
Fcrítico , 1 Región de rechazo de H0
F(k - 1) (n - K)
Ejemplo. Se desea comprobar si ciertos cambios en el proceso de fabricación del asfalto aumentan su resistencia a la compresión. Se compara la resistencia de probetas fabricadas con el método tradicional, método A, con aquellas fabricadas con procedimientos que se desea probar, métodos B y C. Los datos que se proporcionan están en la misma escala de medida para ser comparados directamente.
Método A Método B Método C 26 24 52 48 33
37 40 36 30 86
71 43 47 73 75
¿Qué se puede concluir con esta información? Use = 0.05. Se tiene que: yig
36,6
45,8
61,8
Ŝi
12,76
22,76
15,47
Ante la pregunta, ¿és el método C mejor que los otros dos?, la respuesta no es clara, aunque la media de C es la más grande, la observación mayor corresponde al método B, y dos observaciones de A son mayores que otras dos de C ¿es esto evidencia suficiente para pensar que el método C es distinto a los otros dos?
194 «
Inferencia
La desviación típica residual es:
0.02
A
B
C
0.01
0
observaciones
AA BABBBCCA A CCC B 20
40
60
80
100
La suma de los cuadrados explicada
La suma de los cuadrados no explicada o residual
Reemplazando en esta tabla a ANOVA. Fuente de variación
Suma de cuadrados
Grados de libertad
Entre grupos
k-1
Interna, no explicada o residual
n-k
Total
SCT = SCE + SCNE
n-1
Varianzas
Capítulo 6
» 195
Se tiene: Fuente de variación
Suma de cuadrados
Grados de libertad
Varianzas
% Explicado
Entre grupos, VE
1626.13
2
813.07
30.64
Residual, VNE
3680.8
12
306.73
69.36
Total, VT
5306.93
14
379.067
Para un =0.05 el Fcrítico = F2,12,0.95 = 3.885. Como Fcalculado < Fcrítico no existe evidencia para rechazar H0. La variabilidad explicada es un 30.64% del total, dado que:
Ejemplo. Las producciones diarias de cuatro máquinas se indican en la tabla. Se desea contrastar si hay diferencias en la producción media diaria entre ellas. M1
M2
M3
M4
203 215 201 205
209 206 216 224
204 198 217 199
228 217 221 230
yi.
206
213.75
204.5
224
Ŝi
6.22
8.02
8.74
6.06
196 «
Inferencia
Fuente de variación
Suma de cuadrados
Grados de libertad
Varianzas
Entre grupos, VE
957
3
319
Residual, VNE
648
12
54
Total, VT
1605
15
106.99
Para =0.05 el valor Fcrítico=F3;12=3.49. Como Fcalculado > Fcrítico se rechaza H0, es decir, se rechaza que existe igualdad de medias. Para determinar que grupos difieren se debe realizar una prueba t entre ellos. Ejercicio. Se desea comparar el monto medio de las demandas por seguros de accidentes laborales, presentadas por cinco grupos de asegurados. Se seleccionan 10 demandas al azar por cada grupo, datos de la tabla. ¿Son los datos de las cinco muestras suficientes para indicar una diferencia en los niveles medios de las demandas entre los cinco grupos de asegurados? G1
G2
G3
G4
G5
1763
2335
1596
4742
2632
5365
2262
2448
2833
6078
3144
1217
2183
1375
4010
2998
5100
4200
3010
1671
6412
3948
1630
1743
3145
1957
4210
1942
1867
5063
2286
1867
2285
2233
2232
1311
4744
1128
2072
2456
1863
2635
1844
4105
3735
2499
1643
2683
2767
1767
capítulo
7
Modelos de regresión
7.1. Gráficos de Correlación Los gráficos de correlación permiten obtener una impresión visual del grado de dependencia existente entre dos variables. La tabla muestra la relación entre el tiempo en meses y el crecimiento en cm de una planta.
Crecimiento(y)
1,8
9,5
2,5
11,2
3,2
12,7
3,9
14,5
4,6
16,1
5,3
17,9
6
19,7
6,7
21,2
7,6
23,4
8,1
24,7
25
21 Crecimiento
Tiempo(x)
17
13
9 0
2
4
6
8
10
Tiempo
se puede apreciar que a medida que transcurre el tiempo la planta crece. Se debe buscar un modelo que permita estimar el crecimiento en función del tiempo. Se buscará un modelo de regresión lineal, para ello, se mide la linealidad que presentan estos puntos del grafico.
198 «
Modelos de regresión
7.1.1. Coeficiente de correlación El coeficiente de correlación permite determinar el grado de asociación lineal existente entre dos variables cuantitativas
desarrollando la expresión se tiene que:
Tiempo xi
Crecimiento yi
xiyi
xi2
yi2
1,8
9,5
17,1
3,24
90,25
2,5
11,2
28
6,25
125,44
3,2
12,7
40,64
10,24
161,29
3,9
14,5
56,55
15,21
210,25
4,6
16,1
74,06
21,16
259,21
5,3
17,9
94,87
28,09
320,41
6
19,7
118,2
36
388,09
6,7
21,2
142,04
44,89
449,44
7,6
23,4
177,84
57,76
547,56
8,1
24,7
200,07
65,61
610,09
170,9
949,37
288,45
3162,03
∑xi 49,7
Estos puntos muestran una buena asociación lineal Características 1. -1 ≤ rxy ≤ 1 2. Valores próximos a cero indican que no existe asociación lineal entre las variables 3. Valores próximos a uno o próximos a menos uno indican que existe asociación lineal entre las variables
Capítulo 7
» 199
7.2. Regresión Lineal Introducción. El nombre genérico de modelos de regresión, proviene de los trabajos de Galton en biología a finales del siglo XIX. Galton estudió la dependencia de la estatura de los hijos (y) respecto a la de sus padres (x), encontrando lo que denominó una regresión a la media: los padres altos tienen, en general, hijos altos, pero, en promedio, no tan altos como sus padres; los padres bajos tienen hijos bajos, pero, en promedio, más altos que sus padres. Desde entonces, los modelos estadísticos que explican la dependencia de una variable y respecto de una o varias variables cuantitativas x se denominan modelos de regresión. Peña (1989). Según Peña (1989), se debe admitir que todos los factores o causas que influyen en una variables respuesta (y) pueden dividirse en dos grupos: el primero contiene una variable (x), conocida al observar (y), que tiene una influencia lineal en la respuesta; el segundo incluye un conjunto muy grande de factores, cada uno de los cuales influye en la respuesta sólo en una pequeña magnitud, que se engloba dentro del nombre común de perturbación aleatoria. El modelo lineal tiene la estructura:
donde yi se denomina variable dependiente, ei se conoce como el error o residuo, ambas son variables aleatorias, que deben cumplir los siguientes supuestos: 1. Los errores tienen esperanza cero, E[ei] = 0 2. La varianza del error es constante, Var(ei) = 2c 3. Los errores tiene distribución normal de media cero y varianza constante, ei ~ N(0, 4. Los errores ei son independientes entre si, Cov(ei, ei)= 0 i ≠ j
)
2 k
A
Estas condiciones se pueden expresar respecto a la variable respuesta y por: 1. La esperanza de la respuesta depende linealmente de x, E[yi / xi] = 0 + 1xi , el parámetro 0 representa el valor medio de y cuando x es cero, 1 representa el incremento que experimenta la media de y cuando x aumenta en una unidad 2. La varianza de la distribución de yi es constante, Var(yi) = 3. La distribución de y para cada x es normal, y ~ N(μ, 4. Las observaciones yi son independientes entre sí
)
2
2
200 «
Modelos de regresión
Ejemplos: yi
xi
ei
Sueldo de un empleado
Número de horas de trabajo
Efecto de los estudios, del tipo de empresa, de los años de servicio, entre otros.
Peso del vehículo
Efecto del tipo de pavimento, de las condiciones ambientales, de la potencia del vehículo, del número de cilindros, entre otros.
Rendimiento de litros de bencina por kilómetro recorrido
Efecto del tipo de alimentación, enfermedades, entre otros.
Estatura de un niño
Edad
Sueldo de un investigador
Número de horas de trabajo
Efecto del tipo de proyecto, del número de coinvestigadores, entre otros.
Presupuesto de una Universidad
Número de alumnos
Efecto del número de funcionarios, del número de laboratorios, entre otros.
El error se mide como la diferencia entre el valor observado (o medido) de una variable respecto del valor estimado por el modelo: ei = yi -
0
- 1Xi
Para obtener un modelo de regresión lineal, primero se debe verificar si la varia-ble dependiente tiene distribución normal. Dada una secuencia de pocos valores, para determinar si provienen de una distribución normal, éstos se deben ordenar en forma creciente, y asignarles el valor de probabilidad acumulada, estimada por la función con corrección de continuidad de Yates, luego, representarlos en un gráfico de escala probabilística. Si los puntos están alineados en una recta centrada en el punto ( , 50) en este gráfico graduado en ordenadas en escala probabilística, se dice que los datos pro-vienen de una distribución normal. Para el ejemplo, la variable dependiente Crecimiento: 9.5, 11.2, 12.7, 14.5, 16.1, 17.9, 19.7, 21.2, 23.4, 24.7; usando la fórmula de Yates, se les asigna la probabilidad acumulada estimada que le correspondería por:
Se aplica la prueba de Shapiro-Willes H0: la variable tiene distribución normal H1: la variable no tiene distribución normal Se rechaza H0 si p < 0.05
Capítulo 7
Normal Probability Plot of Crecimiento yi
2,0
i
pi
9,5
1
0,05
1,5
11,2
2
0,15
1,0
12,7
3
0,25
14,5
4
0,35
16,1
5
0,45
17,9
6
0,55
19,7
7
0,65
21,2
8
0,75
23,4
9
0,85
-1,5
24,7
10
0,95
-2,0 8
Cumulative percent
Crecimiento
» 201
0,5 0,0 -0,5 -1,0
10
12
14
16 18 20 22 Observed Value Crecimiento yi: SW-W= 0,9657| p = 0,8482
24
26
Como no existen puntos alejados de la recta ni tampoco se aprecian curvaturas, se puede afirmar que la variable dependiente, crecimiento, tiene distribución aproximadamente normal. 7.2.1. Método de mínimos cuadrados El método de mínimos cuadrados consiste en estimar los parámetros de los cuadrados de los errores sea mínima.
0
y
1
de modo que la suma
para minimizar esta expresión E, se deben obtener las derivadas parciales respecto de
0
y
1
202 «
Modelos de regresión
para obtener los estimadores de
0
y
1
se igualan a cero estas derivadas y se resuelve el sistema:
despejando y reemplazando, se obtiene que los estimadores mínimo cuadrados son: y
para el ejemplo se tiene que:
Utilizando el programa Statgraphics se obtienen los siguientes resultados: Model fi$ing results for: Crecimiento Independent variable
coefficient
std. error
t-value
sig.level
Constant
5.097406
0.07015
72.6641
0.0000
Tiempo
2.412997
0.013062
184.7406
0.0000
R-SQ. (ADJ.) = 0.9997 SE= 0.084083 MAE=0.064989
Capítulo 7
Analysis of Variance for the Full Regression Source
Sum of Squares
DF
Mean Square
F-Ratio
Model
241.292
1
241.292
34129.1
Error
0.0565599
8
0.00706999
Total (Corr.)
241.349
9
P-value 0.0000
R-squared = 0.999766
Los intervalos de confianza del 95% para los coeficientes estimados Estimado
error estándar
Limite inferior
Limite superior
Constante
5.09741
0.07015
4.93559
5.25922
Tiempo
2.41300
0.01306
2.38287
2.44313
el modelo de regresión lineal para estimar el Crecimiento está dado por:
Numero
Tiempo
Crecimiento observado
Crecimiento estimado
Errores
Errores estandarizados
1
1,8
9,5
9,4408
0,00592
0.85341
2
2,5
11,2
11,1299
0,0701
0.95570
3
3,2
12,7
12,819
-0,119
-1,74724
4
3,9
14,5
14,5081
-0,00809
-0.09646
5
4,6
16,1
16,1972
-0,09719
-1,26577
6
5,3
17,9
17,8863
0,01371
0.16132
7
6
19,7
19,5754
0,12461
1,78994
8
6,7
21,2
21,2645
-0,06448
-0.82602
9
7,6
23,4
23,4362
-0,03618
-0.47772
10
8,1
24,7
24,6427
0,05732
0.81949
No se encuentran residuos más allá de 3 sigmas
» 203
204 «
Modelos de regresión
Fig 7.1 Gráfico de los residuos
Residual Plot for CRECIMIENTO
0.13 0.08
Residuals
0.03 -0.02 -0.07 -0.12 9
13
17
21
25
Predicted
en la Fig 7.1 de los residuos se aprecia que los errores tienen un comportamiento aleatorio en torno al cero, si se aplica el método de Yates a estos residuos, se puede asumir que estos tienen distribución aproximadamente normal con media cero, Fig 7.2. Aplicando el test de Shapiro-Wille p > > 0.05no hay evidencia para rechazar H0 Fig 7.2 Gráfico de normalidad de los residuos
2,0
Normal Probability Plot of ei
Expected Normal Value
1,5 1,0 0,5 0,0
-0,5 -1,0 -1,5
-2,0 -0,14 -0,10 -0,08 -0,02 0,02 0,08 0,10 0,14 -0,12 -0,08 -0,04 0,00 0,04 0,08 0,12 0,18 Observed Value ei: SW-W = 0,9653| p = 0,8444
Capítulo 7
» 205
Ejercicios: 1.- Las autoridades de una municipalidad afirman que los ingresos de los negocios en fiestas patrias se puede predecir por las toneladas de basuras que se barren después de la fiesta en cada año. En la tabla se muestra la información de los últimos diez años. Determine un modelo que permita relacionar los ingresos municipales según las toneladas de basura. Basuras (toneladas)
2.1 3.5 1.1 0.5 3.6 2.1 3.5 3.4 3.3 2.5
Ingresos de impuestos 2.1 2.5 1.8 0.7 2.5 2.1 3.1 2.9 3.3 3.2 al municipio (millones)
2.- Los habitantes de un municipio están preocupados por el encarecimiento de las viviendas en la zona. El Alcalde piensa que los precios de las viviendas fluctúan con el valor de los terrenos. Con la siguiente información en millones de pesos, construir un modelo de regresión lineal para el valor de las viviendas en función del precio del terreno. Valor del terreno
7.0 6.9 5.5
3.7
5.9 3.8 8.9 9.6 9.9
10
Coste de la casa
67
54
58
92
63
60
36
76
87
89
7.2.2. Análisis de los residuos Anscombe (1973), presenta conjuntos de datos para cuatro modelos de regresión de acuerdo a la siguiente tabla: Grupo 1
Grupo 2
Grupo 3
Grupo 4
x1
y1
x2
y2
x3
y3
x4
y4
4
4,26
4
3,1
4
5,39
8
6,58
5
5,68
5
4,74
5
5,73
8
5,76
6
7,24
6
6,13
6
6,08
8
7,71
7
4,82
7
7,26
7
6,42
8
8,84
8
6,95
8
8,14
8
6,77
8
8,47
9
8,81
9
8,77
9
7,11
8
7,04
10
8,04
10
9,14
10
7,46
8
5,25
11
8,33
11
9,26
11
7,81
8
5,56
12
10,84
12
9,13
12
8,15
8
7,91
13
7,58
13
8,74
13
12,74
8
6,89
14
9,96
14
8,1
14
8,84
19
12,5
206 «
Modelos de regresión
el modelo aproximado para los cuatro grupos es:
la varianza residual es la misma para los cuatro modelos con un valor de 1.52. El coeficiente de correlación lineal es 0,816 para los cuatros modelos, todo esto parecería indicar que las cuatro regresiones son la misma. Si se aplica el test de normalidad a las variables respuestas yi se podrá apreciar que sólo y1 tiene distribución normal, por tanto, no se puede ajustar un modelo de regresión lineal al grupo 2, 3 y 4. Si se analiza los residuos se obtienen las Fig 7.3, 7.4, 7.5 y 7.6: Fig 7.4 Residuos para y2
Fig 7.3 Residuos para y1
Residual Plot for Y2
2
2
1
1 Residual
Residual
Residual Plot for Y1
0
-1
0
-1
-2
-2 5
6
7
8
Predicted
9
10
11
5
6
7
8
Predicted
9
10
11
» 207
Capítulo 7
Fig 7.4 Residuos para y 4
Fig 7.5 Residuos para y3
Residual Plot for Y3
Residual Plot for Y4
3.8
2.2
1.2
1.8
Residual
Residual
2.8
0.8
0.2
-0.8
-0.2 -1.2
-1.8 5
6
7
8
Predicted
9
10
7
8
9
10
11
12
13
Predicted
En la Fig 7.3 muestra que los residuos tienen un comportamiento aleatorio en torno al cero, en cambio, en la Fig 7.4 se observa una curvatura lo que implica que posiblemente se debería incorporar al modelo un término cuadrático, en la Fig 7.5 se observa un valor anómalo que determina toda la estructura de la regresión, en la Fig 7.6 la pendiente de modelo está determinada por un sólo valor. Si se aplica el test de normalidad a los residuos de las tres últimas regresiones, no se cumplirá el requisito, por lo cual no se puede ajustar una modelo de regresión lineal en estos casos. Homocedasticidad. Otro de los requisitos de los errores es la que deben tener varianza constante, homocedasticidad. A continuación se muestran distintas situaciones que se pueden presentar al analizar los residuos o errores. En la Fig 7.7 se observa que los errores van en aumento cuando la estimación aumenta, esto indica que no se cumple el supuesto de varianza constante.
208 «
Modelos de regresión
Fig 7.7 Errores
Fig 7.8 Errores
En la Fig 7.8 se observa que la variabilidad de los errores aumenta al aumentar el valor de la estimación, pero, además muestra una curvatura lo que indicaría no linealidad. En al Fig 7.9 se observa una autorrelación negativa (valores por sobre la media van seguido por uno por debajo de la media y así sucesivamente. Fig 7.9 Errores autocrrelacionados
Fig 7.10 Errores autocorrelacionados
Capítulo 7
» 209
En al Fig 7.10 se observa una autocorrelación positiva, puntos por sobre la media van seguido por puntos sobre la media (lado izquierdo del gráfico), o también, se pueden presentar puntos por debajo de la media seguidos por puntos por debajo de la media (lado derecho del gráfico). En la Fig 7.11 el punto P(xp,yp) el modelo que se obtiene es casi el mismo si se incluye o no el punto P, dado que ei = y(xp) - yp es próximo a cero, por tanto, incluir o no el punto P en el modelo dado que es influyente a priori por estar alejado de los restante valores de x, pero, a posteriori si se saca del modelo no tiene una relevancia importante. Fig 7.11 Punto alejado
yp y(xp)
P
xp
En cambio si se presenta la situación de la Fig 7.12, incluir el punto P(xp,yp) es muy influyente dado que el error ei = y(xp) - yp resulta muy grande. Fig 7.12 Punto alejado
y(xp)
P
yp
xp
210 «
Modelos de regresión
En la Fig 7.13, se aprecian dos puntos anómalos, que al estar equidistantantes contrarestan su efecto en el modelo, es decir que al quitarlos no afectan los parámetros del modelo, pero, deben ser eliminados por ser anómalos. Fig 7.13 Puntos de apalancamiento
xp
xq
Si los residuos estandarizados son mayores a - 3.0 o menores a 3.0, indica que dicho punto es anómalo respecto de la variable dependiente. En la Fig 7.14 se muestran dos puntos cuyos residuos estandarizados están alejados más de tres desviaciones estándar del origen. Fig 7.14 Puntos con residuos estandarizados alejados más de 3 del origen
3.5 2.5 1.5 0.5 -0.5 -1.5 -2.5 -3.5
Otros puntos anómalos son denominados DEFFITS (difference between fi4ed values), miden la diferencia entre el valor observado de la variable dependiente respecto del valor estimado por el modelo, se considera el punto como anómalo si DEFFITS es mayor a , donde p es el número de coeficientes en el modelo y n es el número de casos completos.
Capítulo 7
» 211
Los puntos anómalos denominados Leverage (puntos de apalancamiento) son observaciones que son distintas a las restantes basados en los valores de las variables independientes. Tienen un impacto importante en los coeficientes estimados para una o más variables independientes Los puntos anómalos denominados Leverage (puntos de apalancamiento) son observaciones que son distintas a las restantes basados en los valores de las variables independientes. Tienen un impacto importante en los coeficientes estimados para una o más variables independientes Si el valor del Leverage en valor absoluto es mayor a p es el
si n>30, o superior a
si n < 30, donde
número de coeficientes en el modelo y n es el número de casos completos, los puntos se consideran anómalos.
7.3. Linealización de modelos En muchas situaciones experimentales no se conoce el tipo de modelo que es posible ajustar para relacionar una variable dependiente con una independiente, sólo se dispone de un pequeño número de pares ordenados correspondientes a los resultados del estudio, que al graficarlos muestran una nube de puntos y se quiere ajustar un modelo por lo que se necesita obtener los parámetros que lo determinan, a continuación se analizan distintos tipos de modelos y el procedimiento que permite estimar sus parámetros. 7.3.1. Modelo exponencial Dado un modelo exponencial de la forma y = a . ebx en la Fig 7.15 se muestran las cuatro formas distintas que puede tener un modelo exponencial. Si se cambian los valores de a y b, las formas serán similares, la nube de puntos de un experimento de este tipo debiera mostrar alguna de estas tendencias. Fig 7.15 Gráficos de modelos exponenciales centrados en el origen
y = e-x
y = ex
y = e-x
y = ex
212 «
Modelos de regresión
Para obtener los parámetros a y b del modelo y = a ebx se aplica logaritmo natural a esta expresión se obtiene In y = In a + bx designado por Y a ln y, por 0 = ln a, por 1 =b y X=x, se tiene un modelo lineal de la forma Y = 0 + 1X que es la ecuación de una recta en un sistema semilogaritmico. Para obtener los valores estimados de 1
0
y
1
se utiliza el método de mínimos cuadrados, donde
= m = b y a = antilogaritmo( 0)
Se puede afirmar que si el coeficiente de correlación lineal de estos puntos dibujados en este sistema semilogarítmico, en valor absoluto es próximo a 1, se debería ajustar un modelo exponencial a los datos obtenidos. Ejemplo. Se intenta obtener la ecuación que permita estimar a la carga que tiene un condensador de un radiotransmisor operando en forma continua, en un instante dado, para ello, se midió el voltaje del condensador cada 5 minutos obteniendo:
Fig 7.16 Voltaje en función del tiempo
Tiempo
1
2
3
4
5
6
7
8
9
Voltaje
7,08
5,35
4,26
3,19
2,53
1,98
1,62
1,21
1,00
4
6
8
10
8
6
4
2
0 0
2
Tiempo
Capítulo 7
» 213
en la Fig 7.16, se aprecia que podría existir un modelo exponencial que ajuste estos valores, dado que se sabe que la velocidad de descarga de un condensa-dor es proporcional a la carga presente en cada instante de tiempo, aplicando logaritmo natural a los valores de voltaje, se tiene: Tiempo
1
2
3
4
5
6
7
8
9
In Voltaje
1,96
1,68
1,45
1,16
0,93
0,68
0,48
0,19
0,00
Fig 7.17 ln(Voltaje) en función del tiempo
2
In ( Voltaje)
1.6 1.2 0.8 0.4 0
0
2
4
6
8
10
Tiempo
En la Fig 7.17, se puede apreciar una tendencia lineal, por lo que se puede afirmar que el voltaje en función del tiempo está determinado por un modelo exponencial, aplicando mínimos cuadrado se tiene: 1
= m = b = -0.2449856, a = antilogaritmo(2.17248599) = 8.780084
el coeficiente de correlación lineal de los datos en este sistema semi-logarítmico es rxy = -0.999305, por tanto, la variación explicada por el modelo es de un 99.86%, el modelo que permite estimar la carga en cada instante de tiempo está dado por: ŷ = 8.780084 . e-0.2449856 x Tiempo
1
2
3
4
5
6
7
8
9
Voltaje
7,08
5,35
4,26
3,19
2,53
1,98
1,62
1,21
1,00
Voltaje estimado
6,87
5,38
4,21
3,30
2,58
2,02
1,58
1,24
0,97
ei
0,21
-0,03
0,05
-0,11
-0,05 -0,04
0,04
-0,03
0,03
214 «
Modelos de regresión
7.3.2. Modelo Potencial Dado un modelo potencial de la forma y = a . xb en la Fig 7.18 se muestran formas distintas que puede tener un modelo potencial dependiendo de los valores a a y b, por lo cual, la nube de puntos de un experimento de este tipo debiera mostrar alguna de estas tendencias Fig 7.18 Gráficos de modelos potenciales centrados en el origen
y = x3
y = -x
y=x y = x2
y = x4
y =√x
y =√-x
3
y =√x
y = -√-x
y = -√-x y = -x3
y = -x2
Para obtener los parámetros a y b del modelo y = a . xb se aplica logaritmo natural a esta expresión obteniendo In y = In a + b . In x designado por Y a ln y, por
0
= ln a, por y=
0
1
+ 1X
=b y X = ln x, se tiene un modelo lineal de la forma
Capítulo 7
» 215
que es la ecuación de una recta en un sistema bilogaritmico. Para obtener los valores estimados de 0 y 1 se utiliza el método de mínimos cuadrados, donde 1
= m = b y a = antilogaritmo( 0)
Se puede afirmar que si el coeficiente de correlación lineal de estos puntos dibujados en este sistema bilogaritmico, en valor absoluto es próximo a 1, se debería ajustar un modelo potencial a los datos obtenidos. Ejemplo. Se obtienen los valores del aumento de la presión de una caldera a medida que aumenta la temperatura Tiempo
0,1
0,5
0,9
1
1,25
2
2,3
2,8
3,2
Presión
0,58
1,63
2,34
2,5
2,86
3,84
4,15
4,6
5,21
en el gráfico de correlaciones se puede apreciar que existe una curvatura que podría suponer la existencia de un modelo potencial. aplicando logaritmo natural a la tabla de observaciones medidas se tiene:
ln(Temperatura) -2,3026 -0,6931 -0,1054 0,0000 0,2231 ln(presión)
0,6259 0,8329 0,9002 0,9163
0,9478
0,6931
0,8329
1,0296
1,1632
1,0043
1,0152
1,0473
1,0647
Fig 7.19 Presión en función de la Temperatura
3.0 2.8
Presión
2.6 2.4 2.2 2.0 1.8 0
1
2 Temperatura
3
4
216 «
Modelos de regresión
Fig 7.20 ln(Presión) en función de ln(Temperatura)
(x0.01) 112
In (Presión)
102 92 92 72 62 -2.4
-1.4
-0.4 0.6 In (Temperatura)
1.6
En el gráfico bilogaritmico de la Fig 7.20 se aprecia una tendencia lineal de los puntos, por lo que se puede afirmar que la Presión en función de la Temperatura obedece a un modelo potencial con: 1
= m =0.125744135 = b y a = antilogaritmo(0.916546185) = 2.5006
el coeficiente de correlación lineal de los datos en este sistema bilogaritmico es rxy=0.999743553, por tanto, la variación explicada por el modelo es de un 99.95%. el modelo de presión en función de la temperatura está dado por: ŷ = 2.5006 . x0.125744135 Tiempo
0,1
0,5
0,9
1
1,25
2
2,3
2,8
3,2
Presión
0,58
1,63
2,34
2,5
2,86
3,84
4,15
4,6
5,21
Presión estimado
1,8720
2,2919
2,4677
2,5006
2,5718
2,7283
2,7767
ei
2,8462 2,8944
-0,0020 0,0081 -0,0077 -0,0006 0,0082 0,0017 -0,0167 0,0038 0,0056
7.3.3. Modelo Hiperbólico Para un modelo hiperbólico que pasa por el origen de la forma
Considerando a, b y c positivos, la curva tiene la siguiente forma:
Capítulo 7
» 217
Fig 7.21 Modelo hiperbólico
y
x
para linealizar este modelo, se requiere tomar el recíproco de la expresión
que es una recta en un sistema 1/x versus 1/y. Luego , determinados en 1 y obtener los valores de b y c.
basta fijar a
Ejemplo. En un proceso de reacción química, la velocidad de reacción está dada en función de la concentración de sustrato que intervenga. En la tabla de muestran diferentes velocidades de reacción en función de las concentraciones que se ocupen. Concentración
0,2
0,8
1,2
1,6
2,5
3,1
3,5
Velocidad
0,48
1,075
1,235
1,34
1,458
1,505
1,53
Concentración
4,2
5,1
6,3
7,2
8,6
10
Velocidad
1,56
1,589
1,613
1,634
1,651
1,665
218 «
Modelos de regresión
Fig 7.22 Velocidad en función de la Concentración
1.8 1.5
Velocidad
1.2 0.9 0.6 0.3 0 0
2
4 6 Concentración
8
10
Los valores de los recíprocos se muestran en la tabla: recíproco(Concentración)
5
1,25
0,833
0,625
0,4
0,323
0,286
recíproco(Velocidad)
2,083
0,93
0,81
0,746
0,686
0,664
0,654
recíproco(Concentración)
0,238
0,196
0,159
0,139
0,116
0,1
recíproco(Velocidad)
0,641
0,629
0,62
0,612
0,606
0,601
la gráfica de estos recíprocos está dada por: Fig 7.23 1/Velocidad en función de 1/Concentración
2.1
1 / Velocidad
1.8 1.5 1.2 0.9 0.6 0
1
2
3
1/ Concentración
4
5
Capítulo 7
» 219
si a = 1, b = 0.56610657 y c = 0.302408524, luego el modelo es
el coeficiente de correlación rxy=0,999874212, luego la variación explicada por el modelo es de un 99.97%. Concentración
0,2
0,8
1,2
1,6
2,5
3,1
3,5
Velocidad
0,480
1,075
1,235
1,340
1,458
1,505
1,530
Velocidad estimada
0,484
1,071
1,237
1,342
1,477
1,530
1,556
ei
-0,004
0,004
-0,002
-0,002
-0,019
Concentración
4,2
5,1
6,3
7,2
8,6
10
Velocidad
1,560
1,589
1,613
1,634
1,651
1,665
Velocidad estimada
1,592
1,625
1,655
1,672
1,691
1,705
ei
-0,032
-0,036 -0,042
-0,038
-0,025 -0,026
-0,040 -0,040
7.4. Modelos de Regresión Múltiple Introducción. Un modelo de regresión múltiple permite estudiar la relación existente entre k variables independientes, conocidas como regresores, respecto de una variable dependiente, es una extensión del modelo de regresión lineal simple. Una variable dependiente y, puede ser la respuesta respecto de varias variables independientes x1,...,xk. A través de un modelo de regresión múltiple se intenta medir el efecto de aquellas variables independientes significativas, considerando las no significativas como parte del error aleatorio. Algunos ejemplos que es posible estudiar a través de modelos de regresión múltiple pueden ser: A. determinar el sueldo de un profesor respecto de los años de estudio, del número de cursos de especialización realizados, de los años de servicio, de la edad, de la antigüedad en la Universidad, de las publicaciones que posea, entre otros. B. determinar la calidad de un pistón en función de la aleación con que se fabrica, de la temperatura de fundido, del tiempo de enfriamiento, del porcentaje de fisuras en la superficie, del proceso de templado, entre otros.
220 «
Modelos de regresión
C. determinar el precio de un producto en función del gasto en electricidad en producirlo, del gasto en materia prima, del gasto en remuneraciones, del costo de garantía, del tiempo de proceso, entre otros. D. determinar como influye sobre el rendimiento en kilómetros por litro de un vehículo, el peso del vehículo, la potencia, la aceleración, el número de pistones, el tipo de carburador, entre otros. Para obtener un modelo de regresión múltiple, se deben verificar algunas hipótesis tanto de la distribución del error, como de la relación entre la variable dependiente y las variables independientes. Sea y la variable dependiente o variable respuesta, sean X1 ...,Xk, las n variables independientes o explicativas o regresores, una observación yi puede escribirse por : yi =
0
1
X1 +
2
X2+ . . .
k-1
Xk - 1 +
k
Xk + ei
donde cada coeficiente i mide el efecto sobre la variable respuesta de un aumento unitario en la variable independiente Xi cuando todas las otras variables permanecen constantes, ei es el error aleatorio. Al igual que en el modelo de regresión lineal simple, el error debe cumplir con las siguientes supuestos: 1. Los errores tienen esperanza cero, E[ei] = 0 2. Los errores tiene distribución normal de media cero y varianza constante, 3. Los errores ei son independientes entre sí, Las hipótesis respecto de los errores pueden escribirse en términos de la variable dependiente por: 1. para cada conjunto fijo de valores de las variables independientes Xi, la distribución de y tiene esperanza 2. la varianza de la variable dependiente y es constante, es decir, no depende de los valores de las variables independientes Xi, 3. las variables Xi son independientes entre sí 4. la variable dependiente y tiene distribución normal 7.4.1. Determinación de los parámetros
i
La variable aleatoria y tiene distribución normal, por lo que el método de máxima verosimilitud equivale a mínimos cuadrados. Para obtener los estimadores se debe minimizar la suma de los cuadrados de los errores, SCE:
si se deriva respecto a
0
y se iguala a cero se tiene que:
Capítulo 7
» 221
como los errores se determinan por ei = yi - ŷi , reemplazando en la ecuación anterior se tiene que:
derivando respecto a j, se obtiene:
de esta forma se obtiene el siguiente sistema de ecuaciones:
este sistema puede escribirse matricialmente por:
designando por X a la matriz de datos cuyas columnas son los valores correspondientes a las variables independientes más una columna de unos del término o, por Y al vector de observaciones y ˆ al de parámetros, se tiene:
XT . Y = XT . X . ˆ como la matriz XTX es no singular, el vector de los parámetros ˆ está dado por:
222 «
Modelos de regresión
7.4.2. Matriz de varianzas-covarianzas Dado que XT Y = XTX ˆ , si se divide ambos términos por n y designando por:
la expresión Sxx se conoce como la matriz de varianzas y covarianzas entre las variables independientes, la expresión Sxy es el vector de covarianzas entre las variables independientes y la variable respuesta, luego, se puede escribir que el vector de los parámetros está dado por: ˆ ˆ
ˆ
Si las variables X son no correlacionadas, las matriz XT X será diagonal y cada coeficiente vendrá dado por el cuociente entre la Cov(x,y) y la Var(X). Por tanto, cuando las X son no correlacionadas sus efectos individuales sobre la respuesta son iguales a sus efectos marginales (estudiados dentro del conjunto de variables). Pero, cuando las X son dependientes entre si, sus coeficientes estimados por regresión múltiple pueden ser muy distintos de los de regresión simple. 7.4.3. Validación del Modelo de Regresión Múltiple Se deben tener presente los problemas principales que pueden surgir al construir un modelo de regresión, los efectos sobre las propiedades del modelo y como reformularlos para adecuarlos al problema en estudio. Una dificultad se presenta cuando las variables explicativas están correlacionadas, es decir, son dependientes entre sí. Ya que será difícil separar sus efectos y medir la contribución que cada una de ellas realiza a la respuesta, ello traerá como consecuencia que los estimadores de los parámetros no serán estables y la varianza aumentará. Esto se conoce como multicolinealidad y se produce al intentar extraer de la muestra más información que la que realmente contiene. Para verificar las hipótesis básicas del modelo de regresión múltiple, al igual que en regresión lineal simple, se deben analizar los residuos estimados. Se mencionarán algunos criterios que permitan identificar y corregir desviaciones en las hipótesis tales como: variables relevantes no incluidas, falta de linealidad (errores de especificación de la relación), falta de normalidad, entre otros. Algunos autores proponen para mitigar algunos de estos problemas, hacer menos exigentes las hipótesis básicas, y formulan un modelo más general, realizando la estimación a través del método de mínimos cuadrados generalizados.
Capítulo 7
» 223
Según Peña (1987), algunos problemas que se pueden presentar en regresión múltiple son: Hipótesis del modelo
Problema
Las variables X toman valores distintos en la muestra.
Multicolinealidad: las variables X toman valores muy semejantes en la muestra.
E[y] = TX
Error de especificación: E[y] ≠ TX
La distribución de ei es normal.
Falta de normalidad: ei no es normal
Var(ei) = constante
Heterocedasticidad: Var(ei) ≠ constante
ei independientes entre sí.
Autocorrelación: ei dependientes
La estimación de los parámetros del modelo de regresión requiere obtener la matriz inversa de la matriz XTX, pero, si una de las variables explicativas es combinación lineal de las otras variables explicativas (colineal con el resto) la matriz X tendrá rango menor que (k+1), número de parámetros, por lo cual la matriz XTX será singular y el sistema de ecuaciones que determina los parámetros no tendrá solución única. También, puede darse el caso que algunas o todas las variables explicativas estén altamente correlacionadas entre sí, lo que se conoce como alta multicolinealidad, lo que producirá que: i) los estimadores tendrán varianzas muy altas, y ii) las estimaciones serán muy dependientes entre sí. S12 = r . S1S2 ; |XTX| = S21S22(1 - r2) luego,
en este caso, las varianzas teóricas de los estimadores serán:
como la varianza del coeficiente de regresión simple entre la respuesta y Xi es donde S2 es la varianza del regresor i-ésimo, se tiene que:
224 «
Modelos de regresión
y el coeficiente de correlación entre las estimaciones de ˆ 1 y ˆ 2 estará dado por:
valor que es igual en valor absoluto a la correlación entre las variables. Esto permite determinar que si aumenta (en valor absoluto) el coeficiente de correlación entre las variables explicativas, automáticamente, aumentarán las varianzas de las estimaciones y su dependencia. De acuerdo a estos resultados, se puede afirmar que se puede estimar con mayor precisión un efecto global medido por una regresión simple que un efecto parcial medido por una regresión múltiple. El problema que se presenta cuando las variables explicativas están muy correlacionadas entre si, es que sus efectos individuales se medirán con poca precisión y con estimaciones muy dependientes entre sí. Una vez obtenido el modelo de regresión múltiple, se requiere verificar las hipótesis de linealidad, normalidad, homocedasticidad e independencia a través de la información que proporciona los residuos sobre estas hipótesis, al igual que en los modelos de regresión lineal simple, véase Peña (1987). Complementado el análisis realizado en valores anómalos revisados en regresión lineal simple, se puede determinar si existen valores anómalos en las variables independientes a través del estadístico denominado Distancias de Mahalanobis.
con
la matriz de varianzas covarianzas entre las variables independientes.
La distancia de Mahalanobis se distribuye x2k con k grados de libertad, siendo k el número de variables independientes La distancia de Mahalanobis generalizada es la distancia entre dos o más grupos. Permite medir en cuanto difieren los valores en las variables independientes, permite describir la separación entre grupos o entre muestras individuales y los grupos en varias dimensiones. Ubicado el centroide de la nube de puntos de las variables independientes, se trata de detectar todos aquellos puntos o variables que están alejadas de este centroide. Un valor grande de la distancia de Mahalanobis para un caso, significa que tiene valores extremos para una o más de las variables independientes, dichos puntos son posibles observaciones influyentes a priori.
Capítulo 7
» 225
Ejemplo 1. Se realiza un estudio en 23 localidades respecto del Precio de la vivienda en millones de pesos, respecto de las variables independiente, X1: Superficie (m2), X2: Calefacción (consumo eléctrico M$ mensual), X3: Jardines (m2), X4: Juegos infantiles (m2), X5: Piscina (m2) y X6: Estacionamientos (m2). Se desea encontrar un modelo que permita estimar el precio de una vivienda dependiendo de estas características. La tabla muestra los resultados obtenidos. Localidad
X1
X2
X3
X4
X5
X6
Precio
1
45
46
1726
215
163
470
38
2
170
102
1726
215
163
1680
168
3
60
20,1
650
110
55
600
54
4
70
22,3
525
150
60
650
65
5
85
30,1
1000
140
85
800
75
6
100
32,5
1200
160
120
1100
110
7
95
35
1203
170
114
1200
110
8
110
37
1334
181
126
1100
124
9
20
18,5
500
100
50
450
12
10
120
68
1203
170
114
1450
115
11
30
19,2
600
120
60
380
22
12
220
150
2118
250
200
2150
210
13
125
40
1464
192
139
1200
139
14
40
43
1595
204
151
500
32
15
180
110
1987
238
188
2040
198
16
60
49
1856
227
176
680
42
17
70
52
1987
238
188
700
55
18
80
55
2118
250
200
800
75
19
120
62
1200
160
120
1200
110
20
160
105
1856
227
176
1930
183
21
135
84
1334
181
126
1500
124
22
145
95
1464
192
139
1684
139
23
160
100
1595
204
151
1750
154
226 «
Modelos de regresión
Fig 7.24 Normalidad de la variable dependiente
Normal Probability Plot of PRECIO 2,5 2,0 1,5
Expected Normal Value
1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5
0
20
40
60
80
100
120
140
160
180
200
220
Observed Value
En la Fig 7.24, se puede apreciar que la variable dependiente Precio tiene distribución aproximadamente normal, p = 0,495 Se procede a utilizar Statistica, para determinar los coeficientes estadísticamente significativos del modelo, y los intervalos de confianza de estos coeficientes. Parameter Estimates(Spreadsheet1) Sigma-restricted parameterization PRECIO
PRECIO
PRECIO
PRECIO
-95.00%
+95,00%
PECIO
PRECIO
-95,00%
+95,00%
Param
Sdt.Err
t
p
Cnf.Lmt
Cnf.Lmt
Beta( )
St.Err.
Cnf.Lmt
Cnf.Lmt
-35,4516 14,95405
-2,37070
0,030653
-67,1528
-3,75041
"X1"
0,8102
0,14765
5,48735
0,000050
0,4972
1,12319
0,739486
0,134762
0,453803
1,025168
"X2"
-0,6082
0,12849
-4,73350
0,000225
-0,8806
-0,33582
0,377729
0,079799 -0,546896 -0,208563
"X3"
-0,0040
0,04058
-0,09847
0,922785
-0,0900
0,08203
-0,034801 0,353430 -0,784039 0,714437
"X4"
0,1432
0,20520
0,69778
0,495330
-0,2918
0,57819
0,108874
0,156029 -0,221893
"X5"
0,0390
0,51049
0,07636
0,940080
-1,0432
1,12118
0,031720
0,415402 -0,848893 0,912333
"X6"
0,0560
0,01481
3,77860
0,001645
0,0246
0,08738
0,537551
0,142262
Effect Intercept
0,235969
0,439641
0,839132
Capítulo 7
Se ingresa al modelo los términos estadísticamente significativos, obteniendo: Precio = -35.7746 + 0.8048X1 - 0.5960X2 + o,056X6
i
PRECIO Observado
PRECIO estimado
Residuos ei
Residuos estandarizados
1
12
8,9598
3,0402
0,47217133
2
22
15,5715
6,4285
0,99840582
3
54
49,8184
4,1816
0,64944136
4
65
65,8029
-0,8029
-0,12469783
5
75
79,253
-4,253
-0,66053044
6
110
110,1683
-0,1683
-0,02613855
7
110
111,3805
-1,3805
-0,21440449
8
124
118,2386
5,7614
0,89479899
9
139
135,7269
3,2731
0,50834286
10
32
27,5142
4,4858
0,69668645
11
38
29,5806
8,4194
1,3076111
12
42
53,3696
-11,3696
-1,76580459
13
55
62,2858
-7,2858
-1,13155248
14
75
75,8234
-0,8234
-0,12788168
15
110
114,0276
-4,0276
-0,62552373
16
115
125,5587
-10,5587
-1,63986428
17
124
132,2984
-8,2984
-1,28881867
18
139
145,5722
-6,5722
-1,02072376
19
154
160,0411
-6,0411
-0,938239
20
168
164,5275
3,4725
0,53931154
21
183
170,3008
12,6992
1,97230383
22
198
191,1405
6,8595
1,06534413
23
210
207,0397
2,9603
0,45976211
» 227
228 «
Modelos de regresión
En la Fig 7.25, se puede apreciar que los residuos tienen una distribución aproximadamente normal, p = 0.6978 R2 = 0.9875, es decir, la variación explicada por el modelo es del 98.75%. Flagged Observations for PRECIO Obs. Number Stnd. Residual Leverage Mahalanobis Dist. DFITS 20 2.34550 0.27852 7.15243 1.45732 Number of flagged observations (residual, leverage or DFITS) = 1 El valor de DFITS = 1.45732 >
, por tanto, esta observación Nº 20 es un anómalo.
La observación Nº 20 no es un valor anómalo en las X, pues la distancia de Mahalanobis = 7.15243 es menor que el valor crítico X2 6, 0.95 = 12.60. No hay anómalos en las Y, pues no existe errores estandarizados mayores a 3 ni menores a -3. Fig 7.25 Normalidad de los residuos
Normal Probability Plot of PRECIO 2,5 2,0 1,5
Expected Normal Value
1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5
0
20
40
60
80
100
120
140
160
Observed Value
180
200 220 240
260
280
Capítulo 7
» 229
Ejemplo 2. Se desea estimar la contaminación (y) de un terreno, dependiendo de las variables: índice de radiación solar, X1, cantidad de agua lluvia caída en el mes, X2, y la porosidad de la tierra, X3. Y
X1
X2
X3
31,1
0,43
3,82
0,28
35,6
0,47
5,13
0,32
31,4
0,44
3,98
0,29
37,8
0,48
6,25
0,3
40,2
0,5
7,12
0,25
42,5
0,49
8,52
0,15
47,2
0,68
9,01
0,1
43,6
0,5
8,61
0,16
46,5
0,65
8,71
0,19
43,8
0,51
8,72
0,18
43,7
0,49
8,63
0,17
Model fi$ing results for: Crecimiento Independent variable
coefficient
std. error
t-value
sig.level
Promedio
2446
1.49242
7.8814
0.0001
X1
17.949181
1.671762
10.7367
0.0000
X2
2.498587
0.102533
24.3685
0.0000
X3
6.962695
2.787357
2.4980
0.0411
R-SQ. (ADJ.) = 0.9970 SE=0.308689 MAE=0.206660 11 observations fi4ed, forecast(s) computed for 0 missing val. of dep. var
El modelo resultante está dado por: Y = 11.762426 + 17.949181X1 + 2.498587X2 + 6.962695X3
230 «
Modelos de regresión
Analysis of Variance for the Full Regression Source
Sum of Squares
DF
Mean Square
F-Ratio
P-value
Model
317.122
3
105.707
1109.34
0.0000
Error
0.667022
7
0.0952889
Total (Corr.) 317.789 R-squared = 0.997901 R-squared (Adj. for d.f.) = 0.9970
10 Stnd. error of est. = 0.308689
Fig 7.27 Residuos
Fig 7.26 Normalidad residuos
Normal Probability Plot 99.9 99 95
0.21
80 50
Residuals
Cumulative percent
Residual Plot for Contaminante
0.41
20
0.01
-0.10
5 1
-0.30
0.1
30
-0.12 -0.07 -0.02
0.03
0.08
0.13
33
34
39
42
45
48
Predicted
Residuals
Para este ejemplo las variables predictoras son independientes entre si, es decir, no existe colinealidad entre ellas. Se observa en la Fig 7.26 que se puede asumir que los residuos tienen distribución aproximadamente normal, p = 0.6978. En la Fig 7.27 se aprecia que los residuos tienen un comportamiento aleatorio en torno al cero, no se aprecian curvaturas, ni aumento de la varianza, ni otras anomalías. Además, al buscar valores anómalos, no se detectan medidas influyentes para las variables independientes ni para la variable dependiente.
capítulo
8
Introdución a métodos no paramétricos
Con los datos obtenidos de una investigación, para decidir que análisis se puede realizar, se requiere determinar que distribución tienen las variables. De la elección correcta del método dependerá la calidad de los resultados que se obtengan. Para ello, se debe determinar la naturaleza de los datos que se quieren cuantificar, el número de grupos que se deben comparar, si las muestras son independientes o no, las características de las variables y su distribución de probabilidad. Para análisis de datos cuantitativos, los métodos estadísticos exigen que las variables cumplan ciertos supuestos, los que la mayoría de las veces no se verifican, tal como el supuesto de normalidad, muchas veces en estos casos se aplican transformaciones de Box u otras para lograr normalidad, es decir, se trata de lograr normalidad a toda costa, el problema mayor es como se deben analizar e interpretar los resultados de variables transformadas. Los métodos no paramétricos no requieren que los datos provengan de una distribución normal, son sencillos de aplicar, se describen a continuación a modo de introducción los métodos no paramétricos más utilizados.
8.1 Prueba para comparar dos medias. Muestras independientes 8.1.1 Prueba de U Mann-Whitney y Prueba de Rangos de Wilcoxon Sean x11, x12, … , x1n1 y x21, x22, … , x2n2 los valores observados de una misma variable en dos poblaciones distintas de tamaños n1 y n2 respectivamente Para obtener los rangos asociados a cada observación, se ordenan los valores xij de menor a mayor, se asigna el rango 1 a la observación de menor valor, rango 2 a la siguiente y así sucesivamente. Si dos o más observaciones tienen el mismo valor (empate) se les asigna el rango promedio que se les asignaría si no hubiese habido empate.
232 «
Introdución a Métodos no paramétricos
El método consiste en que si no hubiese diferencias en la distribución de ambas poblaciones, los rangos estarían mezclados aleatoriamente en las dos muestras. Pero, si la suma de los rangos asignados a las observaciones de una de las poblaciones es mayor que la suma de los rangos asignados a las observaciones de la otra población, indica que existe diferencia en la distribución de la variable X entre ambas poblaciones. Sea Rij el rango asignado a cada una de las observaciones, i=1,…,n1 y j=1,…,n2, definiendo Ti por:
este estadístico T se conoce como la Suma de Rangos de Wilcoxon La prueba U de Mann-Whitney se define por:
dependiendo si se suman los rangos de la primera muestra
o los de la segunda muestra
.
Esta prueba se utiliza cuando las mediciones se pueden ordenar en escala ordinal, en los casos que los valores provienen de una variable cuantitativa que no tiene distribución normal, de muestras independientes. Este método es una alternativa cuando no se puede utilizar la prueba t de Student, dado que no se cumple el supuesto que las muestras provienen de una distribución normal. Para aplicar éste método se debe: a) Determinar el tamaño de las muestras n1 y n2. Si estos tamaños son menores que 20 se dice que son muestras pequeñas. b) Ordenar los datos en rangos de menor a mayor. Si existen empates de rangos iguales, se deberá realizar un ajuste posterior. c) Calcular los estadísticos U1 y U2, elegir el menor para compararlo con los valores críticos de U Mann-Whitney en la tabla de probabilidades para valores pequeños como los de U en la prueba de Mann-Whitney. d) Para muestras grandes, calcular el valor z, dado que en estos casos se puede asumir normalidad. e) Decidir si se acepta o rechaza la hipótesis. Para tamaños de muestra superiores a 20 se debe utilizar una aproximación a la normal, estandarizando por:
Donde U es el valor calculado, ya sea U1 o U2,
y
U
la desviación estándar de U dada por
Capítulo 8
con N=n1 + n2, y
» 233
en la cual Gi es el tamaño del grupo de empates.
Ejemplos 1.- Para los datos del problema de la página 198, suponga que los tiempos no tienen distribución normal, las muestras son independientes de tamaños n1=10, n2=8, muestras pequeñas. Se cuenta con la información del tiempo que demoran funcionarios antiguos y nuevos en realizar un procedimiento, y se quiere determinar si existe diferencia de tiempos entre ambos grupos. Tiempos funcionario antiguos
4,7
4,8
4,9
5,0
5,15
5,2
5,3
Tiempo funcionarios nuevos
4,8
4,97
5,1
5,12
5,19 5,23 5,55
5,9
H0 : µA = µB H1 : µA ≠ µB
5,16
5,4
5,5
=0.05
Los rangos asociados a los valores observados independiente del grupo a que pertenecen está dado por: Grupo
A
A
A
A
X
4,7
4,8
4,9
5
Rango
1
2
4
6
A
A
A
5,15 5,16 5,2 9
10
12
A
A
A
5,3
5,4
5,5
14
15
16
N
N
4,8 4,97 3
5
N 5,1 7
N
N
N
N
N
5,12 5,19 5,23 5,55 5,9 8
11
13
17
De los dos valores de U calculados, se elige el más pequeño (34) y se compara con el valor crítico de U Mann-Whitney (pcrítico=0.3167) como este valor es mayor que 0.05 (el nivel de significación), no existe evidencia para rechazar H0. Luego, no existe diferencia media en los tiempos entre antiguos y nuevos para realizar el procedimiento. Para rechazar H0 se requería que U menor fuese menor a 21. 2.- Se realiza un estudio para comparar las temperaturas tomadas en dos momentos distintos durante 30 días en un proceso de purificación de riles. Los valores se muestran en la Tabla 8.1.
18
234 «
Introdución a Métodos no paramétricos
Tabla 8.1 Temperaturas Planta 1 y Planta 2
Temperatura Planta 1 Temperatura Planta 2
H0: µPlanta 1 = µPlanta 2 H1: µPlanta 1 ≠ µPlanta 2
=0.05
19,1
18,3
19,6
19,9
19,0
19,5
18,5
17,1
18,3
17,5
16,4
15,5
18,2
16,6
18,7
17,8
17,0
15,8
18,1
17,5
19,0
18,3
18,5
16,9
18,4
16,8
19,1
17,6
18,9
18,0
18,2
17,7
18,8
18,0
17,9
17,0
16,8
16,8
18,6
18,1
18,9
17,2
16,6
16,1
18,7
18,7
18,1
17,6
17,1
15,7
18,7
18,3
18,1
17,1
17,4
15,7
19,3
19,3
18,0
17,6
Capítulo 8
Tabla 8.2 Temperaturas ordenadas y grupos de empates
Planta
2 2 2 2 2 1 1 2 1 2 2 2 1 2 1 2 2 2 1 2 2 2 2 2 2 2 1 1 2 2
Temperatura 15.5 15.7 15.7 15.8 16.1 16.4 16.6 16.6 16.8 16.8 16.8 16.9 17 17 17.1 17.1 17.1 17.2 17.4 17.5 17.5 17.6 17.6 17.6 17.7 17.8 17.9 18 18 18
Rango 1 2.5 2.5 4 5 6 7.5 7.5 10 10 10 12 13.5 13.5 16 16 16 18 19 20.5 20.5 23 23 23 25 26 27 29 29 29
Ei
2
2
3
2
3
2
3
3
Planta 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 2 2 1 2
Temperatura 18.1 18.1 18.1 18.1 18.2 18.2 18.3 18.3 18.3 18.3 18.4 18.5 18.5 18.6 18.7 18.7 18.7 18.7 18.8 18.9 18.9 19 19 19.1 19.1 19.3 19.3 19.5 19.6 19.9
Rango 32.5 32.5 32.5 32.5 35.5 35.5 38.5 38.5 38.5 38.5 41 42.5 42.5 44 46.5 46.5 46.5 46.5 49 50.5 50.5 52.5 52.5 54.5 54.5 56.5 56.5 58 59 60
Ei
4 2
4
2
4
2 2 2 2
» 235
236 «
Introdución a Métodos no paramétricos
luego
por tanto
Para un nivel de significación =0.05 bilateral, los valores críticos de la normal son -1.96 y 1.96, por tanto, ya sea con U menor o U mayor, se rechaza H0, es decir las temperaturas en las plantas no son iguales. 8.1.2 Prueba de Kruskall-Wallis. Cuando se quieren comparar las medias de más de dos grupos, si las muestras provienen de distribuciones normales se realiza a través del ANOVA, si no se cumple este supuesto pero las muestras son independientes se realiza una extensión de la prueba U de Mann-Whitney, conocida como Prueba de Kruskal-Wallis. La hipótesis es: H0: Las k muestras provienen de la misma población H1: Alguna muestra proviene de una población de media diferente a las otras Si las k muestras tienen la misma distribución, esta hipótesis se puede simplificar por: H0: las k poblaciones tienen la misma media H1: no todas las medias son iguales
Capítulo 8
» 237
En el ANOVA: se tiene una variación total observada de la respuesta descompuesta en dos partes, la que mide la variación entre los grupos o tratamientos (suma de cuadrados entre tratamientos, SCE) y la variación entre las mediciones de un mismo tratamiento (suma de cuadrados dentro de los tratamientos, SCD). El test F de ANOVA rechaza la hipótesis nula que las medias son iguales si la SCE es grande respecto de la SCD. En la prueba de Kruskal-Wallis se calculan los rangos de todas las respuestas y luego se aplica el ANOVA a los rangos y no a las observaciones originales. Primero, se deben ordenar las N = n1 + n2 +…+ nk observaciones obtenidas de las k muestras, de menor a mayor y se deben asignar los rangos correspondientes. El estadístico de la prueba se define por:
Ri,i = 1,2,...,kes la suma de los rangos de las observaciones de grupo i-ésimo. Si los tamaños ni de las muestras son grandes y las muestras provienen de la misma distribución, el estadístico H tiene distribución X2 con (k-1) grados de libertad.
2 1- ,n-1
Región de rechazo de H0
Si H supera el valor crítico
2 1- ,n-1
se rechaza H0.
238 «
Introdución a Métodos no paramétricos
Ejemplo. Se tienen los datos experimentales, correspondientes a 22 mediciones de la excentricidad de una pieza metálica fabricada en tres máquinas. Máquina
Excentricidad
1
16
2
14
3
12
1
16
2
17
3
16
1
26
2
17
3
26
1
26
2
24
3
26
1
26
2
29
3
33
1
32
2
29
1
44
2
29
2
29
2
34
2
44
M
Máquina Excentricidad Máquina Excentricidad
Excentricidad Rango M Excentricidad Rango M Excentricidad Rango
1
16
3.5
2
14
2
3
12
1
1
16
3.5
2
17
6.5
3
16
3.5
1
26
11
2
17
6.5
3
26
11
1
26
11
2
24
8
3
26
11
1
26
11
2
29
15.5
3
33
19
1
32
18
2
29
15.5
1
44
21.5
2
29
15.5
2
29
15.5
2
34
20
2
44
21.5
Suma
79.5
Luego, la suma de los rangos de cada máquina son:
126.5
45.5
Capítulo 8
» 239
El valor medio de los rangos de cada máquina se calcula mediante la expresión:
luego, El rango medio está dado por la expresión:
por tanto, se tiene:
Definiendo H0:µ1 = µ2 = µ3 versus H1: que las medias difieren, el estadístico de la prueba está dado por:
Para un nivel de significación =0.05, el valor crítico de una chi-cuadrado con dos grados de libertad es 0.10. Como el valor calculado es mayor que el crítico, se rechaza H0, es decir, las medias no son iguales en las tres máquinas.
240 «
Introdución a Métodos no paramétricos
Tabla Normal Valores de la distribución normal acumulativa (desde menos infinito al punto z) z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
-3.0
0.0013
0.0013
0.0013
0.0012
0.0012
0.0011
0.0011
0.0011
0.0010
0.0010
-2.9
0.0019
0.0018
0.0018
0.0017
0.0016
0.0016
0.0015
0.0015
0.0014
0.0014
-2.8
0.0026
0.0025
0.0024
0.0023
0.0023
0.0022
0.0021
0.0021
0.0020
0.0019
-2.7
0.0035
0.0034
0.0033
0.0032
0.0031
0.0030
0.0029
0.0028
0.0027
0.0026
-2.6
0.0047
0.0045
0.0044
0.0043
0.0041
0.0040
0.0039
0.0038
0.0037
0.0036
-2.5
0.0062
0.0060
0.0059
0.0057
0.0055
0.0054
0.0052
0.0051
0.0049
0.0048
-2.4
0.0082
0.0080
0.0078
0.0075
0.0073
0.0071
0.0069
0.0068
0.0066
0.0064
-2.3
0.0107
0.0104
0.0102
0.0099
0.0096
0.0094
0.0091
0.0089
0.0087
0.0084
-2.2
0.0139
0.0136
0.0132
0.0129
0.0125
0.0122
0.0119
0.0116
0.0113
0.0110
-2.1
0.0179
0.0174
0.0170
0.0166
0.0162
0.0158
0.0154
0.0150
0.0146
0.0143
-2.0
0.0228
0.0222
0.0217
0.0212
0.0207
0.0202
0.0197
0.0192
0.0188
0.0183
-1.9
0.0287
0.0281
0.0274
0.0268
0.0262
0.0256
0.0250
0.0244
0.0239
0.0233
-1.8
0.0359
0.0351
0.0344
0.0336
0.0329
0.0322
0.0314
0.0307
0.0301
0.0294
-1.7
0.0446
0.0436
0.0427
0.0418
0.0409
0.0401
0.0392
0.0384
0.0375
0.0367
-1.6
0.0548
0.0537
0.0526
0.0516
0.0505
0.0495
0.0485
0.0475
0.0465
0.0455
-1.5
0.0668
0.0655
0.0643
0.0630
0.0618
0.0606
0.0594
0.0582
0.0571
0.0559
-1.4
0.0808
0.0793
0.0778
0.0764
0.0749
0.0735
0.0721
0.0708
0.0694
0.0681
-1.3
0.0968
0.0951
0.0934
0.0918
0.0901
0.0885
0.0869
0.853
0.0838
0.0823
-1.2
0.1151
0.1131
0.1112
0.1093
0.1075
0.1056
0.1038
0.1020
0.1003
0.0985
-1.1
0.1357
0.1335
0.1314
0.1292
0.1271
0.1251
0.1230
0.1210
0.1190
0.1170
-1.0
0.1587
0.1562
0.1539
0.1515
0.1492
0.1469
0.1446
0.1423
0.1401
0.1379
-0.9
0.1841
0.1814
0.1788
0.1762
0.1736
0.1711
0.1685
0.1660
0.1635
0.1611
-0.8
0.2119
0.2090
0.2061
0.2033
0.2005
0.1977
0.1949
0.1922
0.1894
0.1867
-0.7
0.2420
0.2389
0.2358
0.2327
0.2297
0.2266
0.2236
0.2206
0.2177
0.2148
-0.6
0.2743
0.2709
0.2676
0.2643
0.2611
0.2578
0.2546
0.2514
0.2483
0.2451
-0.5
0.3085
0.3050
0.3015
0.2981
0.2946
0.2912
0.2877
0.2843
0.2810
0.2776
-0.4
0.3446
0.3409
0.3372
0.3336
0.3300
0.3264
0.3228
0.3192
0.3156
0.3121
-0.3
0.3821
0.3783
0.3745
0.3707
0.3669
0.3632
0.3594
0.3557
0.3520
0.3483
-0.2
0.4207
0.4168
0.4129
0.4090
0.4052
0.4013
0.3974
0.3936
0.3897
0.3859
-0.1
0.4602
0.4562
0.4522
0.4483
0.4443
0.4404
0.4364
0.4325
0.4286
0.4247
Capítulo 8
z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
-0.0
0.5000
0.4960
0.4920
0.4880
0.4840
0.4801
0.4761
0.4721
0.4681
0.4641
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7703
0.7734
0.7764
0.7794
0.7823
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.8340
0.8365
0.8389
1.0
0.8413
0.8438
0.8461
0.8485
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
1.1
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.8770
0.8790
0.8810
0.8830
1.2
0.8849
0.8869
0.8888
0.8907
0.8925
0.8944
0.8962
0.8980
0.8997
0.9015
1.3
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9131
0.9147
0.9162
0.9177
1.4
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
0.9279
0.9292
0.9306
0.9319
1.5
0.9332
0.9345
0.9357
0.9370
0.9382
0.9394
0.9406
0.9418
0.9429
0.9441
1.6
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
1.7
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
1.8
0.9641
0.9649
0.9656
0.9664
0.9671
0.9678
0.9686
0.9693
0.9699
0.9706
1.9
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.9750
0.9756
0.9761
0.9767
2.0
0.9772
0.9778
0.9783
0.9788
0.9793
0.9798
0.9803
0.9808
0.9812
0.9817
2.1
0.9821
0.9826
0.9830
0.9834
0.9838
0.9842
0.9846
0.9850
0.9854
0.9857
2.2
0.9861
0.9864
0.9868
0.9871
0.9875
0.9878
0.9881
0.9884
0.9887
0.9890
2.3
0.9893
0.9896
0.9898
0.9901
0.9904
0.9906
0.9909
0.9911
0.9913
0.9916
2.4
0.9918
0.9920
0.9922
0.9925
0.9927
0.9929
0.9931
0.9932
0.9934
0.9936
2.5
0.9938
0.9940
0.9941
0.9943
0.9945
0.9946
0.9948
0.9949
0.9951
0.9952
2.6
0.9953
0.9955
0.9956
0.9957
0.9959
0.9960
0.9961
0.9962
0.9963
0.9964
2.7
0.9965
0.9966
0.9967
0.9968
0.9969
0.9970
0.9971
0.9972
0.9973
0.9974
2.8
0.9974
0.9975
0.9976
0.9977
0.9977
0.9978
0.9979
0.9979
0.9980
0.9981
2.9
0.9981
0.9982
0.9982
0.9983
0.9984
0.9984
0.9985
0.9985
0.9986
0.9986
3.0
0.9987
0.9987
0.9987
0.9988
0.9988
0.9989
0.9989
0.9989
0.9990
0.9990
» 241
-4.541
-7.173
-5.893
-10.215
-7.173
3
4
-4.501
-3.930
-3.852
-3.787
-3.733
-3.930
-3.852
-3.787
12
13
14
-4.144
-3.646
-3.610
-3.505
-3.485
-3.646
-3.610
-3.579
-3.552
-3.527
-3.505
-3.485
-3.467
17
18
19
20
21
22
23
24
-3.467
-3.527
-3.552
-3.579
-3.686
-3.733
-3.686
15
16
-4.025
-4.144
-4.025
11
-4.297
10
-4.501
-4.297
8
9
-4.785
-4.785
7
-5.208
-5.893
-5.208
5
6
-10.215
-6.965
t0.025
-2.492
-2.500
-2.508
-2.518
-2.528
-2.539
-2.552
-2.567
-2.583
-2.602
-2.624
-2.650
-2.681
-2.718
-2.764
-2.821
-2.896
-2.998
-3.143
-3.365
-3.747
-2.064
-2.069
-2.074
-2.080
-2.086
-2.093
-2.101
-2.110
-2.120
-2.131
-2.145
-2.160
-2.179
-2.201
-2.228
-2.262
-2.306
-2.365
-2.447
-2.571
-2.776
-3.182
-4.303
-31.820 -12.706
318.31
318.31
-22.327 -22.327
1
2
t0.010
t0.005
t0.001
-1.711
-1.714
-1.717
-1.721
-1.725
-1.729
-1.734
-1.740
-1.746
-1.753
-1.761
-1.771
-1.782
-1.796
-1.812
-1.833
-1.860
-1.895
-1.943
-2.015
-2.132
-2.353
-2.920
-6.314
t0.050
-1.318
-1.319
-1.321
-1.323
-1.325
-1.328
-1.330
-1.333
-1.337
-1.341
-1.345
-1.350
-1.356
-1.363
-1.372
-1.383
-1.397
-1.415
-1.440
-1.476
-1.533
-1.638
-1.886
-3.078
t0.100
-0.857
-0.858
-0.858
-0.859
-0.860
-0.861
-0.862
-0.863
-0.865
-0.866
-0.868
-0.870
-0.873
-0.876
-0.879
-0.883
-0.889
-0.896
-0.906
-0.920
-0.941
-0.978
-1.061
-1.376
t0.200
0.857
0.858
0.858
0.859
0.860
0.861
0.862
0.863
0.865
0.866
0.868
0.870
0.873
0.876
0.879
0.883
0.889
0.896
0.906
0.920
0.941
0.978
1.061
1.376
t0.800
1.318
1.319
1.321
1.323
1.325
1.328
1.330
1.333
1.337
1.341
1.345
1.350
1.356
1.363
1.372
1.383
1.397
1.415
1.440
1.476
1.533
1.638
1.886
3.078
t0.900
Valores de la distribución t - Student (desde menos infinito al punto t)
Tabla t-Student
1.711
1.714
1.717
1.721
1.725
1.729
1.734
1.740
1.746
1.753
1.761
1.771
1.782
1.796
1.812
1.833
1.860
1.895
1.943
2.015
2.132
2.353
2.920
6.314
t0.950
2.064
2.069
2.074
2.080
2.086
2.093
2.101
2.110
2.120
2.131
2.145
2.160
2.179
2.201
2.228
2.262
2.306
2.365
2.447
2.571
2.776
3.182
4.303
12.706
t0.975
2.492
2.500
2.508
2.518
2.528
2.539
2.552
2.567
2.583
2.602
2.624
2.650
2.681
2.718
2.764
2.821
2.896
2.998
3.143
3.365
3.747
4.541
6.965
31.820
t0.990
2.797
2.807
2.819
2.831
2.845
2.861
2.878
2.898
2.921
2.947
2.977
3.012
3.055
3.106
3.169
3.250
3.355
3.499
3.707
4.032
4.604
5.841
9.925
63.656
t0.995
3.467
3.485
3.505
3.527
3.552
3.579
3.610
3.646
3.686
3.733
3.787
3.852
3.930
4.025
4.144
4.297
4.501
4.785
5.208
5.893
7.173
10.215
22.327
318.31
t0.999
242 « Introdución a Métodos no paramétricos
-3.450
-3.435
-3.421
-3.408
-3.396
-3.281
-3.261
-3.450
-3.435
-3.421
-3.408
-3.396
-3.385
-3.340
-3.307
-3.281
25
26
27
28
29
30
35
40
45
-3.211
-3.195
-3.183
-3.174
-3.211
-3.195
-3.183
-3.174
-3.131
-3.107
70
80
90
100
200
500
-3.107
-3.131
-3.232
-3.261
-3.232
50
60
-3.307
-3.340
-3.385
t0.005
t0.001
-2.334
-2.345
-2.364
-2.368
-2.374
-2.381
-2.390
-2.403
-2.412
-2.423
-2.438
-2.457
-2.462
-2.467
-2.473
-2.479
-2.485
t0.010
-1.965
-1.972
-1.984
-1.987
-1.990
-1.994
-2.000
-2.009
-2.014
-2.021
-2.030
-2.042
-2.045
-2.048
-2.052
-2.056
-2.060
t0.025
-1.648
-1.652
-1.660
-1.662
-1.664
-1.667
-1.671
-1.676
-1.679
-1.684
-1.690
-1.697
-1.699
-1.701
-1.703
-1.706
-1.708
t0.050
-1.283
-1.286
-1.290
-1.291
-1.292
-1.294
-1.296
-1.299
-1.301
-1.303
-1.306
-1.310
-1.311
-1.313
-1.314
-1.315
-1.316
t0.100
-0.842
-0.843
-0.845
-0.846
-0.846
-0.847
-0.848
-0.849
-0.850
-0.851
-0.852
-0.854
-0.854
-0.855
-0.855
-0.856
-0.856
t0.200
0.842
0.843
0.845
0.846
0.846
0.847
0.848
0.849
0.850
0.851
0.852
0.854
0.854
0.855
0.855
0.856
0.856
t0.800
1.283
1.286
1.290
1.291
1.292
1.294
1.296
1.299
1.301
1.303
1.306
1.310
1.311
1.313
1.314
1.315
1.316
t0.900
1.648
1.652
1.660
1.662
1.664
1.667
1.671
1.676
1.679
1.684
1.690
1.697
1.699
1.701
1.703
1.706
1.708
t0.950
1.965
1.972
1.984
1.987
1.990
1.994
2.000
2.009
2.014
2.021
2.030
2.042
2.045
2.048
2.052
2.056
2.060
t0.975
2.334
2.345
2.364
2.368
2.374
2.381
2.390
2.403
2.412
2.423
2.438
2.457
2.462
2.467
2.473
2.479
2.485
t0.990
2.586
2.601
2.626
2.632
2.639
2.648
2.660
2.678
2.690
2.704
2.724
2.750
2.756
2.763
2.771
2.779
2.787
t0.995
3.107
3.131
3.174
3.183
3.195
3.211
3.232
3.261
3.281
3.307
3.340
3.385
3.396
3.408
3.421
3.435
3.450
t0.999
Capítulo 8
» 243
244 «
Introdución a Métodos no paramétricos
Tabla Chi-cuadrado Valores de la distribución chi-cuadrado (desde menos infinito al punto 2)
0.010
0.025
0.00
0.005
0.00
0.00
2
0.01
0.02
0.05
3
0.07
0.11
0.22
4
0.21
0.30
0.48
0.71
1.06
7.78
9.49
5
0.41
0.55
0.83
1.15
1.61
9.24
11.07
6
0.67
0.87
1.24
1.63
2.20
10.65
12.60
14.46
14.46
18.55
7
0.99
1.24
1.69
2.17
2.83
10.02
14.07
16.02
16.02
20.27
8
1.34
1.64
2.18
2.73
3.49
13.36
15.51
17.55
17.55
21.94
1
0.050
0.00
0.100
0.900
0.950
0.02
2.71
3.84
0.10
0.21
4.60
5.99
0.35
0.58
6.25
7.82
0.975
5.02
0.990
0.995
5.02
7.90
7.38
7.38
10.59
9.36
9.36
12.82
11.15
11.15
14.82
12.84
12.84
16.76
9
1.73
2.09
2.70
3.32
4.17
14.69
16.93
19.03
19.03
23.56
10
2.15
2.55
3.24
3.94
4.86
15.99
18.31
20.50
20.50
25.15
11
2.60
3.05
3.81
4.57
5.58
17.28
19.68
21.93
21.93
26.71
12
3.06
3.57
4.40
5.22
6.30
18.55
21.03
23.35
23.35
28.25
13
3.56
4.10
5.01
5.89
7.04
19.81
22.37
24.75
24.75
29.88
14
4.07
4.65
5.62
6.57
7.79
21.07
23.69
26.13
26.13
31.38
15
4.59
5.23
6.26
7.26
8.55
22.31
25.00
27.50
27.50
32.86
16
5.14
5.81
6.90
7.96
9.31
23.55
26.30
28.86
28.86
34.32
17
5.69
6.40
7.56
8.67
10.08
24.77
27.59
30.20
30.20
35.77
18
6.25
7.00
8.23
9.39
10.86
25.99
28.88
31.54
31.54
37.21
19
6.82
7.63
8.90
10.11
11.65
27.21
30.15
32.87
32.87
38.63
20
7.42
8.25
9.59
10.85
12.44
28.42
31.42
34.18
34.18
40.05
21
8.02
8.89
10.28
11.59
13.24
29.62
32.68
35.49
35.49
41.45
22
8.62
9.53
10.98
12.34
14.04
30.82
33.93
36.79
36.79
42.84
23
9.25
10.19
11.69
13.09
14.85
32.01
35.18
38.09
38.09
44.23
24
9.87
10.85
12.40
13.84
15.66
33.20
36.42
39.38
39.38
45.60
25
10.50
11.51
13.11
14.61
16.47
34.38
37.66
40.66
40.66
46.97
26
11.13
12.19
13.84
15.38
17.29
35.57
38.89
41.94
41.94
48.33
27
11.79
12.87
14.57
16.15
18.11
36.74
40.12
43.21
43.21
49.69
28
12.44
13.55
15.30
16.92
18.94
37.92
41.34
44.47
44.47
51.04
29
13.09
14.24
16.04
17.70
19.77
39.09
42.56
45.74
45.74
52.38
30
13.77
14.94
16.78
18.49
20.60
40.26
43.78
46.99
46.99
53.71
35
17.16
18.49
20.56
22.46
24.79
46.06
49.81
53.22
53.22
60.31
40
20.67
22.14
24.42
26.51
29.06
51.80
55.75
59.34
59.34
66.80
45
24.28
25.88
28.36
30.61
33.36
57.50
61.65
65.41
65.41
73.20
50
27.96
29.68
32.35
34.76
37.69
63.16
67.50
71.42
71.42
79.52
60
35.50
37.46
40.47
43.19
46.46
74.39
79.08
83.30
83.30
91.98
70
43.25
45.42
48.75
51.74
55.33
85.52
90.53
95.03
95.03
104.24
80
51.14
53.52
57.15
60.39
64.28
96.57
101.88
106.63
106.63
116.35
90
59.17
61.74
65.64
69.13
73.29
107.56
113.14
118.14
118.14
128.32
100
67.30
70.05
74.22
77.93
82.36
118.49
124.34
129.56
129.56
140.19
1,85
1,70
1,66
1,81
1,69
1,62
1,57
1,54
1,51
5
6
7
8
9
1,34
1,34
80
100
120
1,4
1,41
1,41
1,42
1,43
1,44
1,49
1,52
1,39
1,39
1,4
1,41
1,41
1,42
1,44
1,46
1,48
1,52
1,56
1,6
1,63
1,67
1,72
1,78
1,88
2,05
2,36
3,15
3
1,37
1,37
1,38
1,38
1,39
1,4
1,42
1,44
1,47
1,51
1,55
1,59
1,63
1,66
1,72
1,79
1,89
2,06
2,39
3,23
4
1,35
1,35
1,36
1,37
1,37
1,39
1,41
1,42
1,45
1,49
1,54
1,59
1,62
1,66
1,71
1,79
1,89
2,07
2,41
3,28
5
1,33
1,33
1,34
1,35
1,36
1,37
1,39
1,41
1,44
1,48
1,53
1,58
1,61
1,65
1,71
1,78
1,89
2,08
2,42
3,31
6
1,31
1,32
1,32
1,33
1,34
1,36
1,38
1,40
1,43
1,47
1,52
1,57
1,6
1,64
1,70
1,78
1,89
2,08
2,43
3,34
7
1,3
1,3
1,31
1,32
1,33
1,35
1,37
1,39
1,42
1,46
1,51
1,56
1,6
1,64
1,70
1,78
1,89
2,08
2,44
3,35
8
1,29
1,29
1,3
1,31
1,32
1,34
1,36
1,38
1,41
1,46
1,51
1,56
1,59
1,63
1,69
1,77
1,89
2,08
2,44
3,37
9
1,28
1,28
1,29
1,3
1,31
1,33
1,35
1,37
1,4
1,45
1,5
1,55
1,59
1,63
1,69
1,77
1,89
2,08
2,44
3,38
10
1,26
1,27
1,27
1,29
1,3
1,31
1,34
1,36
1,39
1,44
1,49
1,54
1,58
1,62
1,68
1,77
1,89
2,08
2,45
3,39
12
1,24
1,25
1,26
1,27
1,28
1,3
1,32
1,34
1,37
1,43
1,48
1,53
1,57
1,62
1,68
1,76
1,89
2,08
2,46
3,41
15
1,22
1,23
1,23
1,25
1,26
1,28
1,30
1,33
1,36
1,41
1,47
1,52
1,56
1,61
1,67
1,76
1,88
2,08
2,46
3,43
20
1
1,20
1,21
1,22
1,23
1,25
1,26
1,29
1,31
1,35
1,40
1,46
1,52
1,55
1,60
1,67
1,75
1,88
2,08
2,46
3,44
25
Grados de libertad del numerador
F( 0.25,v1,v2)
1,19
1,20
1,21
1,22
1,23
1,25
1,28
1,31
1,34
1,40
1,45
1,51
1,55
1,60
1,66
1,75
1,88
2,08
2,47
3,44
30
Valores de distribución F (probabilidad a la derecha igual a la especificada)
La probabilidad corresponde al área a la derecha del valor dado en la tabla
1,35
1,34
60
1,35
50
1,45
1,38
1,36
1,39
25
30
1,40
20
40
1,47
1,43
15
1,56
12
1,60
1,49
1,46
10
1,62
1,76
2,28
2,00
2,02
3
4
2
3,00
1
2,57
2
Grados de libertad del denominador v2
Tabla F
1,18
1,18
1,19
1,21
1,22
1,24
1,27
1,29
1,33
1,39
1,45
1,51
1,54
1,59
1,66
1,75
1,88
2,08
2,47
3,45
40
1,16
1,17
1,18
1,2
1,21
1,23
1,26
1,29
1,32
1,38
1,44
1,50
1,54
1,59
1,66
1,75
1,88
2,08
2,47
3,46
50
1,16
1,16
1,17
1,19
1,20
1,22
1,26
1,28
1,32
1,38
1,44
1,50
1,54
1,59
1,65
1,74
1,87
2,08
2,47
3,46
60
1,14
1,15
1,16
1,18
1,20
1,22
1,25
1,28
1,31
1,37
1,44
1,50
1,54
1,59
1,65
1,74
1,87
2,08
2,47
3,46
80
1,14
1,14
1,16
1,18
1,19
1,21
1,25
1,27
1,31
1,37
1,43
1,49
1,53
1,58
1,65
1,74
1,87
2,08
2,47
3,47
100
1,13
1,14
1,15
1,17
1,19
1,21
1,24
1,27
1,31
1,37
1,43
1,49
1,53
1,58
1,65
1,74
1,87
2,08
2,47
3,47
120
Capítulo 8
» 245
3,01
2,35
2,36
2,41
2,44
2,49
2,13
2,14
2,15
2,18
2,20
2,23
2,28
2,32
2,38
2,49
2,61
2,73
2,81
2,92
3,07
3,29
3,62
4,19
5,39
9,16
3
1,99
2,00
2,02
2,04
2,06
2,09
2,14
2,18
2,25
2,36
2,48
2,61
2,69
2,81
2,96
3,18
3,52
4,11
5,34
9,24
4
1,90
1,91
1,92
1,95
1,97
2,00
2,05
2,09
2,16
2,27
2,39
2,52
2,61
2,73
2,88
3,11
3,45
4,05
5,31
9,29
5
1,82
1,83
1,85
1,87
1,90
1,93
1,98
2,02
2,09
2,21
2,33
2,46
2,55
2,67
2,83
3,05
3,4
4,01
5,28
9,33
6
1,77
1,78
1,79
1,82
1,84
1,87
1,93
1,97
2,04
2,16
2,28
2,41
2,51
2,62
2,78
3,01
3,37
3,98
5,27
9,35
7
1,72
1,73
1,75
1,77
1,80
1,83
1,88
1,93
2,00
2,12
2,24
2,38
2,47
2,59
2,75
2,98
3,34
3,95
5,25
9,37
8
1,68
1,69
1,71
1,74
1,76
1,79
1,85
1,89
1,96
2,09
2,21
2,35
2,44
2,56
2,72
2,96
3,32
3,94
5,24
9,38
9
1,65
1,66
1,68
1,71
1,73
1,76
1,82
1,87
1,94
2,06
2,19
2,32
2,42
2,54
2,7
2,94
3,30
3,92
5,23
9,39
10
1,60
1,61
1,63
1,66
1,68
1,71
1,77
1,82
1,89
2,02
2,15
2,28
2,38
2,5
2,67
2,90
3,27
3,90
5,22
9,41
12
1,55
1,56
1,57
1,60
1,63
1,66
1,72
1,77
1,84
1,97
2,10
2,24
2,34
2,46
2,63
2,87
3,24
3,87
5,20
9,42
15
Grados de libertad del numerador
La probabilidad corresponde al área a la derecha del valor dado en la tabla
2,75
2,79
60
120
2,37
2,81
50
2,77
2,84
40
2,76
2,39
2,88
80
2,53
2,92
25
30
100
2,59
2,97
20
2,81
2,70
3,18
3,07
15
2,92
12
3,36
3,29
9
10
3,11
3,46
8
3,26
3,46
3,78
3,59
3,78
4,32
7
5
5,46
9,00
2
6
4,54
4,06
4
8,53
5,54
3
1
2
Grados de libertad del denominador v2
F( 0.10,v1,v2) 1
1,48
1,49
1,51
1,54
1,57
1,61
1,67
1,72
1,79
1,92
2,06
2,20
2,30
2,42
2,59
2,84
3,21
3,84
5,18
9,44
20
1,44
1,45
1,47
1,5
1,53
1,57
1,63
1,68
1,76
1,89
2,03
2,17
2,27
2,4
2,57
2,81
3,19
3,83
5,17
9,45
25
1,41
1,42
1,44
1,48
1,5
1,54
1,61
1,66
1,74
1,87
2,01
2,16
2,25
2,38
2,56
2,80
3,17
3,82
5,17
9,46
30
1,37
1,38
1,40
1,44
1,46
1,51
1,57
1,63
1,71
1,85
1,99
2,13
2,23
2,36
2,54
2,78
3,16
3,80
5,16
9,47
40
1,34
1,35
1,38
1,41
1,44
1,48
1,55
1,61
1,69
1,83
1,97
2,12
2,22
2,35
2,52
2,77
3,15
3,80
5,15
9,47
50
1,32
1,34
1,36
1,40
1,42
1,47
1,54
1,59
1,68
1,82
1,96
2,11
2,21
2,34
2,51
2,76
3,14
3,79
5,15
9,47
60
1,29
1,31
1,33
1,37
1,40
1,45
1,52
1,58
1,66
1,8
1,95
2,09
2,20
2,33
2,50
2,75
3,13
3,78
5,15
9,48
80
1,28
1,29
1,32
1,36
1,39
1,43
1,51
1,56
1,65
1,79
1,94
2,09
2,19
2,32
2,5
2,75
3,13
3,78
5,14
9,48
100
1,26
1,28
1,31
1,35
1,38
1,42
1,50
1,56
1,64
1,79
1,93
2,08
2,18
2,32
2,49
2,74
3,12
3,78
5,14
9,48
120
246 « Introdución a Métodos no paramétricos
5,32
5,12
4,96
8
9
10
4,17
4,08
4,03
4,00
3,96
3,94
3,92
25
30
40
50
60
80
100
120
3,07
3,09
3,11
3,15
3,18
3,23
3,32
3,39
3,49
3,68
3,89
4,1
4,26
5,14
5,79
2,68
2,70
2,72
2,76
2,79
2,84
2,92
2,99
3,10
3,29
3,49
3,71
3,86
4,07
4,35
4,76
5,41
6,59
9,28
19,16
3
2,45
2,46
2,49
2,53
2,56
2,61
2,69
2,76
2,87
3,06
3,26
3,48
3,63
3,84
4,12
4,53
5,19
6,39
9,12
19,25
4
2,29
2,31
2,33
2,37
2,4
2,45
2,53
2,6
2,71
2,9
3,11
3,33
3,48
3,69
3,97
4,39
5,05
6,26
9,01
19,3
5
2,18
2,19
2,21
2,25
2,29
2,34
2,42
2,49
2,60
2,79
3,00
3,22
3,37
3,58
3,87
4,28
4,95
6,16
8,94
19,33
6
2,09
2,10
2,13
2,17
2,20
2,25
2,33
2,40
2,51
2,71
2,91
3,14
3,29
3,5
3,79
4,21
4,88
6,09
8,89
19,35
7
2,02
2,03
2,06
2,10
2,13
2,18
2,27
2,34
2,45
2,64
2,85
3,07
3,23
3,44
3,73
4,15
4,82
6,04
8,85
19,37
8
1,96
1,97
2,00
2,04
2,07
2,12
2,21
2,28
2,39
2,59
2,80
3,02
3,18
3,39
3,68
4,10
4,77
6,00
8,81
19,38
9
1,91
1,93
1,95
1,99
2,03
2,08
2,16
2,24
2,35
2,54
2,75
2,98
3,14
3,35
3,64
4,06
4,74
5,96
8,79
19,4
10
1,83
1,85
1,88
1,92
1,95
2,00
2,09
2,16
2,28
2,48
2,69
2,91
3,07
3,28
3,57
4,00
4,68
5,91
8,74
19,41
12
1
1,75
1,77
1,79
1,84
1,87
1,92
2,01
2,09
2,20
2,40
2,62
2,85
3,01
3,22
3,51
3,94
4,62
5,86
8,70
19,43
15
Grados de libertad del numerador
La probabilidad corresponde al área a la derecha del valor dado en la tabla
4,35
4,24
20
4,75
5,59
7
4,54
4,46
5,99
6
15
4,74
6,61
5
12
9,55
7,71
6,94
10,13
3
4
2
19
1
18,51
2
Grados de libertad del denominador v2
F( 0.05,v1,v2)
1,66
1,68
1,70
1,75
1,78
1,84
1,93
2,01
2,12
2,33
2,54
2,77
2,94
3,15
3,44
3,87
4,56
5,80
8,66
19,45
20
1,60
1,62
1,64
1,69
1,73
1,78
1,88
1,96
2,07
2,28
2,50
2,73
2,89
3,11
3,40
3,83
4,52
5,77
8,63
19,46
25
1,55
1,57
1,60
1,65
1,69
1,74
1,84
1,92
2,04
2,25
2,47
2,70
2,86
3,08
3,38
3,81
4,50
5,75
8,62
19,46
30
1,50
1,52
1,54
1,59
1,63
1,69
1,79
1,87
1,99
2,20
2,43
2,66
2,83
3,04
3,34
3,77
4,46
5,72
8,59
19,47
40
1,46
1,48
1,51
1,56
1,60
1,66
1,76
1,84
1,97
2,18
2,4
2,64
2,80
3,02
3,32
3,75
4,44
5,70
8,58
19,48
50
1,43
1,45
1,48
1,53
1,58
1,64
1,74
1,82
1,95
2,16
2,38
2,62
2,79
3,01
3,30
3,74
4,43
5,69
8,57
19,48
60
1,39
1,41
1,45
1,50
1,54
1,61
1,71
1,80
1,92
2,14
2,36
2,60
2,77
2,99
3,29
3,72
4,41
5,67
8,56
19,48
80
1,37
1,39
1,43
1,48
1,52
1,59
1,70
1,78
1,91
2,12
2,35
2,59
2,76
2,97
3,27
3,71
4,41
5,66
8,55
19,49
100
1,35
1,38
1,41
1,47
1,51
1,58
1,68
1,77
1,90
2,11
2,34
2,58
2,75
2,97
3,27
3,70
4,40
5,66
8,55
19,49
120
Capítulo 8
» 247
5,71
4,46
4,29
3,93
3,86
5,87
5,69
5,57
5,42
5,34
5,29
5,22
5,18
5,15
20
25
30
40
50
60
80
100
120
5,10
3,23
3,25
3,28
3,34
3,39
3,46
3,59
3,69
3,86
4,15
4,47
4,83
5,08
5,42
5,89
6,60
7,76
9,98
15,44
39,17
3
2,89
2,92
2,95
3,01
3,05
3,13
3,25
3,35
3,51
3,80
4,12
4,47
4,72
5,05
5,52
6,23
7,39
9,6
15,1
39,25
4
2,67
2,70
2,73
2,79
2,83
2,90
3,03
3,13
3,29
3,58
3,89
4,24
4,48
4,82
5,29
5,99
7,15
9,36
14,88
39,3
5
2,52
2,54
2,57
2,63
2,67
2,74
2,87
2,97
3,13
3,41
3,73
4,07
4,32
4,65
5,12
5,82
6,98
9,20
14,73
39,33
6
2,39
2,42
2,45
2,51
2,55
2,62
2,75
2,85
3,01
3,29
3,61
3,95
4,20
4,53
4,99
5,70
6,85
9,07
14,62
39,36
7
2,30
2,32
2,35
2,41
2,46
2,53
2,65
2,75
2,91
3,2
3,51
3,85
4,10
4,43
4,90
5,60
6,76
8,98
14,54
39,37
8
2,22
2,24
2,28
2,33
2,38
2,45
2,57
2,68
2,84
3,12
3,44
3,78
4,03
4,36
4,82
5,52
6,68
8,90
14,47
39,39
9
2,16
2,18
2,21
2,27
2,32
2,39
2,51
2,61
2,77
3,06
3,37
3,72
3,96
4,30
4,76
5,46
6,62
8,84
14,42
39,4
10
2,05
2,08
2,11
2,17
2,22
2,29
2,41
2,51
2,68
2,96
3,28
3,62
3,87
4,20
4,67
5,37
6,52
8,75
14,34
39,41
12
1,94
1,97
2,00
2,06
2,11
2,18
2,31
2,41
2,57
2,86
3,18
3,52
3,77
4,10
4,57
5,27
6,43
8,66
14,25
39,43
15
Grados de libertad del numerador v1
La probabilidad corresponde al área a la derecha del valor dado en la tabla
3,80
3,83
3,97
4,05
4,18
4,77
6,55
6,20
15
5,46
12
7,21
6,94
9
10
6,06
7,57
8
7,26
6,54
8,81
8,07
7
8,43
10,65
16,04
39
2
6
12,22
10,01
5
17,44
4
38,51
3
1
2
Grados de libertad del denominador v2
F( 0.025,v1,v2)
1,82
1,85
1,88
1,94
1,99
2,07
2,20
2,30
2,46
2,76
3,07
3,42
3,67
4,00
4,47
5,17
6,33
8,56
14,17
39,45
20
30
1,75
1,77
1,81
1,87
1,92
1,99
2,12
2,23
2,40
2,69
3,01
3,35
3,60
3,94
4,40
5,11
6,27
8,50
14,12
1,69
1,71
1,75
1,82
1,87
1,94
2,07
2,18
2,35
2,64
2,96
3,31
3,56
3,89
4,36
5,07
6,23
8,46
14,08
39,46 39,46
25
1,61
1,64
1,68
1,74
1,80
1,88
2,01
2,12
2,29
2,59
2,91
3,26
3,51
3,84
4,31
5,01
6,18
8,41
14,04
39,47
40
1,56
1,59
1,63
1,70
1,75
1,83
1,97
2,08
2,25
2,55
2,87
3,22
3,47
3,81
4,28
4,98
6,14
8,38
14,01
39,48
50
1,53
1,56
1,60
1,67
1,72
1,80
1,94
2,05
2,22
2,52
2,85
3,20
3,45
3,78
4,25
4,96
6,12
8,36
13,99
39,48
60
100
120
1,48
1,51
1,55
1,63
1,68
1,76
1,90
2,02
2,19
2,49
2,82
3,17
3,42
3,76
4,23
4,93
6,10
8,33
13,97
1,45
1,48
1,53
1,60
1,66
1,74
1,88
2,00
2,17
2,47
2,80
3,15
3,40
3,74
4,21
4,92
6,08
8,32
13,96
1,43
1,46
1,51
1,58
1,64
1,72
1,87
1,98
2,16
2,46
2,79
3,14
3,39
3,73
4,20
4,90
6,07
8,31
13,95
39,49 39,49 39,49
80
248 « Introdución a Métodos no paramétricos
4.79
4.82
4.88
4.98
5.06
5.18
5.39
5.57
5.85
6.36
6.93
7.56
8.02
10.92
13.27
3.95
3.98
4.04
4.13
4.20
4.31
4.51
4.68
4.94
5.42
5.95
6.55
6.99
7.59
8.45
9.78
12.06
16.69
5
3.48
3.51
3.56
3.65
3.72
3.83
4.02
4.18
4.43
4.89
5.41
5.99
6.42
7.01
7.85
9.15
11.39
15.98
28.71
3.17
3.21
3.26
3.34
3.41
3.51
3.70
3.85
4.10
4.56
5.06
5.64
6.06
6.63
7.46
8.75
10.97
15.52
28.24
99.25 99.30
4
2.96
2.99
3.04
3.12
3.19
3.29
3.47
3.63
3.87
4.32
4.82
5.39
5.80
6.37
7.19
8.47
10.67
15.21
27.91
99.33
6
8
9
10
12
15
20
25
2.79
2.82
2.87
2.95
3.02
3.12
3.30
3.46
3.70
4.14
4.64
5.20
5.61
6.18
6.99
8.26
10.46
14.98
27.67
2.66
2.69
2.74
2.82
2.89
2.99
3.17
3.32
3.56
4.00
4.50
5.06
5.47
6.03
6.84
8.10
10.29
14.80
27.49
2.56
2.59
2.64
2.72
2.78
2.89
3.07
3.22
3.46
3.89
4.39
4.94
5.35
5.91
6.72º
7.98
10.16
14.66
27.34
2.47
2.50
2.55
2.63
2.70
2.80
2.98
3.13
3.37
3.80
4.30
4.85
5.26
5.81
6.62
7.87
10.05
14.55
27.23
2.34
2.37
2.42
2.50
2.56
2.66
2.84
2.99
3.23
3.67
4.16
4.71
5.11
5.67
6.47
7.72
9.89
14.37
27.05
2.19
2.22
2.27
2.35
2.42
2.52
2.70
2.85
3.09
3.52
4.01
4.56
4.96
5.52
6.31
7.56
9.72
14.20
26.87
2.03
2.07
2.12
2.20
2.27
2.37
2.55
2.70
2.94
3.37
3.86
4.41
4.81
5.36
6.16
7.40
9.55
14.02
26.69
1.93
1.97
2.01
2.10
2.17
2.27
2.45
2.60
2.84
3.28
3.76
4.31
4.71
5.26
6.06
7.30
9.45
13.91
26.58
99.36 99.38 99.39 99.40 99.42 99.43 99.45 99.46
7
Grados de libertad del numerador v1
La probabilidad corresponde al área a la derecha del valor dado en la tabla
6.85
120
50
6.90
7.17
40
100
7.31
30
7.08
7.56
25
6.96
7.77
20
80
8.10
15
60
9.33
8.68
12
10.04
10
8.65
11.26
10.56
7
8
13.75
12.25
6
9
9.55
16.26
5
18.00
30.82
34.12
21.20
3
29.46
3 99.16
2
98.50 99.00
1
4
2
Grados de libertad del denominador v2
F( 0.01,v1,v2)
1.86
1.89
1.94
2.03
2.10
2.20
2.39
2.54
2.78
3.21
3.70
4.25
4.65
5.20
5.99
7.23
9.38
13.84
26.50
99.47
30
50
60
80
100
120
1.76
1.80
1.85
1.94
2.01
2.11
2.30
2.45
2.69
3.13
3.62
4.17
4.57
5.12
5.91
7.14
9.29
13.75
26.41
1.70
1.74
1.79
1.88
1.95
2.06
2.25
2.40
2.64
3.08
3.57
4.12
4.52
5.07
5.86
7.09
9.24
13.69
26.35
1.66
1.69
1.75
1.84
1.91
2.02
2.21
2.36
2.61
3.05
3.54
4.08
4.48
5.03
5.82
7.06
9.20
13.65
26.32
1.60
1.63
1.69
1.78
1.86
1.97
2.16
2.32
2.56
3.00
3.49
4.04
4.44
4.99
5.78
7.01
9.16
13.61
26.27
1.56
1.60
1.65
1.75
1.82
1.94
2.13
2.29
2.54
2.98
3.47
4.01
4.41
4.96
5.75
6.99
9.13
13.58
26.24
1.53
1.57
1.63
1.73
1.80
1.92
2.11
2.27
2.52
2.96
3.45
4.00
4.40
4.95
5.74
6.97
9.11
13.56
26.22
99.48 99.48 99.48 99.48 99.49 99.49
40
Capítulo 8
» 249
14.54
12.40
11.04
10.11
18.63
16.24
14.69
6
7
8
5.67
8.63
8.49
50
60
5.54
5.59
6.35
4.50
4.54
4.61
4.73
4.83
4.98
5.24
5.46
5.82
6.48
7.23
8.08
8.72
9.60
10.88
12.92
16.53
24.26
47.47
199.2
3
3.92
3.96
4.03
4.14
4.23
4.37
4.62
4.84
5.17
5.80
6.52
7.34
7.96
8.81
10.05
12.03
15.56
23.15
46.20
199.2
4
3.55
3.59
3.65
3.76
3.85
3.99
4.23
4.43
4.76
5.37
6.07
6.87
7.47
8.30
9.52
11.46
14.94
22.46
45.39
199.3
5
3.28
3.33
3.39
3.49
3.58
3.71
3.95
4.15
4.47
5.07
5.76
6.54
7.13
7.95
9.16
11.07
14.51
21.98
44.84
199.3
6
3.09
3.13
3.19
3.29
3.38
3.51
3.74
3.94
4.26
4.85
5.52
6.30
6.88
7.69
8.89
10.79
14.20
21.62
44.43
199.4
7
2.93
2.97
3.03
3.13
3.22
3.35
3.58
3.78
4.09
4.67
5.35
6.12
6.69
7.50
8.68
10.57
13.96
21.35
44.13
199.4
8
2.81
2.85
2.91
3.01
3.09
3.22
3.45
3.64
3.96
4.54
5.20
5.97
6.54
7.34
8.51
10.39
13.77
21.14
43.88
199.4
9
2.71
2.74
2.80
2.90
2.99
3.12
3.34
3.54
3.85
4.42
5.09
5.85
6.42
7.21
8.38
10.25
13.62
20.97
43.68
199.4
10
43.08
199.4
15
2.54
2.58
2.64
2.74
2.82
2.95
3.18
3.37
3.68
4.25
4.91
5.66
6.23
7.01
8.18
10.03
13.38
2.37
2.41
2.47
2.57
2.65
2.78
3.01
3.20
3.50
4.07
4.72
5.47
6.03
6.81
7.97
9.81
13.15
20.70 20.44
43.39
199.4
12
Grados de libertad del numerador v1
La probabilidad corresponde al área a la derecha del valor dado en la tabla
8.18
5.79
8.83
40
120
5.90
9.18
8.33
6.07
9.48
25
30
8.24
6.60
9.94
80
7.70
6.99
10.80
15
20
100
8.51
11.75
12
9.43
13.61
12.83
9
10
18.31
26.28
31.33
22.78
5
49.80
199.0
2
4
198.5
55.55
3
1
2
Grados de libertad del denominador v2
F( 0.005,v1,v2)
2.19
2.23
2.29
2.39
2.47
2.60
2.82
3.01
3.32
3.88
4.53
5.27
5.83
6.61
7.75
9.59
12.90
20.17
42.78
199.4
20
2.07
2.11
2.17
2.27
2.35
2.48
2.71
2.90
3.20
3.77
4.41
5.15
5.71
6.48
7.62
9.45
12.76
20.00
42.59
199.4
25
1.98
2.02
2.08
2.19
2.27
2.40
2.63
2.82
3.12
3.69
4.33
5.07
5.62
6.40
7.53
9.36
12.66
19.89
42.47
199.5
30
1.87
1.91
1.97
2.08
2.16
2.30
2.52
2.72
3.02
3.59
4.23
4.97
5.52
6.29
7.42
9.24
12.53
19.75
42.31
199.5
40
1.80
1.84
1.90
2.01
2.10
2.23
2.46
2.65
2.96
3.52
4.17
4.90
5.45
6.22
7.35
9.17
12.45
19.67
42.21
199.5
50
1.75
1.79
1.85
1.96
2.05
2.18
2.42
2.61
2.92
3.48
4.12
4.86
5.41
6.18
7.31
9.12
12.40
19.61
42.15
199.5
60 199.5
100
1.68
1.72
1.79
1.90
1.99
2.12
2.36
2.55
2.86
3.43
4.07
4.80
5.36
6.12
7.25
9.06
12.34
19.54
1.64
1.68
1.75
1.86
1.95
2.09
2.32
2.52
2.83
3.39
4.04
4.77
5.32
6.09
7.22
9.03
12.30
19.50
42.07 42.02
199.5
80
1.61
1.65
1.72
1.83
1.93
2.06
2.30
2.50
2.81
3.37
4.01
4.75
5.30
6.06
7.19
9.00
12.27
19.47
41.99
199.5
120
250 « Introdución a Métodos no paramétricos
Capítulo 8
Tabla U Mann-Whitney Función de Distribución de U P(U≤U0), U0 el argumento, n1 ≤ n2 n2= 3
n1
U0
1
2
3
0
0.25
0.10
0.05
1
0.50
0.20
0.10
2
0.40
0.20
3
0.60
0.35
4
0.50
n2= 4
n1
U0
1
2
3
4
0
0.20
0.067
0.029
0.014
1
0.40
0.133
0.057
0.029
2
0.60
0.267
0.114
0.057
3
0.400
0.200
0.100
4
0.600
0.314
0.171
5
0.429
0.243
6
0.571
0.343
7
0.443
8
0.557
n2= 5
n1
U0
1
2
3
4
5
0
0.167
0.048
0.018
0.008
0.004
1
0.333
0.095
0.036
0.016
0.008
2
0.500
0.191
0.071
0.032
0.016
3
0.286
0.125
0.056
0.028
4
0.429
0.196
0.095
0.048
5
0.571
0.286
0.143
0.075
6
0.393
0.206
0.111
7
0.500
0.278
0.155
8
0.365
0.210
9
0.452
0.274
10
0.548
0.345
11
0.421
12
0.500
» 251
252 «
Introdución a Métodos no paramétricos
n2= 6 U0
n1 1
2
3
4
0
0.143
1
0.286
2 3
5
6
0.036
0.012
0.005
0.002
0.001
0.071
0.024
0.010
0.004
0.002
0.429
0.143
0.048
0.019
0.009
0.004
0.571
0.214
0.083
0.033
0.015
0.008
4
0.321
0.131
0.057
0.026
0.013
5
0.429
0.191
0.086
0.041
0.021
6
0.571
0.274
0.129
0.063
0.033
7
0.357
0.176
0.089
0.047
8
0.452
0.238
0.123
0.066
9
0.548
0.305
0.165
0.089
10
0.381
0.214
0.120
11
0.457
0.268
0.155
12
0.543
0.331
0.197
13
0.396
0.242
14
0.465
0.294
15
0.535
0.349
16
0.409
17
0.469
18
0.531
Capítulo 8
n2= 7 U0
n1 1
2
3
4
5
6
7
0
0.125
0.028
0.008
0.003
0.001
1
0.250
0.056
0.017
0.006
0.003
0.0006 0.0003 0.001
0.0006
2
0.375
0.111
0.033
0.012
0.005
0.002
0.001
3
0.500
0.167
0.058
0.021
0.009
0.004
0.002
4
0.250
0.092
0.036
0.015
0.007
0.004
5
0.333
0.133
0.055
0.024
0.011
0.006
6
0.444
0.192
0.082
0.037
0.018
0.009
7
0.556
0.258
0.115
0.053
0.026
0.013
8
0.333
0.158
0.075
0.037
0.019
9
0.417
0.206
0.101
0.051
0.027
10
0.500
0.264
0.134
0.069
0.036
0.324
0.172
0.090
0.049
11 12
0.394
0.216
0.117
0.064
13
0.464
0.265
0.147
0.083
14
0.536
0.319
0.183
0.104
0.376
0.223
0.129
16
0.438
0.267
0.159
17
0.500
0.314
0.191
18
0.365
0.228
19
0.418
0.268
15
20
0.473
0.310
21
0.527
0.355
22
0.402
23
0.451
24
0.500
» 253
254 «
Introdución a Métodos no paramétricos
n2= 8 U0
n1 1
2
3
4
5
6
7
8
0
0.111
0.022
0.006
0.002
0.0008 0.0003 0.0002 0.0001
1
0.222
0.044
0.012
0.004
0.0016 0.0007 0.0003 0.0002
2
0.333
0.089
0.024
0.008
0.003
0.001
3
0.444
0.133
0.042
0.014
0.005
0.002
0.001
0.0005
4
0.556
0.0006 0.0003
0.200
0.067
0.024
0.009
0.004
0.002
0.0009
5
0.267
0.097
0.036
0.015
0.006
0.003
0.0015
6
0.356
0.139
0.055
0.023
0.010
0.005
0.002
7
0.444
0.188
0.077
0.033
0.015
0.007
0.004
8
0.556
0.249
0.107
0.047
0.021
0.010
0.005
9
0.315
0.141
0.064
0.029
0.015
0.007
10
0.388
0.184
0.086
0.041
0.020
0.010
11
0.461
0.230
0.111
0.054
0.027
0.014
12
0.539
0.285
0.142
0.071
0.036
0.019
13
0.341
0.177
0.091
0.047
0.025
14
0.404
0.218
0.114
0.060
0.033
15
0.467
0.262
0.141
0.076
0.042
16
0.533
0.311
0.173
0.095
0.052
17
0.362
0.207
0.116
0.065
18
0.417
0.245
0.141
0.080
19
0.472
0.286
0.168
0.097
20
0.528
0.331
0.198
0.117
21
0.377
0.232
0.139
22
0.426
0.268
0.164
23
0.475
0.306
0.191
24
0.525
0.347
0.221
25
0.389
0.223
26
0.433
0.287
27
0.478
0.323
28
0.523
0.361
29
0.399
30
0.439
31
0.479
32
0.520
Capítulo 8
n2= 9 U0
n1 1
2
3
4
5
6
7
8
9
0
0.1000
1
0.2000 0.0364 0.0091 0.0028 0.0010 0.0004 0.0002 0.0001 0.0000
0.0182 0.0045 0.0014 0.0005 0.0002 0.0001 0.0000 0.0000
2
0.3000 0.0727
0.0182 0.0056 0.0020 0.0008 0.0003 0.0002 0.0001
3
0.4000 0.1091
0.0318 0.0098 0.0035 0.0014 0.0006 0.0003 0.0001
4
0.5000 0.1636 0.0500 0.0168 0.0060 0.0024 0.0010 0.0005 0.0002
5
0.2182
0.0277 0.0252 0.0095 0.0038 0.0017 0.0008 0.0004
6
0.2909 0.1045
0.0378
0.0145 0.0060 0.0026 0.0012 0.0006
7
0.3636
0.1409
0.0531
0.0210 0.0088 0.0039 0.0019 0.0009
8
0.4545
0.1864
0.0741 0.0300 0.0128 0.0058 0.0028 0.0014
9
0.5455 0.2409 0.0993 0.0415
0.0180 0.0082 0.0039 0.0020
10
0.3000
0.1301
0.0559 0.0248
0.0115
11
0.3636
0.1650
0.0734
0.0156 0.0076 0.0039
12
0.4318
0.2070 0.0949 0.0440 0.0209 0.0103 0.0053
13
0.5000 0.2517
0.1199
0.0567
14
0.3021
0.1489
0.0723 0.0356 0.0180 0.0094
15
0.3552
0.1818
0.0905 0.0454 0.0232
16
0.4126
0.2188
0.1119
0.0571 0.0296
17
0.4699 0.2592
0.1361
0.0708 0.0372 0.0200
18
0.5301
0.3032
0.1638
0.0869 0.0465 0.0252
19
0.3497
0.1942
0.1052
0.0570
20
0.3986 0.2280
0.1261
0.0694 0.0385
21
0.4491
0.2643
0.1496
0.0836 0.0470
22
0.5000 0.3035
0.1755
0.0998 0.0567
23
0.0332
0.0274
0.0056 0.0028
0.0137
0.0071 0.0122 0.0157
0.0313
0.3445 0.2039
0.1179
0.0680
24
0.3878
0.1383
0.0807
25
0.4320 0.2680 0.1606
0.0951
26
0.4773
0.3032
0.1852
0.1112
27
0.5227
0.3403
0.2117
0.1290
0.3788 0.2404
0.1487
28
0.2349
29
0.4185
0.2707
0.1701
30
0.4591
0.3029
0.1933
31
0.5000 0.3365
0.2181
32
0.3715
0.2447
33
0.4074
0.2729
34
0.4442
0.024
35
0.4813
0.3332
36
0.5187
0.3652
» 255
256 «
Introdución a Métodos no paramétricos
37
0.3981
38
0.4317
39
0.4657
40
0.5000
n2= 10 U0 0
n1 1
2
3
4
5
6
7
8
9
10
0.0909 0.0152 0.0035 0.0010 0.0003 0.0001 0.0001 0.0000 0.0000 0.0000
1
0.1818
2
0.2727 0.0606 0.0140 0.0040 0.0013 0.0005 0.0002 0.0001 0.0000 0.0000
0.0303 0.0070 0.0020 0.0007 0.0002 0.0001 0.0000 0.0000 0.0000
3
0.3636 0.0909 0.0245 0.0070 0.0023 0.0009 0.0004 0.0002 0.0001 0.0000
4
0.4545
5
0.5455
0.1364
0.0385 0.0120 0.0040 0.0015 0.0006 0.0003 0.0001 0.0001
0.1818
0.0559 0.0180 0.0063 0.0024 0.0010 0.0004 0.0002 0.0001
6
0.2424 0.0804 0.0270 0.0097 0.0037 0.0015 0.0007 0.0003 0.0002
7
0.3030
0.1084 0.0380 0.0140 0.0055 0.0023 0.0010 0.0005 0.0002
8
0.3788
0.1434
0.0529 0.0200 0.0080 0.0034 0.0015 0.0007 0.0004
9
0.4545
0.1853
0.0709 0.0276
10
0.5455
0.2343 0.0939 0.0376
0.0112
0.0048 0.0022 0.0011 0.0005
0.0156 0.0068 0.0031
0.0015 0.0008
11
0.2867
0.1199
0.0496 0.0210 0.0093 0.0043 0.0021 0.0010
12
0.3462
0.1518
0.0646 0.0280 0.0125 0.0058 0.0028 0.0014
13
0.4056 071868 0.0823 0.0363
0.0165 0.0078 0.0038 0.0019
14
0.4685 0.2268
0.1032
0.0467
0.0215
15
0.5315
0.3697
0.1272
0.0589 0.0277
0.0133 0.0066 0.0034
16
0.3177
0.1548
0.0736
0.0351
0.0171
0.0103
0.0051 0.0026 0.0086 0.0045
17
0.3666
0.1855
0.0903 0.0439
0.0217
0.0110 0.0057
18
0.4196
0.2198
0.1099 0.0544 0.0273
0.0140 0.0073
19
0.4725
0.2567
0.1317
0.0175 0.0093
20
0.5275
0.2970
0.1566 0.0806 0.0416
0.0665 0.0338
0.0217 0.0116
21
0.3393
0.1838
0.0966 0.0506 0.0267 0.0144
22
0.3839
0.2139
0.1148
0.0610 0.0326 0.0177
23
0.4296
0.2461
0.1349
0.0729 0.0394 0.0216
24
0.4765
0.2811
0.1574
0.0864 0.0474 0.0262
25
0.5235
0.3177
0.1819
0.1015
0.0564 0.0315
26
0.3564 0.2087
0.1185
0.0667 0.0376
27
0.3962
0.2374
0.1371
0.0782 0.0446
28
0.4374
0.2681
0.1577
0.0912 0.0526
29
0.4789 0.3004 0.1800
0.1055 0.0615
30
0.5211
31
0.2041
0.1214
0.0716
0.3698 0.2299
0.3345
0.1388
0.0827
Capítulo 8
32
0.4063
0.2574
0.1577
0.0952
33
0.4434
0.2863
0.1781
0.1088
34
0.4811
0.3167
0.2001 0.1237
35
0.5189
0.3482
0.2235 0.1399
36
0.3809 0.2483 0.1575
37
0.4143
38
0.4484 0.3019 0.1965
39
0.4827
0.2745 0.1763 0.3304 0.2179
40
03598
41
0.3901 0.2644
0.2406
42
0.4211
43
0.4524 0.3153
44
0.4841 0.3421
45
0.5159 0.3697
46
0.3980
47
0.4267
48
0.4559
49
0.4853
50
0.5147
0.2894
» 257
258 «
Introdución a Métodos no paramétricos
Bibliografía 1. Anscombe, T. (1973). Grapas in Statistical Analisys. The American Statistician, 27, 17-21 2. Avendaño, M., Vergara, P. (2003). Atractividad y Posición Competitiva. Análisis Multivariado de los Matriculados en las Universidades Chilenas del Consejo de Rectores 1999 – 2003. Ediciones Universidad Tecnológica Metropolitana. 3. Canavos George (1987). Probabilidad y Estadística. Aplicaciones y Métodos. Ed. Mc Graw Hill 4. Cortés, A., Vergara, P., Realp, E. and Domenech, J.A. (2005). Induced Phytoextraction viability studies for Zn, Ba, Cu, and Pb remediation in heavily contaminated soils. 9th International FZK / TNO Conference on Soil-Water Systems Bordeaux Convention Center, Bordeaux – France. Pág 1894-1901. 5. Delgado, M., Olavarrieta, P. y Vergara, P. (2004). Lógica Difusa en Control de Calidad de Procesos. XII Congreso Español de Tecnologías y Lógica Fuzzy. Jaén – España 6. Delgado, M., Vergara, P. y Olavarrieta, P. (2005). Fuzyy Sets Tools in Process Quality Control. IFSA2005 World Congress Fuzzy Logic, So6 Computing and Computational Intelligence Theory and Applications. Beijing - China 7. Delgado, M., Olavarrieta P., y Vergara, P. (2006). Fuzzy Set Based Protocols for Process Quality Control. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. Vol 14-1. February 8. Peña Sanchez de Rivera, D. (1987.) Estadística Modelos y Métodos 2. Modelos lineales y series temporales. Ed. Alianza Universidad Textos 9. Mendenhall William (1990). Estadística para Administradores. Ed. Iberoamérica 10. Pepió M., Polo C., y Vergara P. (1994). Control de Procesos mediante Estadísticos Ponderados Exponencialmente. Actas del XXI Congreso de Estadística e Investigación Operativa. Calella, España. 11. Saavedra, M., Capdevila, R., Vergara, P. y Jiménez, S. (2005). Análisis Multivariable de Mediciones de Nivel de Ruido. 36º Congreso Nacional de Acústica y Encuentro Ibérico de Acústica. Terrassa-España. 12. Vergara, P. (2003). Optimización de Procesos Industriales y Control de Calidad. Ediciones Universidad Tecnológica Metropolitana. ISBN:956-7359-45-8 13. Vergara, P. (1993). Optimización de la Calidad de Procesos: Modelización Global. Actas VI Congreso Internacional de Biomatemáticas ISBN 9977-64-718-6. Universidad Estatal a Distancia. Costa Rica 14. Vergara, P., Uribe, E., Cortes, A. 2011. Optimization of a quality model for CCA industrial impregnation of Pinus radiata D. Don agricultural fencing stakes. Wood Research, 58 (1). 2013