Libro Utem Estadistica Descriptiva Probabilidades Inferencia Modelos Regresion Metodos No Parametricos

February 5, 2024 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Libro Utem Estadistica Descriptiva Probabilidades Inferencia Modelos Regresion Metodos No Parametricos...

Description

ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES INFERENCIA MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS PEDRO VERGARA VERA

ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES, INFERENCIA, MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS.

PEDRO VERGARA VERA

ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES INFERENCIA MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS PEDRO VERGARA VERA

Ediciones Universidad Tecnológica Metropolitana Calle Dieciocho 161, Santiago, Chile

(56-2) 787 77 50

Metro Los Héroes

[email protected]

Vicerrectoría de Transferencia Tecnológica y Extensión Casilla: 9845

www.utem.cl www.vtte.utem.cl

Universidad Tecnológica Metropolitana Ediciones Universidad Tecnológica Metropolitana ESTADÍSTICA DESCRIPTIVA, PROBABILIDADES, INFERENCIA, MODELOS DE REGRESIÓN Y MÉTODOS NO PARAMÉTRICOS. Autor: Pedro Vergara Vera ISBN: 978-956-7359-95-0 Registro de propiedad intelectual n.º Diseño de portada y corrección de estilo: Ediciones Universidad Tecnológica Metropolitana Vicerrectoría de Transferencia Tecnológica y Extensión © Está prohibida la reproducción total o parcial de este libro, su recopilación en un sistema informático y su transmisión en cualquier forma o medida (ya sea electrónica, mecánica, por fotocopia, registro o por otros medios) sin el previo permiso y por escrito de los titulares del copyright. Impresión: Gráfica LOM Santiago de Chile, diciembre de 2014.

ÍNDICE capítulo

1

Estadística descriptiva

1. INTRODUCCIÓN 1.1. Variables 1.1.1. Variables cualitativas 1.1.1.1. Variable cualitativa nominal 1.1.1.2. Variable cualitativa ordinal 1.1.2. Variables cuantitativas 1.1.2.1. Variable cuantitativa discreta 1.1.2.2. Variable cuantitativa continua

12 12 12 13 13 13 13

1.2. Tablas y gráficos 1.2.1. Tabla de distribución de frecuencias 1.2.1.1. Variables cualitativas 1.2.1.2. Variables cuantitativas 1.2.1.3. Variables continuas o discretas con Intervalos

1.3. Histogramas 1.4. Polígono de frecuencias 1.5. Histograma ajustado 1.6. Diagramas de Pareto 1.7. Diagramas de causa-efecto de Ishikawa 1.8. Tablas de asociación

13 14 15 17 20 22 24 25 27 31

capítulo

2

Medidas de tendencia central 2.1 Promedio aritmético o media aritmética 2.1.1. Datos simples 2.1.2. Datos agrupados sin intervalos 2.1.3. Datos agrupados con intervalos 2.1.4. Propiedades del promedio 2.1.5. Promedios condicionados

2.2. Mediana 2.2.1. Datos simples 2.2.2. Datos agrupados

capítulo

3

36 36 37 38 40 42 44 45 46

2.3. Cuartiles 2.4. Quintiles 2.5. Deciles 2.6. Percentiles

47 50 51 53

3.1. Varianza

56

Medidas de variabilidad 3.1.1. Datos simples 3.1.1. Propiedades de la varianza

3.2. Covarianza 3.2.1. Propiedades de la covarianza

3.3. Desviación estándar 3.4. Coeficiente de variación 3.5. Recorrido intercuartílico 3.6. Puntaje típico

56 57 60 61 62 62 63 64

capítulo

4

Probabilidades 4.1. Experimento 4.2. Espacio muestral (Ω) 4.3. Suceso 4.4. Definición de Probabilidad Clásica 4.5. Axiomas de probabilidades 4.6. Teoremas de probabilidades 4.7. Probabilidad condicional 4.7.1. Propiedades

capítulo

5

65 65 65 66 69 70 71 72

4.8. Teorema de multiplicación 4.9. Sucesos independientes 4.10. Teorema de probabilidad total 4.11. Teorema de Bayes

72 74 77 78

5.1. Variables aleatorias discretas

81

Variables aleatorias 5.1.1. Función de cuantía o de probabilidad 5.1.2. Función de probabilidad acumulativa 5.1.3. Esperanza 5.1.4. Varianza 5.1.5. Distribución de Bernoulli 5.1.6. Distribución binomial 5.1.7. Distribución hipergeométrica 5.1.8. Distribución multinomial 5.1.9. Distribución de Poisson

81 83 84 84 86 87 91 95 95

5.2. Variables aleatorias continuas

97

5.2.1. Esperanza 5.2.2. Varianza 5.2.3. Distribución uniforme 5.2.4. Distribución exponencial 5.2.5. Distribución t-Student 5.2.6. Distribución normal Ejemplos 5.2.7. Distribución chi-cuadrado

98 99 99 101 102 104 105 107

5.2.8. Distribución F 5.2.9. Distribución triangular 5.2.10. Momento de una variable aleatoria 5.2.11. Función generadora de momentos en torno al cero 5.2.12. Función generadora de momentos en torno a µ 5.2.13. Funciones generatrices de momento de variables discretas 5.2.14. Algunas funciones generatrices de momento de funciones continuas Ejercicios resueltos del capítulo Ejercicios propuestos

capítulo

6

110 111 115 117 118 119 120 120 122

Inferencia 6.1. Introducción 6.2. Distribución muestral de un estadístico 6.2.1. Error muestral 6.2.2. Error típico muestral 6.2.3. Distribución muestral de la media 6.2.3.1. Teorema central del límite 6.2.4. Distribución muestral de (n-1)S2*/ 2 6.2.5. Distribución muestral de p

6.3. Inferencia estadística

123 124 125 125 126 126 127 127 127

6.3.1. Estimación de parámetros 6.3.1.1. Estimación puntual 6.3.1.1.1. Estimador insesgado 6.3.1.1.2. Estimador consistente 6.3.1.1.3. Estimador eficiente 6.3.1.1.4. Eficiencia relativa 6.3.2. Método de máxima verosimilitud 6.3.2.1. Propiedad invariante

127 128 128 128 130 130 130 134

6.4. Estimación por intervalos de confianza

134

6.4.1. Intervalo de confianza para la media µ de una población normal 6.4.1.1. Cuando 2 es conocida 6.4.1.2. Cuando 2 es desconocida 6.4.2. Precisión en la Estimación por Intervalos de Confianza

134 134 136 138

6.4.3 Intervalo de Confianza para una proporción 6.4.4. Intervalo de confianza para 2 6.4.4.1. Cuando µ es conocida 6.4.4.2. Cuando µ es desconocida 6.4.5. Intervalo de confianza para la diferencia de dos promedios µ1 - µ2 6.4.5.1. Varianzas iguales conocidas 6.4.5.2. Varianzas iguales desconocidas 6.4.5.3. Varianzas distintas y desconocidas

6.5. Pruebas de hipótesis 6.5.1. Hipótesis nula y alternativa 6.5.2. Prueba de hipótesis para una proporción

139 141 141 142 143 143 144 145 146 146 146

6.6. Prueba de hipótesis para un promedio

150

6.6.1. Varianza conocida 6.6.2. Varianza desconocida

150 152

6.7. Prueba de hipótesis respecto de la varianza 6.7.1. Prueba para una varianza 6.7.2. Prueba para dos varianza

6.8. Prueba de hipótesis para dos medias 6.8.1. Varianzas iguales conocidas 6.8.2. Varianzas iguales desconocidas 6.8.3. Varianzas distintas desconocidas

6.9. Dócima para dos proporciones 6.10. Muestras pareadas Ejercicios resueltos Ejercicios propuestos

153 153 157

159 159 160 163 164 165 166 174

6.11. Pruebas de Bondad de Ajuste

179

6.11.1. Prueba para una distribución uniforme 6.11.2. Prueba para una distribución normal

180 181

6.12. Puebas de hipótesis 2 para análisis de tablas de asociación

183

6.13. Análisis de la varianza 6.13.1 Tabla ANOVA y el contraste F

186 192

capítulo

7

Modelos de regresión 7.1. Gráficos de correlación 7.1.1. Coeficiente de correlación

7.2. Regresión lineal

199 201 205

7.3. Linealización de modelos

211

7.4. Modelos de regresión múltiple 7.4.1. Determinación de los parámetros i 7.4.2. Matriz de varianzas-covarianzas 7.4.3. Validación del modelo de regresión múltiple

capítulo

198

7.2.1. Método de mínimos cuadrados 7.2.2. Análisis de los residuos

7.3.1. Modelo exponencial 7.3.2. Modelo potencial 7.3.3. Modelo hiperbólico

8

197

211 214 216 219 220 222 222

Introdución a métodos no paramétricos 8.1. Prueba para comparar dos medias. muestras independientes

231

8.1.1. Prueba de U Mann-Whitney y prueba de Rangos de Wilcoxon

231

8.1.2. Prueba de Kruskall-Wallis

236

Tabla normal Tabla t-Student Tabla chi-cuadrado Tabla F Tabla U Mann-Whitney Bibliografía

240 242 244 245 251 258

capítulo

1

Estadística descriptiva

1. INTRODUCCIÓN. En todo estudio estadístico es necesario contar con información que permita conocer las características de las variables que intervienen, tales como los valores de sus medidas de tendencia central y de variabilidad, como también la distribución que ellas posean, puesto que, dependiendo de estas características, se desprenderán los métodos estadísticos que se puedan aplicar.

1.1. Variables. Dependiendo del tipo de estudio que se quiera realizar, diversas pueden ser las variables que en él estén involucradas. Algunas estarán referidas a la cualidad del objeto observado, otras a las magnitudes o medidas de ellas. Por esto, las variables se clasifican en: cualitativas o cuantitativas. 1.1.1. Variables cualitativas, Como su nombre lo indica, están referidas a la cualidad que posee el objeto observado. Esta cualidad puede vincularse con una característica de los niveles que la variable posea o con una jerarquía entre estos niveles. Así, las variables cualitativas se subdividen en dos tipos: nominales y ordinales. 1.1.1.1. Variable cualitativa nominal es aquella para la que, en sus niveles, no es relevante establecer un orden o jerarquía para su clasificación. Por ejemplo: la variable “estado civil de un individuo” posee tres niveles: soltero, casado y viudo; el que sea nominal significa que da lo mismo ordenar la información poniendo en primer lugar a los solteros, luego a los casados y finalmente a los viudos, o cualquier otro orden. La variable “sexo” también es cualitativa nominal, ya que no es relevante el orden o jerarquía entre los niveles femenino y masculino. Otros ejemplos: nombre de la calle en donde vive el encuestado, la etnia que posee, el color de sus ojos, el color de su

Capítulo 1

» 13

cabello, su profesión, la ciudad donde reside, el tipo de locomoción que utiliza, la empresa en donde trabaja, entre otros. 1.1.1.2. Variable cualitativa ordinal es aquella para la que, en sus niveles, es relevante el orden o jerarquía preestablecida y, por ello, la información debe ser presentada en ese orden o respetando esa jerarquía. Por ejemplo: si se quiere clasificar la información según el mes de ocurrencia, existe un orden de precedencia de los meses, a saber: primero está enero, luego febrero… hasta diciembre. Lo mismo ocurre si se considera la variable día de la semana (lunes, martes…), la variable nivel educacional (prekínder, kínder, primero básico... hasta la enseñanza media). Asimismo, para los estudios universitarios existen una malla jerárquica semestral y prerrequisitos para los cursos de semestres posteriores, y así sucesivamente. Otros ejemplos: días del mes; jerarquía de los académicos de una universidad; grados académicos como licenciado, magíster y doctor; precedencia de las jefaturas de una organización, entre otros. 1.1.2. Variables Cuantitativas Son aquellas que están referidas a la posibilidad de medir o cuantificar. Dependiendo de su continuidad o discontinuidad, se subdividen en dos categorías. 1.1.2.1. Variable cuantitativa discreta es aquella para la que, entre dos de sus niveles, existe un número finito de valores intermedios. Por ejemplo: el número de hijos de una familia, el número de vehículos que una persona posee, el número de propiedades de una familia, el número de alumnos de una carrera, el número de directores de una compañía, entre otros. 1.1.2.2. Variable cuantitativa continua es aquella para la que, entre dos de sus valores, existen infinitos valores intermedios. Por ejemplo: los kilos de maíz que contenga un saco, la edad de los estudiantes de un curso, la estatura de las personas de una empresa, la presión sanguínea de un paciente, la longitud de un perno, el diámetro de un pistón, el volumen de un ladrillo, el índice de alcoholemia de un conductor, la presión atmosférica de un lugar, la resistencia a la rotura de una correa de seguridad, el ingreso per cápita de una familia, los gastos de una familia, entre otros.

1.2. Tablas y gráficos. Las tablas estadísticas y gráficos tienen por objetivo mostrar la información de un estudio en forma resumida y ordenada, permitiendo al investigador tener una aproximación de la distribución que las variables puedan tener y sus características. En las tablas o en los gráficos se debe poner un título que indique claramente cuál es la variable que se presenta, cómo está clasificada la información, dónde está registrada y cuándo fue obtenida. Esta descripción detallada permitirá a un investigador obtener la información de la fuente en donde esta se generó, pudiendo así continuar o ampliar un estudio respecto de ella. 1.2.1. Tabla de distribución de frecuencias Una tabla de distribución de frecuencias es aquella que permite clasificar la información respecto de una variable.

14 «

Estadistíca Descriptiva

1.2.1.1. Variables cualitativas. Para construir una tabla de distribución de frecuencias de una variable cualitativa, se deben determinar sus distintos niveles, ya sea a partir de los valores individuales observados x1, x2…, xn de una muestra, o bien a partir de los datos de toda la población. Conocidos los distintos niveles y1, y2…, yk, se debe proceder a tabular el número de individuos que posee cada nivel. Así, la tabla tiene la siguiente estructura: Variable y1 y2 . . yk

fi f1 f2 . . fk

Total

n

% p1 p2 . . pk

donde f1 representa la frecuencia o el número de observaciones contabilizadas para el nivel y1 de la variable; fk representa la frecuencia o el número de observaciones contabilizadas para el nivel yk de la variable; p1 representa el porcentaje que el número de observaciones f1 del nivel y1 representa respecto del total de observaciones de la muestra o de la población; pk representa el porcentaje que el número de observaciones fk del nivel yk representa respecto del total n de observaciones de la muestra o de la población. Así, para un nivel j se tiene:

Por ejemplo, se tiene la información x1, x2,…, x800 del estado civil de 800 trabajadores de la División A de la empresa Cobre S.A correspondiente al mes de mayo de 2011, Al tabular los datos, se obtuvo la Tabla 1.1. Tabla 1.1. Personal División A Cobre S.A, según Estado Civil. Mayo 2011

Estado Civil

fi

%

soltero casado viudo

240 440 120

30.0 55.0 15.0

Total

800

100.0

Se puede afirmar que de los 800 trabajadores hay 240 solteros que representan el 30% del total; 440 son casados correspondientes al 55% del total; y el 15% restante son viudos.

Capítulo 1

» 15

En general, esta es la estructura de una tabla de distribución de frecuencias referida a una variable cuantitativa. El único estadístico posible de calcular es el porcentaje que cada nivel representa respecto del total. La información contenida en este tipo de tabla se puede representar a través de un gráfico de barras simples, que consiste en barras de igual ancho, una para cada nivel de la variable, y su altura corresponde a la frecuencia observada de ese nivel (fig 1.1.a). También, pueden usarse gráficos sectoriales en los cuales el ángulo del centro corresponde a la parte proporcional que la frecuencia observada en cada nivel representa respecto del total (fig. 1.1.b.). Fig 1.1 Personal División A Cobre S.A, según Estado Civil. Mayo 2005

440

240

a)

b)

soltero 30% casado 55%

120 viudo 15% soltero

casado

viudo

1.2.1.2. Variables cuantitativas. Sean x1, x2,…, xn los valores medidos de una variable cuantitativa discreta, con y1, y2,...,yk niveles distintos y f1, f2..., fk frecuencias observadas de cada nivel, la tabla de distribución de frecuencias estaría dada por:

Frecuencia absoluta

Frecuencia relativa

Frecuencia acumulada

Frecuencia relativa acumulada

Variable

fi

hi

Nj

Hj

y1 y2 . . . yk

f1 f2 . . . fk

h1 h2 . . . hk

N1 N2 . . . Nk

H1 H2 . . . Hk

TOTAL

n

16 «

Estadistíca Descriptiva

donde: es la frecuencia relativa del nivel i; son las frecuencias acumuladas hasta el nivel j; son las frecuencias relativas acumuladas hasta el nivel j. Las frecuencias acumuladas y sus respectivas frecuencias relativas acumuladas también se pueden calcular en forma ascendente en la tabla. Se puede observar que i)

ii)

iii) Nk = n.

Ejemplo. En la tabla 1.2 se muestra la información tabulada respecto del número de hijos de 125 familias: fi 15 25 40 35 10 125

hi 0.12 0.20 0.32 0.28 0.08

Nj 15 40 80 115 125

Hj 0.12 0.32 0.64 0.92 1.00

Nj 125 110 85 45 10

"

Nº de hijos 0 1 2 3 4 Total

"

Tabla 1.2. Distribución de frecuencias

Hj 1.00 0.88 0.68 0.36 0.08

Se puede observar que el 32% de las familias tiene 2 hijos, y que 80 familias tienen 2 o menos hijos, lo que representa el 64% del total de familias; que el 60% de las familias tiene entre 2 y 3 hijos; que 85 familias tienen 2 o más hijos, lo que representa el 68% del total de familias. En las fig. 1.2. a, b y c, se muestra el gráfico de barras simples, el gráfico sectorial y el gráfico de frecuencias acumuladas, respectivamente. Fig 1.2 a) Gráfico de barras simples

4 hijos

12%

8%

1 hijo

3 hijos

20%

28%

Hijos

0

1

2

3

4

Fig 1.2 b) Gráfico sectorial

0 hijos

2 hijos 32%

Capítulo 1

» 17

Fig 1.2 c) Gráfico de frecuencias acumuladas

Familia

15

40

80

115

125

1.2.1.3. Variables Continuas o Discretas con Intervalos Sean x1, x2,..., xn los valores medidos de una variable cuantitativa continua o discreta con muchos niveles, se designa por y´0, y´1,..., y´k a los límites de cada intervalo, por y1 , y2,..., yk marcas de clase o puntos medios de los intervalos (si la variable es continua), o los niveles distintos (si la variable es discreta); sean f1 , f2,..., fk las frecuencias observadas en cada intervalo o en cada nivel. La tabla de distribución de frecuencias tendría la siguiente estructura:

Variable y´0 - y´1 y´1 - y´2 . y´k-1 - y´k Total

yi y1 y2 . yk

fi f1 f2 . fk

hi h1 h2 . hk

Nj N1 N2 . Nk

Hj H1 H2 . Hk

n

donde: es el punto medio o marca de clase del intervalo i; es la frecuencia relativa del nivel i; son las frecuencias acumuladas hasta el nivel j; son las frecuencias relativas acumuladas hasta el nivel j.

18 «

Estadistíca Descriptiva

Ejemplo. En la tabla 1.3, se muestra la información tabulada correspondiente al sueldo líquido de 220 obreros: fi 25 45 60 50 30 10 220

hi 0.11363 0.20454 0.27272 0.22727 0.13636 0.04545

Nj 25 70 130 180 210 220

Hj 0.11363 0.31818 0.59091 0.81818 0.95454 100.000

Nj 220 195 150 90 40 10

"

Ingreso M$ 125 - 130 130 - 135 135 - 140 140 - 145 145 - 150 150 - 155 Total

"

Tabla 1.3. Distribución de frecuencias

Hj 1,00000 0,88636 0,68182 0,40909 0,18182 0,04545

yi 127.5 132.5 137.5 142.5 147.5 152.5

Se puede observar que el límite superior de un intervalo es igual a límite inferior del intervalo siguiente, la pregunta es ¿en qué intervalo se tabula este valor límite?, la respuesta viene dada en el manual del programa computacional que construya la tabla, ya que dependerá del comparador lógico que utilice, por ejemplo, si usa LE (menor o igual que) tabulará el valor en el intervalo del cual es límite superior, si usa LT (menor que) tabulará el valor en el intervalo del cual es límite inferior. De la tabla, se puede observar que el 27.27% de los obreros gana entre $135.000 y $140.000; que 130 de ellos ganan $140.000 o menos, lo que representa el 59,09% respecto al total; que el 31.82% gana $135.000 o menos; que 90 de ellos ganan más de $140.000 lo que corresponde a un 40.91% del total de obreros. Para construir una tabla de distribución de frecuencias de una variable cuantitativa con k intervalos de igual amplitud, se debe identificar en los valores originales el máximo y el mínimo, xmáximo y xmínimo, definiendo el recorrido de la variable por: ,la amplitud constante de cada intervalo se calcula por Para construir la tabla, el límite inferior del primer intervalo se inicia con el valor Xmínimo, al que se le suma la amplitud constante obteniendo el límite superior correspondiente a este primer intervalo, a este valor superior se le suma la amplitud constante y así sucesivamente hasta alcanzar el valor de Xmáximo. Existe un procedimiento que permite determinar el número k de intervalos a definir en una tabla dependiendo del tamaño conocido de la muestra N, denominada fórmula de Sturgess (1926):

Capítulo 1

» 19

Ejemplo. Se tiene la información respecto del gasto mensual (M$) en combustible de 50 vehículos de acuerdo a la Tabla 1.4. Tabla 1.4. Gastos mensuales

120 49 97 86 171

64 56 109 130 182

40 68 143 180 98

55 94 164 110 126

103 114 88 122 139

146 80 126 95 148

191 83 167 148 175

181 96 105 100 196

134 128 144 192 49

55 172 200 112 127

Construya una tabla de distribución de frecuencias de k=4 intervalos de igual amplitud, como se tiene que

= 160, la amplitud constante está dada por

obteniendo la tabla 1.5.

Tabla 1.5. Distribución de frecuencias

Gasto (M$)

fi

hi

Nj

Hj

40 – 80

9

0.18

9

0.18

80 – 120

15

0.30

24

0.48

120 – 160

14

0.28

38

0.76

160 – 200

12

0.24

50

1

Total

50

Analice e interprete los resultados obtenidos en esta tabla.

Observación. En este ejercicio se decidió construir k=4 intervalos. Si no se supiera el número de intervalos, se aplicaría la fórmula de Sturges y debieran construirse

Ejercicio. Se tiene la información respecto del diámetro externo en centímetros de 150 pistones para ensamblar bombas de agua, tabla 1.6. Construir una tabla de distribución de frecuencias.

20 «

Estadistíca Descriptiva

Tabla 1.6. Diámetros externos

10.01 10.03 10.07 9.96 9.97 9.94 10.00 10.08 10.00 9.95 9.97 10.08 9.97 10.06 10.00

10.06 10.04 10.07 10.08 10.00 10.03 10.06 10.02 10.06 9.97 9.97 10.00 10.09 10.00 9.92

9.98 9.91 10.02 9.95 9.97 10.00 10.05 10.05 10.06 9.98 10.06 10.03 10.00 9.92 9.95

10.02 10.03 10.00 10.03 10.02 9.98 10.00 9.97 9.99 10.07 10.08 10.06 10.03 9.95 9.97

9.90 9.98 10.06 10.00 10.08 10.04 9.95 10.02 9.99 10.07 10.02 10.02 9.96 10.06 9.95

10.01 10.04 10.06 9.92 10.02 9.98 10.04 10.00 10.06 10.02 10.04 10.04 10.06 9.99 9.95

9.96 9.96 9.99 10.13 10.05 10.01 10.05 9.94 10.05 10.00 10.05 10.06 10.07 9.99 10.03

9.96 9.95 9.99 10.08 9.97 10.09 10.00 10.03 9.96 10.06 10.00 9.92 10.08 9.94 10.00

9.97 9.97 10.06 10.08 10.02 10.04 10.05 10.00 10.08 10.06 10.08 10.02 10.00 10.03 9.92

9.94 9.98 10.05 10.06 10.00 9.92 9.95 9.97 9.95 9.99 10.06 9.98 10.03 9.94 9.95

1.3. Histogramas. Los histogramas permiten visualizar la posible distribución que subyace tras los datos. Conocer esta distribución permite aplicar las teorías correspondientes a dicha distribución, ya sea normal, chi-cuadrado, t-Student, Weibull, exponencial u otra. Para ello, se debe construir una tabla de distribución de frecuencias con interva-los de igual amplitud de la variable cuantitativa en estudio, considerando 100 o más datos. Ejemplo. En la tabla 1.7 se tiene la información de la velocidad registrada a > 200 vehículos que pasaron por un puesto de control. Tabla 1.7. Distribución de frecuencias

Límite Límite inferior superior 82 - 86 86 - 90 90 - 94 94 - 98 98 - 102

Frecuencia absoluta 2 2 16 50 71

Frecuencia relativa 0.010 0.010 0.080 0.250 0.355

Frecuencia acumulada 2 4 20 70 141

Frecuencia relativa acumulada 0.0100 0.0200 0.1000 0.3500 0.7050

Capítulo 1

102 - 106 106 - 110 110 - 114 Total

32 22 5 200

0.160 0.110 0.025

173 195 200

» 21

0.8650 0.9750 1.0000

Se puede observar que el 35.5% de ellos viajaba a velocidades comprendidas entre 98 y 102 km/h. Del total de vehículos, 195 de ellos viajaban a velocidades menores o igual a 110 km/h, lo que representa el 97.5%. En la fig 1.3 a), se puede apreciar en el histograma que la distribución es bastante simétrica y se podría asumir que tiene distribución normal de media 99.8291 km/h y desviación estándar 4.8956 km/h, esta afirmación debe ser probada con algún test estadístico, los que se estudiarán más adelante. La fig 1.3 b), muestra el polígono de frecuencias acumuladas correspondiente. Figura 1.3 a) Historgrama

80 70 60 50 40 30 20 10

82

92

102

112 122

cumulative frequency polygon

Figura 1.3 b) Polígono de frecuencias

cumulative frequency

200 160 120 80 40 0 82

92

102

112

122

Ejercicio. Con los datos de los pistones, construya el histograma a partir de una tabla de diez intervalos de igual amplitud.

22 «

Estadistíca Descriptiva

Los histogramas permiten tener una impresión visual de la posible distribución existente en los datos analizados. En la fig 1.4 a) se puede asumir una distribución aproximadamente normal; en la fig 1.4 b) se muestra la distribución aproximada en chi-cuadrado. Los histogramas también permiten detectar posibles comportamientos anómalos de un proceso. En la fig 1.4 c) se puede apreciar que el histograma es muy plano en la parte superior y muestra una posible mezcla de dos distribuciones de igual variabilidad; en cambio, en la fig 1.4 d) se puede apreciar una posible mezcla de tres distribuciones de distinta variabilidad. Figura 1.4 Histogramas

a)

c)

b)

d)

1.4. Polígono de frecuencias. Un polígono de frecuencia se construye uniendo los puntos medios superiores de un histograma. Se utiliza para realizar comparaciones múltiples de varias distribuciones. También, se puede construir un histograma acumulativo y su respectivo polígono de frecuencias. Ejemplo. Se tiene la siguiente información respecto del sueldo en pesos de 200 mujeres y 200 hombres de una institución pública.

Capítulo 1

» 23

Tabla 1.8. Distribución de frecuencias

Mujeres

Hombres

Límite inferior 147000

Límite superior 148000

fi 1

Límite inferior 150000

Límite superior 151000

fi 3

148000

149000

5

151000

152000

12

149000

150000

16

152000

153000

35

150000

151000

29

153000

154000

63

151000

152000

47

154000

155000

50

152000

153000

48

155000

156000

20

153000

154000

37

156000

157000

10

154000

155000

11

157000

158000

4

155000

156000

5

158000

159000

2

156000

157000

1

159000

160000

1

Los histogramas correspondientes se muestran en la fig 1.5.

Figura 1.5. Histogramas

Mujeres

Hombres 80

80 70

60

frequency

frequency

60 50 40 30

40 20

20 10 0

0 146

149

152

155

158

150 152 154 156 158

160

Se puede observar en la fig. 1.6 a) que al representar ambos histogramas en un mismo gráfico, se traslapan, lo que dificulta la comparación de ambas distribuciones. Más difícil sería si se consideraran tres o más categorías en estudio; en cambio, el polígono de frecuencias en la fig. 1.6 b) permite visualizar de mejor manera la distribución de ambas categorías.

24 «

Estadistíca Descriptiva

Mujeres Hombres

Figura 1.6 a) Histograma

147

150

157

160

Mujeres Hombres

Figura 1.6 b) Polígono de frecuencias

147

150

157

160

1.5. Histograma Ajustado. Se cuenta con el número de personas que han desistido de cursos virtuales según su edad. Figura 1.7 Tabla y gráfica de distribución de frecuencias

Edad 20 a 24 25 a 34 35 a 54 55 a 84 Total

fi 30 50 60 80 220

fi

Edad

Como estos intervalos no son de igual amplitud, en el gráfico de la derecha (fig. 1.7) no se pueden comparar directamente las barras entre ellas. Este gráfico induce a tener una interpretación errada de la información, ya que se puede concluir que a medida que las personas tienen mayor edad, mayor es el número de ellas que desiste.

Capítulo 1

» 25

Para corregir este error, se debe determinar la frecuencia de cada intervalo proporcional a la amplitud de cada intervalo; es decir, llevar la información a una escala de medida común. Si se elige el máximo común divisor de estas frecuencias (5), se determina cuantas unidades de 5 caben en cada intervalo. Luego, se divide la frecuencia del intervalo (a) por el número de unidades de 5 que en ellas hay (b). Los valores resultante son la altura de la barra proporcional al ancho y la frecuencia. Con esto, se puede concluir que las personas de 20 a 24 años son las que más desisten (fig. 1.8). También es posible llevar la información a escala 2 (u otra). Los valores de (a)/(b) quedan proporcionales, y la barra de 20 a 24 años es la mayor. Edad

fi (a)

Amplitud

20 a 24 25 a 34 35 a 54 55 a 84

30 50 60 80

5 10 20 30

Unidades de 5 (b) 1 2 4 6

(a)/(b) 30 25 15 13.3

Unidades de 2 (b´) 2.5 5 10 15

(a)/(b´) 12 10 6 5.3

Figura 1.8. Ajustado Histograma

30 25 15 13,5

Edad

1.6. Diagramas de Pareto. Los gráficos de Pareto permiten detectar, entre otros, los tipos de defectos y su importancia relativa en un proceso de fabricación, ya sea en forma global del proceso o para un producto determinado. Para construir un gráfico de Pareto, se deben determinar los tipos de defectos que pueden tener un proceso o producto y contabilizar la frecuencia de cada uno de éstos. A continuación se ordenan en forma decreciente los tipos de defectos en abscisas, y en ordenadas la frecuencia. Pareto (1906) asegura que el 80% de los problemas se pueden solucionar, si se elimina el 20% de las causas que lo originan.

26 «

Estadistíca Descriptiva

Ejemplo. Al final de una línea de ensamble de secadoras de ropa, se realiza una inspección del producto terminado. En la tabla 1.9, se muestra la distribución de frecuencia de los defectos de 165 secadoras. Tabla 1.9. Distribución de defectos

Defecto Defectos en la pintura Escape de agua Puerta con defectos Abolladuras Rayas Motor no funciona Total

Frecuencia 82 26 34 45 69 29 165

En la tabla 1.10, se muestran los defectos ordenados de mayor a menor frecuencia, el porcentaje que ellos representan y el porcentaje acumulado. Tabla 1.10. Distribución de defectos de mayor a menor

Defecto Defectos en la pintura Rayas Abolladuras Puerta con defectos Motor no funciona Escape de agua

Frecuencia 82 69 45 34 29 26

Total

285

% 28,8 24,2 15,8 11,9 10,2 9,1

% Acumulado 28,8 53,0 68,8 80,7 90,9 100,0

En la fig. 1.9 se muestra que las causas de defectos en la pintura representan el 28.8% de los defectos; que las causas de defectos en la pintura y rayas representan el 53% de los defectos, y que las tres primeras causas representan el 68.8% de los defectos. Figura 1.9. Gráfico de Pareto

30,0 25,0 20,0 15,0 10,0 5,0 0,0

Defectos en la pintura

Rayas

Abolladuras

Puerta con defectos

Motor no funciona

Escape de agua

Capítulo 1

» 27

1.7. Diagramas de causa-efecto de Ishikawa. Una vez conocidos y ordenados los defectos, se requiere realizar un análisis de causa-efecto de Ishikawa para determinar que produce los defectos y cuales son las causas que ello conlleva.

Existen tres métodos para construir diagramas de Ishikawa: Método 6M. Es el más común, consiste en agrupar las causas potenciales en seis ramas principales donde se enfocan los esfuerzos de mejora, Fig 1.10. a) Metodología de trabajo b) Medición c) Maquinaria d) Medio ambiente e) Materiales y f) Mano de obra Figura 1.10. Diagrama de causa efecto Método 6M

Metodología de trabajo

Mano de Obra

Causa

Causa

Causa

Materiales

Teoría

Teoría

Teoría

Teoría

Causa Teoría

Causa

Teoría

Teoría

Efecto Causa

Causa

Teoría Teoría

Causa

Causa Teoría

Maquinaría

Teoría

Medio Ambiente

Medición

28 «

Estadistíca Descriptiva

Método de flujo del proceso. Con este método de construcción, la línea principal del diagrama de Ishikawa sigue la secuencia normal del proceso de producción o de administración. Los actores que pueden afectar las características de calidad se agregan en el orden que les corresponde, según el proceso. Este método permite explorar formas alternativas de trabajo, detectar cuellos de botella, descubrir problemas ocultos, entre otros (fig. 1.11). Figura 1.11. Diagrama de causa efecto Método Flujo del Proceso

Teoría

Proceso 2

Causa

Teoría

Teoría

Causa

Proceso 3

Teoría

Teoría

Teoría

Teoría

Teoría

Teoría

Teoría

Teoría

Proceso 1

Causa

Causa

Causa

Proceso 4

Proceso 5

Proceso 6

Efecto

Teoría

Teoría

Causa

Método de estratificación o enumeración de causas. La idea de este método es ir directamente a las causas potenciales de un problema. La selección de estas causas muchas veces se hace a través de una sesión grupal de ideas. Es importante preguntarse varias veces que es lo que produce el problema. Con esto se construirá el diagrama reducido, el abanico de búsqueda será más acotado y posiblemente con mejores resultados (fig. 1.12). El método de estatificación contrasta con el método 6M, que va de lo general a lo particular, mientras que el estratificado va directo a las causas potenciales del problema. Esta manera de construir el diagrama es más sencillo cuando las categorías de las causas potenciales pueden subdividirse.

Capítulo 1

» 29

Figura 1.12. Diagrama de causa efecto Método Estratificado

Causa

Causa

Causa

Teoría

Teoría

Teoría

Teoría

Teoría

Teoría

Teoría

Efecto

Teoría

Teoría

Causa

Teoría

Teoría

Causa

Teoría

Teoría

Causa

Ejemplo. Una empresa de Pizzas detecta que tiene problemas con la entrega a domicilio los viernes y sábados. Para determinar las posibles causas se realiza un diagrama de Ishikawa (fig 1.13 a). Según el conocimiento que se tenga del proceso, en este diagrama de Ishikawa se puede incorporar más información sobre las posibles causas que generarían el problema (fig. 1.13 b).

30 «

Estadistíca Descriptiva

Figura 1.13. a) Diagrama de causa efecto

Maquinarias/Equipos

Personas personal no se presenta a trabajar

carros no confiables

choferes se pierden

hornos pequeños

entrega de pizzas a domicilio demoradas viernes y sábados mal despacho

mal manejo de grandes pedidos

agotamiento de ingredientes

Métodos

Materiales

Figura 1.13. b) Diagrama de causa-efecto ampliado

Maquinarias/Equipos

Personas carros no confiables

desconocimiento de la ciudad alta fluctuación del personal

no hay trabajo en equipo falta de capacitación baja paga la gente no se presenta no hay dinero a trabajar para reparaciones hornos baja paga los choferes se pierden demasiado apuro alta fluctuación capacitación pequeños los jovencitos tienen del personal pobre capacitación carros que no obtención de alta fluctuación pobre funcionan bien información incorrecta del personal entrega de pizzas a domicilio demoradas los agotamiento de los ingredientes mal manejo de viernes y sabados alta fluctuación del personal los pedidos grandes desconocimiento pobre uso del espacio de la ciudad alta fluctuación alta fluctuación pedidos del personal del personal inexactos pobre falta de experiencia falta de despacho capacitación muchas calles nuevas

no hay capacidad para los periodos de mayor afluencia

Métodos

Materiales

Capítulo 1

» 31

En la fig 1.14 se muestra el diagrama causa-efecto de Ishikawa del análisis en un problema de facturación en una empresa distribuidora de electricidad domiciliaria. Se debe observar que mientras más conocimiento se tenga del proceso que se analiza, más fino será el análisis que se pueda realizar, lo que se reflejará en el diagrama. Fig 1.14. Diagrama de causa-efecto proceso de facturación

mucho imagen historial

falta control y coordinación

tablas globales

contratista corte boletas

atención público

imagen corte boletas

entrega a localidades

ejecutivos clientes y jefaturas ejecutivos SGC de clientes

monitoreo tarifas constantes resguardo bases datos perfiles mal definidos estructura Personal estandarización procedimientos

venta electrónica Analisis de cuentas tecnologías

capacitación

personal comercial tarifas sofware centros de asignación comunicaciones atención responsabilidades equipos cortadora

Recursos Humanos y Materiales

tiempo

riesgo potencial

capturadores medidores distinta BTI insuficientes

normalizar observaciones contratista parámetros fallas mantención lecturas tiempo respuesta promedios registros base datos visión holding basicos casas cerradas consumos común débil respuesta cero potencias capacitación requerimientos revisión listados

sin coordinación

layout

Lecturas domiengos y festivos

Bases de Datos

Contratista

pc

falta de listados indicadores principales digitos medidores relojillos micas stock malas

capturadores muchos jefes

contratista lecturas BTI

algoritmo días promedios vencimiento metodologías ley servicios eléctonicos presión límite tiempo invierno verificación parámetros

tiempo verificación

recursos humanos compartidos

mal corte

Debilidades proceso Facturación

calendario tiempo verificación

control calidad tasas de tarifas no se prioriza control anterior y interés boletas y facturas postrerior facturación cierre timbraje normativas contables facturas grupos control stock estandarización coordinación politícas de procesos listados exceso clientes carencia listados Procedimientos Facturación después de facturar descripción de funciones

SGC

1.8. Tablas de asociación. Las tablas de asociación permiten clasificar la información respecto de dos o más variables, para determinar la posible relación que pueda existir entre ellas. Ejemplo. En la tabla 1.10, se tiene la información de los funcionarios de una empresa respecto de su estado civil y sexo. Tabla 1.10 Tabla de Asociación

Soltero Casado Viudo Total

Masculino 120 90 10 220

Femenino 50 20 5 75

Total 170 110 15 295

32 «

Estadistíca Descriptiva

La información se puede analizar respecto de las filas, de las columnas o respecto del total, dependiendo del objetivo que tenga el investigador. Así, si se toma la información de la celda(1,1) = 120. respecto de este valor se pueden calcular tres porcentajes: Porcentaje respecto de la fila 120/170 . 100=70.59% Se interpreta diciendo que, del total de funcionarios solteros, el 70.59% son de sexo masculino. Porcentaje respecto de la columna 120/220 . 100=54.55% Se interpreta diciendo que, del total de los funcionarios de sexo masculino, el 54.55% de ellos son solteros. Porcentaje respecto del total 120/295 . 100 = 40.68% Se interpreta diciendo que, del total de funcionarios, el 40.68% son de sexo masculino (solteros). Con la información de esta tabla se pueden construir los gráficos de barras simples de la fig. 1.15, que permiten interpretar la información, ya sea por sexo o por estado civil. Fig 1.15. Gráficos de barras simples

120

Masculino Femenino

100 80 60 40 20 0 solteros

casados

viudos

Capítulo 1

120

» 33

Masculino Femenino

100 80 60 40 20 0 solteros

casados

viudos

120

Masculino Femenino

100 80 60 40 20 0 solteros

casados

viudos

También se puede representar la información en barras subdivididas (fig. 1.16) que explican la proporción porcentual que cada nivel de ellas implica respecto del total de un determinado nivel, ya sea por sexo o por estado civil. 100%

Masculino Femenino

80% 60% 40% 20% 0% solteros

casados

viudos

Femenino

50

20

5

Masculino

120

90

10

34 «

Estadistíca Descriptiva

100%

Fig 1.16 Gráficos de barras simples

Viudo Masculino Femenino

80% 60% 40% 20% 0% Masculino

Femenino

Ejemplo 1. Se tiene la información respecto de los trabajadores de una empresa, según edad, sexo y nivel educacional

Estudios Edad 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 Total

Analfabeto

Básica

Media

Analfabeto

Básica

Media

5 20 45 30 10 110

Masculino 10 25 55 35 15 140

12 48 54 26 10 150

4 12 26 38 20 100

Femenino 14 24 42 34 16 130

5 15 35 40 15 110

Total 50 144 257 203 86 740

El valor de la casilla c11 = 5, se puede interpretar de las siguientes formas: a)

respecto del total de la fila (50), diciendo que del total de personas de edad entre 10 y 15 años, el 10% son analfabetos de sexo masculino;

b)

respecto de la columna (110), diciendo que del total de hombres analfabetos, el 4.55% tienen una edad comprendida entre 10 y 15 años;

c)

respecto de la fila, pero sólo de los hombres 5/27, diciendo que del total de hombres de entre 10 y 15 años, el 18.52% son analfabetos;

d)

respecto de la columna, pero sólo de los hombres (400), diciendo que del total de hombres el 1.25% es analfabeto con edad entre 10 y 15 años;

e)

Respecto del total de analfabetos (210), diciendo que del total de analfabetos el 2.38% corresponde a hombres de entre 10 y 15 años;

35

«

Estadistíca Descriptiva

Capítulo 1

» 35

Ejercicio. Analice e interprete esta información por fila, columnas, sexo, estudios, edad y respecto del total, para alguna casilla. Observación. Se recomienda no construir tablas de asociación con más de tres variables, dado que dificultará la interpretación que ella proporciona. Ejemplo 2. Se tiene la información respecto de los matriculados en un curso de capacitación según edad de los trabajadores, información correspondiente a los años 2010 y 2011.

Años Edad 18 – 22 23 – 27 28 – 32 33 – 37 38 – 42 43 – 47 Total

2010 25 34 56 64 42 29 250

2011 20 45 65 56 64 36 286

Diferencia porcentual -20.00 32.40 16.07 -12.50 52.40 24.13 14.40

Con estos datos se puede construir un gráfico de barras simples que permita visualizar la diferencia porcentual del comportamiento de los matriculados entre ambos años por grupos de edades. Fig 1.17. Gráfico de barras simples de la diferencia porcentual

60 40 20 0 -20 -40

18 - 22

23 - 27

23 - 32

33 - 37

38 - 42

43 - 47

En la fig. 1.17, se puede apreciar que el mayor incremento en la matrícula entre 2010 y 2011 se produce en el intervalo de 38 a 42 años; en cambio, la mayor pérdida de matrícula se produce en el intervalo de 18 a 22 años.

capítulo

2

Medidas de Tendencia Central

Medidas de Tendencia Central Las medidas de tendencia central intentan resumir en un valor numérico los datos contenidos una muestra o una población.

2.1 Promedio Aritmético o Media Aritmética 2.1.1. Datos simples : Sean x1, x2, . . . , xn los valores medidos de una variable cuantitativa. El promedio aritmético o media aritmética se define por:

el promedio se expresa en la misma unidad de medida de la variable, el resultado se interpreta como el valor que tomarían en la muestra las observaciones si es que ellas fuesen todas iguales. El promedio aritmético del universo o población de tamaño N, se define por:

Capítulo 2

» 37

Ejemplo. Sea X : el peso en kilos del contenido de harina de unas bolsas, medidas en una muestra de tamaño cinco. x1 = 5 , x2 = 3, x3 = 3 , x4 = 5, x5 = 2 , x6 = 4 , x7 =5 , x8 = 6 , x9 =2 , x10 = 5 (kilos)

Si en todas las bolsas hubiese habido la misma cantidad de harina,cada una de ellas debiera haber contenido 4 kilos. Observación: El promedio aritmético es muy susceptible a los valores extremos que toma la variable, por ejemplo: sean x1=1, x2=2 y x3=102 en kg, el promedio es 35 kg, es decir, si todas las observaciones hubiesen sido iguales cada una de ellas habría sido igual a 35 kg, lo que dista bastante de la realidad, este promedio no tiene sentido. Cuando en una muestra existen valores extremos se debe calcular el estadístico llamado mediana que se estudiará en 2.2. 2.1.2. Datos agrupados sin intervalos Sean y1,…,yk los niveles de una variable cuantitativa discreta, f1, f2, … , fk las frecuencias, el promedio se define por:

Tabla 2.1 Distribución de frecuencias

i

Número de hijos (yi)

fi

yi fi

1 2 3 4 5

0 1 2 3 4 TOTAL

10 30 45 30 10 125

0 30 90 90 40 250

38 «

Medidas de Tendencia Central

2.1.2. Datos agrupados con intervalos Cálculo aproximado, sólo se debe utilizar este procedimiento cuando no se disponga de los valores originales. Situación poco probable dado que si el estudio se realiza en una empresa o cualquier institución, se cuenta con los datos originales, dado que tendrá que tener un registro completo de los datos que se quieren analizar. Si se dispone de una tabla con datos agrupados, con muchos intervalos y pocos datos, el error de cálculo que se obtendría podría llevar a cometer graves errores, tanto en la interpretación como en las conclusiones, así, con todo lo anterior se explicará el método. Sean y’0 , y’1,…,y’k los límites de cada intervalo, y1, y2, . . . , yk las marcas de clase o puntos medios de cada intervalo, f1, f2, … , fk las frecuencias. Para realizar este cálculo aproximado, se debe suponer que las observaciones se distribuyen uniformemente en cada intervalo y, que si todos los valores fuesen iguales en el intervalo corresponderían al valor promedio del intervalo, también conocido como marca de clase. Para calcular este promedio aproximado se utiliza la fórmula:

Ejemplo. Se cuenta con la información del peso neto en gramos de 200 bolsas de café.

226 225 227 225 226 229 229 226 227 236 243 241 241

225 229 225 229 228 231 229 232 234 236 243 239 241

229 229 232 231 229 231 229 229 229 243 239 247 249

229 231 231 229 231 231 231 234 232 236 248 244 246

231 229 234 229 231 234 229 233 234 234 246 244 244

238 238 237 238 236 237 238 234 236 241 244 249 244

243 243 239 244 239 244 242 242 243 239 246 244 244

250 251 251 250 251 250 251 251 254 242 244 248 249

226 238 238 236 236 237 239 234 234 239 242 241

234 238 236 237 236 234 238 234 239 241 241 243

231 236 234 234 238 236 234 243 244 248 248 244

232 239 238 234 234 237 239 239 238 244 246 244

234 239 234 234 237 236 234 237 234 248 246 244

234 236 239 239 239 242 241 242 239 246 244 246

243 242 241 244 243 242 239 239 239 246 244 246

252 252 242 242 251 244 247 244 241 247 244 244

Capítulo 2

» 39

Construyendo una tabla de distribución de frecuencias de seis intervalos de igual amplitud se tiene: peso (gramos)

yi

fi

yi fi

225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL

227,5 232,5 237,5 242,5 247,5 252,5

15 35 55 45 38 12 200

3412,5 8137,5 13062,5 10912,5 9405,0 3030,0 47960

Calculando el promedio para estos datos agrupados se tiene:

Se debe dejar claro que este promedio tendrá sentido, es decir, que su valor podría ser próximo al valor promedio verdadero, siempre y cuando el tamaño de la muestra sea suficientemente grande con pocos intervalos, o bien, cuando el ancho de los intervalos tienda a cero y se cuente con un número adecuado de mediciones, sólo en estos casos el promedio tiende al valor verdadero, que se obtiene a partir de los datos originales. Se debe reiterar que al agrupar los datos se pierde información; por ejemplo, las 15 bolsas del primer tramo de 225 a 230 gramos, no se conocen cuales son las bolsas ni cuanto pesan cada una de ellas; lo mismo ocurre con los valores de los otros intervalos, por tanto difícilmente se podría calcular el peso promedio, y por eso, se asume que en el primer intervalo cada uno de ellos pesaría 227.5 gramos que es el promedio del intervalo siempre que la distribución fuese uniforme (lo que es difícil de aceptar como verdadero en muestras pequeñas), aportando 15·227,5=3412,5 gramos al total. El promedio verdadero de estos 200 datos es 238.52 gramos, luego existe una diferencia de 1.28 gramos. Si se construyen 10 intervalos de igual amplitud, se tiene que el promedio es 238.62 gramos.

40 «

Medidas de Tendencia Central

peso (gramos) 225,0 - 227,9 227,9 - 230,8 230,8 - 233,7 233,7 - 236,6 236,6 - 239,5 239,5 - 242,4 242,4 - 245,3 245,3 - 248,2 248,2 - 251,1 251,1 - 254,0

yi 226,45 229,35 232,25 235,15 238,05 240,95 243,85 246,75 249,65 252,55

fi 10 17 16 36 37 20 32 17 12 3 200

yi fi 2264,5 3899 3716 8465,4 8807,9 4819 7803,2 4194,8 2995,8 757,65 47723

Para el ejemplo del gasto mensual en combustibles (miles) de 50 vehículos del capítulo anterior, considerando cuatro intervalos de igual amplitud, se tiene:

Gasto M$ 40 – 80 80 – 120 120 – 160 160 – 200 Total

fi 9 15 14 12 50

yi 60 100 140 180

yi fi 540 1500 1960 2160 6160

El promedio aritmético aproximado obtenido a partir de esta tabla es M$123.2, sin embargo, al calcular el promedio verdadero a partir de los datos originales se obtiene M$121.16, es decir, se tiene un error de M$2.04 2.1.3 Propiedades del promedio Sean X e Y variables cuantitativas de la misma unidad de medida, sean a y b constantes

Capítulo 2

» 41

6.- Dada una población que se divide en dos muestras de tamaños n1 y n2, con medias x1 y x2, respectivamente, la media de la población está dada por:

7.- Dada una población que se divide en k muestras de tamaños n1, n2,…,nk con medias x1,x2 ,…,xk , la media de la población está dada por:

Demostraciones:

Ejercicio. Realice las demás demostraciones. Ejemplo. Se tiene la información del gasto en combustible de dos turnos de una empresa, Tabla 2.2.

Tabla 2.2 Gastos en combustible

Día

1

2

3

4

5

6

7

Turno 1 M$ Turno 2 M$

125 145

130 120

112 145

127 124

132 134

150

148

a) Determine el gasto promedio total a partir de los gastos promedios por turno. b) Si el gasto diario aumenta en en $12 ¿cuál sería el nuevo promedio total? c) Si el gasto diario inicial se reajusta en 4,5% y se le agregan $15 por día. ¿cuál sería el nuevo promedio total?

42 «

Medidas de Tendencia Central

Solución a) Los promedio por turnos son 125.2 y 138 respectivamente, luego el promedio general es 132.66667 b) M(x+12) = M(x)+ 12 = 144.66667 c) M(1.045x+15) = 1.045M(x)+ 15 = 153.63667

Ejercicio. Se tiene la información del diámetro interno en milímetros de un buje producidos en dos máquinas de una empresa, Tabla 2.3. Tabla 2.3 Diámetros internos de los bujes

Día Máquina 1 Máquina 2

1 2 3 4 5 6 7 8 9 11.12 11.03 11.05 11.07 11.02 11.06 11.06 11.02 11.04 11.04 11.04 11.05 11.08 11.05 11.04

a) Determine el diámetro promedio total a partir de los diámetros promedios de cada máquina. b) Por el desgaste de las piezas de la máquina el diámetro aumenta en 0.01 milímetros, ¿cuál sería el nuevo promedio total? c) Si el diámetro se debe corregir disminuyéndolo en un 0,1% y aumentándo en 0,01 milímetros. ¿cuál será el nuevo diámetro promedio total? 2.1.4 Promedios condicionados Sean X e Y dos variables cuantitativas medidas en una población de tamaño n, la información se presenta en una tabla de asociación por: Tabla 2.3 Distribución conjunta y marginal

X/Y x1

y1 n11

y2 n12

x2

n21

n22



yj n1j



yq n1q

Total n1

n2j

n2q

n2

… xi … xp

ni1

ni2



niq

ni

np1

np2

npj

npq

np

Total

n.1

n.2

n.j

n.q

n

Capítulo 2

» 43

Los totales marginales de cada fila se define por:

Los totales marginales de cada columna se definen por:

El total general está dado por:

Los promedios condicionados se definen por:

También, se pueden calcular los promedios de ambas variables respecto de los totales marginales por:

Tabla 2.4 Distribución conjunta y marginal

Día X (estatura en cm) 120 130 140 150 Total

Y (peso en kilos)

45 10 15 20 5 50

50 20 25 30 15 90

55 18 20 25 17 80

60 12 10 15 13 50

5 Total 60 70 90 50 270

44 «

Medidas de Tendencia Central

a) El promedio de la estatura para los niños que pesan 45 kilos está dada por:

b) El promedio del peso para los niños de 140 cm de estatura está dada por:

c) El promedio de la estatura está dada por:

El promedio del peso está dada por:

Ejercicios. Para los datos de la Tabla 2.4, calcular los siguientes promedios condicionados:

2.2. Mediana Se define como aquel valor de la variable que divide a la muestra dos partes iguales, previamente ordenada ya sea de mayor a menor o viceversa, cada una de ellas correspondientes al 50%. Este estadístico se expresa en la misma unidad de medida de la variable en estudio.

Capítulo 2

» 45

2.2.1. Datos simples. Sean x1, x2, . . . , xn valores de una variable cuantitativa Procedimiento. i) Para n impar: 1° Ordenar las observaciones de menor a mayor o viceversa 2° Calcular

3° La mediana es aquel valor ordenado que está en la posición

Ejemplo. Sea X la superficie en km2 sembrados de siete localidades: x1 = 2676.5 , x2 = 39.8, x3 = 2.8 , x4 = 80.2, x5 = 76.9, x6=10.5 , x7=1.5 es claro que el promedio aritmético para esta información no tiene sentido, por existir valores extremos, no se puede comparar una localidad que sólo siembra 1.5 km2, con una que siembra 2676.5 km2. Esto es similar cuando se indica que el ingreso per cápita en Chile es de US18.000, y que para calcularlo se incluyen los sueldos de gerentes de firmas importantes, el sueldo del entrenador de la selección de fútbol, de animadores de televisión, respecto de una persona de sueldo mínimo de $195.000 al mes, a este último, ¿cómo se le puede explicar que en el ingreso per cápita es US$18.000 si sólo recibe al año aproximadamente US$4909?, no se pueden incluir valores extremos, debido a que estos tergiversan la esencia de este estadístico denominado promedio. Para las superficies sembradas, n = 5 x1 = 2676.5 , x2 = 39.8, x3 = 2.8 , x4 = 80.2, x5 = 76.9, x6=10.5 , x7=1.5 1° Ordenar las observaciones de menor a mayor o viceversa 1.5, 2.8, 10.5, 39.8, 76.9, 80.2, 2676.5 2° Calcular

(cuarta posición), que es la misma si se hubiese ordenado en forma

decreciente los datos 3° Me =39.8 km2 (valor de la cuarta posición)

46 «

Medidas de Tendencia Central

Interpretación: se puede afirmar que el 50% de las localidades siembra 39.8 km2 o menos y el 50% restante siembra 39.8 km2 o más. ii) Para n par: 1° Ordenar las observaciones de menor a mayor o viceversa 2° Calcular 3° La mediana es el valor promedio de las observaciones ordenadas que están en las posiciones

Ejemplo. Sea X : Valor de alcoholemia [Alcohol/cc] de seis conductores x1 = 3.8 , x2 = 0.6, x3 = 0.0 , x4 = 0.8, x5 = 0.9 , x6 = 0.01, x7=0.2 , x8=0.75. n = 8 1° Los valores ordenados son: 0 , 0.01 , 0.2 , 0.6 , 0.8 , 0.75, 0.9 , 3.8

2° Calcular



(cuarta y quinta posición)

[Alcohol/cc].

Ejercicio. Interprete este resultado 2.2.2. Datos agrupados Procedimiento: 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular 3° Ubicar en la columna de las frecuencias acumuladas Nj aquel valor que sobrepase inmediatamente a n/2 que se designa por Ns, donde s es la línea del intervalo que sobrepasa a n/2, luego:

Capítulo 2

y’s As

Ns-1 fs

» 47

: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia del intervalo s

Ejemplo. Calcular la mediana del ingreso de 200 trabajadores, cuyos sueldos se muestran en la Tabla 2.5. Tabla 2.5 Distribución de sueldos

i 1 2 3 4 5 6

Ingreso (miles) 225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL

fi Nj 15 15 35 50 55 105 45 150 38 188 12 200 200

s=3

La amplitud es este intervalo s es As = 240 - 235 = 5

Interpretación. Que la mediana sea $239.54545 significa que de los 200 obreros, el 50% de ellos gana $239.545,45 o menos y el 50% restante gana $239.545,45 o más.

2.3. Cuartiles Los cuartiles dividen una muestra en cuatro partes iguales de un 25% cada una 25%

25% Q1

25% Q2

25% Q3

C1: es aquel valor que sobrepasa a no más del 25% de las observaciones y es sobrepasado por no más del 75% restante. C2: es aquel valor que sobrepasa a no más del 50% de las observaciones y es sobrepasado por no más del 50% restante. Corresponde a la Mediana

48 «

Medidas de Tendencia Central

C3: es aquel valor que sobrepasa a no más del 75% de las observaciones y es sobrepasado por no más del 25% restante. Los cuartiles se expresan en la misma unidad de medida de la variable en estudio Procedimiento para datos simples 1º Ordenar los datos de menor a mayor y calcular la mediana de ellos. 2º Para obtener el cuartil 1, calcular la mediana entre el valor menor y la mediana de todos los datos. 3º Para obtener el cuartil 3, calcular la mediana entre el valor mayor y la mediana de todos los datos. Ejemplo. Se tiene el peso en kilos de 15 bolsas de café: Bolsa Peso (kg)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2.5 0.5 4.0 1.5 5.5 7.5 1.2 8.5 5.2 0.6 3.2 9.5 1.8 4.6 3.1

1º Ordenando los datos de menor a mayor se tiene: Peso (kg)

0.5 0.6 1.2

1.5

1.8 2.5 3.1 3.2 4.0 4.6 5.2 5.5 7.5 8.5 9.5

luego, la mediana de todos éstos datos es Me=3.2 kg 2º Para obtener el Cuartil1, calcular la mediana de los datos de menor valor: Peso (kg)

0.5 0.6

1.2

1.5

1.8

2.5

3.1

3.2

C1=(1.5 + 1.8)/2 = 1.65 kg 3º Para obtener el cuartil 3, calcular la mediana de los datos de mayor valor: Peso (kg)

3,2

4,0

4,6

5,2

5,5

7,5

8,5

9,5

C1=(5.2 + 5.5)/2 = 5.35 kg Procedimiento para datos agrupados 1° Construir la columna de las frecuencias acumuladas Nj 2° Calcular

para C1 ó

para C3

3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente designa por Ns

a que se

Capítulo 2

» 49

El Cuartil Cp está dado por:

y’s As Ns-1 fs

: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s

Ejemplo. A partir de la información de Ingresos (M$) de la Tabla 2.5, calcular el cuartil 2 y el cuartil 3.

Tabla 2.5 Distribución de sueldos

i 1 2 3 4 5 6

Ingreso (miles) 225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL

fi Nj 15 15 35 50 55 105 45 150 38 188 12 200 200

s=3 s=5

La amplitud de todos éstos intervalos es A = 5

Que el Cuartil 1 sea M$235 significa que de los 200 obreros, el 25% de ellos gana $235.000 o menos, y el 75% restante gana $235.000 o más.

50 «

Medidas de Tendencia Central

Que el Cuartil 3 sea M$245 significa que de los 200 obreros, el 75% de ellos gana $245.000 o menos, y el 25% restante gana $245.000 o más.

2.4. Quintiles Los quintiles dividen la muestra en cinco partes iguales de un 20% cada una. 20% 20% Q1

20% Q2

20% Q3

20%

80%

Q4

Q1: es aquel valor que sobrepasa a no más del 20% de las observaciones y es sobrepasado por no más del 80% restante Q4: es aquel valor que sobrepasa a no más del 80% de las observaciones y es sobrepasado por no más del 20% restante Los quintiles se expresan en la misma unidad de medida de la variable. 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular

dependiendo del quintil que se quiera calcular

3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente a que se designa por Ns

y’s As Ns-1 fs

: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s

Ejemplo. A partir de los datos de la Tabla 2.5, calcular el quintil 1 y el quintil 4

Capítulo 2

» 51

Tabla 2.5 Distribución de Sueldos

i 1 2 3 4 5 6

Ingreso (miles) 225 - 230 230 - 235 235 - 240 240 - 245 245 - 250 250 - 255 TOTAL

fi Nj 15 15 35 50 55 105 45 150 38 188 12 200 200

s=2 s=5

La amplitud de todos los intervalos es A = 5

Que el quintil 1 sea M$233.57142 significa que de los 200 obreros, el 20% de ellos gana $233.57142 o menos, y el 80% restante gana $233.57142 o más.

Que el quintil 4 sea M$246.31579 significa que de los 200 obreros, el 80% de ellos gana $246.31579 o menos, y el 20% restante gana $246.31579 o más.

2.5. Deciles Los deciles dividen la muestra en diez partes iguales de un 10% cada una 90% D1 10%

D2

D3

D4

D5

D6

D7

D8

D9

Me

D1: es aquel valor que sobrepasa a no más del 10% de las observaciones y es sobrepasado por no más del 90% restante D2: es aquel valor que sobrepasa a no más del 20% de las observaciones y es sobrepasado por no más del 80% restante

52 «

Medidas de Tendencia Central

D9: es aquel valor que sobrepasa a no más del 90% de las observaciones y es sobrepasado por no más del 10% restante Los deciles se expresan en la misma unidad de medida de la variable Procedimiento para datos agrupados 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular

dependiendo del decil que se quiera calcular

3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente a designa por Ns

y’s As Ns-1 fs

que se

: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s

Ejemplo. se tiene la información correspondiente a las edades de 220 personas, Tabla 2.6, calcular el Decil 3 y el Decil 9 Tabla 2.6 Distribución por edades

i 1 2 3 4 5 6

Edad (años) 10 - 14 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 TOTAL

fi 25 45 60 50 30 10 220

Nj 25 70 130 180 210 220

s=2 s=5

La amplitud es este intervalo s es As=15 -10 = 5

años

Capítulo 2

» 53

Que el Decil 9 sea 33 años significa que de las 220 personas, el 90% de ellas tienen una edad menor o igual a 33 años, y el 10% restante es mayor o igual a 33 años.

2.6. Percentiles Los percentiles dividen la muestra en 100 partes iguales. Los percentiles se expresan en la misma unidad de medida de la variable Procedimiento para datos agrupados 1° Construir la columna de frecuencias acumuladas Nj 2° Calcular

dependiendo del percentil que se quiera obtener

3° Ubicar en la columna de las Nj aquel valor que sobrepase inmediatamente a por Ns

y’s As Ns-1 fs

que se designa

: Límite inferior del intervalo s : Amplitud del intervalo s : Frecuencia acumulada anterior al intervalo s : Frecuencia absoluta del intervalo s

Ejemplo. Se tiene la información correspondiente a las edades de 220 personas, Tabla 2.6, calcular: P5, P95 y P99,5. Tabla 2.6 Distribución por edades

i 1 2 3 4 5 6

Edad (años) 10 - 14 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 TOTAL

fi 25 45 60 50 30 10 220

Nj 25 70 130 180 210 220

años

54 «

Medidas de Tendencia Central

de las 220 personas, el 5% de ellos tiene una edad menor o igual a 12.2 años, el 95% restante es mayor o igual a 12.2 años.

años

de las 220 personas, el 95% de ellas tiene una edad menor o igual a 34.833 años, el 1% restante es mayor o igual a 34.833 años.

años

de las 220 personas, el 99.5% de ellas tiene una edad menor o igual a 39.45 años, el 0.5% restante es mayor o igual a 39.45 años.

capítulo

3

Medidas de Variabilidad

Permiten determinar que tan homogéneos o heterogéneos son los valores de una muestra. En la Fig 3.1, se muestran dos distribuciones normales centradas en la misma media, la distribución 1 es más homogénea que la distribución 2, es decir, la dis-tribución 1 presenta menor variabilidad en sus valores respecto del promedio Figura 3.1 Distribuciones normales de distinta variabilidad

1

2

Por ejemplo, se tienen los valores de dos muestras, con igual promedio (no necesariamente se requiere que las muestras a comparar tengan el mismo promedio, es más fácil para explicar el concepto). Muestra 1: 19, 19.5, 20, 20.5, 21 Muestra 2: 10, 15, 20, 25, 30

kg kg

La muestra 2 es más heterogénea que la muestra 1 respecto de este promedio, por ello, se puede afirmar que la muestra 2 tiene mayor dispersión.

56 «

Medidas de Variabilidad

3.1 Varianza 3.1.1. Datos simples Sean x1 , x2 , . . . , xn los n valores observados de una variable cuantitativa, la varianza se calcula por:

la varianza se expresa en unidades cuadráticas de la unidad de medida de la variable. La varianza se puede calcular por la siguiente expresión equivalente:

Demostración:

Ejemplo. Sea X : Número de sillas por sala x1 = 25 , x2 =34, x3 = 35 , x4 = 30, x5 = 21

o bien

(sillas)2 Para el ejemplo de las dos muestras anteriores se tiene: Muestra 1: 19, 19.5, 20, 20.5, 21 kg Muestra 2: 10, 15, 20, 25, 30 kg

kg kg

V(Muestra 1)=0.625 Kg2 V(Muestra 2)=62,5 Kg2

Capítulo 3

» 57

como la varianza de la muestra 1 es menor que la varianza de la muestra 2, se puede afirmar que los valores de la muestra 1 son más homogéneos. Ejemplo. Se cuenta con el peso en gramos de 220 bolsas de poliuretano, Tabla 3.1, se puede obtener un valor aproximado del valor de la varianza: Tabla 3.1 Peso en gramos

Peso (gramos) 125 - 130 130 - 135 135 - 140 140 - 145 145 - 150 150 - 155 TOTAL

yi 127.5 132.5 137.5 142.5 147.5 152.5

fi 25 45 60 50 30 10 220

yi fi 3187.5 5962.5 8250.0 7125.0 4425.0 1525.0 30475

y2i fi 406406.25 790031.25 1134375.0 1015312.5 652687.50 232562.50 4231375.0

2

se debe tener en cuenta que la media se calculó en forma aproximada, por tanto, esta varianza también es una aproximación, el error de calcular así la varianza será más grande, mientras menor sea el número de observaciones y mayor sea la amplitud del intervalo. La dificultad que presenta este estadístico de variabilidad, es que se expresa en el cuadrado de la unidad de medida de la variable, lo que dificulta la comparación de esta medida respecto del promedio de la muestra. 3.1.1 Propiedades de la varianza Sean x e y variables cuantitativas de la misma unidad de medida, sean a y b constantes

donde Cov(x,y) es la covarianza (varianza conjunta) entre x e y, que se estudiará en el punto 3.2. 6.- Dada una población que se divide en dos (grupos) de tamaños n1 y n2, con medias varianzas S21 y S22 respectivamente. La varianza total de la población está dada por:

y

,

58 «

Medidas de Variabilidad

7.- Dada una población que se divide en k muestras de tamaños n1, n2,…,nk con medias , con varianzas S21 , S22 ,…,S2k , la Varianza Total de la población está dada por

,

,…,

el término de la izquierda de la varianza total es conocido como la Varianza Dentro de los grupos o intravarianza:

el término de la derecha de la varianza total es conocido como la Varianza Entre los grupos o intervarianza:

Demostraciones:

Ejemplo. Se tiene la información de la longitud en centímetros de las bielas de un tipo de motor, producidas por tres máquinas en una misma fábrica, separadas en tres grupos de acuerdo, Tabla 3.2.

Capítulo 3

Tabla 3.2 Longitud en centímetros de las bielas

Máquina 1 23.04 23.05 23.01 23.02 23.01 23.03 23.02

Máquina 2 23.02 23.01 23.01 23.03 23.04 23.03 23.02 23.01 23.00

» 59

Máquina 3 23.01 23.03 23.02 23.01 23.02 23.04 23.01 23.02 23.03 23.02

Calcular la longitud media de las bielas de cada máquina y la varianza de estas longitudes para cada máquina. A partir de estos resultados calcular la varianza total. Solución. El tamaño de los lotes son n1 = 7, n2 = 9, n3 =10. Las medias de las longitudes de las bielas de cada máquina están dadas por:

las varianzas por:

la media general está dada por:

la Varianza Total está dada por: VT = VD + VE = 0.00014232 + 8.12388·10-6 = 0.00015044 (cm)2

60 «

Medidas de Variabilidad

Que la varianza entre sea próxima a cero es un resultado interesante, ya que asegura que las longitudes de las bielas producidas por las tres máquinas son bastante homogéneas y próximas al valor nominal

3.2. Covarianza El análisis de la covarianza es una técnica estadística, que permite comparar los resultados obtenidos en diferentes grupos de una variable cuantitativa, pero, corrigiendo las posibles diferencias existentes entre los grupos en otras variables que pudieran afectar también al resultado (covariantes). En el estudio conjunto de dos variables, se necesita saber si existe algún tipo de relación entre ellas. Sean x e y dos variables cuantitativas, la varianza conjunta entre ambas variables está definida por:

La covarianza se expresa en el producto de las unidades de cada variable que la componen. Desarrollando la expresión anterior se tiene que: Demostración:

Observaciones: 1. Si Cov(x,y) > O se dice que existe dependencia directa (positiva), es decir, si dos variables x e y cuantitativas aumentan conjuntamente, o disminuyen conjuntamente, la covarianza entre ellas es positiva. 2. Si Cov(x,y) < O se dice que existe una dependencia inversa o negativa, es decir, si una de ellas aumenta y la otra disminuye, o vice versa, la covarianza entre ellas es negativa. 3. Si las variables son independientes entonces Cov(x,y) = O.

Capítulo 3

» 61

Ejemplo. Se tiene la información respecto de la edad en años y el peso en kilos de 10 niños de acuerdo a la siguiente tabla: Edad (años) Peso (kilos)

2 2.5 13.5 15

3 4.7 5.2 5.9 6.4 7.2 7.9 8.7 16.1 19.4 21.8 25.4 27.5 29.3 30.1 31.1

Ejemplo. Se tiene la información respecto de las exportaciones en toneladas y el porcentaje de desocupados de 10 semanas de acuerdo a la siguiente tabla: Exportaciones (ton) 10 Desocupados (%) 60

3.2.1. Propiedades de la covarianza

Demostraciones:

12 51

15 48

17 36

20 28

24 24

32 21

40 18

48 15

52 12

62 «

Medidas de Variabilidad

Ejercicio. Demostrar la propiedad 3

Ejercicio. Demostrar la propiedad 5

3.3 Desviación Estándar Sea x una variable cuantitativa de varianza V(x), la desviación estándar se define por

este estadístico de variabilidad presenta la ventaja que se expresa en la misma unidad de medida de la variable, por ejemplo, si:

3.4 Coeficiente de Variación Es un estadístico adimensional, que se utiliza para comparar la variabilidad de varias variables medidas en distintas unidades de medida y se expresa en porcentaje.

De entre varias variables, aquella variable que presente menor coeficiente de variación tiene menor variabilidad Ejemplo. En la Tabla 3.3, se muestran los valores obtenidos para cuatro variables

Capítulo 3

Tabla 3.3 Valores de cuatro variables

Ingresos (M$) 120 140 150 160 130 145 13.0437 M$ 140.8333 M$ 9.2618%

S(x) M(x) CV(x)

IPC (%) -0.1 0 0.1 0.2

Interés (%) 0.2 0.4 0.6 0.5 0.1

0.1118033 % 0.1854723 % 0.05 % 0.36 % 233.6% 51.52%

» 63

Temperatura (°C) 24 23 22 25 1.1180339 °C 23.5 °C 7.757%

Como la variable temperatura tiene el menor coeficiente de variación 7.757%, es la variable que presenta el menor porcentaje de variabilidad de entre las cuatro, seguida de los ingresos.

3.5 Recorrido Intercuartílico Cuando existen valores extremos en una muestra y no es posible calcular su promedio y naturalmente tampoco su varianza, se puede a partir de los valores de los cuartiles definir el Recorrido Intercuartílico por:

este estadístico se expresa en la misma unidad de medida de la variable. Dados dos grupos de mediciones de una misma variable, el grupo de datos que presente menor recorrido intercuartílico tendrá menor variabilidad. Se tiene la información de la resistencia de 200 probetas de hormigón y la resistencia de 100 probetas de asfalto, de acuerdo a las siguientes figuras: 25%

Hormigón

25%

C1=45 kg/cm2

25%

25%

C3=55 kg/cm2 =55 – 45 = 10 kg/cm2

25%

Asfalto

25%

C1=60 kg/cm2

25%

25%

C3=100 kg/cm2 =100 – 60 = 40 kg/cm2

64 «

Medidas de Variabilidad

como el RI del hormigón es menor que el RI del asfalto, se puede afirmar que la resistencia del hormigón es más homogénea que la del asfalto. Ello se puede explicar, dado que el 50% de las resistencia del hormigón se distribuye en un rango de 10 kg/cm2, en cambio el 50% de las resistencias del asfalto se distribuyen en un rango mayor de 40 kg/cm2.

3.6. Puntaje Típico Dada una variable cuantitativa, el puntaje típico está definido por:

este estadístico adimensional permite realizar comparaciones relativas a dos o más variables que se diferencian en la media y la desviación estándar. Las variables pueden estar medidas en distintas unidades, este estadístico las deja en la misma escala de medida, y por tanto comparables directamente. Al comparar valores estandarizados de dos o más distribuciones, el puntaje típico menor de esas distribuciones tendrá una menor posición relativa respecto de otra de puntaje típico de mayor valor. Propiedades: a) M(z)=0 b) V(z)=1 Demostración: a)

b)

Ejemplo. Una empresa tiene dos plantas A y B de fabricación de pernos de una determinada longitud. Los promedios de unidades fabricadas y sus desviaciones estándar por hora de cada planta son:

En un día t, la producción de cada planta fue: xA=1253 (unidades por hora) y xB=1510 (unidades por hora) ¿cuál de éstas plantas ese día t presentó un rendimiento relativo mayor?

dado que el puntaje típico de la Planta A es mayor que el puntaje típico de la Planta B, se puede afirmar que la Planta A ese día t muestra una producción relativa mayor, respecto de las capacidades instaladas.

capítulo

4

Probabilidades

4.1. Experimento Un experimento es toda acción bien definida que produce un resultado único y bien preciso, denominado resultado. Ejemplos de experimentos. E1: Lanzar un dado de seis caras E2: Lanzar tres monedas de dos caras E3: Extraer una carta de una baraja de 52 naipes

4.2. Espacio Muestral (Ω) El espacio muestral Ω es el conjunto de todos los resultados posibles de un experimento. Para los experimentos E1, E2 y E3, los espacios muestrales correspondientes son:

4.3. Suceso Se denomina suceso a cualquier subconjunto del espacio muestral. A es un suceso de Ω

66 «

Probabilidades

Probabilidades

» 66

Para los experimentos dados.

se denotará #A para indicar el número de elementos del suceso A

Definición. Se designará por i a un punto del espacio muestral o a la representación de un posible resultado del experimento, Se dirá que: a) b) c) d) e) f)

El suceso A ocurre A c El suceso A no ocurre A (Ac complemento de A) . Se dice que Ω es un suceso seguro, siempre ocurre . El suceso es el suceso imposible, nunca ocurre c Ocurre el suceso Ac el suceso A no ocurre A y A se llaman complementarios si y sólo si U

i) A Ac = ii) A U Ac = Ω g) Sea i) ii)

una familia de subconjuntos de Ω, entonces ocurre al menos ocurre un Ai ocurre ocurren todos los Ai , i I

4.4. Definición de Probabilidad Clásica En espacios muestrales finitos es común el supuesto que los resultados son igualmente probables, pero, se debe tener claro que este supuesto no debe darse como verdadero, sino que debe justificarse adecuadamente, ya que existen situaciones experimentales en las cuales suponerlo sería un error. Sea A un suceso definido en Ω, bajo el supuesto de igual posibilidad de ocurrencia de los elementos del espacio muestral, se define:

Capítulo 4

» 67

Para los ejemplos:

Ejemplos. 1.- Se tiene un lote de 500 computadores de los cuales dos no funcionan, si se extrae de este lote un computador al azar, ¿cuál es la probabilidad que funcione? ¿Qué no funcione? Sea A el suceso el computador funciona, luego P(A)=498/500 y P(Ac)=2/500 2.- Se lanzan tres monedas normales, ¿cuál es la probabilidad que: a) ¿salgan tres caras? b) ¿salga al menos una cara? c) ¿salga a lo más una cara? d) ¿salgan tres sellos? e) ¿salga sólo dos caras? Soluciones. a) 1/8 b) 7/8 c) 3/8 d) 1/8 e) 3/8 Ejercicios. 1.- Exprese en notación de conjuntos los siguientes enunciados: a) b) c) d) e) f) g)

No ocurre el suceso A, pero si ocurre el B Ocurre el suceso A, pero no ocurre el B No ocurre el suceso A y no ocurre el suceso B De los sucesos A, B y C, ocurre a lo más uno De los sucesos A, B y C, ocurre a lo menos uno De los sucesos A, B y C, ocurren sólo dos de ellos De los sucesos A, B y C, ocurre sólo A

2.- Se lanzan dos dados no cargados, determine la probabilidad que la suma de las pintas de las caras superiores sea: a) b) c) d)

igual a 2 igual a 12 sea menor a 5 sea un número par

68 «

e) f) g)

Probabilidades

sea un número primo sea divisible por tres sea mayor a 9

3.- Un lote de pistones para un motor consta de 15 buenos, 3 con pequeños defectos y 1 inservible. Si de este lote, se extrae un pistón al azar, ¿cuál es la probabilidad que : a) b) c)

sea inservible? que no tenga defecto? que tenga un pequeño defecto?

4.- De un lote de lavadoras se sabe que 12 no tienen defectos, 3 tienen pequeñas fallas pero funcionan y 2 no funcionan. Si de este lote se extraen dos lavadoras al azar y sin sustitución, ¿cuál es la probabilidad que : a) b) c) d) e) f)

ambas no funcionen? que ambas no tengan defectos? que ambas tengas pequeñas fallas? que una tenga pequeñas fallas? que a lo más una no tenga defectos? que a lo menos una no tenga defectos?

5.- De un lote de motores se sabe que 10 no tienen defectos, 4 tienen pequeñas fallas pero funcionan y 2 no funcionan. Si de este lote se extraen dos motores al azar y con sustitución, ¿cuál es la probabilidad que : a) b) c) d) e) f)

ambas no funcionen? que ambas no tengan defectos? que ambas tengas pequeñas fallas? que una tenga pequeñas fallas? que a lo más una no tenga defectos? que a lo menos una no tenga defectos?

6.- Si del mismo lote anterior de 16 artículos se escogen dos artículos, sin sustitución. Encuentre la probabilidad que: a) b) c) d)

máximo uno de ellos sea bueno ambos sean buenos ambos tengan defectos ambos tengan defectos graves

Capítulo 4

Soluciones. 1. a) b) c) d) e) f) g)

Nota. existen varias otras notaciones de conjuntos para expresar lo mismo 2. a) 1/36 b) 1/36 c) 6/36 d) 16/32 e) 15/36 f) 12/36 g) 6/36 3. a) 1/19 b) 15/19 c) 3/19 4. a) 2/272 b) 132/272 c) 6/272 d) 72/272 e) 120/272 f) 80/272 5. a) 4/256 b) 100/256 c) 16/256 d) 80/256 e) 220/256 f) 156/256 6. a) 120/240 b) 90/240 c) 30/240 d) 2/240 Definición. Dos sucesos A y B son mutuamente excluyentes si

A

B

4.5. Axiomas de probabilidades 0 ≤ P(A) ≤ 1 P(Ω)=1 Si A B= entonces P(A UB)=P(A)+P(B) Si A1 ,A2,...,An son sucesos mutuamente excluyentes U

U

A1 A2 A3 A4

A5 Si A1 ,A2,...,An son sucesos excluyentes P(UAi) = 1 - P( Aci) donde Ac : complemento de A

» 69

70 «

Probabilidades

4.6. Teoremas de probabilidades T1 P( ) = 0 T2 Sean A y B sucesos cualquiera entonces la probabilidad que ocurra al menos uno de ellos es P(AUB) = P(A) + P(B) - P(A B) U

T3 P(A)=1- P(Ac) T4 Sean A, B y C tres sucesos cualquiera entonces la probabilidad que ocurra al menos uno de ellos es P(AUBUC) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A B C) U U

U

U

U

T5 Sea A y B sucesos tales que entonces P(A) ≤ P(B) T6 Sean A1, A2 , …, An sucesos cualquiera, la probabilidad que ocurra al menos uno de ellos está dada por

Demostración de T2 : Ω A

B U

A-B

B A

B-A

U

recuerde que A – B = A Bc Se puede escribir AUB como una unión disjunta por: luego

Demostración de T3:

Ω Ac

A

Capítulo 4

» 71

Ω = AUAc unión disjunta, luego P(Ω)=P(AUAc ) P(Ω) = P(A) + P(Ac ) 1 = P(A) + P(Ac) c por tanto, P(A) = 1 - P(A ) o también P(Ac ) = 1 - P(A) Demostración T5: Ω U

Ac B

A

U

c B = A U (A B) es una unión disjunta, luego P(B) = P(A) + P(Ac B) c como P(A B) ≥ 0 , por tanto P(A) ≤ P(B)

U

U

4.7. Probabilidad Condicional La probabilidad que ocurra un suceso A dado que ocurrió el suceso B está dada por:

Análogamente se define

Ejemplo. Se realiza una compra de 10.000 anillos para pistones, de los cuales 200 presentan defectos. De los 6.000 anillos importados, 60 de ellos presentan defectos. Si se elige un anillo al azar y resulta defectuoso, ¿cuál es la probabilidad que sea de procedencia nacional? Con defectos Sin defectos Total

Nacionales 140 3860 4.000

Importados 60 5940 6.000

Total 200 9.800 10.000

72 «

Probabilidades

Si se trabaja con el espacio reducido, es decir, sabiendo que es defectuoso, el problema se reduce a:

Con defectos

Nacionales 140

Importados 60

Total 200

4.7.1. Propiedades 0 ≤ P(A / B) ≤ 1 P(Ω / A ) = 1 P(A / Ω) = P(A) P(B1UB2U ··· UBk / A) = P(B1 / A)+ P(B2 / A)+· · ·+ P(Bk / A) si Bi Bj = Si entonces P(A / B) = 1 Si A B = entonces P(A / B) = 0 P(A / A) = 1 Sean A y B sucesos definidos en un espacio muestral Ω entonces U

U

P1 P2 P3 P4 P5 P6 P7 P8

P(A / B ) + P(Ac / B ) = 1 Demostraciones. P2

P(A / Ω) =

P3

P(A / Ω) =

P5

Si entonces P(A / B) =

Ejercicio. Realizar las restantes demostraciones

4.8. Teorema de multiplicación Sean A y B dos sucesos cualesquiera y a partir de las definiciones de probabilidad condicional se tiene que: y pero, sólo una de estas definiciones se deberá utilizar, dependiendo de la información que se tenga.

Capítulo 4

» 73

Ejemplos. 1.- Se extraen dos naipes de una baraja de 52 cartas sin reposición. ¿Cuál es la probabilidad que ambos sean as?. Probabilidad con condición.

2.- Se extraen dos naipes de una baraja de 52 cartas con reposición. ¿Cuál es la probabilidad que ambos sean as? Probabilidad sin condición.

Definición. Sean A, B y C tres sucesos entonces, la probabilidad conjunta está dada por las siguientes expresiones, pero, sólo una de ellas es aplicable dependiendo de la información con que se cuente.

Esta definición se puede extender a más sucesos, naturalmente, las combinaciones aumentarán. Ejemplos. 1.- Se juega una cartilla de Loto. ¿Cuál es la probabilidad ganar? En el Loto se debe apostar a seis números de un total de 39, numerados correlativamente, se gana si salen elegidos los seis números apostados. Sea A1 acertar al primero,..., A6 acertar al sexto

el número 6! indica todas las permutaciones posibles en que pueden aparecer los seis números que el jugador apostó.

74 «

Probabilidades

También, se puede resolver calculando todas las combinaciones posibles que existen de elegir seis números de un total de treinta y nueve, de las cuales sólo una es la correcta, la probabilidad de ganar es

2.- Se juega una cartilla de Kino. ¿Cuál es la probabilidad de ganar? En el Kino se puede apostar a catorce números de un total de 25, numerados correlativamente, se gana si salen elegidos los catorce números apostados, es decir.

el número 14! indica todas las permutaciones posibles en que pueden aparecer los catorce números que el jugador apostó. También, se puede resolver calculando todas las combinaciones posibles que existen de elegir catorce números de un total de veinticinco, de las cuales sólo una es la correcta, la probabilidad de ganar es

4.9. Sucesos Independientes Definición. Dos sucesos A y B son independientes si :

o bien,

y

Definición. Tres sucesos son independientes si todos los pares son independientes y el trío es independiente, es decir:

Capítulo 4

» 75

Esta definición se puede generalizar, sean A1, A2 ,…,An una familia de sucesos, se dice que esta familia de sucesos son independientes si todos los pares son independientes, si todos los tríos son independientes, y si la n-upla es independiente

en general, se deben cumplir simultáneamente

condiciones para que se verifique la independencia. Teorema Sean A y B sucesos independientes entonces los sucesos a) A y Bc b) Ac y B c) Ac y Bc también son independientes. Demostración a)

pero como A y B son sucesos independiente como,

por tanto, los sucesos A y Bc son independientes

luego , se tiene

76 «

Probabilidades

Demostración c)

por tanto, los sucesos Ac y Bc son independientes Ejercicio.Demostrar b Ejemplo. Se tiene un circuito eléctrico con seis interruptores como se muestra en la Fig 4.1, en que cada interruptor es independiente de cada uno de los otros. Si la probabilidad de funcionar correctamente de cada interruptor es 0.99, ¿cuál es la probabilidad que el circuito funcione? Fig 4.1 Circuito combinado en serie y paralelo

Q V P

R W S

Para que el circuito funcione deben funcionar los interruptores P y (Q o R o S) y (V o W)

Capítulo 4

» 77

Ejercicio. Se tiene un circuito eléctrico con nueve interruptores como se muestra en la Fig 4.2, en que cada interruptor es independiente de cada uno de los otros. Si la probabilidad de fallar de cada interruptor es 0.05, ¿cuál es la probabilidad que el circuito funcione? Fig 4.2 Circuito en serie y paralelo

Q

V

R

W

S

Y

T

Z

P

4.10. Teorema de Probabilidad Total Sea A un suceso y sea B1 , B2 ,..., Bn una partición de Ω, es decir, a)

b)

c)

B4

B1

B2 B3

A

B5 B6

Bn

El suceso A se puede escribir como la unión disjunta de la siguiente manera:

luego

78 «

Probabilidades

Ejemplo. Por la información de la producción diaria obtenida durante tres años, se sabe que de todas las piezas fabricadas en cuatro máquinas, las tasas de defectuosos son 1%, 0.85%, 1.15% y 0.95% respectivamente. Si se elige una pieza de al azar, ¿cuál es la probabilidad que sea defectuosa?

J

L

K

M

D

El conjunto de piezas defectuosas D, se pueden escribir como una unión disjunta por:

es decir, los defectos se pueden dividir como los defectos producidos por la máquina J más los defectos producidos por la máquina K más los de L más los de M, luego

por tanto, existe un 0.9875% de probabilidad que sea defectuosa. 4.11. Teorema de Bayes Sea A un suceso y B1 , B2 ,..., Bk una partición de Ω B4

B1

B2 B3

A

B5 B6

Bn

Capítulo 4

» 79

En ejemplo de las cuatro máquinas anterior. Si se sabe que la pieza extraída es defectuosa, ¿cuál es la probabilidad que haya sido fabricada por la máquina J?

Ejemplo. Una empresa produce pernos en tres plantas A, B y C. Del total de la producción, la planta A produce un 35%, la B un 40% y la C un 25%. Por la información registrada durante todos los días durante dos años, se sabe que la probabilidad que un perno producido en la planta A sea defectuoso es de un 0.15%, en B de un 0.27%, y en C de un 0.12%. Si de los pernos producidos se elige uno de ellos al azar ¿cuál es la probabilidad que sea defectuoso? b) Si el perno elegido es defectuoso, ¿cuál es la probabilidad que lo haya producido en la planta B?

A

B

C

a)

D b)

Ejercicios del capítulo. 1.- Las averías que puede sufrir un automóvil, se pueden clasificar en dos tipos: eléctricas y mecánicas, que son independientes. Una empresa de arriendo de vehículos tiene tres autos de características similares, siendo la tasa de averías eléctricas del dos por mil y mecánicas del 3 por mil en cada uno de ellos. a) ¿cuál es la probabilidad que cierto día no se pueda arrendar ningún auto dado que los tres están averiados? b) ¿cuál es la probabilidad que tenga los tres autos disponibles? c) ¿cuál es la probabilidad que al menos uno pueda ser arrendado?

80 «

Probabilidades

2.- En una alcancía se tienen 4 monedas, tres normales y una con dos sellos. Se extrae una moneda al azar, se lanza y sale sello, ¿cuál es la probabilidad que la moneda extraída sea la de dos sellos? 3.- Una empresa compra microcircuitos eléctricos a tres proveedores A, B y C. La proporción de microcircuitos defectuosos producidos por los proveedores son 0.35%, 0.28% y 0.25% respectivamente. Del total adquirido, al proveedor A se le compra un 35%, al B un 40% y al C un 25%, los cuales se almacenan en una misma bodega independientemente del proveedor. Si se extrae un microcircuito al azar: a) ¿cuál es la probabilidad que sea defectuoso? b) y resulta defectuoso, ¿cuál es la probabilidad de habérselo adquirido al proveedor C? 4.- Una planta, compra motores de lavadoras en grandes cantidades a cuatro proveedores A, B, C y D, en la proporción 2:3:4:5 respectivamente, que son almacenados sin importar su procedencia. Se sabe que la proporción de motores defectuosos que ellos producen son del 0.25, 0.19, 0,21 y 0.15% respectivamente. a) Si se selecciona un motor al azar, cuál es la probabilidad que sea defectuoso? b) Si el motor seleccionado no tiene defecto, cuál es la probabilidad que haya sido comprado al proveedor B? 5.- Una instalación eléctrica consta de tres circuitos independientes C1, C2 y C3, que funcionan en paralelo. La probabilidad que estos circuitos fallen es 0.18%, 0.21% y 0.28% respectivamente. ¿Cuál es la probabilidad que el circuito funcione? 6.- Una industria manufacturera produce envases de plástico y de vidrio. Ambos procesos son independientes. El control de calidad de ésta rechaza el 0.25% de los envases de plástico y el 0.3% de los envases de vidrio por presentar defectos de distinta índole. Si de la línea de producción se selecciona aleatoriamente un envase de plástico y uno de vidrio. Cuál es la probabilidad de extraer: a) sólo uno de ellos defectuoso? b) ninguno de ellos defectuosos? 7- En bodega se tienen 28 TV en perfecto estado, 7 con pequeños defectos y 5 con defectos graves. Se extrae un TV al azar, calcular la probabilidad que: a) tenga un defecto grave? b) no tenga defectos? 8.- En una oficina de contrataciones se tiene dos archivos con personal para reemplazo. En el archivo A están los antecedentes de dos obreros y dos capataces. En el archivo B están los antecedentes de cuatro obreros. a) si se elige un archivo al azar, ¿Cuál es la probabilidad de extraer el expediente de un capataz? b) si se extrae un expediente al azar y resulta ser de un obrero, ¿cuál es la probabilidad que se haya escogido el archivo B?

capítulo

5

Variables Aleatorias

5.1. Variables aleatorias discretas Dado un experimento aleatorio E con su espacio muestral asociado Ω, si se define una función X: Ω ' R tal que a cada i Ω le asigna un y sólo un número real X( i), la función X se denomina variable aleatoria. 5.1.1. Función de cuantía o de probabilidad

Sea X una variable aleatoria discreta, se llama función de cuantía o de probabilidad de la variable aleatoria X, que se designa por f(x)=P(X=x), a una función tal que: A

a) f(x) ≥ 0 x y b)

Ejemplo. Se lanzan dos dados no cargados y se define la variable aleatoria, X : suma de las pintas de las caras superiores El espacio muestral Ω tiene 36 resultados posibles, de acuerdo a la tabla:

D1

1 2 3 4 5 6

1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1)

2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2)

D2 3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)

4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)

5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5)

6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)

82 «

Variables Aleatorias

Variables Aleatorias

» 82

la variable aleatoria tiene recorrido Rec X = {2,3,4,5,6,7,8,9,10,11,12} La función de probabilidad, que se designa por f(x) está dada por:

o bien

o

en la Fig 5.1, se muestra la gráfica de esta función de probabilidad. Con cualquiera de las tres formas equivalentes de la función, se puede probar que f(x) es función de probabilidad, en efecto: f(x) ≥ 0 x A

a) b)

Fig 5.1 Función de probabilidad

0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0

2

3

4

5

6

7

8

9

10

11

12

Capítulo 5

» 83

5.1.2. Función de probabilidad acumulativa

La función de probabilidad acumulativa o función de distribución de una variable aleatoria discreta X se define por:

Propiedades a) b) c) d)

0 ≤ F(x) ≤ 1 F(x) es una función escalonada creciente, con límite superior en 1 F(+∞) = 1 y F(-∞) = 0 P(a< x ≤ b)=F(b) – F(a)

Para el ejemplo de lanzar dos dados, la función de distribución está dada por:

En la Fig 5.2 se muestra la gráfica de la función de probabilidad acumulativa

Fig 5.2 Función de probabilidad acumulativa

1 0,08 0,06 0,04 0,02 0

1

2

3

4

5

6

7

8

9

10

11

12

84 «

Variables Aleatorias

5.1.3. Esperanza

Sea X una variable aleatoria discreta, la esperanza matemática se define por

La esperanza matemática es el promedio aritmético probabilístico de la variable aleatoria. Para el ejemplo de los dos dados

Propiedades 2. 3. 4. 5.

Si X = c , constante, E(X) = c E(c·X) = c·E(X) E(X ± c) = E(X) ± c E(X – E(X)) = 0

6. 7.

si y sólo si las variables X e Y son independientes

5.1.4. Varianza

Sea X una variable aleatoria discreta, la esperanza matemática se define por:

Para el ejemplo de lanzar dos dados se tiene:

la desviación estándar es:

Capítulo 5

» 85

Propiedades

Proposición Si dos variables aleatorias X e Y son independientes entonces la covarianza entre ellas es cero, Cov(X,Y) = 0 Demostración:

como E(X·Y) = E(X)·E(Y)

Observación. Si Cov(X,Y) = O esto no implica que las variables aleatorias X e Y sean independientes. Ejemplo. Se lanzan tres monedas normales, sea X: la variable aleatoria número de caras que aparecen; el recorrido de la variable está dado por:

(C,C,C) (C,C,S) (C,S,C) (C,S,S) (S,C,C) (S,C,S) (S,S,C) (S,S,S)

Rec x= {0,1,2,3} f(x)

R

0

1/8

1

3/8

2

3/8

3

1/8

La función de probabilidad acumulada está dada por

86 «

Variables Aleatorias

se tiene que:

'

5.1.5. Distribución de Bernoulli

Dado un experimento aleatorio que se puede dividir en dos eventos posibles, experimento dicotómico, con resultados E: éxito ó F: fracaso, que ocurren con probabilidades p y q respectivamente, con la restricción que p + q =1, se define la variable aleatoria

Se dice que una variable aleatoria discreta tiene distribución de Bernoulli, si su función de probabilidad está dada por:

Proposiciones Si una variable aleatoria discreta X tiene distribución de Bernoulli, entonces:

Demostraciones: 1. 2.

Ejemplo. Dada un pregunta de selección múltiple con cinco alternativas de las cuales sólo una es correcta. Si se responde la pregunta al azar, se puede elegir la correcta o no, por tanto, es un proceso dicotómico, sea la variable aleatoria

Capítulo 5

» 87

Dado que sólo una de las alternativas es correcta, la probabilidad de acertar la correcta es 1/5. La función de probabilidad está dada por:

con

5.1.6. Distribución Binomial Dado un experimento Bernoulli, el cual se repite n veces en condiciones idénticas, sea X la variable aleatoria “número de éxitos en esos n ensayos”, si se ordenan los éxitos y fracasos de acuerdo al siguiente esquema n resultados independientes

{ x éxitos

{

{

E.E.E.E...E.E.F.F...F.F

(n-x) fracasos

una forma de obtener x éxitos es que se tenga “éxito” en los x primeros ensayos y “fracaso” en los (n-x) ensayos restantes, o cualquiera otra combinación. Como se supone que los resultados son independientes y equiprobables, la probabilidad que ocurran los sucesos en ese orden está dado por: P(E . E . . . E . F . . . F) = P(E) . P(E) . . . P(E) . P(F) . . . P(F) n-x veces

{

{

=p.p...p.q.q...q x veces = px . qn-x

Si en un ensayo existen sólo dos resultados posibles, si los ensayos son independientes y la probabilidad de éxito se mantiene constante para cada ensayo, como se tienen n sobre x permutaciones posibles en los órdenes de tener éxito o fracaso entre los n ensayos, la variable aleatoria que se genera se conoce como distribución binomial, su función de probabilidad dada por:

88 «

Variables Aleatorias

Proposiciones Si una variable aleatoria discreta X tiene distribución de Binomial, entonces:

Demostración:

Ejemplos. 1.- Se tiene una prueba de selección múltiple de 15 preguntas, cada una de ellas con cinco alternativas de las cuales sólo una es correcta. Si una persona responde las preguntas al azar, ¿cuál es la probabilidad que: a) b) c) d) e)

no acierte a ninguna? le acierte a una? le acierte a dos? las acierte todas? le acierte a catorce o menos?

Solución. Se tienen n=15 repeticiones de un experimento tipo Bernoulli, en que cada ensayo tiene una probabilidad constante de acertar de 1/5, la función de probabilidad está dada por:

Capítulo 5

a)

no acierte a ninguna?

b)

le acierte a una?

c)

le acierte a dos?

d)

las acierte todas?

e)

le acierte a catorce o menos?

» 89

2.- Una moneda se lanza 10 veces, ¿cuál es la probabilidad que salga a) b) c)

a lo más una cara? una sea cara? todas sean cara?

Solución. Se tiene n=10 repeticiones de un experimento tipo Bernoulli, en que cada ensayo tiene una probabilidad constante de acertar de 1/2, la función de probabilidad está dada por:

a)

a lo más una cara?

b)

una sea cara?

90 «

c)

Variables Aleatorias

todas sean caras

Observación. La distribución binomial es muy útil para resolver problemas de extracción con reposición, dado que de esa forma se cumple el supuesto de mantener constante la probabilidad de éxito. Ejemplo 3. Una baraja americana tiene 52 naipes, de los cuales 13 son de corazón. Si se extrae una muestra aleatoria de 4 naipes con reposición, ¿cuál es la probabilidad de: a) b) c)

extraer uno de corazón? ninguno de corazón? los cuatro sean de corazón?

Solución. Al extraer los naipes con reposición se mantiene constante la probabilidad de sacar un corazón en 13/52, luego, la función de probabilidad está dada por:

a.

extraer uno de corazón?

b.

ninguno de corazón?

c.

los cuatro sean de corazón?

Capítulo 5

» 91

Ejemplo 4. Hoy en la sala hay 52 alumnos. ¿Cuál es la probabilidad que ninguno esté de cumpleaños? ¿Qué dos estén de cumpleaños?

5.1.7. Distribución Hipergeométrica

Un conjunto de tamaño N está dividido en dos subconjuntos mutuamente excluyentes de tamaños N1 y N2, es decir, N1 + N2 = N, en el cual los N1 elementos poseen una misma característica, por ejemplo, no tener defectos, los N2 restantes no poseen esta característica. Si se toma una muestra aleatoria de tamaño n sin reposición, se sabe que x elementos pueden poseer la característica de interés y que (n-x) no la poseerán, luego:

1.

es el número total de muestras de tamaño n que se pueden extraer del universo de tamaño N.

2.

es el número total de muestras de tamaño x que se pueden extraer de los N1 elementos que poseen la característica de interés.

3.

es el número total de muestras de tamaño (n-x) que se pueden extraer de los N2 elementos que no poseen la característica de interés.

Sea X la variable aleatoria discreta “número de elementos del subconjunto de tamaño N1 en la muestra de tamaño n” Una variable aleatoria discreta tiene distribución hipergeométrica si su función de probabilidad está dada por: , Rec x= {0,1,2,...,x}

N = N1 + N2 N1

N2 x

n-x n

92 «

Variables Aleatorias

Proposición Dada una variable aleatoria con distribución hipergeométrica se tiene que:

Si N es suficientemente grande respecto de n, la varianza de la distribución hiper-geométrica tiende a la varianza de la distribución binomial, es decir, V(X) = n . p . q Ejemplos. 1.- Se tiene un total de 50 golillas de presión de las cuales 15 son defectuosas. Si se extrae una muestra aleatoria de 5 golillas, ¿cuál es la probabilidad que la muestra contenga: a) b)

Ninguna golilla defectuosa? Dos golillas defectuosas?

La función de probabilidad está dada por:

donde indica que se pueden escoger 2.118.760 muestras de tamaño 5 del total de 50 golillas. N = N1 + N2 =50 N1 =15

N2 =35 x

5-x n=5

a)

b)

Capítulo 5

» 93

2.- Se recibe un embarque de 80 máquinas de lavar automáticas. Para aceptar el embarque, se eligen 10 máquinas al azar y si una o menos son defectuosas el lote se acepta. Si se encuentran dos o más defectuosas se deben probar todas. Si en el lote hay 4 máquinas defectuosas, ¿cuál es la probabilidad que se deba inspeccionar todo el embarque? La función de probabilidad está dada por:

N = N1 + N2 =80 N1 =4

N2 =76 x

10 - x n=10

como ESDECIR HAY˹12 maneras de escoger muestras de tamaño 10 de un total de 80 máquinas. La probabilidad que se deba inspeccionar todo el embarque es:

3.- Se tiene una remesa de 1000 tiros de dinamita de los cuales 15 son defectuosos. Si se extrae una muestra aleatoria de 12 tiros, los cuales se probarán haciéndolos explotar. ¿Cuál es la probabilidad que en la muestra a) b)

los 12 tiros hayan explotado? Un tiro no explotó?

La función de probabilidad de los defectuosos está dada por:

94 «

Variables Aleatorias

N1 =15

N = N1 + N2 =1000 N2 =985 x

12 - x n=12

donde

1.953.840.414.726.664.053.684.327.000

es el número de muestras distintas de tamaño 12 que se pueden extraer, luego a) que los 12 tiros hayan explotado, es lo mismo que ninguno haya sido defectuoso

b) que un tiro no explotó, es lo mismo que se haya extraído uno defectuoso

Ejercicios. 1.- La probabilidad que un polín producido en una fábrica sea defectuoso es igual a 0.015. Si se seleccionan al azar 12 polines de este proceso, ¿cuál es la probabilidad que en la muestra haya: a) b) c)

dos de ellos defectuosos? a lo menos un defectuoso? todos sean defectuosos?

2.- La probabilidad de generar un computador defectuoso en una línea de ensamble es de un 0.12%, si se extrae una muestra de 50 computadores, ¿cuál es la probabilidad que la muestra contenga: a) b) c)

un defectuoso? todos sean buenos? tres sean defectuosos?

Capítulo 5

» 95

5.1.8. Distribución Multinomial

Dadas n repeticiones idénticas de un experimento que tiene k resultados posibles A1, A2,…, An mutuamente excluyentes, con probabilidades, pi = P(Ai), i=1,2,…,k, con Si estas probabilidades pi permanecen constantes durante las n repeticiones independientes, sea X la variable aleatoria número de veces que ocurre el resultado Ai dentro de los n ensayos, con i=1,2,…,k, con , luego, la función de probabilidad está dada por:

Ejemplo. Se cuenta con la información del diámetro de una gran cantidad de golillas, clasificadas en A: 10 mm, B: 12 mm, C: 14 mm y D: 17 mm de diámetro. Se sabe que la proporción entre ellas en el lote es 3 : 5 : 4 : 1 respectivamente. Se extraen al azar 10 de estas golillas. Calcular la probabilidad que: a) b)

3 sean de tipo A, 2 de B, 4 de C y 1 de D 6 sean de tipo A y 4 de tipo D

Sea

X1 : número de golillas tipo A X2 : número de golillas tipo B X3 : número de golillas tipo C y X4 : número de golillas tipo D

a)

P(X1=3, X2=2, X3=4, X4=1)

b)

P(X1=6, X2=0, X3=0, X4=4)

5.1.9. Distribución de Poisson Una variable aleatoria discreta X que representa al número de eventos aleatorios independientes que ocurren en un intervalo de tiempo, tiene distribución de probabilidad de Poisson, si su función de probabilidad está dada por la expresión:

donde es el número de eventos promedio que ocurren durante dicho intervalo de tiempo t.

96 «

Variables Aleatorias

Proposición Dada una variable aleatoria con distribución de Poisson de parámetro , entonces 1.- E(X) = 2.- V(X) = Demostración : 1.- E(X) =

como

en la expresión anterior, sea w = x – 1, luego

2.- Para realizar ésta demostración se usará la expresión X2 = X(X-1) + X

sea w = x – 2, luego

por tanto,

Capítulo 5

» 97

Ejemplos. 1.- Se sabe que el número de llamadas que llega a una central telefónica tiene una frecuencia de 120 llamadas/hora. Cuál es la probabilidad que 10 llamadas ingresen en un lapso de 4 minutos? Qué 9 llamadas ingresen en 5 minutos? =120 llamadas por hora 2 llamadas por minuto 8 llamadas por 4 minutos

=120 llamadas por hora

2 llamadas por minuto

10 llamadas por 5 minutos

2.- De acuerdo a la información registrada durante varios años, se sabe que el número de accidentes con causa de muerte tiene una frecuencia de 30 casos al mes. Calcule la probabilidad que haya un muerto en un lapso de 2 días. Calcule la probabilidad que haya dos muertos en un lapso de 5 días. Para un lapso de 2 días

casos cada dos días, la función de probabilidad está dada por

luego para un lapso de 5 días

la función de probabilidad está dada por luego

5.2. Variables aleatorias continuas Sea X una variable aleatoria continua, se llama función de densidad o de probabilidad de la variable aleatoria X, que se designa por f(x) = P(X = x), a una función tal que:

2.

f(x) ≥ 0 x A

1.

98 «

Variables Aleatorias

Ejemplo. Sea 1. 2. 3.

Demostrar que f(x) es función de probabilidad Calcular P(1/3 ≤ x ≤ 1/2) P(x = 1/2)

Solución:

Ejercicios. 1.- Sea X una variable aleatoria continua con función de probabilidad dada por f(x) = C(x2 - x3) si -1 ≤ x ≤ 1. a) b)

Determine el valor de la constante C para que sea función de probabilidad Determine y grafique F(x)

2.- Sea X una variable aleatoria continua con función de probabilidad dada por f(x) = C(1- x2) si -1 ≤ x ≤ 1. a) b) c)

Determine el valor de la constante C para que sea función de probabilidad Determine y grafique F(x) Calcular i) P(x ≤ 1/2) ii) P(1/4 ≤ x ≤ 1/3) iii) P(x ≤ 1/2 / 0 ≤ x ≤ 3/4)

5.2.1. Esperanza Sea X una variable aleatoria continua, con recorrido los números reales, se define la esperanza matemática por:

Capítulo 5

» 99

5.2.2. Varianza

Sea X una variable aleatoria continua, con recorrido los números reales, se define la Varianza por: V ( x) E( x 2 )

E( x)

2

donde E(x 2 )

x 2i P( X x i ) dx

Ejercicio. Determinar la esperanza y la varianza de la variable aleatoria cuya fun-ción de densidad está dada por:

5.2.3. Distribución Uniforme Una variable aleatoria continua de recorrido [a,b] se distribuye uniforme si su función de probabilidad es:

1

b-a a

b

x

Proposición. Sea x una variable aleatoria continua de recorrido [a,b] con distribución uniforme entonces:

Demostración.

100 «

Variables Aleatorias

luego La función de probabilidad acumulada de una variable aleatoria con distribución uniforme está dada por:

Fig 5.3 Función de probabilidad acumulada

F (x) 1

a

b

x

Ejemplo. Una sustancia química contaminante se distribuye uniformemente en el rango de 10 a 20 partes por millón (ppm). No se considera nociva para la salud si la concentración es menor o igual a 10.5 ppm. ¿Cuál es la probabilidad que no sea nociva? Como la función de probabilidad acumulada entrega el valor del área bajo la cur-va desde menos infinito hasta el punto de interés, reemplazando los valores de a y b se tiene:

Capítulo 5

» 101

5.2.4. Distribución exponencial Sea X una variable aleatoria continua con recorrido los reales positivos, X tiene distribución exponencial si su función de densidad está dada por:

f (x)

x

Se puede verificar que f(x) es función de densidad pues: i) f(x) ≥ 0 , x A

ii)

La función de probabilidad acumulativa está dada por:

f (x) 1

x

Dada una variable aleatoria con distribución exponencial su esperanza y varianza está dada por: i) ii)

102 «

Variables Aleatorias

Demostración: i) ii) luego Ejemplo. El tiempo de espera de las personas en el Sernac para realizar una denuncia tiene una distribución exponencial de parámetro =0.00125 (t en minutos). ¿Qué porcentaje de los denunciantes espera más de 20 minutos para realizar una denuncia en el Sernac? De acuerdo a la información se tiene que la función de probabilidad está dada por:

5.2.5. Distribución t-Student Una variable aleatoria tiene distribución t-Student si su función de probabilidad

está dada por

Si X es una variable aleatoria con distribución N(0,1) y X2 es otra variable aleatoria con distribución X2 chi-cuadrado con (n-1) grados de libertad, entonces, la variable aleatoria

es una variable aleatoria con distribución t-Student con (n-1) grados de libertad Propiedades 1.- La variable t, toma valores de -∞ a +∞ 2.- Si X0, X1, X2,......Xn son independientes identicamente distribuidos N(0,1) entonces:

Capítulo 5

» 103

3.- La distribución t-Student es simétrica con: i.

E(X) = 0 , n > 1

ii. iii.

, n>2 La variable t-Student tiene mayor dispersión que la distribución normal estándar

pero, su varianza tiende a 1 cuando n tiende a infinito. iv. A medida que aumentan los grados de libertad la distribución t-Student tiende a la distribución normal estándar, es decir:

En la Fig 5.4, se puede observar el comportamiento de una variable aleatoria con distribución t-Student de 18 grados de libertad y la gráfica de una N(0,1), ambas curvas prácticamente son idénticas 0,4

Fig 5.4 Distribución N(0,1) y t-Student con 18 gdl

0,2

-4

-2

2

4

En la siguiente Fig 5.5 se puede observar el comportamiento de una variable aleatoria con distribución t-Student de 5 grados de libertad (en línea continua) y la gráfica de una N(0,1), se puede apreciar que la distribución t-Student es más aplanada que la normal. 0,4

Fig 5.5 Distribución N(0,1) y t-Student con 5 gdl

0,3 0,2 0,1

-4

-2

0

2

4

104 «

Variables Aleatorias

5.2.6. Distribución Normal Sea X una variable aleatoria continua con recorrido en los reales, la variable X tiene distribución normal de parámetros µ y 2 si su función de probabilidad es

Derivando esta función de probabilidad respecto de µ e igualándola a cero, se obtiene un punto crítico en µ, que reemplazado en la segunda derivada respecto de µ, se obtiene un máximo. Al hacer la segunda derivada respecto de µ igual a cero, se obtiene que los puntos de inflexión de la curva se encuentran en µ- y en µ+ . En la Fig 5.6 se muestras las áreas bajo la curva correspondiente Fig 5.6 Distribución normal y áreas bajo la curva

0,9973 0,9545 0,6827 µ-3

µ-2

µ-

0

µ+

µ+2

µ+3

Fig 5.7 Distribución normal diferentes medias y varianzas

0

2

4

En la Fig 5.7 se aprecian tres distribuciones normales en un mismo gráfico, una N(0,1), una N(2,1.5) y una N(4,2), de izquierda a derecha respectivamente. A medida que aumenta la varianza la curva presenta mayor dispersión Considerando en la función de probabilidad de la distribución normal µ= 0 y 2 =1 se tiene

esta distribución es conocida como una normal (0,1).

Capítulo 5

» 105

Para cálculos de probabilidades de procesos que se distribuyen normal, se han tabulado los valores de probabilidad acumulada a partir de esta función (x), que previo a su uso se deben estandarizar los valores por:

Ejemplos 1.- En una empresa que fabrica pernos, se sabe que el diámetro exterior se distribuye normal con media µ = 2.1 cm y desviación estándar = 0.2 cm. Si se elige uno un perno al azar, ¿cuál es la probabilidad que su diámetro sea a) menor de 1.8 cm? b) ¿qué mida entre 1.8 y 2.4 cm? c) ¿qué sea mayor de 2.4 cms? a)

1.8

Se busca en la tabla Normal en la columna z, el valor 1.5 y luego en la parte superior se busca el valor 0.00, en la intersección de ambos se lee 0.06681.

b)

1.8

2.4

106 «

Variables Aleatorias

Se busca en la tabla Normal en la columna z, el valor 1.5 y luego en la parte superior se busca el valor 0.00, en la intersección de ambos se lee 0.9332 se utiliza el resultado de a) obteniendo 0.8664. c)

2.4

2.- La velocidad a la que transitan los automovilistas en una carretera se distribuye normal con media µ=90 km/h y desviación estándar =5 km/h. Si se controla un automovilista al azar, ¿cuál es la probabilidad que viaje a una velocidad? a) b) c)

inferior o igual a 100 km/h? entre 85 y 102 km/h incluídas? superior a 98,5 km/h?

a) Se busca en la tabla Normal en la columna z, el valor 2.0 y luego en la parte su perior se busca el valor 0.00, en la intersección de ambos se lee 0.9772. b)

c) Proposición Sea X una variable aleatoria con distribución normal de parámetros µ y está dada por: E = (X) = µ

, la esperanza matemática

2

Capítulo 5

» 107

Demostración:

la integral del segundo término vale 1, ya que es la función de probabilidad de la distribución normal, luego:

sea

luego

por tanto E = (X) = µ 5.2.7. Distribución Chi-cuadrado Una variable aleatoria X tiene una distribución Chi-cuadrado ( ) si su función de probabilidad está dada por:

108 «

Variables Aleatorias

donde es el número de grados de libertad. Fig 5.8 Gráficas de distribuciones para diferentes valores de

f(x) 3 =3 2 =5 1

=7

= 21 = 30

0

20

40

60

x

Proposición Sea x una variable aleatoria con distribución 1) 2)

con grados de libertad, entonces

E(x) = V(x) = 2

Teoremas. 1. Si z ~ N(0,1) entonces z2 ~ 2. Si Z1, Z2, ...,Zn es un conjunto de n variables independientes e idénticamente distribuidas N(0,1),entonces Z= Z21 + Z22 + . . . + Z2n se distribuye con n grados de libertad 3. Si X1, X2, ...,Xn es un conjunto de n variables aleatorias independientes con distribuciones con , 1 , 2,..., n grados de libertad, respectivamente, entonces la variable aleatoria X = X1 + X2 +...+ Xn tiene una distribución con = 1 + 2+...+ n grados de libertad. 4. Si y S2 son la media y la varianza de una muestra aleatoria de tamaño n proveniente de una distribución normal con media µ y varianza 2, entonces i) y S2 son independientes ii) La variable aleatoria (n - 1)S2 /

2

tiene distribución

con (n-1) grados de libertad.

Ejemplo. Sea x una variable aleatoria con 15 grados de libertad, calcular la probabilidad que: a) P(x > 20) b) P(x ≤ 10) c) P(10 ≤ x ≤ 20)

Capítulo 5

Solución: 0.08 0.06 0.04 0.02 0

20

40

x

40

x

40

x

a) P(x > 20) = 1 - P(x ≤ 20) = 1 - 0.828 = 0.172 0.08 0.06 0.04 0.02

0

10

0

10

20

b) P(x ≤ 10) = 0.18026 0.08 0.06 0.04 0.02

c) P(10 ≤ x ≤ 20) = P(x ≤ 20) - P(x ≤ 10) = 0.64774

20

» 109

110 «

Variables Aleatorias

5.2.8. Distribución F Sean X e Y dos variables aleatorias independientes que tienen distribución con libertad, respectivamente, la variable aleatoria:

1

y

2

grados de

que tiene función de densidad,

se denomina distribución F de Snedecor o Snedecor-Fisher con 1 y 2 grados de libertad ( 1 grados de libertad en el numerador y 2 grados de libertad en el denominador). Fig 5.9 Gráfica de la función de densidad de la distribución F 10, 20

1 0.08 0.06 0.04 0.02

Fig 5.10 Gráfica de la función de densidad de la distribución F 100, 100

0

1

2

0

0.4

0.8

3

4

5

2.4 2.0 1.6 1.2 0.8 0.4 1.2 x

1.6

2.0

2.4

Capítulo 5

» 111

5.2.9 Distribución triangular En muchos procesos no siempre es posible que los valores que toma la variable aleatoria tenga una distribución conocida, pero, si se conoce el valor mínimo que tiene la variable, (a), el máximo (c) y el valor que más se repite, valor modal (b). En este caso, es posible construir una función de probabilidad que se ajuste a los datos, conocida como distribución triangular. Ejemplo. Las ventas de un cierto repuesto de motor se distribuye de manera que el mínimo de unidades que se venden al día es 2, el máximo es 10 y el valor que más se repite es 5. Se cuenta con la información de las ventas de 112 días, la distribución de las ventas se muestra en la siguiente figura 70 60 50 40 30 20 10 0

2

3

4

5

6

7

8

9

10

Se procede a definir la función de probabilidad triangular con esta información de las ventas

( 5, 1 ) 4

1 4

1

2 (2,0)

3

4

5

6

7

8

9

10 (10,0)

112 «

Variables Aleatorias

Para construir una distribución de probabilidad entre 2 y 10, se debe cumplir que el área de éste triángulo debe ser 1, como la base es 8 la altura debe ser ¼, Fig. 5.12. las pendientes y ecuaciones de las rectas de los lados del triángulo son:

La función de probabilidad está dada por:

La esperanza está dada por:

Ejercicio. Calcular la varianza En forma genérica la función de probabilidad de una variable aleatoria con distribución que triangular, con valor mínimo a, máximo c, y valor que más se repite b, está dada por:

La unción acumulativa está dada por: F(x) = P( X≤ x )

Capítulo 5

Para el ejemplo de las ventas, la función acumulativa es:

Por ejemplo, cuál es la probabilidad que se vendan a lo más 6 repuestos al día?

también, se puede calcular por:

En forma genérica, la función acumulativa está dada por:

» 113

114 «

Variables Aleatorias

Ejemplo. Sea f una variable aleatoria con distribución F con 1=10 grados de libertad en el numerador y 2=20 grados de libertad en el denominador. Calcular la probabilidad que: a) P(f ≤ 0.5) b) P(f > 3) c) P(2 ≤ f ≤ 3) 1 0.08 0.06 0.04 0.02

0

0

0.5

1

2

3

4

5

0

0.5

1

2

3

4

5

x

a) P(f ≤ 0.5) = 0,12984 1 0.08 0.06 0.04 0.02

0

b) P(f > 3) = 1 - P(f ≤ 3) = 1 – 0.982 = 0.018

x

Capítulo 5

» 115

1 0.08 0.06 0.04 0.02

0

0

0.5

1

2

3

4

5

x

c) P(2 ≤ f ≤ 3) = P(f ≤ 3) – P(f ≤ 2) = 0.982 – 0.910 = 0.072 5.2.10. Momento de una variable aleatoria Los momentos de una variable aleatoria X son los valores esperados de ciertas funciones de X; permiten caracterizar la distribución de probabilidad de la variable aleatoria. También, se conocen como momentos de la distribución de probabilidad de X. Estos momentos, generalmente se definen referidos a cero o al valor esperado de X. Los momentos quedan sujetos a la existencia de las sumas, en caso de variables discretas, o las integrales para las variables continuas. Dada una variable aleatoria discreta X, el k-ésimo momento respecto del cero se define por:

Dada una variable aleatoria continua X, el k-ésimo momento respecto del cero se define por:

Observación. El primer momento respecto de cero de una variable aleatoria es la esperanza matemática de ella. Dada una variable aleatoria discreta X, el k-ésimo momento respecto de la media de X, momento central, está definido por:

116 «

Variables Aleatorias

Dada una variable aleatoria continua X, el k-ésimo momento respecto de la media de X, momento central, está definido por:

Observaciones. a) El momento central cero de una variable aleatoria es 1.

b) El primer momento central es cero. c) El segundo momento central de una variable aleatoria es la varianza

c) El tercer momento central

está directamente relacionado con la asimetría de la distribución de probabilidad de la variable aleatoria X. Pero, la mejor medida para determinar la asimetría es el coeficiente de asimetría definido por:

d) El cuarto momento central

permite medir que tan aguzada o no, es una distribución de probabilidad de una variable aleatoria, denominada curtosis. Pero, habitualmente se usa este cuarto momento estandarizado por:

Capítulo 5

» 117

si C es menor que 3 la distribución se denomina leptocúrtica o aguzada; si C es mayor a 3 se denomina platicúrtica o aplanada; si C es igual a 3, la distribución se denomina mesocúrtica, no es ni aguzada ni aplanada. 5.2.11. Función generadora de momentos en torno al cero Sea X una variable aleatoria discreta, el valor esperado de eXt se denomina función generadora de momentos y se denota por:

Sea X una variable aleatoria continua, el valor esperado de eXt se denomina función generadora de momentos y se denota por:

Observaciones. a) Ésta función sólo depende del parámetro t b) Si t = 0, mX(0) = E(e0) = E(1) = 1 c) Si ésta función existe, es única y determina completamente la distribución de probabilidad de la variable aleatoria X d) Si dos o más variables aleatorias tiene la misma función generadora de momentos entonces tienen la misma distribución de probabilidad e) Si ésta función existe para –a < t < a, existen las derivadas de todos los órdenes para t=0, en otras palabras, existen todos los momentos en torno al cero, así: i)

ii)

118 «

Variables Aleatorias

5.2.12. Función generadora de momentos en torno a µ Sea X una variable aleatoria discreta, la función generadora de momentos central se define por:

Sea X una variable aleatoria continua, la función generadora de momentos central se define por:

a) Ésta función sólo depende del parámetro t b) Si t = O, mX-µ (O) = E(e0) = E(1) = 1 c) Si ésta función existe para –a < t < a, existen las derivadas de todos los órdenes para t=0, en otras palabras, existen todos los momentos en torno a µ, así i)

ii)

Capítulo 5

» 119

Ejemplo. Sea X una variable aleatoria discreta con distribución de Poisson, determine su función generadora de momentos. Solución. La función generadora de momentos respecto del cero está dada por:

se puede verificar que:

Ejercicios. 1.- Probar que el coeficiente de asimetría de la distribución de Poisson es 2.- Probar que la curtosis relativa de la distribución de Poisson es

5.2.13. Funciones generatrices de momento de variables discretas Distribución de Poisson

:

Distribución Binomial

:

120 «

Variables Aleatorias

5.2.14. Algunas funciones generatrices de momento de funciones continuas

Distribución uniforme

:

Distribución normal

:

La varianza de una distribución normal se puede obtener a partir de su generatriz de momento

luego Ejercicios resueltos del capítulo 1.- Se sabe que el número de llamadas que llega a una central telefónica tiene una frecuencia de 120 llamadas/hora. Cuál es la probabilidad que 10 llamadas ingresen en un lapso de 4 minutos? Qué 9 llamadas ingresen en 5 minutos? =120 llamadas por hora =120 llamadas por hora

2 llamadas por minuto 8 llamadas por 4 minutos 2 llamadas por minuto 10 llamadas por 5 minutos

Capítulo 5

» 121

2.- De acuerdo a la información registrada durante varios años, se sabe que el número de accidentes laborales con causa de muerte tiene una frecuencia de 15 casos al mes. Calcule la probabilidad que haya un muerto en un lapso de 3 días. Calcule la probabilidad que haya dos muertos en un lapso de 8 días.

Solución: Para un lapso de 3 días por

luego

casos cada dos días, la función de probabilidad está dada para un lapso de 8 días la función de probabilidad está dada por

luego 3.- Sea a) b) c)

Demostrar que f(x) es función de probabilidad Calcular P(1/4 ≤ x ≤ 1/3) P(x = 1/3)

Solución:

4.- Una sustancia química contaminante se distribuye uniformemente en el rango de 5 a 10 partes por millón (ppm). Se considera nociva para la salud si la concentración es mayor a 6.5 ppm. ¿Cuál es la probabilidad que sea nociva?

122 «

Variables Aleatorias

5.- El tiempo de espera de los clientes en la caja de una tienda para realizar un pago tiene una distribución exponencial de parámetro =0.035 (t en minutos). ¿Qué porcentaje de los clientes deben esperar más de 30 minutos para realizar su pago?

luego

Ejercicios propuestos. 1.- Una empresa contable sabe que el tiempo que le lleva realizar un proceso de auditoría tiene distribución normal, con un tiempo medio de 17.2 días y una desviación estándar de 3.7 días. El gerente promete iniciar un trabajo de auditoría en la empresa dentro de 20 días, qué probabilidad hay que cumpla su promesa? 2.- Una empresa ha determinado que cierto trabajo requiere un tiempo medio de 6.2 semanas para su realización, con una desviación estándar de 1.5 semanas. La empresa firma un contrato con un cliente con el cual se ha convenido que si el trabajo no se termina en siete semanas, el cliente tendrá derecho a cobrar una multa. ¿Cuál es la probabilidad que la empresa tenga que pagar la multa? 3.- El tiempo de respuesta de llamada de socorro al 133 en Santiago es de 4.8 minutos con una desviación estándar de 1.2 minutos. Un vecino se queja que la policía tardó más de siete minutos en llegar a su puerta. ¿Cuál es la probabilidad que ello haya ocurrido así?

capítulo

6

Inferencia

6.1. Introducción Dada una población o universo es necesario conocer los parámetros que la caracterizan, como la media poblacional que se designa por µ; la varianza poblacional que se designa por 2; la proporción poblacional de una característica que se designa por p; o cualquier otro parámetro de interés. Se debe entender por parámetro a la caracterización numérica de una población, que describe parcialmente o en forma completa la función de probabilidad de la característica de interés. Para conocer estos parámetros es necesario realizar un censo de toda la población, de lo contrario, se pueden estimar estos parámetros, a partir de estadísticos calculados a partir de una muestra aleatoria de este universo. Se denomina estadístico o estadígrafo a una función de las variables aleatorias que se miden en una muestra aleatoria. Ejemplos. Sea x1,x2,…,xn una muestra aleatoria proveniente de una población, a partir de estos datos se pueden definir estadísticos, tales como:

124 «

Inferencia

6.2. Distribución muestral de un estadístico Al extraer de una población todas las muestras de un determinado tamaño y calculando en cada una de ellas el parámetro de interés, se obtendrán muchos valores diferentes de ese estadístico muestral, lo que se conoce como la variabilidad natural del muestreo, todos estos valores posibles de un estadístico generan lo que se denomina su distribución muestral. Si se tiene una población de tamaño 1000 y se quiere tomar una muestra aleatoria de tamaño 100, existen por tanto 1000 sobre 100 combinaciones posibles de realizar esta elección

que es el número total de muestras distintas de tamaño 100 que se pueden escoger. Si a cada una de estas muestras se le calcula el estadístico de interés, se tendrán igual número de resultados de este estadístico, con ellos se puede obtener la distribución muestral del mismo. Para explicar este concepto, se considera un universo de tamaño N=5, integrado por los elementos P = {25,26,27,28,29} en kilos. Luego, 27 kilos 2 = 2 kilos y , si se toman muestras de tamaño 3, existen distintas, como se muestra en la siguiente tabla: Muestra 1 2 3 4 5 6 7 8 9 10

Valores en la muestra 25 26 27 25 26 28 25 26 29 25 27 28 25 27 29 25 28 29 26 27 28 26 27 29 26 28 29 27 28 29

muestras

Promedio de la muestra 26,000 26,333 26,667 26,667 27,000 27,333 27,000 27,333 27,667 28,000

Capítulo 6

» 125

la distribución muestral de la media está dada por: Promedio de la muestra 26 26.333 26.667 27 27.333 27.667 28

frecuencia 1 1 2 2 2 1 1

Probabilidad de la media 0.10 0.10 0.20 0.20 0.20 0.10 0.10

se puede verificar que :

6.2.1. Error Muestral Se conoce como error muestral de un estadístico a la diferencia entre el valor calculado de éste y el parámetro de la población, para el ejemplo, se tiene: Promedio de la muestra 26 26.333 26.667 27 27.333 27.667 28

Error muestral -1 -0.667 -0.333 0 0.333 0.667 1

6.2.2. Error típico muestral El error típico de la distribución muestral se define por:

126 «

Inferencia

y mide la variación de las medias muestrales respecto a la media general. Para el ejemplo, el error típico muestral es 0.3333 kg. 6.2.3. Distribución muestral de la media 6.2.3.1. Teorema central del límite Sean x1, x2 ,..., xn una muestra aleatoria de tamaño n, proveniente de una población con distribución de probabilidad no especificada, que tiene media µ y varianza finita 2. El promedio muestral

tiene una distribución con media µ y varianza finita En efecto:

estandarizando la variable aleatoria

por:

ésta variable estandarizada z tiende a una distribución normal cuando n es grande, sin importar cual sea la distribución de probabilidad a partir de la cual se obtuvo la muestra. Ejemplo. Suponga que el número de bujes que produce una máquina diariamente es una variable aleatoria con distribución no especificada. Si se observa la producción en forma aleatoria durante 64 horas y se conoce que la desviación estándar del número de bujes que se produce por hora es = 16. Determine la probabilidad que la media se encuentre a no más de dos unidades del valor verdadero de la producción por día.

Capítulo 6

6.2.4. Distribución muestral de (n-1)S2*/

» 127

2

Si S2* es la varianza de una muestra aleatoria de tamaño n tomada de una población normal que tiene varianza 2, entonces el estadístico

tiene distribución

2

(chi-cuadrado) con = n -1 grados de libertad, donde

6.2.5. Distribución muestral de p Sea X una variable aleatoria con distribución Bernoulli de parámetro p. Como E(X) = p y V(X) = p·q, si se elige una muestra aleatoria x1,x2,…,xn y se estima el parámetro p por

se tiene que : por lo tanto

y N(0,1) para n suficientemente grande

6.3. Inferencia Estadística La inferencia estadística permite tomar una decisión respecto de una o más poblaciones usando como referencia los datos proporcionados por una o varias muestras tomadas de ellas. Se requiere establecer métodos que permitan transferir los resultados obtenidos de estas muestras a la población con el mínimo de error y la máxima eficiencia. La inferencia estadística se puede realizar mediante dos formas, una se conoce como estimación de parámetros y otra como pruebas de hipótesis. 6.3.1. Estimación de Parámetros Para estimar parámetros de una población, es necesario obtener una muestra aleatoria de tamaño

128 «

Inferencia

n, con los datos de ella, calcular los estadísticos que permitan estimar los parámetros de interés. La estimación de los parámetros se puede realizar a través de estimación puntual, o bien, a través del método de construcción de intervalos de confianza. 6.3.1.1. Estimación Puntual Dada una muestra aleatoria x1,x2,…,xn elegida de una población, se deben calcular estadísticos que permitan realizar la estimación, pero, se requiere que estos estimadores puntuales posean las siguientes propiedades : 6.3.1.1.1. Estimador Insesgado Un estimador de un parámetro poblacional es insesgado, sin sesgo, si su esperanza matemática es igual al parámetro de la población. Sea

el parámetro poblacional a estimar y sea

el estimador puntual de la muestra, cuando: es un estimador insesgado de

Ejemplo. Considerando la función de probabilidad

de la distribución de Poisson de parámetro mador insesgado de

. Probar que el estimador puntual

es un esti-

Dem.

6.3.1.1.2. Estimador Consistente Un estimador puntual de un parámetro es consistente mientras más información se tiene en la muestra para calcularlo, es decir, si el tamaño de la muestra tiende a infinito, se tendrá que:

para el ejemplo de la distribución de Poisson, se tiene :

Capítulo 6

» 129

Proposición Si x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con media µ y varianza 2, entonces cualquier xi de la muestra es un estimador insesgado de µ, puesto que E(xi) = µ i = 1,2,...,n A

Proposición Sea C un estadístico definido como una combinación lineal de las variables aleatorias de la muestra por:

entonces C es un estimador insesgado de µ. Demostración:

Proposición Dada una muestra aleatoria x1, x2,...,xn proveniente de una población, la varianza de los xi definida por

es un estimador insesgado de

130 «

Inferencia

6.3.1.1.3. Estimador Eficiente Un estimador puntual es eficiente si la varianza del estimador es la menor posible. Si E1 y E2 son dos estimadores insesgados con varianzas V(E1) y V(E2), respectivamente, si V(E1) < V(E2) se dice que el estimador E1 es más eficiente que E2. Sea x1, x2, ..., xn una muestra aleatoria de tamaño n. Se ha probado que x y x1 son estimadores insesgados de µ. Pero, es más eficiente que x1 para estimar µ puesto que V(x) = ²/n < V(x1) = ². 6.3.1.1.4. Eficiencia Relativa Los estimadores insesgados suelen compararse en términos de sus respectivas varianzas. Si E1 y E2 son dos estimadores insesgados de un parámetro y la varianza de E1 es menor que la varianza de E2, se dice que E1 es más eficiente que E2. También, se puede usar la relación respecto E1.

para medir la eficiencia relativa del estimador E2 con

Si este cuociente es mayor a 1 entonces E2 es más eficiente que E1, en caso contrario E1 es más eficiente. 6.3.2. Método de Máxima Verosimilitud Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con función de densidad f( x , ), Ω. La función de densidad conjunta está definida por:

se conoce como función de verosimilitud de una muestra aleatoria y se denota por:

Si se encuentra una función de x1, x2,...,xn , designada por g(x1, x2,...,xn) tal que cuando es reemplazado por g(x1, x2,...,xn) la función de verosimilitud es máxima. El estadístico = g(x1, x2,...,xn) se denomina estimador máximo verosímil de . Ejemplo. Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con función de Poisson de parámetro

Capítulo 6

» 131

para obtener el estimador máximo verosímil se requiere derivar esta función, para facilitar esta derivación se aplica logaritmo natural:

luego igualando a cero esta derivada, se tiene

por tanto, el estimador máximo verosímil de

es

.

Ejemplo. Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con función de densidad

la función de densidad conjunta o de verosimilitud está dada por :

se debe encontrar el valor de que haga máxima la probabilidad L( ), luego:

por tanto

igualando a cero, se tiene

132 «

Inferencia

por tanto, el valor de del parámetro.

que maximiza a L( ) es

, y se denomina estimador máximo verosímil

Ejemplo. Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población normal con función de densidad

la función de densidad conjunta está dada por:

La función de verosimilitud es una función conjunta de µ y

Se deben encontrar los valores de µ y de

2

2

, que se denota por L(µ, 2):

que hagan máxima la probabilidad L(µ, 2).

El valor de µ que maximiza L(µ, 2) será un buen estimador de µ. Tanto L(µ, 2) como ln(L(µ, 2)) son maximizados por el mismo valor de µ, luego

por tanto, la derivada parcial

, igualando a cero, se tiene

Capítulo 6

el valor que maximiza a L(µ, 2) es

» 133

, y se denomina estimador máximo verosímil del parámetro µ.

De la misma forma, se puede encontrar el estimador máximo verosímil de

obteniendo la derivada parcial respecto de

, a partir de

2

2

igualando a cero, se tiene

el valor que maximiza a L(µ, 2) es del parámetro 2.

, y se denomina estimador máximo verosímil

Para determinar si un estimador insesgado es de varianza mínima o con sesgo mínimo, se usa la desigualdad de Crámer-Rao, dada en el siguiente teorema. Teorema. Si W es un estimador insesgado de

y

entonces W es el estimador insesgado de mínima varianza de

.

Ejemplo. Se demostrará que x es el estimador insesgado de varianza mínima de la media μ de una población normal.

134 «

Inferencia

Por lo tanto se tiene que

Como se sabe que x es un estimador insesgado y su varianza es ²/n entonces x es el estimador insesgado de varianza mínima de µ. 6.3.2.1. Propiedad Invariante Si es un estimador máximo verosímil, cualquier función f( ) también es un estimador máximo verosímil. 6.4. Estimación por Intervalos de Confianza Otra forma de estimar un parámetro de una población, consiste en tomar una muestra aleatoria de ella, calcular el estimador puntual correspondiente y construir un intervalo de confianza que lo contenga. Para ello, se requiere definir el nivel de confianza, que se designa por 1 - , de manera que la probabilidad que el intervalo contenga al parámetro esté dada por:

el valor de r dependerá de la distribución muestral que tenga el parámetro muestral con el que se hará la estimación. 6.4.1. Intervalo de Confianza para la media µ de una población normal 6.4.1.1 Cuando

2

es conocida

Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución donde es conocida, luego por tanto,

Capítulo 6

se puede verificar mediante una tabla N(0,1) que

» 135

'

luego

es el intervalo del 99% para µ cuando

2

es conocida.

Mediante un proceso análogo al desarrollado, se puede construir un intervalo de confianza para un nivel de confianza 1 - , para los percentiles y

como

entonces

=

se tiene que

136 «

Inferencia

es el intervalo del (1- )% para µ cuando 2 es conocida, esto significa que si se construyeran el 100% de los intervalos para µ, el (1- )% de ellos la contendrían. Ejemplo. Un fabricante de polines desea estimar el diámetro medio externo de ellos. Durante el proceso de fabricación se mide el diámetro en milímetros de 18 de ellos seleccionados aleatoriamente. Los diámetros obtenidos son 20.8, 21,1, 20.5, 21.3, 21.6, 20.9, 21.2, 22.2, 22.3, 20.6, 20.8, 21.1, 23.4, 22.6, 21.7, 20.8, 20.3, y 20.7. Suponga que los diámetros en el proceso de fabricación se distribuyen normal con desviación estándar 0.35 milímetros. Construir un intervalo de confianza estimado del 95% para el valor real del diámetro promedio de los polines.

Z0.025

Z0.975=1.96

se puede afirmar con un 95% de confianza que el diámetro medio de los polines varía entre 21.166 y 21.490 milímetros. 6.4.1.2. Cuando

2

es desconocida

Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución . De acuerdo al desarrollo realizado al inicio de este capítulo, se tiene que: y

donde v son los grados de libertad de un distribución

luego

, reemplazando, se tiene:

Capítulo 6

donde

en la práctica, en lugar de S, se calcula

» 137

que es el

estimador insesgado de

, luego

por tanto

como

luego

=

es el intervalo del (1- )% para µ cuando (1-

entonces

2

es desconocida, donde

, es el percentil

)% de la distribución t-student con (n -1) grados de libertad.

Ejemplo. La oficina de personal de una empresa está interesada en estimar la cantidad promedio de dinero que se gasta en personal por concepto de comisiones de servicio, en comida, alojamiento y trasporte, dineros que se deben rendir. De las distintas comisiones de servicio que se han efectuado se seleccionó una muestra aleatoria de 15 funcionarios, obteniendo los siguientes valores de gastos rendidos por día (en miles) : 122.5 , 128.2 , 129.5 , 122.2 , 124.8 , 125.4 , 123.7 , 122.5, 124.3 , 122.9 , 122.4 , 128.7 , 126.5 , 128.2 y 120.5. Si se supone que la cantidad de dinero que se gasta diariamente se distribuye aproximadamente normal. Obtener un intervalo de confianza del 95% para el gasto promedio real. Trabajando todos los días del año, estime el gasto anual para el próximo año, tomando el valor superior del intervalo y reajustado en un 4.5%.

138 «

Inferencia

t0.025,14 =2.145

t0.975,14 =2.145

se puede afirmar con un 95% de confianza que el gasto medio varía entre $23.265,2 y $26.374,7. El presupuesto para el año siguiente es $48.202.469,95 Ejercicios. 1.- Se desea estimar el valor promedio mensual de ventas de una empresa en el país. Para ello, se seleccionan aleatoriamente 24 sucursales de distintas regiones, obteniendo la siguiente información de las ventas (en millones de pesos) : 18.5, 17.2, 18.4, 17.8, 13.4, 13.2, 12.6, 11.1, 17.3, 18.2, 12.1, 18.6, 14.4, 15.3, 13.7, 15.4, 16.1, 13.8, 19.7, 13.5, 18.1, 12.7, 14.1 y 13.9. Suponiendo que las ventas se distribuyen normal, construya un intervalo de confianza del 90% para las ventas promedio real de la empresa. R. (14.51;16.25) 2.- Se compran porotos con tocino en conserva para colaciones. El proveedor rotula los tarros indicando que traen 300 gramos de peso neto. Se toma una muestra aleatoria de 20 tarros, se vacía y pesa el contenido, obteniendo los siguientes pesos en gramos: 298.6, 301.2, 298.5, 299.1, 301.2, 302.3, 300.1, 298.4, 298.7, 294.1, 302.1, 301.4, 298.9, 298.6, 299.3, 299.7, 302.5, 301.2, 301.7 y 297.8. Construya un intervalo de confianza del 95% para el peso promedio del contenido neto en los tarros. R. (298.8;300.7) 6.4.2. Precisión en la Estimación por Intervalos de Confianza Cuando se construyen intervalos de confianza para un determinado nivel de significación, es deseable que este intervalo sea lo más angosto posible, que el error de la estimación sea la menor. La precisión para estimar está definida por la expresión : si

2

es conocida, y por

cuando

2

es desconocida

Capítulo 6

» 139

Si n es fijo y se aumenta la confianza (1- ), trae como consecuencia un aumento de la amplitud del intervalo, pero, ello implica construir un intervalo menos preciso. En cambio, si se quiere aumentar la precisión para un determinado nivel de confianza es necesario aumentar el tamaño de n de la muestra, dado que en ambos casos y 6.4.3. Intervalo de Confianza para una proporción Para construir un intervalo de confianza para el parámetro p desconocido de una distribución binomial con n conocido, se considera una muestra aleatoria x1, x2,...,xn , donde:

Sea

, el estimador puntual de p, luego como

el intervalo aproximadamente del (1- )% para una muestra grande está dado por :

140 «

Inferencia

como

=

entonces el intervalo del (1- )% para p está dado por:

Ejemplo. Se recibe un gran cargamento de ampolletas proveniente de un proveedor que asegura que su producción genera un 0.5% de ellas defectuosa. Se selecciona una muestra aleatoria de tamaño 900 de este envío, y se realiza una prueba de encendido, encontrándose 4 de ellas que fallaron. Determine un intervalo de confianza aproximado del 90% para la proporción defectuosa verdadera del proceso.

1 - = 0.90 Z0.05=1.64

con Z0.05 = Z0.975 =1.64

la proporción de defectuosos fluctúa entre el 0,08% y el 0,8%

Z0975 =1.64

Capítulo 6

6.4.4. Intervalo de confianza para

» 141

2

6.4.4.1. Cuando µ es conocida Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución N(µ, 2) , si µ es conocida se sabe que : y que bajo el supuesto de independencia de las xi se tiene que :

el intervalo de confianza del (1- )% para se determina por :

entonces, es el intervalo del (1- )% para

2

cuando µ es conocida está dado por:

o bien

142 «

Inferencia

6.4.4.2. Cuando µ es desconocida Sea x1, x2,...,xn es una muestra aleatoria de tamaño n proveniente de una población con distribución N(u, 2), si µ es desconocida se sabe que : o bien

el intervalo de confianza del (1- )% para se determina en forma análoga al anterior por:

o bien

Ejemplo. Para el problema de gastos del personal en comisiones de servicio, página 164, el intervalo de confianza del 95% para 2 está dado por:

= 0.95

para un nivel de confianza del 95% la desviación estándar estimada varía entre $2.054,77 y $4.430,64.

Capítulo 6

» 143

Ejercicio. Construya un intervalo de confianza del 99% para la varianza del peso neto del contenido de los tarros del ejercicio 2, de la página 125. 6.4.5. Intervalo de confianza para la diferencia de dos promedios µ1 - µ2 Sea x1, x2,...,xm es una muestra aleatoria de tamaño n1 proveniente de una población con distribución N( µ1, 21), y sea y1, y2,...,yn una muestra aleatoria de tamaño n2 proveniente de una población con distribución N( µ2, 22). En un proceso productivo se fabrica una misma pieza en dos plantas distintas, es esperable por tanto que la varianza de la característica a controlar sea la misma, pero desconocida. En general para este tipo de procesos, se debiera asumir que las varianzas en ambas poblaciones es la misma, que puede ser conocida o desconocida. 6.4.5.1. Varianzas iguales conocidas Si se supone que las varianzas

2 1

=

=

2 2

2

sean conocidas. Sean x, y las medias muestrales.

El intervalo de confianza del (1- )% para la diferencia de medias µ1- µ2 para distribuciones normales independientes con igual varianza conocida, está dado por :

Ejercicio. Se sabe que el tiempo medio que demora un laboratorista en realizar un tipo de análisis en cierta máquina se distribuye normal con desviación estándar conocida = 4 minutos. Se realizó un experimento para comparar los tiempos medios que demoran los laboratoristas antiguos (A) respecto laboratoristas nuevos (B), para ello, se toma una muestra aleatoria de 10 antiguos y una muestra de 8 nuevos, midiendo el tiempo en minutos que demoran en efectuar el análisis, obteniendo los siguientes resultados : Tiempos laboratoristas antiguos 5.5 4.8 5.4 4.9 5.1 5.0 5.3 5.2 5.0 4.9 Tiempos laboratoristas nuevos 5.9 4.9 5.5 4.8 5.2 5.0 5.1 5.0

Construir un intervalo de confianza del 95% para estimar la diferencia de los tiempos medios.

144 «

Inferencia

6.4.5.2. Varianzas iguales desconocidas Si se supone que las varianzas 21 = 22 = 2 pero desconocidas, se debe estimar esta sigma desconocida a partir de las desviaciones estándar de cada muestra. Sean x, y las medias muestrales, .S21, .S22 las varianzas muestrales, el intervalo de confianza para μ1 - μ2 está dado por:

donde

es la desviación estándar común

Ejemplo. Se desea comparar la eficiencia de dos técnicas en cuanto al tiempo que demoran en dar el resultado. Para ello se selecciona una muestra aleatoria, a 12 de ellas se les aplica la técnica 1, y, a otras 8 se les aplica la técnica 2. El tiempo en minutos de obtener el resultado de cada técnica se muestra en la siguiente tabla. Construir un intervalo de confianza del 99% para estimar la diferencia de los tiempos medios. Técnica 1 3.5 3.6 3.3 3.4 3.1 3.2 3.4 3.6 3.8 3.0 2.8 3.3 Técnica 2 3.7 3.5 3.4 2.7 3.2 3.8 3.3 3.1

Observación. Más adelante se probará si las varianzas de ambas técnicas son iguales. t0.025, 18 = t0.995,18 = 2.878

Capítulo 6

» 145

Con una certeza del 99% la diferencia entre los tiempos medios varía entre -0.0025 y 0.8109 minutos. 6.4.5.3. Varianzas distintas y desconocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21 y 22 distintas y desconocidas. En estos casos no se conoce la distribución exacta de la diferencia de medias y se realiza una aproximación a través de una distribución t-Student con

el intervalo de confianza para µ1-µ2 del (1- )% está dado por:

Ejemplo. Se realiza un estudio para determinar si hay alguna diferencia en el tonelaje medio de calamares capturados por barcos que utilizan redes de arrastre en comparación con los que utilizan redes de fondo. La información se obtuvo con 12 barcos para cada método Redes arrastre X1 = 5.5 ton S1 = 0.34 ton

Redes de fondo X2 = 5.17 ton S2 = 0.41 ton

Construir un intervalo de confianza de 95% para la diferencia media de captura.

146 «

Inferencia

es el intervalo de confianza del 95% para la diferencia de medias de captura.

6.5. Pruebas de Hipótesis Introducción. Los problemas a los que se enfrenta un investigador, no se refieren sólo a la estimación de un parámetro poblacional, sino, a la formulación de un procedimiento de decisión que a partir de los datos de la muestra le permitan llegar a una conclusión acerca de lo que investiga. Por ejemplo, un investigador puede decidir de acuerdo a la información que dispone, que el hábito de consumir droga aumenta el riesgo social de una localidad; o bien, que el aumento de la variabilidad en un proceso genera una proporción mayor de piezas defectuosas respecto de un valor nominal. Para verificar estas hipótesis se deberá obtener información a partir de datos experimentales y en función de los resultados tomar una decisión en base a ellos. Una Hipótesis Estadística es una afirmación o conjetura acerca de las características de una o más poblaciones. La única forma de verificar una hipótesis estadística es examinando a toda la población o universo, pero, el costo que ello implica desalentaría a cualquier investigador. Por ello, con los datos de una muestra aleatoria proveniente de esta población, se mide en ella la característica de interés y se confirmar o no dicha hipótesis a través de un test estadístico, es decir, una Prueba de Hipótesis es una regla o procedimiento que permite aceptar o rechazar una hipótesis en función de los datos experimentales de la muestra aleatoria extraída. 6.5.1. Hipótesis Nula y Alternativa La estructura de la prueba de hipótesis se formulará utilizando el término Hipótesis Nula, que es la hipótesis que se quiere contrastar en la población, la que se denota por H0. El Rechazo de H0 da como resultado la aceptación de una Hipótesis Alternativa H1. Al probar una hipótesis estadística se pueden presentar las siguientes situaciones: Aceptar H0 Rechazar H0

H0 Verdadera Decisión correcta Error Tipo I

H0 Falsa Error Tipo II Decisión correcta

Se designa por = P(rechazar H0 / H0 es verdadera) a la probabilidad de rechazar H0 siendo que H0 es verdadera y por = P(Aceptar H0 / H0 es falsa) a la probabilidad de aceptar H0 dado que H0 es falsa. 6.5.2. Prueba de Hipótesis para una proporción Suponga que para pegar las etiquetas de identificación de cierto producto se usa un adhesivo A, que es el tradicional y que tiene una efectividad del 96% para cierto período. Suponga que apa-

Capítulo 6

» 147

rece un nuevo adhesivo B el cual se desea comparar con el pegamento tradicional. El adhesivo B se prueba en 1500 productos, ese período, se encuentran 10 de ello con la etiqueta parcialmente despegada y 15 sin etiqueta. ¿Es el nuevo adhesivo más eficaz que el tradicional? Hipótesis de Nulidad H0 : El adhesivo B es igual de efectivo que el adhesivo A Sea p : la proporción de efectividad en la población con el adhesivo B p0 : la proporción de efectividad en la población con el adhesivo tradicional luego

H0 : p = p0 = 96%

Enunciada la hipótesis de nulidad, se debe plantear una hipótesis alternativa, que es la que considera el cambio. Este cambio se puede presentar de distintas formas, por lo que la formulación correcta de esta hipótesis es otro de los aspectos importantes en la prueba, ya que orientará para la construcción de la regla de decisión. Hipótesis Alternativa H1 Dependiendo del conocimiento que se tenga de la variable en estudio, es posible plantear las siguientes hipótesis alternativas: Si se sabe que el nuevo adhesivo ya ha sido probado en otras empresas y se sospecha que es mejor que el tradicional, se puede plantear ˹(1 : p > p0 , es decir, H1 : p > 96% La proporción de eficacia con el adhesivo B es mayor que la del adhesivo tradicional, prueba unilateral a derecha. Si se sabe que el nuevo adhesivo ya ha sido probado en otras empresas y se sospecha que no es mejor que el tradicional, se puede plantear ˹(1 : p < p0 , es decir, H1 : p < 96% La proporción de eficacia con el adhesivo B es menor que la del adhesivo tradicional, prueba unilateral a izquierda. Si no se tiene información respecto del nuevo adhesivo se puede plantear ˹(1 : p ≠ p0 , es decir, H1 : p ≠ 96% La proporción de eficacia con el adhesivo B es distinta que la del adhesivo tradicional. Esta prueba es recomendada cuando no hay un conocimiento anterior del problema que permita enunciar pruebas unilaterales. Es una prueba más conservadora. Observación. También se puede plantear una hipótesis de nulidad usando una desigualdad: ˹ ˹

3I(0 : p < p0 , la hipótesis alternativa es H1 : p > p0 3I(0 : p > p0 , la hipótesis alternativa es H1 : p < p0

148 «

Inferencia

Requisito de similitud

Se debe cautelar que la muestra debe ser aleatoria y representativa de la población en estudio, dado que de esta forma los errores que se puedan producir se deberían exclusivamente al azar de muestreo. En el caso del adhesivo, es necesario que en la muestra estén representados todos los factores que involucren la eficacia del pegamento, como humedad, temperatura, embalaje u otras. Determinación de la Región de Rechazo de la Hipótesis a)

Para H1 : p > p0 , es decir, H1 : p > 96%

Sea = 0.05, se busca en la tabla normal aquel valor que deja un área bajo él de 0.95, encontrando z = 1.64. Este valor de z se llama zcrítico.

0.95

= 0.05 Zcrítico = 1.64 Region de rechazo de H0

Si el valor del estadístico calculado en la muestra es mayor que este zcrítico, se debe rechazar H0, en cambio si el valor calculado es menor, se dice que no existe evidencia para rechazar H0, y que las diferencias observadas son producto del azar del muestreo. b) Para H1 : p < p0 , es decir, H1 : p < 96% Para = 0.05, se busca en la tabla normal aquel valor que deja bajo él de 0.05, encontrando z = -1.64.

= 0.05 0.95 Zcrítico = 1.64 Region de rechazo de H0

Capítulo 6

» 149

Si el valor del estadístico calculado en la muestra es menor que este zcrítico, se debe rechazar H0, en cambio si el valor calculado es mayor, se dice que no existe evidencia para rechazar H0, y que las diferencias observadas son producto del azar del muestreo b)

Para H1 : p p0 , es decir, H1 : p 90%

Como = 0.05 ==> /2 = 0.025, se busca en la tabla normal aquellos valores que dejan un área bajo él de 0.025, y un área por debajo 0.975. Los valores críticos son z = -1.96 y z =1.96

0.025

0.025 0.95 Zcrítico = 1.96

Zcrítico = 1.96

Regiones de rechazo de H0

si el valor del estadístico calculado se encuentra entre -1.96 y 1.96, se dice que no existe evidencia estadísticamente significativa para rechazar H0. Para el ejemplo de los pegamentos, se usará el caso a) y

= 0.05

Estadístico Calculado El estadístico calculado a partir de los datos de una muestra para esta prueba de hipótesis se define por:

donde p : es la proporción de eficacia del adhesivo B en la muestra, p0 : es la proporción de eficacia del adhesivo bajo H0 (96%), n es el tamaño de la muestra, luego

150 «

Inferencia

Conclusión

= 0.05 1

p-value = 0.001515

= 0.95 Zcrítico = 1.64

Region de rechazo de H0

Zcalculado= 2.9646

Como zcal >zcrit , se rechaza H0, es decir, el adhesivo B es significativamente más eficaz que el pegamento tradicional. El área a la derecha del zcal se conoce como p-value y representa la probabilidad que la prueba lleve a rechazar H0, cuando en realidad es verdadera. El p-value de una prueba de significación estadística, es la probabilidad de obtener valores del estadístico de prueba que sean mayores o iguales en magnitud que el estadístico calculado de la prueba. En este ejemplo, que el p-value = 0.001515 significa que habría un 0.15% de probabilidad de encontrar valores calculados superiores a 2.9646. Ejercicio. Se recibe un gran cargamento de un artículo proveniente de un proveedor que asegura que su producción genera un 0.5% de ellos defectuosos. Se selecciona una muestra aleatoria de tamaño 900 de este envío, y se realiza una prueba de funcionamiento, encontrándose 4 de ellos que fallaron. Para un nivel de significación del 5%, ¿qué puede decir respecto de la afirmación del fabricante respecto de la proporción defectuosa que produce el proceso de fabricación?

6.6. Prueba de hipótesis para un promedio 6.6.1. Varianza conocida

Sea x1, x2, ... , xn una muestra aleatoria de tamaño n proveniente de una distribución normal N(µ, 2) donde 2 es conocida. Si se define la hipótesis de nulidad H0 : μ = μ0 , se pueden tener tres posibles hipótesis alternativas: H1 : μ < μ0

ó

H1 : μ > μ0

ó H1 : μ ≠ μ0

En cambio, si se define H0 : μ ≤ μ0 la hipótesis alternativa será H0 : μ > μ0 ; ó si se define H0: μ ≥ μ0 la hipótesis alternativa será.

Capítulo 6

» 151

El estadístico calculado de la prueba está dado por:

dependiendo del valor de este zcalculado respecto del valor crítico, o los valores críticos, se determinará si se rechaza o no la hipótesis de nulidad H0.

Ejemplo. Se sabe que en cierta carretera la velocidad a la que conducen los automovilistas se distribuye normal con media 100 km/h y desviación estándar de 10 km/h. Para determinar si la velocidad promedio está aumentando, se registró la velocidad en forma aleatoria de 50 conductores encontrando una velocidad promedio de 102.5 km/h con una desviación estándar de 11 km/h. ¿Qué puede concluir con esta información? Use =0.05 Hipótesis de trabajo

: H0 : μ = μ0 100 km/h H1 : μ > μ0 100 km/h

para un nivel de significación =0.05, la región de rechazo de H0

= 0.05 1

= 0.95 Z0.95= zcrítico = 1.64

Region de rechazo de H0

Requisito de similitud : La muestra es aleatoria y representativa de la población Cálculo del estadístico El estadístico calculado a partir de la muestra

Conclusión. Como zcal >zcrit , se rechaza H0, es decir, la velocidad promedio de los automovilistas es superior a 100 km/h, p-value=0.039204.

152 «

Inferencia

6.6.2. Varianza desconocida Sea x1, x2, ... , xn una muestra aleatoria de tamaño n proveniente de una distribución normal N(µ, 2) donde 2 es desconocida, el estadístico calculado de la prueba está dado por:

donde

es el estimador insesgado de .

Si se define la hipótesis de nulidad H1 : μ = μ0 , al igual que en la prueba anterior, se pueden tener tres posibles hipótesis alternativas: H1 : μ < μ0

ó

H1 : μ > μ0

ó H1 : μ ≠ μ0

Si se define H0 : μ ≤ μ0 la hipótesis alternativa será H0 : μ > μ0 ; ó si se define H0 : μ ≥ μ0 la hipótesis alternativa será H0 : μ > μ0 Ejemplo. Un fabricante de cuerdas ha desarrollado un nuevo material sintético, y afirma que tiene una resistencia a la ruptura de 100 kg. Si se toma una muestra aleatoria de 24 cuerdas y se encuentra que tienen una ruptura media de 102 kg con una desviación estándar de 5 kg. Suponiendo que la resistencia a la rotura se distribuye aproximadamente normal, para un nivel de significación de =0.01, ¿qué puede concluir respecto de la afirmación del fabricante respecto de la resistencia a la ruptura? Hipótesis de trabajo H0 : µ = μ0= 100 kg versus H1 : µ ≠ μ0 100 kg Para un nivel de significación: = 0.01 ==> en al figura.

= 0.005, las regiones de rechazo de H0 se muestra

= 0.005

= 0.005 1 - = 0.99

t0.005;23= t crítico = -2.58

t0.995:23= t crítico = 2.58

Capítulo 6

» 153

Requisito de similitud: Se supone que la muestra es aleatoria y representativa de la población. Prueba de hipótesis

Conclusión. Como -tcrít < tcal < tcrít , no existe evidencia estadística para rechazar H0. Es decir, lo afirmado por el fabricante es correcto. Ejercicios. 1.- Se toma una muestra aleatoria de 100 muertos por accidentes de tránsito, encontrando que la edad promedio de los fallecidos es x= 18 años con una desviación estándar de 2 años. Suponiendo que la edad de los fallecidos se distribuye aproximadamente normal, ¿parecería indicar que la edad promedio de los fallecidos es mayor que 18 años? 2.- Un fabricante de baterías para radiotransmisores afirma que sus baterías tienen una carga útil media de 12 horas. El departamento de adquisiciones se interesa en comprar estas baterías siempre que la carga útil media no sea inferior a lo afirmado por el fabricante. Para tomar una decisión el departamento compra en forma anónima 15 baterías y las utilizó en forma experimental hasta que se agotó su carga útil, obteniendo una carga útil media de 11.5 horas con una desviación estándar S*=1.5 horas. Suponiendo que la duración de la carga tiene una distribución aproximadamente normal, ¿Qué decisión debe tomar el departamento de adquisiciones si utiliza un nivel de significación del 5%?

6.7. Prueba de hipótesis respecto de la Varianza En todos los procesos industriales de fabricación de partes y piezas, se requiere que la media del proceso se ajuste al valor nominal definido, que la proporción de piezas defectuosas que se fabrique sea menor a un valor p0, para ello, se requiere que la varianza del proceso se mantenga lo más cercano a su valor 20, por ello, se requiere que se verifique esta hipótesis respecto de la varianza. 6.7.1. Prueba para una varianza Sea x1, x2, ... , xn una muestra aleatoria de tamaño n proveniente de una distribución normal N(µ, 2) donde 2 es desconocida. Al igual que en las pruebas de hipótesis para una media o una proporción, existen varias opciones para plantear la prueba: i) Si H0 :

2

=

2 0

se tiene tres posibles hipótesis alternativas.

154 «

Inferencia

a) H1 :

2

<

2 0

b) H1 :

2

>

2 0

c) H1 :

2



2 0

Capítulo 6

i) Si H0 :

2

ii) Si H0 :

< 2



2 0

, la hipótesis alternativa está dada por H1 :

2 0

, la hipótesis alternativa está dada por H1 :

2

>

2

<

» 155

2 0 2 0

Ejemplo. Un fabricante de envases para bebidas asegura que sus botellas tienen un volumen con distribución normal N(µ=1000 cm3, 2 =0,09 cm3). Se toma una muestra aleatoria de tamaño 30 de estos envases y se obtiene un promedio de 999,87 cm3 con desviación estándar *S=0.45 cm3. ¿Qué se puede concluir respecto de lo afirmado por el fabricante? = 0.05 Si lo afirmado por el fabricante fuera correcto respecto a que el volumen se distribuye normal, se tiene que la distribución del volumen promedio de cada botella será: x ~

Para verificar la veracidad de lo afirmado por el fabricante respecto de la media, primero se debe realizar una prueba de hipótesis respecto de si la varianza es conocida o no, ya que de ello dependerá si se debe usar una distribución normal o una t-Student. Sea H0:

2

=

=0.09 (cm3)2 versus H1:

2 0

2



=0.09 (cm3)2

2 0

El estadístico de esta prueba está dado por

~ Para un nivel de significación del 5%, se tiene que la región de rechazo de H0 está dada por:

1 - = 0.95

156 «

Inferencia

el estadístico calculado está dado por:

como > se rechaza H0, por tanto, el valor de la varianza dada por el fabricante no es válida, por lo cual, para verificar la veracidad respecto de la media, se debe realizar la prueba con una distribución normal de varianza desconocida, lo que queda como ejercicio. Ejemplo. Suponga que el espesor de una placa de un circuito es una dimensión crítica. El proceso de producción de ellas se distribuye normal con una desviación estándar de 0.5 milímetros. Para controlar el proceso se toman muestras de tamaño 20, se define un límite de control con base a una probabilidad de 0.01 que la varianza muestral exceda de este límite, si el proceso está bajo control. ¿Qué se puede concluir si para una muestra dada de tamaño 20 la desviación estándar es 0.87 milímetros? Como la variable aleatoria es se debe verificar que:

Sea H0 :

2

=

, si se denota por LCS al límite de control superior,

=0.25 (milímetros)2 versus H1 :

2 0

2

>

=0.25 (milímetros)2

2 0

= 0.01 1

este valor

= 0.99

, debe satisfacer la desigualdad:

Capítulo 6

» 157

El criterio de decisión se puede expresar de dos formas: a) Obtener el valor de como > la muestra no proviene de un proceso con una desviación estándar de 0.5 milímetros (o varianza 2=0.25 milímetros2).

b) O bien, verificar si, pero como *S2 = (0.87)2 = 0.7569 > 0.47618, se llega a la misma conclusión, que la muestra tomada no proviene de una población normal con desviación estándar de 0.5 milímetros. Ejercicio. Un fabricante de baterías para teléfonos móviles afirma que sus baterías duran, en promedio 4 días con una desviación estándar de 0.5 días. Si diez de sus baterías tienen duraciones de 3.8, 3.9, 3.7, 4.3, 3.6, 4.1, 4.2, 4.5, 3.9 y 4.2 días, puede asegurarse que las baterías tiene una duración con desviación estándar de 0.5 día?. Suponga que la duración de las baterías sigue una distribución normal. Use = 0.05. 6.7.2. Prueba para dos varianzas Sean x1, x2, ... , xn , y1, y2, ... , ym dos muestras aleatorias de tamaño n y m provenientes de dos distribuciones normales con medias µx y µy con varianzas desconocidas 2x y 2y.

1

1

158 «

Inferencia

igualando los términos se tiene que:

La hipótesis que permita determinar si las varianzas de ambas muestras son iguales está dada por: H0 :

2 x

con las hipótesis alternativas a) H1 :

= 2 x

2 y

<

2 y

, b) H1 :

2 x

>

2 y

, c) H1 :

2 x



2 y

Si las varianzas muestrales son *S2x y *S2y , las expresiones *

y

*

son variables aleatorias independientes distribuidas pectivamente, la variable aleatoria:

con (n-1) y (m-1) grados de libertad res-

* *

tiene distribución F de Snedecor o Snedecor-Fisher con (n-1) y (m-1) grados de libertad, pero bajo la hipótesis nula 2x = 2y, este estadístico F se reduce a: * *

Ejemplo. Un ingeniero de producción afirma que existe diferencia en la variabilidad de una pieza dependiendo si se fabrica en la planta A o en la planta B. Para verificar esta suposición, se toman muestras aleatorias de 16 piezas de la planta A y 13 piezas de la planta B, obteniendo los siguientes resultados respecto de las varianzas: S2A = 31.2 y S2B = 36.5 , suponiendo que los procesos tienen distribución aproximadamente normal, para un nivel de significación del 5%, ¿qué se puede concluir respecto de lo afirmado por el ingeniero de producción? La hipótesis de nulidad y alternativa son: H0 :

2 A

=

2 B

; H1 :

2 A



2 B

Capítulo 6

» 159

las regiones de rechazo de H0 están dadas por:

1

Como < Fcalculado = 0.8547 < , no existe evidencia estadísticamente significativa para rechazar H0, luego, lo afirmado por el ingeniero no es verdadero.

6.8. Prueba de hipótesis para dos medias 6.8.1. Varianzas iguales conocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21= 22 = 2 conocidas. La hipótesis para la igualdad de dos medias se expresa por: H0 : μ1 = μ2 o

H0 : μ1 - μ2 = 0

y las hipótesis alternativas por : H1 : μ1 = μ2 o H1 : μ1 = μ2 o H1 : μ1 = μ2 o el estadístico a calcular está dado por :

pero bajo H0 se tiene que μ1 - μ2 = 0 , luego.

H1 : μ1 - μ2 < 0 ó H1 : μ1 - μ2 > 0 ó H1 : μ1 - μ2 ≠ 0

160 «

Inferencia

Ejemplo. Se sabe que el tiempo medio que demora un funcionario en realizar cierto tipo de procedimiento se distribuye normal con desviación estándar conocida = 4 minutos. Se realizó un experimento para comparar los tiempos medios que demoran funcionarios antiguos (A) respecto funcionarios nuevos (B), para ello, se toma una muestra aleatoria de 10 funcionarios antiguos y una muestra de 8 funcionarios nuevos, midiendo el tiempo que demoran en efectuar el procedimiento en minutos, obteniendo los siguientes resultados: Tiempos funcionario antiguos 4,70 4,80 4,90 5,00 5,15 5,16 5,20 5,30 5,40 5,50 4,80 4,97 5,10 5,12 5,19 5,23 5,55 5,90 Tiempo funcionarios nuevos Para un nivel de significación del 5%, ¿se puede afirmar que los funcionarios antiguos en promedio demoran menos tiempo en efectuar el procedimiento que los funcionarios nuevos? H0 : μ1 = μ2 o

H0 : μ1 - μ2 < 0 y H1 : μ1 < μ2 o

H1 : μ1 - μ2 < 0

para

Zcrítico= -1.96

Zcrítico= -1.96 Regiones de rechazo de H0

luego, como –zcrítico < zcalculado < zcrítico, no existe evidencia estadísticamente significativa para rechazar H0. 6.8.2. Varianzas iguales desconocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21= 22 = 2 desconocidas. La hipótesis para la igualdad de dos medias se expresa por:

Capítulo 6

H0 : μ1 = μ2 o

» 161

H0 : μ1 - μ2 = 0

y las hipótesis alternativas por : H1 : μ1 < μ2 o H1 : μ1 > μ2 o H1 : μ1 ≠ μ2 o

H1 : μ1 - μ2 < 0 ó H1 : μ1 - μ2 > 0 ó H1 : μ1 - μ2 ≠ 0

el estadístico a calcular está dado por :

pero bajo H0 se tiene que μ1 - μ2 = 0, luego

con = n1 + n2 - 2 grados de libertad, donde Ejemplo. En la preparación de una mezcla de cemento se utilizan dos químicos A y B para acelerar el fraguado. Para determinar si existe diferencia entre los tiempos medios de fraguado, se selecciona una muestra aleatoria de 10 mezclas con las que se usa el químico A, y en otras 10 mezclas se usa el químico B. Los tiempos en minutos de fraguado se muestran en la siguiente tabla: Químico A Químico B

45.5 45.8 45.6 45.9 45.3 45.4 45.2 45.7 46.1 46.0 45.7 46.1 45.8 45.9 45.7 45.6 46.2 45.8 45.6 45.7

Suponiendo que el tiempo de fraguado se distribuye aproximadamente normal, con esta información ¿habría evidencia para afirmar que existe diferencia entre el tiempo medio de fraguado dependiendo del químico? Use =0.05 H0 : μ1 = μ2 o H0 : μ1 - μ2 = 0 H1 : μ1 ≠ μ2 o H1 : μ1 - μ2 ≠ 0 tcritico = | t18, 0.025 | = 2.101

162 «

Inferencia

1 - = 0.95

= 0.025 t18 , 0.025= -2.101 t18 , 0.975 = 2.101 Regiones de rechazo de H0

por tanto

como tcalculado < -tcrítico, se rechaza H0, es decir, existe evidencia estadística para indicar que los tiempos medios de fraguado difieren dependiendo del químico que se utilice. Ejercicios 1.- Se realizó una campaña publicitaria para aumentar las ventas de una cerveza sin alcohol. Para probar si la campaña dio resultado se entrevistaron 10 clientes antes del inicio de la campaña y se les preguntó cuantas unidades del producto compraban a la semana, y posteriormente a la campaña a otros 10 clientes, obteniendo los siguientes resultados respecto del número de unidades que compraban a la semana: Antes de la campaña Después de la campaña

1 2

2 2

1 3

3 4

2 3

3 3

1 2

2 2

1 3

2 3

Para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la campaña fue exitosa? 2.- Se desea comparar como son las predicciones del incremento en el producto nacional bruto, PNB, para el próximo año hechas por agentes de bolsa y analistas de gobierno. En la tabla se muestran las predicciones (en porcentajes) de ocho agentes de bolsa y de seis analistas de gobierno, seleccionados aleatoriamente. 3.6 3.5 3.7 3.6 3.4 3.9 3.7 3.5 Agentes de bolsa Analistas de gobierno 3.8 4.1 4.2 4.3 3.8 3.6

Capítulo 6

» 163

¿Proporciona esta información evidencia suficiente que indique una diferencia en el incremento medio pronosticado para el PNB, hechas por agentes de bolsa y analistas de gobierno? Use = 0.05 6.8.3. Varianzas distintas desconocidas Sean X1 y X2 dos muestras aleatorias independientes de tamaños n1 y n2 provenientes de dos poblaciones normales con medias µ1 y µ2, y varianzas 21 y 22 desconocidas. La hipótesis para la igualdad de dos medias se expresa por: H0 : μ1 = μ2

o

H0 : μ1 - μ2 = 0

H1 : μ1 < μ2 H1 : μ1 > μ2 H1 : μ1 ≠ μ2

o o o

H1 : μ1 - μ2 < 0 H1 : μ1 - μ2 > 0 H1 : μ1 - μ2 ≠ 0

las hipótesis alternativas por

En estos casos, no se conoce la distribución exacta de la diferencia de medias y se realiza una aproximación a través de una distribución t-Student

Para el ejemplo de la captura de calamares por barcos que utilizan redes de arrastre en comparación con los que utilizan redes de fondo, página 132. Se tenía la información de 12 barcos para cada método. Para un nivel de significación del 5%, qué se puede concluir? Redes de fondo

Redes de arrastre

S1 = 0.34 ton

S2 = 0.41

H0 : μ1 = μ2 H1 : μ1 < μ2

o o

H0 : μ1 - μ2 = 0 H1 : μ1 - μ2 < 0

164 «

Inferencia

Como el estadístico calculado pero, bajo H0 se tiene que μ1 - μ2 = 0 , luego

reemplazando se tiene que:

para un nivel de significación del 5%, el valor crítico es tcrítico = t0.05,21= - 1.721, luego, como tcalculado < tcrítico se rechaza H0. Se puede afirmar que el tonelaje de captura por arrastre es mayor que si se usa redes de fondo.

6.9. Dócima para dos Proporciones Dadas dos poblaciones de tamaños n1 y n2, con E1 éxitos la primera, y E2 éxitos la segunda. La hipótesis de nulidad es: H0 : p1 = p2

o

H1 : p1 - p2 = 0

o o o

H1 : p1 - p2 < 0 H1 : p1 - p2 > 0 H1 : p1 - p2 ≠ 0

y las posibles hipótesis alternativas H1 : p1 < p2 H1 : p1 > p2 H1 : p1 ≠ p2

el estadístico de esta prueba está dado por:

con

y

Capítulo 6

» 165

Ejemplo. Un estudio en una empresa que fabrica polines en dos plantas, éstos tienen una pequeña desviación respecto de su eje de diseño. En la planta A se detecta que 131 polines tienen la desviación de un total de 468, en la planta B de un total de 237 polines 57 tienen el defecto. ¿Se puede concluir que existe una diferencia en la proporción de defectuosos que se producen en las dos plantas? Use =0.05

H1 : pA = pB H1 : pA ≠ pB = 0.025

= 0.025 0.95 Z0.025= 1.96

Z0.025= 1.96

como

por tanto, no existe evidencia estadísticamente significativa para rechazar H0, es decir, no existe evidencia para suponer que los defectos de los polines dependen de la planta en que se produce.

6.10. Muestras pareadas Existen muchas situaciones prácticas, en la que se requiere conocer más de una característica por unidad de observación, por lo cual, por cada unidad de observación se tendrá un vector de variables respuestas. Si se observan dos características de interés por cada unidad de estudio, se dice que se tiene una muestra pareada. El análisis de esta última información requiere de una metodología diferente a la ya desarrollada para muestras independientes. Por ejemplo, si se realiza un estudio para determinar el grado en que el aspirar un producto volátil en el puesto de trabajo, influye en la destreza de los trabajadores en el ensamblado de un producto. Se diseña un experimento y se seleccionan al azar 15 voluntarios de distintas características que ensamblen el producto, sin aspirar el volátil y aspirándolo, se cuenta en cada caso el número de errores que cometen en el ensamble. Al realizar este experimento se obtienen un vector con la información del número de errores de ensamble con o sin aspirar el volátil, que la siguiente tabla: Trabajador i Errores sin aspirar xi Errores con aspirar yi

1 10 15

2 12 11

3 17 18

4 11 11

5 10 17

6 14 19

7 16 17

8 15 16

9 13 15

10 12 13

166 «

Inferencia

para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la inhalación del volátil incrementa el número de errores en los ensambles? H0 : μX = μy

y

H1 : μX < μy

para = 0.05 con = n - 1 = 9 grados de libertad, se tiene :

t9 , 0.05= 1.833 Región de rechazo de H0

Para aplicar esta prueba de hipótesis, se define la variable diferencia d1 = xi - yi d1 = xi - yi

-5

1

-1

0

-7

-5

-1

-1

-2

-1

se obtiene que d = - 2.2 y S* d = 0.2573 , y se utiliza el estadístico luego como tcal < tcrit , se rechaza H0, es decir, el aspirar el volátil por parte de los trabajadores favorece el aumento de errores en el ensamblado, p-value=0.003436. Ejercicios resueltos 1.- Un fabricante de rodamientos desea estimar el diámetro medio externo del producto. Durante el proceso de fabricación mide el diámetro en milímetros de 18 de ellos seleccionados aleatoriamente. Los diámetros obtenidos son 20.8, 21,1, 20.5, 21.3, 21.6, 20.9, 21.2, 22.2, 22.3, 20.6, 20.8, 21.1, 23.4, 22.6, 21.7, 20.8, 20.3, y 20.7. Suponga que los diámetros en el proceso de fabricación se distribuyen aproximadamente normal con desviación estándar 0.35 milímetros. Construir un intervalo de confianza estimado del 95% para el valor real del diámetro promedio de los rodamientos.

Capítulo 6

= 0.025

» 167

= 0.025 1 - = 0.95

z0.0.25 = -1.96

z0.0.25 = -1.96

se puede afirmar con un 95% de confianza que el diámetro medio de los rodamientos varía entre 21,166 y 21,490 milímetros. 2.- Una empresa está interesada en estimar la cantidad promedio de dinero que se gasta en material fungible diariamente. De los gastos diarios que se han efectuado se seleccionó una muestra aleatoria de 20 de ellos, obteniendo los siguientes valores por día (en miles) : 132.5 , 148.2 , 139.5 , 132.2 , 134.8 , 141.4 , 133.7 , 132.5, 134.3 , 132.9 , 140.4 , 138.7 , 129.5 , 131.2 , 133.5, 133.8, 134.1, 134.2, 133.8 y 132.5. Si se supone que la cantidad de dinero que se gasta por día se distribuye aproximadamente normal. Obtener un intervalo de confianza del 99% para el gasto promedio real. Trabajando todos los días del año, estime el gasto anual para el próximo año, tomando el valor superior del intervalo y reajustado en un 3,5%.

= 0.005

= 0.005 1 - = 0.99

t0.005 , 19 = -2.861

t0.995 , 19 = 2.861

se puede afirmar con un 99% de confianza que el gasto medio varía entre $132382.17 y $137977.82. El presupuesto para el año siguiente será de $52124570.95

168 «

Inferencia

3.- Se recibe un gran cargamento de ampolletas proveniente de un proveedor que asegura que su producción genera un 0.5% de ellas defectuosa. Se selecciona una muestra aleatoria de tamaño 900 de este envío, y se realiza una prueba de encendido, encontrándose 4 de ellas que fallaron. Determine un intervalo de confianza aproximado del 90% para la proporción defectuosa verdadera del proceso.

= 0.05

= 0.05 1 - = 0.95

z0.05 = -1.64

z0.975 = 1.64

la proporción de defectuosos fluctúa entre el 0,08% y el 0,8%, lo que es equivalente a decir, que la proporción de ampolletas buenas varía entre un 99.192% y un 99.919% 4.- En una planta se utilizan dos máquinas distintas para producir una misma pieza, se cree que existe diferencia en tiempo en minutos para producirlas. Para verificar lo afirmado, el jefe de producción mide el tiempo en forma aleatoria, de producir 10 piezas de la máquina 1, y a 8 piezas de la máquina 2. El tiempo en minutos de fabricación de las máquinas se muestra en la tabla. a) Construir un intervalo de confianza del 99% para estimar la diferencia de los tiempos medios. Máquina 1 Máquina 2

7.5 7.6 7.3 7.4 7.1 7.2 7.4 7.6 7.8 7.5 7.7 7.5 7.4 6.7 7.2 7.8 7.3 7.1

Capítulo 6

» 169

b) Realice una prueba de hipótesis para verificar que las varianzas de ambas técnicas son iguales Solución a) |t0.025 , 18 | = t0.995 , 16 = 2,878

Con una certeza del 99% la diferencia entre los tiempos medios varía entre -0.28046 y 0.48046 minutos. 5.- Suponga que para unir dos piezas metálicas se usa una soldadura A que es la tradicional que tiene una efectividad del 97% a la torsión. Aparece en el mercado una nueva soldadura y se desea comparar su eficiencia respecto de la tradicional. La nueva soldadura se prueba en 1750 uniones de las cuales 35 no resistieron a la torsión. ¿se puede afirmar que la nueva soldadura es más eficiente que la tradicional a un nivel de significación del 95%? H0 : Ambas soldaduras son igualmente eficientes

H0 : p = p0 = 0.97

versus H1 : p > p0 =0.97 La proporción de eficacia de la nueva soldadura es mayor a la tradicional, prueba unilateral a derecha. Para = 0.05, zcrítico = 1.64

1 - = 0.95

= 0.025

zcrit = 1.64 Región de rechazo de H0

zcalculado = 2.452

Como zcal >zcrit , se rechaza H0, es decir, la nueva soldadura es más eficiente que la tradicional.

170 «

Inferencia

6.- Un fabricante de cuerdas ha desarrollado un nuevo material sintético, y afirma que tiene una resistencia a la ruptura de 150 kg. Si se toma una muestra aleatoria de 24 cuerdas y se encuentra que tienen una ruptura media de 152 kg con una desviación estándar de 5 kg. Para un nivel de significación de =0.01, ¿qué puede concluir respecto de la afirmación del fabricante respecto de la resistencia a la ruptura? H0 : μ = 150 kg

versus

Para un nivel de significación: = 0.01

H1 : μ ≠ 150 kg

= 0.005:

= 0.005

= 0.005 1 - = 0.99 t0.005;23 = tcrít = -2.58

t0.995;23 = tcrít = 2.58

Requisito de similitud: Se supone que la muestra es aleatoria y representativa de la población.

como -tcrít < tcal < tcrít , no existe evidencia estadística para rechazar H0.

7.- Un fabricante de envases para jabón asegura que sus botellas tienen un volumen con distribución normal N(µ=250 cm3, 2 =0,05 (cm3)2). Se toma una muestra aleatoria de tamaño 25 de estos envases y se obtiene un promedio de 249.99 cm3 con desviación estándar *S=0.25 cm3. ¿Qué se puede concluir respecto de lo afirmado por el fabricante? Use =0.05. Para verificar la veracidad de lo afirmado por el fabricante respecto de la media, primero se debe realizar una prueba de hipótesis respecto de si la varianza es conocida o no, ya que de ello dependerá si se debe usar una distribución normal o una t-Student. Sea H0 : 2 = 20=0.05 (cm3)2 versus H1 : 2 ≠ 20=0.05 (cm3)2 El estadístico de esta prueba está dado por ~

Capítulo 6

» 171

Para un nivel de significación del 5%, se tiene que la región de rechazo de H0 está dada por

= 0.025

= 0.025 2 0.025,24

1

= 0.95

=12.4

2 0.025,24

=12.4

luego como 20.025,24=12.4 < 2calculado=30.0 < 20.975,24= 39.38 no existe evidencia para rechaza H0, por tanto, el valor de la varianza dada por el fabricante es válida, por lo cual, para verificar la veracidad respecto de la media, se debe realizar la prueba con una distribución normal de varianza conocida, =0.05. Sea H0 : µ = µ0 = 250 cm3 versus H1 : µ ≠ µ0

= 0.025

= 0.025 1 - = 0.95

Z0.025= -1.96

Z0.975= 1.96

como -zcrít < zcal < zcrít , no existe evidencia estadística para rechazar H0.

8.- Una empresa que fabrica resortes en dos plantas, éstos tienen un pequeño defecto de diseño. Se toma una muestra de 550 resortes de la planta A se detectan que 12 con el defecto, En la planta B de un total de 320 resortes 8 tienen el defecto. ¿Se puede concluir que existe una diferencia en la proporción de defectuosos que se producen en las dos plantas? Use =0.05

172 «

Inferencia

H0 : pA = pB H1 : pA ≠ pB

1

= 0.95

z0.025 = - 1.96

z0.975 = 1.96

como

por tanto, no existe evidencia estadísticamente significativa para rechazar H0, es decir, no existe evidencia para suponer que los defectos de los resortes dependen de la planta en que se fabriquen. 9.- Se realiza un estudio para determinar el grado en que el aspirar un producto volátil en el puesto de trabajo, influye en la destreza de los trabajadores en el ensamblado de un producto. Se diseña un experimento y se seleccionan al azar 15 voluntarios de distintas características que ensamblen el producto, sin aspirar el volátil y aspirándolo, se cuenta en cada caso el número de errores que cometen en el ensamble. Al realizar este experimento se obtienen un vector con la información del número de errores de ensamble con o sin aspirar el volátil, que muestran en la siguiente tabla: Trabajador

i

Errores sin aspirar xi Errores con aspirar yi

1

2

3

4

5

6

7

8

9

10

10 15

12 11

17 18

11 11

10 17

14 19

16 17

15 16

13 15

12 13

para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la inhalación del volátil incrementa el número de errores en los ensambles? H0 : μx y H1 : μx < μy para = 0.05 con = n - 1 = 9 grados de libertad, se tiene :

t9, 0.05= -1.833 Región de rechazo de H0

Capítulo 6

» 173

Para aplicar esta prueba de hipótesis, se define la variable diferencia di = xi - yi di = xi - yi

-5

1

-1

0

-7

-5

-1

-1

-2

-1

se obtiene que d = -2.2 y S*d = 0.2573 , y se utiliza el estadístico

luego

como tcal < tcrit , se rechaza H0, es decir, el aspirar el volátil por parte de los trabajadores favorece el aumento de errores en el ensamblado. 10.- Se tienen dos tipos de combustible diesel, con el tipo A el promedio de kiló-metros por litro recorridos por 5 camiones de las mismas características fue 9.6 km/l con una desviación estándar de 0,35 km/l. Para los mismos camiones con el diesel B el promedio de kilómetros recorridos por litro fue 9.4 km/l con una des-viación estándar de 0,37 km/l. Para un nivel de significación del 5%, verificar si el diesel B tiene menor rendimiento que el diesel A. Suponga que los rendimientos en km/l con ambos diesel se distribuyen aproximadamente normal. Al ser las varianzas desconocidas, se debe verificar si éstas son iguales o distintas, para ello, la hipótesis de nulidad y alternativa son: H0 :

2 B

=

2 A

; H1 :

2 B



2 A

las regiones de rechazo de H0 están dadas por:

= 0.025 = 0.025

1

= 0.95

174 «

Inferencia

no existe evidencia para rechazar H0, luego, se supone que las varianzas son iguales desconocidas. H0 : μB = μA H1 : μB < μA

o H0 : μB - μA = 0 o H1 : μB - μA < 0

= 0.05 tcrítico = t8, 0.05=- 1.86 Región de rechazo H0

por tanto

como tcrítico < tcalculado, no existe evidencia para rechazar H0, es decir, ambos diesel tienen el mismo rendimiento menor. Ejercicios propuestos 1.- Un fabricante desea comparar el tiempo de proceso de armado común para uno de sus productos con un nuevo proceso que supuestamente reduce el tiempo de armado. Se seleccionaron 8 trabajadores al azar y se les pidió que armaran las unidades con ambos procesos. En la tabla se muestran los tiempos observados en minutos para cada trabajador: Trabajador i Proceso Actual Proceso Propuesto

1 48 40

2 42 42

3 51 44

4 45 47

5 52 45

6 42 36

7 55 48

8 47 42

Asumiendo que la distribución del tiempo de armado se distribuye normal, para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que el nuevo proceso es mejor que el actual, en cuanto a reducir el tiempo de armado?

Capítulo 6

» 175

2.- Una cadena de supermercados ha realizado una campaña publicitaria para intentar aumentar las ventas de un nuevo producto. Para probar de la publicidad se entrevistó a 8 clientes antes y después de la campaña que indicaran el número de unidades que compraban de dicho producto al mes. En la tabla se muestra el número de productos comprados por cada cliente: Antes de la campaña Después de la campaña

5 6

7 7

4 5

6 7

5 5

4 5

8 9

6 7

Para un nivel de significación del 5%, ¿existe evidencia estadística para afirmar que la campaña consiguió incrementar las ventas de dicho producto? 3.- Se relaciona muchas veces un incremento en la proporción de ahorros de los consumidores a la falta de confianza en la economía, y se dice que ello es un indicador de una tendencia de recesión económica. Una muestra aleatoria de 200 cuentas de ahorro de una localidad mostró un incremento medio en los valores de las cuentas de 8.5% en los últimos 12 meses y una varianza del 20,25%. Estime el promedio del aumento porcentual en las cuentas de ahorros en los últimos 12 meses para ahorrantes de ésta localidad, use = 0.05 4.- En un proceso de fabricación de una biela se mide el diámetro interno del conducto donde se inserta el pasador de seguridad. Para estimar los parámetros del proceso, se toma una muestra aleatoria de tamaño 18, obteniéndose los siguientes diámetros en milímetros: 14.09, 14.07, 14.09, 14.06, 14.01, 14.04, 14.07, 14.02, 14.04, 14.08, 14.06, 14.04, 14.02, 14.01, 14.07, 14.06, 14.01 y 14.03. Si se supone que los diámetros tienen una distribución aproximadamente normal. a) Construya un intervalo del 99% para el diámetros promedio interno del conducto b) Realice una dócima para verificar si el diámetro promedio interno es de 14 milímetros. Use = 0.01 . c) Realice una dócima para verificar si la varianza es 0.00075 (milímetros)2 . Use = 0.01 . 5.- El administrador de una cooperativa agrícola sospecha que las bolsas de desinfectante de 1500 gramos que está adquiriendo tienen un peso inferior al especificado. Se selecciona una muestra aleatoria de 15 bolsas, se vacía y pesa el contenido neto, obteniendo la siguiente información: 1496.9, 1501.7, 1496.8, 1495.4, 1496.2, 1501.6, 1495.2, 1497.5, 1496.8, 1501.6, 1494.8, 1495.5, 1499.4, 1496.2, y 1501.7. Para un nivel de significación del 5%, qué puede concluir respecto de lo afirmado por el administrador? 6.- Una compañía quiere estimar el tiempo medio entre las ocurrencias de accidentes del personal durante las horas de trabajo, que podrían generar demandas por responsabilidad de la empresa. De las bases de datos de la empresa, se toma una muestra aleatoria de 21 accidentes para el período de tiempo de días entre un accidente y el anterior. Obteniendo la siguiente información : 21, 24, 27, 30, 23, 31, 28, 30, 27, 29, 27, 28, 31, 30, 28, 31, 29, 28, 31, 28 y 22.

176 «

Inferencia

Determine el intervalo de confianza del 95% para el tiempo medio entre las ocurrencias de accidentes del personal, con la posibilidad de demandas por responsabilidad 7.- La oficina de cobranzas de una empresa comercializadora sabe que el 1,8% de los documentos a plazo que le entregan no los podrán cobrar. La oficina probó un sistema de verificación de éste tipo de documentos para reducir las pérdidas por no cobrar. De una muestra aleatoria de 460 documentos 7 de ellos no se pudieron cobrar. Para un nivel de significación del 5%, que puede decir respecto de la efectividad de la verificación de los documentos? 8.- Una empresa distribuidora de productos electromecánicos desea determinar si el precio promedio de las ventas al público de cierta máquina sobrepasa los M$230. Se selecciona una muestra aleatoria de 20 tiendas y se registran los precios de lista de éste producto, los precios en M$ obtenidos son: 223, 225, 236, 241, 239, 223, 240, 242, 227, 229, 225, 231, 245, 228, 225, 223, 239, 227, 246 y 240. Suponiendo que los precios se distribuyen aproximadamente normal a) Construya un intervalo de confianza del 95% para la media del precio b) Construya un intervalo de confianza del 95% para la desviación estándar del precio c) Para un nivel de significación del 5%, qué puede concluir respecto de lo supuesto por la empresa? 9.- Se desea estimar la tensión a la ruptura media de una piola trenzada de alambre de cobre. Para ello se mide las tensiones de ruptura, en kilos. Se seleccionan aleatoriamente 17 de dichas piolas. Obteniendo las siguientes tensiones de ruptura: 142.8, 144.6, 142.7, 141.8, 142.3, 141.7, 141.9, 142.5, 143.2, 142.3, 142.5, 141.6, 141.7, 141.3, 141.7, 142.1 y 142.8. Supóngase que la tensión a la ruptura de la piola se distribuye aproximadamente normal. Determine el intervalo de confianza del 95% para el valor real de la tensión de ruptura promedio de la piola. 10.- Una empresa consultora está interesada en estimar el promedio de dinero que gasta una compañía en cursos de prevención de riesgos, considerando el dinero en viáticos del personal para que asistan. De los diferentes cursos realizados se seleccionó aleatoriamente a 23 empleados, obteniendo los siguientes gastos en viáticos en miles de pesos: 125, 123, 155, 135, 138, 142, 128, 142, 160, 130, 127, 126, 158, 141, 140, 149, 123, 131, 140, 122, 125, 132 y 127. Suponiendo que el dinero gastado por día se distribuye aproximadamente normal, obtenga un intervalo de confianza del 95% para el promedio real de gastos en viáticos. 11.- Se selecciona una muestra aleatoria del gasto por día en electricidad (en miles de pesos) de una planta de mecanizado de piezas metálicas, obteniendo la siguiente información del gasto diario: 12.5, 11.3, 12.5, 13.2, 12,0, 12.4, 11.9, 12.1, 11.6, 12.1, 12.7, y 12.2. Suponiendo que el gasto se distribuye aproximadamente normal, estimar el gasto promedio diarios construyendo un intervalo de confianza del 95%.

Capítulo 6

» 177

12.- Se espera tener cierta variación aleatoria en el espesor de las láminas metálicas que produce una máquina. Se seleccionan en forma aleatoria 15 láminas y se mide su espesor en milímetros. Obteniendo las siguientes mediciones: 0.213, 0.214, 0.221, 0.220, 0.214, 0.215, 0.223, 0.231, 0.233, 0.214, 0.215, 0.222, 0.214, 0.216, y 0.215. Si el espesor se distribuye aproximadamente normal, obtener un intervalo de confianza 95% para el promedio del espesor, y un intervalo de confianza del 95% para la varianza desconocida del espesor. 13.- Se recibe un lote muy grande de artículos provenientes de un fabricante que asegura que el porcentaje de artículos defectuosos en la producción es del 0.45%. Se selecciona una muestra aleatoria de 420 artículos encontrando 2 defectuosos. ¿Qué puede concluir acerca de la afirmación del fabricante para un nivel de significación del 5%?. ¿Se le puede seguir comprando éste artículo? 14.- En un proceso de llenado de tarros de café de 250 gramos, se quiere verifi-car si la máquina está cumpliendo con el valor especificado del proceso. Para ello, se selecciona una muestra aleatoria de 20 tarros encontrando los siguientes pesos netos: 249.8, 248.9, 250.7, 248.7, 251.0, 249.4, 249.8, 250.1, 250.5, 249.7, 249.2, 249.4, 250.5, 250.8, 249.2, 245.1, 249.8, 250.4, 249.7 y 249.8. Para un nivel de significación del 5%, qué puede concluir?. 15.- Los siguientes datos se refieren a los accidentes en una planta industrial que provocan pérdidas de tiempo de procesos. Se cuenta con el número de horas hombre perdidas mensualmente de nueve máquinas de la planta, durante un año, antes y después de realizar un entrenamiento al personal en seguridad industrial: Trabajador i Datos registrados Horas perdidas antes del programa Horas perdidas después del programa

1 38 35

2 63 61

Número de la máquina 3 4 5 6 7 47 70 54 38 49 46 68 53 37 47

8 51 49

9 49 47

¿Proporcionan los datos evidencia suficiente para indicar que el programa de entrenamiento en seguridad industrial ha reducido efectivamente el número de horas perdidas por accidentes? Use =0.05 16.- Se cree que la música de fondo en una tienda de retail afecta en el volumen de compra de los clientes. Se hizo un experimento con clientes habituales de la tienda en días de semana, un día sin música de fondo, otro día con música a un volumen relativamente alto. El monto en compras de cada cliente bajo las dos condiciones se muestra en la tabla (en miles de pesos):

Música Sin Alta

Comprador 1 2 3 4 5 6 7 8 9 10 21,25 22,55 19,55 19,75 20,75 21,45 19,75 19,85 19,85 20,95 18,9 20,2 17,2 17,4 18,4 19,1 17,4 17,5 17,5 18,6

178 «

Inferencia

¿Proporcionan los datos evidencia suficiente que indique una diferencia en el promedio de las

compras diarias de los días sin música contra los días con mú-sica de alto volumen? Use =0.05. 17.- En respuesta a una queja que cierto tasador de antigüedades (A) sistemáticamente subestimaba los valores de ciertas piezas que traían los vendedores. Para verificar la queja se pidió a otro tasador de la misma tienda (B) que valorara las mismas ocho piezas de colección que habían sido tasadas por A. Los ava-lúos (en millones de pesos) obtenidos son: 1 2 3 4 5 6 7 8 Antiguedad 5.85 5.62 5.24 6.58 3.78 5.44 4.82 5.01 Tasador A 5.92 5.89 5.18 6.64 3.73 5.52 4.64 4.84 Tasador B a) Construya un intervalo de confianza del 95% para el valor promedio de los avalúos del tasador A b) Construya un intervalo de confianza del 95% para la varianza del avalúo del Tasador A c) ¿Proporcionan los datos evidencia suficiente para indicar que el tasador A subestima el precio de las piezas de antigüedades respecto del tasador B? Use =0.01 18.- En un estudio se registraron los residuos de metales pesados (milígramos) en carne de bobino alimentados con alfalfa proveniente de un suelo contaminado. Se realiza un proceso de disminución de los metales pesados de dicho suelo. Se cuenta con la información de residuos en 8 trozos carne antes del proceso del suelo y 8 trozos de carne después del proceso al suelo. Antes del proceso 0.0124 0.0270 0.0251 0.0442 0.0385 0.0605 0.0695 0.0675

Después del proceso 0.0120 0.0260 0.0249 0.0429 0.0360 0.0597 0.0689 0.0660

Suponiendo que las poblaciones están distribuidas aproximadamente normal. Hay evidencia suficiente a un nivel de significación del 5%, para decir que se produce un disminución en la traza de metales pesados de la carne? 19.- Un fabricante desea comparar el tiempo de proceso de armado para un producto con un nuevo proceso que supuestamente reduce el tiempo de armado. Se seleccionaron 7 empleados al azar y se les pidió que armaran las unidades con proceso actual, y a otros siete con el nuevo proceso. Obteniendo los siguientes tiempos en minutos por cada empleado:

Capítulo 6

Proceso Actual Proceso Nuevo

53 45

47 47

56 49

50 52

57 50

47 41

» 179

60 53

Suponga que el tiempo de armado se distribuye aproximadamente normal, para un nivel del 5%, ¿se puede afirmar que el proceso nuevo reduce el tiempo de armado?

6.11. Pruebas de Bondad de Ajuste Se utilizan para determinar si una población tiene una distribución teórica específica. La prueba se basa en que tan buen ajuste se tiene, entre la frecuencia de ocurrencia de las observaciones en una muestra y las frecuencias esperadas que se obtienen de la distribución teórica. Se tiene una muestra aleatoria de tamaño n, dividida en k clases exhautivas y mutuamente excluyentes, con Oi , i =1,2,...,k el valor observado en la muestra para la clase i y Ei , i =1,2,...,k, el valor esperado de la distribución teórica para esa misma clase i. Las hipótesis se definen por: Ho : Los datos de la muestra poseen la distribución teórica supuesta H1 : Los datos de la muestra no poseen la distribución teórica supuesta El estadístico de la prueba está definido por

y tiene distribución muestra.

2

con k -1 grados de libertad, donde k es el número de observaciones de la

Si las frecuencias observadas tienen un valor próximo a las frecuencias esperadas de cada casilla, el valor del estadístico 2 será pequeño, lo que indica un buen ajuste, de lo contrario si las frecuencias observadas difieren de las esperadas, el valor de 2 será mayor, en cuyo caso, el juste no será bueno y el valor calculado se ubicará en la región de rechazo de H0. Para este tipo de pruebas, la hipótesis alternativa es unilateral, la región crítica se ubicará en la cola derecha de la distribución 2 , por tanto, si el valor calculado 2cal es mayor que el valor crítico 2 se rechaza H0. k-1,1-

12

n-1,1-

región de rechazo H0

180 «

Inferencia

6.11.1. Prueba para una distribución uniforme Se desea determinar si el número de accidentes con causa de muerte se encuentra distribuido de igual forma para el color de los automóviles involucrados en los accidentes. Para ello, se tomó una muestra aleatoria de 924 accidentes automovilísticos en los cuales ocurrió por lo menos una muerte y se consignó el color del automóvil involucrado, obteniendo la siguiente información: Blanco 79

Azul 150

Burdeos 155

Negro 187

Plomo 185

Amarillo 75

Plateado 93

Para un nivel de significación del 1%, ¿existe evidencia para afirmar que la distribución de accidentes según el color del automóvil es la misma? H0 : La distribución de accidentes según el color es la misma, es decir, la distribución de accidentes es uniforme según el color del automóvil H1 : La distribución de los accidentes según el color del automóvil no es la misma si se supone que la distribución es uniforme, significa que el valor esperado para cada casilla es 924 / 7 = 132, luego:

Oi Ei

Blanco 79 132

Azul 150 132

Burdeos 155 132

Negro 187 132

Plomo 185 132

Amarillo 75 132

Violeta 93 132

= 0.01

1 - = 0.99

= 2 6, 0.99 = 16.81 Región de rechazo H0 2

crítico

Como 2 calculado = 108.075 > 2 6, 0.01 , se rechaza H0, es decir, los accidentes no se distribuyen de igual forma respecto del color de los vehículos involucrados.

Capítulo 6

» 181

6.11.2. Prueba para una distribución normal Si se quiere realizar una prueba de hipótesis para verificar si una variable aleatoria X tiene distribución normal, se definen: H0 : la variable aleatoria X tiene distribución normal H1 : la variable aleatoria X no tiene distribución normal Para realizar esta prueba de bondad de ajuste, se estimarán los parámetros µ y 2 de la distribución normal, mediante los estadísticos X y S2 de una muestra aleatoria, agrupando las observaciones continuas en un número k de intervalos, se rechazara Ho si los valores esperados fuesen muy diferentes a los valores observados en cada intervalo. Intervalo -∞ – y`1 y`1 – y`2 y`2 – y`3 . y´k-1 – +∞ Total Si el valor 2 calculado es mayor al valor tiene distribución normal.

Oi O1 O2 O3 . Ok n 2

crítico

pi p1=P(x ≤ y`1) p2=P(y`1 ≤ x ≤ y`2) p2=P(y`2 ≤ x ≤ y`3) . p2=P(y`k-1 ≤ x) 1

Ei = npi E1 = np1 E2 = np2 E3 = np3 . Ek = npk n

, se rechaza H0 y se puede afirmar que la variable X no

Ejemplo. En una empresa se aplicó un test a 100 trabajadores, con una escala de puntajes de 0 a 100 puntos. Verificar si los puntajes obtenidos tienen distribución normal. 24 52 39 65 57 67 75 77 86 55

76 81 83 96 73 33 68 50 44 44

80 72 94 101 48 26 61 72 47 66

84 63 39 58 64 89 76 42 89 61

88 75 55 103 67 32 68 68 59 70

31 67 54 60 43 53 88 68 74 55

52 87 92 69 46 84 63 102 55 82

83 62 58 88 43 55 66 61 93 88

37 59 56 104 40 65 90 77 43 90

74 34 69 51 45 45 84 97 74 34

182 «

Inferencia

Los estimadores puntuales de los parámetros de la distribución normal obtenidos a partir de esta muestra son X = 65.52 puntos y S = 19.2928 puntos. Para construir la tabla de distribución de frecuencias, se tiene que el puntaje mínimo es 24 y el máximo es 104, luego, el recorrido R= xmáx – xmin = 104 - 24 = 80. El número k de intervalos, conocido el tamaño de la muestra N, se puede determinar a través de la fórmula de Sturgess: K = 1 + 3.32 . log (N) es decir, k = 1 + 3.32 log(100) = 7.64, que aproximado al entero superior es 8, la amplitud del intervalo está dada por A = R/k = 80/8 = 10 Tabla de distribución de frecuencias

Histograma de frecuencias

Puntaje

fi

24 - 34 34 - 44 44 - 54 54 - 64 64 - 74 74 - 84 84 - 94 94 -104 Total

6 10 11 19 20 14 13 6 100

20 16 12 8 4 0

20

40

60

80

100

120

la distribución de frecuencia muestra que los puntajes podrían tener una distribución aproximadamente normal. Las hipótesis serán: H0 : X se distribuye normal con µ = 65.52 puntos y 2 = 372.212 (puntos)2 H1 : X no se distribuye normal con µ = 65.52 puntos y 2 = 372.212 (puntos)2

= 0.05 1 - = 0.95 2

crítico

=

2

0.95 , 7

= 14.073

Capítulo 6

I

LI

LS

Oi

1

−∞

34

7

Probabilidad del Intervalo -1,6338 0,05115 0,05115

2 3 4

34 44 54

44 54 64

10 11 19

-1,1154 0,13234 -0,5971 0,27522 -0,0788 0,46859

5 6

64 74

74 84

20 14

7

84

94

8

94

+∞

Total

zi

P(XFcrítico ,

Fcrítico , 1 Región de rechazo de H0

F(k - 1) (n - K)

Ejemplo. Se desea comprobar si ciertos cambios en el proceso de fabricación del asfalto aumentan su resistencia a la compresión. Se compara la resistencia de probetas fabricadas con el método tradicional, método A, con aquellas fabricadas con procedimientos que se desea probar, métodos B y C. Los datos que se proporcionan están en la misma escala de medida para ser comparados directamente.

Método A Método B Método C 26 24 52 48 33

37 40 36 30 86

71 43 47 73 75

¿Qué se puede concluir con esta información? Use = 0.05. Se tiene que: yig

36,6

45,8

61,8

Ŝi

12,76

22,76

15,47

Ante la pregunta, ¿és el método C mejor que los otros dos?, la respuesta no es clara, aunque la media de C es la más grande, la observación mayor corresponde al método B, y dos observaciones de A son mayores que otras dos de C ¿es esto evidencia suficiente para pensar que el método C es distinto a los otros dos?

194 «

Inferencia

La desviación típica residual es:

0.02

A

B

C

0.01

0

observaciones

AA BABBBCCA A CCC B 20

40

60

80

100

La suma de los cuadrados explicada

La suma de los cuadrados no explicada o residual

Reemplazando en esta tabla a ANOVA. Fuente de variación

Suma de cuadrados

Grados de libertad

Entre grupos

k-1

Interna, no explicada o residual

n-k

Total

SCT = SCE + SCNE

n-1

Varianzas

Capítulo 6

» 195

Se tiene: Fuente de variación

Suma de cuadrados

Grados de libertad

Varianzas

% Explicado

Entre grupos, VE

1626.13

2

813.07

30.64

Residual, VNE

3680.8

12

306.73

69.36

Total, VT

5306.93

14

379.067

Para un =0.05 el Fcrítico = F2,12,0.95 = 3.885. Como Fcalculado < Fcrítico no existe evidencia para rechazar H0. La variabilidad explicada es un 30.64% del total, dado que:

Ejemplo. Las producciones diarias de cuatro máquinas se indican en la tabla. Se desea contrastar si hay diferencias en la producción media diaria entre ellas. M1

M2

M3

M4

203 215 201 205

209 206 216 224

204 198 217 199

228 217 221 230

yi.

206

213.75

204.5

224

Ŝi

6.22

8.02

8.74

6.06

196 «

Inferencia

Fuente de variación

Suma de cuadrados

Grados de libertad

Varianzas

Entre grupos, VE

957

3

319

Residual, VNE

648

12

54

Total, VT

1605

15

106.99

Para =0.05 el valor Fcrítico=F3;12=3.49. Como Fcalculado > Fcrítico se rechaza H0, es decir, se rechaza que existe igualdad de medias. Para determinar que grupos difieren se debe realizar una prueba t entre ellos. Ejercicio. Se desea comparar el monto medio de las demandas por seguros de accidentes laborales, presentadas por cinco grupos de asegurados. Se seleccionan 10 demandas al azar por cada grupo, datos de la tabla. ¿Son los datos de las cinco muestras suficientes para indicar una diferencia en los niveles medios de las demandas entre los cinco grupos de asegurados? G1

G2

G3

G4

G5

1763

2335

1596

4742

2632

5365

2262

2448

2833

6078

3144

1217

2183

1375

4010

2998

5100

4200

3010

1671

6412

3948

1630

1743

3145

1957

4210

1942

1867

5063

2286

1867

2285

2233

2232

1311

4744

1128

2072

2456

1863

2635

1844

4105

3735

2499

1643

2683

2767

1767

capítulo

7

Modelos de regresión

7.1. Gráficos de Correlación Los gráficos de correlación permiten obtener una impresión visual del grado de dependencia existente entre dos variables. La tabla muestra la relación entre el tiempo en meses y el crecimiento en cm de una planta.

Crecimiento(y)

1,8

9,5

2,5

11,2

3,2

12,7

3,9

14,5

4,6

16,1

5,3

17,9

6

19,7

6,7

21,2

7,6

23,4

8,1

24,7

25

21 Crecimiento

Tiempo(x)

17

13

9 0

2

4

6

8

10

Tiempo

se puede apreciar que a medida que transcurre el tiempo la planta crece. Se debe buscar un modelo que permita estimar el crecimiento en función del tiempo. Se buscará un modelo de regresión lineal, para ello, se mide la linealidad que presentan estos puntos del grafico.

198 «

Modelos de regresión

7.1.1. Coeficiente de correlación El coeficiente de correlación permite determinar el grado de asociación lineal existente entre dos variables cuantitativas

desarrollando la expresión se tiene que:

Tiempo xi

Crecimiento yi

xiyi

xi2

yi2

1,8

9,5

17,1

3,24

90,25

2,5

11,2

28

6,25

125,44

3,2

12,7

40,64

10,24

161,29

3,9

14,5

56,55

15,21

210,25

4,6

16,1

74,06

21,16

259,21

5,3

17,9

94,87

28,09

320,41

6

19,7

118,2

36

388,09

6,7

21,2

142,04

44,89

449,44

7,6

23,4

177,84

57,76

547,56

8,1

24,7

200,07

65,61

610,09

170,9

949,37

288,45

3162,03

∑xi 49,7

Estos puntos muestran una buena asociación lineal Características 1. -1 ≤ rxy ≤ 1 2. Valores próximos a cero indican que no existe asociación lineal entre las variables 3. Valores próximos a uno o próximos a menos uno indican que existe asociación lineal entre las variables

Capítulo 7

» 199

7.2. Regresión Lineal Introducción. El nombre genérico de modelos de regresión, proviene de los trabajos de Galton en biología a finales del siglo XIX. Galton estudió la dependencia de la estatura de los hijos (y) respecto a la de sus padres (x), encontrando lo que denominó una regresión a la media: los padres altos tienen, en general, hijos altos, pero, en promedio, no tan altos como sus padres; los padres bajos tienen hijos bajos, pero, en promedio, más altos que sus padres. Desde entonces, los modelos estadísticos que explican la dependencia de una variable y respecto de una o varias variables cuantitativas x se denominan modelos de regresión. Peña (1989). Según Peña (1989), se debe admitir que todos los factores o causas que influyen en una variables respuesta (y) pueden dividirse en dos grupos: el primero contiene una variable (x), conocida al observar (y), que tiene una influencia lineal en la respuesta; el segundo incluye un conjunto muy grande de factores, cada uno de los cuales influye en la respuesta sólo en una pequeña magnitud, que se engloba dentro del nombre común de perturbación aleatoria. El modelo lineal tiene la estructura:

donde yi se denomina variable dependiente, ei se conoce como el error o residuo, ambas son variables aleatorias, que deben cumplir los siguientes supuestos: 1. Los errores tienen esperanza cero, E[ei] = 0 2. La varianza del error es constante, Var(ei) = 2c 3. Los errores tiene distribución normal de media cero y varianza constante, ei ~ N(0, 4. Los errores ei son independientes entre si, Cov(ei, ei)= 0 i ≠ j

)

2 k

A

Estas condiciones se pueden expresar respecto a la variable respuesta y por: 1. La esperanza de la respuesta depende linealmente de x, E[yi / xi] = 0 + 1xi , el parámetro 0 representa el valor medio de y cuando x es cero, 1 representa el incremento que experimenta la media de y cuando x aumenta en una unidad 2. La varianza de la distribución de yi es constante, Var(yi) = 3. La distribución de y para cada x es normal, y ~ N(μ, 4. Las observaciones yi son independientes entre sí

)

2

2

200 «

Modelos de regresión

Ejemplos: yi

xi

ei

Sueldo de un empleado

Número de horas de trabajo

Efecto de los estudios, del tipo de empresa, de los años de servicio, entre otros.

Peso del vehículo

Efecto del tipo de pavimento, de las condiciones ambientales, de la potencia del vehículo, del número de cilindros, entre otros.

Rendimiento de litros de bencina por kilómetro recorrido

Efecto del tipo de alimentación, enfermedades, entre otros.

Estatura de un niño

Edad

Sueldo de un investigador

Número de horas de trabajo

Efecto del tipo de proyecto, del número de coinvestigadores, entre otros.

Presupuesto de una Universidad

Número de alumnos

Efecto del número de funcionarios, del número de laboratorios, entre otros.

El error se mide como la diferencia entre el valor observado (o medido) de una variable respecto del valor estimado por el modelo: ei = yi -

0

- 1Xi

Para obtener un modelo de regresión lineal, primero se debe verificar si la varia-ble dependiente tiene distribución normal. Dada una secuencia de pocos valores, para determinar si provienen de una distribución normal, éstos se deben ordenar en forma creciente, y asignarles el valor de probabilidad acumulada, estimada por la función con corrección de continuidad de Yates, luego, representarlos en un gráfico de escala probabilística. Si los puntos están alineados en una recta centrada en el punto ( , 50) en este gráfico graduado en ordenadas en escala probabilística, se dice que los datos pro-vienen de una distribución normal. Para el ejemplo, la variable dependiente Crecimiento: 9.5, 11.2, 12.7, 14.5, 16.1, 17.9, 19.7, 21.2, 23.4, 24.7; usando la fórmula de Yates, se les asigna la probabilidad acumulada estimada que le correspondería por:

Se aplica la prueba de Shapiro-Willes H0: la variable tiene distribución normal H1: la variable no tiene distribución normal Se rechaza H0 si p < 0.05

Capítulo 7

Normal Probability Plot of Crecimiento yi

2,0

i

pi

9,5

1

0,05

1,5

11,2

2

0,15

1,0

12,7

3

0,25

14,5

4

0,35

16,1

5

0,45

17,9

6

0,55

19,7

7

0,65

21,2

8

0,75

23,4

9

0,85

-1,5

24,7

10

0,95

-2,0 8

Cumulative percent

Crecimiento

» 201

0,5 0,0 -0,5 -1,0

10

12

14

16 18 20 22 Observed Value Crecimiento yi: SW-W= 0,9657| p = 0,8482

24

26

Como no existen puntos alejados de la recta ni tampoco se aprecian curvaturas, se puede afirmar que la variable dependiente, crecimiento, tiene distribución aproximadamente normal. 7.2.1. Método de mínimos cuadrados El método de mínimos cuadrados consiste en estimar los parámetros de los cuadrados de los errores sea mínima.

0

y

1

de modo que la suma

para minimizar esta expresión E, se deben obtener las derivadas parciales respecto de

0

y

1

202 «

Modelos de regresión

para obtener los estimadores de

0

y

1

se igualan a cero estas derivadas y se resuelve el sistema:

despejando y reemplazando, se obtiene que los estimadores mínimo cuadrados son: y

para el ejemplo se tiene que:

Utilizando el programa Statgraphics se obtienen los siguientes resultados: Model fi$ing results for: Crecimiento Independent variable

coefficient

std. error

t-value

sig.level

Constant

5.097406

0.07015

72.6641

0.0000

Tiempo

2.412997

0.013062

184.7406

0.0000

R-SQ. (ADJ.) = 0.9997 SE= 0.084083 MAE=0.064989

Capítulo 7

Analysis of Variance for the Full Regression Source

Sum of Squares

DF

Mean Square

F-Ratio

Model

241.292

1

241.292

34129.1

Error

0.0565599

8

0.00706999

Total (Corr.)

241.349

9

P-value 0.0000

R-squared = 0.999766

Los intervalos de confianza del 95% para los coeficientes estimados Estimado

error estándar

Limite inferior

Limite superior

Constante

5.09741

0.07015

4.93559

5.25922

Tiempo

2.41300

0.01306

2.38287

2.44313

el modelo de regresión lineal para estimar el Crecimiento está dado por:

Numero

Tiempo

Crecimiento observado

Crecimiento estimado

Errores

Errores estandarizados

1

1,8

9,5

9,4408

0,00592

0.85341

2

2,5

11,2

11,1299

0,0701

0.95570

3

3,2

12,7

12,819

-0,119

-1,74724

4

3,9

14,5

14,5081

-0,00809

-0.09646

5

4,6

16,1

16,1972

-0,09719

-1,26577

6

5,3

17,9

17,8863

0,01371

0.16132

7

6

19,7

19,5754

0,12461

1,78994

8

6,7

21,2

21,2645

-0,06448

-0.82602

9

7,6

23,4

23,4362

-0,03618

-0.47772

10

8,1

24,7

24,6427

0,05732

0.81949

No se encuentran residuos más allá de 3 sigmas

» 203

204 «

Modelos de regresión

Fig 7.1 Gráfico de los residuos

Residual Plot for CRECIMIENTO

0.13 0.08

Residuals

0.03 -0.02 -0.07 -0.12 9

13

17

21

25

Predicted

en la Fig 7.1 de los residuos se aprecia que los errores tienen un comportamiento aleatorio en torno al cero, si se aplica el método de Yates a estos residuos, se puede asumir que estos tienen distribución aproximadamente normal con media cero, Fig 7.2. Aplicando el test de Shapiro-Wille p > > 0.05no hay evidencia para rechazar H0 Fig 7.2 Gráfico de normalidad de los residuos

2,0

Normal Probability Plot of ei

Expected Normal Value

1,5 1,0 0,5 0,0

-0,5 -1,0 -1,5

-2,0 -0,14 -0,10 -0,08 -0,02 0,02 0,08 0,10 0,14 -0,12 -0,08 -0,04 0,00 0,04 0,08 0,12 0,18 Observed Value ei: SW-W = 0,9653| p = 0,8444

Capítulo 7

» 205

Ejercicios: 1.- Las autoridades de una municipalidad afirman que los ingresos de los negocios en fiestas patrias se puede predecir por las toneladas de basuras que se barren después de la fiesta en cada año. En la tabla se muestra la información de los últimos diez años. Determine un modelo que permita relacionar los ingresos municipales según las toneladas de basura. Basuras (toneladas)

2.1 3.5 1.1 0.5 3.6 2.1 3.5 3.4 3.3 2.5

Ingresos de impuestos 2.1 2.5 1.8 0.7 2.5 2.1 3.1 2.9 3.3 3.2 al municipio (millones)

2.- Los habitantes de un municipio están preocupados por el encarecimiento de las viviendas en la zona. El Alcalde piensa que los precios de las viviendas fluctúan con el valor de los terrenos. Con la siguiente información en millones de pesos, construir un modelo de regresión lineal para el valor de las viviendas en función del precio del terreno. Valor del terreno

7.0 6.9 5.5

3.7

5.9 3.8 8.9 9.6 9.9

10

Coste de la casa

67

54

58

92

63

60

36

76

87

89

7.2.2. Análisis de los residuos Anscombe (1973), presenta conjuntos de datos para cuatro modelos de regresión de acuerdo a la siguiente tabla: Grupo 1

Grupo 2

Grupo 3

Grupo 4

x1

y1

x2

y2

x3

y3

x4

y4

4

4,26

4

3,1

4

5,39

8

6,58

5

5,68

5

4,74

5

5,73

8

5,76

6

7,24

6

6,13

6

6,08

8

7,71

7

4,82

7

7,26

7

6,42

8

8,84

8

6,95

8

8,14

8

6,77

8

8,47

9

8,81

9

8,77

9

7,11

8

7,04

10

8,04

10

9,14

10

7,46

8

5,25

11

8,33

11

9,26

11

7,81

8

5,56

12

10,84

12

9,13

12

8,15

8

7,91

13

7,58

13

8,74

13

12,74

8

6,89

14

9,96

14

8,1

14

8,84

19

12,5

206 «

Modelos de regresión

el modelo aproximado para los cuatro grupos es:

la varianza residual es la misma para los cuatro modelos con un valor de 1.52. El coeficiente de correlación lineal es 0,816 para los cuatros modelos, todo esto parecería indicar que las cuatro regresiones son la misma. Si se aplica el test de normalidad a las variables respuestas yi se podrá apreciar que sólo y1 tiene distribución normal, por tanto, no se puede ajustar un modelo de regresión lineal al grupo 2, 3 y 4. Si se analiza los residuos se obtienen las Fig 7.3, 7.4, 7.5 y 7.6: Fig 7.4 Residuos para y2

Fig 7.3 Residuos para y1

Residual Plot for Y2

2

2

1

1 Residual

Residual

Residual Plot for Y1

0

-1

0

-1

-2

-2 5

6

7

8

Predicted

9

10

11

5

6

7

8

Predicted

9

10

11

» 207

Capítulo 7

Fig 7.4 Residuos para y 4

Fig 7.5 Residuos para y3

Residual Plot for Y3

Residual Plot for Y4

3.8

2.2

1.2

1.8

Residual

Residual

2.8

0.8

0.2

-0.8

-0.2 -1.2

-1.8 5

6

7

8

Predicted

9

10

7

8

9

10

11

12

13

Predicted

En la Fig 7.3 muestra que los residuos tienen un comportamiento aleatorio en torno al cero, en cambio, en la Fig 7.4 se observa una curvatura lo que implica que posiblemente se debería incorporar al modelo un término cuadrático, en la Fig 7.5 se observa un valor anómalo que determina toda la estructura de la regresión, en la Fig 7.6 la pendiente de modelo está determinada por un sólo valor. Si se aplica el test de normalidad a los residuos de las tres últimas regresiones, no se cumplirá el requisito, por lo cual no se puede ajustar una modelo de regresión lineal en estos casos. Homocedasticidad. Otro de los requisitos de los errores es la que deben tener varianza constante, homocedasticidad. A continuación se muestran distintas situaciones que se pueden presentar al analizar los residuos o errores. En la Fig 7.7 se observa que los errores van en aumento cuando la estimación aumenta, esto indica que no se cumple el supuesto de varianza constante.

208 «

Modelos de regresión

Fig 7.7 Errores

Fig 7.8 Errores

En la Fig 7.8 se observa que la variabilidad de los errores aumenta al aumentar el valor de la estimación, pero, además muestra una curvatura lo que indicaría no linealidad. En al Fig 7.9 se observa una autorrelación negativa (valores por sobre la media van seguido por uno por debajo de la media y así sucesivamente. Fig 7.9 Errores autocrrelacionados

Fig 7.10 Errores autocorrelacionados

Capítulo 7

» 209

En al Fig 7.10 se observa una autocorrelación positiva, puntos por sobre la media van seguido por puntos sobre la media (lado izquierdo del gráfico), o también, se pueden presentar puntos por debajo de la media seguidos por puntos por debajo de la media (lado derecho del gráfico). En la Fig 7.11 el punto P(xp,yp) el modelo que se obtiene es casi el mismo si se incluye o no el punto P, dado que ei = y(xp) - yp es próximo a cero, por tanto, incluir o no el punto P en el modelo dado que es influyente a priori por estar alejado de los restante valores de x, pero, a posteriori si se saca del modelo no tiene una relevancia importante. Fig 7.11 Punto alejado

yp y(xp)

P

xp

En cambio si se presenta la situación de la Fig 7.12, incluir el punto P(xp,yp) es muy influyente dado que el error ei = y(xp) - yp resulta muy grande. Fig 7.12 Punto alejado

y(xp)

P

yp

xp

210 «

Modelos de regresión

En la Fig 7.13, se aprecian dos puntos anómalos, que al estar equidistantantes contrarestan su efecto en el modelo, es decir que al quitarlos no afectan los parámetros del modelo, pero, deben ser eliminados por ser anómalos. Fig 7.13 Puntos de apalancamiento

xp

xq

Si los residuos estandarizados son mayores a - 3.0 o menores a 3.0, indica que dicho punto es anómalo respecto de la variable dependiente. En la Fig 7.14 se muestran dos puntos cuyos residuos estandarizados están alejados más de tres desviaciones estándar del origen. Fig 7.14 Puntos con residuos estandarizados alejados más de 3 del origen

3.5 2.5 1.5 0.5 -0.5 -1.5 -2.5 -3.5

Otros puntos anómalos son denominados DEFFITS (difference between fi4ed values), miden la diferencia entre el valor observado de la variable dependiente respecto del valor estimado por el modelo, se considera el punto como anómalo si DEFFITS es mayor a , donde p es el número de coeficientes en el modelo y n es el número de casos completos.

Capítulo 7

» 211

Los puntos anómalos denominados Leverage (puntos de apalancamiento) son observaciones que son distintas a las restantes basados en los valores de las variables independientes. Tienen un impacto importante en los coeficientes estimados para una o más variables independientes Los puntos anómalos denominados Leverage (puntos de apalancamiento) son observaciones que son distintas a las restantes basados en los valores de las variables independientes. Tienen un impacto importante en los coeficientes estimados para una o más variables independientes Si el valor del Leverage en valor absoluto es mayor a p es el

si n>30, o superior a

si n < 30, donde

número de coeficientes en el modelo y n es el número de casos completos, los puntos se consideran anómalos.

7.3. Linealización de modelos En muchas situaciones experimentales no se conoce el tipo de modelo que es posible ajustar para relacionar una variable dependiente con una independiente, sólo se dispone de un pequeño número de pares ordenados correspondientes a los resultados del estudio, que al graficarlos muestran una nube de puntos y se quiere ajustar un modelo por lo que se necesita obtener los parámetros que lo determinan, a continuación se analizan distintos tipos de modelos y el procedimiento que permite estimar sus parámetros. 7.3.1. Modelo exponencial Dado un modelo exponencial de la forma y = a . ebx en la Fig 7.15 se muestran las cuatro formas distintas que puede tener un modelo exponencial. Si se cambian los valores de a y b, las formas serán similares, la nube de puntos de un experimento de este tipo debiera mostrar alguna de estas tendencias. Fig 7.15 Gráficos de modelos exponenciales centrados en el origen

y = e-x

y = ex

y = e-x

y = ex

212 «

Modelos de regresión

Para obtener los parámetros a y b del modelo y = a ebx se aplica logaritmo natural a esta expresión se obtiene In y = In a + bx designado por Y a ln y, por 0 = ln a, por 1 =b y X=x, se tiene un modelo lineal de la forma Y = 0 + 1X que es la ecuación de una recta en un sistema semilogaritmico. Para obtener los valores estimados de 1

0

y

1

se utiliza el método de mínimos cuadrados, donde

= m = b y a = antilogaritmo( 0)

Se puede afirmar que si el coeficiente de correlación lineal de estos puntos dibujados en este sistema semilogarítmico, en valor absoluto es próximo a 1, se debería ajustar un modelo exponencial a los datos obtenidos. Ejemplo. Se intenta obtener la ecuación que permita estimar a la carga que tiene un condensador de un radiotransmisor operando en forma continua, en un instante dado, para ello, se midió el voltaje del condensador cada 5 minutos obteniendo:

Fig 7.16 Voltaje en función del tiempo

Tiempo

1

2

3

4

5

6

7

8

9

Voltaje

7,08

5,35

4,26

3,19

2,53

1,98

1,62

1,21

1,00

4

6

8

10

8

6

4

2

0 0

2

Tiempo

Capítulo 7

» 213

en la Fig 7.16, se aprecia que podría existir un modelo exponencial que ajuste estos valores, dado que se sabe que la velocidad de descarga de un condensa-dor es proporcional a la carga presente en cada instante de tiempo, aplicando logaritmo natural a los valores de voltaje, se tiene: Tiempo

1

2

3

4

5

6

7

8

9

In Voltaje

1,96

1,68

1,45

1,16

0,93

0,68

0,48

0,19

0,00

Fig 7.17 ln(Voltaje) en función del tiempo

2

In ( Voltaje)

1.6 1.2 0.8 0.4 0

0

2

4

6

8

10

Tiempo

En la Fig 7.17, se puede apreciar una tendencia lineal, por lo que se puede afirmar que el voltaje en función del tiempo está determinado por un modelo exponencial, aplicando mínimos cuadrado se tiene: 1

= m = b = -0.2449856, a = antilogaritmo(2.17248599) = 8.780084

el coeficiente de correlación lineal de los datos en este sistema semi-logarítmico es rxy = -0.999305, por tanto, la variación explicada por el modelo es de un 99.86%, el modelo que permite estimar la carga en cada instante de tiempo está dado por: ŷ = 8.780084 . e-0.2449856 x Tiempo

1

2

3

4

5

6

7

8

9

Voltaje

7,08

5,35

4,26

3,19

2,53

1,98

1,62

1,21

1,00

Voltaje estimado

6,87

5,38

4,21

3,30

2,58

2,02

1,58

1,24

0,97

ei

0,21

-0,03

0,05

-0,11

-0,05 -0,04

0,04

-0,03

0,03

214 «

Modelos de regresión

7.3.2. Modelo Potencial Dado un modelo potencial de la forma y = a . xb en la Fig 7.18 se muestran formas distintas que puede tener un modelo potencial dependiendo de los valores a a y b, por lo cual, la nube de puntos de un experimento de este tipo debiera mostrar alguna de estas tendencias Fig 7.18 Gráficos de modelos potenciales centrados en el origen

y = x3

y = -x

y=x y = x2

y = x4

y =√x

y =√-x

3

y =√x

y = -√-x

y = -√-x y = -x3

y = -x2

Para obtener los parámetros a y b del modelo y = a . xb se aplica logaritmo natural a esta expresión obteniendo In y = In a + b . In x designado por Y a ln y, por

0

= ln a, por y=

0

1

+ 1X

=b y X = ln x, se tiene un modelo lineal de la forma

Capítulo 7

» 215

que es la ecuación de una recta en un sistema bilogaritmico. Para obtener los valores estimados de 0 y 1 se utiliza el método de mínimos cuadrados, donde 1

= m = b y a = antilogaritmo( 0)

Se puede afirmar que si el coeficiente de correlación lineal de estos puntos dibujados en este sistema bilogaritmico, en valor absoluto es próximo a 1, se debería ajustar un modelo potencial a los datos obtenidos. Ejemplo. Se obtienen los valores del aumento de la presión de una caldera a medida que aumenta la temperatura Tiempo

0,1

0,5

0,9

1

1,25

2

2,3

2,8

3,2

Presión

0,58

1,63

2,34

2,5

2,86

3,84

4,15

4,6

5,21

en el gráfico de correlaciones se puede apreciar que existe una curvatura que podría suponer la existencia de un modelo potencial. aplicando logaritmo natural a la tabla de observaciones medidas se tiene:

ln(Temperatura) -2,3026 -0,6931 -0,1054 0,0000 0,2231 ln(presión)

0,6259 0,8329 0,9002 0,9163

0,9478

0,6931

0,8329

1,0296

1,1632

1,0043

1,0152

1,0473

1,0647

Fig 7.19 Presión en función de la Temperatura

3.0 2.8

Presión

2.6 2.4 2.2 2.0 1.8 0

1

2 Temperatura

3

4

216 «

Modelos de regresión

Fig 7.20 ln(Presión) en función de ln(Temperatura)

(x0.01) 112

In (Presión)

102 92 92 72 62 -2.4

-1.4

-0.4 0.6 In (Temperatura)

1.6

En el gráfico bilogaritmico de la Fig 7.20 se aprecia una tendencia lineal de los puntos, por lo que se puede afirmar que la Presión en función de la Temperatura obedece a un modelo potencial con: 1

= m =0.125744135 = b y a = antilogaritmo(0.916546185) = 2.5006

el coeficiente de correlación lineal de los datos en este sistema bilogaritmico es rxy=0.999743553, por tanto, la variación explicada por el modelo es de un 99.95%. el modelo de presión en función de la temperatura está dado por: ŷ = 2.5006 . x0.125744135 Tiempo

0,1

0,5

0,9

1

1,25

2

2,3

2,8

3,2

Presión

0,58

1,63

2,34

2,5

2,86

3,84

4,15

4,6

5,21

Presión estimado

1,8720

2,2919

2,4677

2,5006

2,5718

2,7283

2,7767

ei

2,8462 2,8944

-0,0020 0,0081 -0,0077 -0,0006 0,0082 0,0017 -0,0167 0,0038 0,0056

7.3.3. Modelo Hiperbólico Para un modelo hiperbólico que pasa por el origen de la forma

Considerando a, b y c positivos, la curva tiene la siguiente forma:

Capítulo 7

» 217

Fig 7.21 Modelo hiperbólico

y

x

para linealizar este modelo, se requiere tomar el recíproco de la expresión

que es una recta en un sistema 1/x versus 1/y. Luego , determinados en 1 y obtener los valores de b y c.

basta fijar a

Ejemplo. En un proceso de reacción química, la velocidad de reacción está dada en función de la concentración de sustrato que intervenga. En la tabla de muestran diferentes velocidades de reacción en función de las concentraciones que se ocupen. Concentración

0,2

0,8

1,2

1,6

2,5

3,1

3,5

Velocidad

0,48

1,075

1,235

1,34

1,458

1,505

1,53

Concentración

4,2

5,1

6,3

7,2

8,6

10

Velocidad

1,56

1,589

1,613

1,634

1,651

1,665

218 «

Modelos de regresión

Fig 7.22 Velocidad en función de la Concentración

1.8 1.5

Velocidad

1.2 0.9 0.6 0.3 0 0

2

4 6 Concentración

8

10

Los valores de los recíprocos se muestran en la tabla: recíproco(Concentración)

5

1,25

0,833

0,625

0,4

0,323

0,286

recíproco(Velocidad)

2,083

0,93

0,81

0,746

0,686

0,664

0,654

recíproco(Concentración)

0,238

0,196

0,159

0,139

0,116

0,1

recíproco(Velocidad)

0,641

0,629

0,62

0,612

0,606

0,601

la gráfica de estos recíprocos está dada por: Fig 7.23 1/Velocidad en función de 1/Concentración

2.1

1 / Velocidad

1.8 1.5 1.2 0.9 0.6 0

1

2

3

1/ Concentración

4

5

Capítulo 7

» 219

si a = 1, b = 0.56610657 y c = 0.302408524, luego el modelo es

el coeficiente de correlación rxy=0,999874212, luego la variación explicada por el modelo es de un 99.97%. Concentración

0,2

0,8

1,2

1,6

2,5

3,1

3,5

Velocidad

0,480

1,075

1,235

1,340

1,458

1,505

1,530

Velocidad estimada

0,484

1,071

1,237

1,342

1,477

1,530

1,556

ei

-0,004

0,004

-0,002

-0,002

-0,019

Concentración

4,2

5,1

6,3

7,2

8,6

10

Velocidad

1,560

1,589

1,613

1,634

1,651

1,665

Velocidad estimada

1,592

1,625

1,655

1,672

1,691

1,705

ei

-0,032

-0,036 -0,042

-0,038

-0,025 -0,026

-0,040 -0,040

7.4. Modelos de Regresión Múltiple Introducción. Un modelo de regresión múltiple permite estudiar la relación existente entre k variables independientes, conocidas como regresores, respecto de una variable dependiente, es una extensión del modelo de regresión lineal simple. Una variable dependiente y, puede ser la respuesta respecto de varias variables independientes x1,...,xk. A través de un modelo de regresión múltiple se intenta medir el efecto de aquellas variables independientes significativas, considerando las no significativas como parte del error aleatorio. Algunos ejemplos que es posible estudiar a través de modelos de regresión múltiple pueden ser: A. determinar el sueldo de un profesor respecto de los años de estudio, del número de cursos de especialización realizados, de los años de servicio, de la edad, de la antigüedad en la Universidad, de las publicaciones que posea, entre otros. B. determinar la calidad de un pistón en función de la aleación con que se fabrica, de la temperatura de fundido, del tiempo de enfriamiento, del porcentaje de fisuras en la superficie, del proceso de templado, entre otros.

220 «

Modelos de regresión

C. determinar el precio de un producto en función del gasto en electricidad en producirlo, del gasto en materia prima, del gasto en remuneraciones, del costo de garantía, del tiempo de proceso, entre otros. D. determinar como influye sobre el rendimiento en kilómetros por litro de un vehículo, el peso del vehículo, la potencia, la aceleración, el número de pistones, el tipo de carburador, entre otros. Para obtener un modelo de regresión múltiple, se deben verificar algunas hipótesis tanto de la distribución del error, como de la relación entre la variable dependiente y las variables independientes. Sea y la variable dependiente o variable respuesta, sean X1 ...,Xk, las n variables independientes o explicativas o regresores, una observación yi puede escribirse por : yi =

0

1

X1 +

2

X2+ . . .

k-1

Xk - 1 +

k

Xk + ei

donde cada coeficiente i mide el efecto sobre la variable respuesta de un aumento unitario en la variable independiente Xi cuando todas las otras variables permanecen constantes, ei es el error aleatorio. Al igual que en el modelo de regresión lineal simple, el error debe cumplir con las siguientes supuestos: 1. Los errores tienen esperanza cero, E[ei] = 0 2. Los errores tiene distribución normal de media cero y varianza constante, 3. Los errores ei son independientes entre sí, Las hipótesis respecto de los errores pueden escribirse en términos de la variable dependiente por: 1. para cada conjunto fijo de valores de las variables independientes Xi, la distribución de y tiene esperanza 2. la varianza de la variable dependiente y es constante, es decir, no depende de los valores de las variables independientes Xi, 3. las variables Xi son independientes entre sí 4. la variable dependiente y tiene distribución normal 7.4.1. Determinación de los parámetros

i

La variable aleatoria y tiene distribución normal, por lo que el método de máxima verosimilitud equivale a mínimos cuadrados. Para obtener los estimadores se debe minimizar la suma de los cuadrados de los errores, SCE:

si se deriva respecto a

0

y se iguala a cero se tiene que:

Capítulo 7

» 221

como los errores se determinan por ei = yi - ŷi , reemplazando en la ecuación anterior se tiene que:

derivando respecto a j, se obtiene:

de esta forma se obtiene el siguiente sistema de ecuaciones:

este sistema puede escribirse matricialmente por:

designando por X a la matriz de datos cuyas columnas son los valores correspondientes a las variables independientes más una columna de unos del término o, por Y al vector de observaciones y ˆ al de parámetros, se tiene:

XT . Y = XT . X . ˆ como la matriz XTX es no singular, el vector de los parámetros ˆ está dado por:

222 «

Modelos de regresión

7.4.2. Matriz de varianzas-covarianzas Dado que XT Y = XTX ˆ , si se divide ambos términos por n y designando por:

la expresión Sxx se conoce como la matriz de varianzas y covarianzas entre las variables independientes, la expresión Sxy es el vector de covarianzas entre las variables independientes y la variable respuesta, luego, se puede escribir que el vector de los parámetros está dado por: ˆ ˆ

ˆ

Si las variables X son no correlacionadas, las matriz XT X será diagonal y cada coeficiente vendrá dado por el cuociente entre la Cov(x,y) y la Var(X). Por tanto, cuando las X son no correlacionadas sus efectos individuales sobre la respuesta son iguales a sus efectos marginales (estudiados dentro del conjunto de variables). Pero, cuando las X son dependientes entre si, sus coeficientes estimados por regresión múltiple pueden ser muy distintos de los de regresión simple. 7.4.3. Validación del Modelo de Regresión Múltiple Se deben tener presente los problemas principales que pueden surgir al construir un modelo de regresión, los efectos sobre las propiedades del modelo y como reformularlos para adecuarlos al problema en estudio. Una dificultad se presenta cuando las variables explicativas están correlacionadas, es decir, son dependientes entre sí. Ya que será difícil separar sus efectos y medir la contribución que cada una de ellas realiza a la respuesta, ello traerá como consecuencia que los estimadores de los parámetros no serán estables y la varianza aumentará. Esto se conoce como multicolinealidad y se produce al intentar extraer de la muestra más información que la que realmente contiene. Para verificar las hipótesis básicas del modelo de regresión múltiple, al igual que en regresión lineal simple, se deben analizar los residuos estimados. Se mencionarán algunos criterios que permitan identificar y corregir desviaciones en las hipótesis tales como: variables relevantes no incluidas, falta de linealidad (errores de especificación de la relación), falta de normalidad, entre otros. Algunos autores proponen para mitigar algunos de estos problemas, hacer menos exigentes las hipótesis básicas, y formulan un modelo más general, realizando la estimación a través del método de mínimos cuadrados generalizados.

Capítulo 7

» 223

Según Peña (1987), algunos problemas que se pueden presentar en regresión múltiple son: Hipótesis del modelo

Problema

Las variables X toman valores distintos en la muestra.

Multicolinealidad: las variables X toman valores muy semejantes en la muestra.

E[y] = TX

Error de especificación: E[y] ≠ TX

La distribución de ei es normal.

Falta de normalidad: ei no es normal

Var(ei) = constante

Heterocedasticidad: Var(ei) ≠ constante

ei independientes entre sí.

Autocorrelación: ei dependientes

La estimación de los parámetros del modelo de regresión requiere obtener la matriz inversa de la matriz XTX, pero, si una de las variables explicativas es combinación lineal de las otras variables explicativas (colineal con el resto) la matriz X tendrá rango menor que (k+1), número de parámetros, por lo cual la matriz XTX será singular y el sistema de ecuaciones que determina los parámetros no tendrá solución única. También, puede darse el caso que algunas o todas las variables explicativas estén altamente correlacionadas entre sí, lo que se conoce como alta multicolinealidad, lo que producirá que: i) los estimadores tendrán varianzas muy altas, y ii) las estimaciones serán muy dependientes entre sí. S12 = r . S1S2 ; |XTX| = S21S22(1 - r2) luego,

en este caso, las varianzas teóricas de los estimadores serán:

como la varianza del coeficiente de regresión simple entre la respuesta y Xi es donde S2 es la varianza del regresor i-ésimo, se tiene que:

224 «

Modelos de regresión

y el coeficiente de correlación entre las estimaciones de ˆ 1 y ˆ 2 estará dado por:

valor que es igual en valor absoluto a la correlación entre las variables. Esto permite determinar que si aumenta (en valor absoluto) el coeficiente de correlación entre las variables explicativas, automáticamente, aumentarán las varianzas de las estimaciones y su dependencia. De acuerdo a estos resultados, se puede afirmar que se puede estimar con mayor precisión un efecto global medido por una regresión simple que un efecto parcial medido por una regresión múltiple. El problema que se presenta cuando las variables explicativas están muy correlacionadas entre si, es que sus efectos individuales se medirán con poca precisión y con estimaciones muy dependientes entre sí. Una vez obtenido el modelo de regresión múltiple, se requiere verificar las hipótesis de linealidad, normalidad, homocedasticidad e independencia a través de la información que proporciona los residuos sobre estas hipótesis, al igual que en los modelos de regresión lineal simple, véase Peña (1987). Complementado el análisis realizado en valores anómalos revisados en regresión lineal simple, se puede determinar si existen valores anómalos en las variables independientes a través del estadístico denominado Distancias de Mahalanobis.

con

la matriz de varianzas covarianzas entre las variables independientes.

La distancia de Mahalanobis se distribuye x2k con k grados de libertad, siendo k el número de variables independientes La distancia de Mahalanobis generalizada es la distancia entre dos o más grupos. Permite medir en cuanto difieren los valores en las variables independientes, permite describir la separación entre grupos o entre muestras individuales y los grupos en varias dimensiones. Ubicado el centroide de la nube de puntos de las variables independientes, se trata de detectar todos aquellos puntos o variables que están alejadas de este centroide. Un valor grande de la distancia de Mahalanobis para un caso, significa que tiene valores extremos para una o más de las variables independientes, dichos puntos son posibles observaciones influyentes a priori.

Capítulo 7

» 225

Ejemplo 1. Se realiza un estudio en 23 localidades respecto del Precio de la vivienda en millones de pesos, respecto de las variables independiente, X1: Superficie (m2), X2: Calefacción (consumo eléctrico M$ mensual), X3: Jardines (m2), X4: Juegos infantiles (m2), X5: Piscina (m2) y X6: Estacionamientos (m2). Se desea encontrar un modelo que permita estimar el precio de una vivienda dependiendo de estas características. La tabla muestra los resultados obtenidos. Localidad

X1

X2

X3

X4

X5

X6

Precio

1

45

46

1726

215

163

470

38

2

170

102

1726

215

163

1680

168

3

60

20,1

650

110

55

600

54

4

70

22,3

525

150

60

650

65

5

85

30,1

1000

140

85

800

75

6

100

32,5

1200

160

120

1100

110

7

95

35

1203

170

114

1200

110

8

110

37

1334

181

126

1100

124

9

20

18,5

500

100

50

450

12

10

120

68

1203

170

114

1450

115

11

30

19,2

600

120

60

380

22

12

220

150

2118

250

200

2150

210

13

125

40

1464

192

139

1200

139

14

40

43

1595

204

151

500

32

15

180

110

1987

238

188

2040

198

16

60

49

1856

227

176

680

42

17

70

52

1987

238

188

700

55

18

80

55

2118

250

200

800

75

19

120

62

1200

160

120

1200

110

20

160

105

1856

227

176

1930

183

21

135

84

1334

181

126

1500

124

22

145

95

1464

192

139

1684

139

23

160

100

1595

204

151

1750

154

226 «

Modelos de regresión

Fig 7.24 Normalidad de la variable dependiente

Normal Probability Plot of PRECIO 2,5 2,0 1,5

Expected Normal Value

1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5

0

20

40

60

80

100

120

140

160

180

200

220

Observed Value

En la Fig 7.24, se puede apreciar que la variable dependiente Precio tiene distribución aproximadamente normal, p = 0,495 Se procede a utilizar Statistica, para determinar los coeficientes estadísticamente significativos del modelo, y los intervalos de confianza de estos coeficientes. Parameter Estimates(Spreadsheet1) Sigma-restricted parameterization PRECIO

PRECIO

PRECIO

PRECIO

-95.00%

+95,00%

PECIO

PRECIO

-95,00%

+95,00%

Param

Sdt.Err

t

p

Cnf.Lmt

Cnf.Lmt

Beta( )

St.Err.

Cnf.Lmt

Cnf.Lmt

-35,4516 14,95405

-2,37070

0,030653

-67,1528

-3,75041

"X1"

0,8102

0,14765

5,48735

0,000050

0,4972

1,12319

0,739486

0,134762

0,453803

1,025168

"X2"

-0,6082

0,12849

-4,73350

0,000225

-0,8806

-0,33582

0,377729

0,079799 -0,546896 -0,208563

"X3"

-0,0040

0,04058

-0,09847

0,922785

-0,0900

0,08203

-0,034801 0,353430 -0,784039 0,714437

"X4"

0,1432

0,20520

0,69778

0,495330

-0,2918

0,57819

0,108874

0,156029 -0,221893

"X5"

0,0390

0,51049

0,07636

0,940080

-1,0432

1,12118

0,031720

0,415402 -0,848893 0,912333

"X6"

0,0560

0,01481

3,77860

0,001645

0,0246

0,08738

0,537551

0,142262

Effect Intercept

0,235969

0,439641

0,839132

Capítulo 7

Se ingresa al modelo los términos estadísticamente significativos, obteniendo: Precio = -35.7746 + 0.8048X1 - 0.5960X2 + o,056X6

i

PRECIO Observado

PRECIO estimado

Residuos ei

Residuos estandarizados

1

12

8,9598

3,0402

0,47217133

2

22

15,5715

6,4285

0,99840582

3

54

49,8184

4,1816

0,64944136

4

65

65,8029

-0,8029

-0,12469783

5

75

79,253

-4,253

-0,66053044

6

110

110,1683

-0,1683

-0,02613855

7

110

111,3805

-1,3805

-0,21440449

8

124

118,2386

5,7614

0,89479899

9

139

135,7269

3,2731

0,50834286

10

32

27,5142

4,4858

0,69668645

11

38

29,5806

8,4194

1,3076111

12

42

53,3696

-11,3696

-1,76580459

13

55

62,2858

-7,2858

-1,13155248

14

75

75,8234

-0,8234

-0,12788168

15

110

114,0276

-4,0276

-0,62552373

16

115

125,5587

-10,5587

-1,63986428

17

124

132,2984

-8,2984

-1,28881867

18

139

145,5722

-6,5722

-1,02072376

19

154

160,0411

-6,0411

-0,938239

20

168

164,5275

3,4725

0,53931154

21

183

170,3008

12,6992

1,97230383

22

198

191,1405

6,8595

1,06534413

23

210

207,0397

2,9603

0,45976211

» 227

228 «

Modelos de regresión

En la Fig 7.25, se puede apreciar que los residuos tienen una distribución aproximadamente normal, p = 0.6978 R2 = 0.9875, es decir, la variación explicada por el modelo es del 98.75%. Flagged Observations for PRECIO Obs. Number Stnd. Residual Leverage Mahalanobis Dist. DFITS 20 2.34550 0.27852 7.15243 1.45732 Number of flagged observations (residual, leverage or DFITS) = 1 El valor de DFITS = 1.45732 >

, por tanto, esta observación Nº 20 es un anómalo.

La observación Nº 20 no es un valor anómalo en las X, pues la distancia de Mahalanobis = 7.15243 es menor que el valor crítico X2 6, 0.95 = 12.60. No hay anómalos en las Y, pues no existe errores estandarizados mayores a 3 ni menores a -3. Fig 7.25 Normalidad de los residuos

Normal Probability Plot of PRECIO 2,5 2,0 1,5

Expected Normal Value

1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5

0

20

40

60

80

100

120

140

160

Observed Value

180

200 220 240

260

280

Capítulo 7

» 229

Ejemplo 2. Se desea estimar la contaminación (y) de un terreno, dependiendo de las variables: índice de radiación solar, X1, cantidad de agua lluvia caída en el mes, X2, y la porosidad de la tierra, X3. Y

X1

X2

X3

31,1

0,43

3,82

0,28

35,6

0,47

5,13

0,32

31,4

0,44

3,98

0,29

37,8

0,48

6,25

0,3

40,2

0,5

7,12

0,25

42,5

0,49

8,52

0,15

47,2

0,68

9,01

0,1

43,6

0,5

8,61

0,16

46,5

0,65

8,71

0,19

43,8

0,51

8,72

0,18

43,7

0,49

8,63

0,17

Model fi$ing results for: Crecimiento Independent variable

coefficient

std. error

t-value

sig.level

Promedio

2446

1.49242

7.8814

0.0001

X1

17.949181

1.671762

10.7367

0.0000

X2

2.498587

0.102533

24.3685

0.0000

X3

6.962695

2.787357

2.4980

0.0411

R-SQ. (ADJ.) = 0.9970 SE=0.308689 MAE=0.206660 11 observations fi4ed, forecast(s) computed for 0 missing val. of dep. var

El modelo resultante está dado por: Y = 11.762426 + 17.949181X1 + 2.498587X2 + 6.962695X3

230 «

Modelos de regresión

Analysis of Variance for the Full Regression Source

Sum of Squares

DF

Mean Square

F-Ratio

P-value

Model

317.122

3

105.707

1109.34

0.0000

Error

0.667022

7

0.0952889

Total (Corr.) 317.789 R-squared = 0.997901 R-squared (Adj. for d.f.) = 0.9970

10 Stnd. error of est. = 0.308689

Fig 7.27 Residuos

Fig 7.26 Normalidad residuos

Normal Probability Plot 99.9 99 95

0.21

80 50

Residuals

Cumulative percent

Residual Plot for Contaminante

0.41

20

0.01

-0.10

5 1

-0.30

0.1

30

-0.12 -0.07 -0.02

0.03

0.08

0.13

33

34

39

42

45

48

Predicted

Residuals

Para este ejemplo las variables predictoras son independientes entre si, es decir, no existe colinealidad entre ellas. Se observa en la Fig 7.26 que se puede asumir que los residuos tienen distribución aproximadamente normal, p = 0.6978. En la Fig 7.27 se aprecia que los residuos tienen un comportamiento aleatorio en torno al cero, no se aprecian curvaturas, ni aumento de la varianza, ni otras anomalías. Además, al buscar valores anómalos, no se detectan medidas influyentes para las variables independientes ni para la variable dependiente.

capítulo

8

Introdución a métodos no paramétricos

Con los datos obtenidos de una investigación, para decidir que análisis se puede realizar, se requiere determinar que distribución tienen las variables. De la elección correcta del método dependerá la calidad de los resultados que se obtengan. Para ello, se debe determinar la naturaleza de los datos que se quieren cuantificar, el número de grupos que se deben comparar, si las muestras son independientes o no, las características de las variables y su distribución de probabilidad. Para análisis de datos cuantitativos, los métodos estadísticos exigen que las variables cumplan ciertos supuestos, los que la mayoría de las veces no se verifican, tal como el supuesto de normalidad, muchas veces en estos casos se aplican transformaciones de Box u otras para lograr normalidad, es decir, se trata de lograr normalidad a toda costa, el problema mayor es como se deben analizar e interpretar los resultados de variables transformadas. Los métodos no paramétricos no requieren que los datos provengan de una distribución normal, son sencillos de aplicar, se describen a continuación a modo de introducción los métodos no paramétricos más utilizados.

8.1 Prueba para comparar dos medias. Muestras independientes 8.1.1 Prueba de U Mann-Whitney y Prueba de Rangos de Wilcoxon Sean x11, x12, … , x1n1 y x21, x22, … , x2n2 los valores observados de una misma variable en dos poblaciones distintas de tamaños n1 y n2 respectivamente Para obtener los rangos asociados a cada observación, se ordenan los valores xij de menor a mayor, se asigna el rango 1 a la observación de menor valor, rango 2 a la siguiente y así sucesivamente. Si dos o más observaciones tienen el mismo valor (empate) se les asigna el rango promedio que se les asignaría si no hubiese habido empate.

232 «

Introdución a Métodos no paramétricos

El método consiste en que si no hubiese diferencias en la distribución de ambas poblaciones, los rangos estarían mezclados aleatoriamente en las dos muestras. Pero, si la suma de los rangos asignados a las observaciones de una de las poblaciones es mayor que la suma de los rangos asignados a las observaciones de la otra población, indica que existe diferencia en la distribución de la variable X entre ambas poblaciones. Sea Rij el rango asignado a cada una de las observaciones, i=1,…,n1 y j=1,…,n2, definiendo Ti por:

este estadístico T se conoce como la Suma de Rangos de Wilcoxon La prueba U de Mann-Whitney se define por:

dependiendo si se suman los rangos de la primera muestra

o los de la segunda muestra

.

Esta prueba se utiliza cuando las mediciones se pueden ordenar en escala ordinal, en los casos que los valores provienen de una variable cuantitativa que no tiene distribución normal, de muestras independientes. Este método es una alternativa cuando no se puede utilizar la prueba t de Student, dado que no se cumple el supuesto que las muestras provienen de una distribución normal. Para aplicar éste método se debe: a) Determinar el tamaño de las muestras n1 y n2. Si estos tamaños son menores que 20 se dice que son muestras pequeñas. b) Ordenar los datos en rangos de menor a mayor. Si existen empates de rangos iguales, se deberá realizar un ajuste posterior. c) Calcular los estadísticos U1 y U2, elegir el menor para compararlo con los valores críticos de U Mann-Whitney en la tabla de probabilidades para valores pequeños como los de U en la prueba de Mann-Whitney. d) Para muestras grandes, calcular el valor z, dado que en estos casos se puede asumir normalidad. e) Decidir si se acepta o rechaza la hipótesis. Para tamaños de muestra superiores a 20 se debe utilizar una aproximación a la normal, estandarizando por:

Donde U es el valor calculado, ya sea U1 o U2,

y

U

la desviación estándar de U dada por

Capítulo 8

con N=n1 + n2, y

» 233

en la cual Gi es el tamaño del grupo de empates.

Ejemplos 1.- Para los datos del problema de la página 198, suponga que los tiempos no tienen distribución normal, las muestras son independientes de tamaños n1=10, n2=8, muestras pequeñas. Se cuenta con la información del tiempo que demoran funcionarios antiguos y nuevos en realizar un procedimiento, y se quiere determinar si existe diferencia de tiempos entre ambos grupos. Tiempos funcionario antiguos

4,7

4,8

4,9

5,0

5,15

5,2

5,3

Tiempo funcionarios nuevos

4,8

4,97

5,1

5,12

5,19 5,23 5,55

5,9

H0 : µA = µB H1 : µA ≠ µB

5,16

5,4

5,5

=0.05

Los rangos asociados a los valores observados independiente del grupo a que pertenecen está dado por: Grupo

A

A

A

A

X

4,7

4,8

4,9

5

Rango

1

2

4

6

A

A

A

5,15 5,16 5,2 9

10

12

A

A

A

5,3

5,4

5,5

14

15

16

N

N

4,8 4,97 3

5

N 5,1 7

N

N

N

N

N

5,12 5,19 5,23 5,55 5,9 8

11

13

17

De los dos valores de U calculados, se elige el más pequeño (34) y se compara con el valor crítico de U Mann-Whitney (pcrítico=0.3167) como este valor es mayor que 0.05 (el nivel de significación), no existe evidencia para rechazar H0. Luego, no existe diferencia media en los tiempos entre antiguos y nuevos para realizar el procedimiento. Para rechazar H0 se requería que U menor fuese menor a 21. 2.- Se realiza un estudio para comparar las temperaturas tomadas en dos momentos distintos durante 30 días en un proceso de purificación de riles. Los valores se muestran en la Tabla 8.1.

18

234 «

Introdución a Métodos no paramétricos

Tabla 8.1 Temperaturas Planta 1 y Planta 2

Temperatura Planta 1 Temperatura Planta 2

H0: µPlanta 1 = µPlanta 2 H1: µPlanta 1 ≠ µPlanta 2

=0.05

19,1

18,3

19,6

19,9

19,0

19,5

18,5

17,1

18,3

17,5

16,4

15,5

18,2

16,6

18,7

17,8

17,0

15,8

18,1

17,5

19,0

18,3

18,5

16,9

18,4

16,8

19,1

17,6

18,9

18,0

18,2

17,7

18,8

18,0

17,9

17,0

16,8

16,8

18,6

18,1

18,9

17,2

16,6

16,1

18,7

18,7

18,1

17,6

17,1

15,7

18,7

18,3

18,1

17,1

17,4

15,7

19,3

19,3

18,0

17,6

Capítulo 8

Tabla 8.2 Temperaturas ordenadas y grupos de empates

Planta

2 2 2 2 2 1 1 2 1 2 2 2 1 2 1 2 2 2 1 2 2 2 2 2 2 2 1 1 2 2

Temperatura 15.5 15.7 15.7 15.8 16.1 16.4 16.6 16.6 16.8 16.8 16.8 16.9 17 17 17.1 17.1 17.1 17.2 17.4 17.5 17.5 17.6 17.6 17.6 17.7 17.8 17.9 18 18 18

Rango 1 2.5 2.5 4 5 6 7.5 7.5 10 10 10 12 13.5 13.5 16 16 16 18 19 20.5 20.5 23 23 23 25 26 27 29 29 29

Ei

2

2

3

2

3

2

3

3

Planta 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 2 2 1 2

Temperatura 18.1 18.1 18.1 18.1 18.2 18.2 18.3 18.3 18.3 18.3 18.4 18.5 18.5 18.6 18.7 18.7 18.7 18.7 18.8 18.9 18.9 19 19 19.1 19.1 19.3 19.3 19.5 19.6 19.9

Rango 32.5 32.5 32.5 32.5 35.5 35.5 38.5 38.5 38.5 38.5 41 42.5 42.5 44 46.5 46.5 46.5 46.5 49 50.5 50.5 52.5 52.5 54.5 54.5 56.5 56.5 58 59 60

Ei

4 2

4

2

4

2 2 2 2

» 235

236 «

Introdución a Métodos no paramétricos

luego

por tanto

Para un nivel de significación =0.05 bilateral, los valores críticos de la normal son -1.96 y 1.96, por tanto, ya sea con U menor o U mayor, se rechaza H0, es decir las temperaturas en las plantas no son iguales. 8.1.2 Prueba de Kruskall-Wallis. Cuando se quieren comparar las medias de más de dos grupos, si las muestras provienen de distribuciones normales se realiza a través del ANOVA, si no se cumple este supuesto pero las muestras son independientes se realiza una extensión de la prueba U de Mann-Whitney, conocida como Prueba de Kruskal-Wallis. La hipótesis es: H0: Las k muestras provienen de la misma población H1: Alguna muestra proviene de una población de media diferente a las otras Si las k muestras tienen la misma distribución, esta hipótesis se puede simplificar por: H0: las k poblaciones tienen la misma media H1: no todas las medias son iguales

Capítulo 8

» 237

En el ANOVA: se tiene una variación total observada de la respuesta descompuesta en dos partes, la que mide la variación entre los grupos o tratamientos (suma de cuadrados entre tratamientos, SCE) y la variación entre las mediciones de un mismo tratamiento (suma de cuadrados dentro de los tratamientos, SCD). El test F de ANOVA rechaza la hipótesis nula que las medias son iguales si la SCE es grande respecto de la SCD. En la prueba de Kruskal-Wallis se calculan los rangos de todas las respuestas y luego se aplica el ANOVA a los rangos y no a las observaciones originales. Primero, se deben ordenar las N = n1 + n2 +…+ nk observaciones obtenidas de las k muestras, de menor a mayor y se deben asignar los rangos correspondientes. El estadístico de la prueba se define por:

Ri,i = 1,2,...,kes la suma de los rangos de las observaciones de grupo i-ésimo. Si los tamaños ni de las muestras son grandes y las muestras provienen de la misma distribución, el estadístico H tiene distribución X2 con (k-1) grados de libertad.

2 1- ,n-1

Región de rechazo de H0

Si H supera el valor crítico

2 1- ,n-1

se rechaza H0.

238 «

Introdución a Métodos no paramétricos

Ejemplo. Se tienen los datos experimentales, correspondientes a 22 mediciones de la excentricidad de una pieza metálica fabricada en tres máquinas. Máquina

Excentricidad

1

16

2

14

3

12

1

16

2

17

3

16

1

26

2

17

3

26

1

26

2

24

3

26

1

26

2

29

3

33

1

32

2

29

1

44

2

29

2

29

2

34

2

44

M

Máquina Excentricidad Máquina Excentricidad

Excentricidad Rango M Excentricidad Rango M Excentricidad Rango

1

16

3.5

2

14

2

3

12

1

1

16

3.5

2

17

6.5

3

16

3.5

1

26

11

2

17

6.5

3

26

11

1

26

11

2

24

8

3

26

11

1

26

11

2

29

15.5

3

33

19

1

32

18

2

29

15.5

1

44

21.5

2

29

15.5

2

29

15.5

2

34

20

2

44

21.5

Suma

79.5

Luego, la suma de los rangos de cada máquina son:

126.5

45.5

Capítulo 8

» 239

El valor medio de los rangos de cada máquina se calcula mediante la expresión:

luego, El rango medio está dado por la expresión:

por tanto, se tiene:

Definiendo H0:µ1 = µ2 = µ3 versus H1: que las medias difieren, el estadístico de la prueba está dado por:

Para un nivel de significación =0.05, el valor crítico de una chi-cuadrado con dos grados de libertad es 0.10. Como el valor calculado es mayor que el crítico, se rechaza H0, es decir, las medias no son iguales en las tres máquinas.

240 «

Introdución a Métodos no paramétricos

Tabla Normal Valores de la distribución normal acumulativa (desde menos infinito al punto z) z

.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

-3.0

0.0013

0.0013

0.0013

0.0012

0.0012

0.0011

0.0011

0.0011

0.0010

0.0010

-2.9

0.0019

0.0018

0.0018

0.0017

0.0016

0.0016

0.0015

0.0015

0.0014

0.0014

-2.8

0.0026

0.0025

0.0024

0.0023

0.0023

0.0022

0.0021

0.0021

0.0020

0.0019

-2.7

0.0035

0.0034

0.0033

0.0032

0.0031

0.0030

0.0029

0.0028

0.0027

0.0026

-2.6

0.0047

0.0045

0.0044

0.0043

0.0041

0.0040

0.0039

0.0038

0.0037

0.0036

-2.5

0.0062

0.0060

0.0059

0.0057

0.0055

0.0054

0.0052

0.0051

0.0049

0.0048

-2.4

0.0082

0.0080

0.0078

0.0075

0.0073

0.0071

0.0069

0.0068

0.0066

0.0064

-2.3

0.0107

0.0104

0.0102

0.0099

0.0096

0.0094

0.0091

0.0089

0.0087

0.0084

-2.2

0.0139

0.0136

0.0132

0.0129

0.0125

0.0122

0.0119

0.0116

0.0113

0.0110

-2.1

0.0179

0.0174

0.0170

0.0166

0.0162

0.0158

0.0154

0.0150

0.0146

0.0143

-2.0

0.0228

0.0222

0.0217

0.0212

0.0207

0.0202

0.0197

0.0192

0.0188

0.0183

-1.9

0.0287

0.0281

0.0274

0.0268

0.0262

0.0256

0.0250

0.0244

0.0239

0.0233

-1.8

0.0359

0.0351

0.0344

0.0336

0.0329

0.0322

0.0314

0.0307

0.0301

0.0294

-1.7

0.0446

0.0436

0.0427

0.0418

0.0409

0.0401

0.0392

0.0384

0.0375

0.0367

-1.6

0.0548

0.0537

0.0526

0.0516

0.0505

0.0495

0.0485

0.0475

0.0465

0.0455

-1.5

0.0668

0.0655

0.0643

0.0630

0.0618

0.0606

0.0594

0.0582

0.0571

0.0559

-1.4

0.0808

0.0793

0.0778

0.0764

0.0749

0.0735

0.0721

0.0708

0.0694

0.0681

-1.3

0.0968

0.0951

0.0934

0.0918

0.0901

0.0885

0.0869

0.853

0.0838

0.0823

-1.2

0.1151

0.1131

0.1112

0.1093

0.1075

0.1056

0.1038

0.1020

0.1003

0.0985

-1.1

0.1357

0.1335

0.1314

0.1292

0.1271

0.1251

0.1230

0.1210

0.1190

0.1170

-1.0

0.1587

0.1562

0.1539

0.1515

0.1492

0.1469

0.1446

0.1423

0.1401

0.1379

-0.9

0.1841

0.1814

0.1788

0.1762

0.1736

0.1711

0.1685

0.1660

0.1635

0.1611

-0.8

0.2119

0.2090

0.2061

0.2033

0.2005

0.1977

0.1949

0.1922

0.1894

0.1867

-0.7

0.2420

0.2389

0.2358

0.2327

0.2297

0.2266

0.2236

0.2206

0.2177

0.2148

-0.6

0.2743

0.2709

0.2676

0.2643

0.2611

0.2578

0.2546

0.2514

0.2483

0.2451

-0.5

0.3085

0.3050

0.3015

0.2981

0.2946

0.2912

0.2877

0.2843

0.2810

0.2776

-0.4

0.3446

0.3409

0.3372

0.3336

0.3300

0.3264

0.3228

0.3192

0.3156

0.3121

-0.3

0.3821

0.3783

0.3745

0.3707

0.3669

0.3632

0.3594

0.3557

0.3520

0.3483

-0.2

0.4207

0.4168

0.4129

0.4090

0.4052

0.4013

0.3974

0.3936

0.3897

0.3859

-0.1

0.4602

0.4562

0.4522

0.4483

0.4443

0.4404

0.4364

0.4325

0.4286

0.4247

Capítulo 8

z

.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

-0.0

0.5000

0.4960

0.4920

0.4880

0.4840

0.4801

0.4761

0.4721

0.4681

0.4641

0.0

0.5000

0.5040

0.5080

0.5120

0.5160

0.5199

0.5239

0.5279

0.5319

0.5359

0.1

0.5398

0.5438

0.5478

0.5517

0.5557

0.5596

0.5636

0.5675

0.5714

0.5753

0.2

0.5793

0.5832

0.5871

0.5910

0.5948

0.5987

0.6026

0.6064

0.6103

0.6141

0.3

0.6179

0.6217

0.6255

0.6293

0.6331

0.6368

0.6406

0.6443

0.6480

0.6517

0.4

0.6554

0.6591

0.6628

0.6664

0.6700

0.6736

0.6772

0.6808

0.6844

0.6879

0.5

0.6915

0.6950

0.6985

0.7019

0.7054

0.7088

0.7123

0.7157

0.7190

0.7224

0.6

0.7257

0.7291

0.7324

0.7357

0.7389

0.7422

0.7454

0.7486

0.7517

0.7549

0.7

0.7580

0.7611

0.7642

0.7673

0.7703

0.7734

0.7764

0.7794

0.7823

0.7852

0.8

0.7881

0.7910

0.7939

0.7967

0.7995

0.8023

0.8051

0.8078

0.8106

0.8133

0.9

0.8159

0.8186

0.8212

0.8238

0.8264

0.8289

0.8315

0.8340

0.8365

0.8389

1.0

0.8413

0.8438

0.8461

0.8485

0.8508

0.8531

0.8554

0.8577

0.8599

0.8621

1.1

0.8643

0.8665

0.8686

0.8708

0.8729

0.8749

0.8770

0.8790

0.8810

0.8830

1.2

0.8849

0.8869

0.8888

0.8907

0.8925

0.8944

0.8962

0.8980

0.8997

0.9015

1.3

0.9032

0.9049

0.9066

0.9082

0.9099

0.9115

0.9131

0.9147

0.9162

0.9177

1.4

0.9192

0.9207

0.9222

0.9236

0.9251

0.9265

0.9279

0.9292

0.9306

0.9319

1.5

0.9332

0.9345

0.9357

0.9370

0.9382

0.9394

0.9406

0.9418

0.9429

0.9441

1.6

0.9452

0.9463

0.9474

0.9484

0.9495

0.9505

0.9515

0.9525

0.9535

0.9545

1.7

0.9554

0.9564

0.9573

0.9582

0.9591

0.9599

0.9608

0.9616

0.9625

0.9633

1.8

0.9641

0.9649

0.9656

0.9664

0.9671

0.9678

0.9686

0.9693

0.9699

0.9706

1.9

0.9713

0.9719

0.9726

0.9732

0.9738

0.9744

0.9750

0.9756

0.9761

0.9767

2.0

0.9772

0.9778

0.9783

0.9788

0.9793

0.9798

0.9803

0.9808

0.9812

0.9817

2.1

0.9821

0.9826

0.9830

0.9834

0.9838

0.9842

0.9846

0.9850

0.9854

0.9857

2.2

0.9861

0.9864

0.9868

0.9871

0.9875

0.9878

0.9881

0.9884

0.9887

0.9890

2.3

0.9893

0.9896

0.9898

0.9901

0.9904

0.9906

0.9909

0.9911

0.9913

0.9916

2.4

0.9918

0.9920

0.9922

0.9925

0.9927

0.9929

0.9931

0.9932

0.9934

0.9936

2.5

0.9938

0.9940

0.9941

0.9943

0.9945

0.9946

0.9948

0.9949

0.9951

0.9952

2.6

0.9953

0.9955

0.9956

0.9957

0.9959

0.9960

0.9961

0.9962

0.9963

0.9964

2.7

0.9965

0.9966

0.9967

0.9968

0.9969

0.9970

0.9971

0.9972

0.9973

0.9974

2.8

0.9974

0.9975

0.9976

0.9977

0.9977

0.9978

0.9979

0.9979

0.9980

0.9981

2.9

0.9981

0.9982

0.9982

0.9983

0.9984

0.9984

0.9985

0.9985

0.9986

0.9986

3.0

0.9987

0.9987

0.9987

0.9988

0.9988

0.9989

0.9989

0.9989

0.9990

0.9990

» 241

-4.541

-7.173

-5.893

-10.215

-7.173

3

4

-4.501

-3.930

-3.852

-3.787

-3.733

-3.930

-3.852

-3.787

12

13

14

-4.144

-3.646

-3.610

-3.505

-3.485

-3.646

-3.610

-3.579

-3.552

-3.527

-3.505

-3.485

-3.467

17

18

19

20

21

22

23

24

-3.467

-3.527

-3.552

-3.579

-3.686

-3.733

-3.686

15

16

-4.025

-4.144

-4.025

11

-4.297

10

-4.501

-4.297

8

9

-4.785

-4.785

7

-5.208

-5.893

-5.208

5

6

-10.215

-6.965

t0.025

-2.492

-2.500

-2.508

-2.518

-2.528

-2.539

-2.552

-2.567

-2.583

-2.602

-2.624

-2.650

-2.681

-2.718

-2.764

-2.821

-2.896

-2.998

-3.143

-3.365

-3.747

-2.064

-2.069

-2.074

-2.080

-2.086

-2.093

-2.101

-2.110

-2.120

-2.131

-2.145

-2.160

-2.179

-2.201

-2.228

-2.262

-2.306

-2.365

-2.447

-2.571

-2.776

-3.182

-4.303

-31.820 -12.706

318.31

318.31

-22.327 -22.327

1

2

t0.010

t0.005

t0.001

-1.711

-1.714

-1.717

-1.721

-1.725

-1.729

-1.734

-1.740

-1.746

-1.753

-1.761

-1.771

-1.782

-1.796

-1.812

-1.833

-1.860

-1.895

-1.943

-2.015

-2.132

-2.353

-2.920

-6.314

t0.050

-1.318

-1.319

-1.321

-1.323

-1.325

-1.328

-1.330

-1.333

-1.337

-1.341

-1.345

-1.350

-1.356

-1.363

-1.372

-1.383

-1.397

-1.415

-1.440

-1.476

-1.533

-1.638

-1.886

-3.078

t0.100

-0.857

-0.858

-0.858

-0.859

-0.860

-0.861

-0.862

-0.863

-0.865

-0.866

-0.868

-0.870

-0.873

-0.876

-0.879

-0.883

-0.889

-0.896

-0.906

-0.920

-0.941

-0.978

-1.061

-1.376

t0.200

0.857

0.858

0.858

0.859

0.860

0.861

0.862

0.863

0.865

0.866

0.868

0.870

0.873

0.876

0.879

0.883

0.889

0.896

0.906

0.920

0.941

0.978

1.061

1.376

t0.800

1.318

1.319

1.321

1.323

1.325

1.328

1.330

1.333

1.337

1.341

1.345

1.350

1.356

1.363

1.372

1.383

1.397

1.415

1.440

1.476

1.533

1.638

1.886

3.078

t0.900

Valores de la distribución t - Student (desde menos infinito al punto t)

Tabla t-Student

1.711

1.714

1.717

1.721

1.725

1.729

1.734

1.740

1.746

1.753

1.761

1.771

1.782

1.796

1.812

1.833

1.860

1.895

1.943

2.015

2.132

2.353

2.920

6.314

t0.950

2.064

2.069

2.074

2.080

2.086

2.093

2.101

2.110

2.120

2.131

2.145

2.160

2.179

2.201

2.228

2.262

2.306

2.365

2.447

2.571

2.776

3.182

4.303

12.706

t0.975

2.492

2.500

2.508

2.518

2.528

2.539

2.552

2.567

2.583

2.602

2.624

2.650

2.681

2.718

2.764

2.821

2.896

2.998

3.143

3.365

3.747

4.541

6.965

31.820

t0.990

2.797

2.807

2.819

2.831

2.845

2.861

2.878

2.898

2.921

2.947

2.977

3.012

3.055

3.106

3.169

3.250

3.355

3.499

3.707

4.032

4.604

5.841

9.925

63.656

t0.995

3.467

3.485

3.505

3.527

3.552

3.579

3.610

3.646

3.686

3.733

3.787

3.852

3.930

4.025

4.144

4.297

4.501

4.785

5.208

5.893

7.173

10.215

22.327

318.31

t0.999

242 « Introdución a Métodos no paramétricos

-3.450

-3.435

-3.421

-3.408

-3.396

-3.281

-3.261

-3.450

-3.435

-3.421

-3.408

-3.396

-3.385

-3.340

-3.307

-3.281

25

26

27

28

29

30

35

40

45

-3.211

-3.195

-3.183

-3.174

-3.211

-3.195

-3.183

-3.174

-3.131

-3.107

70

80

90

100

200

500

-3.107

-3.131

-3.232

-3.261

-3.232

50

60

-3.307

-3.340

-3.385

t0.005

t0.001

-2.334

-2.345

-2.364

-2.368

-2.374

-2.381

-2.390

-2.403

-2.412

-2.423

-2.438

-2.457

-2.462

-2.467

-2.473

-2.479

-2.485

t0.010

-1.965

-1.972

-1.984

-1.987

-1.990

-1.994

-2.000

-2.009

-2.014

-2.021

-2.030

-2.042

-2.045

-2.048

-2.052

-2.056

-2.060

t0.025

-1.648

-1.652

-1.660

-1.662

-1.664

-1.667

-1.671

-1.676

-1.679

-1.684

-1.690

-1.697

-1.699

-1.701

-1.703

-1.706

-1.708

t0.050

-1.283

-1.286

-1.290

-1.291

-1.292

-1.294

-1.296

-1.299

-1.301

-1.303

-1.306

-1.310

-1.311

-1.313

-1.314

-1.315

-1.316

t0.100

-0.842

-0.843

-0.845

-0.846

-0.846

-0.847

-0.848

-0.849

-0.850

-0.851

-0.852

-0.854

-0.854

-0.855

-0.855

-0.856

-0.856

t0.200

0.842

0.843

0.845

0.846

0.846

0.847

0.848

0.849

0.850

0.851

0.852

0.854

0.854

0.855

0.855

0.856

0.856

t0.800

1.283

1.286

1.290

1.291

1.292

1.294

1.296

1.299

1.301

1.303

1.306

1.310

1.311

1.313

1.314

1.315

1.316

t0.900

1.648

1.652

1.660

1.662

1.664

1.667

1.671

1.676

1.679

1.684

1.690

1.697

1.699

1.701

1.703

1.706

1.708

t0.950

1.965

1.972

1.984

1.987

1.990

1.994

2.000

2.009

2.014

2.021

2.030

2.042

2.045

2.048

2.052

2.056

2.060

t0.975

2.334

2.345

2.364

2.368

2.374

2.381

2.390

2.403

2.412

2.423

2.438

2.457

2.462

2.467

2.473

2.479

2.485

t0.990

2.586

2.601

2.626

2.632

2.639

2.648

2.660

2.678

2.690

2.704

2.724

2.750

2.756

2.763

2.771

2.779

2.787

t0.995

3.107

3.131

3.174

3.183

3.195

3.211

3.232

3.261

3.281

3.307

3.340

3.385

3.396

3.408

3.421

3.435

3.450

t0.999

Capítulo 8

» 243

244 «

Introdución a Métodos no paramétricos

Tabla Chi-cuadrado Valores de la distribución chi-cuadrado (desde menos infinito al punto 2)

0.010

0.025

0.00

0.005

0.00

0.00

2

0.01

0.02

0.05

3

0.07

0.11

0.22

4

0.21

0.30

0.48

0.71

1.06

7.78

9.49

5

0.41

0.55

0.83

1.15

1.61

9.24

11.07

6

0.67

0.87

1.24

1.63

2.20

10.65

12.60

14.46

14.46

18.55

7

0.99

1.24

1.69

2.17

2.83

10.02

14.07

16.02

16.02

20.27

8

1.34

1.64

2.18

2.73

3.49

13.36

15.51

17.55

17.55

21.94

1

0.050

0.00

0.100

0.900

0.950

0.02

2.71

3.84

0.10

0.21

4.60

5.99

0.35

0.58

6.25

7.82

0.975

5.02

0.990

0.995

5.02

7.90

7.38

7.38

10.59

9.36

9.36

12.82

11.15

11.15

14.82

12.84

12.84

16.76

9

1.73

2.09

2.70

3.32

4.17

14.69

16.93

19.03

19.03

23.56

10

2.15

2.55

3.24

3.94

4.86

15.99

18.31

20.50

20.50

25.15

11

2.60

3.05

3.81

4.57

5.58

17.28

19.68

21.93

21.93

26.71

12

3.06

3.57

4.40

5.22

6.30

18.55

21.03

23.35

23.35

28.25

13

3.56

4.10

5.01

5.89

7.04

19.81

22.37

24.75

24.75

29.88

14

4.07

4.65

5.62

6.57

7.79

21.07

23.69

26.13

26.13

31.38

15

4.59

5.23

6.26

7.26

8.55

22.31

25.00

27.50

27.50

32.86

16

5.14

5.81

6.90

7.96

9.31

23.55

26.30

28.86

28.86

34.32

17

5.69

6.40

7.56

8.67

10.08

24.77

27.59

30.20

30.20

35.77

18

6.25

7.00

8.23

9.39

10.86

25.99

28.88

31.54

31.54

37.21

19

6.82

7.63

8.90

10.11

11.65

27.21

30.15

32.87

32.87

38.63

20

7.42

8.25

9.59

10.85

12.44

28.42

31.42

34.18

34.18

40.05

21

8.02

8.89

10.28

11.59

13.24

29.62

32.68

35.49

35.49

41.45

22

8.62

9.53

10.98

12.34

14.04

30.82

33.93

36.79

36.79

42.84

23

9.25

10.19

11.69

13.09

14.85

32.01

35.18

38.09

38.09

44.23

24

9.87

10.85

12.40

13.84

15.66

33.20

36.42

39.38

39.38

45.60

25

10.50

11.51

13.11

14.61

16.47

34.38

37.66

40.66

40.66

46.97

26

11.13

12.19

13.84

15.38

17.29

35.57

38.89

41.94

41.94

48.33

27

11.79

12.87

14.57

16.15

18.11

36.74

40.12

43.21

43.21

49.69

28

12.44

13.55

15.30

16.92

18.94

37.92

41.34

44.47

44.47

51.04

29

13.09

14.24

16.04

17.70

19.77

39.09

42.56

45.74

45.74

52.38

30

13.77

14.94

16.78

18.49

20.60

40.26

43.78

46.99

46.99

53.71

35

17.16

18.49

20.56

22.46

24.79

46.06

49.81

53.22

53.22

60.31

40

20.67

22.14

24.42

26.51

29.06

51.80

55.75

59.34

59.34

66.80

45

24.28

25.88

28.36

30.61

33.36

57.50

61.65

65.41

65.41

73.20

50

27.96

29.68

32.35

34.76

37.69

63.16

67.50

71.42

71.42

79.52

60

35.50

37.46

40.47

43.19

46.46

74.39

79.08

83.30

83.30

91.98

70

43.25

45.42

48.75

51.74

55.33

85.52

90.53

95.03

95.03

104.24

80

51.14

53.52

57.15

60.39

64.28

96.57

101.88

106.63

106.63

116.35

90

59.17

61.74

65.64

69.13

73.29

107.56

113.14

118.14

118.14

128.32

100

67.30

70.05

74.22

77.93

82.36

118.49

124.34

129.56

129.56

140.19

1,85

1,70

1,66

1,81

1,69

1,62

1,57

1,54

1,51

5

6

7

8

9

1,34

1,34

80

100

120

1,4

1,41

1,41

1,42

1,43

1,44

1,49

1,52

1,39

1,39

1,4

1,41

1,41

1,42

1,44

1,46

1,48

1,52

1,56

1,6

1,63

1,67

1,72

1,78

1,88

2,05

2,36

3,15

3

1,37

1,37

1,38

1,38

1,39

1,4

1,42

1,44

1,47

1,51

1,55

1,59

1,63

1,66

1,72

1,79

1,89

2,06

2,39

3,23

4

1,35

1,35

1,36

1,37

1,37

1,39

1,41

1,42

1,45

1,49

1,54

1,59

1,62

1,66

1,71

1,79

1,89

2,07

2,41

3,28

5

1,33

1,33

1,34

1,35

1,36

1,37

1,39

1,41

1,44

1,48

1,53

1,58

1,61

1,65

1,71

1,78

1,89

2,08

2,42

3,31

6

1,31

1,32

1,32

1,33

1,34

1,36

1,38

1,40

1,43

1,47

1,52

1,57

1,6

1,64

1,70

1,78

1,89

2,08

2,43

3,34

7

1,3

1,3

1,31

1,32

1,33

1,35

1,37

1,39

1,42

1,46

1,51

1,56

1,6

1,64

1,70

1,78

1,89

2,08

2,44

3,35

8

1,29

1,29

1,3

1,31

1,32

1,34

1,36

1,38

1,41

1,46

1,51

1,56

1,59

1,63

1,69

1,77

1,89

2,08

2,44

3,37

9

1,28

1,28

1,29

1,3

1,31

1,33

1,35

1,37

1,4

1,45

1,5

1,55

1,59

1,63

1,69

1,77

1,89

2,08

2,44

3,38

10

1,26

1,27

1,27

1,29

1,3

1,31

1,34

1,36

1,39

1,44

1,49

1,54

1,58

1,62

1,68

1,77

1,89

2,08

2,45

3,39

12

1,24

1,25

1,26

1,27

1,28

1,3

1,32

1,34

1,37

1,43

1,48

1,53

1,57

1,62

1,68

1,76

1,89

2,08

2,46

3,41

15

1,22

1,23

1,23

1,25

1,26

1,28

1,30

1,33

1,36

1,41

1,47

1,52

1,56

1,61

1,67

1,76

1,88

2,08

2,46

3,43

20

1

1,20

1,21

1,22

1,23

1,25

1,26

1,29

1,31

1,35

1,40

1,46

1,52

1,55

1,60

1,67

1,75

1,88

2,08

2,46

3,44

25

Grados de libertad del numerador

F( 0.25,v1,v2)

1,19

1,20

1,21

1,22

1,23

1,25

1,28

1,31

1,34

1,40

1,45

1,51

1,55

1,60

1,66

1,75

1,88

2,08

2,47

3,44

30

Valores de distribución F (probabilidad a la derecha igual a la especificada)

La probabilidad corresponde al área a la derecha del valor dado en la tabla

1,35

1,34

60

1,35

50

1,45

1,38

1,36

1,39

25

30

1,40

20

40

1,47

1,43

15

1,56

12

1,60

1,49

1,46

10

1,62

1,76

2,28

2,00

2,02

3

4

2

3,00

1

2,57

2

Grados de libertad del denominador v2

Tabla F

1,18

1,18

1,19

1,21

1,22

1,24

1,27

1,29

1,33

1,39

1,45

1,51

1,54

1,59

1,66

1,75

1,88

2,08

2,47

3,45

40

1,16

1,17

1,18

1,2

1,21

1,23

1,26

1,29

1,32

1,38

1,44

1,50

1,54

1,59

1,66

1,75

1,88

2,08

2,47

3,46

50

1,16

1,16

1,17

1,19

1,20

1,22

1,26

1,28

1,32

1,38

1,44

1,50

1,54

1,59

1,65

1,74

1,87

2,08

2,47

3,46

60

1,14

1,15

1,16

1,18

1,20

1,22

1,25

1,28

1,31

1,37

1,44

1,50

1,54

1,59

1,65

1,74

1,87

2,08

2,47

3,46

80

1,14

1,14

1,16

1,18

1,19

1,21

1,25

1,27

1,31

1,37

1,43

1,49

1,53

1,58

1,65

1,74

1,87

2,08

2,47

3,47

100

1,13

1,14

1,15

1,17

1,19

1,21

1,24

1,27

1,31

1,37

1,43

1,49

1,53

1,58

1,65

1,74

1,87

2,08

2,47

3,47

120

Capítulo 8

» 245

3,01

2,35

2,36

2,41

2,44

2,49

2,13

2,14

2,15

2,18

2,20

2,23

2,28

2,32

2,38

2,49

2,61

2,73

2,81

2,92

3,07

3,29

3,62

4,19

5,39

9,16

3

1,99

2,00

2,02

2,04

2,06

2,09

2,14

2,18

2,25

2,36

2,48

2,61

2,69

2,81

2,96

3,18

3,52

4,11

5,34

9,24

4

1,90

1,91

1,92

1,95

1,97

2,00

2,05

2,09

2,16

2,27

2,39

2,52

2,61

2,73

2,88

3,11

3,45

4,05

5,31

9,29

5

1,82

1,83

1,85

1,87

1,90

1,93

1,98

2,02

2,09

2,21

2,33

2,46

2,55

2,67

2,83

3,05

3,4

4,01

5,28

9,33

6

1,77

1,78

1,79

1,82

1,84

1,87

1,93

1,97

2,04

2,16

2,28

2,41

2,51

2,62

2,78

3,01

3,37

3,98

5,27

9,35

7

1,72

1,73

1,75

1,77

1,80

1,83

1,88

1,93

2,00

2,12

2,24

2,38

2,47

2,59

2,75

2,98

3,34

3,95

5,25

9,37

8

1,68

1,69

1,71

1,74

1,76

1,79

1,85

1,89

1,96

2,09

2,21

2,35

2,44

2,56

2,72

2,96

3,32

3,94

5,24

9,38

9

1,65

1,66

1,68

1,71

1,73

1,76

1,82

1,87

1,94

2,06

2,19

2,32

2,42

2,54

2,7

2,94

3,30

3,92

5,23

9,39

10

1,60

1,61

1,63

1,66

1,68

1,71

1,77

1,82

1,89

2,02

2,15

2,28

2,38

2,5

2,67

2,90

3,27

3,90

5,22

9,41

12

1,55

1,56

1,57

1,60

1,63

1,66

1,72

1,77

1,84

1,97

2,10

2,24

2,34

2,46

2,63

2,87

3,24

3,87

5,20

9,42

15

Grados de libertad del numerador

La probabilidad corresponde al área a la derecha del valor dado en la tabla

2,75

2,79

60

120

2,37

2,81

50

2,77

2,84

40

2,76

2,39

2,88

80

2,53

2,92

25

30

100

2,59

2,97

20

2,81

2,70

3,18

3,07

15

2,92

12

3,36

3,29

9

10

3,11

3,46

8

3,26

3,46

3,78

3,59

3,78

4,32

7

5

5,46

9,00

2

6

4,54

4,06

4

8,53

5,54

3

1

2

Grados de libertad del denominador v2

F( 0.10,v1,v2) 1

1,48

1,49

1,51

1,54

1,57

1,61

1,67

1,72

1,79

1,92

2,06

2,20

2,30

2,42

2,59

2,84

3,21

3,84

5,18

9,44

20

1,44

1,45

1,47

1,5

1,53

1,57

1,63

1,68

1,76

1,89

2,03

2,17

2,27

2,4

2,57

2,81

3,19

3,83

5,17

9,45

25

1,41

1,42

1,44

1,48

1,5

1,54

1,61

1,66

1,74

1,87

2,01

2,16

2,25

2,38

2,56

2,80

3,17

3,82

5,17

9,46

30

1,37

1,38

1,40

1,44

1,46

1,51

1,57

1,63

1,71

1,85

1,99

2,13

2,23

2,36

2,54

2,78

3,16

3,80

5,16

9,47

40

1,34

1,35

1,38

1,41

1,44

1,48

1,55

1,61

1,69

1,83

1,97

2,12

2,22

2,35

2,52

2,77

3,15

3,80

5,15

9,47

50

1,32

1,34

1,36

1,40

1,42

1,47

1,54

1,59

1,68

1,82

1,96

2,11

2,21

2,34

2,51

2,76

3,14

3,79

5,15

9,47

60

1,29

1,31

1,33

1,37

1,40

1,45

1,52

1,58

1,66

1,8

1,95

2,09

2,20

2,33

2,50

2,75

3,13

3,78

5,15

9,48

80

1,28

1,29

1,32

1,36

1,39

1,43

1,51

1,56

1,65

1,79

1,94

2,09

2,19

2,32

2,5

2,75

3,13

3,78

5,14

9,48

100

1,26

1,28

1,31

1,35

1,38

1,42

1,50

1,56

1,64

1,79

1,93

2,08

2,18

2,32

2,49

2,74

3,12

3,78

5,14

9,48

120

246 « Introdución a Métodos no paramétricos

5,32

5,12

4,96

8

9

10

4,17

4,08

4,03

4,00

3,96

3,94

3,92

25

30

40

50

60

80

100

120

3,07

3,09

3,11

3,15

3,18

3,23

3,32

3,39

3,49

3,68

3,89

4,1

4,26

5,14

5,79

2,68

2,70

2,72

2,76

2,79

2,84

2,92

2,99

3,10

3,29

3,49

3,71

3,86

4,07

4,35

4,76

5,41

6,59

9,28

19,16

3

2,45

2,46

2,49

2,53

2,56

2,61

2,69

2,76

2,87

3,06

3,26

3,48

3,63

3,84

4,12

4,53

5,19

6,39

9,12

19,25

4

2,29

2,31

2,33

2,37

2,4

2,45

2,53

2,6

2,71

2,9

3,11

3,33

3,48

3,69

3,97

4,39

5,05

6,26

9,01

19,3

5

2,18

2,19

2,21

2,25

2,29

2,34

2,42

2,49

2,60

2,79

3,00

3,22

3,37

3,58

3,87

4,28

4,95

6,16

8,94

19,33

6

2,09

2,10

2,13

2,17

2,20

2,25

2,33

2,40

2,51

2,71

2,91

3,14

3,29

3,5

3,79

4,21

4,88

6,09

8,89

19,35

7

2,02

2,03

2,06

2,10

2,13

2,18

2,27

2,34

2,45

2,64

2,85

3,07

3,23

3,44

3,73

4,15

4,82

6,04

8,85

19,37

8

1,96

1,97

2,00

2,04

2,07

2,12

2,21

2,28

2,39

2,59

2,80

3,02

3,18

3,39

3,68

4,10

4,77

6,00

8,81

19,38

9

1,91

1,93

1,95

1,99

2,03

2,08

2,16

2,24

2,35

2,54

2,75

2,98

3,14

3,35

3,64

4,06

4,74

5,96

8,79

19,4

10

1,83

1,85

1,88

1,92

1,95

2,00

2,09

2,16

2,28

2,48

2,69

2,91

3,07

3,28

3,57

4,00

4,68

5,91

8,74

19,41

12

1

1,75

1,77

1,79

1,84

1,87

1,92

2,01

2,09

2,20

2,40

2,62

2,85

3,01

3,22

3,51

3,94

4,62

5,86

8,70

19,43

15

Grados de libertad del numerador

La probabilidad corresponde al área a la derecha del valor dado en la tabla

4,35

4,24

20

4,75

5,59

7

4,54

4,46

5,99

6

15

4,74

6,61

5

12

9,55

7,71

6,94

10,13

3

4

2

19

1

18,51

2

Grados de libertad del denominador v2

F( 0.05,v1,v2)

1,66

1,68

1,70

1,75

1,78

1,84

1,93

2,01

2,12

2,33

2,54

2,77

2,94

3,15

3,44

3,87

4,56

5,80

8,66

19,45

20

1,60

1,62

1,64

1,69

1,73

1,78

1,88

1,96

2,07

2,28

2,50

2,73

2,89

3,11

3,40

3,83

4,52

5,77

8,63

19,46

25

1,55

1,57

1,60

1,65

1,69

1,74

1,84

1,92

2,04

2,25

2,47

2,70

2,86

3,08

3,38

3,81

4,50

5,75

8,62

19,46

30

1,50

1,52

1,54

1,59

1,63

1,69

1,79

1,87

1,99

2,20

2,43

2,66

2,83

3,04

3,34

3,77

4,46

5,72

8,59

19,47

40

1,46

1,48

1,51

1,56

1,60

1,66

1,76

1,84

1,97

2,18

2,4

2,64

2,80

3,02

3,32

3,75

4,44

5,70

8,58

19,48

50

1,43

1,45

1,48

1,53

1,58

1,64

1,74

1,82

1,95

2,16

2,38

2,62

2,79

3,01

3,30

3,74

4,43

5,69

8,57

19,48

60

1,39

1,41

1,45

1,50

1,54

1,61

1,71

1,80

1,92

2,14

2,36

2,60

2,77

2,99

3,29

3,72

4,41

5,67

8,56

19,48

80

1,37

1,39

1,43

1,48

1,52

1,59

1,70

1,78

1,91

2,12

2,35

2,59

2,76

2,97

3,27

3,71

4,41

5,66

8,55

19,49

100

1,35

1,38

1,41

1,47

1,51

1,58

1,68

1,77

1,90

2,11

2,34

2,58

2,75

2,97

3,27

3,70

4,40

5,66

8,55

19,49

120

Capítulo 8

» 247

5,71

4,46

4,29

3,93

3,86

5,87

5,69

5,57

5,42

5,34

5,29

5,22

5,18

5,15

20

25

30

40

50

60

80

100

120

5,10

3,23

3,25

3,28

3,34

3,39

3,46

3,59

3,69

3,86

4,15

4,47

4,83

5,08

5,42

5,89

6,60

7,76

9,98

15,44

39,17

3

2,89

2,92

2,95

3,01

3,05

3,13

3,25

3,35

3,51

3,80

4,12

4,47

4,72

5,05

5,52

6,23

7,39

9,6

15,1

39,25

4

2,67

2,70

2,73

2,79

2,83

2,90

3,03

3,13

3,29

3,58

3,89

4,24

4,48

4,82

5,29

5,99

7,15

9,36

14,88

39,3

5

2,52

2,54

2,57

2,63

2,67

2,74

2,87

2,97

3,13

3,41

3,73

4,07

4,32

4,65

5,12

5,82

6,98

9,20

14,73

39,33

6

2,39

2,42

2,45

2,51

2,55

2,62

2,75

2,85

3,01

3,29

3,61

3,95

4,20

4,53

4,99

5,70

6,85

9,07

14,62

39,36

7

2,30

2,32

2,35

2,41

2,46

2,53

2,65

2,75

2,91

3,2

3,51

3,85

4,10

4,43

4,90

5,60

6,76

8,98

14,54

39,37

8

2,22

2,24

2,28

2,33

2,38

2,45

2,57

2,68

2,84

3,12

3,44

3,78

4,03

4,36

4,82

5,52

6,68

8,90

14,47

39,39

9

2,16

2,18

2,21

2,27

2,32

2,39

2,51

2,61

2,77

3,06

3,37

3,72

3,96

4,30

4,76

5,46

6,62

8,84

14,42

39,4

10

2,05

2,08

2,11

2,17

2,22

2,29

2,41

2,51

2,68

2,96

3,28

3,62

3,87

4,20

4,67

5,37

6,52

8,75

14,34

39,41

12

1,94

1,97

2,00

2,06

2,11

2,18

2,31

2,41

2,57

2,86

3,18

3,52

3,77

4,10

4,57

5,27

6,43

8,66

14,25

39,43

15

Grados de libertad del numerador v1

La probabilidad corresponde al área a la derecha del valor dado en la tabla

3,80

3,83

3,97

4,05

4,18

4,77

6,55

6,20

15

5,46

12

7,21

6,94

9

10

6,06

7,57

8

7,26

6,54

8,81

8,07

7

8,43

10,65

16,04

39

2

6

12,22

10,01

5

17,44

4

38,51

3

1

2

Grados de libertad del denominador v2

F( 0.025,v1,v2)

1,82

1,85

1,88

1,94

1,99

2,07

2,20

2,30

2,46

2,76

3,07

3,42

3,67

4,00

4,47

5,17

6,33

8,56

14,17

39,45

20

30

1,75

1,77

1,81

1,87

1,92

1,99

2,12

2,23

2,40

2,69

3,01

3,35

3,60

3,94

4,40

5,11

6,27

8,50

14,12

1,69

1,71

1,75

1,82

1,87

1,94

2,07

2,18

2,35

2,64

2,96

3,31

3,56

3,89

4,36

5,07

6,23

8,46

14,08

39,46 39,46

25

1,61

1,64

1,68

1,74

1,80

1,88

2,01

2,12

2,29

2,59

2,91

3,26

3,51

3,84

4,31

5,01

6,18

8,41

14,04

39,47

40

1,56

1,59

1,63

1,70

1,75

1,83

1,97

2,08

2,25

2,55

2,87

3,22

3,47

3,81

4,28

4,98

6,14

8,38

14,01

39,48

50

1,53

1,56

1,60

1,67

1,72

1,80

1,94

2,05

2,22

2,52

2,85

3,20

3,45

3,78

4,25

4,96

6,12

8,36

13,99

39,48

60

100

120

1,48

1,51

1,55

1,63

1,68

1,76

1,90

2,02

2,19

2,49

2,82

3,17

3,42

3,76

4,23

4,93

6,10

8,33

13,97

1,45

1,48

1,53

1,60

1,66

1,74

1,88

2,00

2,17

2,47

2,80

3,15

3,40

3,74

4,21

4,92

6,08

8,32

13,96

1,43

1,46

1,51

1,58

1,64

1,72

1,87

1,98

2,16

2,46

2,79

3,14

3,39

3,73

4,20

4,90

6,07

8,31

13,95

39,49 39,49 39,49

80

248 « Introdución a Métodos no paramétricos

4.79

4.82

4.88

4.98

5.06

5.18

5.39

5.57

5.85

6.36

6.93

7.56

8.02

10.92

13.27

3.95

3.98

4.04

4.13

4.20

4.31

4.51

4.68

4.94

5.42

5.95

6.55

6.99

7.59

8.45

9.78

12.06

16.69

5

3.48

3.51

3.56

3.65

3.72

3.83

4.02

4.18

4.43

4.89

5.41

5.99

6.42

7.01

7.85

9.15

11.39

15.98

28.71

3.17

3.21

3.26

3.34

3.41

3.51

3.70

3.85

4.10

4.56

5.06

5.64

6.06

6.63

7.46

8.75

10.97

15.52

28.24

99.25 99.30

4

2.96

2.99

3.04

3.12

3.19

3.29

3.47

3.63

3.87

4.32

4.82

5.39

5.80

6.37

7.19

8.47

10.67

15.21

27.91

99.33

6

8

9

10

12

15

20

25

2.79

2.82

2.87

2.95

3.02

3.12

3.30

3.46

3.70

4.14

4.64

5.20

5.61

6.18

6.99

8.26

10.46

14.98

27.67

2.66

2.69

2.74

2.82

2.89

2.99

3.17

3.32

3.56

4.00

4.50

5.06

5.47

6.03

6.84

8.10

10.29

14.80

27.49

2.56

2.59

2.64

2.72

2.78

2.89

3.07

3.22

3.46

3.89

4.39

4.94

5.35

5.91

6.72º

7.98

10.16

14.66

27.34

2.47

2.50

2.55

2.63

2.70

2.80

2.98

3.13

3.37

3.80

4.30

4.85

5.26

5.81

6.62

7.87

10.05

14.55

27.23

2.34

2.37

2.42

2.50

2.56

2.66

2.84

2.99

3.23

3.67

4.16

4.71

5.11

5.67

6.47

7.72

9.89

14.37

27.05

2.19

2.22

2.27

2.35

2.42

2.52

2.70

2.85

3.09

3.52

4.01

4.56

4.96

5.52

6.31

7.56

9.72

14.20

26.87

2.03

2.07

2.12

2.20

2.27

2.37

2.55

2.70

2.94

3.37

3.86

4.41

4.81

5.36

6.16

7.40

9.55

14.02

26.69

1.93

1.97

2.01

2.10

2.17

2.27

2.45

2.60

2.84

3.28

3.76

4.31

4.71

5.26

6.06

7.30

9.45

13.91

26.58

99.36 99.38 99.39 99.40 99.42 99.43 99.45 99.46

7

Grados de libertad del numerador v1

La probabilidad corresponde al área a la derecha del valor dado en la tabla

6.85

120

50

6.90

7.17

40

100

7.31

30

7.08

7.56

25

6.96

7.77

20

80

8.10

15

60

9.33

8.68

12

10.04

10

8.65

11.26

10.56

7

8

13.75

12.25

6

9

9.55

16.26

5

18.00

30.82

34.12

21.20

3

29.46

3 99.16

2

98.50 99.00

1

4

2

Grados de libertad del denominador v2

F( 0.01,v1,v2)

1.86

1.89

1.94

2.03

2.10

2.20

2.39

2.54

2.78

3.21

3.70

4.25

4.65

5.20

5.99

7.23

9.38

13.84

26.50

99.47

30

50

60

80

100

120

1.76

1.80

1.85

1.94

2.01

2.11

2.30

2.45

2.69

3.13

3.62

4.17

4.57

5.12

5.91

7.14

9.29

13.75

26.41

1.70

1.74

1.79

1.88

1.95

2.06

2.25

2.40

2.64

3.08

3.57

4.12

4.52

5.07

5.86

7.09

9.24

13.69

26.35

1.66

1.69

1.75

1.84

1.91

2.02

2.21

2.36

2.61

3.05

3.54

4.08

4.48

5.03

5.82

7.06

9.20

13.65

26.32

1.60

1.63

1.69

1.78

1.86

1.97

2.16

2.32

2.56

3.00

3.49

4.04

4.44

4.99

5.78

7.01

9.16

13.61

26.27

1.56

1.60

1.65

1.75

1.82

1.94

2.13

2.29

2.54

2.98

3.47

4.01

4.41

4.96

5.75

6.99

9.13

13.58

26.24

1.53

1.57

1.63

1.73

1.80

1.92

2.11

2.27

2.52

2.96

3.45

4.00

4.40

4.95

5.74

6.97

9.11

13.56

26.22

99.48 99.48 99.48 99.48 99.49 99.49

40

Capítulo 8

» 249

14.54

12.40

11.04

10.11

18.63

16.24

14.69

6

7

8

5.67

8.63

8.49

50

60

5.54

5.59

6.35

4.50

4.54

4.61

4.73

4.83

4.98

5.24

5.46

5.82

6.48

7.23

8.08

8.72

9.60

10.88

12.92

16.53

24.26

47.47

199.2

3

3.92

3.96

4.03

4.14

4.23

4.37

4.62

4.84

5.17

5.80

6.52

7.34

7.96

8.81

10.05

12.03

15.56

23.15

46.20

199.2

4

3.55

3.59

3.65

3.76

3.85

3.99

4.23

4.43

4.76

5.37

6.07

6.87

7.47

8.30

9.52

11.46

14.94

22.46

45.39

199.3

5

3.28

3.33

3.39

3.49

3.58

3.71

3.95

4.15

4.47

5.07

5.76

6.54

7.13

7.95

9.16

11.07

14.51

21.98

44.84

199.3

6

3.09

3.13

3.19

3.29

3.38

3.51

3.74

3.94

4.26

4.85

5.52

6.30

6.88

7.69

8.89

10.79

14.20

21.62

44.43

199.4

7

2.93

2.97

3.03

3.13

3.22

3.35

3.58

3.78

4.09

4.67

5.35

6.12

6.69

7.50

8.68

10.57

13.96

21.35

44.13

199.4

8

2.81

2.85

2.91

3.01

3.09

3.22

3.45

3.64

3.96

4.54

5.20

5.97

6.54

7.34

8.51

10.39

13.77

21.14

43.88

199.4

9

2.71

2.74

2.80

2.90

2.99

3.12

3.34

3.54

3.85

4.42

5.09

5.85

6.42

7.21

8.38

10.25

13.62

20.97

43.68

199.4

10

43.08

199.4

15

2.54

2.58

2.64

2.74

2.82

2.95

3.18

3.37

3.68

4.25

4.91

5.66

6.23

7.01

8.18

10.03

13.38

2.37

2.41

2.47

2.57

2.65

2.78

3.01

3.20

3.50

4.07

4.72

5.47

6.03

6.81

7.97

9.81

13.15

20.70 20.44

43.39

199.4

12

Grados de libertad del numerador v1

La probabilidad corresponde al área a la derecha del valor dado en la tabla

8.18

5.79

8.83

40

120

5.90

9.18

8.33

6.07

9.48

25

30

8.24

6.60

9.94

80

7.70

6.99

10.80

15

20

100

8.51

11.75

12

9.43

13.61

12.83

9

10

18.31

26.28

31.33

22.78

5

49.80

199.0

2

4

198.5

55.55

3

1

2

Grados de libertad del denominador v2

F( 0.005,v1,v2)

2.19

2.23

2.29

2.39

2.47

2.60

2.82

3.01

3.32

3.88

4.53

5.27

5.83

6.61

7.75

9.59

12.90

20.17

42.78

199.4

20

2.07

2.11

2.17

2.27

2.35

2.48

2.71

2.90

3.20

3.77

4.41

5.15

5.71

6.48

7.62

9.45

12.76

20.00

42.59

199.4

25

1.98

2.02

2.08

2.19

2.27

2.40

2.63

2.82

3.12

3.69

4.33

5.07

5.62

6.40

7.53

9.36

12.66

19.89

42.47

199.5

30

1.87

1.91

1.97

2.08

2.16

2.30

2.52

2.72

3.02

3.59

4.23

4.97

5.52

6.29

7.42

9.24

12.53

19.75

42.31

199.5

40

1.80

1.84

1.90

2.01

2.10

2.23

2.46

2.65

2.96

3.52

4.17

4.90

5.45

6.22

7.35

9.17

12.45

19.67

42.21

199.5

50

1.75

1.79

1.85

1.96

2.05

2.18

2.42

2.61

2.92

3.48

4.12

4.86

5.41

6.18

7.31

9.12

12.40

19.61

42.15

199.5

60 199.5

100

1.68

1.72

1.79

1.90

1.99

2.12

2.36

2.55

2.86

3.43

4.07

4.80

5.36

6.12

7.25

9.06

12.34

19.54

1.64

1.68

1.75

1.86

1.95

2.09

2.32

2.52

2.83

3.39

4.04

4.77

5.32

6.09

7.22

9.03

12.30

19.50

42.07 42.02

199.5

80

1.61

1.65

1.72

1.83

1.93

2.06

2.30

2.50

2.81

3.37

4.01

4.75

5.30

6.06

7.19

9.00

12.27

19.47

41.99

199.5

120

250 « Introdución a Métodos no paramétricos

Capítulo 8

Tabla U Mann-Whitney Función de Distribución de U P(U≤U0), U0 el argumento, n1 ≤ n2 n2= 3

n1

U0

1

2

3

0

0.25

0.10

0.05

1

0.50

0.20

0.10

2

0.40

0.20

3

0.60

0.35

4

0.50

n2= 4

n1

U0

1

2

3

4

0

0.20

0.067

0.029

0.014

1

0.40

0.133

0.057

0.029

2

0.60

0.267

0.114

0.057

3

0.400

0.200

0.100

4

0.600

0.314

0.171

5

0.429

0.243

6

0.571

0.343

7

0.443

8

0.557

n2= 5

n1

U0

1

2

3

4

5

0

0.167

0.048

0.018

0.008

0.004

1

0.333

0.095

0.036

0.016

0.008

2

0.500

0.191

0.071

0.032

0.016

3

0.286

0.125

0.056

0.028

4

0.429

0.196

0.095

0.048

5

0.571

0.286

0.143

0.075

6

0.393

0.206

0.111

7

0.500

0.278

0.155

8

0.365

0.210

9

0.452

0.274

10

0.548

0.345

11

0.421

12

0.500

» 251

252 «

Introdución a Métodos no paramétricos

n2= 6 U0

n1 1

2

3

4

0

0.143

1

0.286

2 3

5

6

0.036

0.012

0.005

0.002

0.001

0.071

0.024

0.010

0.004

0.002

0.429

0.143

0.048

0.019

0.009

0.004

0.571

0.214

0.083

0.033

0.015

0.008

4

0.321

0.131

0.057

0.026

0.013

5

0.429

0.191

0.086

0.041

0.021

6

0.571

0.274

0.129

0.063

0.033

7

0.357

0.176

0.089

0.047

8

0.452

0.238

0.123

0.066

9

0.548

0.305

0.165

0.089

10

0.381

0.214

0.120

11

0.457

0.268

0.155

12

0.543

0.331

0.197

13

0.396

0.242

14

0.465

0.294

15

0.535

0.349

16

0.409

17

0.469

18

0.531

Capítulo 8

n2= 7 U0

n1 1

2

3

4

5

6

7

0

0.125

0.028

0.008

0.003

0.001

1

0.250

0.056

0.017

0.006

0.003

0.0006 0.0003 0.001

0.0006

2

0.375

0.111

0.033

0.012

0.005

0.002

0.001

3

0.500

0.167

0.058

0.021

0.009

0.004

0.002

4

0.250

0.092

0.036

0.015

0.007

0.004

5

0.333

0.133

0.055

0.024

0.011

0.006

6

0.444

0.192

0.082

0.037

0.018

0.009

7

0.556

0.258

0.115

0.053

0.026

0.013

8

0.333

0.158

0.075

0.037

0.019

9

0.417

0.206

0.101

0.051

0.027

10

0.500

0.264

0.134

0.069

0.036

0.324

0.172

0.090

0.049

11 12

0.394

0.216

0.117

0.064

13

0.464

0.265

0.147

0.083

14

0.536

0.319

0.183

0.104

0.376

0.223

0.129

16

0.438

0.267

0.159

17

0.500

0.314

0.191

18

0.365

0.228

19

0.418

0.268

15

20

0.473

0.310

21

0.527

0.355

22

0.402

23

0.451

24

0.500

» 253

254 «

Introdución a Métodos no paramétricos

n2= 8 U0

n1 1

2

3

4

5

6

7

8

0

0.111

0.022

0.006

0.002

0.0008 0.0003 0.0002 0.0001

1

0.222

0.044

0.012

0.004

0.0016 0.0007 0.0003 0.0002

2

0.333

0.089

0.024

0.008

0.003

0.001

3

0.444

0.133

0.042

0.014

0.005

0.002

0.001

0.0005

4

0.556

0.0006 0.0003

0.200

0.067

0.024

0.009

0.004

0.002

0.0009

5

0.267

0.097

0.036

0.015

0.006

0.003

0.0015

6

0.356

0.139

0.055

0.023

0.010

0.005

0.002

7

0.444

0.188

0.077

0.033

0.015

0.007

0.004

8

0.556

0.249

0.107

0.047

0.021

0.010

0.005

9

0.315

0.141

0.064

0.029

0.015

0.007

10

0.388

0.184

0.086

0.041

0.020

0.010

11

0.461

0.230

0.111

0.054

0.027

0.014

12

0.539

0.285

0.142

0.071

0.036

0.019

13

0.341

0.177

0.091

0.047

0.025

14

0.404

0.218

0.114

0.060

0.033

15

0.467

0.262

0.141

0.076

0.042

16

0.533

0.311

0.173

0.095

0.052

17

0.362

0.207

0.116

0.065

18

0.417

0.245

0.141

0.080

19

0.472

0.286

0.168

0.097

20

0.528

0.331

0.198

0.117

21

0.377

0.232

0.139

22

0.426

0.268

0.164

23

0.475

0.306

0.191

24

0.525

0.347

0.221

25

0.389

0.223

26

0.433

0.287

27

0.478

0.323

28

0.523

0.361

29

0.399

30

0.439

31

0.479

32

0.520

Capítulo 8

n2= 9 U0

n1 1

2

3

4

5

6

7

8

9

0

0.1000

1

0.2000 0.0364 0.0091 0.0028 0.0010 0.0004 0.0002 0.0001 0.0000

0.0182 0.0045 0.0014 0.0005 0.0002 0.0001 0.0000 0.0000

2

0.3000 0.0727

0.0182 0.0056 0.0020 0.0008 0.0003 0.0002 0.0001

3

0.4000 0.1091

0.0318 0.0098 0.0035 0.0014 0.0006 0.0003 0.0001

4

0.5000 0.1636 0.0500 0.0168 0.0060 0.0024 0.0010 0.0005 0.0002

5

0.2182

0.0277 0.0252 0.0095 0.0038 0.0017 0.0008 0.0004

6

0.2909 0.1045

0.0378

0.0145 0.0060 0.0026 0.0012 0.0006

7

0.3636

0.1409

0.0531

0.0210 0.0088 0.0039 0.0019 0.0009

8

0.4545

0.1864

0.0741 0.0300 0.0128 0.0058 0.0028 0.0014

9

0.5455 0.2409 0.0993 0.0415

0.0180 0.0082 0.0039 0.0020

10

0.3000

0.1301

0.0559 0.0248

0.0115

11

0.3636

0.1650

0.0734

0.0156 0.0076 0.0039

12

0.4318

0.2070 0.0949 0.0440 0.0209 0.0103 0.0053

13

0.5000 0.2517

0.1199

0.0567

14

0.3021

0.1489

0.0723 0.0356 0.0180 0.0094

15

0.3552

0.1818

0.0905 0.0454 0.0232

16

0.4126

0.2188

0.1119

0.0571 0.0296

17

0.4699 0.2592

0.1361

0.0708 0.0372 0.0200

18

0.5301

0.3032

0.1638

0.0869 0.0465 0.0252

19

0.3497

0.1942

0.1052

0.0570

20

0.3986 0.2280

0.1261

0.0694 0.0385

21

0.4491

0.2643

0.1496

0.0836 0.0470

22

0.5000 0.3035

0.1755

0.0998 0.0567

23

0.0332

0.0274

0.0056 0.0028

0.0137

0.0071 0.0122 0.0157

0.0313

0.3445 0.2039

0.1179

0.0680

24

0.3878

0.1383

0.0807

25

0.4320 0.2680 0.1606

0.0951

26

0.4773

0.3032

0.1852

0.1112

27

0.5227

0.3403

0.2117

0.1290

0.3788 0.2404

0.1487

28

0.2349

29

0.4185

0.2707

0.1701

30

0.4591

0.3029

0.1933

31

0.5000 0.3365

0.2181

32

0.3715

0.2447

33

0.4074

0.2729

34

0.4442

0.024

35

0.4813

0.3332

36

0.5187

0.3652

» 255

256 «

Introdución a Métodos no paramétricos

37

0.3981

38

0.4317

39

0.4657

40

0.5000

n2= 10 U0 0

n1 1

2

3

4

5

6

7

8

9

10

0.0909 0.0152 0.0035 0.0010 0.0003 0.0001 0.0001 0.0000 0.0000 0.0000

1

0.1818

2

0.2727 0.0606 0.0140 0.0040 0.0013 0.0005 0.0002 0.0001 0.0000 0.0000

0.0303 0.0070 0.0020 0.0007 0.0002 0.0001 0.0000 0.0000 0.0000

3

0.3636 0.0909 0.0245 0.0070 0.0023 0.0009 0.0004 0.0002 0.0001 0.0000

4

0.4545

5

0.5455

0.1364

0.0385 0.0120 0.0040 0.0015 0.0006 0.0003 0.0001 0.0001

0.1818

0.0559 0.0180 0.0063 0.0024 0.0010 0.0004 0.0002 0.0001

6

0.2424 0.0804 0.0270 0.0097 0.0037 0.0015 0.0007 0.0003 0.0002

7

0.3030

0.1084 0.0380 0.0140 0.0055 0.0023 0.0010 0.0005 0.0002

8

0.3788

0.1434

0.0529 0.0200 0.0080 0.0034 0.0015 0.0007 0.0004

9

0.4545

0.1853

0.0709 0.0276

10

0.5455

0.2343 0.0939 0.0376

0.0112

0.0048 0.0022 0.0011 0.0005

0.0156 0.0068 0.0031

0.0015 0.0008

11

0.2867

0.1199

0.0496 0.0210 0.0093 0.0043 0.0021 0.0010

12

0.3462

0.1518

0.0646 0.0280 0.0125 0.0058 0.0028 0.0014

13

0.4056 071868 0.0823 0.0363

0.0165 0.0078 0.0038 0.0019

14

0.4685 0.2268

0.1032

0.0467

0.0215

15

0.5315

0.3697

0.1272

0.0589 0.0277

0.0133 0.0066 0.0034

16

0.3177

0.1548

0.0736

0.0351

0.0171

0.0103

0.0051 0.0026 0.0086 0.0045

17

0.3666

0.1855

0.0903 0.0439

0.0217

0.0110 0.0057

18

0.4196

0.2198

0.1099 0.0544 0.0273

0.0140 0.0073

19

0.4725

0.2567

0.1317

0.0175 0.0093

20

0.5275

0.2970

0.1566 0.0806 0.0416

0.0665 0.0338

0.0217 0.0116

21

0.3393

0.1838

0.0966 0.0506 0.0267 0.0144

22

0.3839

0.2139

0.1148

0.0610 0.0326 0.0177

23

0.4296

0.2461

0.1349

0.0729 0.0394 0.0216

24

0.4765

0.2811

0.1574

0.0864 0.0474 0.0262

25

0.5235

0.3177

0.1819

0.1015

0.0564 0.0315

26

0.3564 0.2087

0.1185

0.0667 0.0376

27

0.3962

0.2374

0.1371

0.0782 0.0446

28

0.4374

0.2681

0.1577

0.0912 0.0526

29

0.4789 0.3004 0.1800

0.1055 0.0615

30

0.5211

31

0.2041

0.1214

0.0716

0.3698 0.2299

0.3345

0.1388

0.0827

Capítulo 8

32

0.4063

0.2574

0.1577

0.0952

33

0.4434

0.2863

0.1781

0.1088

34

0.4811

0.3167

0.2001 0.1237

35

0.5189

0.3482

0.2235 0.1399

36

0.3809 0.2483 0.1575

37

0.4143

38

0.4484 0.3019 0.1965

39

0.4827

0.2745 0.1763 0.3304 0.2179

40

03598

41

0.3901 0.2644

0.2406

42

0.4211

43

0.4524 0.3153

44

0.4841 0.3421

45

0.5159 0.3697

46

0.3980

47

0.4267

48

0.4559

49

0.4853

50

0.5147

0.2894

» 257

258 «

Introdución a Métodos no paramétricos

Bibliografía 1. Anscombe, T. (1973). Grapas in Statistical Analisys. The American Statistician, 27, 17-21 2. Avendaño, M., Vergara, P. (2003). Atractividad y Posición Competitiva. Análisis Multivariado de los Matriculados en las Universidades Chilenas del Consejo de Rectores 1999 – 2003. Ediciones Universidad Tecnológica Metropolitana. 3. Canavos George (1987). Probabilidad y Estadística. Aplicaciones y Métodos. Ed. Mc Graw Hill 4. Cortés, A., Vergara, P., Realp, E. and Domenech, J.A. (2005). Induced Phytoextraction viability studies for Zn, Ba, Cu, and Pb remediation in heavily contaminated soils. 9th International FZK / TNO Conference on Soil-Water Systems Bordeaux Convention Center, Bordeaux – France. Pág 1894-1901. 5. Delgado, M., Olavarrieta, P. y Vergara, P. (2004). Lógica Difusa en Control de Calidad de Procesos. XII Congreso Español de Tecnologías y Lógica Fuzzy. Jaén – España 6. Delgado, M., Vergara, P. y Olavarrieta, P. (2005). Fuzyy Sets Tools in Process Quality Control. IFSA2005 World Congress Fuzzy Logic, So6 Computing and Computational Intelligence Theory and Applications. Beijing - China 7. Delgado, M., Olavarrieta P., y Vergara, P. (2006). Fuzzy Set Based Protocols for Process Quality Control. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. Vol 14-1. February 8. Peña Sanchez de Rivera, D. (1987.) Estadística Modelos y Métodos 2. Modelos lineales y series temporales. Ed. Alianza Universidad Textos 9. Mendenhall William (1990). Estadística para Administradores. Ed. Iberoamérica 10. Pepió M., Polo C., y Vergara P. (1994). Control de Procesos mediante Estadísticos Ponderados Exponencialmente. Actas del XXI Congreso de Estadística e Investigación Operativa. Calella, España. 11. Saavedra, M., Capdevila, R., Vergara, P. y Jiménez, S. (2005). Análisis Multivariable de Mediciones de Nivel de Ruido. 36º Congreso Nacional de Acústica y Encuentro Ibérico de Acústica. Terrassa-España. 12. Vergara, P. (2003). Optimización de Procesos Industriales y Control de Calidad. Ediciones Universidad Tecnológica Metropolitana. ISBN:956-7359-45-8 13. Vergara, P. (1993). Optimización de la Calidad de Procesos: Modelización Global. Actas VI Congreso Internacional de Biomatemáticas ISBN 9977-64-718-6. Universidad Estatal a Distancia. Costa Rica 14. Vergara, P., Uribe, E., Cortes, A. 2011. Optimization of a quality model for CCA industrial impregnation of Pinus radiata D. Don agricultural fencing stakes. Wood Research, 58 (1). 2013

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF