Manual de Estadística Aplicada

June 12, 2019 | Author: Jorge Luis Llanos Tiznado | Category: Estimator, Type I And Type Ii Errors, Statistical Hypothesis Testing, Statistical Analysis, Scientific Method
Share Embed Donate


Short Description

estadistica...

Description

MANUAL DE

ESTADÍSTICA APLICADA

Jorge Córdova Egocheaga

Manual de Estadística Aplicada © Jorge Córdova Egocheaga 1ra Edición: Marzo del 2003

SOBRE EL AUTOR Estudios Doctorales en Ciencias Administrativas (UNFV), Maître en Administration des Affaires (MBA-UQAM, Canadá), Magíster en Administración (ESAN), Magíster Scientiae (MSc) en Economía (UNA), Especialista en Formulación y Evaluación de Proyectos de Inversión (UNMSM), Profesor de Estadística en la Maestría en Administración de la Universidad de San Martín de Porres, Docente de Estadística y de Informática Aplicada en el área de Salud en la Escuela Universitaria de Post Grado de la Universidad Nacional Federico Villarreal, Profesor Principal y Jefe de la División de Evaluación y Estadísticas de la Escuela de Sanidad Naval de la Marina de Guerra del Perú, Profesor de Estadística y Métodos Cuantitativos para los Negocios en el MBA de la Universidad San Ignacio de Loyola, Consultor y Expositor Independiente. Director Ejecutivo del Centro de Capacitación y  Asesoría de Negocios, CECAN. CECAN.

Los derechos intelectuales de esta obra son de propiedad exclusiva de Jorge Córdova Egocheaga. Toda reproducción total o parcial del contenido de esta obra requerirá la autorización del propietario de los derechos intelectuales.

CAPÍTULO

1

ESTIMACIÓN DE PARÁMETROS OBJETIVOS  Al finalizar finalizar el Capítulo Capítulo 1, el participante será capaz de: 1. 2. 3. 4. 5. 6.

Diferenciar estimación estimación puntual puntual y estimación de de intervalos. Discutir los criterios para la selección de un buen estimador. Realizar Realizar estimaciones puntuales. Construir e interpretar intervalos de confianza para m, p y s2. Ajustar el intervalos en poblaciones finitas. Determinar el tamaño de una muestra.

Manual de Estadística Aplicada

1.1 INTRODUCCIÓN La estadística se divide en DESCRIPTIVA e INFERENCIAL

DESCRIPTIVA ESTADISTICA

Estimación INFERENCIAL Prueba de Hipótesis

1.1.1 Tipos de estimaciones A) Estimación puntual Un sólo número se utiliza para estimar un parámetro desconocido. Para ser útil debe de estar acompañado del error.

Ejemplo : Para el próximo mes se espera que las ventas sean 700 unidades con un error de ±10%.

B)Estimación por intervalo Un intervalo de valores se utiliza para estimar un parámetro desconocido. El error se indica de dos manera: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo.

Ejemplo : Para el próximo mes se espera que el número de consultas en el Servicio de Reumatología sean entre 670 y 730 pacientes, con un error ±5%. 4

Jorge Córdova Egocheaga

1.1.2 CRITERIOS PARA SELECCIONAR UN ESTIMADOR: CESI. 

Coherencia : si al aumentar n, el estimador se aproxima al parámetro.



Eficiencia : proporciona menor error estándar que otros estimadores.



Suficiente: utiliza mayor cantidad de la información contenida en la muestra que otro estimador.



Insesgado (o imparcial): si el estimador tiende a tomar valores por encima y por debajo del parámetro que estima, con la misma frecuencia.

1.2 LAS ESTIMACIONES PUNTUALES (A) De la media poblacional La media muestral

estima a la media poblacional µ

(B) De la varianza y la desviación estándar S2 estima

____

σ2 S estima

____

σ

(C) De la proporción poblacional p estima

____

π

1.3 LOS INTERVALOS DE CONFIANZA Conceptos

5

Manual de Estadística Aplicada 

Nivel de confianza:   probabilidad que asociamos con una estimación del intervalo. Se representa con (1 -  α). Los niveles más utilizados son 0,90 0,95 y 0,99.



Intervalos de confianza:  es el alcance de la estimación que estamos haciendo.

1.4 INTERVALO PARA LA MEDIA 1.4.1 A partir de muestras grandes  pero  Z  = -Z0

 x - µ  σ  n

Z0

Pr {−  Z 0

≤  Z  ≤  Z 0 } = 1 − α     x − µ  Pr  − Z 0 ≤ ≤  Z 0  = 1 − α  σ  x   σ  σ    − ≤ µ  ≤ + Pr  x  Z 0  x  Z 0  = 1 − α  n n   Ejemplo: En un estudio de mercado, se realizó una encuesta a 400 familias calculando un gasto medio anual en zapatos de S/. 740 por familia. La desviación estándar fue S/. 400. Construya e interprete un intervalo de confianza al 0,95 de la estimación del gasto medio anual de zapatos por familia en esa ciudad. σ   σ   Pr  x −  Z 0 ≤ µ  ≤  x +  Z 0  = 1 − α  n n  

 

Pr 740 −

400 400

(1.96) ≤ µ  ≤ 740 +

Pr {700.80 ≤ µ  ≤ 779.20} = 0.95

6

400 400

 

(1.96) = 0.95

Jorge Córdova Egocheaga

Interpretación: Hay 0,95 de confianza que el intervalo hallado se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional ( µ).

µ

Ls

LI

muestra

1 2 3 4 5 6 7 8 1.4.2 A partir de muestras pequeñas Pero, t  =

-t0

t0

 x - µ  S  n

Pr {− t 0

≤ t  ≤ t 0 } = 1 − α     x − µ    ≤ t 0  = 1 − α  Pr − t 0 ≤ S    n    s  s   Pr  x − t 0 ≤ µ  ≤  x + t 0  = 1 − α  n n   Ejemplo Se desea estimar el tiempo medio de estancia hospitalaria para cierto tipo de pacientes. Se selecciona una muestra aleatoria de 25 HC y se calculó x = 5,7 y S = 4,5 días. Estimar m  con 0,95 de confianza.

7

Manual de Estadística Aplicada

S S ≤ µ  ≤ x + t n−1  = 1 − α  Pr x − t n−1 n n  4,8 4,8   Pr 5,7 − 2,064 ≤ µ  ≤ 5,7 + 2,064  = 1 − 0,1 25 25   Pr {3,72 ≤ µ  ≤ 7,68 } = 0,90

Interpretación: Hay 0,90 de confianza que el intervalo construido se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional ( µ) de la estancia hospitalaria. Ejemplo 2 n=9 x = 41,27

S = 16,23 α = 0,05

S S Pr x − t n−1 ≤ µ  ≤ x + tn−1  = 1 − α  n n  16,23 16,23   ≤ µ  ≤ 41,27 − 2,306 Pr 41,27 − 2,306  = 0,95 9 9   Pr {28 ,80 ≤ µ  ≤ 53 ,74 } = 0,95

Interpretación: Hay 0,95 de confianza que el intervalo construido se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional ( µ).

Ejemplo: Nueve automóviles del mismo modelo fueron conducidos de idéntica manera usando un litro de gasolina corriente. La distancia media recorrida por estos automóviles fue de 8 Kms. con una desviación 8

Jorge Córdova Egocheaga

estándar de 1,14 Kms. Construya e interprete un intervalo de confianza al 0,95 para estimar el kilometraje medio por litro de gasolina para este modelo de automóvil.

Solución:

GL= n - 1 = 8

t = 2,306

 1.14 1.14  Pr 8 − 2.306( ) ≤ µ ≤ 8 + 2.306( ) = 0,95 9 9   ≤ µ ≤ 8,.87628}= 0,. 95 Pr {7,12372 . Interpretación: Hay 0,95 de confianza que el intervalo hallado se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional.

1.5 INTERVALO PARA LA PROPORCIÓN  Pero  Z 

-Z0

Z0

Pr{− Z o ≤ Z ≤ Z } =1−α  Pr{− Z o ≤

 p −π  σ ` p

=

− π 

σ   p

donde σ   p

≤ Z } =1−α 

 p

=

 p (1 −  p ) n

Pr{ p − Z σ  p ≤ π  ≤ p + Z oσ  p} =1−α 

Ejemplo: Suponga que 1600 de 2000 trabajadores sindicalizados que se muestrearon de una gran industria dijeron que planean 9

Manual de Estadística Aplicada

votar por unirse a una federación. Si se utiliza un nivel de confianza de 0,95 ¿cuál es la estimación de intervalo para la proporción de la población?. Interprete.  p =

1600

2000  Z  = 1,96

= 0.80

σ  p =

(0,80)(1− 0,80)

2000 σ  p = 0,00894

Pr{0,80-1,96(0,00894) < π< 0,80 +1,96(0,00894) }= 0,95 Pr{0,782 < π < 0,818} = 0,95

Interpretación: Hay 0,95 de confianza que el intervalo calculado pertenece al grupo de intervalos que contienen a la verdadera proporción poblacional.

1.6 AJUSTE PARA POBLACIONES FINITAS El error estándar de la estimación sufre un ajuste, cuando se trata de una población finita. Error estándar de la media σ  X 

=

σ  n

.

 N  − n  N  − 1

Error estándar de la proporción σ  p

=

 p (1 −  p) n

.

 N  − n  N  − 1

Si la proporción n/N es menor a 0,05 se omite el ajuste.

Ejemplo 1 Hay 250 familias en un pequeño poblado. Una encuesta con 40 familias reveló que la contribución media anual a obras comunitarias es de US $450, con una desviación estándar de US $ 75. Establezca un intervalo de confianza de 0,95 para la contribución media anual. Interprételo. 10

Jorge Córdova Egocheaga

Solución: Como la muestra es mayor a 5%, procede el ajuste.

   N − n        ≤ µ  ≤  x + Z  σ    N − n  }= 1 − α      n    N − 1  n    N −1    75      75    250 − 40  250 − 40    − ≤ µ  ≤ + = 0,95     450 1,96 Pr {450 1,96 }       40   250 −1     40   250 −1   Pr{450 − 23,24( 0,8433) ≤ µ  ≤ 450 + 23,24( 0,8433)} = 0,95 Pr{428,66 ≤ µ  ≤ 471,34} = 0,95 Pr{ x − Z 

σ 

Interpretación: Hay 0,95 de confianza que el intervalo elaborado pertenezca al grupo de intervalos que contienen a la verdadera media poblacional.

Ejemplo 2 Hay 300 técnicos en una gran empresa metal mecánica. Una muestra de 50 reveló que 18 cuentan con una experiencia previa en otra empresa similar. Establezca un intervalo de confianza al 0,95 para la proporción de técnicos con experiencia en otra empresa.

Solución:  p =

18 50

    

= 0,36

=

(036)(1 − 0,36)

50 σ  p = 0,06788

     ≤ π  ≤  p + Z oσ  p   N  − n) } = 1 − α    N  −1   N  − 1         300 − 50     ≤ π  ≤ 0,36(1,96)(0,06788) Pr{0,36 − (1,96)(0,06788)  300 −1         Pr{0,36 − 0,12165≤ π  ≤ 0,36 + 0,12165} = 0,95 Pr{0,23835≤ π  ≤ 0,48165} = 0,95 Pr{ p − Z oσ  p 

 N  − n) 

σ  p

300 − 50  } = 0,95 300 −1  

11

Manual de Estadística Aplicada

Interpretación: Hay 0,95 de confianza que el intervalo construido pertenezca al grupo de intervalos que contienen a la verdadera proporción poblacional.

1.7 EL TAMAÑO DE LA MUESTRA Y EL ICA. A) ¿De qué depende el tamaño de la muestra (n)? Depende de: 1. La magnitud del máximo error permisible (e) y, 2. El nivel de confianza  de que el error en la estimación no exceda del máximo error permisible (1-  α )

C) Derivación de la formula Pr{ x − Z o

Entonces

σ  n

≤ µ  ≤  x +  Z 

σ  n

} = 1 − α 

Error = e

e=

 Z σ  n

Elevando al cuadrado e

2

=

n=

 Z 2 .σ  2 n

 Z 2 .σ  2 e2

Ejemplo 1  A fin de conocer el gasto mensual en medicinas por familia, el Gerente de Marketing de un laboratorio farmacéutico desea determinar el tamaño de la muestra que le proporcione un nivel de confianza de 0,95 (Z = 1,96).  Además conoce por estudios anteriores que las compras medias por familia eran de S/. 120 mensuales, con una desviación estándar de 30. El Gerente busca un tamaño de muestra que le permita estimar el nivel de gasto con un error de ±10.

12

Jorge Córdova Egocheaga

Solución Datos: 1 - α = 0,95 Z = 1,96 σ = 30 e = 10

n =

n =

Z

2

e

σ 

2

2

(1 , 96 ) 2 ( 3 0 ) 2 (1 0 ) 2

n = 35

Para proporciones se calcula a partir de la formula donde 2 Z : Valor tabular para un n=

Z p(1-p) e

2

nivel de confianza p(1-p): Variancia

Ejemplo 2 Un congresista desea determinar su popularidad en zona norte del país. Especifica que la proporción de electores que lo apoyarán debe calcularse dentro del ± 2% de la proporción de la población, además, desea tener un grado de confianza de 0,95. En las elecciones pasadas recibió 40% de los votos en esa parte del país. Duda que esto haya sufrido muchos cambios. ¿De cuántos electores debe ser la muestra?.

13

Manual de Estadística Aplicada

Solución

Datos: 1 - α = 0,95 Z = 1,96  p = 0,40 e = 0,02

(1,96 ) 2 ( 0, 40 )( 0,60 )

n

=

n

=

n

= 2305

( 0 ,02 ) 2 0 ,921984 ( 0 ,02 ) 2

1.8 INTERVALO PARA LA VARIANZA

Pero ,

 χ 12-α 

 χ α 2

2

 

P r  χ

2 1- α 2



(n - 1)S 2 σ 2

 χ (2n −1)

2

χ

2



χ α 2

 = 1−α  2 

 

Entonces:

 2  ( n − 1) S  2 2 ≤  χ α  2  = 1 − α  Pr  χ 1-α  2 ≤ 2 σ     1 σ  2 1   ≥ ≥ Pr  2  = 1 − α  2 2  χ α  2    χ 1-α  2 ( n − 1) S    ( n − 1) S  2 ( n − 1) S  2   2 ≤ ≤ Pr  σ   = 1 − α  2 2  χ 1-α  2    χ α  2 

14

Jorge Córdova Egocheaga

Ejemplo: El número de ventas realizadas durante 10 días (n = 10) presenta una varianza de 9 (s 2 = 9). Establezca un intervalo de confianza para la varianza poblacional ( σ2) al 0,90.Interprételo. Solución:

Datos: S2= 9 n = 10 α = 0,10

 9(9) ≤ σ 2 Pr  16,919



  = 0.90 3,325

 81 Pr  ≤ σ 2 16,919



  = 0.90 3,325

Pr {4.7875 ≤ σ 2

9(9)

81

≤ 24,3609} = 0.90

Interpretación: Hay 0,90 de confianza que el intervalo hallado se encuentre dentro del grupo de intervalos que contienen a la verdadera varianza poblacional.

15

Manual de Estadística Aplicada

16

CAPÍTULO



HIPÓTESIS CON UNA SOLA MUESTRA OBJETIVOS  Al finalizar el Capítulo 2, el participante será capaz de: 1. 2. 3. 4. 5.

Utilizar datos provenientes de una muestra aleatoria para conocer el parámetro poblacional. Comprender los dos tipos de errores posibles que se producen al probar una hipótesis. Plantear pruebas de una cola y pruebas de dos colas. Realizar el procedimiento para probar hipótesis. Usar con propiedad las distribuciones t   ,Z y c2 para probar hipótesis sobre medias, proporciones y varianzas de población.

Manual de Estadística Aplicada

2.1 CONCEPTOS BÁSICOS (A) Hipótesis:  Suposición acerca del parámetro. 

Hipótesis planteada o nula . Hp ó H0 Es la suposición que el parámetro tome determinado valor.

un

Ejemplo:   La hipótesis nula es que la media de la población es igual a 200. Ho : µ = 200 

Hipótesis alternativa  (Ha o H1) Es el complemento de la hipótesis nula. Se acepta cuando se rechaza la hipótesis nula. Formas Si Ho : m = 200 Si Ho : m £ 200 Si Ho : m ³ 200

Ha : m ¹200 Ha : m > 200 Ha : m < 200

La condición “ igual ” siempre se considera en la hipótesis nula Las siguientes estadísticas.

afirmaciones

son

hipótesis

 La

media de vida de los peruanos es de 72 años.   La eficacia de dos medicamentos para curar el cáncer es similar.   Las notas de la el aula sigue un modelo normal de media de 12 y desviación estándar de 2.5 Una prueba de hipótesis  permite aceptar o rechazar si determinadas afirmaciones son ciertas o falsas en función de los datos observados en una muestra. 18

Jorge Córdova Egocheaga

(B) Objetivo de la prueba de hipótesis. El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro.

(C) Nivel de significación ( a)

α/2

α/2

(1 - α) Zona de  Aceptación

-Z0

Z0

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén   fuera de área de aceptación. El  nivel de confianza (1-a), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.

(D) Tipos de errores Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Hp o de la Ha, puede incurrirse en error: La muestra seleccionada conduce a EN LA POBLACIÓN

ACEPTAR Hp

RECHAZAR Hp

Hp es cierta

Decisión correcta

Error tipo I ó α

Hp es falsa

Error tipo II ó β

Decisión correcta

19

Manual de Estadística Aplicada

(1 - α)

H p µ ≤ µo

Zona de rechazo si Hp es cierta α

µo Poder de la prueba

Ha µ > µo

(1 - β)

β Zona de aceptación Hp

µ1 Zona de Rechazo Hp

Si la hipótesis planteada, H p : m £ m0 , es cierta, la zona de rechazo, a, medirá la probabilidad de que se rechace dicha hipótesis siendo cierta, incurriendo en Error Tipo I o a. Supongamos que la hipótesis planteada es falsa, H p: m £ m0 , y que la alternante Ha: m > m 0 es verdadera, y si los resultados de la muestra nos conducen a aceptar la hipótesis planteada, estamos cometiendo el Error Tipo II ó b La magnitud del Error β  depende de la magnitud del Error a y de la discrepancia entre µ 0 Y µ 1 Se observa la existencia de una relación inversa entre la magnitud de los errores α y β : conforme a aumenta, β disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal sería establecer α y β. En la práctica se establece el nivel a y para disminuir el Error β se incrementa el número de observaciones en la 20

Jorge Córdova Egocheaga

muestra, pues así se acortan los limites de confianza respecto a la hipótesis planteada. La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable aumentar a  cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba ( 1- β) La aceptación de la hipótesis planteada debe interpretarse como que la información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis.

(E) Tipos de prueba a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad Ejemplo Hp : µ = 200 Ha : µ 200

α/2

α/2

(1 - α) Zona de  Aceptación

-Z0

Z0

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ³ o ≤ . Hp : µ ≥ 200 Hp : µ ≤ 200 Ha : µ > 200 Ha : µ < 200

α

α (1 - α)

(1 - α)

21

Manual de Estadística Aplicada

2.2 PRUEBA DE HIPÓTESIS ACERCA DE LA MEDIA POBLACIONAL (A) Con varianzas conocidas (muestras grandes) Ejemplo: Se afirma que el salario diario medio de los técnicos de una cierta zona minera es de S/.65,42, con una desviación estándar S/. 2,32. Una muestra de 144 técnicos que laboran en esa zona reciben un salario diario medio de 64,82 soles. ¿Puede considerarse este resultado como sustento para afirmar que técnicos de esa zona tienen un salario diario diferente de S/. 65,42 a un nivel de significación a = 0,05 ?.

Procedimiento 1) Plantear las hipótesis: Hp : m = 65,42 Ha : m ¹ 65,42 2) Seleccionar el nivel de significación: a = 0.05 3) Elegir la prueba estadística: x - µ 

Ζc =

σ  x

Los supuestos son: • la población está normalmente distribuida. • la muestra ha sido seleccionada al azar. 4) Determinación de los criterios de decisión

α/2

α/2 (1 - α)

-Z0 -1.96

22

Z0 1,96

Jorge Córdova Egocheaga

Si { -1.96 ≤ Zc £  1.96 } se acepta la Ho, en caso contrario se rechaza. 5)

Cálculos:

Ζc =

6)

64 ,82 − 65 , 42 2 ,32 144

= − 3,10

Conclusiones (1) Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación de 0,05. La prueba resultó ser significativa. (2) La evidencia estadística permite rechazar la hipótesis planteada. (3) Por lo tanto los datos muestrales confirman que el promedio de salarios diarios de los técnicos de la zona de estudio es menor de S/.65,42.

EJEMPLO El administrador de un centro de salud desea saber si el tiempo medio invertido por los pacientes en la sala de espera es mayor que 20 minutos. Una muestra de 100 pacientes permanecieron, en promedio, 23 minutos en la sala de espera entre el registro y la atención por algún médico del centro de salud. La desviación estándar de la muestra fue de 10. Sea α=0.05 1.

Plantear las hipótesis  Ho : µ  ≤ 20  Ha : µ 

2. 3. 4.

> 20

Definir la prueba estadística: Como n = 100, entonces e aplica PRUEBA Z Seleccionar el nivel de significación α = 0,05 Determinar el valor crítico: Como α = 0,05 y es de una sola cola, entonces Z = 1.645

23

Manual de Estadística Aplicada

Criterios de decisión Si prueba Z  es mayor que 1,645, se rechaza Ho. 0

5.

1,645

Si prueba Z  es menor o igual que 1,645, se acepta Ho.

Realizar el cálculo del estadístico Z  x − µ  23− 20 3  Z = = = =3 10  s x 1 100

6. 7.

Conclusiones (A) Se rechaza la hipótesis planteada, se acepta la hipótesis alternante a un nivel de significación de 0,05. La prueba resultó significativa (B) Los datos disponibles como evidencia empírica, han permitido rechazar la hipótesis planteada. (C) El tiempo que espera un paciente muy probablemente sea mayor a los 20 minutos.

EJEMPLO Una encuesta en 64 laboratorios médicos reveló que el precio medio cobrado por realizar cierta prueba es de S/. 12.00 con una desviación estándar de S/. 6.00. ¿ Proveen estos datos la suficiente información para indicar que la media de la población es mayor que 10?. Sea α = 0.01

EJEMPLO Los siguientes datos son los consumos de oxígeno (en ml) durante la incubación de una muestra aleatoria de 15 suspensiones celulares: 14.0, 14.1, 14.5, 13.2, 11.2, 14.0, 14.1, 12.2, 11.1, 13.7, 13.2, 16.0, 12.8, 14.4, 12.9.

24

Jorge Córdova Egocheaga

¿Proporcionan estos datos suficiente evidencia, aun nivel de 0.05 de significación , de que la media de la población no es igual a 12 ml.?.

EJEMPLO El administrador de una clínica quiere saber si la población que concurre a una clínica A tiene un ingreso medio familiar mayor al de la población que concurre a una clínica B. Los datos consisten en los ingresos familiares de 75 pacientes internados en la clínica A y 80 pacientes internados en la clínica B. Las medias de las muestra son S/ 6800 y S/ 5450 respectivamente, y varianzas de S/ 600 y S/ 500 respectivamente.

EJEMPLO Un epidemiólogo desea comparar dos vacunas antirrábicas para averiguar si es posible concluir que existe diferencia en su efectividad. Las personas que previamente habían sido vacunada contra la rabia se dividieron en dos grupos. El grupo 1 recibió una dosis de refuerzo de la vacuna del tipo 1, y el grupo 2 recibió una dosis de refuerzo de la vacuna del tipo 2. Las respuestas de los anticuerpos se registraron dos semanas después: Grupo

n

 x

s

1

10

4.5

2.5

2

9

2.5

2.0

EJEMPLO Doce individuos participaron en un experimento para estudiar la efectividad de cierta dieta, combinada con un programa de ejercicios, para la reducción de los niveles de colesterol en suero. ¿ proporcionan estos datos la evidencia suficiente para concluir que el programa de ejercicios y dieta 25

Manual de Estadística Aplicada

es efectivo para la reducción de los niveles de colesterol en el suero?.  Antes:

201, 231, 221, 260, 228, 237, 326, 235, 240, 267, 284, 201 Después: 200, 236, 216, 233, 224, 216, 296, 195, 207, 247, 210, 209

EJEMPLO  Antes del inicio de un programa de inmunización contra la rubéola en un área metropolitana, una encuesta reveló que 150 integrantes de una muestra de 500 niños de primaria habían sido inmunizados contra esta enfermedad. ¿son compatibles estos datos con el punto de vista de que el 50% de los niños de primaria de dicha área habían sido vacunados contra la rubéola?.

(B) Con varianzas desconocidas (muestras chicas) Ejemplo: En un programa de mejoramiento del desempeño en un centro de salud los participantes miden su progreso mediante el tiempo que les toma realizar cierto proceso. Se tomó una muestra de 25 sujetos de esta empresa para medirles el tiempo que requieren para culminar el proceso (en minutos) de otorgar una cita a un paciente, encontrándose una media muestral de 11,7 minutos y una desviación de estándar de 2,3 minutos. ¿Se puede afirmar que el tiempo medio para culminar este proceso es inferior de 12 minutos?. Utilice un nivel de significación a = 0,05.

Solución 1) Hipótesis: 26

H p : µ ≥ 12

Jorge Córdova Egocheaga

Ha : µ < 12 2) Nivel de significación: α = 0,05 3) Prueba estadística:

t c =

 x - µ  S  n

Los supuestos son: •la población se distribuye normalmente. •la muestra elegida al azar. 4) Criterios de decisión

α

(1 - α)

-t 0

-1.711

to con GL = 24 y α = 0,05 Si { tc>-1,711} se acepta la H p en caso contrario se rechaza 5)

Cálculos:

t c

=

11 , 70 2 ,3

− 12

= − 0 , 6522

25

6)

Conclusiones



Se acepta la hipótesis planteada a un nivel de significación de a  = 0,05. La prueba resultó no significativa.



Los datos muestrales no permiten afirmar que el tiempo requerido para culminar la tarea es inferior a 12 minutos.

27

Manual de Estadística Aplicada

Ejemplo Se hizo un estudio de una muestra de 25 registros de pacientes de un hospital de enfermedades crónicas tomando como base pacientes externos. El número medio de visitas por paciente fue 4,8 y la desviación estándar muestral fue de 2. ¿Puede concluirse a partir de estos datos que la media de la población es mayor que cuatro visitas por paciente?. Suponga que la probabilidad de cometer error del tipo I es de 0,05.

2.3 PRUEBA DE HIPÓTESIS ACERCA DE LA PROPORCIÓN POBLACIONAL (p) Ejemplo: El Gerente de la Clínica Santa María afirma que por lo menos 55% de los pacientes se encuentra plenamente satisfecho con los servicios recibidos. ¿Qué conclusión puede obtenerse si de una muestra aleatoria de 500 pacientes 245 manifestaron su preferencia?. Utilice un nivel de significación a = 0,01 para comprobar la afirmación.

Proporción muestral

:  p =

245 500

=

0 , 49

1) Planteo de Hipótesis: Hp : π ≥ 0,55 Ha : π -2,33} se acepta la hipótesis planteada, en caso contrario se rechaza. 5) Cálculos σ  p

=

σ  p

=

π (1 − π  ) n (0,55)(0,45) 500

= 0,022

Reemplazando valores en Z:  Z  =

6)

0,49− 0,55 0,022

=

−0,06 0,022

= −2,73

Conclusiones 1) Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación a = 0,01. La prueba resultó ser altamente significativa. 2) La evidencia empírica nos permite rechazar la hipótesis planteada. 3) El Gerente de Clínica está equivocado en su afirmación, puesto que el resultado de la prueba indica que los pacientes que se encuentran plenamente satisfechos es menor a 55%.

29

Manual de Estadística Aplicada

2.4 PRUEBA DE HIPÓTESIS ACERCA DE LA VARIANZA Ejemplo: El Gerente de Producción una fábrica productora de material quirúrgico, entre ellos agujas N° 21, desea que la variabilidad de éstas sea a lo más 0,0005 pulgadas cuadradas y para el efecto, decide tomar una muestra de su producción escogiéndola al azar obteniendo los resultados: 1,13; 1,12; 1,15; 1,10; 1,11; 1,18; 1,20; 1,14; 1,12; 1,19; 1,10; 1,14; 1,13. La probabilidad de cometer error tipo I escogido por el fabricante es 0,01. 1) Planteo de Hipótesis: Hp : s2 £ 0,0005 Ha : s2 > 0,0005 2) Nivel de significación: α = 0,01 3) Prueba estadística: (n – 1) S 2 σ2 Los supuestos son: • La población se distribuye normalmente. • La muestra ha sido seleccionada al azar. 4) Criterios de decisión

α/2=0,01

(1 - α) 0,99

 χ α 2

2

26,217

30

Jorge Córdova Egocheaga

Si {x2 26,217 } se rechaza la hipótesis planteada, en caso contrario se acepta 5) Cálculos Datos: n = 13 S2= 0,0011634 6)

Conclusiones 1) Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación α = 0,01. La prueba resultó ser altamente significativa. 2) La evidencia empírica nos permite rechazar la hipótesis planteada. 3) La variabilidad de la longitud de las agujas N° 21 excede a los límites establecidos. El producto no tiene una calidad uniforme.

31

Manual de Estadística Aplicada

32

CAPÍTULO

3

HIPÓTESIS CON DOS MUESTRAS INDEPENDIENTES OBJETIVOS  Al finalizar el Capítulo 1, el participante será capaz de: 1. 2. 3. 4.

Utilizar muestras aleatorias provenientes de diferentes poblaciones, para probar hipótesis acerca de cómo están relacionadas las dos poblaciones. Comprender cómo la prueba de hipótesis acerca de las diferencias entre medias poblacionales toma diversas formas. Diferenciar entre muestras independientes y dependientes cuando se comparan dos medias. Probar una hipótesis acerca de las proporciones de dos poblaciones que poseen el atributo de interés.

Manual de Estadística Aplicada

3.1 PRUEBA DE DIFERENCIA DE MEDIAS CON VARIANZAS CONOCIDAS Ejemplo: En un estudio comparativo de las estaturas de niños de 10 años, en dos ciudades diferentes, se conoce que la desviación estándar poblacional es 0,8 y 1,1 metros respectivamente. Se desea conocer si existe diferencia entre la media de talla de los niños de 10 años de las dos ciudades; una muestra de 30 y 35 niños determinó una media muestral de 1,30 y 1,35 metros respectivamente. Probar la hipótesis respectiva usando un nivel de significación de 5%.

Solución: 1) Planteo de Hipótesis Hp : µ1 = µ2 Ha : µ1 ¹ µ2 2) Nivel de significación α = 0,05 3) Prueba de estadística ( x 1 − x 2 ) - (µ1 − µ 2 ) Ζc = 2 2 σ1

n1

 –  –

+

σ 2 n2

con los supuestos Las distribuciones son normales Las muestras se seleccionaron al azar.

4) Criterios de decisión µ1 < µ2

α/2 = 0.025

µ1 > µ2

α/2 = 0.025

(1 - α)

µ1 = µ2

34

-Z0

Z0

-1.96

1.96

Jorge Córdova Egocheaga

Si {−1,96 ≤ Zc ≤ 1,96 }se acepta Ho, en caso contrario se rechaza. 5) Cálculos (1,30 − 1,35) - 0

Ζc =

2

(0,8) 30

6)

2

+

(1,1)

= −0,2115

35

Conclusiones 1° No se rechaza la hipótesis nula, a un nivel de significación de 0,05. La prueba resultó no significativa. 2° La evidencia estadística disponible permite concluir que no hay diferencias entre las estaturas medias de niños de 10 años en las dos ciudades

3.2 PRUEBA DE HOMOGENEIDAD DE VARIANZAS 

Para prueba de dos colas, el estadístico de prueba está dado por: S 12  F  = S  22



S 12 y S 22 son las variancias muestrales para las dos muestras

La hipótesis nula se rechaza si el cálculo del estadístico de prueba es más grande que el valor crítico (de tablas) con nivel de confianza y grados de libertad para el numerador y el denominador.

35

Manual de Estadística Aplicada

EJEMPLO 1 Colin, agente de bolsa del Critical Securities, reportó que la tasa media de retorno en una muestra de 10 acciones de software fue 12.6% con una desviación estándar de 3.9%. La tasa media de retorno en una muestra de 8 acciones de compañías de servicios fue 10.9% con desviación estándar de 3.5%. Para .05 de nivel de significancia, ¿puede Colin concluir que hay mayor variación en las acciones de software?  –

Paso 1:  H0:σ s ≤ σu

H 1:σs > σu  

 –

Paso 2: H 0 se rechaza si F > 3.68, gl = (9, 7), α = .05

 –

Paso 3:  F  = (39 . )2 / (35 . )2

 –

= 12416 .

Paso 4: H 0  no se rechaza. No hay evidencia suficiente para asegurar que hay mayor variación en las acciones de software.

Ejemplo: En un programa de salud para pacientes con problemas cardíacos de dos grupos de edades: (40 - 49) y (50 - 59) años, la Tasa de Recuperación Cardíaca (TRC) es un indicador del progreso del paciente. Una muestra de pacientes de cada grupo de edad fue considerado en un estudio, que consistió en medir la TRC (minutos) de cada paciente después de correr 3 Km.

36

Jorge Córdova Egocheaga

Datos Tasa de Recuperación Cardiaca (minutos) Grupo 1 (40 - 49): 12,24; 12,45 11,04 11,22 11,58 8,34 11,16 11,52 8,28 12,01 11,03 12,01 11,31 Grupo 2 (50 -59): 14,33 10,35 12,51 11,28 11,48 14,05 10,51 18,50 18,11 13,45 Determine si existe diferencia en la variabilidad de las TRC en los dos grupos de edades. Utilice α = 0,10 Las medias y varianzas muestrales de las TRC en los pacientes de los dos grupos de edades son: Grupo1 (40 - 49)

Grupo 2 (50 - 59)

X = 11,09

 X  = 13,46

S 12 = 1,74

S 22 = 8,45

n1 = 13

n2 = 10

37

Manual de Estadística Aplicada

Solución 1) Planteo de Hipótesis: H o : σ 12 = σ 22 H a : σ 12

≠ σ 22

2) Nivel de significación: α = 0,10 3) Prueba estadística:

Fc =

2 S  M 

S m2

2 S  M  : Varianza muestral mayor 

S m2 : Varianza muestral menor 

con los supuestos: - las poblaciones están normalmente distribuidas. - las muestras han sido seleccionadas al azar

4) Criterios de decisión

α/2

(1 - α)

F1- α/2 F0,.95 0, 326

38

α/2

Fα/2 F0,05 2,80

Jorge Córdova Egocheaga

Fα 

=

y con GL (9,12)=2,80

2

F1-α  2 Si

con a 2

=

1 F0,05

1

=

3,07

(12,9)

= 0,326

{0,326 ≤ Fc ≤ 2,80 . } se acepta la H o en caso contrario se rechaza. 5)

Cálculos

Fc =

2 S  M 

=

2 S m

8.45 1.74

= 4.86

6) Conclusiones 1° Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación de a = 0,10. Las varianzas no son homogéneas 2° La evidencia estadística no permite aceptar la H o3° Las TRC de pacientes en los dos grupos de edades tienen variabilidad diferentes.

3.3 PRUEBA PARA DIFERENCIA DE MEDIAS VARIANCIAS NO HOMOGÉNEAS Y N µ2

α/2

µ1 = µ2

- t´ -2,25

t´ 2,25

Si {−2,25 ≤ tc ≤ 2,25} se acepta la H o, en caso contrario se rechaza

5) Cálculos

t c = (11.09 − 13.46 ) - 0 = − 2.37 = −2.4 1.74 13

+

8.45

0.989

10

6) Conclusiones 1° Se rechaza la Ho  se acepta la H1 a un nivel de significación de 5% . La prueba resultó ser significativa. 2° La evidencia estadística no permite aceptar la H o 3° Las TRC de pacientes en los dos grupos de edades no tienen el mismo promedio.

40

Jorge Córdova Egocheaga

3.4 PRUEBA PARA DIFERENCIA DE MEDIAS CON VARIANCIAS HOMOGÉNEAS Y s2 DESCONOCIDOS Ejemplo:

Leche Madre

Leche Polvo Incremento medio de peso

X1 = 366,35

X2 = 369,74

Desviación estándar 

S 1 = 16,71

S 2

= 14,20

Tamaño de la muestra

n1 = 25

n2

= 20

Se desea determinar si existen diferencias en los promedios de incrementos de peso (gramos) de niños recién nacidos (en un período 20 días) alimentados con leche materna y leche en polvo.

Solución: 1) Planteo de hipótesis Ho : µ1 = µ2 Ha : µ1 ¹ µ2 2) Nivel de significación α = 0,01 3) Prueba estadística

t c =

(x

1

− x 2 ) - ( µ1 − µ 2 )   1 1   S   +   n1 n2  2  p

con los supuestos las poblaciones se distribuyen normalmente las muestras han sido seleccionadas al azar Variancia S  p2 ponderada

=

(n − 1)S + (n − 1)S 1

2 1

2

n1 + n2

−2

2 2

 

41

Manual de Estadística Aplicada

4) Criterios de decisión

to con (n

1

+ n2 -2)

α/2

α/2

(1 - α)

- tO -2,6956

tO 2,6956

Si {−2,6956 ≤ tc ≤ 2,6956} se acepta la H o, en caso contrario se rechaza 5) Cálculos 2 24(16,71) 2 + 19 (14, 20 ) 2 S  p = 25 + 20 − 2 S  p2

=

10,532.538 43

= 244,943

Entonces

t c =

(366 ,35 − 369 ,74 ) − 0

  1 + 1     25 20 

244 ,943

t c =

− 3,39 22,045

= −0.72

6) Conclusiones 1° No se rechaza la hipótesis planteada a un nivel de significación de 0,01. La prueba resultó no significativa. 2° La evidencia estadística disponible no permite rechazar la hipótesis nula. 3° Los incrementos medios de peso de los niños alimentados de las dos formas no presentan diferencias estadísticamente significativas.

42

Jorge Córdova Egocheaga

3.5 PRUEBA DE HIPÓTESIS PROPORCIONES

PARA

DIFERENCIA

DE

Ejemplo: Se supone que el medicamento A es adecuado en personas de ambos sexos, alteradas emocional- mente, para disminuir el nivel de ansiedad. A un grupo de 200 varones alterados emocionalmente se les dio el medicamento A y 72 de ellos experimentaron una disminución en su nivel de ansiedad. El medicamento fue efectivo en 49 de una muestra aleatoria independiente de 200 mujeres con trastornos emocionales. Pruebe la hipótesis que el medicamento A es igualmente eficiente en personas de ambos sexos, con un α = 0,05 .

Solución: 1) Planteo de hipótesis Ho : π1 = π2 Ha : π1 ≠ π2 2) Nivel de significación: α = 0,05 3) Prueba estadística  Z c

=

(p1 - p2 ) - (π1 - π 2 ) σ  p1-p2

con los supuestos las poblaciones se distribuyen normalmente las muestras se han elegido al azar 4) Criterios de decisión

α/2

(1 - α)

- ZO -1,96

α/2 ZO 1,96

43

Manual de Estadística Aplicada

Si {−1,96 ≤ Zc ≤1,96} se acepta la H o, en caso contrario se rechaza 5) Cálculos  pˆ =

n1 p1 + n 2 p2

σ  ˆ p − p 1 2

n1 + n 2

=

+ (200)(0,245) = 0,3025 + 200 200

= (200)(0,36)

 pˆ qˆ  pˆqˆ

+

n1

= 0,046 Entonces,

=

(0,3025 )( 0,6975) (0,3025 )( 0,6975 )

+

200

n2

200

σ  ˆ p1 − p2

 Z c

=

( p1 - p 2 ) - (π 1 - π 2 ) σ  p1 - p 2

=

(0,36 − 0,245) − 0 0,046

= 2,5 6) Conclusiones  Z c

1) Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación de 0,05. La prueba fue significativa. 2) La evidencia estadística no permite aceptar la hipótesis nula. 3) Existe diferencia significativa en la proporción de hombres y mujeres beneficiadas con el consumo del medicamento.

44

CAPÍTULO

4

HIPÓTESIS CON DOS MUESTRAS DEPENDIENTES

OBJETIVOS  Al finalizar el Capítulo 4, el participante será capaz de: 1. Utilizar datos provenientes de dos muestras recolectada al mismo marco muestral. 2. Aplicar el modelo antes-después para situaciones relacionadas con la gestión hospitalaria.

Manual de Estadística Aplicada

4.1 PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS MEDIANTE EL APAREAMIENTO DE VARIABLES Ejemplo: Con la finalidad de reducir la producción defectuosa se calibra las 10 maquinas que se utilizan para encapsular. A continuación se presenta la información de los productos defectuosos (en unidades) antes y después de la calibración. Utilice un nivel de significación de 0,05 para probar que la calibración tuvo efectos positivos en la reducción del número de defectuosos. Los datos registrados se presentan a continuación:

46

MAQUINAS

1

2

3

4

5

6

7

8

9 10

 ANTES

73 77 68 62 72 80 76 64 70 72

DESPUÉS

68 72 64 60 71 77 74 60 64 68

Jorge Córdova Egocheaga

Cálculos previos  Antes

Después

Diferencias: d

73 77 68 62 72 80 76 64 70 72

68 72 64 60 71 77 74 60 64 68

5 5 4 2 1 3 2 4 6 4

n = 10

Σd = 36 Sd=1.578

d = 3.6 Sd =

Sd n

=

1.578 10

= 0.499

1) Planteo de hipótesis Ho : µd > 0 Ha : µd > 0 2) Nivel de significación: α = 0,05 t c =

d

− µ 



Sd

3) Prueba estadística con los supuestos la población (d) se distribuye normalmente la muestra se ha elegido al azar

4) Criterios de decisión

to con (n - 1)

(1 - α)

α tO 1,833

47

Manual de Estadística Aplicada

5) Cálculos

t c = =

d −  µ d Sd

3.6 − 0 0.499

= 7.21

6) Conclusiones 1) Se rechaza Hp y se acepta la H a  a un nivel de significación 0,05.La prueba fue significativa. 2) La evidencia estadística no permite aceptar la hipótesis planteada. 3) El número de defectuosos después de la calibración disminuyó.

Ejemplo 2 Se toman los niveles de colesterol total de una muestra de 8 pacientes antes y después de participar en un programa de dieta-ejercicio. ¿Puede concluirse que el programa tuvo éxito favorable?. Utilice un nivel de significación de 0,05.

48

CAPÍTULO



 ANÁLISIS DE VARIANZA CON UN FACTOR VARIABLE OBJETIVOS  Al finalizar el Capítulo 5, el participante será capaz de: 1. 2. 3. 4. 5. 6. 7. 8.

Comprender la noción general del análisis de variancia. Enunciar las características de la distribución F . Realizar una prueba de hipótesis para determinar si dos variancias muestrales provienen de poblaciones iguales. Establecer y organizar datos en una tabla ANOVA de una y dos direcciones. Definir los términos tratamiento y bloque. Efectuar una prueba de hipótesis entre tres o más medias de tratamiento. Desarrollar intervalos de confianza para la diferencia entre medias de tratamiento. Realizar una prueba de hipótesis para determinar si hay alguna diferencia entre medias de bloques.

Manual de Estadística Aplicada

5.1 ¿QUÉ ES EL ANOVA? Es un método de cálculo para probar la hipótesis de que las medias de dos o mas poblaciones son iguales. Ejemplos:  –  –  –

Comparación de efectos logrado por cinco clases de antibióticos. Determinar cuál de los cuatro métodos de capacitación produce un aprendizaje más rápido. La dosificación de drogas en un paciente.

5.2 SUPOSICIONES DEL ANOVA La distribución F  también se usa para probar la igualdad de más de dos medias con una técnica llamada análisis de variancia (ANOVA). El ANOVA requiere las siguientes condiciones:  A. La población que se muestrea tiene una distribución normal B. Las poblaciones tienen desviaciones estándar iguales C. Las muestras se seleccionan al azar y son independientes

5.3 PROCEDIMIENTO VARIANCIA    

50

PARA

EL

ANÁLISIS

DE

Hipótesis nula: las medias de las poblaciones son iguales. Hipótesis alterna: al menos una de las medias es diferente. Estadístico de prueba: F = (variancia entre muestras)/(variancia dentro de muestras). Regla de decisión: para un nivel de significación a, la hipótesis nula se rechaza si  F   calculada es mayor que F 

Jorge Córdova Egocheaga

tabular con grados de libertad en el numerador y en el denominador.

5.4 EL MODELO ADITIVO LINEAL : MAL Se aplica como una suma y los exponentes son iguales a 1. Explica cómo está formada una observación X= µ + ε i 



Donde ei  = error, es decir la variabilidad (o diferencia) entre la observación y el promedio

µ

Xi 

ε



El MAL para el ANOVA con un factor: Xij = µ  + τ i + ε ij

Donde ti = efecto del tratamiento N

∑X ∑(µ +τ  + ε  ) = = µ +τ  µ  = ij

 j=1

i

i

N

ij

N

= µ +τ 1 µ τ 2 = µ +τ 2 µ τ 1 Si la Hp : µ1= µ2 Reemplazando tenemos

51

Manual de Estadística Aplicada

Hp : µ + t1= µ + t2 Hp : t1= t2 Sólo se prueba la diferencia entre tratamientos

5.5 EL MODELO DE ANOVA CON IGUAL NÚMERO DE REPETICIONES T1

T2

T3

X11

X12

X13

X21

X22

X23

X31

X32

X33

X41

X42

X43

X51

X52

X53

X.1

X.2

X.3

La tabla del ANOVA

Fuentes de variabilidad

Suma de Cuadrados t

Entre grupos (Tratamientos)

SCtrat =

F Cuadrado GL calculado Medio

∑X

2 • j

X2 − •• r  rt

 j=1

t-1

Dentro de los grupos SC = X2 − ∑X• j r t - t ∑ ij r  ee (Error Experimental) 2

SCtrat GL SC CMe= ee GL CMe=

Fc =

CMe trat CMe ee

F teórico Ft con (t-1) y (rt-t)

X2•• SCtotal = ∑Xij − rt r t -1 2

Total

Aplicación 1 Se realiza un estudio para comparar la eficacia de tres programas terapéuticos para el tratamiento del acné de tipo medio a moderado. Se emplean tres métodos:

52

Jorge Córdova Egocheaga

II.

Este método, el más antiguo, supone el lavado, dos veces al día, con un cepillo de polietileno y un jabón abrasivo, junto con el uso diario de 250 mg. de tetraciclina.

III. Este método, el utilizado actualmente, consiste, en la aplicación de crema de tretinoína, evitar el sol, lavado dos veces al día con jabón emulsionante y agua, y utilización, dos veces al día, de 250 mg. De tetraciclina. IIII. Este es un método nuevo que consiste en evitar el agua, lavado dos veces al día con limpiador sin lípidos, y uso de crema de tretinoína y de peroxido de enzoilo. Se comparan estos tres tratamientos en cuanto a su eficacia en la reducción del número de lesiones de acné en los pacientes. En el estudio participaban treinta pacientes. Se les separó aleatoriamente en tres subgrupos de tamaño 10. A uno de los subgrupos se le asignó el tratamiento I, a otro el tratamiento II y al tercero, el tratamiento III. Después de 16 semanas se anotó para cada paciente la tasa porcentual de mejoría, medido en número de lesiones. Se obtuvieron los siguientes datos: I

II

III

48.6 49.4 50.1 49.8 50.6 50.8 50.8 47.1 52.5 49.0 50.6

68.0 67.0 70.1 64.5 68.0 68.3 71.9 71.5 69.9 68.9 67.8

67.5 62.5 64.2 62.5 63.9 64.8 62.3 61.4 67.4 65.4 63.2

549.3

755.9

705.1

53

Manual de Estadística Aplicada

Solución 1. Planteamiento de hipótesis: Hp : m1= m2= m3 Ha : m1= m2= m3 (no todas las medias son iguales) 2. Nivel de significación a = 0.05 3. Prueba estadística CMe trat CMe ee

Fc =

4.

Criterios de decisión

3,3158

5.

Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta. Cálculos Excel nos brinda los siguientes resultados:

Fuente de variabilidad 

SC 

GL

CMe

Tratamientos

2107.20727

2

1053.60364

Error experimental

105.121818

30

3.50406061

Total

2212.32909

32

F cal  300.680769

 p-valor 

F teórico

1.42117E-20 3.31583294

6. Conclusiones  A. Se rechaza la hipótesis planteada, se acepta la hipótesis alterna a un nivel de significación de 0,05. La prueba fue significativa. B. Al menos un método de capacitación es diferente a los demás

54

Jorge Córdova Egocheaga

5.6 EL MODELO DE ANOVA CON DIFERENTE NÚMERO DE REPETICIONES T1

T2

T3

X11

X12

X13

X21

X22

X23

X31

X32

X33

X42

X43

X52

X.1

X.2

X.3

La tabla del ANOVA

Fuentes de variabilidad Entre grupos (Tratamientos)

Dentro de los grupos (Error Experimental)

Suma de Cuadrados t  X2   X2 SCtrat = ∑ • j  − ••  j=1   r   j   ∑r   j

F teórico

SCtrat GL

Ft con (t-1) y (rt-t)

t-1

CMe=

Fc =

CMetrat CMeee

 X2  SCee = ∑Xij2 − ∑ ij  r t - t SC   r  j   CMe= ee

GL

SCtotal = ∑Xij − 2

Total

F Cuadrado GL Medio calculado

X2•• ∑r  j r t -1

Aplicación 2 El director de entrenamiento de una compañía está tratando de evaluar tres diferentes métodos de entrenamiento para empleados nuevos. El primer método consiste en asignar un empleado nuevo con un trabajador experimentado para que éste lo asista en la fábrica. El segundo método consiste en 55

Manual de Estadística Aplicada

ubicar a todos los empleados nuevos en un salón de entrenamiento separado de la fábrica, y el tercer método consiste en utilizar películas de entrenamiento y materiales de aprendizaje. El director de entrenamiento escoge al azar 16 empleados nuevos asignados a los tres métodos y registra su producción diaria después que terminaron sus programas de entrenamiento: Metod o 1

15

18

19

22

11

Metod o 2

22

27

18

21

17

Metod o 3

18

24

19

16

22

15

El director pregunta si existen diferencias en cuanto a la efectividad entre los tres métodos.

Solución 1. Planteamiento de hipótesis: Hp : m1= m2= m3 Ha : m1= m2= m3 (no todas las medias son iguales) 2. Nivel de significación a = 0.05 3. Prueba estadística

Fc = 4.

CMe CMe

trat ee

Criterios de decisión

3,81 Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta.

56

Jorge Córdova Egocheaga

5.

Cálculos Excel nos brinda los siguientes resultados: ANÁLISIS DE VARIANZA

Fuentes de Variabilidad 

SC 

GL

CMe

F cal 

 p-valor 

F tabular 

Entre grupos

40

2

20

1.35

0.29

3.81

Dentro de los grupos

192

13

14.7692308

Total

232

15

6. Conclusiones  A Se acepta la hipótesis planteada, se rechaza la hipótesis alterna a un nivel de significación de 0,05. La prueba no resultó significativa. B. Los datos muestrales no proporcionan evidencia para afirmar que los tratamientos son diferentes.

5.7 MÉTODOS PARA ENCONTRAR

DIFERENCIA ENTRE

tratamientos Cuando se rechaza la hipótesis nula de que las medias son iguales, quizá sea bueno saber qué medias de tratamiento difieren.     

Diferencia limite de significación (DLS): Para comparar promedios de tratamientos. Prueba de comparaciones múltiples de Duncan: Para comparar todos contra todos. Prueba de comparaciones múltiples de Tuckey Prueba de comparaciones múltiples de Student, Newman y Keuls. Prueba de comparaciones de Dunnett: Para comparar todos contra un testigo. DLS = t α  •

2 CMe n

57

Manual de Estadística Aplicada

Ventajas • •

Fácil de realizar De preferencia preferen cia debe de utilizarse para hacer comparaciones ortogonales o independientes, sin embargo su validez no se ve seriamente afectada cuando algunas comparaciones no son ortogonales, pero han sido establecidas al momento de instalar el experimento.

Desventajas • • •

Por ningún ningún motivo debe usarse usarse DLS para comparaciones inducidas por los resultados No es válida para realizar realizar todas las comparaciones Se ve afectada por el número de tratamientos: a mayor número de tratamientos, se pierde algo de eficiencia.

5. 8 INFERENCIAS ACERCA TRATAMIENTO

DE

LAS

MEDIAS

DE

Uno de los procedimientos más sencillo es el uso de los intervalos de confianza.

Intervalos de confianza para la diferencia entre dos Medias

  1 1  − ± ( X 1 X 2 ) t MSE   n + n   1 2 donde t  Se obtiene de la tabla con ( N - k ) grados de libertad. MSE = [SSE /( N - k )] )] Las hipótesis se plantean de la siguiente manera: Ho: Todos los tratamientos son iguales Ha: Al menos un tratamiento es diferente.

58

Jorge Córdova Egocheaga

1.

La técnica consiste consiste en calcular de diferente diferente maneras la varianza de las muestras.

Existen dos maneras de calcular la varianza: Dentro SMQD (conocida como varianza varianza no explicada) Entre SMQE (conocida como com o varianza explicada) La prueba estadística que se utiliza es la prueba F La distribución F es oblicua hacia la derecha y sus valores son siempre positivos. La distribución F depende del nivel a y de los grados de libertad (d.f. = degree of fredom) del numerador y de los grados de libertad del denominador. D.f numerador = C – 1 donde C es el número de grupos. D.f. Denominador = C ( n – 1) donde n es el número de observaciones en cada grupo.

5.9 SOLUCIÓN APLICANDO APLICANDO EXCEL Como solo estamos evaluando el rendimiento de los empleados con los diferentes métodos de capacitación, aplicamos

análisis de varianza de un solo factor  Aná lis is de va ria ri a nza de un fa c to r  Fuente de variabilidad

SC

Entre grupos Dentro de los grupos

2 3 .4 4 272

2 13

Total

2 9 5 .4

15

GL

CM

F c a lc u la d o  p -v a lo r  F tabular 

1 1 . 7 1 9 0 . 5 6 0 0 8 7 0 .5 8 4 3 2 0 .9 2 3

3 .8 0 5 6

59

Manual de Estadística Aplicada

EJEMPLO Considere un estudio de diez años en el que se ha observado una muestra de 15 personas que han usado pastas dentales 1, 2 o 3, respectivamente. Supongamos que cinco de los participantes se han asignado aleatoriamente a cada uno de los tratamientos y que el estudio ha proporcionado proporcionado los datos siguientes:

60

Jorge Córdova Egocheaga

5.10 PRUEBA DE INDEPENDENCIA ESTADÍSTICA 1) Planteo de Hipótesis : HO: Son independientes H1 : Son dependientes 2) Nivel de significación: a = 0,10 Prueba estadística:

=∑

2

 χ 

(f

0



f  e )

2

 f  e

supuestos: * la población se distribuye normalmente. * la muestra se ha seleccionado al azar Criterios de decisión α/2=0,05

α/2=0,05

(1 - α) 0,90 0,352

7,815

2

 χ 1−α 

2

 χ α 2

2

GL --> (Filas - 1) (columnas - 1) = (2-1) (4-1) = 3  χ 2 α 

1− 2 2 α  2

= χ 02.95 con 3GL

= 0.352

= χ 02.05 con 3GL = 7.815

 χ

{

Si 0.352

. } ≤ χ 2 ≤ 7815

Se acepta la Ho en caso contrario se rechaza

Después se aplica la prueba

61

Manual de Estadística Aplicada

 χ c2

2 c

 χ 

=

(68 − 66.43) 2 6643 .

+  χ c2

+

(32 − 3357 . )2 3357 .

(75 − 79.72) 2 79.72

+

=

+

(45 − 40.28)2 4028 .



(  f − 0

f  e )

 f  e

(57 − 59.79) 2 59.79

+

2

+

(33 − 30.21) 2 3021 .

(79 − 73.07) 2 7307 .

+

(31 − 36.93) 2 3693 .

= 2.7638

Conclusiones 1) Se acepta Ho, se rechaza la Ha 2) La evidencia empírica disponible no permite rechazar la hipótesis planteada 3) La actitud sobre le método de evaluación del desempeño laboral, es independiente de la región en que labore el trabajador. EJEMPLO En un hospital se somete a examen la eficacia de cinco medicamentos a un determinado número de pacientes que aparece reflejado en la siguiente tabla, determinándose si al final del tratamiento mejoran o no. ¿Existe diferencia entre los diferentes medicamentos a un nivel de significación 0.05? ¿Qué concluimos? T r a ta m ie n t o N º p a c ie n te s a c ie n te s m e jo ra d o s

 A 50 11

B 52 9

C 46 8

D 54 17

E 48 7

EJEMPLO Un grupo de investigadores, al llevar a cabo un estudio acerca de hospitales, reunió datos sobre una muestra de 250 hospitales. El equipo calculó para cada hospital la tasa de 62

Jorge Córdova Egocheaga

ocupación de los pacientes admitidos. Se desea saber si los datos proporcionan suficiente evidencia para indicar que la muestra no proviene de una población que sigue una distribución normal. T a s a d e o c u p a c ió n d e p a c ie n te s 0 40 40 50 50 60 60 70 70 80 80 90 90 10 0 10 0 11 0

  d e h o s p ita l 16 18 22 51 62 55 22 4 250

EJEMPLO La siguiente tabla muestra la distribución de las mediciones de ácido úrico en 250 pacientes. Probar la bondad de ajuste de estos datos a una distribución normal con m = 5.74 y s = 2.01. Sea a = 0,01

63

Manual de Estadística Aplicada

D e t e r m i n a c ió n á c i d o ú r ic o m e no s 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 m as

Frecuencia observada 1 5 15 24 43 50 45 30 22 10 5 250

5.11 PRUEBA DE BONDAD DE AJUSTE La prueba ji-cuadrada puede utilizarse también para decidir si una distribución de probabilidad en particular, tal como la binomial, la de Poisson o la normal, es la distribución apropiada. Nos permite probar qué tan bien se ajusta una distribución Siempre en una investigación estadística, necesitamos escoger una cierta distribución de probabilidades para representar la distribución de datos que tengamos que trabajar. La prueba ji cuadrada nos responde esta inquietud y probar si existe diferencia significativa entre una distribución de frecuencias observadas y una distribución de frecuencias teóricas. Las hipótesis a plantearse son: Ho: la distribución empírica se ajusta a la distribución teórica considerada. Ha: Se rechaza el ajuste.

64

Jorge Córdova Egocheaga

Si aceptamos la Ho (aceptamos el ajuste), las diferencias entre los valores observados y los valores esperados son debido al azar y podemos decir que no existe evidencia para rechazar la Ho. El calculo de la prueba ji cuadrado, se realiza siguiente formula: Df

 χ  = ∑ 2

( fo −  fe) 2  fe

con la

= Nº clase(ajustado) – 1 – Nº parámetros estimados

α

Las frecuencias esperadas de las distintas modalidades deben ser superiores a cinco; en caso de no ocurrir, se deben agrupar clases contiguas en una sola clase hasta lograr que la nueva frecuencia sea mayor que cinco.

EJEMPLO Se reunieron los datos de 300 niñas de ocho años de edad. Probar, a un nivel de significación de 0.05, la hipótesis que indica que los datos se extrajeron de una población con distribución normal. ¿Qué concluimos?

65

Manual de Estadística Aplicada E

s ta tu r a ( c m

66

F

)

r e c u e n c i a f o

1 1 4

1 1 6

5

1 1 6

1 1 8

1 0

1 1 8

1 2 0

1 4

1 2 0

1 2 2

2 1

1 2 2

1 2 4

3 0

1 2 4

1 2 6

4 0

1 2 6

1 2 8

4 5

1 2 8

1 3 0

4 3

1 3 0

1 3 2

4 2

1 3 2

1 3 4

3 0

1 3 4

1 3 6

1 1

1 3 6

1 3 8

5

1 3 8

1 4 0

4

O

b

CAPÍTULO



 ANÁLISIS DE VARIANZA CON DOS FACTORES OBJETIVOS  Al finalizar el Capítulo 6, el participante será capaz de:

Manual de Estadística Aplicada

6.1 EL MODELO ADITIVO LINEAL El modelo aditivo lineal para dos factores quedará de la siguiente forma

Xij = µ  + τ i +  β  j + ε ij De lo que se trata es encontrar un segundo factor que permita descomponer el valor de la observación, de una manera más analítica. Esquema de un ANOVA con 3 tratamientos y 5 bloques T1

T2

T3

TOTAL

B1

X11

X12

X13

X1•

B2

X21

X22

X23

X2•

B3

X31

X32

X33

X3•

B4

X41

X42

X43

X4•

B5

X51

X52

X53

X5•

X•1

X•2

X•3

X••

TOTAL

Hay dos hipótesis posibles en este diseño: una Fuente de Variabilidad Bloques (Factor A) Tratamientos (Factor B) Error Experimental Total

68

SC

GL

CMe

F cal

F tab

Jorge Córdova Egocheaga 

 

Para ANOVA de dos factores se prueba si existe una diferencia significativa entre el efecto de tratamiento y si existe una diferencia en la variable de bloqueo. Sea Br  el total de bloque ( r  según las filas) SSB representa la suma de los cuadrados de los bloques, donde: SSB

 Br 2  ( Σ X  ) 2 = Σ  − n  k  

EJEMPLO La Bieber Manufacturing Co. opera 24 horas al día, cinco días a la semana. Los trabajadores rotan su turno cada semana. Todd Bieber, el propietario, se interesa en saber si hay una diferencia en el número de unidades producidas cuando los empleados trabajan diferentes turnos. Se seleccionó una muestra de cinco trabajadores y se registró su producción en cada turno. Con 0,05 de nivel de significancia, ¿se puede concluir que existe una diferencia en la producción media por turno y por empleado? Empleado Producción Producción Producción en el día en la tarde en la noche McCartney 31 25 35

 

 Neary

33

26

33

Schoen

28

24

30

Thompson

30

29

28

Wagner

28

26

27

Variable de tratamiento Paso 1: H 0: m1= m2= m3 iguales.

H 1: no todas las medias son

69

Manual de Estadística Aplicada  

 

 

 

Paso 2: H 0 se rechaza si F > 4.46, gl = (2, 8). Calcule la variable de suma de cuadrados: SS(total) = 139.73, SST = 62.53, SSB = 33.73, SSE = 43.47. gl (bloque) = 4, gl (tratamiento) = 2, gl (error) = 8. Paso 3: F = [62.53 /2] /[43.47 /8] = 5.75 Paso 4: H 0 se rechaza. Existe una diferencia en el número promedio de unidades producidas para los distintos periodos o turnos. Variable de bloqueo: Paso 1: H 0: m1= m2= m3= m4= m5 H 1: no todas las medias son iguales. Paso 2: H 0 se rechaza si F > 3.84, gl = (4,8) Paso 3: F = [33.73 / 4] / [43.47 / 8] = 1.55 Paso 4: H 0  no se rechaza ya que no existe una diferencia significativa en el número promedio de unidades producidas para los distintos trabajadores.

Ejemplo 2 Después de un año de estudiar un idioma extranjero, se administró una prueba de vocabulario de 50 items a 24 estudiantes de inteligencia superior y promedio (factor A) por uno los de tres métodos escogidos (factor B). Analizar las siguientes puntuaciones:Efectuar con un nivel de significación de 0.05, los contrastes F   de las hipótesis nulas para filas, columnas e interacción.

70

Jorge Córdova Egocheaga

FACTOR B

Superior  (115 y más) FACTOR A Inteligencia Promedio (115 y menos)

Método

Método de

Métodos

Auditivo-oral 36 29 25 31 33 19

Traducción 26 23 21 18 20 22

Combinados 19 30 28 20 17 13

37 28

14 15

23 18

71

Manual de Estadística Aplicada

72

CAPÍTULO



REGRESIÓN Y CORRELACIÓN SIMPLE OBJETIVOS  Al finalizar el Capítulo 7, el participante será capaz de: 1. 2. 3. 4. 6. 7. 8. 9.

Utilizar diagramas de dispersión para visualizar la relación entre dos variables. Identificar relaciones simples entre variables Utilizar la ecuación de regresión para predecir valores futuros. Aplicar el análisis de correlación para describir el grado hasta el cuál dos variables están relacionadas linealmente entre si. Realizar el diagnostico de la regresión Medición de la autocorrelación Realizar la estimación por intervalos Realizar el análisis de varianza de la regresión simple

Manual de Estadística Aplicada

7.1 EL DIAGRAMA DE DISPERSIÓN Es un gráfico que permite detectar la existencia de una relación entre dos variables. Visualmente se puede buscar patrones que indiquen el tipo de relación que se da entre las variables. (b) Lineal inversa

(a) Lineal directa Y

Y

Relaciones posibles entre X y Y vistos en diagramas de dispersión

• •• • • • • ••

Y

• •

• • • • • • •• •• • • • •



          •

          • •           •           •           •           •           •

X

• • •• •• • • •• • •• ••

Y

(c) Curvilínea directa

X Y

Y

• • •• • ••

• •• •• • • • • • • • •• •• • • • •• • • ••



          •           •

          •

          •           • •           •           •           •           •           •           •           •           •           •           •

X

(d) Curvilinea inversa

X

(e) Lineal inversa con más dispersión

X

X

(d) Ninguna relación

Aplicación Los datos siguientes muestran las cantidades consumidas de complemento nutricional (en Kg.) y el aumento de peso de niños con signos de desnutrición. PACIENTE COMPLEMENTO

1

2

3

4

5

6

7

8

9

10

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

8

10

9

12

14

13

15

17

14

14

EN Kg: X AUMENTO DE PESO : Y

Presente la información en un diagrama de dispersión

Procedimiento 1er Paso: Reúna pares de datos (X,Y), cuya relación desea estudiar y organice la información en una tabla.

74

Jorge Córdova Egocheaga

PACIENTE COMPLEMENTO

1

2

3

4

5

6

7

8

9

10

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

8

10

9

12

14

13

15

17

14

14

EN Kg: X AUMENTO DE PESO : Y

2do Paso: Encuentre los valores mínimos y máximos para X e Y. Elija las escalas que se usarán en los ejes horizontal y vertical, de manera que ambas longitudes sean aproximadamente iguales, facilitando la lectura del diagrama. 20 15 10 5 0 0.0

2.0

4.0

6.0

3er Paso: Registre los datos en el gráfico. Cuando se obtengan los mismos valores en diferentes observaciones, muestre estos puntos haciendo círculos concéntricos (o), o registre el segundo punto muy cerca del primero.

75

Manual de Estadística Aplicada

20 15 10 5 0 0.0

2.0

4.0

6.0

4to Paso:  Agregue toda la información que puede ser de utilidad para entender el diagrama, tal como: título del diagrama, período de tiempo, número de pares de datos, nombre de la variable y unidades de cada eje, entre otros.

R elación complemento nutricional y aumento de peso 20

  o   s   e 15   p   e   )    d   g 10   o   K    (    t   n 5   e   m   u 0    A

0.0

2.0

4.0

Complemento nutricional (Kg)

76

6.0

Jorge Córdova Egocheaga

7.2 LAS ECUACIONES LINEALES SIMPLES Si dos variables, como X e Y, están relacionadas, se puede expresar como una relación, por ejemplo: Y = 3 + 1,5X  Al conocer la la ecuación se puede: a) Calcular el valor de Y para cualquier valor dado de X b) Conocer el cambio camb io en Y, cuando X varía en 1 Por ejemplo: Y = 3 + 1,5X V alor V a lo r C a m bi o d a do d o d e X c a l c ul ul a d o d e Y d e Y 1 4 ,5 2 6 ,0 1 ,5 3 7 ,5 1 ,5 4 9 ,0 1 ,5 5 1 0 ,5 1 ,5

El aumento en Y, cuando X varía en una unidad, está dado por el coeficiente de X. Ejemplo:

En Y = 10 + 2X cuando X aumenta en 1, Y aumenta en 2 En Y = 5 - 0,8X cuando X aumenta en 1, Y disminuye en 0,8

A) Tipos de Variables En una ecuación como Y=0+3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le llama variable independiente. independiente. 77

Manual de Estadística Aplicada

Y = b0 + b1 X

Variable Dependiente

Variable Independiente

B) Tipo de Relaciones Cuando cambios en X provoca cambios en Y en igual sentido (aumentos o disminuciones), las variables están directamente relacionadas. Se observa el signo + Ejemplo:

Y

Y = 30 + 5X

o

o

o

o o o

o o

o

X

Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o viceversa), las variables están inversamente relacionadas. Se observa en la ecuación el signo -.

Ejemplo: Y = 20 - 3X

Y o o o

o o

o o o

X

C) Grado de la ecuación: La ecuación es de primer grado si la variable independiente está elevada al exponente 1. Su gráfica

78

Jorge Córdova Egocheaga

genera una línea recta (por lo que también se le llama ecuación lineal)

Ejemplo: Y = 30 + 4 X Si la variable independiente está elevada a un exponente diferente a 1, la ecuación toma el valor del exponente. exponente. Su gráfica no es una línea recta. Ejemplo: Y = 10 + 3 X + 4 X 2 : ecuación de segundo grado Y = 3 + 7X + 5 X3 : ecuación de tercer grado

D) Ecuaciones simples y múltiples : 



Simples:   Muestra la relación entre dos variables Y = 30 + 2X Y = 10 - 3X 2 Múltiple: Muestra la relación entre tres o más variables Y = 3X + 8 Z Y = 5 + 2X2 + 4W

E) Gráfica de una ecuación de primer grado: Ejemplo: Ejemplo: Y = 3 + 1,5X X Y

1 4,5

2 6,0

3 7,5

4 9 ,0

5 1 0 ,5

Los cinco pares de valores se diagraman de la forma siguiente.

79

Manual de Estadística Aplicada

Y 12 11 10 9 8 7 6 5 4 3 2 1

(5,10.5)

(4,9)

.

(3,7.5)

(2,6)

(1,4.5)

1

E)

. . . . 2

3

4

5

X

Forma general :

La ecuación simple de primer grado tiene la siguiente forma general Y = b0 + b1 X Donde: b1: pendiente, o sea, el cambio en Y cuando DX = 1. b0: el valor autónomo, es decir, Y = b 0 cuando X = 0. En la gráfica es la intersección con el eje Y

Ejemplo: Y = 3 + 1.5X Y

.

b0 = 3

X

80

Jorge Córdova Egocheaga

7.3 REGRESIÓN LINEAL SIMPLE Es una técnica estadística que permite determinar la mejor ecuación que represente la relación entre dos variables relacionadas. Para poder establecer la relación cuantitativa entre X e Y es necesario disponer de pares de observaciones. Cada par ha sido registrado a la misma unidad elemental.

A) Suposiciones de regresión y correlación a) b) c) d)

Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X. Homoscedasticidad: la variación alrededor de la línea de regresión sea constante para todos los valores de X. Independencia de error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X. Linealidad: la relación entre las variables es lineal

B) El método de Mínimos Cuadrados Es el procedimiento matemático utilizado para determinar los valores numéricos de los coeficientes de regresión: b0 y b1 ∧

La ecuación general Y = b0 + b1X se llama ecuación de regresión y permite estimar o predecir los valores de Y. El método consiste en determinar una ecuación que la suma de los errores al cuadrado sea mínima.

81

Manual de Estadística Aplicada

Y

Y - Y = error  i $

.

10 8

Línea de estimación

ˆ Y

6

Min ∑ (Y - Y)



2

$

4 Error= -6

i

2



.



Error= 2

X 2

4

6

8

10

12

14

El método utiliza un sistema de ecuación llamado ecuaciones normales , que tienen la siguiente forma:

∑ Y = nb0 + b1 ∑ X 2 ∑ XY = b0 ∑ X + b1∑ X Para aplicar las fórmulas, tenemos que confeccionar un cuadro como el siguiente:

X

Y

X2

XY

1.0

8.0

1.0

8.0

1.5

10.0

2.3

15.0

2.0

9.0

4.0

18.0

2.5

12.0

6.3

30.0

3.0

14.0

9.0

42.0

3.5

13.0

12.3

45.5

16.0

60.0

4.0

15.0

4.5

17.0

20.3

76.5

5.0

14.0

25.0

70.0

5.5

14.0

30.3

77.0

126.0

126.3

442.0

32.5 ∑ X

∑Y

2

∑X

∑ XY

Sustituyendo los valores ∑ Y = 126,0 , n = 5, ∑ X = 32,5

∑ XY = 442

y

∑ X2 = 126,3

,en las ecuaciones normales, obtenemos el siguiente sistema de ecuaciones. 126 = 10b0 + 32,5b1 442 = 32,5b0 + 126,3b1Resolviendo el sistema tenemos: b0 = 7,479 b1= 1,576 ,por lo tanto,

Yˆ = 7,479 + 1,576X

82

Jorge Córdova Egocheaga

C) Interpretación b0 = 7,478 : Es probable que un paciente desnutrido que no sea considerado dentro del Programa de Alimentación Complementaria tenga un peso de 7,478 Kg. b1  = 1,576:Por cada Kg. del alimento complementario, se espera que probablemente el niño aumento su peso en 1,576 Kg.

D) Valor observado y valor estimado de Y El valor observado (Y i) se refiere al nivel efectivo u observado de la variable Y (peso del niño), mientras que el ∧

valor estimado ( Y ), es el nivel estimado de la variable (peso esperado), obtenido utilizando la ecuación de regresión.

Y

. .

Yi

Valor  observado

Y $

Valor  estimado

xo

X

X

 Y



1.0

8.0

9.055

1.5

10.0

9.843

2.0

9.0

10.630

2.5

12.0

11.418

3.0

14.0

12.206

3.5

13.0

12.994

4.0

15.0

13.782

4.5 5.0

17.0 14.0

14.570 15.358

5.5

14.0

16.146

7.4 ERROR ESTÁNDAR DE ESTIMACIÓN (S YX) Mide la disparidad ¨promedio¨ entre los valores observados y estimados de la variable Y. Se calcula por la siguiente relación Syx =

ˆ) ∑(Y- Y

2

n −2

83

Manual de Estadística Aplicada



(Y − Yˆ)

(Y − Yˆ)2

X

Y

1.0

8.0

9.055

-1.1

1.112181

1.5

10.0

9.843

0.2

0.024806

2.0

9.0

10.630

-1.6

2.658204

2.5

12.0

11.418

0.6

0.338375

3.0

14.0

12.206

1.8

3.217718

3.5

13.0

12.994

0.0

3.48E-05

4.0

15.0

13.782

1.2

1.483524

4.5

17.0

14.570

2.4

5.905386

5.0

14.0

15.358

-1.4

1.843621

5.5

14.0

46

-2.1

4.604028

32.5

126.0

126.0

0.0

21.2

Reemplazando en la formula Syx =

21,20 = 21,20 = 2,65 10−2 8

S yx = 1,628 El Syx  es un indicador del grado de precisión con que la ecuación de regresión describe la relación entre las dos variables: cuanto más pequeño, los valores observado y estimado de Y son razonablemente cercanos y, la ecuación de regresión es una buena descripción esa la relación.

7.5 EL ANÁLISIS DE CORRELACIÓN El análisis de correlación es la técnica estadística que permite describir el grado hasta el cual una variable está linealmente relacionada con otra. Hay dos medidas que se usan para describir la correlación El coeficiente de determinación  El coeficiente de correlación  84

Jorge Córdova Egocheaga

A) El coeficiente de determinación  Al construir un modelo de regresión, se define que “ el valor Y depende de X ”. Y = f (X) Si la relación es lineal: Y = b 0 + b1X Pero en la práctica Y depende también de “ otros factores” diferentes a X: Y = b0 + b1X + eParte de los cambios en Y pueden explicarse por X, a otro se llama variación explicada. Pero hay cambios en Y que no pueden explicarse por X, a lo que se llama variación no explicada .

Yi

Y Variación Total

Variación no explicada (Yi - Y) $

(

Yi - Y

)

Variación Explicada (

Y - Y $

y

)

X

VARIACION TOTAL =

VARIACION EXPLICADA

+

VARIACION NO EXPLICADA

El coeficiente de determinación se puede calcular del modo siguiente: variacion explicada r 2 = variacion total

r 2

=

( )2 2 ∑ (Y i - Y ) ∑ Yˆ - Y

Se elevan al cuadrado, para evitar que obteniéndose un número positivo.

85

Manual de Estadística Aplicada

1er Paso: Cálculo de la venta media por vendedor son ( Y ) n ∑ Yi i =1 Y= n Y=

Y=

Y1 + Y2 + Y3 + Y4

+Y

5

5

9 + 5 + 7 + 14 + 10 45

=

5

5

Y = 9 unidades

2do Paso: Se calcula la variación total, es decir, la sumatoria de las desviaciones de las ventas observadas (Y i) con respecto a la media:

Y

Y

(Y − Y )

(Y − Y)2

8.0

12.6

-4.6

21.16

10.0

12.6

-2.6

6.76

9.0

12.6

-3.6

12.96

12.0

12.6

-0.6

0.36

14.0

12.6

1.4

1.96

13.0

12.6

0.4

0.16

15.0

12.6

2.4

5.76

17.0

12.6

4.4

19.36

14.0

12.6

1.4

1.96

14.0

12.6

1.4

1.96

126.0

126.0 ∑Y

0.0 ∑ (Y − Y)

72.4 2 Y Y ( ) − ∑

∑Y

86

Jorge Córdova Egocheaga

3er Paso: Se calcula la variación explicada, es decir, la sumatoria de las desviaciones cuadráticas entre las ventas esperadas y la venta media de la muestra:



Y

9.055 9.843 10.630 11.418 12.206 12.994 13.782 14.570 15.358 16.146 126.0

12.6 12.6 12.6 12.6 12.6 12.6 12.6 12.6 12.6 12.6 126.0

∑ Yˆ

∑Y

∧ ∧

∑YY

(Yˆ − Y) (Yˆ − Y)2 -3.545 -2.758 -1.970 -1.182 -0.394 0.394 1.182 1.970 2.758 3.546 0.0

12.5699 7.6038 3.8793 1.3964 0.1551 0.1553 1.3971 3.8805 7.6055 12.5720 51.2 ∑(Yˆ − Y) ∑ (Yˆ − Y )2

4to Paso: Se compara la variación explicada y la variación total.

r 2

=

variacion explicada variacion total

r 2 =

2 ˆ ∑ Y-Y

(

)

( i )2

∑ Y -Y

r 2 = 51,2 = 0,707

72,4 5to Paso: Interpretación: 70,7% de las variaciones en el incremento de peso, pueden explicarse por el consumo del complemento nutricional.

87

Manual de Estadística Aplicada

Valores posibles de r 2 Si r 2 = 1 : Correlación perfecta, es decir, toda variación de Y puede explicarse por X Si r 2 = 0 : no existe correlación entre X e Y. La variación explicada es 0. La variable X no explica nada de los cambios en Y Resumen 0 ≤ r 2

≤1

Cuanto más cerca a uno, las variables tendrán mayor correlación.

B) El coeficiente de correlación Es la raíz cuadrada del coeficiente de

determinación.

Sus valores oscilan entre -1 y 1 Cuando r es positivo, indica que X e Y están directamente relacionados. Cuando r es negativo, indica que X e Y están inversamente relacionados. El coeficiente r tiene el mismo signo que el coeficiente b1 en la ecuación de regresión

Interpretación del coeficiente de correlación de Pearson Fuerte Moderada Negativa Negativa -1 -0,9 Perfecta Negativa

88

-0,5

Débil Negativa

Débil Positiva 0 No existe correlación

Moderada Fuerte Positiva Positiva 0,5

0,9 1 Perfecta Positiva

Jorge Córdova Egocheaga

Ejemplo: r 2= 0,707

r = 0,707 r = 0,84

el signo es positivo ya que X e Y están relacionados directamente como lo indica el signo del coeficiente b 1 en la ecuación de regresión

Interpretación: El incremento de peso (Y) y el consumo del complemento nutricional (X) se encuentran directamente asociados. 7.6 DIAGNÓSTICO RESIDUAL

DE

LA

REGRESIÓN:

ANÁLISIS

El análisis residual permite evaluar lo adecuado del modelo de regresión que ha sido ajustado a los datos. También sirve para detectar si los supuestos se cumplen.

A. Evaluación de lo adecuado de modelo ajustado Los valores del error residual o estimado ( ei ) se define como la diferencia entre los valores observados (Y i ) ∧

y los estimados ( Yi ) de la para los valores dados de X i

ε =Y i 



-

variable dependiente

Yˆi

Podemos evaluar lo adecuado del modelo de regresión ajustado mediante el gráfico de los residuos (eje vertical) con respecto a los correspondientes valores de Xi de la variable independiente (eje horizontal).

89

Manual de Estadística Aplicada

Ejemplo El gráfico muestra un adecuado ajuste entre el crecimiento de peso y el consumo del complemento nutricional. No se observa una tendencia. Variable X 1  Gráfico de los residuales

3 2

  s 1   o   u 0    d    i   s 0   e -1    R -2

1

2

3

4

5

6

-3

Variable X 1

El análisis del gráfico nos brinda el criterio para adoptar el modelo lineal o dejarlo de lado. Si fuese así, podríamos probar con modelos no lineales como el cuadrático, logaritmo o exponencial. El análisis de residuos se complementa con el cálculo de los residuos estandarizados (SR i), que resultan de la división del residuo dividido por su error estándar.

SRi =

ε i

SYX 1− hi

En donde

90

Jorge Córdova Egocheaga

1 hi = + n

(X i − X )2 n

∑ X i2 − n X

2

i =1

Los valores estandarizados nos permiten tomar en cuenta la magnitud de los residuos en unidades que reflejen la variación estandarizada alrededor de la línea de regresión.

Análisis de los residuales Observación

Pronóstico para Y 

Residuos

Residuos estándares

1 2 3 4 5 6

9.138461538 3.276923077 6.207692308 15 12.06923077 44.30769231

-0.138461538 1.723076923 0.792307692 -1 -2.069230769 0.692307692

-0.101107641 1.258228423 0.578560391 -0.730221853 -1.510997526 0.505538206

En el gráfico siguiente, los residuos estandarizados fueron graficados en función de la variable independiente (cantidad del complemento nutricional). Se puede observar de que existe una dispersión amplia en la gráfica de residuos, no existe un patrón evidente o una relación entre los residuos estandarizados y X i . Los residuos parecen estar equitativamente distribuidos por arriba y por debajo de 0, para diferentes valores de X. Podemos concluir que el modelo ajustado parece ser adecuado.

91

Manual de Estadística Aplicada

R esiduos estándares 1. 5 1 0. 5 0 -0.5 0

5

10

15

20

-1 -1.5 -2

B. Evaluación de las suposiciones a. Homoscedasticidad b. Normalidad c. Independencia: Los datos recolectados 7.7 MEDICIÓN WATSON

DE

LA

AUTOCORRELACIÓN:

DURBIN-

Una de las suposiciones del modelo de regresión básico es la independencia de los residuos. Esta suposición es violada con frecuencia cuando los datos son recopilados en periodos secuenciales, debido a que un residuo en cualquier punto del tiempo puede tender a ser parecido a los residuos que se encuentran en puntos de tiempo adyacentes. El estadístico D de Durbin-Watson mide la correlación de cada residuo y el residuo del periodo inmediato anterior al periodo de interés. El estadístico D (Durbin-Watson)

92

Jorge Córdova Egocheaga n

D=

∑ (ε  − ε 

i −1

i

)2

i= 2

n



ε i2

i =1

En la que ε i representa el residuo en el periodo i.

Interpretación de D: Cuando residuos sucesivos están correlacionados positivamente, el valor de D se aproximará a cero. Si los resultados no están correlacionados, el valor D estará cercano a 2. Si se presentase una autocorrelación negativa, lo cual rara vez sucede, de valor D tomará un valor mayor a 2 e, incluso podría aproximarse a su valor máximo que es 4. Los resultados de SPSS nos proporciona el valor de D de Durbin-Watson b Model Summary

Change Statistics R Square Model Change F Change df1 df2 Sig. F Change Durbin-Watson a 1 .707 19.336 1 8 .002 1.517 a. Predictors: (Constant), Complemento b. Dependent Variable: AUMENTO

Según este resultado permite afirmar que los residuos no están correlacionados.

7.8 ESTIMACIÓN POR INTERVALOS  A. Intervalo de confianza para β1 Lo que se va hacer es estimar

σ ε 2

SC x

desconocido conocido

93

Manual de Estadística Aplicada

σ ε 2  se estima mediante la siguiente formula:

S 2yx

  n ∑ Y2 −  i=1 =  

(∑

2 Y )   − b 12 SC  n   n−2

-t0

x

t0

Pr(−t 0 ≤ t ≤ t 0 )

    b1 − β 1   ≤ t0  = 1− α  Pr − t 0 ≤ Syx     SCx  S S  Pr b1 − t0 yx ≤ β 1 ≤ b1 + t0 yx  = 1− α  SCx SCx   B. Intervalo de confianza para b0 2        1 x 2  b 0 ≈  Ν  β 0 ,σ ε   +    n SC x     

b 0 −  β 0 = Sb0

b 0 − β 0 2

S yx

donde:    S

94

2 yx

1 x + n SC x

Y ∑

=  

2



≈ t n−2

(∑ Y )2   n

n−2

  

− b 20 SC x

Jorge Córdova Egocheaga

-t0

t0

Pr( −t 0 ≤ t ≤ t 0 )

    b −  β 0 Pr  − t 0 ≤ 0 ≤ t 0  = 1 − α  S b0     Pr (b 0 − t 0 S b 0 ≤  β 0 ≤ b 0 + t 0 S b 0 ) = 1 − α 

t0 con (n-2) grados de libertad y α C. Intervalo de confianza para 2       ( )   1 X X − ˆY ≈ N  µ y / X 0 , σ ε 2  + 0 n   SC x        

Para un nivel dado de confianza, una variación aumentada alrededor de la línea de regresión, medida a través del error estándar de la estimación, tiene como resultado un intervalo más amplio. Sin embargo, como se esperaría, un tamaño de muestra aumentado reduce el ancho del intervalo.

Pr (yˆ − t 0 S yˆ ≤ µ y / X 0 ≤ yˆ + t 0 S yˆ ) = 1 − α  donde: 2     ( ) X x − 1 2  0  S yˆ = S yx  + SC x    n

95

Manual de Estadística Aplicada

D.

Intervalo de confianza para un valor individual  Además de obtener una estimación de intervalo de confianza para el valor promedio, a menudo es importante tener la capacidad de predecir la respuesta que se obtendría para un valor individual. 2       ( )   1 X − X ˆY ≈ N µ y / X 0 , σ ε 2  1 + + 0  n  SC x       

El intervalo de predicción está estimando un valor individual, no un parámetro.

Pr (yˆ − t 0 S yˆ ≤ µ Y / X 0 ≤ yˆ + t 0 S yˆ ) = 1 − α  donde:

  1 (X 0 − x 2 )   S yˆ = S  1 + + SC x     n 2 yx

7.9 ANÁLISIS DE VARIANZA DE LA REGRESIÓN SIMPLE El análisis de varianza es una técnica que permite localizar las fuentes de variabilidad que ayuden a explicar el comportamiento de la variable dependiente.

SCtotal =

SCerror  + SCregresión (SCresidual)

El cuadro de Análisis de Varianza Fuentes de variabilidad

Suma de Cuadrados

Debido a la Regresión Error Experimental Total

96

b 2SC X

∑Y − 2

(∑Y)2 n

F Cuadrado GL calculado Medio

1

• b12SCx n − 2

SC total

n −1

b12SC x S 2yx

2 1

b SCx S2yx

E(CMe)

σ ε 2 + β 12SCx σ ε 2

Jorge Córdova Egocheaga

 Asumiendo que existe una regresión lineal, determine:  A. La ecuación de regresión e interprete los coeficientes de regresión. B. El intervalo de confianza para  b1y para un valor individual si X=3,8. C. El cuadro de ANOVA para la regresión lineal D. El valor de cuando X = 5,1 E. La prueba de hipótesis respectiva a partir del  ANOVA e interprete el resultado. F. Estime el aumento de peso que puede darse se consumen 6 Kg. del complemento nutricional mediante un intervalo e interprete el resultado.

Solución Primero se realizan los cálculos necesarios:

n = 10 ∑ Xi = 32,5 ∑ Yi2= 126 ∑ Xi2 = 126,25 ∑ Yi = 1660 ∑ Xi Yi = 442 A. Cálculo de los coeficientes de regresión: Yˆ = b 0 + b1X

b 0 = Y − b1 X

b1 =

∑ Xi Yi − ∑

X i ∑ Yi (32,5 )(126 ) 442 − 32,5 10 n = = = 1,57 2 ( ) 32 , 5 20 , 62 (∑ X i ) 2 126 ,25 − X − ∑ i 10 n

b 0 = 12,6 − (1,57 )( 3,25 ) = 7,49

97

Manual de Estadística Aplicada

La ecuación de regresión será: Yˆ = 7,49 + 1,57 X Interpretación: b0= Se espera que el peso que un niño que no consume este complemento nutricional sea 7,49 Kg. b1= Por cada Kg. de complemento nutricional, el peso del niño se incrementará en 1,57 Kg.

B. Intervalo de confianza para b1  S yx Pr 1,57 − t (0 ,10 )(8 ) ≤ SC x 

β 1

≤ 1,57 + t (0 ,10 )(8 )

S yx SC x

  = 1 − 0,10 

S yx S yx   Pr 1,57 − 1,86 ≤ β 1 ≤ 1,57 + 1,86  = 0,90 4,54 4,54   ( 126 )2 − (1,57 )2 (20,62 ) 72,7 − 50,82 1660 − 10 = = 2,69 S 2yx = 8

8

S yx = 1,642

  1,642   ≤  β  ≤ 1,57 + 1,86  1,642    = 0,90 Pr 1,57 − 1,86     1 4 , 54 4 , 54           Pr {0,8973 ≤  β 1 ≤ 2,2427 } = 0,90 Interpretación: Hay 0,90 de confianza que el intervalo que se ha construido, pertenezca al grupo de intervalos que contienen al verdadero parámetro  b1.Intervalo de confianza para un valor individual

98

Jorge Córdova Egocheaga

Si X = 3,8 entonces Yˆ = 13,45 Pr {Yˆ − t 0S Yˆ ≤ Yind ≤ Yˆ − t 0S Yˆ } = 1 − α 

Pr {13,45 − (1,86)S Yˆ ≤ Yind ≤ 13,45 − (1,86)S Yˆ } = 1 − α  1 (3,80 − 3,25 )2 = S Yˆ = 1,642 1 + + 10 20,62

C. Análisis de Varianza Fuentes de variabilidad

Suma de Cuadrados

F Cuadrado GL calculado Medio

Debido a la Regresión

50,82

1

50,82

Error Experimental

21,58

8

2,697

72,40

9

Total

E(CMe)

18,84

Interpretación: Se rechaza la hipótesis planteada. El complemento nutricional si explica significativamente los cambios en el peso de los niños. D.Si X = 5,1

Yˆ = 7,49 + 1,57(5,51) Yˆ = 16,14 E. Prueba de Hipótesis acerca de b1

1. Hp: β1= 0 Ha: β1≠ 0 2. α = 0,10 3. Fc = CMe regresión CMe error 

Supuestos - La muestra seleccionada al azar 99

Manual de Estadística Aplicada

-

La población se distribuye al azar Los valores de X fijas y de Y variables (o aleatorias) Asunciones de la regresión lineal simple

4.

Criterios de decisión

F1-α/2

Fα/2

Si {5,32 ≤ Fc ≤ 0,0041}se rechaza la hipótesis planteada 5. Cálculos 50,82 Fc = = 18,84 2,697 6. Conclusiones La variable “complemento nutricional” es apropiada para explicar el comportamiento del “aumento de peso” en niños desnutridos. Además, la ecuación de regresión puede ser usada con fines de predicción hasta cierto límite. F.¿ Para X = 6, que promedio de Y vamos a obtener?

Pr 16,91 − (1,86 )S Yˆ ≤ µ Y X0 ≤ 16,91 + (1,86 )S Yˆ = 1 − α  Estadísticas de la regresión Coeficiente de correlación múltiple

0.99582747

Coeficiente de determinación R^2

0.99167236

R^2 ajustado

0.98959045

Error típico Observaciones

100

1.5310881 6

Jorge Córdova Egocheaga

ANÁLISIS DE VARIANZA GL

SC 

CMe

F cal 

P-valor 

476.328138

2.60786E-05

Regresión

1

1116.62308

1116.62308

Residuos

4

9.37692308

2.34423077

Total

5

1126

Coefic  ientes

Error típico

Estadíst  ico t  P-valor 

Inferior 95%

Superior 95%

Inferior 95.0%

Superior 95.0%

Intercepción

0.346154

0.9173433

0.37734384

0.72508508

-2.200804756

2.893112448

-2.200804756

2.893112448

Variable X 1

2.930769

0.13428531

21.824943

2.6079E-05

2.557932668

3.303605794

2.557932668

3.303605794

Ejemplo: En la Farmacia Santa Rita, se desea determinar la relación lineal simple entre la experiencia del vendedor   y las ventas durante un mes. Se seleccionan 5 vendedores, los datos registrados se presentan a continuación: VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL EXPERIENCIA (años):X 3 1 2 5 4 VENTAS (unidades) : Y 9 5 7 14 10

Caso 1 Un equipo de profesionales en salud mental de un hospital psiquiátrico donde el tiempo de permanencia es largo, quiere medir el nivel de respuesta de pacientes retraídos mediante un programa de terapia de remotivación. Para este propósito se contaba con una prueba estandarizada, que era costosa y su aplicación tomaba mucho tiempo. Para salvar este obstáculo, el equipo creó una prueba más fácil de aplicar. Para probar la utilidad de este nuevo instrumento para medir el nivel de respuesta del paciente, el equipo decidió examinar la relación entre las calificaciones obtenidas con la nueva prueba y las calificaciones obtenidas con la prueba estandarizada. 101

Manual de Estadística Aplicada

Paciente

1

2

3

4

5

6

7

8

9

10

11

Prueba nueva

50

55

60

65

70

75

80

85

90

95

100

Prueba estanda

61

61

59

71

80

76

90

106

98

100

114

Caso 2 Se llevo a cabo un experimento para estudiar el efecto de cierto medicamento para disminuir la frecuencia cardiaca en adultos. Se reunieron los siguientes datos: dosis en miligramos del medicamento y la diferencia entre la frecuencia cardiaca mas baja después de la administración del medicamento y un control antes de administrarlo.

Dosis (mg) 1 1 1 1 2 2 2 2 3 3 3 3 Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20 Determine la ecuación de regresión lineal y explique el valor de los coeficientes de regresión. Calcule e interprete el coeficiente de correlación y el coeficiente de determinación.

102

CAPÍTULO



REGRESIÓN Y CORRELACIÓN MÚLTIPLE OBJETIVOS  Al finalizar el Capítulo 8, el participante será capaz de: 1. 2. 3. 4. 5.

Construir un modelo utilizando dos o más variables explicativas. Probar una hipótesis para aceptar la validez de un modelo de regresión múltiple Realizar pruebas de hipótesis individuales para descartar aquellas variables no significativas en un modelo de regresión múltiple Calcular en interpretar medidas de asociación múltiples. Entender la importancia de los residuos en el análisis de regresión.

Manual de Estadística Aplicada

8.1 EL MODELO La regresión múltiple y el análisis de correlación múltiple consiste en estimar una variable dependiente, utilizando dos o más variables independientes. El modelo genérico será

Y ˆ

=

Variable dependiente

 f   ( X 1 , X

2

, X 3 ,....)

Variables independientes

Ejemplos 1.

2.

3.

La cantidad de pacientes de enfermedades respiratorias, dependen de la variación del clima, el nivel nutricional del paciente y de la calidad de sus viviendas entre otros factores. La duración de la hospitalización depende del tipo de afección, de la gravedad de la afección, de la presencia de complicaciones, del sexo, de la edad y peso del paciente, entre otros factores. El nivel de colesterol de un paciente podría ser explicado por la edad, el peso, el nivel de hemoglobina y el perímetro abdominal.

La ventaja Permite utilizar más información disponible para estimar la variable dependiente de una manera confiable.

Proceso En el proceso de regresión y correlación múltiple, se debe: 1. 2.

104

Describir la ecuación de regresión múltiple. Examinar el error estándar de regresión múltiple de la estimación.

Jorge Córdova Egocheaga

3.

Utilizar la ecuación de regresión para determinar qué tan bien describe los datos observados.

Alcance 1. 2.

Permite ajustar los datos tanto a curvas como a rectas. Se puede incluir variables cualitativas, haciendo uso de las “variables ficticias”.

8.2 LA ECUACIÓN DE REGRESIÓN MÚLTIPLE La forma simbólica de la ecuación lineal con dos variables independientes: Donde :

Yˆ = b 0 + b 1 X 1 + b 2 X 2

: Valor estimado correspondiente a la variable dependiente b0 : intersección con el eje Y. X1 y X 2 : valores de las dos variables independientes. b1 y b2 : pendientes asociadas con X1 y X2 respectivamente Yˆ

Visualización: Se puede representar una ecuación de regresión múltiple con dos variables, como un plano

105

Manual de Estadística Aplicada

El método de mínimos cuadrados El problema consiste en decidir cuál de los planos posibles que podemos dibujar, será el que mejor se ajuste El método de mínimos cuadrados garantiza que la suma de los cuadrados de los errores es mínimo. Las ecuaciones normales serán

∑ Y = nb + b ∑ X + b ∑ X ∑X Y =b ∑ X +b ∑ X +b ∑ X X ∑X Y =b ∑X +b ∑X X +b ∑ X 0

1

1

1

0

1

2

0

2

2

1

1

2

2 1

1

2

2

1

2

2

Donde bo, b1 y b2 son los coeficientes de regresión estimados.

106

2 2

Jorge Córdova Egocheaga

Aplicación En el siguiente caso, interesa construir un modelo para determinar los niveles de colesterol, conociendo el peso (en Kg), el diámetro de la cintura (en cms) y el nivel de hemoglobina (en grs.) COLESTEROL

PESO

CINTURA

HEMOGLOBINA

250

76

80

13.5

220 200 350 210 205 285 190

61 50 94 55 61 80 52

72 70 122 75 95 120 68

12.1 11.6 12.5 13.5 14 12.5 14.5

 Al aplicar las ecuaciones normales a los datos obtenemos los siguientes coeficientes de regresión: bo = 121,704 b1 = 2,949 b2 = 0,276 b3 = -7,843 Construyendo la siguiente ecuación de regresión:

Yˆ = 121,704 + 2,949 X 1+ 0,276X2 - 7,843X3 8.3 EL ERROR ESTÁNDAR DE LA REGRESIÓN MÚLTIPLE (S YX) Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace mas pequeño. Para medirla se utiliza la formula:

S yx =

∑ ( Y − Yˆ)

2

n − k −1

107

Manual de Estadística Aplicada

donde: Y  Y ˆ

n k 

: Valores

observados en la muestra : valores estimados a partir a partir de la ecuación de regresión : mínimo de datos : número de variables independientes

En los resultados de Excel se llama error típico y para el caso de colesterol que se viene desarrollando es 14,89

8.4 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE (R 2) Mide la tasa porcentual de los cambios de Y que pueden ser explicados por X 1, X2 y X3 simultáneamente. SCregresión r 2 = SCtotal

r 2 =

19950,57 = 0,95 20837,5

Interpretación: El 95% de los cambios en el nivel de colesterol de un paciente puede ser explicado por el peso, perímetro abdominal y nivel de hemoglobina.

Coeficiente de determinación múltiple ajustado (r 2a) Hay personas que prefieren “ajustar” el r 2 de acuerdo a: n = número de datos k = número de variables independientes n −1 r a2 = 1 − (1 − r 2 ) n − k −1 r a2 = 1 − (1 − 0,95 )

8 −1 = 0,9125 8 − 3 −1

Coeficiente de correlación: r r = r 2

108

Jorge Córdova Egocheaga

Para el caso de colesterol, tenemos:

r  = 0,95 = 0,9746 De acuerdo al valor de r podemos afirmar que las variables peso, perímetro abdominal y hemoglobina se encuentran asociadas en forma directa, de una manera muy fuerte. Los resultados de Excel nos da la siguiente información:

Estadísticas de la regresión Coeficiente de correlación múltiple 0.97



Coeficiente de determinación R 2

0.95

r 2

R2 ajustado Error típico Observaciones

0.92 14.89 8

r 2a Syx

8.5 LA PRUEBA GLOBAL DEL MODELO No se debe perder de vista que como trabajamos con una muestra, sólo tendremos estimaciones de los parámetros. El modelo de la muestra es

Yˆ = b 0 + b 1 X 1 + b 2 X 2 Para el ejemplo será:

Yˆ = 121,704 + 2,949 X1+ 0,276X2 - 7,843X3 que estima al modelo de la población: Y = βo + β 1X1 + β 2X2 + β 3X3

1.

Formulación de hipótesis Hp : b1 = b2 = b3 = 0 Ha : b1 ¹ b2 ¹ b3 ¹ 0

109

Manual de Estadística Aplicada

Si se acepta la hipótesis planteada, significa que ninguno de los factores (X 1,X2 y X3) son relevantes para explicar los cambios en Y.

2.

Determinación del nivel de significación a = 0,10

3. Selección de la prueba estadística: Se realiza a partir del  Análisis de Varianza de la Regresión y tiene como objeto aceptar o rechazar la validez del modelo. F=

CMeregresi ón CMeresiduo s

4. Determinación el criterio de decisión El valor de F tabular se determina con 3 y 4 grados de libertad y a/2 = 0,05 Si Fc es > 6,59 se rechaza la Hp

α/2=0,01 (1 -

α) 0,95

Fα 

2

6,59

5. Cálculos

Fc =

6650 ,19 = 29,99 221,73

Lo que se puede verificar con la salida de Excel. El  p-valor es 0,003 y como es menor al valor del nivel de significación, por lo tanto se rechaza la Hp.

110

Jorge Córdova Egocheaga

Resultado en Excel GL

SC 

CMe

F calculado

 p-valor 

Regresión Residuos

3 4

19950.57 886.926

6650.19 221.73

29.99

0.003

Total

7

20837.5

6. Conclusiones  A. Se rechaza la hipótesis planteada, se acepta la alternante a un nivel de significación de 0,10. La prueba resultó ser significativa. B. Hay evidencia muestral suficiente para rechazar la hipótesis planteada C. Probablemente al menos uno de los factores seleccionados (peso, diámetro de la cintura y hemoglobina) explican el nivel de colesterol en un paciente. 8.6 HIPÓTESIS SOBRE PARÁMETROS EN LA ECUACIÓN DE REGRESIÓN Una vez que se realiza la prueba global del modelo, y se concluye que al menos uno de los factores tiene efecto significativo sobre Y (nivel de colesterol), se deberá a probar cada uno de los factores, a fin de determinar cuál o cuales factores permanecen en el modelo, y cuales son descartados.

(A) Hipótesis acerca de una pendiente Procedimiento 1) Planteo de hipótesis Hp :  b1 = 0 Ha :  b1 ¹ 0 2) Nivel de significación a = 0,10 3) Prueba estadística

individual: B 1

111

Manual de Estadística Aplicada

tc =

b1 − B 1 S b1

donde bi : pendiente de la regresión ajustada (muestra)  Bio : pendiente real hipotizada para la población S bi : error estándar del coeficiente de regresión

con los supuestos a) La población normal con m, s2 b) La muestra fue seleccionada al azar 4) Criterios de decisión

t con Gl = n - k - 1

=8-3-1=6 α = 0,10

-1,94318

1,94318

Si (1,94318 ≤ t c ≤-1,94318) se acepta H p, en caso contrario se rechaza

112

Jorge Córdova Egocheaga

5) Cálculos

tc =

S b1 =

b1 − B S b1

10

S yx

∑X

2

2

− n(x )

=

0,704

Resultados en Excel Coeficientes

Error típico

Estadístico t 

Probabilidad 

Inferior 95%

Superior 95%

Inferior 95.0%

Superior 95.0%

121.704

83.00

1.466

0.216

-108.752

352.161

-108.752

352.161

PESO

2.949

0.70

4.189

0.014

0.995

4.904

0.995

4.904

CINTURA

0.276

0.49

0.558

0.607

-1.095

1.646

-1.095

1.646

HEMOGLO BINA

-7.843

5.73

-1.37

0.24

-23.74

8.06

-23.74

8.06

Intercepción

Reemplazando en la ecuación:

tc =

2 ,949 − 0 0 ,704

t c = 4 ,189

6)

Conclusiones  A) Se rechaza la hipótesis planteada. Se acepta la hipótesis nula. B) Existe una diferencia suficientemente grande entre el valor del estimador b 1= 2,949 y el valor hipotizado del parámetro  b1= 0 y que nos permite concluir que el factor X 1 (peso del paciente) afecta significativamente a Y (nivel de colesterol). C) La variable X 1  (peso) será considerada en el modelo de regresión múltiple.

(B) Hipótesis acerca del coeficiente de poblacional: r  (rho) 1. Planteo de hipótesis Hp : r  = 0

correlación

113

Manual de Estadística Aplicada

2. 3.

Ha : r ¹ 0 Nivel de significación a = 0,05 Criterio de decisión:

-1,94318

1,94318

Si (1,94318 ≤ t c ≤-1,94318) se acepta H p, en contrario se rechaza 4.

Prueba estadística

tc =

5.

114

r  n − 2 1 − r 2

Cálculos tc =

6.

caso

0,9746 8 − 2 = 10 ,66 2 1 − (0,9746 )

Conclusiones  A) Se rechaza la hipótesis planteada, se acepta la hipótesis alternante a un nivel de significación de 0,10. La prueba fue significativa. B) La evidencia empírica permite afirmar que existe una alta correlación entre los factores peso, perímetro abdominal y hemoglobina.

Jorge Córdova Egocheaga

8.7 ANÁLISIS DE RESIDUOS Multicolinealidad: Varias X tienen alta asociación entre ellas. Homoscedasticidad: Residuos constantes a lo largo de toda la data.

115

Manual de Estadística Aplicada

116

CAPÍTULO

9

 ANÁLISIS DE SERIES DE TIEMPO

OBJETIVOS  Al finalizar el Capítulo 9, el participante será capaz de: 1.

Elaborar un modelo, que permita proyectar una serie de datos, en un horizonte temporal

2.

Desestacionalizar una serie histórica.

Manual de Estadística Aplicada

9.1 INTRODUCCIÓN    

Los pronósticos o predicciones, son una herramienta esencial en cualquier proceso de toma de decisiones. La precisión de las predicciones depende de la calidad de la información que se disponga El análisis de las series de tiempo permite determinar patrones en los datos recolectados a través del tiempo  Al proyectar estos patrones, se obtiene una estimación para el futuro.

9.2 REPRESENTACIÓN GRÁFICA Existen dos formas de graficar series temporales: diagrama aritmético y diagrama logarítmico.

(A) Diagrama Aritmético: La escala vertical es una escala ordinaria, cuyos intervalos son de igual longitud. Cada intervalo representa, la misma cantidad. Un diagrama de este tipo representa la variación anual absoluta. Ejemplo: Ventas de la Compañía ABC (1967-73) Escala Aritmética

118

 Año 1967 68 69 70 71 72 73

Ventas Millones de soles

2,4 3,3 4,2 5,2 8,3 15,6 17,1

Jorge Córdova Egocheaga

(B) Diagrama Logarítmico: Los   intervalos en esta escala no solo son diferentes en longitud, sino que esta disminuye a medida que se aleja del origen. El diagrama muestra la tasa porcentual de cambio anual de la serie.

9.3 VARIACIONES EN LAS SERIES DE TIEMPO Las variaciones de una serie cronológica se clasifican en:

(A) Sistemática: Ocurren en regularidad, pudiendo por lo tanto se medidas estadísticamente y predecir su recurrencia futura. Pueden ser: tendencia secular, fluctuación cíclica y variación temporal.

(a) Tendencia Secular: El valor de la variable tiende a disminuir o aumentar en un periodo muy largo ( largo plazo).

119

Manual de Estadística Aplicada

Se refiere a un aumento o disminución ¨estable¨ en el tiempo. En el siguiente gráfico se muestra una tendencia secular en una serie temporal creciente que fluctúa.

(b) Fluctuación Cíclica: Se caracteriza porque a través del tiempo hay años en que el ciclo toma valores mayores que la tendencia y otros años en que toma valores menores que la tendencia. El tiempo entre el pico y el punto más bajo, es por lo menos 1 año, suele durar entre 15 - 20 años. Los ciclos no siguen un patrón regular.

(c)

Variación Temporales o Estacional: Son variaciones regulares o predecibles dentro de un año. Ejemplo:   la venta de ropa abrigo en invierno y de bebidas en verano.

120

Jorge Córdova Egocheaga

Y

(B) Variaciones Aleatorias: Son causadas por sucesos aislados, como guerras, huelgas, terremotos, etc, en consecuencia, no pueden se predecibles. En este caso el comportamiento de la variable cambia en forma impredecible, es decir, en forma aleatoria.

Ejemplo: La variación de los precios del a cambios en la Corriente del Niño.

pescado debido

Y

9.4 ANÁLISIS DE LA TENDENCIA(A) RAZONES PARA ESTUDIAR TENDENCIAS a) El estudio de tendencias seculares nos permite escribir un patrón histórico. b) El estudio de tendencias seculares nos permite proyectar patrones parados (o tendencias), hacia el futuro.

121

Manual de Estadística Aplicada

c)

En muchas situaciones, el estudio de la tendencia secular de una serie temporal nos permite eliminar la componente de tendencia de una serie.

(A) Ajuste de la tendencia lineal: (Método de mínimos cuadrados) Ecuación

yˆ = b0 + b1x  A partir de las ecuaciones normales ya estudiadas se puede deducir:

b1 =

∑ xy − n x y ∑ x - nx

b 0 = y - b1 x (B) Codificación de la variable temporal: Se codifica la variable temporal para simplificar los álculos, si la serie es impar el año medio es cero, y hacia atrás van los valores negativos y hacia adelante valores positivos consecutivos. Ejemplo: X Año  Año 1990 91 92 93 94 95 96

Codificado -3 -2 -1 0 1 2 3

 Año Medio

Si la serie es par  el año medio es cero, pero no aparece en la serie, pues se consideran semestres.Ejemplo:

122

Jorge Córdova Egocheaga

X

X

 Año  Año Codificado 1991 92 93 94 95 1996

-5 -3 -1 1 3 5

 Año Medio = 0

Ejemplo : Número de intervenciones quirúrgicas en el Hospital María  Auxiliadora  Auxiliadora entre 1995 y 2002. Encontrar la ecuación que describa la tendencia secular de las intervenciones. intervenciones. AÑ O ( X ) Número de interven interven ciones (Y)

19 95

1 99 6

98

1 05

1997

11 6

1998

119

1 99 9

1 35

2000

15 6

2001

177

2 002

2 08

Primero se elabora una tabla para los cálculos previos.

Año 1995 1996 1997 1998 1999 2000 2001 2002 TOTAL

X -7 -5 -3 -1 1 3 5 7 0

 Y 98 105 116 119 135 156 177 208 1114

XY -686 -525 -348 -119 135 468 885 1456 1266

X2 49 25 9 1 1 9 25 49 168

Se calcula la pendiente (b1)

123

Manual de Estadística Aplicada

xy 1266 = 7,536 b1 = 2∑ = x 168 ∑

b1 = 7,536 y la intersección

b0 = y b0

y 1114 ∑ = = = 139,25 n

8

 Así, la secuencia lineal general, que describe la tendencia secular de las intervenciones quirúrgicas es:

yˆ =b0 +b1x yˆ = 139,25 + 7,536x (C) Proyección de la ecuación de la tendencia Si se tiene la ecuación de la tendencia, se puede proyectarla para predecir la variable de interés.

Ejemplo: Si yˆ = 139,25 + 7,536x  y se desea estimar los cargamentos para 1997. Primero   se desea convertir 1997 al valor de tiempo codificado: como es una serie par, el intervalo es en medio año. x = 9 semestres es decir, hay 9 semestres entre el “año medio” y 1997. Sustituir  este  este valor en la ecuación

yˆ = 139,25 + 7,536(9) yˆ = 139,25 + 67,82

yˆ = 207 intervenciones quirurgicas

124

Jorge Córdova Egocheaga

(E) Ajuste de la tendencia parabólica Muchas veces el modelo lineal de ajuste no describe adecuadamente adecuadamente el comportamiento histórico de los datos. Para salvar este inconveniente se suele utilizar una curva parabólica, cuya forma general es: 2

y = a + bx bx + cx cx $

Donde: y $

= estimac estimación ión de la variable dependiente

a, b, c = coeficientes de regresión x = valor codificado de la variable temporal Búsqueda de los valores a, b, c Utilizamos el método de mínimos cuadrados, de las cuales se deducen las siguientes relaciones:

∑ y = an + c ∑ x

2

∑ x2y = a∑ x 2+ c∑ x4  b =

∑ xy ∑ x2

Una vez hallados los valores a, b, c, los sustituimos en la ecuación de segundo grado.

Ejemplo:   En los últimos años, las infecciones postoperatorias en cirugías de no programadas. La tabla siguiente muestra información acerca de las infecciones de este tipo que nos será de ayuda para determinar la tendencia parabólica que describe estas infecciones.

125

Manual de Estadística Aplicada

Año

1997 1998 1999 2000 2001 13

Infecciones

24

39

65

106

Elaboramos una tabla para los datos previos

Año

X

 Y

X2

X4

XY

X2 Y

1997

-2

13

4

16

-26

52

1998

-1

24

1

1

-24

24

1999

0

39

0

0

0

0

2000

1

65

1

1

65

65

2001

2

106

4

16

212

424

TOTAL

0

247

10

34

227

565

Sustituyendo los valores de la tabla en las ecuaciones anteriores, obtenemos. 1 247 = 5a + 10c 565 = 10a + 34 c 2  b =

De

3

227

3

10

, nos damos cuenta que: b = 22.7

 Ahora debemos encontrar a y c resolviendo las ecuaciones  y  1.- Multiplique la ecuación   por dos, y resta la ecuación  de la ecuación .

126

Jorge Córdova Egocheaga

494 = 10a + 20c - 2 -565 = -10a - 34c -71 = -14c 4 De la ecuación 4 , rápidamente encontramos el valor de c -14c = -71 c = -71/-14 c = 5.07 1

x2

Sustituya el valor c en la ecuación 247 = 5a + 10c 247 = 5a + 10 (5.07) 247 = 5a + 50.7 196.3 = 5a a = 39.3



Con los valores a, b, c se construye la ecuación de la manera siguiente 2

y = a + bx + cx $

y = 39.3 + 22.7x + 5.07x $

¿Se ajusta la parábola a la serie temporal? Para esto se debe graficar los datos y la curva.

127

Manual de Estadística Aplicada

Predicción Suponga que deseamos predecir las ventas de relojes para 2002. El valor codificado de X es 3. y = 39 .3 + 22.7x + 5 .07x

2

$

y = 3 9.3 + 2 2.7(3 ) + 5 .0 7(3 )

2

$

y = 3 9 .3 + 6 8 .1 + 4 5 .6 3 $

y = 1 5 3 .0 3 $

Para el año 2002 se estima 153 infecciones post operatorias en cirugías no programadas.

Caso: Proyección de ventas En una Clínica de Lima, se cuenta con un histórico de facturación mensual (en miles de US $), desde enero de 1998 hasta junio del 2002. Primero, se hace una evaluación de los pronósticos empleando varios modelos, entre ellos:      

medias móviles medias ponderadas pronóstico con suavizamiento exponencial tendencia de pronóstico lineal tendencia de pronóstico cuadrático tendencia de pronóstico exponencial.

Para poder seleccionar el pronóstico más apropiado, se puede considerar dos criterios: MSE : MAD :

128

Media de la Suma de los Errores (o desviaciones) del pronóstico al cuadrado. Desviación Absoluta Media, es el promedio de los valores absolutos de todos los errores del pronósticos.

Jorge Córdova Egocheaga

El modelo de pronóstico puede ser evaluado por cualquiera de los dos criterios, pero el MSE es influenciada por los errores grandes (ya que está al cuadrado). Se puede experimentar con varios modelos y elegir el que genere el menor MSE o MAD. MES Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre

VENTAS (en miles US $) 1998 1999 2000 441.00 434.50 502.00 657.50 606.50 364.00 417.50 582.00 469.50 406.50 506.50 832.00

451.00 543.50 403.50 492.00 299.50 797.00 263.00 838.00 398.00 462.50 396.50 380.50

352.50 314.50 410.50 276.50 357.50 323.00 274.50 248.50 307.50 361.00 333.50 302.00

2001

2002

309.50 250.50 605.00 434.00 456.00 382.00 543.50 441.00 466.00 583.00 620.00 360.00

542.00 382.00 535.00 494.50 468.00 560.50

Comparación entre el pronóstico con Medias Móviles y Medias Ponderadas Se elige el modelo que presente el menor Error Cuadrático Medio: MSE

Pronóstico con Medias Móviles para tres meses

MES Ventas PMM EP 441.00 1 2 434.50 459.17 42.83 502.00 531.33 126.17 3 4 657.50 588.67 17.83 606.50 542.67 -178.67 5 6 364.00 462.67 -45.17 50 382.00 486.33 48.67 535.00 470.50 24.00 51 52 494.50 499.17 -31.17 468.00 507.67 52.83 53 560.50 54 Suma de errores al cuadrado Error Cuadrático Medio

EPC 1834.69 15918.03 318.03 31921.78 2040.03 2368.44 576.00 971.36 2791.36 474093 9117.18

129

Manual de Estadística Aplicada

Promedios móviles para tres meses

 Actual

800

Predicted Forecast  Actual Predicted Forecast

700      s      a       t      n      e       V

600 500

Moving Average Length:

400 300

MAPE: MAD: MSD:

200 0

10

20

30

40

3

  23.8   106.7 21531.4

50

Time

Pronóstico con Media Ponderada para tres meses MES

Ventas

PMP

EP

1

441.00

2

434.50

469.55

32.45

3

502.00

566.25

4

657.50

51

EPC

Ponderaciones Mes 1

0.2

1053.00

Mes 2

0.3

91.25

8326.56

Mes 3

0.5

600.9

5.60

31.36

535.00

484.15

10.35

107.12

52

494.50

489.35

-21.35

455.82

53

468.00

519.55

40.95

1676.90

54

560.50

Suma de Errores al Cuadrado

291910.64

Error Cuadrático Medio

5613.67

130

Jorge Córdova Egocheaga

Promedios móviles para tres meses Row Period Forecast Lower 1 55 507.667 220.064

Upper 795.269

Suavizamiento Exponencial para un a = 0.2 Row Period Forecast Lower Upper 1 55 494.661 248.938 740.384 Single Exponential Smoothing

850

 Actual Predicted

750

Forecast  Actual Predicted Forecast

650      s      a       t      n      e       V

550 Smoothing Constant  Alpha: 0.200

450 350

MAPE: MAD: MSD:

250 0

10

20

30

40

  22.8   100.3 17605.2

50

Time

Tendencia Lineal Row Period 1 55

Forecast 418.630

131

Manual de Estadística Aplicada

Tendencia Cuadrática Row Period Forecast 1 55 418.630

Tendencia Cuadrática Row Period 1 55

132

Forecast 418.630

Jorge Córdova Egocheaga

Tendencia Exponencial Row Period Forecast 1 55 405.787

¿Qué modelo se elige? De acuerdo a lo expuesto, se puede tomar el MSE o el MAD. Trabajaremos con el MAD. Veamos un resumen.

133

Manual de Estadística Aplicada

Modelo Promedio móviles Suavizamiento exponencial Tendencia lineal Tendencia cuadrática Tendencia exponencial

Forecast 507.67 494.66 418.63 531.64 405.79

MAD 106.70 100.30 106.70 93.10 105.10

El modelo más apropiado es la Tendencia Cuadrática De acuerdo a nuestro análisis, aún no se puede inferir que para el periodo 55 (es decir julio del 2002), se proyecte una ventas de 531,636. Como se dispone de suficiente información, podemos evaluar la estacionalidad mensual y hacer una proyección de ventas más adecuada. Procederemos a calcular el Índice de Estacionalidad Mensual, para lo cual se ha tomado un intervalo de 3 meses como intervalo. MES Ene-1998 Feb-1998 Mar-1998 Abr-1998 May-1998 Jun-1998 Jul-1998 Ago-1998 Sep-1998 Oct-1998 Nov-1998 Dic-1998 Ene-1999 Feb-1999 Mar-1999 Abr-1999 May-1999 Jun-1999 Jul-1999 Ago-1999 Sep-1999 Oct-1999 Nov-1999 Dic-1999 Ene-2000 Feb-2000 Mar-2000

134

Promedio Indice estacional Ventas Móvil 3 meses mensual 441.00 434.50 459.17 0.94627949183 502.00 531.33 0.94479297365 657.50 588.67 1.11693091733 606.50 542.67 1.11762899263 364.00 462.67 0.78674351585 417.50 454.50 0.91859185919 582.00 489.67 1.18856364874 469.50 486.00 0.96604938272 406.50 460.83 0.88209764919 506.50 581.67 0.87077363897 832.00 596.50 1.39480301760 451.00 608.83 0.74076101834 543.50 466.00 1.16630901288 403.50 479.67 0.84120917304 492.00 398.33 1.23514644351 299.50 529.50 0.56562795090 797.00 453.17 1.75873482898 263.00 632.67 0.41570073762 838.00 499.67 1.67711807872 398.00 566.17 0.70297321166 462.50 419.00 1.10381861575 396.50 413.17 0.95966115369 380.50 376.50 1.01062416999 352.50 349.17 1.00954653938 314.50 359.17 0.87563805104 410.50 333.83 1.22965551672

MES Abr-2000 May-2000 Jun-2000 Jul-2000 Ago-2000 Sep-2000 Oct-2000 Nov-2000 Dic-2000 Ene-2001 Feb-2001 Mar-2001 Abr-2001 May-2001 Jun-2001 Jul-2001 Ago-2001 Sep-2001 Oct-2001 Nov-2001 Dic-2001 Ene-2002 Feb-2002 Mar-2002 Abr-2002 May-2002 Jun-2002

Ventas 276.50 357.50 323.00 274.50 248.50 307.50 361.00 333.50 302.00 309.50 250.50 605.00 434.00 456.00 382.00 543.50 441.00 466.00 583.00 620.00 360.00 542.00 382.00 535.00 494.50 468.00 408.80

Promedio Indice estacional Móvil 3 meses mensual 348.17 0.79415988511 319.00 1.12068965517 318.33 1.01465968586 282.00 0.97340425532 276.83 0.89765201686 305.67 1.00599781897 334.00 1.08083832335 332.17 1.00401404917 315.00 0.95873015873 287.33 1.07714617169 388.33 0.64506437768 429.83 1.40752229546 498.33 0.87090301003 424.00 1.07547169811 460.50 0.82953311618 455.50 1.19319429199 483.50 0.91209927611 496.67 0.93825503356 556.33 1.04793289395 521.00 1.19001919386 507.33 0.70959264126 428.00 1.26635514019 486.33 0.78546949966 470.50 1.13708820404 499.17 0.99065108514 457.10 1.02384701502

Jorge Córdova Egocheaga

Luego se calcula el Índice de Estacionalidad Mensual promediando los índices mensuales de todos los años Año 1998 1999 2000 2001 2002 Total Media

Ene

Feb

Mar

Abr

May

Jun

Jul

Ago

Sep

Oct

Nov

Dic

0.7408 1.0095 1.0771 1.2664 4.0938 1.0235

0.9463 1.1663 0.8756 0.6451 0.7855 3.4725 0.8838

0.9448 0.8412 1.2297 1.4075 1.1371 4.6155 1.1121

1.1169 1.2351 0.7942 0.8709 0.9907 3.8909 1.0016

1.1176 0.5656 1.1207 1.0755 1.0238 3.7856 0.9807

0.7867 1.7587 1.0147 0.8295

0.9186 0.4157 0.9734 1.1932

1.1886 1.6771 0.8977 0.9121

0.9660 0.7030 1.0060 0.9383

0.8821 1.1038 1.0808 1.0479

0.8708 0.9597 1.0040 1.1900

1.3948 1.0106 0.9587 0.7096

I Típico

1.0150 0.8765 1.1029 0.9933 0.9726 1.0884 0.8680 1.1592 0.8959 1.0202 0.9978 1.0101

3.6029 2.5823 3.4869 2.6472 3.2326 3.1537 2.6789 1.0974 0.8752 1.1689 0.9033 1.0287 1.0061 1.0184

La suma de las medias debería dar 12.000000 pero por errores de redondeo da 12.099513 por que hay aplicar un factor de corrección igual a 0.991775427 (obtenido de dividir 12/12.099513) con el que se obtiene el INDICE TÏPICO.

9.5 ELIMINACIÓN DE LA ESTACIONALIDAD MES Ene-1998 Feb-1998 Mar-1998 Abr-1998 May-1998 Jun-1998 Jul-1998 Ago-1998 Sep-1998 Oct-1998 Nov-1998 Dic-1998 Ene-1999 Feb-1999 Mar-1999 Abr-1999 May-1999 Jun-1999 Jul-1999 Ago-1999 Sep-1999 Oct-1999 Nov-1999 Dic-1999 Ene-2000 Feb-2000 Mar-2000

Ventas 441.00 434.50 502.00 657.50 606.50 364.00 417.50 582.00 469.50 406.50 506.50 832.00 451.00 543.50 403.50 492.00 299.50 797.00 263.00 838.00 398.00 462.50 396.50 380.50 352.50 314.50 410.50

Indice Típico Ventas de Estacionalidad Desestacionalizadas 1.0150347597 434.47 0.87648360289 495.73 1.10290746607 455.16 0.99332087893 661.92 0.97258760947 623.59 1.08839199380 334.44 0.86802445215 480.98 1.15924489482 502.05 0.89588944962 524.06 1.02021148346 398.45 0.99784212593 507.60 1.01006128315 823.71 1.01503475972 444.32 0.87648360289 620.09 1.10290746607 365.85 0.99332087893 495.31 0.97258760947 307.94 1.08839199380 732.27 0.86802445215 302.99 1.15924489482 722.88 0.89588944962 444.25 1.02021148346 453.34 0.99784212593 397.36 1.01006128315 376.71 1.01503475972 347.28 0.87648360289 358.82 1.10290746607 372.20

MES Abr-2000 May-2000 Jun-2000 Jul-2000 Ago-2000 Sep-2000 Oct-2000 Nov-2000 Dic-2000 Ene-2001 Feb-2001 Mar-2001 Abr-2001 May-2001 Jun-2001 Jul-2001 Ago-2001 Sep-2001 Oct-2001 Nov-2001 Dic-2001 Ene-2002 Feb-2002 Mar-2002 Abr-2002 May-2002 Jun-2002

Ventas 276.50 357.50 323.00 274.50 248.50 307.50 361.00 333.50 302.00 309.50 250.50 605.00 434.00 456.00 382.00 543.50 441.00 466.00 583.00 620.00 360.00 542.00 382.00 535.00 494.50 468.00 408.80

Indice Típico

Ventas

de Estacionalidad Desestacionalizadas 0.99332087893 278.36 0.97258760947 367.58 1.08839199380 296.77 0.86802445215 316.24 1.15924489482 214.36 0.89588944962 343.23 1.02021148346 353.85 0.99784212593 334.22 1.01006128315 298.99 1.01503475972 304.92 0.87648360289 285.80 1.10290746607 548.55 0.99332087893 436.92 0.97258760947 468.85 1.08839199380 350.98 0.86802445215 626.13 1.15924489482 380.42 0.89588944962 520.15 1.02021148346 571.45 0.99784212593 621.34 1.01006128315 356.41 1.01503475972 533.97 0.87648360289 435.83 1.10290746607 485.08 0.99332087893 497.83 0.97258760947 481.19 1.08839199380 375.60

135

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF