Anova Simple Inferencia

July 31, 2018 | Author: Jose Pobletee | Category: Analysis Of Variance, Statistical Inference, Analysis, Statistical Analysis, Statistics

Share Embed Donate

Report this link

Short Description

anova...

Description

A nális is d e la varian za (A (A NOVA )

Permite analizar el efecto de variables independientes cualitativas (factores) sobre una variable dependiente cuantitativa (variable respuesta) ANÁLISIS DE LA VARIANZA SIMPLE (ANOVA con un factor fijo) fijo) La técnica estadística de análisis de la varianza simple es la extensión de la prueba T de diferencias de medias con dos muestras independientes. El ANOVA permite permite comparar la medias de 2 o más poblaciones. Por ejemplo, un investigador educacional desea comparar la efectividad de tres métodos diferentes para enseñar Matemática. Para evaluar si los métodos de enseñanza producen resultados diferentes, es decir, promedios diferentes, el investigador debe plantear las siguientes hipótesis: H0: μ1 = μ2 = μ3 (Las medias de los tres métodos (poblaciones) son iguales H1: Por lo menos una media es distinta. En general, en un problema como éste, se tienen muestras aleatorias es c o n v ar ar i an an z a independientes tomadas d e k p o b l a c i o n e s n o r m a l es 2 común σ (todas las poblaciones tienen la misma varianza ≡ homocedasticidad): Variable de interés = Y Tratamiento 1 y11 y12 ... y1n

1

Tratamiento 2 …

Tratamiento k

y21 y22

... y2n2 …

yk1 yk2 ... yknk

En la práctica a las diversas poblaciones se les sueles llamar tratamientos, esto se debe que las técnicas de análisis de la varianza se crearon, originalmente, en conexión con experimentos agrícolas.

n = n1 + n2 … nk

El modelo de cada observación está dado y ij está compuesto por:

Cecilia Larraín R

ANOVA simple

Página 1

Yij = μi + εij ; μi representa la media de la población i, i = 1,2, …, k ε ij es el error aleatorio, j = 1,2 …, n k Hipótesis

ε ij se

distribuyen Normal con media cero y varianza constante

básicas del modelo

También cada observación se puede expresar de la forma Yij = μ +

i

ε ij

μi

donde μ representa a la media global y tratamiento i.

i

representa el efecto del

Del ejemplo: Cada resultado o puntaje y1j está compuesto por un puntaje medio global (μ) + el efecto de enseñanza con el método 1(

1

)

+ ε1j (en el error pueden estar las horas de estudio, alimentación, etc.) La hipótesis nula “H 0: μ1 = μ2 = …= μk” es ≡ a

“H0:

1

=

2

... =

k

= 0“

Decir que las medias de las poblaciones son iguales es equivalente a “el efecto del tratamiento es nulo” ← estadísticamente

La prueba en si está basada en un análisis de la variabilidad o dispersión total de los datos (numerador de la varianza de la variable de interés o dependiente Y) Se resuelve ¿a qué se debe la fuente de variabilidad de los datos?, al tratamiento? o al error? A la variabilidad se le llama Suma de Cuadrados (SC) Variabilidad Total: SC(total) Variabilidad d ebida a los tratamientos ): SC(Tratamiento)

o SC(entre las

muestras) o SC(Inter-grupos) Variabilidad debida al error :

SC(Error) o SC (dentro los tratamientos) o

SC(Intra-grupos)

Cecilia Larraín R

ANOVA simple

Página 2

SC(Total) = SC(Tratamiento) + SC(Error )

Se deduce que:

El procedimiento estadístico (análisis de la varianza) que permite probar la hipótesis nula μ1 = μ2 = …= μk, se resumen en la tabla siguiente: ANOVA Fuente Variación Inter-grupos (tratamientos) Intra-grupos (Error) Total

Suma de cuadrados (y i. -y) i

gl 2

j

(y ij -yi. ) i

2

j

2

(yij -y) i

K -1 (n° grupos -1) n – k (n –n° grupos)

Media cuadrática (Varianzas)

F (estadístico de prueba) M.C.(Inter-grupos)

M.C.(Integrupos)

M.C.(Error)

M.C. (Error)

n-1

j

Se rechaza la hipótesis de que todas la medias poblacionales son iguales o que el tratamiento tiene efecto nulo sobre la variable dependiente si el valor de F (calculado con los datos de la muestra) es mayor que el valor tabla F(1- α ; k-1, n – k – 1) , donde α en el nivel de significación, esto quiere decir, que rechazamos para valores grande de F lo que implica que rechazamos cuando la varianza explicada por el tratamiento es mucho mayor que la varianza de error. El cálculo de la MC(Tratamiento), MC(Error) y MC(total) se explicará en el ejemplo siguiente: Ejemplo: (Met-enseñanza.sav) Quince estudiantes de cuarto año básico se asignaron al a tres grupos (5 alumnos por grupo), con el objeto de experimentar con tres métodos de enseñanza da la matemática. Al final del semestre se aplicó el mismo test a los 15 estudiantes. En la tabla se presentan los resultados:

Cecilia Larraín R

ANOVA simple

Página 3

Y = Puntaje del test 77 81 71 76 72 58 74 66 76 85 82 80

Método 1 Método 2 Método 3

80 70 77

Tenemos: SC(Total) = SC(Tratamiento) + SC(Error) y i.

5 5 5 n = 15

77 68 80

y ij

j

Método 1 77 81 71 76 80 Método 2 72 58 74 66 70 Método 3 76 85 82 80 77

ni

2

y ij j

385 340 400 1125

29707 23280 32054 85041

i 2

SC(Total) =

(yij -y) i

2

y ij

= ;

j

2 ij

y i

=

i

n

j

(1125)

85041 -

; n = n1 + n2 + n3

j

2

= 666

15

2

SC(Tratamiento) =

y ij

(yi. -y) 2 = i

j=1

j

385 2 5

(yij -yi. ) 2 se i

y ij -

ni

i

La SC(Error) =

2

340 2 5

i

j

n

400 2 5

1125 2 15

= 390

puede calcular por diferencia:

j

SC(Total) = SC(Tratamiento) + SC(Error) SC(Error) = SC(Total) - SC(Tratamiento) SC(Error) = 666 – 390 = 276 Retomando el ejemplo: A un nivel de significación del 5%, ¿Existe diferencia significativa en los tres métodos de enseñanza?

Cecilia Larraín R

ANOVA simple

Página 4

Variable dependiente: Puntaje de test, Variable independiente (factor): Método de enseñanza Supuestos: normalidad en los datos las varianzas de los tres métodos son iguales H0: μ1 = μ2 = μ3 H1: Por lo menos una media es distinta Nivel de significación:α = 0,05

Estadístico: F =

M.C.(Explicada) M.C.(Error)

F(k -1 = 2, n – k= 12) ; k = 3 ; n = 15;

RC = { F > F 0,95(2,12) = 3,885} α = 0,05 Tabla ANOVA

Fuente de Variación Método (Inter-grupos)

SC

gl

MC 390

390

2

2

Error (Intra-grupos)

276

12

Total

666

14

27 6 12

Fobs

= 195 = 23

195 23

=

8,478

Como Fobs = 8,478 es mayor que 3,885, debe rechazarse la hipótesis nula y se concluye que los tres métodos de enseñanza no son igualmente efectivos, en otras palabras, el método de enseñanza de la matemática influye significativamente en los puntajes promedio de los estudiantes. P-valor = P(F(2,12) > 8,478) = 0,005. O b s . Para verificar si las poblaciones tienen la misma varianza se puede hacer a través del test de Levene.

0,95 α =

0,05

8,478

Cecilia Larraín R

ANOVA simple

F(2,12)

Página 5

Promedio del grupo 1

ANOVA

Puntaje

Inter-grupos Intra-grupos Total

Suma de cu adra dos 39 0,00 0

gl 2

Media cu adrá tica 19 5,00 0

27 6,00 0

12

23 ,000

66 6,00 0

14

F 8,4 78

Si g. ,00 5

Si se rechaza la hipótesis H 0: μ1 = μ2 = …= μk, se puede realizar pruebas a posterior (comparaciones múltiple post hoc. Tukey, B o n f e r r o n i , Duncan, ….) para determinar que medias difieren. Comparac iones múltiples

Variab le dependie nte: Puntaje HSD de Tukey Intervalo de confianza al 95% (I) Metodo 1 2 3

(J) Metodo 2

Diferencia de m edias (I-J) 9,000*

Error típico 3,033

Si g. ,029

Lím ite inferior ,91

Límite superior 17,09

3

-3,000

3,033

,597

-11,09

5,09

1

-9,000*

3,033

,029

-17,09

-,91

3

-12,000*

3,033

,005

-20,09

-3,91

1

3,000

3,033

,597

-5,09

11,09

2

12,000*

3,033

,005

3,91

20,09

*. La diferencia de medias es significativa al nivel .05. Ejercicio

Validación del modelo: 

Test para analizar si las poblaciones son homocedasticas o si los residuos tienen varianza constante : H : residuo = εij =eij  yij - yi. 0

σ

2

1

= σ

2

2

2

=... = σ

k

ˆ

Cecilia Larraín R

ANOVA simple

Página 6

Prueba de homogeneidad de var ianzas PUNTAJE Estadís tico de Levene ,971

gl1

gl2 2

12

Sig. ,407

Como p-valor = 0,407 > 0,05 se asume que las varianzas son iguales.

El estadístico de Levene es la F de un ANOVA simple con las desviaciones medias |yij - yi.| o residuos 

Se debe probar la hipótesis de normalidad. H0: los residuos ~ Normal H1: los residuos ~ Normal

Interpretación: como n = 15 (pequeño), el test de Shapiro-Wilk indica que se puede asumir normalidad (p-valor = 0,567 < 0,05)

Cecilia Larraín R

ANOVA simple

Página 7

Ejercicio Se mide la contaminación de un río analizando la cantidad de oxígeno que contiene en disolución el agua. Se toman muestras en cuatro lugares diferentes del río (a 10, 25, 50 y 100 km. del nacimiento), obteniéndose:

A A A A

100 km. (1) 50 km. (2) 25 km. (3) 10 km. (4)

4,8 6,0 5,9 6,3

5,2 6,2 6,1 6,6

5,0 6,1 6,3 6,4

4,7 5,8 6,1 6,4

5,1 6,0 6,5

Queremos averiguar si existen diferencias signicativas en el nivel medio de contaminación a distintas alturas del cauce. α = 0,05. Variable de interés: Y = Variable independiente (factor) = 7,0

6,5

6,0

o n e g í 5,5 x o _ C 5,0

4,5

4,0

1

2

3

4

Lugar

Hipótesis básica del modelo:

εij ~ Normal con media 0 y varianza σ 2 (varianza constante

homocedasticidad)

≡

Si estas hipótesis no se cumplen las conclusiones del ANOVA pueden ser incorrectas. Bajo el modelo ANOVA unifactorial se quiere probar H0: μ1 = μ2 = μ3 = μ4 (todas las medias son iguales. El factor no influye) H1: μi  μ j para algún par i  j (las medias difieren en al menos dos de los niveles, el factor no influye)

Cecilia Larraín R

ANOVA simple

Página 8

Estadístico de prueba: M.C.(Explicada) M.C.(Error)

F(3 , 15)

ANOVA

C_oxigeno

Lugar Error Total

Suma de cuadrados 6,082

gl

Media cuadrática

F

Decisión:

Conclusión: Coeficiente de determinación: R2 =

.

Método de Bonferroni Si se rechaza H0 hay que determinar qué parejas de medias son distintas entre sí. Se puede utilizar IC(μ i – μ j); i  j con nivel de confianza 1 – α.

 1 1 (yi  y j )  t(gl del error;1-α/2· MC(Error)     ni nj   

Cecilia Larraín R

ANOVA simple

Página 9

Comparaciones múltiples

Variable dependiente: C_oxigeno Bonferroni Intervalo de confianza al 95% (I) Lugar A 100 km

A 50 km

A 25 km

A 10 km

Diferencia de medias (I-J) -1,0650*

Error típico ,1095

Sig. ,000

A 25 km

-1,1200*

,1032

,000

-1,433

-,807

A 10 km

-1,4800*

,1032

,000

-1,793

-1,167

A 100 km

1,0650*

,1095

,000

,733

1,397

A 25 km

-,0550

,1095

1,000

-,387

,277

A 10 km

-,4150*

,1095

,011

-,747

-,083

A 100 km

1,1200*

,1032

,000

,807

1,433

A 50 km

,0550

,1095

1,000

-,277

,387

A 10 km

-,3600*

,1032

,020

-,673

-,047

A 100 km

1,4800*

,1032

,000

1,167

1,793

A 50 km

,4150*

,1095

,011

,083

,747

A 25 km

,3600*

,1032

,020

,047

,673

(J) Lugar A 50 km

Lím ite inferior -1,397

Límite superior -,733

*. La diferencia de media s es sig nificativa al nivel .05.

El método de Bonferroni utiliza α =

0,05 , k = número de tratamientos k 

   2

En ejemplo, con 95% de confianza α = 0,0083

Comprobación de las hipótesis básicas del modelo: Pruebas de normalidad

Prueba de homogeneidad de varianzas

C_oxigeno Estadístico de Levene ,873

Shapiro-Wilk gl1

Cecilia Larraín R

gl2 3

15

Sig. ,477

Residuo para C_oxigeno

ANOVA simple

Es tadístico ,969

gl 19

Página 10

Sig. ,759

Anova Simple Inferencia

Short Description

Description

Comments

We need your help!