Anova Simple Inferencia
Short Description
anova...
Description
A nális is d e la varian za (A (A NOVA )
Permite analizar el efecto de variables independientes cualitativas (factores) sobre una variable dependiente cuantitativa (variable respuesta) ANÁLISIS DE LA VARIANZA SIMPLE (ANOVA con un factor fijo) fijo) La técnica estadística de análisis de la varianza simple es la extensión de la prueba T de diferencias de medias con dos muestras independientes. El ANOVA permite permite comparar la medias de 2 o más poblaciones. Por ejemplo, un investigador educacional desea comparar la efectividad de tres métodos diferentes para enseñar Matemática. Para evaluar si los métodos de enseñanza producen resultados diferentes, es decir, promedios diferentes, el investigador debe plantear las siguientes hipótesis: H0: μ1 = μ2 = μ3 (Las medias de los tres métodos (poblaciones) son iguales H1: Por lo menos una media es distinta. En general, en un problema como éste, se tienen muestras aleatorias es c o n v ar ar i an an z a independientes tomadas d e k p o b l a c i o n e s n o r m a l es 2 común σ (todas las poblaciones tienen la misma varianza ≡ homocedasticidad): Variable de interés = Y Tratamiento 1 y11 y12 ... y1n
1
Tratamiento 2 …
Tratamiento k
y21 y22
... y2n2 …
yk1 yk2 ... yknk
En la práctica a las diversas poblaciones se les sueles llamar tratamientos, esto se debe que las técnicas de análisis de la varianza se crearon, originalmente, en conexión con experimentos agrícolas.
n = n1 + n2 … nk
El modelo de cada observación está dado y ij está compuesto por:
Cecilia Larraín R
ANOVA simple
Página 1
Yij = μi + εij ; μi representa la media de la población i, i = 1,2, …, k ε ij es el error aleatorio, j = 1,2 …, n k Hipótesis
ε ij se
distribuyen Normal con media cero y varianza constante
básicas del modelo
También cada observación se puede expresar de la forma Yij = μ +
i
ε ij
μi
donde μ representa a la media global y tratamiento i.
i
representa el efecto del
Del ejemplo: Cada resultado o puntaje y1j está compuesto por un puntaje medio global (μ) + el efecto de enseñanza con el método 1(
1
)
+ ε1j (en el error pueden estar las horas de estudio, alimentación, etc.) La hipótesis nula “H 0: μ1 = μ2 = …= μk” es ≡ a
“H0:
1
=
2
... =
k
= 0“
Decir que las medias de las poblaciones son iguales es equivalente a “el efecto del tratamiento es nulo” ← estadísticamente
La prueba en si está basada en un análisis de la variabilidad o dispersión total de los datos (numerador de la varianza de la variable de interés o dependiente Y) Se resuelve ¿a qué se debe la fuente de variabilidad de los datos?, al tratamiento? o al error? A la variabilidad se le llama Suma de Cuadrados (SC) Variabilidad Total: SC(total) Variabilidad d ebida a los tratamientos ): SC(Tratamiento)
o SC(entre las
muestras) o SC(Inter-grupos) Variabilidad debida al error :
SC(Error) o SC (dentro los tratamientos) o
SC(Intra-grupos)
Cecilia Larraín R
ANOVA simple
Página 2
SC(Total) = SC(Tratamiento) + SC(Error )
Se deduce que:
El procedimiento estadístico (análisis de la varianza) que permite probar la hipótesis nula μ1 = μ2 = …= μk, se resumen en la tabla siguiente: ANOVA Fuente Variación Inter-grupos (tratamientos) Intra-grupos (Error) Total
Suma de cuadrados (y i. -y) i
gl 2
j
(y ij -yi. ) i
2
j
2
(yij -y) i
K -1 (n° grupos -1) n – k (n –n° grupos)
Media cuadrática (Varianzas)
F (estadístico de prueba) M.C.(Inter-grupos)
M.C.(Integrupos)
M.C.(Error)
M.C. (Error)
n-1
j
Se rechaza la hipótesis de que todas la medias poblacionales son iguales o que el tratamiento tiene efecto nulo sobre la variable dependiente si el valor de F (calculado con los datos de la muestra) es mayor que el valor tabla F(1- α ; k-1, n – k – 1) , donde α en el nivel de significación, esto quiere decir, que rechazamos para valores grande de F lo que implica que rechazamos cuando la varianza explicada por el tratamiento es mucho mayor que la varianza de error. El cálculo de la MC(Tratamiento), MC(Error) y MC(total) se explicará en el ejemplo siguiente: Ejemplo: (Met-enseñanza.sav) Quince estudiantes de cuarto año básico se asignaron al a tres grupos (5 alumnos por grupo), con el objeto de experimentar con tres métodos de enseñanza da la matemática. Al final del semestre se aplicó el mismo test a los 15 estudiantes. En la tabla se presentan los resultados:
Cecilia Larraín R
ANOVA simple
Página 3
Y = Puntaje del test 77 81 71 76 72 58 74 66 76 85 82 80
Método 1 Método 2 Método 3
80 70 77
Tenemos: SC(Total) = SC(Tratamiento) + SC(Error) y i.
5 5 5 n = 15
77 68 80
y ij
j
Método 1 77 81 71 76 80 Método 2 72 58 74 66 70 Método 3 76 85 82 80 77
ni
2
y ij j
385 340 400 1125
29707 23280 32054 85041
i 2
SC(Total) =
(yij -y) i
2
y ij
= ;
j
2 ij
y i
=
i
n
j
(1125)
85041 -
; n = n1 + n2 + n3
j
2
= 666
15
2
SC(Tratamiento) =
y ij
(yi. -y) 2 = i
j=1
j
385 2 5
(yij -yi. ) 2 se i
y ij -
ni
i
La SC(Error) =
2
340 2 5
i
j
n
400 2 5
1125 2 15
= 390
puede calcular por diferencia:
j
SC(Total) = SC(Tratamiento) + SC(Error) SC(Error) = SC(Total) - SC(Tratamiento) SC(Error) = 666 – 390 = 276 Retomando el ejemplo: A un nivel de significación del 5%, ¿Existe diferencia significativa en los tres métodos de enseñanza?
Cecilia Larraín R
ANOVA simple
Página 4
Variable dependiente: Puntaje de test, Variable independiente (factor): Método de enseñanza Supuestos: normalidad en los datos las varianzas de los tres métodos son iguales H0: μ1 = μ2 = μ3 H1: Por lo menos una media es distinta Nivel de significación:α = 0,05
Estadístico: F =
M.C.(Explicada) M.C.(Error)
F(k -1 = 2, n – k= 12) ; k = 3 ; n = 15;
RC = { F > F 0,95(2,12) = 3,885} α = 0,05 Tabla ANOVA
Fuente de Variación Método (Inter-grupos)
SC
gl
MC 390
390
2
2
Error (Intra-grupos)
276
12
Total
666
14
27 6 12
Fobs
= 195 = 23
195 23
=
8,478
Como Fobs = 8,478 es mayor que 3,885, debe rechazarse la hipótesis nula y se concluye que los tres métodos de enseñanza no son igualmente efectivos, en otras palabras, el método de enseñanza de la matemática influye significativamente en los puntajes promedio de los estudiantes. P-valor = P(F(2,12) > 8,478) = 0,005. O b s . Para verificar si las poblaciones tienen la misma varianza se puede hacer a través del test de Levene.
0,95 α =
0,05
8,478
Cecilia Larraín R
ANOVA simple
F(2,12)
Página 5
Promedio del grupo 1
ANOVA
Puntaje
Inter-grupos Intra-grupos Total
Suma de cu adra dos 39 0,00 0
gl 2
Media cu adrá tica 19 5,00 0
27 6,00 0
12
23 ,000
66 6,00 0
14
F 8,4 78
Si g. ,00 5
Si se rechaza la hipótesis H 0: μ1 = μ2 = …= μk, se puede realizar pruebas a posterior (comparaciones múltiple post hoc. Tukey, B o n f e r r o n i , Duncan, ….) para determinar que medias difieren. Comparac iones múltiples
Variab le dependie nte: Puntaje HSD de Tukey Intervalo de confianza al 95% (I) Metodo 1 2 3
(J) Metodo 2
Diferencia de m edias (I-J) 9,000*
Error típico 3,033
Si g. ,029
Lím ite inferior ,91
Límite superior 17,09
3
-3,000
3,033
,597
-11,09
5,09
1
-9,000*
3,033
,029
-17,09
-,91
3
-12,000*
3,033
,005
-20,09
-3,91
1
3,000
3,033
,597
-5,09
11,09
2
12,000*
3,033
,005
3,91
20,09
*. La diferencia de medias es significativa al nivel .05. Ejercicio
Validación del modelo:
Test para analizar si las poblaciones son homocedasticas o si los residuos tienen varianza constante : H : residuo = εij =eij yij - yi. 0
σ
2
1
= σ
2
2
2
=... = σ
k
ˆ
Cecilia Larraín R
ANOVA simple
Página 6
Prueba de homogeneidad de var ianzas PUNTAJE Estadís tico de Levene ,971
gl1
gl2 2
12
Sig. ,407
Como p-valor = 0,407 > 0,05 se asume que las varianzas son iguales.
El estadístico de Levene es la F de un ANOVA simple con las desviaciones medias |yij - yi.| o residuos
Se debe probar la hipótesis de normalidad. H0: los residuos ~ Normal H1: los residuos ~ Normal
Interpretación: como n = 15 (pequeño), el test de Shapiro-Wilk indica que se puede asumir normalidad (p-valor = 0,567 < 0,05)
Cecilia Larraín R
ANOVA simple
Página 7
Ejercicio Se mide la contaminación de un río analizando la cantidad de oxígeno que contiene en disolución el agua. Se toman muestras en cuatro lugares diferentes del río (a 10, 25, 50 y 100 km. del nacimiento), obteniéndose:
A A A A
100 km. (1) 50 km. (2) 25 km. (3) 10 km. (4)
4,8 6,0 5,9 6,3
5,2 6,2 6,1 6,6
5,0 6,1 6,3 6,4
4,7 5,8 6,1 6,4
5,1 6,0 6,5
Queremos averiguar si existen diferencias signicativas en el nivel medio de contaminación a distintas alturas del cauce. α = 0,05. Variable de interés: Y = Variable independiente (factor) = 7,0
6,5
6,0
o n e g í 5,5 x o _ C 5,0
4,5
4,0
1
2
3
4
Lugar
Hipótesis básica del modelo:
εij ~ Normal con media 0 y varianza σ 2 (varianza constante
homocedasticidad)
≡
Si estas hipótesis no se cumplen las conclusiones del ANOVA pueden ser incorrectas. Bajo el modelo ANOVA unifactorial se quiere probar H0: μ1 = μ2 = μ3 = μ4 (todas las medias son iguales. El factor no influye) H1: μi μ j para algún par i j (las medias difieren en al menos dos de los niveles, el factor no influye)
Cecilia Larraín R
ANOVA simple
Página 8
Estadístico de prueba: M.C.(Explicada) M.C.(Error)
F(3 , 15)
ANOVA
C_oxigeno
Lugar Error Total
Suma de cuadrados 6,082
gl
Media cuadrática
F
Decisión:
Conclusión: Coeficiente de determinación: R2 =
.
Método de Bonferroni Si se rechaza H0 hay que determinar qué parejas de medias son distintas entre sí. Se puede utilizar IC(μ i – μ j); i j con nivel de confianza 1 – α.
1 1 (yi y j ) t(gl del error;1-α/2· MC(Error) ni nj
Cecilia Larraín R
ANOVA simple
Página 9
Comparaciones múltiples
Variable dependiente: C_oxigeno Bonferroni Intervalo de confianza al 95% (I) Lugar A 100 km
A 50 km
A 25 km
A 10 km
Diferencia de medias (I-J) -1,0650*
Error típico ,1095
Sig. ,000
A 25 km
-1,1200*
,1032
,000
-1,433
-,807
A 10 km
-1,4800*
,1032
,000
-1,793
-1,167
A 100 km
1,0650*
,1095
,000
,733
1,397
A 25 km
-,0550
,1095
1,000
-,387
,277
A 10 km
-,4150*
,1095
,011
-,747
-,083
A 100 km
1,1200*
,1032
,000
,807
1,433
A 50 km
,0550
,1095
1,000
-,277
,387
A 10 km
-,3600*
,1032
,020
-,673
-,047
A 100 km
1,4800*
,1032
,000
1,167
1,793
A 50 km
,4150*
,1095
,011
,083
,747
A 25 km
,3600*
,1032
,020
,047
,673
(J) Lugar A 50 km
Lím ite inferior -1,397
Límite superior -,733
*. La diferencia de media s es sig nificativa al nivel .05.
El método de Bonferroni utiliza α =
0,05 , k = número de tratamientos k
2
En ejemplo, con 95% de confianza α = 0,0083
Comprobación de las hipótesis básicas del modelo: Pruebas de normalidad
Prueba de homogeneidad de varianzas
C_oxigeno Estadístico de Levene ,873
Shapiro-Wilk gl1
Cecilia Larraín R
gl2 3
15
Sig. ,477
Residuo para C_oxigeno
ANOVA simple
Es tadístico ,969
gl 19
Página 10
Sig. ,759
View more...
Comments