Análisis de varianza de un Factor Marcelo Rodríguez G. Ingeniero Estadístico - Magister en Estadística
Universidad Católica del Maule Facultad de Ciencias Básicas Ingeniería en Agronomía
Diseño Experimental
21 de marzo de 2011
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
1 / 37
Introducción Denición (ANOVA de un Factor) El método de ANOVA de un Factor, es un método de comparación de medias que consiste en la comparación de varios grupos (tratamientos) de una variable cuantitativa (variable dependiente).
(La hipótesis de investigación) Existe un efecto atribuible a los tratamientos. Estadísticamente sería,
H1 : µi 6= µj .
(La hipótesis nula) El efecto de los tratamientos es el mismo. Estadísticamente sería,
H 0 : µ 1 = µ 2 = . . . µt .
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
2 / 37
Modelo Estadístico (Modelo completo de medias) El modelo está dado por
yij
= µ + τj + εij ,
i = 1, · · · , r
j = 1, · · · , t
donde:
r es el número de replicas y t el número de tratamientos. yij : i -ésima observación del j -ésimo tratamiento, µj : media del j -ésimo tratamiento, τj = µj − µ : Efecto sobre la respuesta del j -ésimo tratamiento, εij : i -ésimo error experimental del j -ésimo tratamiento.
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
3 / 37
Modelo Estadístico
(Arreglo común de los datos) Tratamientos
Considere:
yj
[email protected]
=
1
r
r X
yij
1
2
y11 y21
y12 y22
. . .
. . .
yr 1
yr 2
··· ··· ··· .
.
.
···
n =r ·t
i =1
(UCM)
ANOVA un Factor
t
y1t y2t . . .
yrt
y
=
1
n
t X r X
yij
j =1 i =1
21/03/2011
4 / 37
Ejemplo: Nociones del análisis de varianza
Recuerde el problema de crecimiento bacterial. A cada conjunto de condiciones de empaque, se le asignaron, al azar, 5 cortes de carne. Se asume que los cortes forman un grupo homogéneo. Se mide el número de bacterias por centímetro cuadrado. Condiciones de empaque
[email protected]
Al vacio (T1 )
Mezcla de gases (T2 )
100% CO2 (T3 )
620
730
550
640
720
500
680
690
440
630
680
510
670
670
550
(UCM)
ANOVA un Factor
21/03/2011
5 / 37
Ejemplo: Nociones del análisis de varianza Bacterias ( ij )
Empaques
y
yj
620
Al vacío (1)
618,67
648
1,78
860,44
640
y
Al vacío (1)
618,67
648
455,11
860,44
64,00
680
Al vacío (1)
618,67
648
3761,78
860,44
1024,00
630
(yij − y )2
(y j − y )2
Al vacío (1)
618,67
648
Al vacío (1)
618,67
648
2635,11
860,44
484,00
730
Mezcla de gases (2)
618,67
698
12395,11
6293,78
1024,00
720
Mezcla de gases (2)
618,67
698
10268,44
6293,78
484,00
690
Mezcla de gases (2)
618,67
698
5088,44
6293,78
64,00
680
Mezcla de gases (2)
618,67
698
3761,78
6293,78
324,00
670
Mezcla de gases (2)
618,67
698
2635,11
6293,78
784,00
550
100% CO2 (3)
618,67
510
4715,11
11808,44
1600,00
500
100% CO2 (3)
618,67
510
14081,78
11808,44
100,00
440
100% CO2 (3)
618,67
510
31921,78
11808,44
4900,00
510
100% CO2 (3)
618,67
510
550
100% CO2 (3)
618,67
510
yij
860,44
784,00
670
El modelo completo es
128,44
(yj − y j )2
11808,44 Suma
= µj + εij
11808,44
324,00
0,00
4715,11
11808,44
1600,00
108373,333
94813,333
13560,000
donde
i = 1, 2, 3, 4, 5 y j = 1, 2, 3.
La variación total sería 108373,333, este valor será llamado SCT. El objetivo es descomponer esta variación total es dos variaciones, una atribuible a los tratamientos y otra al error. La variación atribuible a los tratamientos (entre grupos) sería
y j , son muy similares y , entonces SCTR sería un valor pequeño, lo cual indicaría que no
94813,333, este valor será llamado SCTR. Si los al
hay diferencias entre los tratamientos.
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
6 / 37
Ejemplo: Nociones del análisis de varianza La variación atribuible al error (dentro del grupo) sería 13560,000, este valor será llamado SCE. Esta es la variación que existe entre cada dato y el promedio del tratamiento que fue aplicado (εij
= yij − µj ).
Note que se obtiene la siguiente descomposición de la varianza 108373, 333
|
{z
SCT
}
= 94813, 333 + 13560, 000 . | {z } | {z } SCTR
SCE
Para que exista un efecto atribuible a los tratamientos (promedio por tratamiento diferentes), la SCTR debería ser un valor grande en comparación a SCT (la SCE debería ser pequeña). El porcentaje que representa la SCTR de la SCT es
SCTR SCT
∗ 100% = 87, 5%.
Como la SCTR representa el 87,5% de la variación total (la SCE representa sólo el 12,5% de la variación total), entonces, al parecer, los promedios de los tratamientos son diferentes (efecto atribuible a los tratamientos).
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
7 / 37
Descomposición de la suma de cuadrados (Suma de cuadrados total) t X r X SCT = (yij − y )2 j =1 i =1
(Suma de cuadrados de los tratamientos) t X r X SCTR = (y j − y )2 j =1 i =1
(Suma de cuadrados de los errores) SCE
=
t X r X (yij − y j )2 j =1 i =1
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
8 / 37
Grados de libertad
(Relación de la suma de cuadrados) Las sumas de cuadrados se pueden descomponer mediante SCT
= SCTR + SCE
Ejemplo (Grados de libertad para las sumas de cuadrados)
n−t Los grados de libertad para la SCT serían n − 1 Los grados de libertad para la SCTR serían t − 1 Los grados de libertad para la SCE serían
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
9 / 37
Media cuadrática Denición (Media de cuadrática) o de
Se dene como la suma de cuadrados promedio, con respecto al n grados de libertad.
(Media cuadrática de los tratamientos) Es la variación entre (inter-grupos) cada tratamiento.
MCTR
=
SCTR
t −1
(Media de cuadrática del error) Es la variación dentro (intra-grupos) de cada tratamiento. También llamada estimación de la varianza del error experimental.
MCE
[email protected]
(UCM)
=
SCE
n−t
ANOVA un Factor
21/03/2011
10 / 37
Prueba de hipótesis (Tabla de ANOVA) Modelo
Fc
Suma de
Grados de
Media
cuadrados
libertad
cuadrática
Tratamiento (Inter-grupos)
SCTR
Error (Intra-grupos)
SCE
Total
SCT
t −1 n−t n−1
MCTR MCE
MCTR MCE
(Hipótesis) H0 : µ1 = µ2 = · · · = µ t
v/s
H1 : µi 6= µj ,
para algún
i, j
(Reglas para el rechazo de H0 ) Fijar
α
y Rechace
Rechace
H0
[email protected]
H0
si valor-p
(UCM)
si
Fc
> F1−α (t − 1, n − t )
< 0, 05,
donde valor-p=
ANOVA un Factor
P (F
> Fc ). 21/03/2011
11 / 37
Sumas de cuadrado, para diseños no balanceados En los diseños no balanceados cada tratamiento puede tener un n
o
r
diferente de UE's asignadas ( j ). Tanto la prueba de hipótesis como la tabla ANOVA se mantiene, considerando los siguientes cambios:
(Sumas de cuadrado, para diseños no balanceados) r t X X SCTR = (y j − y )2 j
j =1 i =1
r t X X SCT = (yij − y )2 j
j =1 i =1
donde;
yj
=
1
rj
[email protected]
r X j
yij
i =1 (UCM)
n=
t X
rj
j =1 ANOVA un Factor
y
=
1
n
r t X X j
yij
j =1 i =1 21/03/2011
12 / 37
Ejemplo de una ANOVA de un Factor en SPSS Con
α = 0, 05,
pruebe la hipótesis de que existe efecto atribuible a las
condiciones de empaque. Las hipótesis serían
H0 : µ1 = µ2 = µ3 = µ4
[email protected]
(UCM)
v/s
H1 : µi 6= µj ,
ANOVA un Factor
para algún
i, j
21/03/2011
13 / 37
Ejemplo de una ANOVA de un Factor en SPSS Puede descargar los datos desde
[email protected]
(UCM)
http://bit.ly/carne_anova_1factor
ANOVA un Factor
21/03/2011
14 / 37
Ejemplo de una ANOVA de un Factor en SPSS
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
15 / 37
Ejemplo de una ANOVA de un Factor en SPSS
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
16 / 37
Peso
Ejemplo de una ANOVA de un Factor en SPSS Segmentar archivo
Tratamiento de los valores perdidos
Con
Núm. de filas del archivo de trabajo
15
Definición de los valores perdidos
Los valores perdidos definidos por el usuario serán tratados como perdidos.
Casos utilizados
Los estadísticos de cada análisis se basan en los casos sin datos
α = 0, 05,
perdidos para cualquier variablede en pruebe la hipótesis que existe efecto atribuible a las el análisis.
Sintaxis
ONEWAY bacterias BY empaques
/STATISTICS condiciones de empaque. LasDESCRIPTIVES hipótesis serían /MISSING ANALYSIS.
H0 : µ1 = µ2 = µ3 = µ4 Recursos
Tiempo de procesador
00:00:00,000
v/s00:00:00,008
Tiempo transcurrido
H1 : µi 6= µj ,
para algún
i, j
[Conjunto_de_datos1] C:\Users\13865271\Desktop\carne.sav Descriptivos 750
Número de bacterias Intervalo de confianza para la media al 95% Desviación típica
Media
Al vacio
5
648,00
25,884
615,86
680,14
Mezcla de gases
5
698,00
25,884
665,86
730,14
100% CO2
5
510,00
45,277
453,78
566,22
15
618,67
87,983
569,94
667,39
Total
700
Límite superior
Límite inferior
95% IC Número de bacterias
N
ANOVA
650
600
550
Número de bacterias Suma de cuadrados Inter-grupos
Media cuadrática
gl
94813,333
2
47406,667
13560,000
12
1130,000
108373,333
14
500
F 41,953
Sig. ,000 450
Intra-grupos Total
Al vacio
Mezcla de gases
100% CO2
Condiciones de empaques
Como
Fc = 41, 953 > F0,95 (2, 12) = 3, 89 (o equivalentemente el p = 0, 000 < 0, 05) entonces, rechace H0 , en favor de H1 . Página 13
valor−
Conclusión: Existe un efecto atribuible a las condiciones de empaque.
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
17 / 37
Vericación de Supuestos Normalidad
Denición (Kolmogorov-Smirnov) Pruebas de signicación permiten contrastar la hipótesis de que las muestras obtenidas proceden de poblaciones normales (simétricas conforma de campana). Se debe vericar que para cada tratamiento, los datos provienen de una población con distribución normal.
(Regla) Se rechaza la hipótesis de normalidad si el valor p (sig.) es menor que 0,05.
En SPSS: Analizar -> Estadísticos Descriptivos -> Explorar -> Grácos -> Grácos con prueba de normalidad.
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
18 / 37
Ejemplo de vericación de normalidad en SPSS Verique si los datos de la supresión del crecimiento bacterial en carnes almacenadas, provienen de una distribución normal (en cada condición).
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
19 / 37
Ejemplo de vericación de normalidad en SPSS
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
20 / 37
Ejemplo de vericación de normalidad en SPSS
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
21 / 37
Ejemplo de vericación de normalidad en SPSS Pruebas de normalidad Condiciones de empaques
Kolmogorov-Smirnov Estadístico
Número de bacterias
a
gl
Shapiro-Wilk Sig.
Al vacio
,221
5
,200
Mezcla de gases
,221
5
,200
100% CO2
,213
5
,200
Estadístico * * *
gl
Sig.
,915
5
,501
,915
5
,501
,885
5
,332
a. Corrección de la significación de Lilliefors *. Este es un límite inferior de la significación verdadera.
Número de bacterias SPSS también entrega la prueba de Shapiro-Wilk, la cual se utiliza Gráficos Q-Q normales cuando ≤ 50, en caso contrario se utiliza la prueba de
n
Kolmogorov-Smirnov. Ambos métodos son para vericar el supuesto de normalidad. Utilizando la prueba de Kolmogorov-Smirnov, como en cada condición
p (sig.)
de empaque el valor−
es 0,20 > 0,05. Entonces, no se puede
rechazar la hipótesis de normalidad. Si utilizamos la prueba de Shapiro-Wilk, la conclusión sería la misma,
p no son los mismos.
con la única diferencia de que los valores−
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
22 / 37
Vericación de Supuestos Homogeneidad de varianzas
Denición (Prueba de Levene) La prueba de Levene (1960) contrasta la hipótesis de que los grupos denidos por la variable factor proceden de poblaciones con la misma varianza (supuesto de homogeneidad de varianzas). Consiste en llevar a cabo una ANOVA de un factor utilizando como variable dependiente la diferencia en valor absoluto entre cada puntuación individual y la media (o la mediana, o la media recortada) de su grupo.
(Regla) Se Rechaza la hipótesis de homogeneidad, si el valor p (Sig.) es menor que 0, 05.
En SPSS: Analizar -> Estadísticos Descriptivos -> Explorar -> Grácos -> Dispersión por nivel con prueba de Levene -> No transformados.
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
23 / 37
Ejemplo de vericación de homogeneidad en SPSS Verique si los datos de la supresión del crecimiento bacterial en carnes almacenadas, tiene varianzas iguales (entre cada condición de empaque).
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
24 / 37
Ejemplo de vericación de homogeneidad en SPSS
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
25 / 37
Ejemplo de vericación de homogeneidad en SPSS
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
26 / 37
Ejemplo de vericación de homogeneidad en SPSS 800
Prueba de homogeneidad de la varianza
Número de bacterias
700
gl1
gl2
Sig.
Basándose en la media
,573
2
12
,578
Basándose en la mediana.
,567
2
12
,582
Basándose en la mediana y con gl corregido
,567
2
8,987
,586
Basándose en la media recortada
,628
2
12
,550
Número de bacterias
Estadístico de Levene
600
500
400
Al vacio
Mezcla de gases
100% CO2
Condiciones de empaques
Considere las hipótesis
H0 : σ12 = σ22 = σ32 .
(varianzas iguales para las
distintas condiciones de empaque) Si consideramos la prueba de homogeneidad basado en la media, no podríamos rechazar
H0 ,
p = 0, 578 > 0, 05.
pues el valor−
Página 1
En el diagrama de caja, se nota esta armación, por lo menos en el empaque al vacío y mezcla de gases.
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
27 / 37
Comparaciones Múltiples post hoc
Denición (Comparaciones Múltiples) Método que permite comparar si existen diferencias signicativas entre un par me tratamientos
Si se asume que cada tratamiento proviene de una distribución con la misma varianza, comúnmente se utiliza el
método de Tukey (todas las comparaciones son referidas a la misma
diferencia mínima) o el
método de Dunnett (sirve para comparar todos los grupos con el testigo.
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
28 / 37
Método de Tukey Tukey (1949a) desarrolló un procedimiento, para las comparaciones en pares de todas la medias de tratamiento, que se usa para obtener intervalos de conanza simultáneos de 100(1
− α)%.
La prueba se conoce también
como diferencia honestamente signicativa. Todas las comparaciones son referidas a una misma diferencia mínima.
(Método de Tukey para todas las comparaciones por pares) Para un grupo de
t
medias de tratamiento, se calcula la diferencia
honestamente signicativa como:
r
DHS (t , α) = q (α, t , n − t )
MCE r
Las estimaciones de los intervalos simultáneos de dos lados para el valor absoluto de todas las diferencias por pares,
µi − µj .
para toda
i µ3 , pues el signo del intervalo es positivo). Equivalentemente, Deberíamos rechazar la hipótesis nula (H0 : µ1 = µ3 ), pues el valor−p = 0, 000 < 0, 05. valor− . Por ejemplo, si planteamos los hipótesis
También se presenta una tabla resumen, de sub-grupos homogéneos (estadísticamente iguales).
[email protected]
(UCM)
ANOVA un Factor
21/03/2011
37 / 37