Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia
Capítulo VII Análisis de Covariancia
Si usted tortura los datos lo suficiente, ellos confesarán. Ronald Coase
1. Introducción En el análisis de covariancia se combinan los conceptos del análisis de variancia para un diseño experimental y para regresión. El análisis de covariancia es utilizado en casos en los que la variable respuesta de un diseño experimental esté relacionada con una o más variables concomitantes. En este capítulo se tratará el caso de la covariancia lineal con una sola variable concomitante y se presentará el análisis para el Diseño de Bloques Completos al Azar. El estudiante sin embargo, no tendrá ningún problema en llevar esta técnica a un Diseño Completamente al Azar.
2. Modelo Aditivo Lineal El modelo aditivo lineal para un análisis de covariancia en un Diseño de Bloques Completos al Azar es el siguiente: Y^ + r^+Z?( Xij-X..) + %
i = 1,..., t
j = 1,..,b
donde: Yij es el valor o rendimiento observado en el i-ésimo tratamiento, j-ésimo bloque. ju es el efecto de la media general. Ti es el efecto del i-ésimo tratamiento. Yj es el efecto del j-ésimo bloque. y? es el coeficiente de regresión lineal de Y sobre X. Xij es el valor de la variable independiente en el i-ésimo tratamiento, j-ésimo bloque. X„ es la media de la variable independiente. sij es el efecto del error experimental en el i-ésimo tratamiento, j-ésimo bloque. t es el número de tratamientos. b es el número de bloques.
Ing. Raúl Eyzaguirre Pérez
reyzagui
[email protected]
100
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I Covariancia
Análisis de
Ejemplo 1: Se desarrolló un experimento cuyo objetivo era determinar si la exposición en agua calentada artificialmente afectaba el crecimiento de las ostras. Cinco bolsas con diez ostras cada una fueron aleatoriamente asignadas a cinco temperaturas (T1, T2, T3, T4, T5); cada bolsa constituía una unidad experimental. Se utilizaron cinco estanques, cada uno calentado a una de las cinco temperaturas. Las ostras fueron limpiadas y pesadas al comienzo y al final del experimento un mes después. El experimento se repitió cuatro veces para lo cual fueron necesarios 4 meses. Cada repetición constituye un bloque. Los pesos iniciales y finales se presentan en la siguiente tabla: Blo T1 T2 T3 q. XY XY XY I 20.4 24.6 27.2 32.6 26.8 31.7 II 19.6 23.4 32.0 36.6 26.5 III 25.1 30.3 33.0 37.7 IV 18.1 21.8 26.8 31.0 30.7 26.8 30.4 Tot 83.2 100.1 119.0 108.7 al 137.9 126.6 El modelo aditivo lineal es el siguiente:
T4 XY 22.4 29.1 23.2 28.9 28.6 35.2 24.4 30.2 98.6 123.4
Yij=// + ri+rj+/?(Xij-X..) + %
T5 XY 21.8 27.0 24.3 30.5 30.3 36.4 29.3 35.0 105.7 128.9
i = 1,..., t
Total X Y 118. 145. 6 0 125. 150. 6 1 143. 515. 170. 616. 2 9
j = 1,..,b
donde: Yij es el peso final de una bolsa de ostras tratada con la i-ésima temperatura de agua (tratamiento) en el j-ésimo mes (bloque). ju es el efecto de la media general de los pesos. Ti es el efecto de la i-ésima temperatura del agua. y¡ es el efecto del j-ésimo mes. p es el coeficiente de regresión lineal de Y, el peso final de las ostras, sobre X, el peso inicial. Xij es el peso inicial de una bolsa de ostras tratada con la i-ésima temperatura de agua (tratamiento) en el j-ésimo mes (bloque). X„ es el peso medio inicial de las bolsas de ostras. s„ es el efecto del error experimental con la i-ésima temperatura de agua, en el j-ésimo mes. t = 5 (Número de tratamientos). b = 4 (Número de bloques).
3. Suposiciones del Modelo Estadístico Además de los supuestos de un Diseño de Bloques Completos al Azar, se deben cumplir los siguientes: 1. Los valores de X son fijos, medidos sin error, y no son afectados por los tratamientos. Ing. Raúl Eyzaguirre Pérez
[email protected]
du.pe
101
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia 2. Las variables X y Y deben tener variancias homogéneas entre los tratamientos. 3. La regresión de Y sobre X debe ser lineal.
4. Análisis de Covariancia La met odol ogía para efec tuar el Aná lisis de Cov aria ncia se resu me a cont inua ción :
a d
Cuadro ANCOVA Fuentes de Bloques
Gl
SCX
6- 1
Trat. Error Trat. + Error í- 1T E -SCE t SC -1 S u m a s + +
d e c u a d r a d o s , g r a d o s d e l i b e r t
5;^
SPx r 5x7
SCY
SC aj.
BYY
t-1
7>x
Txy
TYY
(–1)(6– 1)
Exx
EXY
EYY
SC£ = EYY -^xx
6(í- 1)
Sxx
SXY
SYY
o2 SCr+£ = Srr ^XX
y c u a d r a d o s x*
m e d i o s p a r a e v a l u a r d i f e r e n c i a s e n t r e m e
d i a s
X =
a j u s t a d a s d e t r a t a m i e n t o s Los pasos para la construcción del cuadro ANCOVA son los siguientes: 5. Calcule los grados de libertad (Columna gl). 6. Calcule las sumas de cuadrados total en X y Y y la suma de productos total: xy
t b
donde:
SC(X) = SS^2-^-
Í = 1
¿= 1 ;= 1
TCX = t
t b
j = 1 b
T C
X Y
T Y
t b 3. Calcule las sumas de cuadrados en X y Y y la suma de productos para cada una de las fuentes de variación (Columnas SCX, SPXY, SCY): Para Bloques: B TC, XX j=1 X 2 t H^ I n
b X Y nxr Z_i
1
b ^V x r YY # 1
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia Para Tratamientos: ' X2 ' XY 'Y2 1xx ~ Z-i Í x XY ~ Z-i
Í
XY YY ~ Z-i Í
1
y i=\
"
i=\ " i=\
"
Para el Error (Por diferencia): Exx = SC(X) B^ -T^ EXY= SP(XF) -Bxy-Txy EYY = SC(7) BYY - TYY 4. Calcule las sumas de cuadrados y productos para Tratamientos + Error: ^XX ~ *-XX ~"~ ^XX ^XY ~ *-XY
~"~ -^XY
i j
^YY ~
*YY ~"~ ^YY
y
5. Calcule las sumas de cuadrados
616 92
ajustadas (Columna SC aj.):
(5)(4) = (24.6 2 +23.4 2 +... + 35.0 2 )-------------------------------------= 358.67
F2
E
V2 ^YY T+E „ -^XX
r, YY I n
^XX 6. Calcule la suma de cuadrados ajustada para evaluar diferencias entre las medias ajustadas de los tratamientos: SCr+£ - sc£ 7. Calcule los grados de libertad ajustados (Columna gl aj.). 8. Calcule los cuadrados medios ajustados (Columna CM aj.). Ejemplo 1 (Cont): A continuación se presentan los cálculos para la construcción del cuadro ANCOVA para el ejemplo tratado en esta sección: tb sc(x) = XSX-rc, tb (5) (4) SP(XF) = ^ Z Va ~ TC*y ¿=i j=\ = (20.4 2 +19.6 2 +... + 29.3 2 )- 515'2 =309.79 ((20.4)(24.6) + (19.6)(23.4) + ... + (29.3)(35.0))(515'2^616^ = 325.67 tb
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia b Y2 BXX =YJ~~TCX
2 (118.6 +125. 6 2+...2+ 127.22) 515.2 _ ----------------------------------— 68.37 5
( 5 X 4 ) fe II XT ^=Z^^-rC^ ((118.6) (145.0) + (125.6) (150.!) + ... + (127.2) (151.8)) (515.2) (616.9) 5 (5X4) b y2 BYY =^-^-7U7
( 1 4 5 . 02 + 1 5 0 . r + . . . + 1 5 1 . 82
22 2 2
) 6 1 6 . 92
= 358.6771.37-198.41 = 88.89 Con estos
= 7 1 . 3 7
resultados, el cuadro ANCOVA 5
es el siguiente:
(5)(4) í y2 ¿=i * _(83.2 2 +119.0 ¿ +... + 105.7¿) " 4 7 X (5X4) ¿=1 " 22 2
I n
515.2
2 = 176.79
1XY ~ ¿_¡ 7 ^XT ¿=1 * ((83.2)(100.1) + (119.0) (137.9) + ...(105.7) (128.9)) (515.2)(616.9) _ 1Q1 _ —-------------------------------------------------------------------------------—181.61 4 1
í T/2 r =Y—-TC
(5X4)
6 i=\
22 (100.12 +137.92 +... + 128.92)
±YY
2 616.92
¿_¡ Y 4 (5X4)
^xx = ^^(^)~"xx ~*xx = 309.79-68.37-176.79 = 64.63 Exr=SnXY)-Bxr-Txr = 325.67-69.56-181.61 = 74.50
1 = 198.41
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia
Fuentes de Bloques
gl
SCX
3
68.37
Tratamientos
4
176.79
Error
12
64.63
Trat. + Error
16
241.42
Cantidades para evaluar diferencias medias ajustadas de tratamientos 4.1. Prueba de Hipótesis para el Coeficiente de Regresión El primer paso en un análisis de covariancia es evaluar la significancia del coeficiente de regresión. Si el coeficiente de regresión resulta significativo, entonces se justifica el uso de la variable concomitante X en el modelo y por lo tanto, los efectos de los tratamientos deberán evaluarse con los datos corregidos por la regresión. De no resultar significativo este coeficiente, los efectos de los tratamientos serían evaluados a
partir de un Análisis de Variancia sin considerar el efecto de la variable concomitante X.
β
El procedimiento de prueba de
=
hipótesis para el coeficiente de 0
regresión es el siguiente:
H
Hipótesis:
1
H
:
0
:
β
β
≠
=
0 Estas hipótesis con equivalentes a:
0 H
H0: El peso final de las ostras no depende linealmente del peso inicial.
1
: β I n
≠ 0 Estadístico de Prueba: F Fc 2XY E
XX E CMEaj.
(1,gl(Error aj.))
Regla de Decisión: La hipótesis nula se rechaza con un nivel de significación α si el Fc resulta mayor que el valor de tabla F(1-α, 1, gl(Error aj.)) . Ejemplo 1 (Cont.): H 0
:
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia H1: El peso final de las ostras sí depende linealmente del peso inicial. E2 X Y 74.502 Fc =-----E^ = 6463 = 31305 „ F CMEaj. 0.2743 (1, 11) El valor de tabla para un nivel de significación del 5% es F(0951 11)= 4.84. Como el valor calculado es mayor que el valor de tabla se rechaza H0 y se concluye que existe suficiente evidencia estadística para aceptar que el peso final de las ostras depende linealmente del peso inicial. 4.2. Prueba de Hipótesis para los efectos de los tratamientos En el caso que la regresión resulte significativa, las hipótesis para los tratamientos se
plantearán en términos de los efectos (medias) de los tratamientos ajustados por la regresión. Hipótesis: H0: JUi aj. = ¿Uaj. V i H1: //i aj. * //aj. para al menos algún i
3 , 4 ,
Estadístico de Prueba: Fc = CM(Trat aj.)^ CME aj.
5 gl(trat. aj.),gl(Error aj.))
Regla de Decisión: La hipótesis nula se rechaza con un nivel de significación a si el Fc resulta mayor que el valor de tabla F 1 .. [-a, gl(trat. aj.), gl(Error aj.)J Ejemplo 1 (Cont.): H
H 1 : / / i
a
j .
0
:
^
A a j .
j U a j .
= / / a j .
p a r a a l
i = 1 , 2 ,
m e n o s a
l g ú n i o literalmente: H0: Las cinco temperaturas son igualmente efectivas en el crecimiento de las ostras. H1: Con al menos una de las temperaturas se obtienen resultados diferentes en el crecimiento de ostras. Fc = CM(Trat aj.) = 3.1493 = 1 1 4 8 ^ CME aj. 0.2743 (4,11) El valor de tabla para un nivel de significación del 5% es F(095,4,11)= 3.36. Como el valor calculado es mayor que el valor de tabla se rechaza H0 y se concluye que existe suficiente I n
1
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia evidencia estadística para aceptar que con al menos una temperatura se obtiene un peso final diferente para las ostras.
5. Pruebas de Comparación de Medias de Tratamientos
E
Para aplicar las pruebas de comparación de medias de tratamientos se debe trabajar con las medias de los tratamientos ajustadas por la regresión. Para efectuar el ajuste, se debe calcular primero el coeficiente de regresión estimado, el cual es dado por: E XY
p
Las medias de los
tratamientos
ajustadas por la
I n regresión están dadas por: Las desviaciones
estándar para las pruebas son: 1. Prueb aty DLS
d
2 d
3 .
s
1
1 (Xi^E* X^)2 —l-----hri rj
C M E aj
EX 1(X^- 1 CM X X^)2 E —l----haj. ij
CME aj E1+1+ ( XT.Xi.)2
d
D u n
'XX
Estas fórmulas se aplican si el diseño es un DCA con ri y rj repeticiones para el par de tratamientos que se estén comparando (rT es el número de repeticiones para el tratamiento testigo). En el caso de un DBCA, que es el diseño que se está tratando en esta sección, el número de repeticiones para cada tratamiento es igual a b, por lo que en las fórmulas anteriores ri = rj = rT = b y 1ri + 1rj =2/ b. 74.5 Ejemplo 1 (Cont.): Efectúe la pruebe de Tukey. 0 Las hipótesis son las siguientes: H0: Aaj. = Mj aj. V i j = 1, 2, ... 5, con i *j H1: //i aj. ^^yaj. El coeficiente de regresión estimado es:
1.15 27 E
E XY
P
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I Covariancia
Análisis de
Las medias de las variables X y Y sin ajustar para cada tratamiento son: X1% = 20.8 Y1 =25.025
X2. = 29.75 Y2. =34.475
X3. = 27.175 Y 3. =31.65
X4. = 24.65
X5. = 26.425
Y4. =30.85
Y 5. =32.225
X„ = 25.76
Las medias de Y ajustadas para cada tratamiento según la fórmula Yi. aj = Yi. - ˆ (Xi. - X„) son: Y1 aj =30.74
Y2.aj =29.88
Y3.aj =30.02
Y4.aj =32.13
Y5.aj =31.46
El valor de tabla con a = 5%, p = 5 tratamientos y 11 grados de libertad para el error ajustado es AES(T) = 4.57. La amplitud límite significativa de Tukey está dada por la siguiente fórmula: 2i(X,-Xj.)2~
CME aj. ALS(T) = AES(T) 2
— H--------------bEXX
donde b = 4, CME aj. = 0.2743 y EXX = 64.63. A continuación se presentan los resultados para las 10 comparaciones: Tratamientos comparados 1y2 1y3 1y4 1y5 2y3 2y4 2y5 3y4 3y5 4y5
\Y -Y 1 i* aj 0.867 0.724 1.387 0.716 0.143 2.254 1.583 2.111 1.440 0.671
T2 29.88
Ing. Raúl Eyzaguirre
sd
ALS(T)
Significancia
0.488 0.393 0.316 0.368 0.287 0.352 0.303 0.287 0.264 0.274
2.232 1.798 1.445 1.684 1.314 1.608 1.386 1.310 1.207 1.254
n.s. n.s. n.s. n.s. n.s. * * * * n.s.
j•
T3 30.02
T1 30.74
T5 31.46
T4 32.13
Pérez
[email protected] du.pe
108
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia Anexo: Salida de Minitab General Linear Model F a c t o r T y p e L e v e l s V a l u e s B l o q f i x e d 4 1 2 3 4 T r a t f i x e d 5 1
Lev Differen Tra of Means 3 0.1433 4 2.2539 5 1.5828 Tra 3 t subtracte d from:
2 3 4 5 Analysis of Variance for Y, using Adjusted SS for Tests Sourc X Bloq Trat Error Total Term Const X
D 1 3 4 1 1 9
Seq SS 342.35 0.697 12.597 3.017 358.67 0 Coef StDev 1.151 6 1.15273
A 8 1 1 3
8 2 5 0
Adj 85.87 0.402 3.149 0.274
F 3 . 1 . 1 .
T P 0 6 0.508 1 6 0.000
Unusual Observations for Y O 1
Y 30.500
Fit 29.68
StDev 0.3451
Residu 0.811
St 2.06R
R denotes an observation with a large standardized residual. Tukey Simultaneous Tests Response Variable Y All Pairwise Comparisons among Levels of Trat Trat = 1 subtracted from: Lev Differen SE of Tra of Means Differe T2 -0.8669 0.6908 3 -0.7237 0.5565 4 1.3870 0.4473 3.101 5 0.7159 0.5210 1.374 Trat 2 subtracted from:
Adjus P0.721 0.696 0.062 0.654
SE of Differe 0.4066 0.4976 0.4291
Lev Differen SE of Tra of Means Differe T4 2.111 0.4052 5.208 5 1.440 0.3736 3.854 Trat 4 subtracted from:
Adjus P0.002 0.018
Lev Tra 5 I n
Differen of Means -0.6711
SE of Differe 0.3880
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia Ejercicios 1.
En una estación experiment al se realizó un experiment o en el que se evaluó el efecto del tiempo de cosecha sobre el rendimiento de grano de maíz. Se diseñó un experiment o con cuatro tratamiento s usando una distribución de bloques completos al azar. Los tratamiento s fueron 30, 35, 40 y 45 días después de ocurrida la polinizació n (para el tiempo de cosecha). El número de plantas por parcela útil fue de 52. La variedad usada fue “V1” y el cultivo se efectuó con riego. Los valores se presentan
en al siguiente tabla:
5X Y
Rendimiento de grano seco (Kg / parcela útil) y Nº de plantas de maíz cosechada sa diferentes fechas de la polinizaci ón. X: Nº de plantas Y: Producció n de grano seco (Kg / parcela) Días de tratamiento 30 35 40 45
12. Presente el Modelo Aditivo Lineal y defina cada uno de sus componentes en términos del problema. 13. Presente el cuadro de ANCOVA y realice las pruebas correspondientes. 14. Encuentre las medias de los tratamientos ajustados. I n Bloques
I X 41 40 37 32
Y 4.08 4.26 4.72 4.00
II Y
X 24 36 32 38
X 2.78 4.23 4.92 4.53
9. Presente el Modelo Aditivo Lineal y defina cada uno de sus componentes en términos del problema. 10. Presente el cuadro ANCOVA y realice las pruebas correspondientes. 11. Realice la prueba de Tukey. 2. La siguiente información corresponde a pesos iniciales (X) y ganancias de peso (Y) en Kg de lechones en un ensayo comparativo de 6 raciones en 5 corrales (bloques). Corral 1X Y 2X Y 3X Y 4X Y
1 17 4.32 16 3.72 19 4.23 22 4.79
2 22 4.5 1 15 4.3 16 4.23 21 4.9
20 4.7 3
Raciones 3 4 18 22 3.8 4.54 6 17 15 4.5 4.19 21 19 3.8 4.24 21 18 4.02 4.39
Y 31 44 38 40
X
15 4.0 0
Departamento de Estadística e Informática Curso: Métodos Estadísticos para la Investigación I
Análisis de Covariancia d) Efectúe la prueba de Dunnett. Considere que la ración 1 es el testigo. 3. Se tiene un experiment o con 3 variedades de trigo y se desea averiguar en que variedad se tiene mayor peso de raíces (Y) en gramos de materia seca. Se cree que el número de plantas (X) influye sobre el tamaño de las raíces por lo cual se utilizará el Análisis de Covariancia en este experiment o, el mismo que se lleva a cabo utilizando cinco macetas en invernadero . El diseño estadístico utilizado es el DCA. Nº de Maceta
I X
Y
1 2 3 4 5
6 4 6 4 4
0.54 0.56 0.55 0.60 0.59
15. Plantee el modelo estadístico adecuado y explique cada uno de sus componentes en términos del enunciado. 16. Presente el cuadro de ANCOVA y realice las pruebas correspondientes. 17. Utilice la prueba t para evaluar si con la variedad I se obtienen pesos superiores en más de 0.5 gr que con la variedad II.
8 5 4 5 7
0.11 0.20 0.23 0.21 0.09
Ing. Raúl Eyzaguirre Pérez
[email protected] du.pe
111